Speculators chega ao OpenShift AI 3.4 e acelera LLMs

15 maio 2026

up23labs up23labs

A Red Hat anunciou em 14 de maio que o projeto Speculators chegou a GA (General Availability, disponibilidade geral) na plataforma de IA da empresa, comecando pelo release 3.4 do OpenShift AI. A peca padroniza speculative decoding, tecnica que combina modelo “draft” pequeno com verificador grande para entregar 2x a 3x mais velocidade e custo proporcional.

O que e speculative decoding

LLMs geram texto token por token. A cada token, o modelo grande faz uma passagem completa pela rede neural e produz uma distribuicao de probabilidades sobre o vocabulario. E um trabalho caro: para cada token de saida, todo o peso do modelo e ativado.

O truque do speculative decoding e usar dois modelos. O draft — modelo pequeno, rapido — propoe varios tokens de uma vez, especulando o que o modelo grande provavelmente produziria. O verificador — o modelo grande — valida essas propostas em uma unica passagem, em vez de uma por token.

Quando o draft acerta, a aceleracao e grande: dois ou tres tokens validados pelo preco de um. Quando erra, a verificacao rejeita os errados e o sistema cai de volta para geracao token a token. O ganho liquido depende da taxa de acerto do draft.

O que o Speculators padroniza

O problema com speculative decoding ate agora era operacional. Cada projeto implementava do seu jeito: como casar draft com verificador, como medir aceitacao, como hospedar os dois modelos em GPU compartilhada. Esse ecossistema fragmentado dificultava adocao em producao.

O Speculators e a padronizacao desse padrao dentro do vLLM (servidor de inferencia open-source que e a base do Red Hat AI Inference). Ele define uma API consistente para registrar pares draft/verifier, runtime que orquestra a especulacao e validacao, e formato de modelos pre-treinados publicaveis.

A Red Hat publica modelos prontos no Hugging Face sob a organizacao RedHatAI. Quem nao quer treinar o proprio draft pode baixar um pronto compativel com o verificador escolhido.

As familias cobertas

O release inicial cobre familias populares: Llama 3.1 e 3.3, Qwen3, gpt-oss em 20B e 120B parametros, e Gemma 4. A escolha cobre boa parte do que times de plataforma rodam hoje em ambientes self-hosted.

O detalhe sobre gpt-oss merece atencao: e a primeira vez que speculative decoding pre-treinado fica disponivel publicamente para o modelo open-source que a OpenAI liberou no inicio de 2026. Para times que ja estavam tentando reduzir o custo de servir gpt-oss em escala, e uma peca direta.

Onde o ganho de 2x-3x se materializa

A promessa de ganho de 2x a 3x precisa de contexto. O ganho real depende de tres variaveis.

Taxa de aceitacao do draft: drafts treinados especificamente para casar com o verificador entregam taxa maior. Drafts genericos entregam taxa menor.

Tipo de carga: textos previsiveis (codigo, traducao, sumarizacao) tem alta taxa de aceitacao. Textos com decisoes criativas (escrita livre, dialogo aberto) tendem a menor taxa.

Hardware: como verificador roda em batch, ganho depende de GPU com bom throughput. H100 e H200 entregam o ganho prometido; GPUs menores podem nao se beneficiar igualmente.

A Red Hat nao publicou no anuncio quais condicoes especificas geraram a faixa de 2x-3x. Quem implementar em producao precisa medir no proprio ambiente.

Integracao com vLLM

O Speculators e implementado em cima do vLLM, que ja era o servidor de inferencia mais usado em ambientes self-hosted. Isso e bom — quem ja roda vLLM nao precisa migrar para framework novo. Configuracao adicional, sim; framework novo, nao.

A Red Hat empacota a peca no OpenShift AI 3.4 (versao gerenciada) e no Red Hat AI Inference (oferta standalone). Quem prefere usar o vLLM upstream direto tambem consegue, com o trabalho de configuracao por conta.

O ponto delicado: equivalencia de saida

Um detalhe que sempre aparece em discussao sobre speculative decoding e a equivalencia de output. Em tese, com verificacao correta, a saida do speculative deve ser estatisticamente identica a saida sem especulacao. Em pratica, detalhes de implementacao podem introduzir diferencas.

A Red Hat nao publicou no anuncio uma analise de equivalencia de output entre Speculators e geracao convencional. Para casos sensiveis (decisao automatizada, conteudo critico), validar a equivalencia antes de aceitar a aceleracao e prudente.

O que vale testar primeiro

Para times rodando vLLM hoje: vale baixar um par draft/verifier do Hugging Face para uma familia que ja esta em producao e medir tres coisas no proprio trafego. Taxa de aceitacao real, ganho de throughput real, e equivalencia de saida em amostra representativa.

Se a taxa de aceitacao for baixa para a carga real, o ganho liquido pode ser menor que o anunciado, e a complexidade adicional pode nao compensar. Se for alta, o ROI da implantacao em producao fecha rapido.

Reportado originalmente por Red Hat Blog em 2026-05-14.

§ FONTE / SOURCE /

Fonte no corpo do artigo

Esse post foi reescrito a partir da fonte original. Leia o artigo completo no link acima.

O que e speculative decoding

O que o Speculators padroniza

As familias cobertas

Onde o ganho de 2x-3x se materializa

Integracao com vLLM

O ponto delicado: equivalencia de saida

O que vale testar primeiro

Compartilhe isso:

Curtir isso:

Posts relacionados § MESMA CATEGORIA

Anthropic e Fundacao Gates fecham parceria de US$ 200 mi

Google lanca Genkit Middleware para apps agenticos

Airbyte: eventos ou polling para acionar agentes de IA

Descubra mais sobre up23labs