A Red Hat anunciou em 14 de maio que o projeto Speculators chegou a GA (General Availability, disponibilidade geral) na plataforma de IA da empresa, comecando pelo release 3.4 do OpenShift AI. A peca padroniza speculative decoding, tecnica que combina modelo “draft” pequeno com verificador grande para entregar 2x a 3x mais velocidade e custo proporcional.
O que e speculative decoding
LLMs geram texto token por token. A cada token, o modelo grande faz uma passagem completa pela rede neural e produz uma distribuicao de probabilidades sobre o vocabulario. E um trabalho caro: para cada token de saida, todo o peso do modelo e ativado.
O truque do speculative decoding e usar dois modelos. O draft — modelo pequeno, rapido — propoe varios tokens de uma vez, especulando o que o modelo grande provavelmente produziria. O verificador — o modelo grande — valida essas propostas em uma unica passagem, em vez de uma por token.
Quando o draft acerta, a aceleracao e grande: dois ou tres tokens validados pelo preco de um. Quando erra, a verificacao rejeita os errados e o sistema cai de volta para geracao token a token. O ganho liquido depende da taxa de acerto do draft.
O que o Speculators padroniza
O problema com speculative decoding ate agora era operacional. Cada projeto implementava do seu jeito: como casar draft com verificador, como medir aceitacao, como hospedar os dois modelos em GPU compartilhada. Esse ecossistema fragmentado dificultava adocao em producao.
O Speculators e a padronizacao desse padrao dentro do vLLM (servidor de inferencia open-source que e a base do Red Hat AI Inference). Ele define uma API consistente para registrar pares draft/verifier, runtime que orquestra a especulacao e validacao, e formato de modelos pre-treinados publicaveis.
A Red Hat publica modelos prontos no Hugging Face sob a organizacao RedHatAI. Quem nao quer treinar o proprio draft pode baixar um pronto compativel com o verificador escolhido.
As familias cobertas
O release inicial cobre familias populares: Llama 3.1 e 3.3, Qwen3, gpt-oss em 20B e 120B parametros, e Gemma 4. A escolha cobre boa parte do que times de plataforma rodam hoje em ambientes self-hosted.
O detalhe sobre gpt-oss merece atencao: e a primeira vez que speculative decoding pre-treinado fica disponivel publicamente para o modelo open-source que a OpenAI liberou no inicio de 2026. Para times que ja estavam tentando reduzir o custo de servir gpt-oss em escala, e uma peca direta.
Onde o ganho de 2x-3x se materializa
A promessa de ganho de 2x a 3x precisa de contexto. O ganho real depende de tres variaveis.
Taxa de aceitacao do draft: drafts treinados especificamente para casar com o verificador entregam taxa maior. Drafts genericos entregam taxa menor.
Tipo de carga: textos previsiveis (codigo, traducao, sumarizacao) tem alta taxa de aceitacao. Textos com decisoes criativas (escrita livre, dialogo aberto) tendem a menor taxa.
Hardware: como verificador roda em batch, ganho depende de GPU com bom throughput. H100 e H200 entregam o ganho prometido; GPUs menores podem nao se beneficiar igualmente.
A Red Hat nao publicou no anuncio quais condicoes especificas geraram a faixa de 2x-3x. Quem implementar em producao precisa medir no proprio ambiente.
Integracao com vLLM
O Speculators e implementado em cima do vLLM, que ja era o servidor de inferencia mais usado em ambientes self-hosted. Isso e bom — quem ja roda vLLM nao precisa migrar para framework novo. Configuracao adicional, sim; framework novo, nao.
A Red Hat empacota a peca no OpenShift AI 3.4 (versao gerenciada) e no Red Hat AI Inference (oferta standalone). Quem prefere usar o vLLM upstream direto tambem consegue, com o trabalho de configuracao por conta.
O ponto delicado: equivalencia de saida
Um detalhe que sempre aparece em discussao sobre speculative decoding e a equivalencia de output. Em tese, com verificacao correta, a saida do speculative deve ser estatisticamente identica a saida sem especulacao. Em pratica, detalhes de implementacao podem introduzir diferencas.
A Red Hat nao publicou no anuncio uma analise de equivalencia de output entre Speculators e geracao convencional. Para casos sensiveis (decisao automatizada, conteudo critico), validar a equivalencia antes de aceitar a aceleracao e prudente.
O que vale testar primeiro
Para times rodando vLLM hoje: vale baixar um par draft/verifier do Hugging Face para uma familia que ja esta em producao e medir tres coisas no proprio trafego. Taxa de aceitacao real, ganho de throughput real, e equivalencia de saida em amostra representativa.
Se a taxa de aceitacao for baixa para a carga real, o ganho liquido pode ser menor que o anunciado, e a complexidade adicional pode nao compensar. Se for alta, o ROI da implantacao em producao fecha rapido.
Reportado originalmente por Red Hat Blog em 2026-05-14.



