← voltar pro feed UP23LABS · ARTIGO
§

OpenAI, NVIDIA, AMD, Intel publicam spec MRC para clusters GPU

/
Imagem destacada: OpenAI, NVIDIA, AMD, Intel publicam spec MRC para clusters GPU

OpenAI, AMD, Broadcom, Intel, Microsoft e NVIDIA publicaram em conjunto a especificacao Multipath Reliable Connection (MRC) atraves do Open Compute Project (OCP). O protocolo aberto mira melhoria de resiliencia e desempenho em clusters de GPU usados para treinar modelos de IA em larga escala. A lista de signatarios inclui empresas que competem diretamente no mercado de chips para IA, o que torna o anuncio uma raridade no setor.

O que e o Open Compute Project

O Open Compute Project e um consorcio de hardware aberto criado pela Meta (entao Facebook) em 2011. A ideia original era padronizar designs de servidores, racks e infraestrutura de data center para reduzir custo de construcao em escala. Com o tempo, o OCP virou o lugar onde a industria publica padroes de infraestrutura aberta.

Aderir ao OCP nao e gesto de marketing. As especificacoes saem como documentos formais com governanca propria. Quem implementa precisa seguir a especificacao se quiser certificacao compativel. Para clientes finais (provedores de nuvem, empresas que constroem data centers proprios), o resultado e poder misturar componentes de varios fornecedores que seguem o mesmo padrao.

O que e interconnect em cluster GPU

Quando um modelo de IA grande e treinado, ele nao roda em uma GPU isolada. Treinamento moderno usa centenas, milhares ou ate dezenas de milhares de GPUs em paralelo. Essas GPUs precisam trocar dados entre si com frequencia altissima: a cada passo de gradient descent, partes do modelo distribuidas em chips diferentes precisam sincronizar.

A interconexao (interconnect) e a camada de rede que liga essas GPUs. Pode ser dentro de um servidor (NVLink, em GPUs NVIDIA) ou entre servidores (Ethernet, InfiniBand, Slingshot). Quanto melhor a interconexao, mais eficiente fica o treinamento e mais barato sai o custo por modelo treinado.

Por que MRC foi necessario

A escala atual de cluster GPU virou problema para os protocolos existentes. Treinar um modelo grande exige sincronizacao entre centenas de milhares de GPUs simultaneamente. Quando uma das conexoes falha (queda de link, perda de pacote, lentidao em um trecho da rede), o protocolo tradicional precisa renegociar o fluxo, atrasando todo o cluster.

MRC propoe duas mudancas. Primeiro, multipath: cada conexao logica entre dois nos pode usar varios caminhos fisicos em paralelo, distribuindo carga e tolerando falha de um caminho sem perda. Segundo, reliable: garantias de entrega ordenada com pouco overhead, evitando os custos de protocolos como TCP que foram desenhados para rede de internet, nao para data center de IA.

A combinacao permite construir clusters maiores sem perder eficiencia por causa de problemas de rede.

O peso da lista de signatarios

A lista de empresas que assinaram a especificacao chama atencao. NVIDIA domina o mercado de GPU para treinamento. AMD e Intel sao os principais competidores. Broadcom faz chips de rede que conectam os clusters. Microsoft e cliente desses tres e opera grandes data centers de IA. OpenAI e cliente da nuvem que usa essa infraestrutura.

E como Pepsi, Coca-Cola e Coca-Cola Zero anunciando juntas uma garrafa padronizada. Acontece porque ninguem ganha sozinho. Cada vendor isolado tem incentivo para padronizar a interconexao mesmo perdendo lock-in de protocolo proprietario, porque o mercado total fica maior se clientes confiarem que seus clusters vao funcionar.

Por que isso importa para devs no Brasil

O impacto direto e zero. Quem treina modelo de IA em GPU pessoal ou em servidor isolado nao vai notar. O impacto indireto chega via cloud providers. Quando AWS, Azure, Google Cloud, Oracle Cloud e outros migrarem suas frotas de GPU para a especificacao MRC nos proximos meses, o efeito sera throughput maior por instancia e provavelmente preco unitario menor.

E relevante tambem para quem trabalha com fine-tuning de modelos abertos em provedores especializados (Lambda Labs, CoreWeave, RunPod). Essas empresas tendem a adotar MRC mais rapido por dependerem fortemente de eficiencia de cluster.

O que observar a seguir

A implementacao em hardware e software vai chegar de forma escalonada. NVIDIA, AMD e Intel ja indicaram que produtos lancados a partir de 2027 vao implementar a especificacao nativamente. Versoes anteriores podem ganhar suporte parcial via firmware ou drivers atualizados.

Quem quer acompanhar a evolucao oficial deve seguir o site do OCP (opencompute.org) e os releases dos signatarios. Vale prestar atencao especialmente nos benchmarks publicos que vao comparar clusters antigos com clusters MRC — ai sera possivel quantificar o ganho real.


Reportado originalmente por TechStartups em 7 de maio de 2026.

§ FONTE / SOURCE /

Fonte no corpo do artigo

Esse post foi reescrito a partir da fonte original. Leia o artigo completo no link acima.

Descubra mais sobre up23labs

Assine agora mesmo para continuar lendo e ter acesso ao arquivo completo.

Continue reading