DeepSeek apresenta nova arquitetura que promete baratear o treinamento de modelos de IA em larga escala

Renê Fraga
4 min de leitura

Principais destaques:

  • A DeepSeek divulgou uma nova arquitetura de aprendizado profundo focada em reduzir custos e aumentar a estabilidade do treinamento.
  • O método, chamado Manifold-Constrained Hyper-Connections, foi testado em modelos de até 27 bilhões de parâmetros.
  • Pesquisadores do setor veem o artigo como um forte sinal de que um novo modelo da empresa pode ser lançado em breve.

A DeepSeek começou 2026 chamando a atenção da comunidade de inteligência artificial ao publicar um artigo técnico que detalha uma nova abordagem para treinar modelos de grande porte de forma mais eficiente.

O estudo apresenta a arquitetura Manifold-Constrained Hyper-Connections, ou mHC, desenhada para lidar com problemas clássicos de instabilidade e altos custos computacionais que surgem à medida que redes neurais crescem em escala.

O trabalho foi assinado pelo fundador Liang Wenfeng, junto aos pesquisadores Zhenda Xie, Yixuan Wei e Huanqi Cao, e descreve ganhos práticos de desempenho sem exigir aumentos significativos de recursos computacionais. Para especialistas, trata-se de mais um passo da empresa na busca por modelos grandes, porém mais acessíveis de treinar.

Uma evolução sobre ideias da ByteDance

A proposta da DeepSeek se apoia em conceitos introduzidos em 2024 por pesquisadores da ByteDance, que expandiram o conceito de conexões residuais usadas em arquiteturas como o ResNet.

Essas hiper-conexões melhoraram o fluxo de informação em redes profundas, mas trouxeram um custo elevado de memória, dificultando o uso em modelos muito grandes.

O mHC ajusta essa ideia ao impor uma restrição matemática específica às conexões residuais. Com isso, a arquitetura recupera o chamado mapeamento de identidade, um mecanismo essencial para evitar que sinais matemáticos se percam ou se tornem instáveis ao atravessar centenas de camadas.

Testes em modelos bilionários de parâmetros

Segundo o artigo, a equipe avaliou a nova arquitetura em modelos com 3 bilhões, 9 bilhões e 27 bilhões de parâmetros. Os resultados indicam que o método escala de forma consistente, mantendo estabilidade no treinamento sem exigir saltos relevantes em poder computacional.

Esse ponto é crucial em um momento em que o custo de treinar grandes modelos de linguagem se tornou um dos principais gargalos do setor. Reduzir esse custo significa tornar pesquisas e produtos avançados mais viáveis, inclusive para empresas com menos acesso a capital.

Indícios de um novo modelo a caminho

No ecossistema de IA, publicações técnicas da DeepSeek costumam ser interpretadas como prévias do que está por vir. O próprio Liang Wenfeng submeteu o artigo ao arXiv, reforçando um padrão já observado em lançamentos anteriores da empresa.

Analistas acreditam que um novo modelo pode ser anunciado antes do Festival da Primavera, que começa em 17 de fevereiro. Em 2025, a empresa adotou uma estratégia semelhante ao lançar o modelo de raciocínio R1 pouco antes do período de feriados.

A trajetória da DeepSeek também reflete uma tendência mais ampla entre empresas chinesas de IA, que vêm compartilhando cada vez mais pesquisas de forma aberta.

Como subsidiária integral do fundo quantitativo High-Flyer, a empresa tem se destacado por avanços técnicos que reduzem custos de treinamento e mantêm competitividade frente a gigantes americanos com orçamentos muito maiores.

Seguir:
Renê Fraga é fundador e editor-chefe do Eurisko, ecossistema editorial independente dedicado à inteligência artificial, código aberto, tecnologia e cultura digital. Atuando com projetos online desde 1996, escreve há mais de 20 anos sobre tecnologia e inovação, acompanhando a evolução da internet e o impacto das novas tecnologias na forma como vivemos, trabalhamos e pensamos.
Nenhum comentário