DeepSeek apresenta nova arquitetura que promete baratear o treinamento de modelos de IA em larga escala

Última atualização: 16/02/2026 10:56

Renê Fraga

4 min de leitura

Tópicos

Uma evolução sobre ideias da ByteDance Testes em modelos bilionários de parâmetros Indícios de um novo modelo a caminho

Principais destaques:

A DeepSeek divulgou uma nova arquitetura de aprendizado profundo focada em reduzir custos e aumentar a estabilidade do treinamento.
O método, chamado Manifold-Constrained Hyper-Connections, foi testado em modelos de até 27 bilhões de parâmetros.
Pesquisadores do setor veem o artigo como um forte sinal de que um novo modelo da empresa pode ser lançado em breve.

A DeepSeek começou 2026 chamando a atenção da comunidade de inteligência artificial ao publicar um artigo técnico que detalha uma nova abordagem para treinar modelos de grande porte de forma mais eficiente.

O estudo apresenta a arquitetura Manifold-Constrained Hyper-Connections, ou mHC, desenhada para lidar com problemas clássicos de instabilidade e altos custos computacionais que surgem à medida que redes neurais crescem em escala.

O trabalho foi assinado pelo fundador Liang Wenfeng, junto aos pesquisadores Zhenda Xie, Yixuan Wei e Huanqi Cao, e descreve ganhos práticos de desempenho sem exigir aumentos significativos de recursos computacionais. Para especialistas, trata-se de mais um passo da empresa na busca por modelos grandes, porém mais acessíveis de treinar.

Uma evolução sobre ideias da ByteDance

A proposta da DeepSeek se apoia em conceitos introduzidos em 2024 por pesquisadores da ByteDance, que expandiram o conceito de conexões residuais usadas em arquiteturas como o ResNet.

Essas hiper-conexões melhoraram o fluxo de informação em redes profundas, mas trouxeram um custo elevado de memória, dificultando o uso em modelos muito grandes.

O mHC ajusta essa ideia ao impor uma restrição matemática específica às conexões residuais. Com isso, a arquitetura recupera o chamado mapeamento de identidade, um mecanismo essencial para evitar que sinais matemáticos se percam ou se tornem instáveis ao atravessar centenas de camadas.

Testes em modelos bilionários de parâmetros

Segundo o artigo, a equipe avaliou a nova arquitetura em modelos com 3 bilhões, 9 bilhões e 27 bilhões de parâmetros. Os resultados indicam que o método escala de forma consistente, mantendo estabilidade no treinamento sem exigir saltos relevantes em poder computacional.

Esse ponto é crucial em um momento em que o custo de treinar grandes modelos de linguagem se tornou um dos principais gargalos do setor. Reduzir esse custo significa tornar pesquisas e produtos avançados mais viáveis, inclusive para empresas com menos acesso a capital.

Indícios de um novo modelo a caminho

No ecossistema de IA, publicações técnicas da DeepSeek costumam ser interpretadas como prévias do que está por vir. O próprio Liang Wenfeng submeteu o artigo ao arXiv, reforçando um padrão já observado em lançamentos anteriores da empresa.

Analistas acreditam que um novo modelo pode ser anunciado antes do Festival da Primavera, que começa em 17 de fevereiro. Em 2025, a empresa adotou uma estratégia semelhante ao lançar o modelo de raciocínio R1 pouco antes do período de feriados.

A trajetória da DeepSeek também reflete uma tendência mais ampla entre empresas chinesas de IA, que vêm compartilhando cada vez mais pesquisas de forma aberta.

Como subsidiária integral do fundo quantitativo High-Flyer, a empresa tem se destacado por avanços técnicos que reduzem custos de treinamento e mantêm competitividade frente a gigantes americanos com orçamentos muito maiores.

DeepSeek apresenta nova arquitetura que promete baratear o treinamento de modelos de IA em larga escala

Uma evolução sobre ideias da ByteDance

Testes em modelos bilionários de parâmetros

Indícios de um novo modelo a caminho

Deixe um comentário Cancelar resposta

Novos Posts

CEO usa clone de IA em reunião sem ninguém perceber

OpenAI lança versão do ChatGPT para Intune e mira empresas e escolas com mais controle e segurança

GPT-5.5 surpreende ao “planejar” sua própria festa de lançamento, revela Sam Altman

Inteligência artificial darwiniana pode chegar mais cedo do que se imaginava

Meta vence disputa judicial no Brasil e suspende multa milionária ligada ao WhatsApp

FragaNet Media

Uma evolução sobre ideias da ByteDance

Testes em modelos bilionários de parâmetros

Indícios de um novo modelo a caminho

Você também pode gostar

Deixe um comentário Cancelar resposta

Novos Posts

CEO usa clone de IA em reunião sem ninguém perceber

OpenAI lança versão do ChatGPT para Intune e mira empresas e escolas com mais controle e segurança

GPT-5.5 surpreende ao “planejar” sua própria festa de lançamento, revela Sam Altman

Inteligência artificial darwiniana pode chegar mais cedo do que se imaginava

Meta vence disputa judicial no Brasil e suspende multa milionária ligada ao WhatsApp