DeepSeek revela indícios do enigmático MODEL1 em seu código no aniversário do R1

Renê Fraga
4 min de leitura

Principais destaques:

  • Atualização no repositório FlashMLA da DeepSeek revela referências repetidas a um novo modelo chamado MODEL1.
  • Análises do código sugerem uma arquitetura inédita, diferente do DeepSeek-V3.2, com foco em eficiência de memória e computação.
  • Pistas técnicas reforçam expectativas para o lançamento do V4, previsto para fevereiro de 2026, com potencial para desafiar gigantes da IA.

No primeiro aniversário do lançamento do R1, modelo que sacudiu o mercado global de inteligência artificial, a DeepSeek voltou a chamar atenção da comunidade técnica.

Desta vez, não foi com um anúncio oficial, mas com sinais deixados em seu próprio código.

Uma atualização recente no repositório FlashMLA, hospedado no GitHub, introduziu dezenas de menções a um misterioso “MODEL1”, despertando especulações sobre a próxima grande aposta da startup chinesa.

Desenvolvedores que examinaram os arquivos notaram que o MODEL1 não parece ser apenas uma variação incremental. Pelo contrário, tudo indica que se trata de uma arquitetura nova, distinta do DeepSeek-V3.2, identificado internamente como V32.

As diferenças sugerem mudanças profundas na forma como o modelo lida com memória, esparsidade e formatos numéricos avançados.

Pistas técnicas apontam para uma nova arquitetura

O FlashMLA é conhecido por abrigar o kernel de decodificação Multi-Head Latent Attention da DeepSeek, otimizado para GPUs Hopper da Nvidia.

Com a atualização, o código passou a incluir suporte amplo ao MODEL1, além de compatibilidade antecipada com a arquitetura Blackwell, também da Nvidia.

Entre os detalhes que mais chamaram atenção estão o retorno a uma dimensão unificada de 512, alterações no layout de cache chave-valor e melhorias no suporte ao formato FP8.

Também aparecem referências a conceitos como “Consciência de Posição do Vetor de Valor”, o que sugere uma tentativa clara de reduzir custos computacionais e otimizar o uso de memória em larga escala.

Engram e a busca por contexto quase ilimitado

Outro ponto relevante é a possível integração do sistema de memória condicional Engram, recentemente publicado pela DeepSeek.

Esse mecanismo propõe uma abordagem diferente para lidar com contextos gigantescos, permitindo recuperar fatos fundamentais sem a necessidade de recomputar tudo a cada interação.

Caso o MODEL1 já esteja incorporando elementos do Engram, isso reforça a tese de que a empresa está preparando o terreno para modelos capazes de lidar com mais de um milhão de tokens de contexto de forma eficiente, algo que ainda é um desafio para grande parte do setor.

V4 no horizonte e a sombra sobre rivais ocidentais

Reportagens citadas pela Reuters indicam que a DeepSeek planeja lançar o modelo V4 em meados de fevereiro de 2026, coincidindo com o Ano Novo Lunar.

Testes internos apontariam desempenho superior ao de rivais como Anthropic e OpenAI, especialmente em tarefas de programação com prompts extremamente longos.

Esse movimento ocorre exatamente um ano após o R1 ter sido descrito pelo investidor Marc Andreessen como um “momento Sputnik” da IA.

Na época, o impacto foi tão grande que levantou dúvidas sobre os bilhões investidos por empresas do Vale do Silício, diante de um modelo que teria custado menos de US$ 6 milhões para treinar.

A DeepSeek, por enquanto, mantém silêncio oficial sobre o MODEL1 e não confirma datas. Ainda assim, as pistas deixadas no código indicam que algo grande está sendo preparado nos bastidores.

Seguir:
Renê Fraga é fundador e editor-chefe do Eurisko, ecossistema editorial independente dedicado à inteligência artificial, código aberto, tecnologia e cultura digital. Atuando com projetos online desde 1996, escreve há mais de 20 anos sobre tecnologia e inovação, acompanhando a evolução da internet e o impacto das novas tecnologias na forma como vivemos, trabalhamos e pensamos.
Nenhum comentário