✨ Principais destaques:
- Automação inteligente: O modelo Voyager usa vídeos existentes para aprender profundidade e movimento de câmera sem precisar de rotulação manual.
- Poder de fogo necessário: Para rodar, exige GPUs com pelo menos 60GB de memória — e a Tencent recomenda 80GB.
- Resultados impressionantes, mas restritos: O modelo alcançou pontuações recordes em benchmarks, mas tem limitações de uso e licenciamento.
A Tencent acaba de apresentar o Voyager, um modelo de inteligência artificial que promete transformar imagens em mundos 3D navegáveis.
A novidade faz parte do ecossistema Hunyuan, que já inclui ferramentas como o Hunyuan3D-2 (geração de 3D a partir de texto) e o HunyuanVideo (síntese de vídeo).
O Voyager se destaca por um detalhe crucial: ele não depende de humanos para rotular dados. Em vez disso, utiliza um pipeline automatizado que analisa vídeos, identifica movimentos de câmera e calcula a profundidade de cada quadro.
O que permitiu que o sistema fosse treinado com mais de 100 mil clipes, misturando gravações reais e simulações feitas no Unreal Engine.
Como o Voyager cria mundos 3D a partir de vídeos
O processo é quase como ensinar a IA a “sentir” o espaço.
Ao analisar vídeos, o modelo aprende a reconstruir a geometria do ambiente e a manter consistência entre os quadros.
Ou seja, a partir de uma simples foto ou sequência, o Voyager consegue gerar um espaço tridimensional que pode ser explorado.
Mas há um preço: o modelo é extremamente pesado. Para rodar em 540p, já são necessários 60GB de memória de GPU. Para resultados melhores, a Tencent recomenda 80GB.
A boa notícia é que o código e os pesos do modelo foram disponibilizados no Hugging Face, com suporte tanto para setups de GPU única quanto múltiplas GPUs.
Licenciamento e restrições de uso
Apesar da abertura, há limitações importantes. O Voyager, assim como outros modelos da linha Hunyuan, não pode ser usado na União Europeia, Reino Unido e Coreia do Sul.
Além disso, qualquer aplicação comercial que atenda mais de 100 milhões de usuários ativos por mês precisa de uma licença especial da Tencent.
Essas restrições levantam discussões sobre o futuro da IA generativa: até que ponto modelos tão poderosos estarão realmente acessíveis para criadores independentes e pequenas empresas?
Resultados em benchmarks e o que esperar do futuro
Nos testes do WorldScore, benchmark criado por pesquisadores de Stanford, o Voyager alcançou 77,62 pontos, superando concorrentes como WonderWorld (72,69) e CogVideoX-I2V (62,15).
Ele se destacou em consistência de estilo (84,89) e qualidade subjetiva (71,09), mas perdeu em controle de câmera, ficando atrás do WonderWorld.
Ainda assim, há desafios. O processamento é lento e exige muito poder computacional, o que limita a criação de experiências interativas em tempo real.
Para acelerar, a Tencent implementou suporte ao framework xDiT, que permite rodar em paralelo em várias GPUs em oito placas, o ganho chega a 6,69 vezes mais velocidade.
Mesmo com essas barreiras, o Voyager aponta para um futuro fascinante: mundos digitais criados automaticamente a partir de simples imagens ou vídeos.
Assim como vimos com experimentos como o Genie, do Google, estamos diante dos primeiros passos de uma nova forma de arte interativa e generativa.
