Principais destaques:
- A OpenAI reorganizou equipes para criar uma nova arquitetura de modelos de áudio, com estreia prevista para o início de 2026.
- A estratégia acompanha o plano de lançar um dispositivo pessoal focado em voz, após a aquisição da startup io.
- O movimento reforça a tese do Vale do Silício de que interfaces de voz podem substituir telas como centro da computação.
A OpenAI consolidou, nos últimos meses, equipes de engenharia, produto e pesquisa para reformular profundamente seus modelos de inteligência artificial voltados a áudio.
Segundo reportagem do The Information, a mudança prepara o terreno para um dispositivo pessoal com foco em voz, esperado para cerca de um ano.
A aposta vai além de um ajuste interno. Ela reflete uma convicção crescente no setor de tecnologia de que a próxima grande interface da computação não será uma tela, mas a conversa natural entre humanos e máquinas.
Nova arquitetura promete fala mais humana
O projeto central envolve uma arquitetura de modelo de áudio totalmente nova, com lançamento previsto para o primeiro trimestre de 2026. A proposta é oferecer uma fala mais natural, lidar com interrupções em tempo real e permitir que a IA responda enquanto o usuário ainda está falando, algo que os sistemas atuais raramente conseguem fazer bem.
O esforço técnico é liderado por Kundan Kumar, pesquisador contratado da Character.AI, com a missão de reduzir a distância entre os modelos de áudio e os modelos baseados em texto da OpenAI, considerados hoje mais rápidos e precisos por funcionários e ex-funcionários.
Hardware, design e a influência de Jony Ive
A reestruturação também está diretamente ligada à ambição da OpenAI em hardware. Em maio, a empresa anunciou a aquisição de US$ 6,5 bilhões da io, startup cofundada por Jony Ive, ex-chefe de design da Apple.
Ive defende que dispositivos centrados em áudio podem ajudar a reduzir o vício em telas e corrigir erros históricos da eletrônica de consumo. Embora os detalhes do produto ainda sejam escassos, a OpenAI avalia formatos como óculos inteligentes e alto-falantes sem tela, reforçando a ideia de uma computação mais invisível e integrada ao cotidiano.
Vale do Silício declara guerra às telas
A guinada da OpenAI acontece em meio a uma corrida mais ampla da indústria por experiências “audio-first”. A Meta equipou seus óculos inteligentes Ray-Ban com múltiplos microfones para isolar vozes em ambientes ruidosos. O Google lançou o Audio Overviews, que transforma buscas em resumos conversacionais com IA. Já a Tesla integrou o Grok, assistente da xAI, para comandos de voz em seus veículos.
Nem todas as tentativas, porém, foram bem-sucedidas. A Humane encerrou o AI Pin após a HP adquirir seus ativos, colocando fim a um produto caro e criticado por lentidão e baixa autonomia de bateria.
Uma aposta de bilhões no futuro da computação
As expectativas internas são altas. O CEO Sam Altman descreveu os protótipos da io como “a peça de tecnologia mais legal que o mundo já terá visto”, enquanto a empresa fala em distribuir 100 milhões de unidades em um ritmo sem precedentes.
A grande incógnita permanece: o áudio, sozinho, consegue sustentar uma nova plataforma de computação ou ainda dependerá do ecossistema de telas já consolidado? A resposta pode definir não apenas o futuro da OpenAI, mas o próximo capítulo de toda a indústria de tecnologia.

