OpenAI desenvolve modelo de voz que promete conversas mais naturais com IA

Renê Fraga
5 min de leitura

Principais destaques

  • A OpenAI trabalha em um novo modelo de áudio chamado BiDi, capaz de lidar com interrupções durante a conversa.
  • A tecnologia busca tornar o diálogo com assistentes de voz mais parecido com conversas humanas.
  • Problemas técnicos ainda impedem o lançamento, que pode ficar para depois do segundo trimestre de 2026.

A OpenAI está desenvolvendo um novo modelo de áudio que pode mudar a forma como conversamos com inteligência artificial. Chamado de BiDi, abreviação de bidirecional, o sistema foi criado para resolver um problema comum nos assistentes de voz atuais: a dificuldade de lidar com interrupções naturais durante a fala.

Segundo reportagem do site The Information, a tecnologia permitiria que a IA continuasse a conversa de maneira fluida mesmo quando o usuário faz pequenos comentários ou muda de ideia no meio da frase. A proposta é tornar o diálogo com sistemas como o ChatGPT mais próximo da forma como as pessoas realmente conversam.

O problema das conversas por voz com IA

Hoje, o chamado Modo de Voz Avançado do ChatGPT funciona em um sistema de turnos. Na prática, o usuário precisa terminar de falar para que o sistema processe o áudio e responda.

Isso cria situações pouco naturais. Se alguém diz apenas um “ok” ou “entendi” enquanto a IA está falando, o sistema pode interromper completamente a resposta. O resultado é uma interação fragmentada, bem diferente de uma conversa entre pessoas.

O BiDi foi projetado para funcionar de forma contínua. O modelo escuta e processa o áudio do usuário em tempo real, permitindo ajustar a resposta imediatamente quando ocorre uma interrupção.

A promessa de conversas realmente naturais

Uma das grandes diferenças dessa tecnologia está na flexibilidade das respostas. Modelos de voz atuais geram respostas fixas que não podem ser alteradas depois que começam a falar.

Com o BiDi, a IA poderia mudar o rumo da resposta no meio da frase. Isso significa que, se o usuário interromper ou fizer uma observação, o sistema pode adaptar a conversa instantaneamente.

A OpenAI acredita que esse tipo de interação pode facilitar a adoção global de assistentes de voz, tornando o uso da IA tão natural quanto enviar mensagens de texto.

Desafios técnicos ainda atrasam o lançamento

Apesar da promessa, o modelo ainda enfrenta obstáculos importantes. De acordo com fontes ouvidas pela reportagem, o protótipo apresenta falhas após alguns minutos de conversa. Em alguns casos, a voz do sistema também passa a soar estranha ou artificial.

Inicialmente, a OpenAI esperava lançar o BiDi no primeiro trimestre de 2026. Agora, o cronograma pode ser empurrado para o segundo trimestre ou até mais tarde.

Os desafios refletem uma diferença entre o desempenho dos modelos de texto e os modelos de áudio da empresa. Enquanto as versões baseadas em texto são rápidas e precisas, os sistemas de voz ainda precisam evoluir em velocidade e confiabilidade.

Para acelerar o progresso, a OpenAI reuniu várias equipes internas de áudio sob a liderança do pesquisador Kundan Kumar, que anteriormente trabalhava na Character.AI.

Aplicações em suporte ao cliente e novos dispositivos

Um dos usos mais promissores do BiDi está no atendimento ao cliente automatizado. Imagine, por exemplo, um consumidor falando com um agente de suporte por IA.

Se a pessoa disser que quer devolver um produto, mas mudar de ideia no meio da conversa e optar por uma troca, o sistema poderá adaptar a resposta instantaneamente. Isso evita travamentos ou reinícios da conversa.

Além disso, a tecnologia pode ser fundamental para os planos da OpenAI no desenvolvimento de hardware com inteligência artificial. A empresa trabalha em uma nova geração de dispositivos focados em interação por voz.

Entre eles estaria um alto-falante inteligente com preço estimado entre 200 e 300 dólares, que não deve chegar ao mercado antes de 2027. Para esses produtos, a capacidade de manter conversas contínuas e naturais será essencial.

Seguir:
Renê Fraga é fundador e editor-chefe do Eurisko, ecossistema editorial independente dedicado à inteligência artificial, código aberto, tecnologia e cultura digital. Atuando com projetos online desde 1996, escreve há mais de 20 anos sobre tecnologia e inovação, acompanhando a evolução da internet e o impacto das novas tecnologias na forma como vivemos, trabalhamos e pensamos.
Nenhum comentário