OpenAI desenvolve modelo de voz que promete conversas mais naturais com IA

Tópicos

O problema das conversas por voz com IA A promessa de conversas realmente naturais Desafios técnicos ainda atrasam o lançamento Aplicações em suporte ao cliente e novos dispositivos

Principais destaques

A OpenAI trabalha em um novo modelo de áudio chamado BiDi, capaz de lidar com interrupções durante a conversa.

A tecnologia busca tornar o diálogo com assistentes de voz mais parecido com conversas humanas.

Problemas técnicos ainda impedem o lançamento, que pode ficar para depois do segundo trimestre de 2026.

A OpenAI está desenvolvendo um novo modelo de áudio que pode mudar a forma como conversamos com inteligência artificial. Chamado de BiDi, abreviação de bidirecional, o sistema foi criado para resolver um problema comum nos assistentes de voz atuais: a dificuldade de lidar com interrupções naturais durante a fala.

Segundo reportagem do site The Information, a tecnologia permitiria que a IA continuasse a conversa de maneira fluida mesmo quando o usuário faz pequenos comentários ou muda de ideia no meio da frase. A proposta é tornar o diálogo com sistemas como o ChatGPT mais próximo da forma como as pessoas realmente conversam.

O problema das conversas por voz com IA

Hoje, o chamado Modo de Voz Avançado do ChatGPT funciona em um sistema de turnos. Na prática, o usuário precisa terminar de falar para que o sistema processe o áudio e responda.

Isso cria situações pouco naturais. Se alguém diz apenas um “ok” ou “entendi” enquanto a IA está falando, o sistema pode interromper completamente a resposta. O resultado é uma interação fragmentada, bem diferente de uma conversa entre pessoas.

O BiDi foi projetado para funcionar de forma contínua. O modelo escuta e processa o áudio do usuário em tempo real, permitindo ajustar a resposta imediatamente quando ocorre uma interrupção.

A promessa de conversas realmente naturais

Uma das grandes diferenças dessa tecnologia está na flexibilidade das respostas. Modelos de voz atuais geram respostas fixas que não podem ser alteradas depois que começam a falar.

Com o BiDi, a IA poderia mudar o rumo da resposta no meio da frase. Isso significa que, se o usuário interromper ou fizer uma observação, o sistema pode adaptar a conversa instantaneamente.

A OpenAI acredita que esse tipo de interação pode facilitar a adoção global de assistentes de voz, tornando o uso da IA tão natural quanto enviar mensagens de texto.

Desafios técnicos ainda atrasam o lançamento

Apesar da promessa, o modelo ainda enfrenta obstáculos importantes. De acordo com fontes ouvidas pela reportagem, o protótipo apresenta falhas após alguns minutos de conversa. Em alguns casos, a voz do sistema também passa a soar estranha ou artificial.

Inicialmente, a OpenAI esperava lançar o BiDi no primeiro trimestre de 2026. Agora, o cronograma pode ser empurrado para o segundo trimestre ou até mais tarde.

Os desafios refletem uma diferença entre o desempenho dos modelos de texto e os modelos de áudio da empresa. Enquanto as versões baseadas em texto são rápidas e precisas, os sistemas de voz ainda precisam evoluir em velocidade e confiabilidade.

Para acelerar o progresso, a OpenAI reuniu várias equipes internas de áudio sob a liderança do pesquisador Kundan Kumar, que anteriormente trabalhava na Character.AI.

Aplicações em suporte ao cliente e novos dispositivos

Um dos usos mais promissores do BiDi está no atendimento ao cliente automatizado. Imagine, por exemplo, um consumidor falando com um agente de suporte por IA.

Se a pessoa disser que quer devolver um produto, mas mudar de ideia no meio da conversa e optar por uma troca, o sistema poderá adaptar a resposta instantaneamente. Isso evita travamentos ou reinícios da conversa.

Além disso, a tecnologia pode ser fundamental para os planos da OpenAI no desenvolvimento de hardware com inteligência artificial. A empresa trabalha em uma nova geração de dispositivos focados em interação por voz.

Entre eles estaria um alto-falante inteligente com preço estimado entre 200 e 300 dólares, que não deve chegar ao mercado antes de 2027. Para esses produtos, a capacidade de manter conversas contínuas e naturais será essencial.

OpenAI desenvolve modelo de voz que promete conversas mais naturais com IA

O problema das conversas por voz com IA

A promessa de conversas realmente naturais

Desafios técnicos ainda atrasam o lançamento

Aplicações em suporte ao cliente e novos dispositivos

Deixe um comentário Cancelar resposta

Novos Posts

OpenAI lança versão do ChatGPT para Intune e mira empresas e escolas com mais controle e segurança

GPT-5.5 surpreende ao “planejar” sua própria festa de lançamento, revela Sam Altman

Inteligência artificial darwiniana pode chegar mais cedo do que se imaginava

Meta vence disputa judicial no Brasil e suspende multa milionária ligada ao WhatsApp

Conversas do ChatGPT se tornaram “um tesouro” de evidências em investigações criminais

FragaNet Media

O problema das conversas por voz com IA

A promessa de conversas realmente naturais

Desafios técnicos ainda atrasam o lançamento

Aplicações em suporte ao cliente e novos dispositivos

Você também pode gostar

Deixe um comentário Cancelar resposta

Novos Posts

OpenAI lança versão do ChatGPT para Intune e mira empresas e escolas com mais controle e segurança

GPT-5.5 surpreende ao “planejar” sua própria festa de lançamento, revela Sam Altman

Inteligência artificial darwiniana pode chegar mais cedo do que se imaginava

Meta vence disputa judicial no Brasil e suspende multa milionária ligada ao WhatsApp

Conversas do ChatGPT se tornaram “um tesouro” de evidências em investigações criminais