A Amazon apresentou hoje o Nova Sonic, um modelo avançado de conversão de fala em fala que permite aos desenvolvedores criar aplicativos que podem conversar com vozes semelhantes às humanas em tempo real. A Amazon afirma que este novo modelo de áudio apresenta desempenho de preço líder do setor e baixa latência.
Normalmente, o desenvolvimento de um aplicativo habilitado para voz exige que os desenvolvedores trabalhem com vários modelos ao mesmo tempo:
- Modelo de reconhecimento de fala para conversão de áudio em texto.
- Large Language Model (LLM) para compreensão e geração de respostas.
- Modelo de conversão de texto em fala.
Essa abordagem não é apenas complexa, mas também frequentemente ignora contextos acústicos importantes, como tom, prosódia e estilo de fala.

A Nova Sonic aborda esse desafio integrando a compreensão e a geração de som em um único modelo. A abordagem unificada ajuda o modelo a capturar tom, estilo e entrada de áudio, criando um diálogo mais natural. Ele também determina o tempo de resposta apropriado e lida melhor com invasões.
O Nova Sonic suporta vozes masculinas e femininas com muitos sotaques ingleses, como americano e britânico. Os desenvolvedores podem acessar modelos via Amazon Bedrock usando uma API de streaming bidirecional que suporta chamadas de função. Este modelo também vem com recursos de proteção integrados, como moderação de conteúdo e marca d'água.
Nesse sentido, no mês passado, a OpenAI anunciou uma nova geração de modelos de conversão de fala em texto — gpt-4o-transcribe e gpt-4o-mini-transcribe — com melhorias significativas na taxa de erros de palavras, reconhecimento de linguagem e precisão em relação aos modelos Whisper anteriores.