A Meta anunciou recentemente uma nova IA (inteligência artificial) capaz de emular vozes de pessoas. Chamada Voicebox, ela consegue recriar a voz de alguém a partir de uma amostra bem pequena: apenas dois segundos.
Para quem tem pressa:
Com esse tanto de material, o usuário já consegue trechos “ditos” pela pessoa copiada a partir de comandos de texto. A nova IA da Meta é parecida com a VALL-E, da Microsoft, apresentada em janeiro de 2023. Mas, segundo a empresa de Mark Zuckerberg, a sua plataforma é mais poderosa.
No futuro, modelos de IA generativos multifuncionais como o Voicebox poderiam dar vozes com som natural a assistentes virtuais e personagens não jogadores no metaverso. Eles poderiam permitir que pessoas com deficiência visual ouvissem mensagens escritas de amigos lidas por IA em suas vozes, fornecer aos criadores novas ferramentas para criar e editar facilmente faixas de áudio e muito mais.
Meta
A Voicebox foi treinada com 50 mil horas de áudio pré-gravado de livros de domínio público em inglês, francês, alemão, espanhol, polonês e português. A IA aperfeiçoa os resultados tomando como base o contexto das falas, também sendo capaz de adicionar pequenos trechos à faixa sem precisar recriá-la totalmente.
Na página de IA do Facebook, você pode conferir as demonstrações da ferramenta selecionadas pela empresa.
O que dá para fazer com a Voicebox
Por meio da nova IA da Meta, dá para fazer o seguinte (segundo a empresa):
Usando uma amostra de áudio com apenas dois segundos de duração, o Voicebox pode combinar o estilo de áudio e usá-lo para a geração (e conversão) de texto em fala.
O Voicebox pode recriar uma parte da fala interrompida por ruído ou substituir palavras mal ditas sem precisar regravar uma fala inteira.
Por exemplo, você pode identificar um segmento de um discurso interrompido por um cachorro latindo, cortá-lo e instruir o Voicebox a gerar novamente esse segmento. É uma espécie de borracha para edição de áudio, segundo a Meta.
Quando o usuário receber uma amostra da fala de alguém e uma passagem de texto em inglês, francês, alemão, espanhol, polonês ou português, o Voicebox pode produzir uma leitura do texto em qualquer um desses idiomas, mesmo quando a fala de amostra e o texto estão em idiomas diferentes.
Esse recurso pode ser usado no futuro para ajudar as pessoas a se comunicarem de maneira natural e autêntica, mesmo que não falem os mesmos idiomas, de acordo com a Meta.
Tendo aprendido com diversos dados, o Voicebox pode gerar “uma fala mais representativa de como as pessoas falam no mundo real” e nos seis idiomas listados acima, informou a empresa.
Ainda de acordo com a Meta, a Voicebox supera o VALL-E na geração de voz a partir de texto, sendo capaz de criar trechos com mais agilidade e menos erros que o modelo rival da Microsoft.
Além disso, a nova IA da Meta seria melhor que o YourTTS, por cometer menos falhas e entregar áudio artificial mais semelhante ao real.
Perigos desse tipo de IA
Pensando em deepfakes, ferramentas como a Voicebox têm potencial para causar estrago. No Brasil, por exemplo, já rolam golpes em que vozes simuladas são usadas para enganar vítimas ao se passar por parentes e amigos.
Com informações da Meta
Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!
Fonte: Olhar Digital
Comentários