Inteligências artificiais são um dos temas mais debatidos da atualidade e vêm sendo cada vez mais impressionante o poder que certas plataformas possuem e o que conseguem fazer, já sendo uma tecnologia extremamente popular. Entre elas, as vozes de inteligências artificiais geram fascínio, mas também uma dúvida: como essas vozes são geradas, clonadas e até mesmo imitam de fato tons e expressões humanas?

As vozes de inteligências artificiais são fruto de avançadas Redes Neurais criadas através da metodologia de aprendizado profundo, permitindo a criação artificial de vozes que capturam os padrões básicos da fala humana. O processo envolve a análise de vastas quantidades de dados, incluindo incontáveis horas de áudios de falas humanas, para identificar as características vocais que definem como as pessoas falam. Através de treinamento detalhado e análise aprofundada, as Redes Neurais se desenvolveram a ponto de reproduzir as sutilezas e entonações da fala com notável precisão.

O funcionamento é simples: ao inserir um texto a ser falado, a IA o processa e o combina com um banco de dados previamente mencionado, contendo comportamentos de fala, para gerar o áudio de saída correspondente.

À medida que mais dados são fornecidos à IA, o algoritmo se aprimora e se torna mais habilidoso na reprodução realista da fala. Por isso se torna tão comum e aparentemente simples, literalmente clonar vozes de cantores e atores famosos, uma vez que já existe incontáveis horas de conteúdo de voz dessas pessoas, devido a sua exposição.

Ainda que exista um banco de dados complexo criado, a sutileza das entonações de voz humana em determinados momentos ainda não é replicado de forma 100% natural pelas vozes de inteligência artificial.

As vozes em português

Uma vez que essas vozes de inteligência artificial são geradas por banco de dados, é natural que o acervo disponível em inglês seja consideravelmente vasto, tendo em mente a quantidade de conteúdo que existe no idioma. Em contrapartida, línguas menos faladas no mundo tendem a possuir menos investimento de pesquisa e menos recursos a serem explorados, como o português.

Imagem: faithie/Shutterstock

Porém, pesquisadores do renomado Centro de Inteligência Artificial da USP (C4AI) alcançaram uma conquista significativa. Introduzindo o CORAA (Corpus of Annotated Áudios) ASR, o primeiro banco de áudios em português brasileiro voltado para o reconhecimento e síntese automáticos de falas espontâneas, como entrevistas, conversas e declarações informais.

A criação do banco, resultado da colaboração entre várias universidades. Embora os pesquisadores envolvidos sejam todos brasileiros, a base da pesquisa foi embasada em modelos internacionais de inteligência artificial.

A pesquisa em desenvolvimento ocorreu no Centro de Inteligência Artificial da USP, em São Carlos, onde mais de 60 bolsistas participaram ativamente do projeto, catalogando e analisando vozes. Essas vozes já existiam em bases de estudos linguísticos prévios e foram adaptadas para serem utilizadas em tarefas computacionais, como o reconhecimento de fala.

O acervo de áudios abrangeu diversas fontes, incluindo o Museu da Pessoa, além de outras bases de áudios de centros de estudos localizados em diferentes estados do Brasil. No entanto, ressalta-se que, atualmente, o material é utilizado exclusivamente para fins acadêmicos, mas existe a possibilidade de disponibilização futura por empresas do mercado de trabalho que adotam software livre, isto é, aqueles que não visam fins comerciais.

Já assistiu aos novos vídeos no YouTube do Olhar Digital? Inscreva-se no canal!