Impressionado com as imitações de voz realistas que viu em vídeos ou covers? O responsável, pode ser o modelo de Inteligência Artificial (IA) chamado Retrieval-based Voice Conversion (RVC). Este modelo aprende e se adapta às nuances das vozes, criando imitações surpreendentemente realistas. Exploremos a seguir como começar a usar essa tecnologia, prepare-se para conhecer o fascinante mundo da IA que imita e aprende a falar.

O que é um modelo RVC

O modelo Retrieval-based Voice Conversion (RVC) é uma Inteligência Artificial (IA) que se destaca por sua capacidade de imitar vozes humanas. Utilizando um modelo de IA chamado Transformer e treinado em um amplo conjunto de dados de vozes, o RVC aprende a mapear e adaptar-se às nuances de diferentes vozes, captando características únicas como tom, sotaque e ritmo de fala. Apesar de suas imitações convincentes, é importante lembrar que as vozes geradas pelo RVC ainda são simulações de computador. Em suma, o RVC combina aprendizado de máquina e processamento de linguagem natural para criar uma ferramenta de IA que está reformulando a maneira como interagimos com a tecnologia.

Como usar

  1. Baixar os programas necessários

    É necessário ter os seguintes programas instalados antes de baixar o RVC-beta:
    — Pyton.
    — Programa para descompactar o arquivo “7z” (neste caso, utilizaremos o WinRAR).

  2. Baixar o RVC-beta

    Baixe o arquivo “RVC-beta” na página Hugging Face do perfil “lj1995/VoiceConversionWebUI”.

  3. Procure um modelo RVC

    Existem diversas opções disponíveis online para utilizar gratuitamente, sendo necessário que o arquivo esteja no formato “pth”. É crucial verificar se está conforme os termos de uso e direitos autorais e se certificar que concorda com termo de uso quanto a voz que irá utilizar.

  4. Prepare uma “Acapela”

    Para o IA poder imitar a música sendo cantada, é necessário ter um arquivo de referência. Você pode gravar a si ou utilizar a voz de outra pessoa, caso tenha os direitos autorais e o consentimento do uso. Mais uma vez, certifique-se de que tudo esteja conforme as normas de uso.

  5. Descompactar o RVC-beta

    Utilize o programa instalado acima para descompactar todos os arquivos.

  6. Abrir o arquivo “go-web”

    Na pasta descompactada encontrará um arquivo chamado “go-web”, em um instante ele montará o programa para você que abrirá em um navegador.

  7. Mova para a pasta “weights” o modelo RVC

    Coloque na pasta “weights” o modelo RVC (arquivo pth) adquirido no passo 3.

  8. Atualize e confira se o modelo está na lista

    Clique em “Refresh voice list and index patch” e localize o modelo RVC.

  9. Copie o diretório da acapela

    Clique com à direita no arquivo de acapela, e selecione a opção “copiar como caminho”.

  10. Cole o diretório

    Cole no campo “Enter the path of the audio file to be processed” o caminho do arquivo.

  11. Configure o “Key” da voz

    Se a tonalidade da voz do modelo e da cantoria não estiverem em harmonia, você pode usar essa configuração. Por exemplo, se a voz do acapela for grave e o modelo for mais agudo, pode haver conflitos ou resultados indesejados. Nesse caso, na seção “Transpose”, você pode inserir um valor positivo para tornar a voz mais aguda, sendo recomendável usar o valor de “12”, ou um valor negativo para o oposto, “-12”.

  12. Configure a preferência

    Existem alguns métodos de conversão, sendo eles “pm”: extração mais rápida, mas qualidade de fala inferior; “harvest”: graves melhores, mas extremamente lento; “crepe”: melhor qualidade, mas intensivo para GPU. Tem outras configurações, mas não é necessário alterar nada.

  13. Converta e confira

    Se esta tela apareceu, significa que tudo correu bem! Para baixar o arquivo, basta clicar nos três pontos e selecionar “Transferir”.

A importância do uso responsável

Pronto, agora você sabe como usar o modelo Retrieval-based Voice Conversion (RVC), uma ferramenta poderosa na fronteira da inteligência artificial. É fundamental ressaltar a importância de usar essa tecnologia com responsabilidade. Lembre-se de sempre obter a permissão adequada para usar a voz de outra pessoa e estar ciente dos termos de uso e direitos autorais. A capacidade de criar deepfakes de voz traz consigo um dever ético de evitar a desinformação, engano e violações de privacidade. Com essa nova habilidade em mãos e o uso responsável da tecnologia, você está pronto para explorar as inúmeras possibilidades que a IA oferece.