Talvez você já tenha brincado com chatbots, como o ChatGPT e o Bard, ou geradores de imagens, como o Dall-E. Se você pensou que eles confundiam a linha entre IA e inteligência humana, você ainda não viu – ou ouviu – nada.
Nos últimos meses, a colunista do The Wall Street Journal, Joanna Stern, vem testando o Synthesia, ferramenta que cria avatares artificialmente inteligentes a partir de vídeo e áudio gravados (também conhecidos como deepfakes). Digite qualquer coisa e seu avatar de vídeo repete.
Stern faz muito trabalho de voz e vídeo, então, pensou que IA poderia torná-la mais produtiva e eliminar um pouco do trabalho árduo, promessa da IA. Ela gravou cerca de 30 minutos de vídeo e quase duas horas de áudio que a Synthesia usaria para treinar o clone. Algumas semanas depois, IA Joanna estava pronta.
Ela se questionou se poderia a IA – emparelhada com o texto gerado pelo ChatGPT – substituir seu eu real em vídeos, reuniões e telefonemas. Eventualmente, a IA Joanna pode escrever colunas e hospedar seus vídeos. Por enquanto, ela está no seu melhor ilustrando a faca de dois gumes das ferramentas de voz e vídeo de IA generativa.
O vídeo dá muito trabalho e custo. Cabelo, maquiagem, guarda-roupa, câmeras, iluminação, microfones. A Synthesia promete erradicar esse trabalho, e é por isso que as corporações já o utilizam.
Por que pagar atores para estrelar uma versão live-action quando a IA pode fazer tudo? A Synthesia cobra US$ 1 mil por ano para criar e manter um avatar personalizado, além de uma taxa de assinatura mensal adicional. Oferece avatares de ações por um custo mensal menor.
Stern pediu ao ChatGPT para gerar um script do TikTok sobre uma dica do iOS, escrito na voz de Joanna Stern. Colou no Synthesia, clicou em “gerar” e de repente “ela” estava falando, mas sem gestos das mãos e expressões faciais. Para frases rápidas, o avatar pode ser bastante convincente. Quanto mais longo o texto, mais sua natureza bot aparece.
No TikTok, esses atributos de computador são menos perceptíveis. Ainda assim, alguns rapidamente perceberam isso.
O bot ficou muito óbvio nas videochamadas de trabalho. Stern baixou clipes dela dizendo comentários comuns em reuniões (“Olá pessoal!” “Desculpe, fui silenciado.”) Depois, usou software para colocá-los no Google Meet. Aparentemente, a postura perfeita e a falta de humor da IA Joanna eram revelações claras.
Tudo isso vai melhorar, no entanto. A Synthesia tem alguns avatares em beta que podem acenar para cima e para baixo, levantar as sobrancelhas e muito mais.
Em chamadas telefônicas, a colunista usou voz gerada pelo ElevenLabs, desenvolvedor de software de fala de IA. Foram reunidos cerca de 90 minutos de sua voz de vídeos anteriores e carregados na ferramenta – sem necessidade de visita ao estúdio. Em menos de dois minutos, ele clonou a voz da moça. Na ferramenta baseada na web do ElevenLabs, digite qualquer texto, clique em Gerar e, em segundos, “sua” voz diz em voz alta. A criação de um clone de voz com o ElevenLabs começa em US$ 5 por mês.
Comparado com a Joanna da Synthesia, o ElevenLabs soa mais humano, com melhores entonações e fluxo.
Em ligação para sua irmã, para quem liga várias vezes por semana, sua irmã disse que o bot soava como Stern, mas notou que o bot não parava para respirar. Quando ligou para seu pai e pediu seu número do Seguro Social, ele só sabia que algo estava acontecendo porque parecia uma gravação.
A voz do ElevenLabs era tão boa que enganou o sistema biométrico de voz de seu cartão de crédito.
A IA Joanna respondeu várias coisas que o sistema iria perguntar, então ligou para o atendimento ao cliente. Na etapa biométrica, quando o sistema automatizado pedia seu nome e endereço, a IA Joanna respondeu. Ao ouvir a voz do bot, o sistema o reconheceu como sendo ela e imediatamente se conectou a um representante. Quando o estagiário de vídeo do jornal ligou e fez sua melhor impressão de Joanna, o sistema automatizado solicitou verificação adicional.
Uma porta-voz do fornecedor do cartão disse que o banco usa biometria de voz, juntamente com outras ferramentas, para verificar se os chamadores são quem dizem ser.
Ela acrescentou que o recurso destina-se a que os clientes se identifiquem com rapidez e segurança, mas para concluir transações e outras solicitações financeiras, os clientes devem fornecer informações adicionais.
O mais preocupante é que a ElevenLabs fez um clone muito bom sem muita coisa. Tudo o que precisa fazer é clicar em um botão dizendo ter os “direitos ou consentimentos necessários” para fazer upload de arquivos de áudio e criar o clone, e que não o usaria para fins fraudulentos.
Isso significa que qualquer pessoa na internet pode levar horas da voz de qualquer pessoa no planeta para salvar e usar. A FTC (Federal Trade Commission) já está alertando sobre golpes relacionados à voz de IA.
No caso da Synthesia, a empresa exige que o áudio e o vídeo incluam consentimento verbal.
O ElevenLabs permite apenas a clonagem em contas pagas, portanto, qualquer uso de voz clonada que viole as políticas da empresa pode ser rastreado até o titular da conta, disse o cofundador da empresa, Mati Staniszewski.
A companhia está trabalhando em ferramenta de autenticação para que as pessoas possam enviar qualquer áudio para verificar se ele foi criado com a tecnologia ElevenLabs.
Ambos os sistemas permitiram à colunista gerar algumas coisas horríveis com sua voz, incluindo ameaças de morte.
Um porta-voz da Synthesia disse que a conta de Stern foi designada para uso com uma organização de notícias, o que significa que ela pode dizer palavras e frases que, de outra forma, poderiam ser filtradas.
A empresa afirmou que seus moderadores sinalizaram e deletaram suas frases problemáticas posteriormente. Quando sua conta foi alterada para o tipo padrão, não conseguiu mais gerar essas mesmas frases.
Staniszewski disse que a ElevenLabs pode identificar todo o conteúdo feito com seu software. Se o conteúdo violar os termos de serviço da empresa, acrescentou, a ElevenLabs pode banir sua conta de origem e, em caso de violação da lei, auxiliar as autoridades.
Hany Farid, especialista forense digital da Universidade da Califórnia, em Berkeley, afirmou ser muito difícil detectar áudio e vídeo sintéticos. “Não só posso gerar essas coisas, como posso bombardear a internet com elas”, afirmou, acrescentando que você não pode transformar todos em detetives de IA.
“Não só posso gerar essas coisas, como posso bombardear a Internet com elas”, disse ele, acrescentando que você não pode transformar todos em detetives de IA.
Contudo, existe uma iniciativa de autenticidade de conteúdo liderada pela Adobe. Mais de mil empresas de mídia e tecnologia, acadêmicos e mais visam criar “rótulo nutricional” incorporado para a mídia. Fotos, vídeos e áudio na internet podem um dia vir com informações verificáveis anexadas. A Synthesia é membro da iniciativa.
Fonte: Olhar Digital
Comentários