Um novo estudo realizado por pesquisadores de universidades renomadas e a IBM levanta preocupações sobre a eficácia dos “guardrails digitais” em sistemas de chatbots com inteligência artificial (IA) – por exemplo, o ChatGPT – conforme revelou o jornal The New York Times.
Para quem tem pressa:
Empresas como Google e OpenAI implementaram esses mecanismos para evitar que seus sistemas gerem discurso de ódio e desinformação. No entanto, os resultados da pesquisa sugerem que essas salvaguardas podem não ser tão robustas quanto se acreditava.
Os ‘freios’ dos chatbots
Os pesquisadores – da Universidade de Princeton, Virginia Tech, Stanford – mostram que, ao ajustar um chatbot para tarefas específicas, mesmo inofensivas, pode-se inadvertidamente remover esses “guardrails”.
Isso poderia abrir espaço para a geração de material prejudicial, incluindo discurso de ódio e linguagem ofensiva. Por isso, a pesquisa adiciona urgência à preocupação generalizada de que, enquanto as empresas tentam conter o uso indevido da IA, estão ignorando maneiras pelas quais ela ainda pode gerar material prejudicial.
As empresas tentam lançar IA para usos benéficos e manter seus usos ilegais atrás de uma porta trancada. Mas ninguém sabe como fazer um cadeado.
Scott Emmons, pesquisador da Universidade da Califórnia, Berkeley, especializado nesse tipo de tecnologia
O debate sobre a transparência no código subjacente de sistemas de IA também vem à tona. A Meta, por exemplo, adotou uma abordagem de código aberto, compartilhando seu código de computador. Já a OpenAI manteve o seu código em sigilo.
A pesquisa destaca a complexidade do equilíbrio entre a privacidade do código e a segurança contra possíveis abusos. À medida que os chatbots se tornam mais complexos e são usados para uma variedade de finalidades, restringir seu comportamento torna-se um desafio crescente.
Outro ponto abordado pela pesquisa são as questões relacionadas à expansão da IA para responder a imagens, reforçando que, à medida que a tecnologia evolui, também surgem novas maneiras de induzi-la a um comportamento prejudicial.
Fonte: Olhar Digital
Comentários