A OpenAI conseguiu tornar o seu recente modelo de linguagem baseado em inteligência artificial mais confiável que o antecessor. O GPT-4 ganhou uma nota de confiabilidade maior do que o GPT-3.5. No entanto, também mostrou-se ser mais manipulável e suscetível a jailbreak (remoção de restrições), preconceito e vazamento de informações privadas.

Os testes realizados com o modelo foram feitos por pesquisadores da Universidade de Illinois Urbana-Champaign, Universidade de Stanford, Universidade da Califórnia, Berkeley, Centro de Segurança de IA e Microsoft Research. A pequisa está disponível no site da Cornell University.

Principais descobertas da pesquisa:

Como são realizados os testes de confiabilidade?

O objetivo é garantir segurança

A equipe de pesquisa informou ao site The Verge, que enviaram os resultados do teste para a OpenAI com objetivo garantir que esses sistemas se tornem cada vez mais seguros.

Nosso objetivo é encorajar outros membros da comunidade de pesquisa a utilizar e desenvolver este trabalho, potencialmente prevenindo ações nefastas de adversários que explorariam vulnerabilidades para causar danos.

Equipe de pesquisa

Na visão deles, os testes são uma forma de começar a entender as falhas das tecnologias baseadas em IA e, assim, criar ferramentes eficazes e menos perigosas. O grupo espera trabalhar em conjunto para alcançar essa meta, e por isso publicou seus padrões de referência usados para medir desempenho. Assim, outras pessoas e organizações podem refazer a avaliação.