Testes realizados com o GPT-3.5, a linguagem original do ChatGPT, colocaram a ferramenta à prova quando comparada com alunos que realizaram o Enem (Exame Nacional do Ensino Médio).

A pesquisa foi realizada pelo DeltaFolha com base em respostas da IA em provas realizadas de 2017 a 2021.

Confira como o ChatGPT se saiu no Enem:

Estrutura do teste

Para as provas de 2020 e 2021 (a última possuindo as pontuações individuais disponíveis publicamente), considerou-se duas aplicações do exame em cada ano, com perguntas distintas entre si.

Na de 2021, especificamente, foi pedido que a tecnologia fizesse redação de acordo com o enunciado do exame. Para seguir a metodologia do MEC, dois especialistas corrigiram o texto seguindo o critério do Enem.

Com essa nota, o robô poderia pedir vaga no curso de serviço social na UFPE (Universidade Federal de Pernambuco) e ciências sociais na UFF (Universidade Federal Fluminense).

IA é melhor em humanas

O ponto forte do ChatGPT foram as ciências humanas. A média das notas dos cinco anos da ferramenta foi de 725,3, ante 523,3 pontos dos estudantes. Em 2017, quando teve a melhor nota – 785,3 -, ele só foi superado por 775 candidatos (foram 4,7 milhões de participantes naquele ano).

O chatbot também levou a melhor em linguagem e ciências naturais. A nota média foi de 641,4 (versus 516,1) e 639,2 (versus 492,5), respectivamente.

Matemática: a dor de cabeça dos alunos (e do ChatGPT!)

Na média das provas de matemática, a tecnologia da OpenAI obteve 443,1 pontos, abaixo dos 527,1 conquistados pelos participantes. Ele acertou de 13,6% a 27,3% das questões em cada aplicação. Um aluno que respondesse as questões por meio de chute acertaria em torno de 20%.

Pesquisadores tiveram a mesma impressão

Na quarta-feira (29), foi divulgado artigo científico escrito por pesquisadores de USP, USF e Unicamp, no qual detalharam que obtiveram resultados similares – inclusive nas notas de matemática.

Ricardo Primi, um dos pesquisadores, indica que uma das possíveis explicações e a de que tais questões exigem que a IA extraia as informações da pergunta e siga uma linha de raciocínio, como montar a conta necessária, para então chegar à resposta correta – diferente das de humanas e linguagens, nas quais ele só precisa acessar seus dados, sem executar nada a mais.

Neste estudo, o resultado foi melhor, pois os pesquisadores deram exemplos de questões respondidas antes, ajudando a ferramenta. Quando justificava a resposta, a IA tinha ainda mais acertos.

“Quando se apresenta um problema em texto, talvez ele não tenha esse mesmo dado no processo de treinamento. Ele não viu os padrões dos passos do raciocínio explicitamente”, diz Primi.

A OpenAI afirmou, no fim de janeiro, que, acerca de matemática, haverá melhorias no sistema do ChatGPT, de modo que a IA fique melhor na disciplina. Em março ele saiu – trata-se do GPT-4, mas este ainda está sendo implementado. Testes oficiais comprovaram que a nova versão da linguagem se saiu melhor em humanas em relação ao GPT-3.

Na redação, o sistema passou das 30 linhas permitidas. Um dos especialistas disse que o chatbot pecou em vírgulas e na construção sintática, não mostrou bom repertório sociocultural, falhou em argumentar com dados concretos e em propor intervenção para resolver o problema.

Com informações de Estado de Minas

Imagem destacada: Pedro Spadoni/Olhar Digital