Disponível para uso público, banco de dados HLE reúne informações sobre diversas áreas do conhecimento para testar eficiência de modelos de IA

O HLE, sigla em inglês para “Último Exame da Humanidade”, é uma ferramenta criada para medir o avanço dos novos modelos de Inteligência Artificial (IA); medindo seu nível de acerto a partir de um banco de dados sobre diversos campos do conhecimento – Foto: Pixabay
Pesquisadores de todo o mundo, com participação brasileira, criaram um banco de dados avançado para testar com alta precisão os sistemas de inteligência artificial (IA), o Humanity’s Last Exam (HLE, sigla em inglês para Último Exame da Humanidade). A ferramenta reúne questões sobre diversas áreas do conhecimento humano, como ciências naturais e matemática, usadas para medir a capacidade de resposta dos modelos de IA. O HLE, que está disponível para uso público, tem seu funcionamento descrito em artigo publicado na revista Nature.
“A ideia é essencialmente criar uma ferramenta para medir o avanço dos modelos de IA de hoje”, explica ao Jornal da USP a pesquisadora Emily de Oliveira Santos, do Instituto de Ciências Matemáticas e da Computação (ICMC) da USP, em São Carlos, que contribuiu com o desenvolvimento do HLE. “Por exemplo, quando uma desenvolvedora de IAs para propósito geral, como a OpenAI com o ChatGPT, anuncia um modelo novo, ela costuma tabelar a performance do modelo em uma série de benchmarks como o SWE-Bench, GPQA Diamond, FrontierMath e agora também o HLE.”
“Benchmarks são coletâneas de problemas e, mais recentemente, tarefas, que buscam testar as capacidades de um dado modelo. A proposta original do HLE é essencialmente criar o ‘benchmark supremo’, um teste onde tirar próximo a 100% seria equivalente a conseguir fazer qualquer coisa que um ser humano faz”, afirma a pesquisadora. “Conforme novos modelos de IA forem sendo desenvolvidos e lançados, vamos poder saber o quão melhor eles estão ficando usando o HLE e outros benchmarks.” O HLE reúne 2.500 questões em dezenas de assuntos, incluindo matemática, humanidades e ciências naturais.
De acordo com Emily Santos, o HLE é um benchmark com resposta final unicamente determinada e fácil de verificar. “Isso significa que todas as respostas são objetivas e únicas, quer dizer, dois especialistas em um determinado assunto chegariam exatamente numa mesma resposta correta”, relata. “As respostas costumam ser um número inteiro ou algo que é igualmente fácil de verificar.”

Distribuição das questões no banco de dados do HLE por categorias. Ao todo, são 2.500 questões, agrupadas em oito áreas de alto nível, fornecendo respostas únicas, objetivas e verificáveis – Foto: Retirada do artigo



