1 327 Table of Contents 329 754

Rede de Saberes, Edição 2025

328 XXXII MOSTRA UNISINOS DE INICIAÇÃO CIENTÍFICA E TECNOLÓGICA De 29/09/2025 a 03/10/2025 Unisinos São Leopoldo e Porto Alegre Ciências Exatas e da Terra - Programa de Pós-Graduação em Computação Aplicada Autor(a): Miguel Dias Henz Coautor(es): Wesllei Felipe Heckler Modalidade de Bolsa: PIBIC/ CNPq Orientador(a): Jorge Luiz Victória Barbosa UM ESTUDO EXPERIMENTAL DE LARGE LANGUAGE MODELS PARA RESPOSTA A PERGUNTAS COM BASE EM DADOS TABULARES Este trabalho investiga o uso de Large Language Models (LLMs) para responder perguntas com base em dados tabulares. O estudo analisa três questões: quais modelos são mais eficazes em dados tabulares, qual a melhor forma de fornecer dados tabulares a LLMs e qual o limite de tokens possível para manter uma performance aceitável. Para isso, foi realizada uma pesquisa da literatura no Google Scholar, com foco em artigos publicados nos últimos cinco anos, e uma análise de modelos disponíveis na plataforma Hugging Face. O modelo TableLLM destacou-se pela alta acurácia, sendo selecionado como o mais eficaz. Para validar a eficácia deste modelo em tarefas com dados tabulares foi feita uma avaliação em duas etapas: uma utilizando a métrica METEOR para a validação textual das respostas geradas, e outra focada na acurácia em respostas numéricas. Também foi selecionado, por conveniência, o modelo GPT-4o-mini como comparativo. Os datasets utilizados foram o FeTaQA, WikitableQuestions e Tabular Math Word Problems (TabMWP), que avaliam, respectivamente, respostas explicativas com base em tabelas, respostas factuais baseadas em tabelas da Wikipédia e a resolução de problemas matemáticos com dados tabulares. No artigo de Zhang et al. (2025), o TableLLM alcançou mais de 60% de acurácia segundo o método LLM-as-Judge. Já nos testes realizados neste trabalho, a métrica METEOR atingiu valor máximo de 54%, indicando similaridade textual razoável nas respostas. Porém, na avaliação numérica, a acurácia não passou de 20%. Esse desempenho pode ser atribuído à presença de números escritos por extenso e arredondados, que levam à classificação das respostas como incorretas apesar de semanticamente válidas. Além disso, as tarefas nos datasets FeTaQA e TabMWP possuem

Made with FlippingBook

RkJQdWJsaXNoZXIy MjEzNzYz