1 315 Table of Contents 317 754

Rede de Saberes, Edição 2025

316 XXXII MOSTRA UNISINOS DE INICIAÇÃO CIENTÍFICA E TECNOLÓGICA De 29/09/2025 a 03/10/2025 Unisinos São Leopoldo e Porto Alegre Ciências Exatas e da Terra - Programa de Pós-Graduação em Computação Aplicada Autor(a): Luiz Alfredo Thomasini Coautor(es): Modalidade de Bolsa: CNPq/PIBIC Orientador(a): Gabriel de Oliveira Ramos DESCOBERTA AUTOMÁTICA DE SUBOBJETIVOS UTILIZANDO EMPODERAMENTO Introdução: Aprendizado por reforço (RL) tem apresentado sucesso em tarefas complexas, mas sofre de um alto custo de treinamento, especialmente em ambientes com recompensas esparsas. Uma abordagem promissora para reduzir essas limitações é a abstração temporal. Nesse modelo, é possível decompor uma tarefa em subobjetivos e aprender comportamentos (políticas) que se estendem por vários passos no tempo, chamadas de options, que atingem esses subobjetivos e contribuem para resolver a tarefa principal. No entanto, a descoberta automática de subobjetivos úteis para essas options ainda é um desafio em aberto. Este trabalho propõe ummétodo baseado na métrica empowerment, uma medida informacional da capacidade de um agente influenciar o ambiente, como critério para descoberta de subobjetivos. Objetivos: Propomos e avaliamos um método para descoberta automática de subobjetivos baseado em empowerment. Nosso objetivo é verificar se estados com alto empoderamento estão relacionados com pontos estratégicos do ambiente e se, ao aprender políticas para alcançá-los, conseguimos ganhos significativos em eficiência. Também mostramos como integrar a descoberta de subobjetivos com a aprendizagem de novas políticas e incorporar options em arquiteturas hierárquicas de RL. Metodologia: Nosso método consiste em três etapas principais: (1) cálculo do empoderamento para todos os estados a partir de um modelo de transição aprendido com experiências do agente; (2) seleção dos estados com maior empoderamento como subobjetivos candidatos; (3) aprendizagem de políticas para alcançar esses subobjetivos, respeitando a estrutura de recompensas da tarefa principal. Utilizamos o algoritmo SMDP Q-Learning com extensão para options, avaliando o desempenho em tarefas de navegação em ambientes discretos (TwoRooms e

Made with FlippingBook

RkJQdWJsaXNoZXIy MjEzNzYz