1 316 Table of Contents 318 754

Rede de Saberes, Edição 2025

317 XXXII MOSTRA UNISINOS DE INICIAÇÃO CIENTÍFICA E TECNOLÓGICA De 29/09/2025 a 03/10/2025 Unisinos São Leopoldo e Porto Alegre FourRooms). A métrica principal de avaliação é o número de passos até o objetivo e a recompensa acumulada durante o treinamento. Resultados: Os experimentos demonstraram que options aprendidas a partir de subobjetivos com alto empoderamento reduzem significativamente o número de passos para alcançar o objetivo e aceleram a aprendizagem do agente. Em média, os agentes com políticas baseadas em empoderamento convergiram mais rapidamente e acumularam maior recompensa em comparação com o baseline Q-Learning. No TwoRooms, o Q-Learning converge após 30 episódios em média, enquanto nosso método converge em 5. Já no FourRooms, o Q-Learning também converge após 30 episódios, enquanto nosso método apresenta um trade-off: converge em 15 episódios com perda de estabilidade após a option ser adicionada ao conjunto de ações do agente. A análise dos estados descobertos revelou que os pontos de alto empoderamento coincidem com gargalos estratégicos (como corredores entre salas), corroborando nossa hipótese. A principal limitação atual do método está na complexidade computacional O(|A|^h), que restringe a aplicação a ambientes determinísticos com poucos estados e ações.

Made with FlippingBook

RkJQdWJsaXNoZXIy MjEzNzYz