Saltar para:
Logótipo
Você está em: Início » Publicações » Visualização » Multi-agent actor centralized-critic with communication

Multi-agent actor centralized-critic with communication

Título
Multi-agent actor centralized-critic with communication
Tipo
Artigo em Revista Científica Internacional
Ano
2020
Autores
Simoes, D
(Autor)
Outra
A pessoa não pertence à instituição. A pessoa não pertence à instituição. A pessoa não pertence à instituição. Sem AUTHENTICUS Sem ORCID
lau, n
(Autor)
Outra
Ver página pessoal Sem permissões para visualizar e-mail institucional Pesquisar Publicações do Participante Ver página do Authenticus Sem ORCID
Revista
Título: NeurocomputingImportada do Authenticus Pesquisar Publicações da Revista
Vol. 390
Páginas: 40-56
ISSN: 0925-2312
Editora: Elsevier
Outras Informações
ID Authenticus: P-00R-PNN
Abstract (EN): Multiple real-world problems are naturally modeled as cooperative multi-agent systems, ranging from satellite formation to traffic monitoring. These systems require algorithms that can learn successful policies with independent agents that rely solely on local partial-observations of the environment. However, multi-agent environments are more complex, due to their partial-observability and non-stationarity from an agent's perspective, as well as the structural credit assignment problem and the curse of dimensionality, and achieving coordination in such systems remains a complex challenge. To this end, we propose a multi-agent actor-critic algorithm called Asynchronous Advantage Actor Centralized-Critic with Communication (A3C3). A3C3 uses a centralized critic to estimate a value function, decentralized actors to approximate each agent's policy function, and decentralized communication networks for each agent to share relevant information with its team. The critic can incorporate additional information, like the environment's global state, when available, and optimizes the actor networks. The actor networks of an agent's teammates optimize that agent's communication network, such that each agent learns to output information that is relevant to the policies of others. A3C3 supports a dynamic amount of agents, noisy communication mediums, and can be horizontally scaled to shorten its learning phase. We evaluate A3C3 in two partially-observable multi-agent suites where agents benefit from communicating local information to each other. A3C3 outperforms state-of-the-art multi-agent algorithms, independent approaches, and centralized controllers with access to all agents' observations.
Idioma: Inglês
Tipo (Avaliação Docente): Científica
Nº de páginas: 17
Documentos
Não foi encontrado nenhum documento associado à publicação.
Publicações Relacionadas

Dos mesmos autores

MULTI AGENT DEEP LEARNING WITH COOPERATIVE COMMUNICATION (2020)
Artigo em Revista Científica Internacional
Simoes, D; lau, n; reis, lp
Exploring communication protocols and centralized critics in multi-agent deep learning (2020)
Artigo em Revista Científica Internacional
Simoes, D; lau, n; reis, lp
Multi-agent Double Deep Q-Networks (2017)
Artigo em Livro de Atas de Conferência Internacional
Simoes, D; lau, n; reis, lp
Learning Low-Level Behaviors and High-Level Strategies in Humanoid Soccer (2020)
Artigo em Livro de Atas de Conferência Internacional
Simoes, D; Amaro, P; Maria Teresa Andrade; lau, n; reis, lp
Contextual Relative Entropy Policy Search with Covariance Matrix Adaptation (2016)
Artigo em Livro de Atas de Conferência Internacional
Abdolmaleki, A; Simoes, D; lau, n; reis, lp; Neumann, G

Da mesma revista

The vitality of pattern recognition and image analysis (2015)
Outra Publicação em Revista Científica Internacional
Luisa Mico; Joao M Sanches; Jaime S Cardoso
The vitality of pattern recognition and image analysis (2015)
Artigo em Revista Científica Internacional
Micó, L; Sanches, JM; Jaime S Cardoso
Pre-processing approaches for imbalanced distributions in regression (2019)
Artigo em Revista Científica Internacional
Branco, P; Torgo, L; Rita Ribeiro
Predicting satisfaction: perceived decision quality by decision-makers in Web-based group decision support systems (2019)
Artigo em Revista Científica Internacional
João Carneiro; Pedro Saraiva; Luís Conceição; Ricardo Santos; Goreti Marreiros; Paulo Novais
Online tree-based ensembles and option trees for regression on evolving data streams (2015)
Artigo em Revista Científica Internacional
Ikonomovska, E; João Gama; Dzeroski, S

Ver todas (17)

Recomendar Página Voltar ao Topo
Copyright 1996-2024 © Faculdade de Medicina da Universidade do Porto  I Termos e Condições  I Acessibilidade  I Índice A-Z  I Livro de Visitas
Página gerada em: 2024-10-03 às 12:43:12
Política de Utilização Aceitável | Política de Proteção de Dados Pessoais | Denúncias | Política de Captação e Difusão da Imagem Pessoal em Suporte Digital