MASHA - Multi-Agent Subgoal Hierarchy Algorithm

Данный репозиторий посвящен разработке иерархического метода для мультиагентного обучения с подкреплением, используя обнаружение подцелей - MASHA 👩‍🚀.

Это сочетание многоуровневого иерархического обучения с обнаружением промежуточных целей и мультиагентного обучения с подкреплением с воспроизведением ретроспективного опыта, которое позволяет множеству агентов эффективно обучаться в сложных средах, в том числе в средах с редкими вознаграждениями. Демонстрация результатов проводится в одной из таких сред внутри стратегической игры StarCraft II, кроме того приводится сравнение с другими современными подходами. Метод MASHA разработан в парадигме централизованного обучения с децентрализованным исполнением, что позволяет достичь баланса между координацией и автономностью агентов.

Архитектура MASHA

Верхний уровень (Уровень 0) получает начальную командную цель $g_0$, она одинакова для всех $n$ агентов. Исходя из наблюдений агентов и начальной цели, модули исполнителей верхнего уровня генерируют командные подцели $g_1 = (g_{1,1}, ..., g_{1,n})$ для нижестоящего уровня в качестве своих действий.

Мультиагентная среда в StarCraft II

Для проведения сравнительных экспериментов по мультиагентному обучению с подкреплением была выбрана популярная программная библиотека SMAC, предоставляющая возможность децентрализованного управления множеством агентов в среде стратегической компьютерной игры StarCraft II. Библиотека SMAC сегодня является одним из главных международных экспериментальных стендов для объективного анализа мультиагентных методов машинного обучения.

При одновременном приближении всех союзных агентов к воротам, они открываются, и после попадания агентов внутрь безопасной зоны, ворота закрываются вновь, давая возможность спрятаться от сущностей противодействующей команды, и впредь быть неуязвимыми. Цель агентов - уничтожить противнка.

Визуализирована та часть вектора состояний, которая отвечает за позицию агентов на карте. Цели синего агента обозначены бирюзовым цветом (кольцо - собственная цель, точка - цель для другого агента), красного - пурпурным цветом (кольцо и точка - по тому же принципу).

alekat13 / masha Goto Github PK

masha's Introduction

MASHA - Multi-Agent Subgoal Hierarchy Algorithm

Архитектура MASHA

Мультиагентная среда в StarCraft II

masha's People

Contributors

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent