Данный репозиторий посвящен разработке иерархического метода для мультиагентного обучения с подкреплением, используя обнаружение подцелей - MASHA 👩🚀.
Это сочетание многоуровневого иерархического обучения с обнаружением промежуточных целей и мультиагентного обучения с подкреплением с воспроизведением ретроспективного опыта, которое позволяет множеству агентов эффективно обучаться в сложных средах, в том числе в средах с редкими вознаграждениями. Демонстрация результатов проводится в одной из таких сред внутри стратегической игры StarCraft II, кроме того приводится сравнение с другими современными подходами. Метод MASHA разработан в парадигме централизованного обучения с децентрализованным исполнением, что позволяет достичь баланса между координацией и автономностью агентов.
Верхний уровень (Уровень 0) получает начальную командную цель
Для проведения сравнительных экспериментов по мультиагентному обучению с подкреплением была выбрана популярная программная библиотека SMAC, предоставляющая возможность децентрализованного управления множеством агентов в среде стратегической компьютерной игры StarCraft II. Библиотека SMAC сегодня является одним из главных международных экспериментальных стендов для объективного анализа мультиагентных методов машинного обучения.
При одновременном приближении всех союзных агентов к воротам, они открываются, и после попадания агентов внутрь безопасной зоны, ворота закрываются вновь, давая возможность спрятаться от сущностей противодействующей команды, и впредь быть неуязвимыми. Цель агентов - уничтожить противнка.
Визуализирована та часть вектора состояний, которая отвечает за позицию агентов на карте. Цели синего агента обозначены бирюзовым цветом (кольцо - собственная цель, точка - цель для другого агента), красного - пурпурным цветом (кольцо и точка - по тому же принципу).