PyTorch implements multi-agent reinforcement learning algorithms, including QMIX, Independent PPO, Centralized PPO, Grid Wise Control, Grid Wise Control+PPO, Grid Wise Control+DDPG.

License: MIT License

Python 100.00%

centralized-ppo grid-wise-control independent-ppo multi-agent-reinforcement-learning pettingzoo pytorch qmix

multi-agent-reinforcement-learning's People

Contributors

Stargazers

Watchers

multi-agent-reinforcement-learning's Issues

请问有运行结果吗？

谢谢作者的实现，很有帮助！
我这边也实现了相关算法在pettingzoo的simple_spread_v2的代码，最后能收敛到 -800 分左右。
max_cycle = 100
n_agents = 3
local_ratio = 0.5
最后收敛到-800左右，您这边有运行的结果吗，想和您对一下，看看算法实现和环境是否有问题。

这个pettingzoo的版本是不是写错了，并没有1.12.0这个版本呀？

ERROR: Could not find a version that satisfies the requirement PettingZoo==1.12.0 (from versions: 0.1.0, 0.1.1, 0.1.2, 0.1.3, 0.1.4, 0.1.5, 0.1.6, 0.1.7, 0.1.8, 0.1.9, 0.1.10, 0.1.11, 0.1.12, 0.1.13, 0.1.14, 1.0.0, 1.0.1, 1.1.0, 1.2.0, 1.2.1, 1.3.0, 1.3.1, 1.3.2, 1.3.3, 1.3.4, 1.3.5, 1.14.0, 1.15.0, 1.16.0, 1.17.0, 1.18.1, 1.19.0, 1.20.1, 1.21.0, 1.22.0, 1.22.1, 1.22.2)
ERROR: No matching distribution found for PettingZoo==1.12.0

系统提示没有1.12.0这个版本的pettingzoo

curr_log_probs = []
curr_state_values = []
# 这里在一次更新中使用了每个agent采样的数据来计算loss
for agent_num in range(self.n_agents):
    one_action_mean, self.rnn_hidden[i] = self.ppo_actor(obs[:, i], self.rnn_hidden[i])
    curr_state_value = self.ppo_critic(obs[:, i])
    dist = MultivariateNormal(one_action_mean, self.cov_mat)
    curr_log_prob = dist.log_prob(actions[:, i])
    curr_log_probs.append(curr_log_prob)
    curr_state_values.append(curr_state_value)
curr_log_probs = torch.stack(curr_log_probs, dim=1)
curr_state_values = torch.stack(curr_state_values, dim=0)

我看到有一些其他的ippo实现中，每个agent采样的数据分别保存在自己的replay buffer中，然后每次策略更新时只使用一个agent采样到的数据更新，请问这两种方式有区别吗？

2.ippo网络结构中rnn网络的使用

one_action_mean, self.rnn_hidden[i] = self.ppo_actor(obs[:, i], self.rnn_hidden[i])

在上面的代码中，我理解self.rnn_hidden[i]这个向量每次更新时只使用了一次，那是不是这样写也可以：

one_action_mean, _ = self.ppo_actor(obs[:, i], self.rnn_hidden[i])

而且我注意到每次self.rnn_hidden[i]都初始化为全零，那是不是给actor网络传入一个全零向量就可以了？

yangchen1997 / multi-agent-reinforcement-learning Goto Github PK

multi-agent-reinforcement-learning's People

Contributors

Stargazers

Watchers

Forkers

multi-agent-reinforcement-learning's Issues

请问有运行结果吗？

这个pettingzoo的版本是不是写错了，并没有1.12.0这个版本呀？

可视化

您好

Independent PPO 算法中Actor loss计算问题

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent