doudizhu's Introduction

斗地主

deecamp斗地主

master分支

提供了可以结合AI的程序引擎，在next_moves中提供按照规则的出牌所有可能性，需要自己实现从next_moves中选择所出的牌（myutil中的choose方法），默认random

web分支

1.页面展示，提供可视化调试方法

2.可以选择跟人对战

使用方法

1.启动server.py

rl_pdqn分支

模仿OpenAI，提供了可以结合RL的程序引擎，可以选择对手为random或陈潇规则(cxgz)或自身(self)，但是训练时只能训练一个且为player 1。该分支rl模型为prioritized_dqn，具体模型参考https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow 。

目前胜率 vs random（90%）， cxgz（44%）

multi-rl分支

模仿OpenAI，提供了可以结合RL的程序引擎，可以同时训练多个rl player

mcts分支

mcts暴力解决（TODO：由于deepcopy牌局的回复速度比较慢，1000/6s）

contributor

Deecamp第五组

doudizhu's Issues

CFR模型和监督学习模型没有开源吗？

看新闻里写你们实现了”基于规则的AI，基于强化学习的AI，基于蒙特卡洛搜索的AI（Alphago的思路），基于CFR的AI（德州扑克的思路），以及基于模仿学习的AI“，代码里似乎只能看到前3种。
另外想问一下，这几种模型强弱有比较吗？

谢谢回复，那个issue你关的太快，我没来得及回复！新闻我在百度搜索看的：
让AI玩转斗地主快手实践课题获Deecamp2019最佳团队奖：http://baijiahao.baidu.com/s?id=1642397979642328759&wfr=spider&for=pc
牺牲睡眠、耽误论文，三周开发出「斗地主」AI，他们拿下了今年 DeeCamp 最佳团队奖：https://cloud.tencent.com/developer/article/1494263
那可能是今年这届实现的，原来每年的题目是一样的啊。
想另外请教几个问题：
1.基于蒙特卡洛搜索的AI>基于强化学习的AI 这是在相同训练时间下比较还是模型优势导致的啊？
2.蒙特卡洛理论上还是暴力搜索那套，为什么会比强化学习模型更强呢？我认为强化学习应该还是有很大提升潜力，如果想继续优化提升基于强化学习模型的，你认为有哪些方向比较有效？
3.结合最近学术界开发德扑AI的经验，非完美信息博弈里面各种CFR模型取得了不小突破，这说明CFR模型用在斗地主上会更强吗？