【第16章强化学习】待推导或待解析公式征集+答疑专区

Question

在这里，你可以：
1.评论留下西瓜书第16章你觉得需要补充推导细节或者解析的公式编号，我们看到后会尽快进行补充；
2.评论留下你对南瓜书第16章里相关内容的

Laqw · Answer

<a target="_blank" rel="noopener noreferrer nofollow" href="https://user-images.github

fishfishfishfishfish · Answer

想问下，16章第二节，书第373页中讲的“T步累积奖赏”和“γ折扣累计奖赏”的两条式子要怎么理解呢？

Sm1les · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

fishfishfishfishfish · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

MrBigFan · Answer

<blockquote><a class="user-mention notranslate" data-hovercard-type="user" data-hover

fishfishfishfishfish · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

fishfishfishfishfish · Answer

再问个问题，16.3.1策略评估的时候，计算值函数V使用的π是概率表示π(x,a)，表示以一定概率采取动作，但是在16.3.2策略改进时，π又变成了确定性表示π(x)，表示

MrBigFan · Answer

<blockquote><a class="user-mention notranslate" data-hovercard-type="user" data-hover

MrBigFan · Answer

再问个问题，16.3.1策略评估的时候，计算值函数V使用的π是概率表示π(x,a)，表示以一定概率采取动作，但是在16.3.2策略改进时，π又变成

fishfishfishfishfish · Answer

感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂，两个不同的表示在计算时不会有问题吗，下面确定性的π怎么代到上面概率性的π里呀

MrBigFan · Answer

感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂，两个不同的表示在计算时不会有问题吗，下面确定性的π怎么代到上面概率性的π里呀

fishfishfishfishfish · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

fishfishfishfishfish · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

Laqw · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

ZinYY · Answer

<a target="_blank" rel="noopener noreferrer nofollow" href="https://user-images.github

MrBigFan · Answer

<blockquote><a target="_blank" rel="noopener noreferrer nofollow" href="https://user-

MrBigFan · Answer

<blockquote><a target="_blank" rel="noopener noreferrer nofollow" href="https://user-

yllgl · Answer

<blockquote><blockquote><a target="_blank" rel="noopener noreferrer nofollow" href="

4fee8fea · Answer

<a target="_blank" rel="noopener noreferrer nofollow" href="https://user-images.github

rikonaka · Answer

<a target="_blank" rel="noopener noreferrer nofollow" href="https://user-images.github

archwalker · Answer

<blockquote><a target="_blank" rel="noopener noreferrer nofollow" href="https://user-

ChenZQ-nano · Answer

请问能否给出在T步累积奖赏下的16.16公式的证明？西瓜书中公式16.14并没有严格的数学证明（您给上一位同学的回答似乎不严谨，尤其是对于T步累积奖赏的值函数而言，因为您没

TangJiakai · Answer

请问这里为什么还是x’呢？

Jian-Yin-Shine · Answer

<blockquote><blockquote><a target="_blank" rel="noopener noreferrer nofollow" href="

chanforg · Answer

<a target="_blank" rel="noopener noreferrer nofollow" href="https://user-images.github

hanxiDuan · Answer

建议把公式（16.4）修改一下

Sm1les · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

huskyth · Answer

请问这里为什么还是x’呢？

48066 · Answer

<blockquote><blockquote><blockquote><a target="_blank" rel="noopener noreferrer nof

mrxiaojie · Answer

中午好！您的邮件我已经收到了，谢谢您的支持！

【第16章强化学习】待推导或待解析公式征集+答疑专区 about pumpkin-book HOT 30 OPEN

Comments (30)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent