Comments (30)
from pumpkin-book.
想问下,16章第二节,书第373页中讲的“T步累积奖赏”和“γ折扣累计奖赏”的两条式子要怎么理解呢?
from pumpkin-book.
@fishfishfishfishfish 同学你好,我代16章的主要贡献者回答一下你:“奖赏是对策略的每次平均反馈求和,平均有两种,一种是算术平均,对应T步累计,另一种是加权平均,对应γ折扣累计”
from pumpkin-book.
@Sm1les 谢谢您的回答,但我还是不太清楚。追问一下,为什么E里面,一个是求和到T,一个是求和到正无穷呢?“T步累计奖赏”是不是只适用于那种步数是固定的游戏呢?
from pumpkin-book.
@Sm1les 谢谢您的回答,但我还是不太清楚。追问一下,为什么E里面,一个是求和到T,一个是求和到正无穷呢?“T步累计奖赏”是不是只适用于那种步数是固定的游戏呢?
同学您好,我是负责16章的同学,r折扣是理论上从r^0累计到r^无穷,而r是属于(0,1),所以每次累计后,奖赏权重在降低,r^无穷 = 0,可以这样理解:对比T步累计奖赏,r折扣中的最后一些步由于权重很低所以可以忽略不计,但因为要严谨公式上表达还是累计到无穷步。(从某一步开始以后的累计,对整个奖赏作用很微小,可以参考高数中求极限的**理解。)从极限的角度思考的话,T步累计也可以用于无穷步的游戏(前提是存在无穷步的游戏),只不过这里的极限是常数极限。
from pumpkin-book.
@MrBigFan 非常感谢!为什么会有这两种方法呢,“T步累积”还比较好理解,但是"γ折累积"为什么是越到后面奖赏权重越低呢?
from pumpkin-book.
再问个问题,16.3.1策略评估的时候,计算值函数V使用的π是概率表示π(x,a),表示以一定概率采取动作,但是在16.3.2策略改进时,π又变成了确定性表示π(x),表示看到状态x就采取对应动作,为什么这两个部分对π的描述不一致呢?
from pumpkin-book.
@MrBigFan 非常感谢!为什么会有这两种方法呢,“T步累积”还比较好理解,但是"γ折累积"为什么是越到后面奖赏权重越低呢?
同学您好,r折扣累计奖赏的每一步是基于前一步反馈得到的信息,当然每一步的学习效率是逐渐减小的(后一步学习的信息很难得到像前一步学习一样多的信息,最多100%)所以权重也是逐渐减小的。
from pumpkin-book.
再问个问题,16.3.1策略评估的时候,计算值函数V使用的π是概率表示π(x,a),表示以一定概率采取动作,但是在16.3.2策略改进时,π又变成了确定性表示π(x),表示看到状态x就采取对应动作,为什么这两个部分对π的描述不一致呢?
16.3.1是策略评估,当然和采取动作的概率有关,但16.3.2是策略改进,是对已经形成的(近似)最优策略更新,就变成了确定性表示。
from pumpkin-book.
感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂,两个不同的表示在计算时不会有问题吗,下面确定性的π怎么代到上面概率性的π里呀
from pumpkin-book.
感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂,两个不同的表示在计算时不会有问题吗,下面确定性的π怎么代到上面概率性的π里呀
同学你好,最近才结束回复你,确定性也是一种概率,可以代进去
from pumpkin-book.
@Laqw 同学你好,这是我前几天推到16.7和16.8的笔记,希望能帮到你。如果有错还请见谅
推导.pdf
from pumpkin-book.
@MrBigFan 好的 谢谢~
from pumpkin-book.
@fishfishfishfishfish 谢谢你的笔记
from pumpkin-book.
这一步的等号感觉没什么道理吧?29考虑的是单步RL,31是多步RL的?
from pumpkin-book.
你好,这个证明的解释是这样的,我们需要证明式子(31),对比式子(29),我们会不难发现只需要得到r_t+1的表达式就可以了。然后我们分析r_t+1这个表达式,含义就是第t+1步的奖赏,那就是状态x变化到x'的奖赏加上前面t步奖赏总和的γ折扣,所以我这里最后说r_t+1可以由γ折扣累积奖赏估计到,那这样就证明了公式(31)
from pumpkin-book.
另外,至于公式(29)和(31),西瓜书上也有解释,这两个都是第t+1次采样的值函数。
from pumpkin-book.
另外,至于公式(29)和(31),西瓜书上也有解释,这两个都是第t+1次采样的值函数。
r_t+1这个表达式,含义就是第t+1步的奖赏,那就是状态x变化到x'的奖赏加上前面t步奖赏总和的γ折扣。
我也很难理解这个等式。第t+1步的奖赏为什么要加前面t步奖赏总和?又不是第t+1步的累积奖赏。还有,我也不理解Q_t+1(x,a)以γ折扣累积奖赏时代表的含义,是指把p378中的16.6式γ折扣累积奖赏的定义中的正无穷上限求和改成t+1上限求和就行了吗?
from pumpkin-book.
您好!
对于等式(16.14), 我不理解为什么只考虑使得Q(x,a)在最优策略下取最大值对应的动作。
V(x)的计算过程,考虑了所有的动作a。为何此处可以只取其中的一个动作呢?
谢谢解答!
from pumpkin-book.
@fishfishfishfishfish 请问一下这个p代表什么意思,然后如何通过这个p得出下面的公式
from pumpkin-book.
您好!
对于等式(16.14), 我不理解为什么只考虑使得Q(x,a)在最优策略下取最大值对应的动作。
V(x)的计算过程,考虑了所有的动作a。为何此处可以只取其中的一个动作呢?
谢谢解答!
你好,抱歉没有注意的你的问题,这是因为式16.14限制了该累计奖赏是最优的,因此需要取能够使得累计奖赏达到最优的动作。
from pumpkin-book.
请问能否给出在T步累积奖赏下的16.16公式的证明?西瓜书中公式16.14并没有严格的数学证明(您给上一位同学的回答似乎不严谨,尤其是对于T步累积奖赏的值函数而言,因为您没有给出“T步累积奖赏”下16.16的证明),在国外许多论坛也有很多有关16.14的提问,现在我可以在“折扣累积奖赏”的值函数定义下利用反证法证明16.14,过程如下(来自https://mathoverflow.net/questions/321701/proof-of-bellman-optimality-equation-for-finite-markov-decision-processes)。但是似乎没有办法在“T步累积奖赏”定义的值函数下证明16.16,我也因此没法证明16.14在“T步累积奖赏”下能否成立。另外在Sutton的书里,也没有使用“T步累积奖赏”推导Bellman最优公式,请问要如何解释这个问题?
from pumpkin-book.
请问这里为什么还是x’呢?
换句话说,之前的x‘和这一行的x’肯定不能混用吧?这样写会不会太令人费解了。。
from pumpkin-book.
你好,这个证明的解释是这样的,然后我们需要证明式子(31),对比式子(29),我们会不难发现只需要得到r_t+1的表达式就可以了。我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,那是x变化到x的奖赏加上前面t步奖赏总和的γ折扣,所以我这里最后说r_t+1可以由γ折扣奖赏估计到,那这样就证明了公式(31)
我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,即为$R_{x \to x'}^{a}$,哪里有后面的折扣累计奖励?
from pumpkin-book.
请问这两行是怎么推导出来的,并且第一行的两个加和符号下面的x'应该分别是x'和x‘’吧,代表着时序2的状态和时序3的状态。期待回复。
from pumpkin-book.
from pumpkin-book.
@hanxiDuan 谢谢雨含,我们已收到,会尽快更新上去 :)
from pumpkin-book.
请问这里为什么还是x’呢? 换句话说,之前的x‘和这一行的x’肯定不能混用吧?这样写会不会太令人费解了。。
后来解决了吗
from pumpkin-book.
你好,这个证明的解释是这样的,然后我们需要证明式子(31),对比式子(29),我们会不难发现只需要得到r_t+1的表达式就可以了。我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,那是x变化到x的奖赏加上前面t步奖赏总和的γ折扣,所以我这里最后说r_t+1可以由γ折扣奖赏估计到,那这样就证明了公式(31)
我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,即为$R_{x \to x'}^{a}$,哪里有后面的折扣累计奖励?
同不懂。我也觉得r_{t+1}和R_{x \to x'}是一回事啊。请问有什么解释吗?
from pumpkin-book.
from pumpkin-book.
Related Issues (20)
- 在线的链接无法打开 HOT 1
- ROC曲线为什么真正例率与假正例率可以同时增加 HOT 2
- 机器学习
- 南瓜书中的公式2.21的讲解感觉有点晦涩了 HOT 1
- 公式(12.39)的解释有问题 HOT 2
- 公式12.36
- released版本的pdf中有一处错误
- 西瓜書
- 书中 公式(3.35) 公式(3.36)怎么没有啊! HOT 1
- 公式16.16 HOT 2
- 公式16.16
- 进不去链接 HOT 5
- 式 2.27 HOT 2
- 10.17 求解CPA时的问题
- 关于公式3-9
- @yanglei-github 事件{f(x)=1}和{f(x)=-1}已经是完备事件组了,求期望是 权重(概率)*值,然后P(f(x)=1|x)是概率,e^(-H(x)f(x))为值,又知道f(x)=1,那么值就是e^(-H(x)),然后把P(f(x)=-1|x)也加上就出现了上述式子
- 第五章 式(5.2) 中最后推导梯度的时候,\hat(yi)也应该是关于w的函数,没有对其求导,直接当成常数处理了,这似乎是不正确的。 HOT 1
- > @wanyixue 同学你好,损失函数L是关于w和theta的函数,只有w和theta是未知的变量,\hat(yi)和yi都是已知量,所以不用对他们求导,因此也不存在不可导一说
- There are no page numbers in the most recent PDF file pages HOT 4
- v2.0.0版本的PDF中10.5.1节有关主成分分析的推导流程有处错误 HOT 2
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from pumpkin-book.