Giter VIP home page Giter VIP logo

Comments (30)

Laqw avatar Laqw commented on May 4, 2024 1

3fb4031aca4c09d641ca70f7460dc0a

请问南瓜书中强化学习16.8公式的推导这一步是怎么从上一步推导出来的啊?可以说说具体吗?

from pumpkin-book.

fishfishfishfishfish avatar fishfishfishfishfish commented on May 4, 2024

想问下,16章第二节,书第373页中讲的“T步累积奖赏”和“γ折扣累计奖赏”的两条式子要怎么理解呢?
image

from pumpkin-book.

Sm1les avatar Sm1les commented on May 4, 2024

@fishfishfishfishfish 同学你好,我代16章的主要贡献者回答一下你:“奖赏是对策略的每次平均反馈求和,平均有两种,一种是算术平均,对应T步累计,另一种是加权平均,对应γ折扣累计”

from pumpkin-book.

fishfishfishfishfish avatar fishfishfishfishfish commented on May 4, 2024

@Sm1les 谢谢您的回答,但我还是不太清楚。追问一下,为什么E里面,一个是求和到T,一个是求和到正无穷呢?“T步累计奖赏”是不是只适用于那种步数是固定的游戏呢?

from pumpkin-book.

MrBigFan avatar MrBigFan commented on May 4, 2024

@Sm1les 谢谢您的回答,但我还是不太清楚。追问一下,为什么E里面,一个是求和到T,一个是求和到正无穷呢?“T步累计奖赏”是不是只适用于那种步数是固定的游戏呢?

同学您好,我是负责16章的同学,r折扣是理论上从r^0累计到r^无穷,而r是属于(0,1),所以每次累计后,奖赏权重在降低,r^无穷 = 0,可以这样理解:对比T步累计奖赏,r折扣中的最后一些步由于权重很低所以可以忽略不计,但因为要严谨公式上表达还是累计到无穷步。(从某一步开始以后的累计,对整个奖赏作用很微小,可以参考高数中求极限的**理解。)从极限的角度思考的话,T步累计也可以用于无穷步的游戏(前提是存在无穷步的游戏),只不过这里的极限是常数极限。

from pumpkin-book.

fishfishfishfishfish avatar fishfishfishfishfish commented on May 4, 2024

@MrBigFan 非常感谢!为什么会有这两种方法呢,“T步累积”还比较好理解,但是"γ折累积"为什么是越到后面奖赏权重越低呢?

from pumpkin-book.

fishfishfishfishfish avatar fishfishfishfishfish commented on May 4, 2024

再问个问题,16.3.1策略评估的时候,计算值函数V使用的π是概率表示π(x,a),表示以一定概率采取动作,但是在16.3.2策略改进时,π又变成了确定性表示π(x),表示看到状态x就采取对应动作,为什么这两个部分对π的描述不一致呢?

from pumpkin-book.

MrBigFan avatar MrBigFan commented on May 4, 2024

@MrBigFan 非常感谢!为什么会有这两种方法呢,“T步累积”还比较好理解,但是"γ折累积"为什么是越到后面奖赏权重越低呢?

同学您好,r折扣累计奖赏的每一步是基于前一步反馈得到的信息,当然每一步的学习效率是逐渐减小的(后一步学习的信息很难得到像前一步学习一样多的信息,最多100%)所以权重也是逐渐减小的。

from pumpkin-book.

MrBigFan avatar MrBigFan commented on May 4, 2024

再问个问题,16.3.1策略评估的时候,计算值函数V使用的π是概率表示π(x,a),表示以一定概率采取动作,但是在16.3.2策略改进时,π又变成了确定性表示π(x),表示看到状态x就采取对应动作,为什么这两个部分对π的描述不一致呢?

16.3.1是策略评估,当然和采取动作的概率有关,但16.3.2是策略改进,是对已经形成的(近似)最优策略更新,就变成了确定性表示。

from pumpkin-book.

fishfishfishfishfish avatar fishfishfishfishfish commented on May 4, 2024

感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂,两个不同的表示在计算时不会有问题吗,下面确定性的π怎么代到上面概率性的π里呀
image

from pumpkin-book.

MrBigFan avatar MrBigFan commented on May 4, 2024

感谢~累计奖赏的问题大概懂了。但是π的问题还不是很懂,两个不同的表示在计算时不会有问题吗,下面确定性的π怎么代到上面概率性的π里呀

同学你好,最近才结束回复你,确定性也是一种概率,可以代进去

from pumpkin-book.

fishfishfishfishfish avatar fishfishfishfishfish commented on May 4, 2024

@Laqw 同学你好,这是我前几天推到16.7和16.8的笔记,希望能帮到你。如果有错还请见谅
推导.pdf

from pumpkin-book.

fishfishfishfishfish avatar fishfishfishfishfish commented on May 4, 2024

@MrBigFan 好的 谢谢~

from pumpkin-book.

Laqw avatar Laqw commented on May 4, 2024

@fishfishfishfishfish 谢谢你的笔记

from pumpkin-book.

ZinYY avatar ZinYY commented on May 4, 2024

image
这一步的等号感觉没什么道理吧?29考虑的是单步RL,31是多步RL的?

from pumpkin-book.

MrBigFan avatar MrBigFan commented on May 4, 2024

image
这一步的等号感觉没什么道理吧?29考虑的是单步RL,31是多步RL的?

你好,这个证明的解释是这样的,我们需要证明式子(31),对比式子(29),我们会不难发现只需要得到r_t+1的表达式就可以了。然后我们分析r_t+1这个表达式,含义就是第t+1步的奖赏,那就是状态x变化到x'的奖赏加上前面t步奖赏总和的γ折扣,所以我这里最后说r_t+1可以由γ折扣累积奖赏估计到,那这样就证明了公式(31)

from pumpkin-book.

MrBigFan avatar MrBigFan commented on May 4, 2024

image
这一步的等号感觉没什么道理吧?29考虑的是单步RL,31是多步RL的?

另外,至于公式(29)和(31),西瓜书上也有解释,这两个都是第t+1次采样的值函数。

from pumpkin-book.

yllgl avatar yllgl commented on May 4, 2024

image
这一步的等号感觉没什么道理吧?29考虑的是单步RL,31是多步RL的?

另外,至于公式(29)和(31),西瓜书上也有解释,这两个都是第t+1次采样的值函数。
r_t+1这个表达式,含义就是第t+1步的奖赏,那就是状态x变化到x'的奖赏加上前面t步奖赏总和的γ折扣。

我也很难理解这个等式。第t+1步的奖赏为什么要加前面t步奖赏总和?又不是第t+1步的累积奖赏。还有,我也不理解Q_t+1(x,a)以γ折扣累积奖赏时代表的含义,是指把p378中的16.6式γ折扣累积奖赏的定义中的正无穷上限求和改成t+1上限求和就行了吗?

from pumpkin-book.

4fee8fea avatar 4fee8fea commented on May 4, 2024

image

您好!

对于等式(16.14), 我不理解为什么只考虑使得Q(x,a)在最优策略下取最大值对应的动作。

V(x)的计算过程,考虑了所有的动作a。为何此处可以只取其中的一个动作呢?

谢谢解答!

from pumpkin-book.

rikonaka avatar rikonaka commented on May 4, 2024

图片
@fishfishfishfishfish 请问一下这个p代表什么意思,然后如何通过这个p得出下面的公式

from pumpkin-book.

archwalker avatar archwalker commented on May 4, 2024

image

您好!

对于等式(16.14), 我不理解为什么只考虑使得Q(x,a)在最优策略下取最大值对应的动作。

V(x)的计算过程,考虑了所有的动作a。为何此处可以只取其中的一个动作呢?

谢谢解答!

你好,抱歉没有注意的你的问题,这是因为式16.14限制了该累计奖赏是最优的,因此需要取能够使得累计奖赏达到最优的动作。

from pumpkin-book.

ChenZQ-nano avatar ChenZQ-nano commented on May 4, 2024

请问能否给出在T步累积奖赏下的16.16公式的证明?西瓜书中公式16.14并没有严格的数学证明(您给上一位同学的回答似乎不严谨,尤其是对于T步累积奖赏的值函数而言,因为您没有给出“T步累积奖赏”下16.16的证明),在国外许多论坛也有很多有关16.14的提问,现在我可以在“折扣累积奖赏”的值函数定义下利用反证法证明16.14,过程如下(来自https://mathoverflow.net/questions/321701/proof-of-bellman-optimality-equation-for-finite-markov-decision-processes)。但是似乎没有办法在“T步累积奖赏”定义的值函数下证明16.16,我也因此没法证明16.14在“T步累积奖赏”下能否成立。另外在Sutton的书里,也没有使用“T步累积奖赏”推导Bellman最优公式,请问要如何解释这个问题?

截屏2021-10-14 下午2 15 55

截屏2021-10-14 下午2 16 12

from pumpkin-book.

TangJiakai avatar TangJiakai commented on May 4, 2024

请问这里为什么还是x’呢?
image
换句话说,之前的x‘和这一行的x’肯定不能混用吧?这样写会不会太令人费解了。。

from pumpkin-book.

Jian-Yin-Shine avatar Jian-Yin-Shine commented on May 4, 2024

图片
这等号觉得有什么道理吧?29步是单步RL,31是多步RL的?

你好,这个证明的解释是这样的,然后我们需要证明式子(31),对比式子(29),我们会不难发现只需要得到r_t+1的表达式就可以了。我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,那是x变化到x的奖赏加上前面t步奖赏总和的γ折扣,所以我这里最后说r_t+1可以由γ折扣奖赏估计到,那这样就证明了公式(31)

我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,即为$R_{x \to x'}^{a}$,哪里有后面的折扣累计奖励?

from pumpkin-book.

chanforg avatar chanforg commented on May 4, 2024

image
请问这两行是怎么推导出来的,并且第一行的两个加和符号下面的x'应该分别是x'和x‘’吧,代表着时序2的状态和时序3的状态。期待回复。

from pumpkin-book.

hanxiDuan avatar hanxiDuan commented on May 4, 2024

建议把公式(16.4)修改一下
Q9F3~5SO SBE3)67 {AXE

from pumpkin-book.

Sm1les avatar Sm1les commented on May 4, 2024

@hanxiDuan 谢谢雨含,我们已收到,会尽快更新上去 :)

from pumpkin-book.

huskyth avatar huskyth commented on May 4, 2024

请问这里为什么还是x’呢? image 换句话说,之前的x‘和这一行的x’肯定不能混用吧?这样写会不会太令人费解了。。
后来解决了吗

from pumpkin-book.

48066 avatar 48066 commented on May 4, 2024

图片
这等号觉得有什么道理吧?29步是单步RL,31是多步RL的?

你好,这个证明的解释是这样的,然后我们需要证明式子(31),对比式子(29),我们会不难发现只需要得到r_t+1的表达式就可以了。我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,那是x变化到x的奖赏加上前面t步奖赏总和的γ折扣,所以我这里最后说r_t+1可以由γ折扣奖赏估计到,那这样就证明了公式(31)

我们分析r_t+ 1这个表达式,表示状态就是第t+1步的奖赏,即为$R_{x \to x'}^{a}$,哪里有后面的折扣累计奖励?

同不懂。我也觉得r_{t+1}和R_{x \to x'}是一回事啊。请问有什么解释吗?

from pumpkin-book.

mrxiaojie avatar mrxiaojie commented on May 4, 2024

from pumpkin-book.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.