这个训练一般会持续很久，很可能会断了之后继续训练，所以继续训练也是个刚需。建议把如何继续训练写到文档里面。还有就是现在要继续训练要自己

为什么我直接init_params="step_xxxx" 也能加载, 这样做不对么, <p dir="aut

建议把如何从check_point继续训练的方式也在文档里写一下 about knover HOT 7 CLOSED

paddlepaddle commented on May 22, 2024

建议把如何从check_point继续训练的方式也在文档里写一下

from knover.

Comments (7)

sserdoubleh commented on May 22, 2024 2

为什么我直接init_params="step_xxxx" 也能加载, 这样做不对么,

使用init_params只是加载参数，不会加载optimizer相关的variable，如Adam的moment之类的，使用init_checkpoint是为了从之前中断的状态继续训练

from knover.

sserdoubleh commented on May 22, 2024

功能已支持，把配置文件的init_params改成init_checkpoint即可，我后面在文档上加上

from knover.

onewaymyway commented on May 22, 2024

功能已支持，把配置文件的init_params改成init_checkpoint即可，我后面在文档上加上

我就是看到已经有这功能，但是文档里又没有写，所以建议文档里加上。另外就是现在这样还是不太方便，除了init_params改成init_checkpoint还得加--start_step参数（配置文件和train.sh里都得加）才能正常的在后续创建能续上的step checkpoint,所以我觉得是不是保存checkpoint的时候顺便就在这个目录记下最后一个step，这样训练的时候先读取这个进度信息，如果有进度信息就自动恢复训练，这样用起来就方便多了

from knover.

sserdoubleh commented on May 22, 2024

功能已支持，把配置文件的init_params改成init_checkpoint即可，我后面在文档上加上

我就是看到已经有这功能，但是文档里又没有写，所以建议文档里加上。另外就是现在这样还是不太方便，除了init_params改成init_checkpoint还得加--start_step参数（配置文件和train.sh里都得加）才能正常的在后续创建能续上的step checkpoint,所以我觉得是不是保存checkpoint的时候顺便就在这个目录记下最后一个step，这样训练的时候先读取这个进度信息，如果有进度信息就自动恢复训练，这样用起来就方便多了

保存checkpoint的时候其实是已经包含了step信息（目前没有输出step信息），start step不设置也不影响训练，也可以准确从上次的checkpoint保存的step继续训练，这个只会影响显示（显示后续可以优化）
另外运行配置修改上，绝大多数情况都不需要修改train.sh的逻辑，可以直接在配置上通过train_args设置所有额外的参数，如加一行

train_args="--start_step 2000"

from knover.

onewaymyway commented on May 22, 2024

功能已支持，把配置文件的init_params改成init_checkpoint即可，我后面在文档上加上

我就是看到已经有这功能，但是文档里又没有写，所以建议文档里加上。另外就是现在这样还是不太方便，除了init_params改成init_checkpoint还得加--start_step参数（配置文件和train.sh里都得加）才能正常的在后续创建能续上的step checkpoint,所以我觉得是不是保存checkpoint的时候顺便就在这个目录记下最后一个step，这样训练的时候先读取这个进度信息，如果有进度信息就自动恢复训练，这样用起来就方便多了

保存checkpoint的时候其实是已经包含了step信息（目前没有输出step信息），start step不设置也不影响训练，也可以准确从上次的checkpoint保存的step继续训练，这个只会影响显示（显示后续可以优化）
另外运行配置修改上，绝大多数情况都不需要修改train.sh的逻辑，可以直接在配置上通过train_args设置所有额外的参数，如加一行
train_args="--start_step 2000"

学到了新知识，非常感谢：）

from knover.

smartmark-pro commented on May 22, 2024

为什么我直接init_params="step_xxxx" 也能加载, 这样做不对么,

from knover.

sserdoubleh commented on May 22, 2024

功能已支持，把配置文件的init_params改成init_checkpoint即可，我后面在文档上加上

我就是看到已经有这功能，但是文档里又没有写，所以建议文档里加上。另外就是现在这样还是不太方便，除了init_params改成init_checkpoint还得加--start_step参数（配置文件和train.sh里都得加）才能正常的在后续创建能续上的step checkpoint,所以我觉得是不是保存checkpoint的时候顺便就在这个目录记下最后一个step，这样训练的时候先读取这个进度信息，如果有进度信息就自动恢复训练，这样用起来就方便多了

保存checkpoint的时候其实是已经包含了step信息（目前没有输出step信息），start step不设置也不影响训练，也可以准确从上次的checkpoint保存的step继续训练，这个只会影响显示（显示后续可以优化）
另外运行配置修改上，绝大多数情况都不需要修改train.sh的逻辑，可以直接在配置上通过train_args设置所有额外的参数，如加一行
train_args="--start_step 2000"
学到了新知识，非常感谢：）

#31
已经补充了文档

from knover.

建议把如何从check_point继续训练的方式也在文档里写一下 about knover HOT 7 CLOSED

Comments (7)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent