训练成果分享与一点提问

Question

经由一晚的训练，但又些疑问...想提出来讨论一下...
由于想得到更好效果，我ePoch 做到75(15+60)，结果...
now time: 23:18

Morizeyao · Answer

可以的，我的代码设置了每个epoch单独保存代码，已经存储tensorboard展示loss下降的功能，都可以利用上。
效果不错，可以做一个pull request

liuzhejun · Answer

<p dir="auto">同样的困惑，一直在考虑要不要使用这个项目，我也一直在找用中文训练的GPT-2模型，但是看到作者使用的训练集似乎都比较小，并且是从0开始训练，对于GPT-2这样一个庞大的模型

Morizeyao · Answer

目前我已经做了一次3.4G语料训练5个epoch，一共141万步，约两周时间的测试。生成效果依然是很不错（或者说惊人）的，最终loss在2.2到2.3之间。
模型的

liuzhejun · Answer

能否贴一张使用3.4G语料训练的生成效果图，还有硬件条件和训练时间是多少？先谢为敬！

Morizeyao · Answer

硬件是四个2080ti，训练时间两周。

chiangandy · Answer

就开头有描述，有可能epoch太长Loss过低，造成内文输出会有整句输出的可能，我预计调整Loss在1.0左右来测试～
至于训练语料过小问题，这语料的确是小规模测试

kangkang61 · Answer

<p dir="auto">我在预训练的时候有遇到一个问题，之前也有很同学讨论过一直没有一个答案，想问问您。我的目的是想训练一个语言模型，计算某一些句子的ppl因此我的n_ctx选的是=40，语料是找

Morizeyao · Answer

ppl的话就是math.exp(loss)
训练的具体问题...我也没啥思路，上次你提的时候我观察了一下代码，貌似是没啥问题，可以加一下qq看下具体截图吗？

huaxiaohua · Answer

<p dir="auto">如果为了训练句子级别的语言模型，是不是把n_ctr设的小一些，设置为句子的最大长度；并且取消stride，只对句子的tokens padding到n_ctr即可？我的理解是

kangkang61 · Answer

<p dir="auto">我之前用了63M的天涯语料训练了一个语言模型，epoch在2的时候，测试2000句的平均ppl在800多，还是蛮高的，看了一下有些句子可能太离谱文言文啥的ppl到达几万这种

kangkang61 · Answer

例子：
（1）比如减轻医疗和教育的负担改善食品和生活环境 ppl：52.158
（2）空阁回荡秋声响满耳激昂春意临 ppl:292046.993
(

huaxiaohua · Answer

请问你是用eval.py计算PPL的吗，我算出来后PPL超级大，感觉不太正常

Morizeyao · Answer

可以，PPL的话我还没测过

如果为了训练句子级别的语言模型，是不是把n_ctr设的小一些，设置为句子的最大长度

Morizeyao · Answer

有可能计算较可靠的PPL需要较大量的样本取平均？

例子：
（1）比如减轻医疗和教育的负担改善食品和生活

kangkang61 · Answer

我觉得是的，我这个测试样本还是偏少，而且我的数据可可能不是很好。我不是用eval.py算的我是自己写了个脚本对一些句子进行计算ppl

Morizeyao · Answer

先关了。。这边讨论的话题有点乱了，有需求的话开个新issue或者联系我

leizhu1989 · Answer

同样的困惑，一直在考虑要不要使用这个项目，我也一直在找用中文训练的GPT-2模型，但是看到作者使用的训练集似乎都比较小，并且是从0开始训练，对于G

训练成果分享与一点提问 about gpt2-chinese HOT 17 CLOSED