使用文档平行语料训练第二步出错

Question

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

Glaceon31 · Answer

可能是eval_steps的问题。我没有加上在训练期间每隔一定时间做一次evaluation的代码，把它去掉试试吧。

fansiawang · Answer

多谢，可能确实是我额外加了eval_steps的关系。
另外，我想请教一下，在只使用文档级平行语料进行第二步的训练时，loss的波动感觉比较大，并且与base相比，

Glaceon31 · Answer

可以看一下学习率，如果是1的话可能太大了影响训练效果。通常来说应该loss会比较迅速地（几千轮内）降到比较低的值。我在200w句对上6w轮左右达到第一阶段dev最优，然后再

fansiawang · Answer

我用的是代码里默认的值（看到最新的merge将原来默认学习率从1改到了0.1），感觉loss确实是在几千轮就开始从2.7左右降到了1.7左右，但是后面会反复震荡，而且并不是

Glaceon31 · Answer

这个应该是正常的，和训练正常的NMT模型的情况差不多。

fansiawang · Answer

我用了自己的数据，基本重现了论文的结论，加入额外的上下文信息可以比不加涨约1-1.5个bleu。大神厉害！另外，我额外发现了一个有意思的事情，在评测test数据时我不小心用

Glaceon31 · Answer

具体的原因我也说不准，只能猜测是模型学习到了一些特征，恰好dev和test上的这些特征比较相似。

fansiawang · Answer

你好，我看源码的时候发现一个和论文不太一致的地方，就是代码里是默认不使用context_gate的，使用的还是默认的残差连接，但论文里特意做了是否使用改进版残差连接的实验，

Glaceon31 · Answer

感谢提醒，我忘记把context_gate设成默认true了，已修正。另注释掉dropout其实是无意的。

fansiawang · Answer

好的，我还想确认一下细节，就是context_gate的实现细节里其实是调用了一个linear的层，这个层是否对应tf里的dense层呢？如果是的话，我用tf.layers

Glaceon31 · Answer

抱歉回复晚了，看了下dense的说明，应该是的。

fansiawang · Answer

还想请教个问题，我在小规模数据（句子级300w，文档级170w）上测试该方法是有效的，与论文结论一致，可以增加1-2个点。但是如果句子级数据增加到2000w，在该模型基础上

Glaceon31 · Answer

在句子级数据和文档级数据有数量级或的差异，或者是两者的topic存在差异时，只使用文档级的来做第二步训练确实会比较不稳定。我们没有在文档翻译这个任务上试过很大的数据集，但在

使用文档平行语料训练第二步出错 about document-transformer HOT 13 CLOSED