13B modeling.py中xformers加速时未添加alibi_mask？

Question

如<a href="https://huggingface.co/baichuan-inc/Baichuan2-13B-Base/blob/main/modeling_ba

logicwong · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

jeffchy · Answer

我更新了最新的代码，发现不用xformer就正常了

mmmans · Answer

fixed Now!

piekey1994 · Answer

fixed Now!

使用了新的代码，报了一个错误：
query_stat

s-JoL · Answer

非常感谢指出这个问题，由于一些疏漏导致这里使用了和7B模型一样的mask，现已修复。

piekey1994 · Answer

非常感谢指出这个问题，由于一些疏漏导致这里使用了和7B模型一样的mask，现已修复。

s-JoL · Answer

这其实是xformer本身的限制，他要求seq length为8的倍数，为支持多样的seq length改为使用F.scaled_dot_product_attention

piekey1994 · Answer

这其实是xformer本身的限制，他要求seq length为8的倍数，为支持多样的seq length改为使用F.scaled_dot_prod

s-JoL · Answer

这其实是xformer本身的限制，他要求seq length为8的倍数，为支持多样的seq length改为使用F.sc

piekey1994 · Answer

这其实是xformer本身的限制，他要求seq length为8的倍数，为支持多样的seq l

ericzhou571 · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

s-JoL · Answer

<blockquote><a class="user-mention notranslate" data-hovercard-type="user" data-hover

jeffchy · Answer

也是发现目前的evalloss偏大，但是 training loss还算正常。

s-JoL · Answer

<blockquote><a class="user-mention notranslate" data-hovercard-type="user" data-hover

s-JoL · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

Xu-Chen · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

Xu-Chen · Answer

我是用的自己的数据，全量训练。相同的数据，baichuan1没这个问题

jeffchy · Answer

我也类似，用的是baichuan2_13B的base + xformer，然后也更新了之前fix alibi mask的代码，训练loss是随着训练持续降低的，但是eval

jeffchy · Answer

我是拼成3K的上下文做了小规模的continue pretrain

s-JoL · Answer

在本项目的finetune代码中没有输出eval loss，你们使用的是<a href="https://github.com/hiyouga/LLaMA-Efficien

Xu-Chen · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

jeffchy · Answer

我用的huggingface的trainer自带的eval

s-JoL · Answer

好的，我们尝试复现一下这个问题

Xu-Chen · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

piekey1994 · Answer

<blockquote><a class="user-mention notranslate" data-hovercard-type="user" data-hover

s-JoL · Answer

我使用huggingface的trainer进行了一些复现，目前看训练loss正常下降，eval loss到一个值之后就不再降低了。目前认为这个现象应该是正常的，因为看训练

Xu-Chen · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

jeffchy · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

Davidgzx · Answer

也是发现目前的evalloss偏大，但是 training loss还算正常。

看

Xu-Chen · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

Xu-Chen · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

Xu-Chen · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

s-JoL · Answer

也是发现目前的evalloss偏大，但是 training loss还算正常。

jeffchy · Answer

看起来不是这个问题啊，我这里并没有改善太多

piekey1994 · Answer

我使用huggingface的trainer进行了一些复现，目前看训练loss正常下降，eval loss到一个值之后就不再降低了。目前认为这个现

Xu-Chen · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

piekey1994 · Answer

<blockquote><a class="user-mention notranslate" data-hovercard-type="user" data-hover

JaheimLee · Answer

<a class="user-mention notranslate" data-hovercard-type="user" data-hovercard-url="/us

MarStarck · Answer

非常感谢指出这个问题，由于一些疏漏导致这里使用了和7B模型一样的mask，现已修复。
为啥要和7B不一样呢？不都是算attention吗<

MarStarck · Answer

我在输入attn mask的情况下会报，bf16跟float不兼容，请问怎么解决？
------------自问自答：加个with autocast就行了。。。</

13B modeling.py中xformers加速时未添加alibi_mask？ about baichuan2 HOT 40 OPEN

Comments (40)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent