Giter VIP home page Giter VIP logo

Comments (18)

Facico avatar Facico commented on July 16, 2024

@alisyzhu 当然是不正常的,llama已经训练的很好了,loss一般在1附近

这里可能也有一个和你相似的问题,由于没有给后续回复也不清楚最后咋样了,你可以参照里面的建议,同时使用我们的各种实例代码排查一下

  • 1、tokenizer是否有问题(保证能正确编码):用该issue的示例代码试一试,tokenizer是否有问题
  • 2、模型是否有问题(保证能正常运行):你可以用13B的模型,结合我们13b的lora模型在对应的推理接口测一测(generate、interaction、chat),看看能否正常工作
  • 3、版本依赖的问题,我们在相关问题整理中附上了一份参考配置,其中peft和transformers库(带dev后缀),需要直接从github拉取。同时torch可以直接在pytorch官网找一份适合你cuda版本的命令安装。

如果1和2都没有问题,应该问题就差不多了。

from chinese-vicuna.

alisyzhu avatar alisyzhu commented on July 16, 2024

@alisyzhu 当然是不正常的,llama已经训练的很好了,loss一般在1附近

这里可能也有一个和你相似的问题,由于没有给后续回复也不清楚最后咋样了,你可以参照里面的建议,同时使用我们的各种实例代码排查一下

  • 1、tokenizer是否有问题(保证能正确编码):用该issue的示例代码试一试,tokenizer是否有问题
  • 2、模型是否有问题(保证能正常运行):你可以用13B的模型,结合我们13b的lora模型在对应的推理接口测一测(generate、interaction、chat),看看能否正常工作
  • 3、版本依赖的问题,我们在相关问题整理中附上了一份参考配置,其中peft和transformers库(带dev后缀),需要直接从github拉取。同时torch可以直接在pytorch官网找一份适合你cuda版本的命令安装。

如果1和2都没有问题,应该问题就差不多了。

按照您的建议,测试了结果,应该就是tokenizer有问题,中英文都无法正确decode,
image

我是按照tools里提供的download_llama.py的脚本下载的模型,并进行转换为hf。而且测试安装的transformer的版本是dev的。
image

如果验证tokenizer不正确的话,请问如何使其正确呢?是要重新下载,知道这个测试脚本可以正常吗?

from chinese-vicuna.

Facico avatar Facico commented on July 16, 2024

看看这两个库版本是不是对的,tokenizers==0.13.2, sentencepiece==0.1.97

from chinese-vicuna.

LZY-the-boys avatar LZY-the-boys commented on July 16, 2024

还要看下你的hf checkpoint里边是否有tokenizer.model这个文件,大小是否在48M左右

from chinese-vicuna.

alisyzhu avatar alisyzhu commented on July 16, 2024

看看这两个库版本是不是对的,tokenizers==0.13.2, sentencepiece==0.1.97

是的,刚才我有截图,可能在您那里没有显示。
transformers==4.28.0.dev0
tokenizers==0.13.2
sentencepiece==0.1.97
python=3.8.8
torch=2.0.0(最开始安装的是1.13.1,但是执行报错,就升级为2.0了)

from chinese-vicuna.

alisyzhu avatar alisyzhu commented on July 16, 2024

还要看下你的hf checkpoint里边是否有tokenizer.model这个文件,大小是否在48M左右

image

有48M这么大吗?我这里显示只有492k

from chinese-vicuna.

alisyzhu avatar alisyzhu commented on July 16, 2024

还要看下你的hf checkpoint里边是否有tokenizer.model这个文件,大小是否在48M左右

image

download_llama.sh的脚本下载显示就是大约488k的大小tokenizer.model,所以这种下载的tokenizer不对吗?

from chinese-vicuna.

LZY-the-boys avatar LZY-the-boys commented on July 16, 2024

这是正确的,口误(:

from chinese-vicuna.

Facico avatar Facico commented on July 16, 2024

@alisyzhu

从上面的你给的图来看,tokenizer对应编码是对的(你可以试试我给的样例程序中的输出作为输入,我猜编码是没有问题),不过模型并没有正常decode,decode得到的都是0,可能有下面情况

  • 1、peft、transformer库自己的问题(由于要从github直接拉去,可能会有问题),不过这个情况较小,因为我昨天刚在colab上试过是没问题的
  • 2、tokenizer其他参数的问题,比如eos token、pad token等设置的问题,你可以试试将模型除了模型之外文件从huggingface上下载并本地替换看是否有问题:https://huggingface.co/decapoda-research/llama-13b-hf/tree/main
  • 3、模型本身的问题,结合你上面的loss非常大,我觉得可能会出现问题。如果条件允许的话,可以直接从huggingface拉去试试(这个比较稳妥),因为另一个issue也是13b出现的问题,所以不知道download现在链接里的13b是不是有问题的(我们这边之前测是没问题的)

from chinese-vicuna.

alisyzhu avatar alisyzhu commented on July 16, 2024

结合2和3的点,我直接从huggingface上全部重新下载13B的model,不采用download_llama.sh脚本的方式,也是也是使用的,是吧?如果是这样,我就从huggingface上重新下载试试 ~

from chinese-vicuna.

Facico avatar Facico commented on July 16, 2024

适用的,download_llama是考虑到有些人下载的比较慢的情况再提供的,如果直接从huggingface拉取很快的话肯定是ok的

from chinese-vicuna.

alisyzhu avatar alisyzhu commented on July 16, 2024

我重新通过huggingface下载了13B的模型,目前70w,4GPU,loss和lr如下:
image
请问这样是符合训练预期的了吧?但是我看log里会有以下提示,这个是合理的吗?
image

from chinese-vicuna.

Facico avatar Facico commented on July 16, 2024

@alisyzhu 这个loss应该是正常了,上面的那个测试案例也是正常的吗?就是最后还是模型下载的问题?

这个warning应该是指你的显卡的问题,你可以搜一下你显卡对应的Compute Capability,如果小于7.5的话8-bit计算会慢一点。

from chinese-vicuna.

alisyzhu avatar alisyzhu commented on July 16, 2024

显卡<7.5,慢点儿无所谓,只要能正常训练测试就可以了,主要是更换不了~
另外,我就是昨天看了您的建议,debug发现tokenizer的问题,所以从huggingface重新下载了模型,上午测试的decode也有正常结果了,就直接跑了一下13B+70w的,最开始loss就已经是1.0+,也和您昨天说的llama的对得上。

from chinese-vicuna.

Facico avatar Facico commented on July 16, 2024

OK

from chinese-vicuna.

alisyzhu avatar alisyzhu commented on July 16, 2024

OK
感谢答疑,期待结果中 ~

from chinese-vicuna.

alisyzhu avatar alisyzhu commented on July 16, 2024

finetune.py的代码没有改动,请问,test_size=1w的情况下,eval_loss是nan,是ok的吗?
image

from chinese-vicuna.

Facico avatar Facico commented on July 16, 2024

抱歉回复这么晚,该问题见这里

from chinese-vicuna.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.