Comments (18)
@alisyzhu 当然是不正常的,llama已经训练的很好了,loss一般在1附近
这里可能也有一个和你相似的问题,由于没有给后续回复也不清楚最后咋样了,你可以参照里面的建议,同时使用我们的各种实例代码排查一下
- 1、tokenizer是否有问题(保证能正确编码):用该issue的示例代码试一试,tokenizer是否有问题
- 2、模型是否有问题(保证能正常运行):你可以用13B的模型,结合我们13b的lora模型在对应的推理接口测一测(generate、interaction、chat),看看能否正常工作
- 3、版本依赖的问题,我们在相关问题整理中附上了一份参考配置,其中peft和transformers库(带dev后缀),需要直接从github拉取。同时torch可以直接在pytorch官网找一份适合你cuda版本的命令安装。
如果1和2都没有问题,应该问题就差不多了。
from chinese-vicuna.
@alisyzhu 当然是不正常的,llama已经训练的很好了,loss一般在1附近
这里可能也有一个和你相似的问题,由于没有给后续回复也不清楚最后咋样了,你可以参照里面的建议,同时使用我们的各种实例代码排查一下
- 1、tokenizer是否有问题(保证能正确编码):用该issue的示例代码试一试,tokenizer是否有问题
- 2、模型是否有问题(保证能正常运行):你可以用13B的模型,结合我们13b的lora模型在对应的推理接口测一测(generate、interaction、chat),看看能否正常工作
- 3、版本依赖的问题,我们在相关问题整理中附上了一份参考配置,其中peft和transformers库(带dev后缀),需要直接从github拉取。同时torch可以直接在pytorch官网找一份适合你cuda版本的命令安装。
如果1和2都没有问题,应该问题就差不多了。
按照您的建议,测试了结果,应该就是tokenizer有问题,中英文都无法正确decode,
我是按照tools里提供的download_llama.py的脚本下载的模型,并进行转换为hf。而且测试安装的transformer的版本是dev的。
如果验证tokenizer不正确的话,请问如何使其正确呢?是要重新下载,知道这个测试脚本可以正常吗?
from chinese-vicuna.
看看这两个库版本是不是对的,tokenizers==0.13.2, sentencepiece==0.1.97
from chinese-vicuna.
还要看下你的hf checkpoint里边是否有tokenizer.model这个文件,大小是否在48M左右
from chinese-vicuna.
看看这两个库版本是不是对的,tokenizers==0.13.2, sentencepiece==0.1.97
是的,刚才我有截图,可能在您那里没有显示。
transformers==4.28.0.dev0
tokenizers==0.13.2
sentencepiece==0.1.97
python=3.8.8
torch=2.0.0(最开始安装的是1.13.1,但是执行报错,就升级为2.0了)
from chinese-vicuna.
有48M这么大吗?我这里显示只有492k还要看下你的hf checkpoint里边是否有tokenizer.model这个文件,大小是否在48M左右
from chinese-vicuna.
download_llama.sh的脚本下载显示就是大约488k的大小tokenizer.model,所以这种下载的tokenizer不对吗?还要看下你的hf checkpoint里边是否有tokenizer.model这个文件,大小是否在48M左右
from chinese-vicuna.
这是正确的,口误(:
from chinese-vicuna.
从上面的你给的图来看,tokenizer对应编码是对的(你可以试试我给的样例程序中的输出作为输入,我猜编码是没有问题),不过模型并没有正常decode,decode得到的都是0,可能有下面情况
- 1、peft、transformer库自己的问题(由于要从github直接拉去,可能会有问题),不过这个情况较小,因为我昨天刚在colab上试过是没问题的
- 2、tokenizer其他参数的问题,比如eos token、pad token等设置的问题,你可以试试将模型除了模型之外文件从huggingface上下载并本地替换看是否有问题:https://huggingface.co/decapoda-research/llama-13b-hf/tree/main
- 3、模型本身的问题,结合你上面的loss非常大,我觉得可能会出现问题。如果条件允许的话,可以直接从huggingface拉去试试(这个比较稳妥),因为另一个issue也是13b出现的问题,所以不知道download现在链接里的13b是不是有问题的(我们这边之前测是没问题的)
from chinese-vicuna.
结合2和3的点,我直接从huggingface上全部重新下载13B的model,不采用download_llama.sh脚本的方式,也是也是使用的,是吧?如果是这样,我就从huggingface上重新下载试试 ~
from chinese-vicuna.
适用的,download_llama是考虑到有些人下载的比较慢的情况再提供的,如果直接从huggingface拉取很快的话肯定是ok的
from chinese-vicuna.
我重新通过huggingface下载了13B的模型,目前70w,4GPU,loss和lr如下:
请问这样是符合训练预期的了吧?但是我看log里会有以下提示,这个是合理的吗?
from chinese-vicuna.
@alisyzhu 这个loss应该是正常了,上面的那个测试案例也是正常的吗?就是最后还是模型下载的问题?
这个warning应该是指你的显卡的问题,你可以搜一下你显卡对应的Compute Capability,如果小于7.5的话8-bit计算会慢一点。
from chinese-vicuna.
显卡<7.5,慢点儿无所谓,只要能正常训练测试就可以了,主要是更换不了~
另外,我就是昨天看了您的建议,debug发现tokenizer的问题,所以从huggingface重新下载了模型,上午测试的decode也有正常结果了,就直接跑了一下13B+70w的,最开始loss就已经是1.0+,也和您昨天说的llama的对得上。
from chinese-vicuna.
OK
from chinese-vicuna.
OK
感谢答疑,期待结果中 ~
from chinese-vicuna.
finetune.py的代码没有改动,请问,test_size=1w的情况下,eval_loss是nan,是ok的吗?
from chinese-vicuna.
抱歉回复这么晚,该问题见这里
from chinese-vicuna.
Related Issues (20)
- 有办法改成分类任务么,用LlamaForSequenceClassification模型类加载
- transformers和pydantic问题 HOT 1
- 是因为梯度为0吗?
- 多卡finetune_chat时报mat1 and mat2 shapes cannot be multiplied (1024x2 and 1x11008) HOT 2
- 中文乱码 HOT 5
- 请问多个lora模型怎么合并?
- 请问llama7b_4bit_128g的input shape是多少呢 HOT 1
- 运行chat_7B.sh聊两句话out of memory
- 多卡训练 bash scripts/finetune.sh报错 HOT 1
- 这几个不同路径下的模型是否有区别?
- 运行generate脚本之后,在页面提问,很久没有产生回答,后台无报错 HOT 2
- OSError: Not enough disk space. Needed: Unknown size (download: Unknown size, generated: Unknown size, post-processed: Unknown size)
- 从belle+guanaco数据集中抽取前5000条样本训练lora,效果不好
- deepspeed跑模型相关问题
- 使用finetune.sh来指令微调llama-33b,出现ZeroDivisionError: integer division or modulo by zero错误 HOT 2
- 可以提供一下huggingface上的Chinese-Vicuna/llama7b_4bit_128g模型的config.json和tokenizer么?
- 官方colab安裝套件失效
- 如果更改數據集格式,要如何更改代碼
- 可以更新一下requirements吗? HOT 1
- 关于中断训练继续训练。 HOT 16
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from chinese-vicuna.