遇到了非常神奇的现象，用老哥的数据原封不动训练chatglm，训练完之后用checkpoint200推理，明明loss只有0.002左右了，但是问他readme里面的问题，

分享一下我们这边的工作： 1、翻译部分了alpaca数据集，补充了一些数据。项目地址在这里 <a href="https://github.com/hikarimi

🎉恭喜各位同学已经跑通了 📣 这个问题，问题人还挺多的，那就回答一下吧。我这个工作： <ol dir="auto"

<a class="issue-link js-issue-link" data-error-text="Failed to load title" data-id="16

训练好的ckeckpoint模型没有变化 about zero_nlp HOT 16 CLOSED

yuanzhoulvpi2017 commented on May 22, 2024 1

训练好的ckeckpoint模型没有变化

from zero_nlp.

Comments (16)

akoukou123 commented on May 22, 2024 4

分享一下我们这边的工作：
1、翻译部分了alpaca数据集，补充了一些数据。项目地址在这里 https://github.com/hikariming/alpaca_chinese_dataset
2、把大概15个问题和回答复制了300次，重新改了下dataloader转换成chatglm的形式，只训练这15个问题，把loss降到了0.002左右，稍后我们会在https://github.com/hikariming/alpaca_chinese_dataset放出我们在colab上的代码
3、测试训练好的模型，随便问这15个问题中的回答，依然不行

其他的额外补充，我们用了另一个只微调0.6%参数的lora方法，然后发现模型没法像老哥的项目一样收敛。所以我们现在尝试加入更多参数进行微调。

from zero_nlp.

BiaoLiu2017 commented on May 22, 2024 1

inference阶段代码有问题吧？只读取了原始的参数，没有读取lora参数，所以和原模型一模一样

from zero_nlp.

hikariming commented on May 22, 2024 1

大哥牛逼，能用上我们数据集是我们的荣幸😄

from zero_nlp.

wdkwdkwdk commented on May 22, 2024

+1 我也是这样的，然后我用demo中给出的data2进行训练，但依然看不出变化

from zero_nlp.

yuanzhoulvpi2017 commented on May 22, 2024

🎉恭喜各位同学已经跑通了
📣 这个问题，问题人还挺多的，那就回答一下吧。

我这个工作：

目前只是从数据的角度，让模型可以在3090上跑通了，并且一切测试正常。
只是使用了1w多条数据，来训练。给到的数据也只是一个demo，并不是严格按照chatglm要求来的。有些同学也提到了，数据样式不符合对话形式，其实如果看来chatglm的源码，会发现，再复杂的对话逻辑，也不过就是文本拼接。又或者对input_ids和labels做处理。

为什么训练之后，没啥效果？我目前还没有研究，但是可以列举几个方向，供各位发散。

📝当前数据不多，可能数据量需要达到一定的量级才能有效果，gpt2大概是有1.6b的参数，我当时喂了15G文本数据，效果都一般，更别说这个6b模型了，那数据量更大。
🚀 prompt没做好，这个模型已经可以理解语意了。如果你再微调的时候，prompt使用的不行（说白了，就是模型不听你话，你需要说的更加严厉一点）。
☢️在微调的时候，使用的是peft的包的lora算法对chatglm-6b的query_key_value做调整，但是我们只是对这个层做调整。这么做真的有效果么？也是值得我们思考的。

期待更多的同学给到建议～

from zero_nlp.

qq31682216 commented on May 22, 2024

先给点个赞，期待后续

from zero_nlp.

xtc1989 commented on May 22, 2024

同碰到这个问题，看了下从checkpoint读的model参数和结构，没有把lora的训练结果从checkpoint读出来

from zero_nlp.

hikariming commented on May 22, 2024

没有

我把微调仓库都试完了，目前看效果最明显的是那个用自己对话数据集的项目，但是这边项目的微调代码好清爽，我们也会继续研究问题出在哪里

from zero_nlp.

yuanzhoulvpi2017 commented on May 22, 2024

哈哈哈，感谢老哥的夸奖，我当时数据，只是一个简单的demo。并没有做什么数据上的策略。目前并行这个大问题，我也解决了。接下来就开始优化数据了。

from zero_nlp.

zhangtaochn commented on May 22, 2024

#17 请问是这个问题导致预测结果和原始参数结果没变化的么，但不知道怎么改

from zero_nlp.

hikariming commented on May 22, 2024

inference阶段代码有问题吧？只读取了原始的参数，没有读取lora参数，所以和原模型一模一样

看代码似乎是读取了的....我也暂时不知道是怎么回事，我的colab没有💰了，就先这样吧，等待更厉害的大佬解决这个问题

from zero_nlp.

yanchaoguo commented on May 22, 2024

初始化的时候权重更新失败

from zero_nlp.

yuanzhoulvpi2017 commented on May 22, 2024

具体不多解释了。用实验数据说话，下一步，我将用来提升效果。后面会吧相关的东西放在这里

from zero_nlp.

hikariming commented on May 22, 2024

具体不多解释了。用实验数据说话，下一步，我将用来提升效果。后面会吧相关的东西放在这里

大哥加油！我们也在持续研究这个问题，有结果了也和你说

from zero_nlp.

feiwuu638 commented on May 22, 2024

没有

我把微调仓库都试完了，目前看效果最明显的是那个用自己对话数据集的项目，但是这边项目的微调代码好清爽，我们也会继续研究问题出在哪里

请问对话数据集是哪个项目呀 @hikariming

from zero_nlp.

yuanzhoulvpi2017 commented on May 22, 2024

具体不多解释了。用实验数据说话，下一步，我将用来提升效果。后面会吧相关的东西放在这里

大哥加油！我们也在持续研究这个问题，有结果了也和你说

兄弟做的数据集不错。目前已经支持alpaca数据集格式，做测试的时候，也就是使用你们的数据来做的。你们可以试一试

code02_训练模型全部流程.ipynb

from zero_nlp.

训练好的ckeckpoint模型没有变化 about zero_nlp HOT 16 CLOSED

Comments (16)

Related Issues (20)

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent