Comments (7)
可以参考这里,#11 (comment)
guanaco数据集中的多轮对话后面没有拼接Assistant:,belle对话后面有拼接Assistant:,可以注意一下(因为我们的prompt中有response这个字段所以理论不用拼接Assistant:,可以将belle后面的assistant处理掉)。
还需要注意的一点是,目前我们finetune中使用的全局instruction是通用形式的(如:Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.),是没有带多轮对话指令的(像chat.py或interaction.py中的指令,如:“The following is a conversation between an AI assistant called Assistant and a human user called User.”),虽然在推理的时候它还是能一定地理解它,但终究是和finetune的时候有一层gap,现在对话语料多了,可以考虑如下方式可能能提升对话效果:
- 1、在dataset的instruction中直接插入:“The following is a conversation between an AI assistant called Assistant and a human user called User.”,相当于各种任务还是有一个全局指令,只不过对话多套了一层
- 2、在finetune中根据不同的语料使用不同的全局instruction,相当于对话和其他任务使用不同的全局指令。
如果要一起训练的话,目前推荐使用上面第一种,处理简单一点,也多占用不了多少token
from chinese-vicuna.
@Evilran
非常感谢你提到这点问题。merge.json 我们是直接用belle(0.5M)和guanaco上一个版本(chat和nonchat)的数据合并的,当时没有仔细关注是否有重复的问题,我大概看了一下,一个是belle和guanaco里的一些指令的重复,另外一个是他们自己收集的问题。
统计了一下,指令+答案重复的大概有700条数据是存在重复,重复两次以上的是46条。不过在merge.json的数据规模下影响不会很大,毕竟在经过3个epoch的前提下,每条数据都会重复去finetune,不过可能会对里面某几个问题拟合程度可能会高一点。当然你也可以将重复的数据给去除掉,不过估计对模型整体效果影响不大。
from chinese-vicuna.
@ZenXir 在 merge.json
的内容里好像也有多轮对话的语料:
{'instruction': 'User:担任に質問したいんだけど、言葉が出てこないんだ。 Assistant:担任に質問をしたいときには、自分の心地が良いように質問する環境を作ってから質問する必要があります。 User:どうしたらいい? Assistant:まずは、自然と話す環境を作ること。場の明るさ、周囲の雰囲気、お茶を淹れて友達とゆっくりおしゃべりすることなど、担任への質問に余裕を持った質問をしていくために心地よく環境を保つことが大切です。', 'input': 'User:担任に質問をするときの環境を整えるにはどうすればいいですか?', 'output': '担任に質問をするときの環境を整えるには、自己紹介をするなど友好的なサインを示すことが重要です。また、落ち着いた場所で話をしたり、担任の質問に応じて余裕を持って話すことも役立つでしょう。あるいは、担任が喜んでいるような気持ちの良い空間を作ることも重要な要素です。'}
应该可以保留现有的格式继续 finetune
from chinese-vicuna.
好的
from chinese-vicuna.
@Facico 大佬您好,我还有一个关于语料的问题。我看 merge.json
文件里的数据是没有去重的,重复的数据会对训练造成影响吗?
from chinese-vicuna.
这个belle数据挺好的,你们要训别用guanaco的那个chat数据了,里面全是猫娘。。。
from chinese-vicuna.
@Facico 😂 好的,感谢大佬
from chinese-vicuna.
Related Issues (20)
- ⁇ Below is an instruction that describes a task. Write a response
- 有办法改成分类任务么,用LlamaForSequenceClassification模型类加载
- transformers和pydantic问题 HOT 1
- 是因为梯度为0吗?
- 多卡finetune_chat时报mat1 and mat2 shapes cannot be multiplied (1024x2 and 1x11008) HOT 2
- 中文乱码 HOT 5
- 请问多个lora模型怎么合并?
- 请问llama7b_4bit_128g的input shape是多少呢 HOT 1
- 运行chat_7B.sh聊两句话out of memory
- 多卡训练 bash scripts/finetune.sh报错 HOT 1
- 这几个不同路径下的模型是否有区别?
- 运行generate脚本之后,在页面提问,很久没有产生回答,后台无报错 HOT 2
- OSError: Not enough disk space. Needed: Unknown size (download: Unknown size, generated: Unknown size, post-processed: Unknown size)
- 从belle+guanaco数据集中抽取前5000条样本训练lora,效果不好
- deepspeed跑模型相关问题
- 使用finetune.sh来指令微调llama-33b,出现ZeroDivisionError: integer division or modulo by zero错误 HOT 2
- 可以提供一下huggingface上的Chinese-Vicuna/llama7b_4bit_128g模型的config.json和tokenizer么?
- 官方colab安裝套件失效
- 如果更改數據集格式,要如何更改代碼
- 可以更新一下requirements吗? HOT 1
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from chinese-vicuna.