- 中文大模型指令微调:适用于训练 ChatGLM、LLaMA-Chinese 等中文大语言模型的指令跟随能力,例如通过医疗、百科等领域的问答数据,让模型学会精准理解用户提问并生成专业回答,可应用于智能客服、知识问答系统等场景。
- 垂直领域 NLP 应用开发:借助数据集覆盖的百科、医疗等领域数据,开发垂直领域的对话模型,如医疗咨询机器人、法律条款问答助手等,提升模型在特定场景下的语义理解与响应准确性。
- 低资源高效对齐研究:参考 LIMA “少而精” 的对齐思路,可用于探索小样本高质量数据对模型对齐的影响,为学术界研究高效指令微调方法提供标准化数据集,降低大规模数据训练的成本与资源消耗。
● 数据集概况:
- 名称:COIG-CQIA(Chinese Open Instruction Generalist - Quality is All You Need)
- 版本:v0.1(开源测试版)
- 规模:由零一万物、中科院深圳先进技术研究院等机构联合构建,数据量待论文披露,侧重高质量而非大规模。
● 核心特点:
- 数据来源:基于中文互联网问答及文章,经深度清洗、人工重构与审核,确保内容符合人类交互逻辑;
- 格式规范:采用 JSON 格式,包含 instruction(指令)、input(补充信息)、output(回答)等 9 个字段,支持任务类型与领域分类;
- 质量控制:绝大部分回答由人类撰写,少部分经大模型生成后人工验证,100% 通过 human_verified 核验。
● 技术优势:
- 覆盖百科、医疗等多领域,task_type 细分至 “百科问答”“医疗咨询” 等子类型,支持模型多场景泛化;
- 受 LIMA 研究启发,数据具备高对齐效率,少量数据即可提升模型指令遵循能力。
数据格式
{
"instruction": "示例问题或者指令。",
"input": "示例问题或指令的补充。",
"output": "对输入的回复。",
"task_type": {
"major": ["问答"],
"minor": ["百科问答"]
},
"domain": ["百科", "医疗"],
"answer_from": "human",
"human_verified": true,
"copyright": "作者及版权信息。",
}
数据字段
instruction
: 用于输入的指令或者问题。
input
: 问题或指令的补充内容。
output
: 输入对应的回答。
task_type
: 表示该数据所属的主要任务类型和细分任务类型。
domain
: 该数据数据所属领域。
answer_from
: 回答是人类撰写的还是大模型撰写的,本数据集中绝大部分是由人类撰写的回答,少部分由大模型生成(经过了人工验证)。
human_verified
: 该数据是否有人类核验过。
copyright
: 包括该数据的版权信息,包括作者等。
- 模型训练流程:
from transformers import LlamaForCausalLM, LlamaTokenizer, Trainer, TrainingArguments
import json
with open("coig-cqia-v0.1.json", "r", encoding="utf-8") as f:
data = [json.loads(line) for line in f]
def preprocess(examples):
texts = [f"指令:{ex['instruction']}\n输入:{ex['input']}\n回答:{ex['output']}" for ex in examples]
return {"text": texts}
model = LlamaForCausalLM.from_pretrained("decapoda-research/llama-7b-hf")
tokenizer = LlamaTokenizer.from_pretrained("decapoda-research/llama-7b-hf")
tokenizer.pad_token = tokenizer.eos_token
training_args = TrainingArguments(
output_dir="./coig-cqia-llama",
learning_rate=3e-5,
per_device_train_batch_size=8,
num_train_epochs=3,
weight_decay=0.01,
logging_steps=10
)
- 领域适配技巧:
- 若聚焦医疗领域,可通过
domain=["医疗"]
筛选数据,配合领域词典增强模型专业术语理解;
- 对于少样本场景,利用
task_type
筛选同类任务数据(如 “问答 - 百科问答”),采用 Prompt Tuning 等参数高效微调方法。
- 数据评估应用:
- 使用本数据集作为评估集,测试模型在中文指令场景下的响应质量,可对比 LIMA、Alpaca 等数据集的微调效果;
- 通过
answer_from
字段区分人类回答与大模型生成回答,分析不同数据来源对模型对齐的影响差异。
中文医疗对话数据-Chinese-medical-dialogue
中文文本分类问题:THUCNews数据集
中文基于满血DeepSeek-R1蒸馏数据集-110k-SFT版本
- 版本更新适配:当前为 v0.1 版本,后续更新可能调整字段定义或补充数据。
- 领域覆盖局限性:v0.1 版本领域集中于百科、医疗,若需教育、金融等领域数据,可联系官方反馈需求,或自行补充数据时注意格式一致性(参考 JSON 字段规范)。
- 数据偏差修正:若发现数据存在事实性错误(如医疗知识不准确)或领域标注偏差,可通过官方渠道反馈,协助优化后续版本(v0.1 支持问题反馈机制)。
数据截图
