产品应用场景

中文大模型指令微调：适用于训练 ChatGLM、LLaMA-Chinese 等中文大语言模型的指令跟随能力，例如通过医疗、百科等领域的问答数据，让模型学会精准理解用户提问并生成专业回答，可应用于智能客服、知识问答系统等场景。
垂直领域 NLP 应用开发：借助数据集覆盖的百科、医疗等领域数据，开发垂直领域的对话模型，如医疗咨询机器人、法律条款问答助手等，提升模型在特定场景下的语义理解与响应准确性。
低资源高效对齐研究：参考 LIMA “少而精” 的对齐思路，可用于探索小样本高质量数据对模型对齐的影响，为学术界研究高效指令微调方法提供标准化数据集，降低大规模数据训练的成本与资源消耗。

产品信息

● 数据集概况：

名称：COIG-CQIA（Chinese Open Instruction Generalist - Quality is All You Need）
版本：v0.1（开源测试版）
规模：由零一万物、中科院深圳先进技术研究院等机构联合构建，数据量待论文披露，侧重高质量而非大规模。
● 核心特点：
数据来源：基于中文互联网问答及文章，经深度清洗、人工重构与审核，确保内容符合人类交互逻辑；
格式规范：采用 JSON 格式，包含 instruction（指令）、input（补充信息）、output（回答）等 9 个字段，支持任务类型与领域分类；
质量控制：绝大部分回答由人类撰写，少部分经大模型生成后人工验证，100% 通过 human_verified 核验。
● 技术优势：
覆盖百科、医疗等多领域，task_type 细分至 “百科问答”“医疗咨询” 等子类型，支持模型多场景泛化；
受 LIMA 研究启发，数据具备高对齐效率，少量数据即可提升模型指令遵循能力。

数据格式

{
    "instruction": "示例问题或者指令。",
    "input": "示例问题或指令的补充。",
    "output": "对输入的回复。",
    "task_type": {
        "major": ["问答"],
        "minor": ["百科问答"]
    },
    "domain": ["百科", "医疗"],
    "answer_from": "human",
    "human_verified": true,
    "copyright": "作者及版权信息。",
}

数据字段

instruction: 用于输入的指令或者问题。
input: 问题或指令的补充内容。
output: 输入对应的回答。
task_type: 表示该数据所属的主要任务类型和细分任务类型。
domain: 该数据数据所属领域。
answer_from: 回答是人类撰写的还是大模型撰写的，本数据集中绝大部分是由人类撰写的回答，少部分由大模型生成（经过了人工验证）。
human_verified: 该数据是否有人类核验过。
copyright: 包括该数据的版权信息，包括作者等。

使用方法

模型训练流程：

python

# 示例：使用COIG-CQIA微调LLaMA-Chinese模型
from transformers import LlamaForCausalLM, LlamaTokenizer, Trainer, TrainingArguments
import json

# 加载数据
with open("coig-cqia-v0.1.json", "r", encoding="utf-8") as f:
    data = [json.loads(line) for line in f]

# 数据预处理（示例：构建指令-回答对）
def preprocess(examples):
    texts = [f"指令：{ex['instruction']}\n输入：{ex['input']}\n回答：{ex['output']}" for ex in examples]
    return {"text": texts}

# 初始化模型与分词器
model = LlamaForCausalLM.from_pretrained("decapoda-research/llama-7b-hf")
tokenizer = LlamaTokenizer.from_pretrained("decapoda-research/llama-7b-hf")
tokenizer.pad_token = tokenizer.eos_token

# 训练配置
training_args = TrainingArguments(
    output_dir="./coig-cqia-llama",
    learning_rate=3e-5,
    per_device_train_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
    logging_steps=10
)

 

领域适配技巧：
- 若聚焦医疗领域，可通过domain=["医疗"]筛选数据，配合领域词典增强模型专业术语理解；
- 对于少样本场景，利用task_type筛选同类任务数据（如 “问答 - 百科问答”），采用 Prompt Tuning 等参数高效微调方法。
数据评估应用：
- 使用本数据集作为评估集，测试模型在中文指令场景下的响应质量，可对比 LIMA、Alpaca 等数据集的微调效果；
- 通过answer_from字段区分人类回答与大模型生成回答，分析不同数据来源对模型对齐的影响差异。

相似应用场景下的相似产品

中文医疗对话数据-Chinese-medical-dialogue

中文文本分类问题：THUCNews数据集

中文基于满血DeepSeek-R1蒸馏数据集-110k-SFT版本

注意事项

版本更新适配：当前为 v0.1 版本，后续更新可能调整字段定义或补充数据。
领域覆盖局限性：v0.1 版本领域集中于百科、医疗，若需教育、金融等领域数据，可联系官方反馈需求，或自行补充数据时注意格式一致性（参考 JSON 字段规范）。
数据偏差修正：若发现数据存在事实性错误（如医疗知识不准确）或领域标注偏差，可通过官方渠道反馈，协助优化后续版本（v0.1 支持问题反馈机制）。

数据截图

关于典枢

下载与支持

服务协议

关于我们

官方公众号

技术交流群