巴拉数

verify-tagCOIG-CQIA

COIG-CQIA中文NLPLIMA数据集

120

已售 3
15.34MB

数据标识:D17132608543947858

发布时间:2024/04/16

数据描述

产品应用场景

  1. 中文大模型指令微调:适用于训练 ChatGLM、LLaMA-Chinese 等中文大语言模型的指令跟随能力,例如通过医疗、百科等领域的问答数据,让模型学会精准理解用户提问并生成专业回答,可应用于智能客服、知识问答系统等场景。
  2. 垂直领域 NLP 应用开发:借助数据集覆盖的百科、医疗等领域数据,开发垂直领域的对话模型,如医疗咨询机器人、法律条款问答助手等,提升模型在特定场景下的语义理解与响应准确性。
  3. 低资源高效对齐研究:参考 LIMA “少而精” 的对齐思路,可用于探索小样本高质量数据对模型对齐的影响,为学术界研究高效指令微调方法提供标准化数据集,降低大规模数据训练的成本与资源消耗。

产品信息

● 数据集概况
  • 名称:COIG-CQIA(Chinese Open Instruction Generalist - Quality is All You Need)
  • 版本:v0.1(开源测试版)
  • 规模:由零一万物、中科院深圳先进技术研究院等机构联合构建,数据量待论文披露,侧重高质量而非大规模。
    ● 核心特点:
  • 数据来源:基于中文互联网问答及文章,经深度清洗、人工重构与审核,确保内容符合人类交互逻辑;
  • 格式规范:采用 JSON 格式,包含 instruction(指令)、input(补充信息)、output(回答)等 9 个字段,支持任务类型与领域分类;
  • 质量控制:绝大部分回答由人类撰写,少部分经大模型生成后人工验证,100% 通过 human_verified 核验。
    ● 技术优势:
  • 覆盖百科、医疗等多领域,task_type 细分至 “百科问答”“医疗咨询” 等子类型,支持模型多场景泛化;
  • 受 LIMA 研究启发,数据具备高对齐效率,少量数据即可提升模型指令遵循能力。

数据格式

{
    "instruction": "示例问题或者指令。",
    "input": "示例问题或指令的补充。",
    "output": "对输入的回复。",
    "task_type": {
        "major": ["问答"],
        "minor": ["百科问答"]
    },
    "domain": ["百科", "医疗"],
    "answer_from": "human",
    "human_verified": true,
    "copyright": "作者及版权信息。",
}

数据字段

  • instruction: 用于输入的指令或者问题。
  • input: 问题或指令的补充内容。
  • output: 输入对应的回答。
  • task_type: 表示该数据所属的主要任务类型和细分任务类型。
  • domain: 该数据数据所属领域。
  • answer_from: 回答是人类撰写的还是大模型撰写的,本数据集中绝大部分是由人类撰写的回答,少部分由大模型生成(经过了人工验证)。
  • human_verified: 该数据是否有人类核验过。
  • copyright: 包括该数据的版权信息,包括作者等。

使用方法

  1. 模型训练流程
    python
    # 示例:使用COIG-CQIA微调LLaMA-Chinese模型
    from transformers import LlamaForCausalLM, LlamaTokenizer, Trainer, TrainingArguments
    import json
    
    # 加载数据
    with open("coig-cqia-v0.1.json", "r", encoding="utf-8") as f:
        data = [json.loads(line) for line in f]
    
    # 数据预处理(示例:构建指令-回答对)
    def preprocess(examples):
        texts = [f"指令:{ex['instruction']}\n输入:{ex['input']}\n回答:{ex['output']}" for ex in examples]
        return {"text": texts}
    
    # 初始化模型与分词器
    model = LlamaForCausalLM.from_pretrained("decapoda-research/llama-7b-hf")
    tokenizer = LlamaTokenizer.from_pretrained("decapoda-research/llama-7b-hf")
    tokenizer.pad_token = tokenizer.eos_token
    
    # 训练配置
    training_args = TrainingArguments(
        output_dir="./coig-cqia-llama",
        learning_rate=3e-5,
        per_device_train_batch_size=8,
        num_train_epochs=3,
        weight_decay=0.01,
        logging_steps=10
    )
    
     
  2. 领域适配技巧:
    • 若聚焦医疗领域,可通过domain=["医疗"]筛选数据,配合领域词典增强模型专业术语理解;
    • 对于少样本场景,利用task_type筛选同类任务数据(如 “问答 - 百科问答”),采用 Prompt Tuning 等参数高效微调方法。
  3. 数据评估应用:
    • 使用本数据集作为评估集,测试模型在中文指令场景下的响应质量,可对比 LIMA、Alpaca 等数据集的微调效果;
    • 通过answer_from字段区分人类回答与大模型生成回答,分析不同数据来源对模型对齐的影响差异。

相似应用场景下的相似产品

 

中文医疗对话数据-Chinese-medical-dialogue

中文文本分类问题:THUCNews数据集

中文基于满血DeepSeek-R1蒸馏数据集-110k-SFT版本

注意事项

  1. 版本更新适配:当前为 v0.1 版本,后续更新可能调整字段定义或补充数据。
  2. 领域覆盖局限性:v0.1 版本领域集中于百科、医疗,若需教育、金融等领域数据,可联系官方反馈需求,或自行补充数据时注意格式一致性(参考 JSON 字段规范)。
  3. 数据偏差修正:若发现数据存在事实性错误(如医疗知识不准确)或领域标注偏差,可通过官方渠道反馈,协助优化后续版本(v0.1 支持问题反馈机制)。

数据截图

验证报告

以下为卖家选择提供的数据验证报告:

data icon
COIG-CQIA
120
已售 3
15.34MB
申请报告