以下为卖家选择提供的数据验证报告:
数据描述
心理健康-R1蒸馏中文数据集-10k
数据集简介
本数据集是专为心理健康领域设计的蒸馏数据集,旨在提升大模型在心理学相关任务中的推理能力和生成质量。数据集基于 psychology-10k-sft-zh,通过 DeepSeek R1 模型生成思维链(think)和输出(content),进一步增强了模型的推理能力。数据集包含 10,000 条高质量样本,适用于心理学领域的自然语言处理任务,如心理咨询、情感分析、多轮对话等。
数据集特点
- 高质量推理数据:通过 DeepSeek R1 生成思维链和输出,提升模型的推理能力。
- 中文心理学场景:数据集为中文,覆盖心理学领域的多种场景和问题。
- 长文本支持:数据长度达到 4096 及以上,适合处理复杂的长文本任务。
- 多轮对话支持:数据集包含多轮对话生成能力,适合构建智能助手类应用。
数据集结构
数据集以 JSON 格式存储,每条数据包含以下字段:
- input: 用户输入的问题或指令。
- think: DeepSeek R1 生成的思维链,用于推理过程。
- content: DeepSeek R1 生成的最终输出内容。
示例:
{
"input": "我最近一直感到非常焦虑,但不知道原因是什么",
"think": "用户提到最近感到焦虑,但不确定原因。可能的原因包括工作压力、生活变化或心理因素。需要提供一些常见的焦虑诱因和应对策略。",
"content": "焦虑可能由多种因素引起,例如工作压力、生活变化或心理因素。以下是一些常见的焦虑诱因和应对策略:1. 识别压力源;2. 保持健康的生活方式;3. 寻求专业帮助。"
}
使用场景
- 心理咨询助手:用于构建智能心理咨询助手,提供专业的心理学建议。
- 情感分析:用于分析用户情感状态,生成针对性的情感支持内容。
- 多轮对话:用于构建支持多轮交互的心理健康对话系统。

心理健康-R1蒸馏中文数据集-10k
16.29MB
申请报告