以下为卖家选择提供的数据验证报告:
数据描述
本数据集为中文开源蒸馏满血R1的数据集,数据集中不仅包含math数据,还包括大量的通用类型数据,总数量为110K。
R1的效果十分强大,并且基于R1蒸馏数据SFT的小模型也展现出了强大的效果,但检索发现,大部分开源的R1蒸馏数据集均为英文数据集。 同时,R1的报告中展示,蒸馏模型中同时也使用了部分通用场景数据集。
该中文数据集中的数据分布如下:
- Math:共计36568个样本,
- Exam:共计2432个样本,
- STEM:共计12648个样本,
- General:共计58352,包含弱智吧、逻辑推理、小红书、知乎、Chat等。
数据预览:

中文基于满血DeepSeek-R1蒸馏数据集-110k-SFT版本
231.31MB
申请报告