DS数据代找

verify-tag中文基于满血DeepSeek-R1蒸馏数据集-110k-SFT版本

基于满血DeepSeek-R1蒸馏数据集文本生成数据集

40

已售 0
231.31MB

数据标识:D17409932554738458

发布时间:2025/03/03

以下为卖家选择提供的数据验证报告:

数据描述

本数据集为中文开源蒸馏满血R1的数据集,数据集中不仅包含math数据,还包括大量的通用类型数据,总数量为110K。

R1的效果十分强大,并且基于R1蒸馏数据SFT的小模型也展现出了强大的效果,但检索发现,大部分开源的R1蒸馏数据集均为英文数据集。 同时,R1的报告中展示,蒸馏模型中同时也使用了部分通用场景数据集。 

该中文数据集中的数据分布如下:

  • Math:共计36568个样本,
  • Exam:共计2432个样本,
  • STEM:共计12648个样本,
  • General:共计58352,包含弱智吧、逻辑推理、小红书、知乎、Chat等。

数据预览:

data icon
中文基于满血DeepSeek-R1蒸馏数据集-110k-SFT版本
40
已售 0
231.31MB
申请报告