DS数据代找

verify-tag中文文本分类问题:THUCNews数据集

中文文本分类文本识别深度学习THUCNews

0.5

已售 1
66.15MB

数据标识:D17338104790257820

发布时间:2024/12/10

数据描述

数据介绍:

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。

该数据集使用了其中的10个分类,每个分类6500条,总共65000条新闻数据。类别如下:
数据集共有三个文件,如下:
cnews.train.txt: 训练集(500010条)
cnews.val.txt: 验证集(50010条)
cnews.test.txt: 测试集(1000*10条)

验证报告

以下为卖家选择提供的数据验证报告:

data icon
中文文本分类问题:THUCNews数据集
0.5
已售 1
66.15MB
申请报告