老下头

“达观杯”文本智能挑战赛数据集

linguistics

￥27

742.92MB

数据标识：D17174772535711764

发布时间：2024/06/04

竞赛背景

2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现。而在以理解人类语言为入口的认知智能上，目前达观数据自然语言处理技术已经可以实现文档自动解析、关键信息提取、文本分类审核、文本智能纠错等一定基础性的文字处理工作，并在各行各业得到充分应用。自然语言处理一直是人工智能领域的重要话题，而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析就是颇具挑战性的任务，如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息，一直是文本领域难题。随着深度学习的热潮来临，有许多新方法来到了 NLP 领域，给相关任务带来了更多优秀成果，也给大家带来了更多应用和想象的空间。此次比赛，达观数据提供了一批长文本数据和分类信息，希望选手动用自己的智慧，结合当下最先进的NLP和人工智能技术，深入分析文本内在结构和语义信息，构建文本分类模型，实现精准分类。未来文本自动化处理的技术突破和应用落地需要人工智能从业者和爱好者的共同努力，相信文本智能处理技术因为你的算法，变得更加智能！

组织架构

竞赛顾问

数据

数据包含2个csv文件：

train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id)，第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；第三列是在“词”级别上的表示，即词语相隔正文(word_seg)；第四列是这篇文章的标注(class)。注：每一个数字对应一个“字”，或“词”，或“标点符号”。“字”的编号与“词”的编号是独立的！
test_set.csv：此数据用于测试。数据格式同train_set.csv，但不包含class。注：test_set与train_test中文章id的编号是独立的。友情提示：请不要尝试用excel打开这些文件！由于一篇文章太长，excel可能无法完整地读入某一行！

评分标准

评分算法 binary-classification

采用各个品类F1指标的算术平均值，它是Precision 和 Recall 的调和平均数。 f1-score 其中，Pi是表示第i个种类对应的Precision， Ri是表示第i个种类对应Recall。

看了又看

验证报告

以下为卖家选择提供的数据验证报告：

“达观杯”文本智能挑战赛数据集

￥27

742.92MB

申请报告

“达观杯”文本智能挑战赛数据集

竞赛背景

组织架构

竞赛顾问

数据

评分标准

关于典枢

下载与支持

服务协议

关于我们

官方公众号

技术交流群