数据洋

MD-CSC多领域中文拼写纠错数据集

中文语法纠错多领域中文拼写纠错千言数据集

￥0.5

已售 10+

681.24KB

数据标识：D17313834598900470

发布时间：2024/11/12

MD-CSC多领域中文拼写纠错数据集

作者：吕奇第一作者、曹自强副教授、耿磊、艾春辉、闫旭、付国宏教授苏州大学

数据集介绍

中文拼写纠错(Chinese Spelling Check, CSC)旨在自动纠正给定中文句中的错别字，该技术广泛应用于搜索匹配、文档生成等场景。现有的CSC数据集存在数据规模小，覆盖领域单一，词级别拼写错误缺失等问题。因此，我们推出了多领域的中文拼写纠错数据集（Multi Domain Chinese Spelling Check，MD-CSC）。具体来说，我们收集了包括法律、医疗、公文写作三个领域相关的公开语料，并结合现有的多种输入法，人工标注了8000多条中文句对（源句-目标句）。其中，源句可能包含拼写错误的句子，目标句为正确句子。该数据集的主要特色为：1）覆盖领域多，包括法律、医疗、公文写作三个领域；2）错误类型齐全，包括字级别和词级别拼写错误。

数据预览

我们收集了法律、医疗、公文写作领域的公开语料，并以此为原始语料进行人工标注。其中，法律相关的句子来源于2020年法研杯[1]司法考试赛道的数据（已开源于论文JEC-QA: A Legal-Domain Question Answering Dataset[2]）；医疗相关的句子来源于中文医疗信息处理基准CBLUE[3]的公开语料；公文写作相关的句子来源于国务院[4]发布的公开新闻（已过滤掉包含领导人姓名的敏感句子）。
相关链接：
[1] http://cail.cipsc.org.cn:2020/

[2] https://arxiv.org/abs/1911.12011

[3] https://github.com/CBLUEbenchmark/CBLUE

[4] http://www.gov.cn/

示例：

{2	在秩序问题上，根本就不存在法律是否服务于只需的问题。	在秩序问题上，根本就不存在法律是否服务于秩序的问题。}

单条样本由错别字个数，源句，正确句三部分构成，各部分之间使用进行分割。

看了又看

验证报告

以下为卖家选择提供的数据验证报告：

MD-CSC多领域中文拼写纠错数据集

￥0.5

已售 10+

681.24KB

申请报告

MD-CSC多领域中文拼写纠错数据集

MD-CSC多领域中文拼写纠错数据集

作者：吕奇第一作者、曹自强副教授、耿磊、艾春辉、闫旭、付国宏教授苏州大学

数据集介绍

数据预览

关于典枢

下载与支持

服务协议

关于我们

官方公众号

技术交流群