以下为卖家选择提供的数据验证报告:
数据描述
MD-CSC多领域中文拼写纠错数据集
作者:吕奇第一作者、曹自强副教授、耿磊、艾春辉、闫旭、付国宏教授苏州大学
数据集介绍
中文拼写纠错(Chinese Spelling Check, CSC)旨在自动纠正给定中文句中的错别字,该技术广泛应用于搜索匹配、文档生成等场景。现有的CSC数据集存在数据规模小,覆盖领域单一,词级别拼写错误缺失等问题。因此,我们推出了多领域的中文拼写纠错数据集(Multi Domain Chinese Spelling Check,MD-CSC)。具体来说,我们收集了包括法律、医疗、公文写作三个领域相关的公开语料,并结合现有的多种输入法,人工标注了8000多条中文句对(源句-目标句)。其中,源句可能包含拼写错误的句子,目标句为正确句子。该数据集的主要特色为:1)覆盖领域多,包括法律、医疗、公文写作三个领域;2)错误类型齐全,包括字级别和词级别拼写错误。
数据预览
我们收集了法律、医疗、公文写作领域的公开语料,并以此为原始语料进行人工标注。其中,法律相关的句子来源于2020年法研杯[1]司法考试赛道的数据(已开源于论文JEC-QA: A Legal-Domain Question Answering Dataset[2]);医疗相关的句子来源于中文医疗信息处理基准CBLUE[3]的公开语料;公文写作相关的句子来源于国务院[4]发布的公开新闻(已过滤掉包含领导人姓名的敏感句子)。
相关链接:
[1] http://cail.cipsc.org.cn:2020/
相关链接:
[1] http://cail.cipsc.org.cn:2020/
示例:
{2 在秩序问题上,根本就不存在法律是否服务于只需的问题。 在秩序问题上,根本就不存在法律是否服务于秩序的问题。}
单条样本由错别字个数,源句,正确句三部分构成,各部分之间使用 进行分割。

MD-CSC多领域中文拼写纠错数据集
681.24KB
申请报告