# 售后问题请联系450792304@qq.com,原始文件解压后大小为47GB左右,请提前预留好存储空间。
## 引言与背景
在中文自然语言处理、文本检索与行业知识抽取等任务中,高质量、可追溯且覆盖广泛的长文本语料十分关键。本数据集以刑事案件裁判文书为核心对象,提供了可用于研究与工程落地的结构化元数据与大规模正文文本,能够支持从信息抽取、相似案例检索到长文本建模等多类场景的训练与评测。数据集中既包含便于批处理统计的字段化信息(如标题、案号、法院、日期、案由、法律依据等),也包含用于全文理解与检索的原始文本内容(文书内容 字段),便于在统一数据源内完成从元数据分析到正文语义建模的闭环。为满足展示合规与篇幅限制,本文仅展示必要的元数据样例,不直接粘贴长篇正文,但实际数据集中保留完整文本字段可供使用。
## 数据基本信息
该 CSV 数据集位于 刑事案件.csv,文件体积约 46.8GB,包含 7,773,399 条记录与 14 个字段。整体以单表形式组织,适合使用分块读取进行全量统计与模型训练数据管道构建。从字段构成看,数据同时覆盖页面链接、案件编号、审理程序、裁判时间、发布信息以及长文本正文等信息形态,既可用于元数据驱动的统计分析,也可用于基于完整文本内容的检索与建模。
### 字段说明(含完整性统计)
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性(完整率) |
| --- | --- | --- | --- | --- |
| 标题 | string | 文书或案件的标题文本 | 邓德培犯敲诈勒索罪刑罚变更刑事裁定书 | 100.0000% |
| 审理法院 | string | 承办法院名称 | 浙江省宁波市中级人民法院 | 99.9415% |
| 案件类型 | string | 案件大类(本文件为刑事案件) | 刑事案件 | 100.0000% |
| 网页链接 | url | 对应页面的链接 | https://wenshu.court.gov.cn/website/wenshu/181107ANFZ0BXSK4/index.html?docId=40c2e73375724d3cb274933… | 99.9630% |
| 案号 | string | 案件案号/文书编号 | (2010)浙甬刑执字第1039号 | 99.9670% |
| 审理程序 | string | 审理阶段/程序类型 | 刑罚变更 | 99.9283% |
| 裁判日期 | date_string | 裁判作出日期(字符串形式) | 2016-09-19 | 100.0000% |
| 发布日期 | date_string | 对外发布日期(字符串形式,可能存在缺失) | 2016-09-19 | 99.7270% |
| 文书内容 | text | 裁判文书正文全文(长文本) | (全文文本,篇幅较长,本文不直接展示) | 95.9700% |
| 当事人 | text | 当事人信息(文本/结构化描述) | (结构化/文本信息,本文不直接展示) | 93.5234% |
| 案由 | string | 案由/主要罪名或事项(分类字段) | 盗窃 | 84.7111% |
| 法律依据 | text | 引用的法律条文依据(文本) | (条文引用文本,本文不直接展示) | 89.4571% |
| 裁判年份 | int_string | 裁判年份(由数据提供) | 2010 | 100.0000% |
| 裁判月份 | int_string | 裁判月份(由数据提供) | 3 | 100.0000% |
### 数据分布情况
#### 审理程序分布(Top 20,按数量降序)
| 审理程序 | 记录数量 | 占比 |
| --- | --- | --- |
| 一审 | 3048003 | 39.2107% |
| 刑事一审 | 1873540 | 24.1019% |
| 刑罚变更 | 1455827 | 18.7283% |
| 刑罚与执行变更 | 628623 | 8.0868% |
| 二审 | 373758 | 4.8082% |
| 刑事二审 | 231476 | 2.9778% |
| 其他 | 88445 | 1.1378% |
| 刑事审判监督 | 35741 | 0.4598% |
| 再审 | 11361 | 0.1462% |
| 再审审查与审判监督 | 6638 | 0.0854% |
| 复核 | 4319 | 0.0556% |
| 强制医疗 | 2874 | 0.0370% |
| 管辖 | 2112 | 0.0272% |
| 刑事复核 | 1883 | 0.0242% |
| 一�� | 430 | 0.0055% |
| ���审 | 428 | 0.0055% |
| ��审 | 410 | 0.0053% |
| 一��� | 400 | 0.0051% |
| 减刑假释 | 189 | 0.0024% |
| ��罚变更 | 149 | 0.0019% |
#### 审理法院 Top 20(按数量降序)
| 审理法院 | 记录数量 | 占比 |
| --- | --- | --- |
| 安徽省合肥市中级人民法院 | 51083 | 0.6572% |
| 浙江省杭州市中级人民法院 | 44797 | 0.5763% |
| 四川省成都市中级人民法院 | 39432 | 0.5073% |
| 云南省昆明市中级人民法院 | 38978 | 0.5014% |
| 浙江省宁波市中级人民法院 | 37467 | 0.4820% |
| 江苏省南京市中级人民法院 | 36994 | 0.4759% |
| 福建省福州市中级人民法院 | 36692 | 0.4720% |
| 浙江省金华市中级人民法院 | 34817 | 0.4479% |
| 辽宁省沈阳市中级人民法院 | 34055 | 0.4381% |
| 浙江省衢州市中级人民法院 | 34002 | 0.4374% |
| 江西省南昌市中级人民法院 | 31914 | 0.4106% |
| 天津市第一中级人民法院 | 31026 | 0.3991% |
| 重庆市第五中级人民法院 | 30123 | 0.3875% |
| 山东省济宁市中级人民法院 | 29823 | 0.3837% |
| 吉林省长春市中级人民法院 | 29333 | 0.3774% |
| 广东省韶关市中级人民法院 | 28045 | 0.3608% |
| 上海市浦东新区人民法院 | 26914 | 0.3462% |
| 湖南省长沙市中级人民法院 | 25526 | 0.3284% |
| 湖北省武汉市中级人民法院 | 23763 | 0.3057% |
| 黑龙江省哈尔滨市中级人民法院 | 22347 | 0.2875% |
#### 案由 Top 20(按数量降序,展示已做必要脱敏)
| 案由(展示) | 记录数量 | 占比 |
| --- | --- | --- |
| 盗窃 | 1164418 | 14.9795% |
| 危险驾驶 | 950988 | 12.2339% |
| 故意伤害 | 656022 | 8.4393% |
| 走私、贩卖、运输、制造毒品 | 607345 | 7.8131% |
| 交通肇事 | 363577 | 4.6772% |
| 诈骗 | 320406 | 4.1218% |
| 抢劫 | 311659 | 4.0093% |
| 寻衅滋事 | 169356 | 2.1787% |
| 故意杀人 | 159591 | 2.0530% |
| 涉性暴力相关罪名(已脱敏展示) | 130074 | 1.6733% |
| 容留他人吸毒 | 111453 | 1.4338% |
| 开设赌场 | 106416 | 1.3690% |
| 聚众斗殴 | 58215 | 0.7489% |
| 妨害公务 | 57710 | 0.7424% |
| 合同诈骗 | 56055 | 0.7211% |
| 受贿 | 50000 | 0.6432% |
| 非法持有毒品 | 48842 | 0.6283% |
| 非法拘禁 | 44877 | 0.5773% |
| 非法经营 | 41904 | 0.5391% |
| 信用卡诈骗 | 39805 | 0.5121% |
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
| --- | --- | --- |
| 超大规模全量记录 | 全量 {N:,} 条记录,单文件 CSV 便于统一管理与分块处理 | 适合训练大规模文本模型、构建高覆盖检索库与统计分析基座 |
| 原始长文本内容可用 | 文书内容 字段提供完整正文全文(长文本) | 支持全文检索、长文本分类、摘要、相似度与信息抽取等任务 |
| 结构化元数据齐全 | 包含标题、案号、法院、审理程序、裁判/发布日期、案由、法律依据等 | 便于构建标签、时间切分、质量控制与多任务学习特征 |
| 可追溯与可关联 | 提供 网页链接 便于回溯来源、做增量更新或交叉验证 | 方便数据治理、去重核验与外部信息融合 |
## 数据样例(原始字段完整展示,5条)
为更直观体现原始数据形态,以下展示 5 条记录的关键字段与长文本字段(当事人、法律依据、文书内容)的完整内容。考虑到合规与隐私保护,示例对可能出现的手机号、证件号等长数字序列进行了必要打码,但字段结构与正文文本形态保持不变;实际数据集中对应字段为原始完整文本。
### 样例 1
标题: 郁德标犯开设赌场罪刑罚变更刑事裁定书
text
郁德标法律依据(原始字段内容):
text
《中华人民共和国刑法》:第七十八条第一款,第七十八条第一款,第七十九条文书内容(原始字段内容):
text
浙江省宁波市中级人民法院刑 事 裁 定 书(2010)浙甬刑执字第931号罪犯郁德标,于安徽省凤阳县,现在宁波市北仑区看守所服刑。宁波市北仑区人民法院于2009年5月6日作出了(2009)甬仑刑初字第261号刑事判决,以被告人郁德标犯开设赌场罪,判处有期徒刑一年六个月,并处罚金人民币13000元。判决发生法律效力后,交付执行。执行机关宁波市北仑区看守所2010年2月26日提出减刑建议书,报送本院审理。本院依法组成合议庭进行了审理,现已审理终结。执行机关认为罪犯郁德标在服刑期间,能认罪服法,积极改造,确有悔改表现,并提供了罪犯减刑呈批表、罪犯考核情况表等相关证据。经审理查明,罪犯郁德标在服刑期间,能认罪服法,服从管教,遵守监规纪律。“三课”学习认真,成绩良好。劳动积极肯干,完成各项任务。上述事实有罪犯减刑呈批表、罪犯考核情况表等证据证实。本院认为,罪犯郁德标在服刑期间,能认真接受教育改造,确有悔改表现,符合减刑条件。依照《中华人民共和国刑法》第七十八条、第七十九条之规定,裁定如下:对罪犯郁德标减去有期徒刑四个月。本裁定送达后即发生法律效力。审 判 长 施丽君审 判 员 董俊慧审 判 员 陈作岚二〇一〇年三月三日代书记员 陈维婵### 样例 2
标题: 李明龙犯盗窃罪刑罚变更刑事裁定书
text
李明龙法律依据(原始字段内容):
text
《中华人民共和国刑法》:第七十八条第一款,第七十八条第一款,第七十九条文书内容(原始字段内容):
text
浙江省宁波市中级人民法院刑 事 裁 定 书(2010)浙甬刑执字第996号罪犯李明龙,于安徽省凤阳县,现在宁波市黄湖监狱服刑。宁波市鄞州区人民法院于2008年11月14日作出了(2008)甬鄞刑初字第1324号刑事判决,以被告人李明龙犯盗窃罪,判处有期徒刑二年,并处罚金人民币4000元。判决发生法律效力后,交付执行。执行机关宁波市黄湖监狱2010年3月1日提出减刑建议书,报送本院审理。本院依法组成合议庭进行了审理,现已审理终结。执行机关认为罪犯李明龙在服刑期间,能认罪服法,积极改造,确有悔改表现,并提供了罪犯减刑呈批表、罪犯奖惩审批表、罪犯考核情况表等相关证据。经审理查明,罪犯李明龙在服刑期间,能认罪服法,服从管教,遵守监规纪律。“三课”学习认真,成绩良好。劳动积极肯干,完成各项任务。2009年度获监狱行政记功。上述事实有罪犯减刑呈批表、罪犯奖惩审批表、罪犯考核情况表等证据证实。本院认为,罪犯李明龙在服刑期间,能认真接受教育改造,确有悔改表现,符合减刑条件。依照《中华人民共和国刑法》第七十八条、第七十九条之规定,裁定如下:对罪犯李明龙减去有期徒刑五个月十五天。本裁定送达后即发生法律效力。审 判 长 项 红审 判 员 董俊慧审 判 员 陆慧慧二〇一〇年三月八日代书记员 何锦霞### 样例 3
标题: 杨进和犯盗窃罪刑罚变更刑事裁定书
text
杨进和法律依据(原始字段内容):
text
《中华人民共和国刑法》:第七十八条第一款,第七十八条第一款,第七十九条文书内容(原始字段内容):
text
浙江省宁波市中级人民法院刑 事 裁 定 书(2010)浙甬刑执字第1076号罪犯杨进和,于四川省犍为县,现在宁波市黄湖监狱服刑。宁波市江北区人民法院于2007年6月14日作出了(2007)甬北刑初字第180号刑事判决,以被告人杨进和犯盗窃罪,判处有期徒刑四年,并处罚金人民币5000元。判决发生法律效力后,交付执行。执行机关宁波市黄湖监狱2010年3月1日提出减刑建议书,报送本院审理。本院依法组成合议庭进行了审理,现已审理终结。执行机关认为罪犯杨进和在服刑期间,能认罪服法,积极改造,确有悔改表现,并提供了罪犯减刑呈批表、罪犯奖惩审批表、罪犯考核情况表等相关证据。经审理查明,罪犯杨进和在服刑期间,能认罪服法,服从管教,遵守监规纪律,认真参加“三课”学习,积极参加劳动,态度端正,较好地完成各项任务。2008年、2009年受监狱行政记功。上述事实有罪犯减刑呈批表、罪犯奖惩审批表、罪犯考核情况表等证据证实。本院认为,罪犯杨进和在服刑期间,能认真接受教育改造,悔改表现突出,符合减刑条件。依照《中华人民共和国刑法》第七十八条、第七十九条之规定,裁定如下:对罪犯杨进和减去有期徒刑十一个月十五天。本裁定送达后即发生法律效力。审 判 长 施丽君审 判 员 陈作岚审 判 员 董俊慧二〇一〇年三月十一日代书记员 陈维婵### 样例 4
标题: 王传启犯交通肇事罪刑罚变更刑事裁定书
text
王传启法律依据(原始字段内容):
text
《中华人民共和国刑法》:第七十八条第一款,第七十八条第一款,第七十九条文书内容(原始字段内容):
text
浙江省宁波市中级人民法院刑 事 裁 定 书(2010)浙甬刑执字第946号罪犯王传启,于安徽省霍邱县,现在宁波市看守所服刑。宁波市江东区人民法院于2009年12月10日作出了(2009)甬东刑初字第399号刑事判决,以被告人王传启犯交通肇事罪,判处有期徒刑十个月。判决发生法律效力后,交付执行。执行机关宁波市看守所2010年2月26日提出减刑建议书,报送本院审理。本院依法组成合议庭进行了审理,现已审理终结。执行机关认为罪犯王传启在服刑期间,能认罪服法,积极改造,确有悔改表现,并提供了罪犯减刑呈批表、罪犯考核情况表等相关证据。经审理查明,罪犯王传启在服刑期间,能认罪服法,服从管教,遵守监规纪律。“三课”学习认真,成绩良好。劳动积极肯干,完成各项任务。上述事实有减刑呈批表、考核情况表等证据证实。本院认为,罪犯王传启在服刑期间,能认真接受教育改造,确有悔改表现,符合减刑条件。依照《中华人民共和国刑法》第七十八条、第七十九条之规定,裁定如下:对罪犯王传启减去有期徒刑二十五天。本裁定送达后即发生法律效力。审 判 长 吴国儿审 判 员 董俊慧审 判 员 陆慧慧二〇一〇年三月二日代书记员 陈维婵### 样例 5
标题: 陈小永犯盗窃罪刑罚变更刑事裁定书
text
陈小永法律依据(原始字段内容):
text
《中华人民共和国刑法》:第七十八条第一款,第七十八条第一款,第七十九条文书内容(原始字段内容):
text
浙江省宁波市中级人民法院刑 事 裁 定 书(2010)浙甬刑执字第1139号罪犯陈小永,于江苏省东海县,现在宁波市黄湖监狱服刑。宁波市鄞州区人民法院于2007年11月16日作出了(2007)甬鄞刑初字第989号刑事判决,以被告人陈小永犯盗窃罪,判处有期徒刑四年,并处罚金人民币5000元。判决发生法律效力后,交付执行。执行机关宁波市黄湖监狱2010年3月1日提出减刑建议书,报送本院审理。本院依法组成合议庭进行了审理,现已审理终结。执行机关认为罪犯陈小永在服刑期间,能认罪服法,积极改造,确有悔改表现,并提供了罪犯减刑呈批表、罪犯奖惩审批表、罪犯考核情况表等相关证据。经审理查明,罪犯陈小永在服刑期间,能认罪服法,服从管教,遵守监规纪律。“三课”学习认真,成绩良好。劳动积极肯干,完成各项任务。2008年度受监狱积极改造分子奖励。上述事实有罪犯减刑呈批表、罪犯奖惩审批表、罪犯考核情况表等证据证实。本院认为,罪犯陈小永在服刑期间,能认真接受教育改造,确有悔改表现,符合减刑条件。依照《中华人民共和国刑法》第七十八条、第七十九条之规定,裁定如下:对罪犯陈小永减去有期徒刑一年二个月。本裁定送达后即发生法律效力。审 判 长 施丽君审 判 员 董俊慧审 判 员 陈作岚二〇一〇年三月九日代书记员 陈维婵## 应用场景
### 1)司法类长文本预训练与微调数据构建(面向 NLP 与大模型训练)
该数据集的核心价值之一在于包含规模化的长文本正文(文书内容),并配套了标题、案号、法院、审理程序、案由与法律依据等结构化字段。在模型训练上,可以将正文作为语言建模语料,用于领域继续预训练(Domain Continued Pretraining),并利用元数据字段构造多任务目标:例如以 案由 作为弱监督标签做文本分类,以 法律依据 做条文引用抽取与生成评测,以 审理程序 做文书类型识别。当需要构建高质量训练集时,还可以利用 裁判年份/月份 进行时间切分,形成训练集、验证集与未来分布测试集,评估模型在概念漂移下的稳健性。由于数据中保留了完整正文,能够支持长上下文建模、段落级信息抽取与基于证据片段的检索增强生成(RAG)等更贴近产业落地的训练策略。
### 2)全文检索与相似案例匹配(面向知识检索、内容理解与智能分析)
对于检索系统与知识库建设而言,单纯的元数据不足以支持高召回的语义检索,而本数据集提供的 文书内容 全文使得构建大规模全文索引成为可能。工程上可以将 标题、案号、法院、日期、案由、法律依据 等字段作为结构化过滤条件,将 文书内容 作为倒排索引与向量索引的主要载体,从而实现“结构化过滤 + 语义召回 + 相关性重排”的组合检索方案。在相似案例匹配任务中,可以基于全文计算语义向量或基于关键段落做匹配,同时利用 裁判年份 做时间约束,避免因时代差异引入噪声。此外,网页链接 字段提供了回溯路径,便于在数据治理或业务审核场景下进行抽样核验、定位来源与持续更新。
### 3)行业风控与合规语义分析(面向文本结构化、规则引擎与特征工程)
在行业风控、内容审核与合规语义分析等应用中,常见需求是从长文本中抽取关键信息并形成可解释的结构化结果。该数据集提供了 案由 与 法律依据 等字段,可作为抽取任务的监督信号或评测基准:例如从 文书内容 中抽取与案由相关的事实片段,或识别条文引用并与 法律依据 进行一致性对齐。在特征工程层面,审理程序 能用于区分不同文书形态,避免将程序差异误当作语义差异;裁判日期/年份/月份 可以用于构建时间衰减特征与趋势分析。如果需要构建可追溯的分析链路,还可以使用 网页链接 将模型输出与原文证据关联起来,提升结果可解释性与可审计性。
### 4)数据治理、质量评估与跨年度统计研究(面向数据工程与分析评测)
由于数据规模达到数百万级,且字段完整性存在差异(例如 案由、法律依据、当事人 的缺失率高于基础字段),该数据集本身也适合作为数据治理与质量评估研究对象。你可以基于字段缺失率、日期可解析率、重复链接/案号检测等方法建立质量指标体系,并按 裁判年份 进行分层对比,评估不同年份数据的一致性与稳定性。在统计研究上,年份与月份分布可支持宏观趋势分析,审理程序分布可用于理解不同阶段文书的结构差异,并进一步为模型训练中的采样策略(如按年份均衡采样、按程序加权采样)提供依据。因为数据包含正文全文,质量评估不仅限于元数据层面,还可以扩展到正文长度分布、模板化程度、段落结构等文本质量指标。
## 结尾
总体而言,该数据集以超大规模的刑事案件裁判文书为主体,兼具结构化元数据与可用于全文理解的原始长文本内容,能够在科研与产业两端支撑从统计分析、检索系统到模型训练的多类任务。尤其是 文书内容 字段保留了完整正文,使其不仅是“元数据集合”,更是可直接用于全文检索、长文本建模与信息抽取的高价值语料库。如需进一步开展字段标准化、增量更新或更细粒度标注构建,也可在现有链接与元数据基础上扩展形成更完整的数据工程体系。如有需要,可私信获取更多整理建议与使用方法。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






