# 伊斯兰圣训双语平行文本数据集
## 引言与背景
圣训(Hadith)是伊斯兰文明中仅次于《古兰经》的核心文献体系,记录了先知穆罕默德的言行、裁决与默认,是伊斯兰法学、神学、伦理学及历史研究不可或缺的第一手资料。历经数个世纪的学者整理与校订,各大圣训集在伊斯兰世界拥有极高的权威性,也是研究阿拉伯古典语言与伊斯兰文明传播的重要语料来源。
本数据集由 Muhammad Affan 整理构建,系统性地汇聚了来自 17 部权威圣训典籍的 50,891 条完整圣训记录,涵盖阿拉伯语原文与英语译文的双语平行对照,同时附有传述人(Sanad)信息及标准文献引用编号。数据集以 CSV、JSON、SQL 三种格式完整提供,支持多样化的研究与工程需求。
该数据集的研究与应用价值体现在多个维度:其一,作为高质量的英阿双语平行语料,可直接用于机器翻译模型、跨语言信息检索系统及阿拉伯语自然语言处理(NLP)任务的训练与基准评测;其二,圣训文本具有严格的文体规范与传承链结构,是研究经典阿拉伯语语法、词汇及修辞风格的理想素材;其三,来自 17 部典籍的标注与引用信息,支持文献学、宗教学及信息科学领域的跨学科计算研究;其四,多格式封装使得该数据集能够无缝接入关系型数据库、数据分析管道及深度学习框架,极大降低了工程化使用的门槛。
---
## 数据基本信息
### 数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| Unnamed: 0 | 字符串(整数编号) | 记录序号,从 0 开始连续编号 | 0, 1024, 50890 | 100.00%(无缺失) |
| Book | 字符串 | 所属圣训典籍简称 | Bukhari, Muslim, Nasai | 100.00%(2条缺失,约0.004%) |
| Reference | 字符串 | 标准文献引用编号,含典籍全名与条目编号 | Sahih al-Bukhari 1, Sahih Muslim 100 | 100.00%(2条缺失,约0.004%) |
| Narrated | 字符串 | 传述人信息(Isnad),记录传述来源 | Narrated Abu Huraira:, Narrated 'Aisha: | 73.39%(13,540条缺失) |
| English | 字符串 | 圣训英语译文正文 | "The reward of deeds depends upon the intentions..." | 93.19%(3,468条缺失) |
| Arabic | 字符串 | 圣训阿拉伯语原文(含完整传承链文本) | حَدَّثَنَا الْحُمَيْدِيُّ عَبْدُ اللَّهِ... | 99.75%(127条缺失) |
> 说明: Narrated 字段缺失率较高(约26.61%),主要集中于马利克《穆沃塔》、达里米等部分典籍,因原典体例不同,传述信息已内嵌于 English 或 Arabic 正文中,并非实际信息损失。
### 数据集规模与格式分布
| 文件名 | 格式 | 文件大小 | 记录数量 | 说明 |
|---|---|---|---|---|
| Hadiths (2).csv | CSV(UTF-8) | 约 67 MB | 50,891 条 | 结构化表格,适合 Pandas/Excel 直接读取 |
| Hadiths.json | JSON | 约 155 MB | 50,891 条 | JSON 数组格式,适合 Web 应用与 NoSQL 场景 |
| Muhammad_Affan_Hadith_Collection.sql | SQL(MySQL) | 约 68 MB | 50,891 条 | phpMyAdmin 导出的 MySQL 8.0 转储文件,含建表语句 |
### 来源典籍(Book)分布
| 典籍简称 | 典籍全名 | 记录数量 | 占比 | 累计占比 |
|---|---|---|---|---|
| Muslim | Sahih Muslim(穆斯林圣训实录) | 7,459 | 14.66% | 14.66% |
| Bukhari | Sahih al-Bukhari(布哈里圣训实录) | 7,277 | 14.30% | 28.96% |
| Nasai | Sunan an-Nasa'i(奈萨仪圣训集) | 5,768 | 11.33% | 40.29% |
| Abudawud | Sunan Abi Dawud(阿布·达乌德圣训集) | 5,276 | 10.37% | 50.66% |
| Mishkat | Mishkat al-Masabih(明灯汇编) | 4,433 | 8.71% | 59.37% |
| Ibnmajah | Sunan Ibn Majah(伊本·马哲圣训集) | 4,345 | 8.54% | 67.91% |
| Tirmidhi | Jami' at-Tirmidhi(提尔米兹圣训集) | 4,053 | 7.96% | 75.87% |
| Darimi | Sunan ad-Darimi(达里米圣训集) | 3,406 | 6.69% | 82.56% |
| Malik | Muwatta Imam Malik(马利克穆沃塔) | 1,985 | 3.90% | 86.46% |
| Riyadussalihin | Riyad as-Salihin(善行园地) | 1,896 | 3.73% | 90.19% |
| Bulugh | Bulugh al-Maram(目标达成) | 1,767 | 3.47% | 93.66% |
| Ahmad | Musnad Ahmad(艾哈迈德传述集) | 1,374 | 2.70% | 96.36% |
| Adab | Al-Adab al-Mufrad(单篇礼仪集) | 1,326 | 2.61% | 98.97% |
| Shamail | Ash-Shama'il al-Muhammadiyah(穆罕默德特征集) | 402 | 0.79% | 99.76% |
| Nawawi40 | 40 Hadith an-Nawawi(诺威四十圣训) | 42 | 0.08% | 99.84% |
| Qudsi40 | 40 Hadith Qudsi(四十神圣圣训) | 40 | 0.08% | 99.92% |
| Shahwaliullah40 | 40 Hadith Shah Waliullah(沙瓦利乌拉四十圣训) | 40 | 0.08% | 100.00% |
| 合计 | — | 50,891 | 100.00% | — |
### 主要传述人(Top 20)分布
| 排名 | 传述人名称 | 出现次数 | 占有效记录比例 |
|---|---|---|---|
| 1 | Abu Huraira(阿布·胡拉伊拉) | 940 | 2.52% |
| 2 | 'Aisha(阿伊莎) | 519 | 1.39% |
| 3 | Ibn 'Abbas(伊本·阿巴斯) | 440 | 1.18% |
| 4 | Anas(阿纳斯) | 437 | 1.17% |
| 5 | Anas bin Malik(马利克之子阿纳斯) | 424 | 1.14% |
| 6 | Abu Hurairah(阿布·胡拉伊拉,另一拼写) | 316 | 0.85% |
| 7 | Ibn 'Umar(伊本·欧麦尔) | 301 | 0.81% |
| 8 | Abu Hurairah(另一引述格式) | 295 | 0.79% |
| 9 | 'Aishah(阿伊莎,另一引述格式) | 293 | 0.78% |
| 10 | Abu Hurairah(缩写形式) | 280 | 0.75% |
| 11 | Abu Huraira reported | 268 | 0.72% |
| 12 | 'Ali(阿里) | 221 | 0.59% |
| 13 | AbuHurayrah(另一拼写) | 192 | 0.51% |
| 14 | 'Abdullah(阿卜杜拉) | 191 | 0.51% |
| 15 | Abdullah ibn Abbas | 183 | 0.49% |
| 16 | Ibn 'Abbas(另一引述格式) | 177 | 0.47% |
| 17 | 'Abdullah bin 'Umar | 177 | 0.47% |
| 18 | Aisha, Ummul Mu'minin | 169 | 0.45% |
| 19 | Ibn 'Abbas(另一格式) | 160 | 0.43% |
| 20 | Jabir bin 'Abdullah | 159 | 0.43% |
> 注: 传述人字段在不同典籍中书写格式存在差异(如 Abu Huraira / AbuHurayrah / Abu Hurairah),实际为同一人物的不同转写,统计为独立词条。若合并归一,阿布·胡拉伊拉的实际出现频次超过 2,000 次,为数据集中出现频率最高的传述人。
### 正文文本长度分布
| 语言 | 有效记录数 | 平均字符数 | 中位字符数 | 最短字符数 | 最长字符数 |
|---|---|---|---|---|---|
| 英语(English) | 47,423 | 354 | 242 | 4 | 16,557 |
| 阿拉伯语(Arabic) | 50,764 | 511 | 406 | 18 | 14,785 |
---
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 规模完整 | 收录 50,891 条圣训,覆盖 17 部权威典籍,为目前公开可得的最大规模圣训结构化数据集之一 | 足以支撑大规模语言模型微调、深度神经网络训练及统计分析 |
| 双语平行对齐 | 每条记录同时包含英语译文与阿拉伯语原文,两种文本在记录层面严格对齐 | 直接用于英阿机器翻译语料构建、跨语言信息检索、双语嵌入模型训练 |
| 多典籍来源覆盖 | 横跨布哈里、穆斯林、奈萨仪、阿布·达乌德、提尔米兹、伊本·马哲等六大圣训集及多部辅助典籍 | 支持跨典籍比较研究、文献来源分类模型训练及知识图谱构建 |
| 结构化字段完整 | 包含记录编号、典籍来源、标准文献引用、传述人及双语正文,字段语义清晰 | 支持关系型查询、知识抽取及可溯源的学术引用 |
| 三格式多样封装 | 同一数据集以 CSV、JSON、SQL 三种格式提供,覆盖主流数据消费场景 | 无需格式转换,可直接接入 Pandas、MongoDB、MySQL 等不同技术栈 |
| 高阿拉伯语覆盖率 | 阿拉伯语字段完整率达 99.75%,几乎无缺失 | 可作为阿拉伯语 NLP 任务的高质量单语语料使用 |
| 传承链信息保留 | Narrated 字段及 Arabic 原文中保留完整的 Isnad(传承链)信息 | 支持社会网络分析、知识传播路径研究及圣训真实性鉴别研究 |
| 权威文献引用对齐 | Reference 字段使用标准学术引用格式(如 Sahih al-Bukhari 1),与国际伊斯兰文献数据库兼容 | 便于与其他圣训数据库进行数据关联与跨源验证 |
---
## 数据样例
以下样例从 14 个不同来源典籍中各选取有代表性的记录,展示数据集在典籍来源、传述人、文本内容及语言风格方面的多样性。样例均为元数据与双语正文样例。
---
样例 1 — Sahih al-Bukhari 1(布哈里圣训实录,第1条)| 字段 | 内容 |
|---|---|
| Book | Bukhari |
| Reference | Sahih al-Bukhari 1 |
| Narrated | Narrated 'Umar bin Al-Khattab: |
| English | I heard Allah's Messenger (ﷺ) saying, "The reward of deeds depends upon the intentions and every person will get the reward according to what he has intended." |
| Arabic | حَدَّثَنَا الْحُمَيْدِيُّ عَبْدُ اللَّهِ بْنُ الزُّبَيْرِ، قَالَ: حَدَّثَنَا سُفْيَانُ... إِنَّمَا الْأَعْمَالُ بِالنِّيَّاتِ |
---
样例 2 — Sahih Muslim 1(穆斯林圣训实录,第1条)| 字段 | 内容 |
|---|---|
| Book | Muslim |
| Reference | Sahih Muslim 1 |
| Narrated | Abū Bakr ibn Abī Shaybah narrated to us that Ghundar narrated... |
| English | Muhammad bin Ja'far narrated to us, Shu'bah narrated to us, on authority of Mansūr, on authority of Ibrahim... (full Isnad chain preserved) |
---
样例 3 — Sunan an-Nasa'i 1(奈萨仪圣训集,第1条)| 字段 | 内容 |
|---|---|
| Book | Nasai |
| Reference | Sunan an-Nasa'i 1 |
| Narrated | It was narrated from Abu Hurairah that the Prophet (ﷺ) said: |
| English | "When any one of you wakes from sleep, let him not dip his hand in (the water he uses for) his Wudu' until he has washed it three times." |
---
样例 4 — Sunan Abi Dawud 1(阿布·达乌德圣训集,第1条)| 字段 | 内容 |
|---|---|
| Book | Abudawud |
| Reference | Sunan Abi Dawud 1 |
| Narrated | Narrated Mughirah ibn Shu'bah: |
| English | When the Prophet (ﷺ) went (outside) to relieve himself, he went to a far-off place. |
---
样例 5 — Jami' at-Tirmidhi 1(提尔米兹圣训集,第1条)| 字段 | 内容 |
|---|---|
| Book | Tirmidhi |
| Reference | Jami' at-Tirmidhi 1 |
| Narrated | Ibn 'Umar narrated that: |
| English | the Prophet said: "Salat will not be accepted without purification, nor Charity from Ghulul." |
---
样例 6 — Sunan Ibn Majah 1(伊本·马哲圣训集,第1条)| 字段 | 内容 |
|---|---|
| Book | Ibnmajah |
| Reference | Sunan Ibn Majah 1 |
| Narrated | Abu Hurairah narrated that: |
| English | The Prophet said: "Whatever I have commanded you do it, and whatever I have forbidden you, refrain from it." |
---
样例 7 — Muwatta Imam Malik(马利克穆沃塔)| 字段 | 内容 |
|---|---|
| Book | Malik |
| Reference | Arabic/English book reference: Book 1, Hadith 1 |
| Narrated | N/A(传述人已内嵌正文) |
| English | He said, "Yahya ibn Yahya al-Laythi related to me from Malik ibn Anas from Ibn Shihab that one day Umar ibn Abd al-Aziz delayed the prayer..." |
---
样例 8 — Riyad as-Salihin(善行园地)| 字段 | 内容 |
|---|---|
| Book | Riyadussalihin |
| Reference | Riyad as-Salihin 1 |
| Narrated | 'Umar bin Al-Khattab (May Allah be pleased with him), reported: |
| English | The Messenger of Allah (ﷺ) said, "The deeds are considered by the intentions, and a person will get the reward according to his intention." |
---
样例 9 — 40 Hadith an-Nawawi(诺威四十圣训,第1条)| 字段 | 内容 |
|---|---|
| Book | Nawawi40 |
| Reference | Hadith 1, 40 Hadith an-Nawawi |
| Narrated | It is narrated on the authority of Amirul Mu'minin, Abu Hafs... |
| English | I heard the Messenger of Allah (ﷺ) say: "Actions are (judged) by motives (niyyah), so each man will have what he intended." |
---
样例 10 — 40 Hadith Qudsi(四十神圣圣训,第1条)| 字段 | 内容 |
|---|---|
| Book | Qudsi40 |
| Reference | Hadith 1, 40 Hadith Qudsi |
| Narrated | On the authority of Abu Hurayrah (may Allah be pleased with him) |
| English | When Allah decreed the Creation He pledged Himself by writing in His book which is laid down with Him: "My mercy prevails over my wrath." |
---
样例 11 — Mishkat al-Masabih(明灯汇编)| 字段 | 内容 |
|---|---|
| Book | Mishkat |
| Reference | Mishkat al-Masabih 1 |
| Narrated | 'Umar b. al-Khattab, for whom God's good pleasure is prayed |
| English | "Deeds are to be judged only by intentions, and a man will have only what he intended. When one's emigration is to God and His Messenger..." |
---
样例 12 — Sunan ad-Darimi(达里米圣训集)| 字段 | 内容 |
|---|---|
| Book | Darimi |
| Reference | Arabic reference: Book 0, Hadith 1 |
| Narrated | N/A |
| Arabic | (含完整阿拉伯语传承链与正文) |
---
样例 13 — Bulugh al-Maram(目标达成)| 字段 | 内容 |
|---|---|
| Book | Bulugh |
| Reference | Bulugh al-Maram 1 |
| Narrated | Narrated Abu Huraira: |
| English | Allah's Messenger (ﷺ) said regarding the sea, "Its water is purifying and its dead (animals) are lawful (to eat)." |
---
样例 14 — Musnad Ahmad(艾哈迈德传述集)| 字段 | 内容 |
|---|---|
| Book | Ahmad |
| Reference | Musnad Ahmad 1 |
| Narrated | It was narrated that Qais said: |
| English | Abu Bakr stood up and praised and glorified Allah, then he said: O people, you recite this verse: 'O you who believe! Take care of your own selves...' |
---
## 应用场景
### 1. 阿拉伯语自然语言处理(NLP)模型训练
本数据集包含 50,764 条完整的阿拉伯语圣训文本,总字符量超过 2600 万字符,覆盖经典阿拉伯语(Fusha)与传统文言体裁,是阿拉伯语自然语言处理领域难得的大规模高质量语料。在语言模型预训练或领域自适应微调方面,研究人员可直接将阿拉伯语字段用于构建或增强 AraBERT、AraGPT2、CAMeL 等阿拉伯语专用语言模型的训练语料库。在文本分类与主题检测任务中,17 个典籍标签构成了一个天然的多类别分类基准,研究者可据此训练圣训来源分类器,评估不同分类架构在宗教文本领域的泛化能力。此外,由于圣训文本具有高度规范化的语法结构与固定化的修辞格式,也是阿拉伯语命名实体识别(NER)、依存句法分析及词性标注(POS Tagging)任务的理想测试集。完整的传承链(Isnad)信息还为关系抽取与事件检测模型提供了丰富的正样本,对于推动阿拉伯语信息抽取技术的发展具有重要意义。
### 2. 英阿双语机器翻译与跨语言研究
每条圣训记录均包含英语译文与阿拉伯语原文,二者在记录层面严格对应,构成 47,423 对可用的英阿平行语句对。这一规模的英阿平行语料在公开数据集中较为罕见,在机器翻译研究领域具有较高价值。研究者可利用本数据集对神经机器翻译(NMT)模型(如 MarianMT、mBART、NLLB 等)进行宗教文本领域的微调,提升模型在处理包含专有名词、典故引用及古典句式时的翻译质量。除机器翻译外,跨语言信息检索(CLIR)、跨语言文本相似度计算及多语言问答系统的构建同样可直接受益于本数据集。由于英阿两种语言在词序、形态及语义表达方式上存在显著差异,本数据集也是研究语言间结构差异、验证跨语言迁移学习方法效果的重要语言学资源。
### 3. 宗教文本信息检索与知识图谱构建
圣训文献长期以来依赖人工检索与学者记忆,计算化处理的需求极为迫切。本数据集的结构化特性使其成为构建智能圣训信息检索系统的理想基础。通过对 Reference 字段的索引,系统可支持基于标准文献编号的精确检索;结合英语与阿拉伯语双语文本的向量化,可实现语义相似度检索,帮助用户在不了解确切引用的情况下定位相关圣训。在知识图谱构建方面,传述人字段中隐含的人物关系网络(谁传述给谁)是构建圣训传承图谱(Isnad Graph)的基础数据,相关研究已在伊斯兰文献学领域产生重要影响。进一步地,将圣训文本与《古兰经》文本、伊斯兰法学典籍进行关联,可构建更完整的伊斯兰知识图谱,支持语义推理与宗教文本问答(Religious QA)系统的开发。
### 4. 宗教学与文化计算研究
本数据集覆盖了自公元9世纪以来由不同学者汇编的 17 部圣训典籍,每部典籍在体例、筛选标准及侧重主题上各有特色。对数据集进行计算分析,可揭示不同典籍在主题覆盖、传述人偏好及文本风格上的系统性差异,为比较文献学研究提供量化依据。在文化计算(Cultural Analytics)领域,研究者可分析特定传述人在不同典籍中的出现频率、圣训主题随典籍编年的演变规律,以及传承链网络的社会结构特征。阿布·胡拉伊拉(Abu Huraira)作为出现频次最高的传述人,其在不同典籍中的记录分布即构成一项具有学术价值的研究问题。此外,圣训主题分类(如礼拜、斋月、社会伦理等)也是宗教信息学与数字人文研究的重要议题,本数据集为相关研究提供了完整的原始语料基础。
### 5. 伊斯兰教育技术与智能问答系统
随着人工智能技术在宗教教育领域的应用逐渐深化,基于圣训数据集的智能教育工具已展现出广阔前景。本数据集可用于训练或微调宗教主题的大语言模型(LLM),使其能够准确引用圣训来源、辨别圣训真伪及回答宗教法律问题(Fiqh QA)。在检索增强生成(RAG)架构下,本数据集可作为知识库,结合语义检索为 AI 助手提供权威的圣训引用依据,显著提升宗教问答系统的可靠性与可溯源性。对于伊斯兰学校(Madrasah)及在线宗教教育平台,基于本数据集构建的搜索引擎可帮助学生和学者快速定位特定圣训、比对不同典籍对同一事件的记载,从而提升学习效率。英阿双语对照的特性还使其特别适合服务于非阿拉伯语母语的穆斯林学习者,支持双语对照学习应用的开发。
---
## 结语
本数据集以 50,891 条经过系统整理的圣训记录,横跨 17 部权威典籍,兼具英语与阿拉伯语双语对照、传述人信息及标准文献引用,构成了目前规模最完整、格式最多样的公开圣训结构化数据集之一。无论是在阿拉伯语自然语言处理、跨语言机器翻译、宗教文献知识图谱,还是在数字人文与智能教育技术领域,本数据集均具有直接可用的工程价值与深远的研究意义。三种文件格式(CSV、JSON、SQL)的完整提供,进一步降低了不同技术背景研究者和工程师的使用门槛,使数据集能够无缝融入各类技术栈与分析管道。
如需获取更多数据信息或有合作研究意向,欢迎私信联系。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






