wnx

verify-tag伊斯兰与AI数据集:完整古兰经经文、圣训集(布哈里/穆斯林等六大圣训)、英文翻译与注释、安拉尊名 | 阿拉伯文NLP研究、机器学习训练数据集

古兰经经文圣训集英文翻译与注释阿拉伯文NLP研究伊斯兰与AI数据集

9.9

已售 0
1.59GB

数据标识:D17793359531930580

发布时间:2026/05/21

# 伊斯兰与AI数据集描述文档

## 1. 数据集概述

本数据集是一个综合性的伊斯兰宗教文本数据集,包含古兰经(Quran)、圣训(Hadith)、古兰经注释(Tafaseer)、古兰经翻译以及安拉尊名等多个子数据集。该数据集旨在支持伊斯兰研究、自然语言处理、机器学习等领域的研究工作。

### 数据集结构

Islam & AI/
├── quran/                    # 古兰经相关数据
│   ├── corpus/              # 古兰经语料库
│   └── quran.csv            # 古兰经阿拉伯文原文
├── hadith/                  # 圣训相关数据
│   ├── Sanadset 650K Data on Hadith Narrators/
│   ├── arabic_hadith/       # 逊尼派六大圣训集
│   ├── thaqalayn/           # 什叶派圣训集
│   ├── kaggle_hadiths_clean.csv
│   └── kaggle_rawis.csv
├── translation/             # 古兰经英文翻译
│   └── english/
├── tafaseer/                # 古兰经注释
│   └── english/
├── names_of_Allah/          # 安拉尊名
├── surah/                   # 章节信息
└── main_df.csv              # 主数据集

---

## 2. 数据集详细描述

### 2.1 古兰经数据集 (quran/)

#### 2.1.1 quran.csv

| 字段名 | 数据类型 | 描述 |
|--------|----------|------|
| ayah_no_quran | int | 经文在全经中的序号 |
| surah_name | string | 章节名称(阿拉伯文) |
| surah_no | int | 章节序号 |
| ayah_no_surah | int | 经文在章节中的序号 |
| ayah | string | 经文阿拉伯文原文 |
| ruko_no | int | 段落编号 |
| total_ayah_surah | int | 该章节总经文数 |
| list_of_words | string | 分词列表(JSON格式) |

记录数: 约6,236条(完整古兰经经文)

#### 2.1.2 corpus/ 语料库

| 文件名 | 描述 |
|--------|------|
| quran_dictionary.csv | 古兰经词典 |
| quran_lemmas.csv | 词形还原数据 |
| quran_lemmas_grouped.csv | 分组词形还原数据 |
| quran_morphology.csv | 形态分析数据 |
| quran_verbs.csv | 动词分析数据 |

---

### 2.2 圣训数据集 (hadith/)

#### 2.2.1 kaggle_hadiths_clean.csv

| 字段名 | 数据类型 | 描述 |
|--------|----------|------|
| id | int | 记录ID |
| hadith_id | int | 圣训ID |
| source | string | 来源(如 Sahih Bukhari) |
| chapter_no | int | 章节号 |
| hadith_no | int | 圣训号 |
| chapter | string | 章节名称 |
| chain_indx | string | 传述链索引 |
| text_ar | string | 阿拉伯文原文 |
| text_en | string | 英文翻译 |

记录数: 约10万+条

#### 2.2.2 kaggle_rawis.csv

圣训传述者(Rawis)信息数据集。

#### 2.2.3 Sanadset 650K Data on Hadith Narrators/

| 文件名 | 描述 |
|--------|------|
| books.csv | 圣训书籍信息 |
| hadith_samples.csv | 圣训样本 |
| sanadset.csv | 传述链数据(约65万条) |
| translated_samples.csv | 翻译样本 |

#### 2.2.4 arabic_hadith/ - 逊尼派六大圣训集

| 文件 | 描述 |
|------|------|
| Sahih Bukhari.csv | 布哈里圣训实录 |
| Sahih Muslim.csv | 穆斯林圣训实录 |
| Sunan Abu Dawud.csv | 艾布·达乌德圣训集 |
| Sunan al-Tirmidhi.csv | 提尔米基圣训集 |
| Sunan al-Nasai.csv | 奈萨仪圣训集 |
| Sunan Ibn Maja.csv | 伊本·马哲圣训集 |
| Musnad Ahmad ibn Hanbal.csv | 艾哈迈德·伊本·罕百里圣训集 |
| Maliks Muwatta.csv | 马立克圣训集 |
| Sunan al Darami.csv | 达拉米圣训集 |

> 注:每个圣训集均有带发音符号(Tashkel)和不带发音符号两个版本。

#### 2.2.5 thaqalayn/ - 什叶派圣训集

| 文件 | 描述 |
|------|------|
| AlKafi_TheSufficient_Volume1-8.csv | 《卡菲》(8卷)- Shaykh Muhammad b Yaqub al-Kulayni |
| NahjalBalagha_ThePeakofEloquence.csv | 《雄辩之路》- al-Sharif al-Radi |
| AlAmali_TheDictations.csv | 《笔录》- 多位作者 |
| KitabalGhayba_TheBookofOccultation.csv | 《隐遁书》 |
| AlTawhid_TheBookofDivineUnity.csv | 《独一书》 |
| AlKhisal_TheBookofCharacteristics.csv | 《特性书》 |
| 其他 | 多部什叶派重要圣训著作 |

---

### 2.3 古兰经翻译数据集 (translation/english/)

包含9种英文译本:

| 文件 | 译者 |
|------|------|
| Abdullah_Yusuf_Ali_translation.csv | Abdullah Yusuf Ali |
| Arthur_J._Arberry_translation.csv | Arthur J. Arberry |
| Marmaduke_Pickthall_translation.csv | Marmaduke Pickthall |
| Martin_Lings_translation.csv | Martin Lings |
| Muhammad_Asad_translation.csv | Muhammad Asad |
| Muhammad_Tahir-ul-Qadri_translation.csv | Muhammad Tahir-ul-Qadri |
| Recitations_of_Ibrahim_walk_from_saheeh_international_translation.csv | Saheeh International |
| Royal_Aal_al-Bayt_Institute_Translation_translation.csv | Royal Aal al-Bayt Institute |
| The Quran Dataset.csv | 综合译本 |

字段结构: - Name: 章节名称(英文) - Surah: 章节号 - Ayat: 经文号 - Verse: 经文译文

---

### 2.4 古兰经注释数据集 (tafaseer/english/)

| 文件 | 注释作者 |
|------|----------|
| Tafsir_al-Jalalayn_tafseer.csv | Jalal al-Din al-Mahalli & Jalal al-Din al-Suyuti |
| Al_Qushairi_Tafsir_tafseer.csv | Al-Qushairi |
| Kashani_Tafsir_tafseer.csv | Kashani |
| Tanwir_al-Miqbas_min_Tafsir_Ibn_Abbas_tafseer.csv | Ibn Abbas |

---

### 2.5 安拉尊名数据集 (names_of_Allah/)

Asma_ul_Husna.csv: 包含安拉的99个尊名及其含义。

---

### 2.6 章节信息数据集 (surah/)

surah_info.csv: 古兰经各章节的元信息。

---

### 2.7 主数据集 (main_df.csv)

综合数据集,整合了古兰经经文、翻译和注释信息。

---

## 3. 数据格式与编码

- 文件格式: CSV(逗号分隔值)
- 编码: UTF-8(支持阿拉伯文、英文等多语言)
- 分隔符: 逗号 (,)
- 文本格式: 纯文本

---

## 4. 数据来源

1. 古兰经原文: 基于乌姆·穆罕默德版本(Uthmani script)
2. 圣训集: 来自权威的伊斯兰学术来源
3. 翻译: 公开可用的权威英文译本
4. 注释: 经典伊斯兰注释著作

---

## 5. 使用建议

### 5.1 适用场景

- 伊斯兰文本挖掘与分析
- 阿拉伯文自然语言处理研究
- 机器学习模型训练(文本分类、情感分析、机器翻译等)
- 宗教研究与比较宗教学
- 教育应用开发

### 5.2 注意事项

1. 宗教敏感性: 本数据集包含宗教文本,使用时应尊重宗教信仰和文化传统
2. 阿拉伯文处理: 阿拉伯文从右到左书写,需使用支持双向文本的工具
3. 数据完整性: 确保在使用前验证数据完整性

---

## 6. 数据集统计

| 数据集 | 文件数 | 记录数 |
|--------|--------|--------|
| 古兰经原文 | 1 | ~6,236 |
| 圣训数据 | ~30 | ~10万+ |
| 英文翻译 | 9 | ~6,236/本 |
| 注释 | 4 | 可变 |
| 安拉尊名 | 1 | 99 |

---

## 7. 版本信息

- 版本: 1.0
- 创建日期: 2024年
- 最后更新: 2024年

---

## 8. 免责声明

本数据集仅供学术研究和非商业用途。使用时请遵守相关法律法规和宗教伦理规范。

看了又看

验证报告

以下为卖家选择提供的数据验证报告:

data icon
伊斯兰与AI数据集:完整古兰经经文、圣训集(布哈里/穆斯林等六大圣训)、英文翻译与注释、安拉尊名 | 阿拉伯文NLP研究、机器学习训练数据集
9.9
已售 -
1.59GB
申请报告