数据描述
引言与背景
数据基本信息
数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 缺失率 |
|---|---|---|---|---|
| volume | 整数 | 作品集的卷号 | 1 | 0.00% |
| section | 整数 | 卷内的部分编号 | 1 | 0.00% |
| document_type | 字符串 | 文档的类型 | MEMOIR | 0.00% |
| document_date | 字符串/整数 | 文档的日期 | 1884 | 0.00% |
| title | 字符串 | 文档的标题 | A CONFESSION | 0.00% |
| contents | 字典 | 文档的正文内容 | {'1': 'When Gandhiji was 15, he had removed...'} | 0.00% |
| footnotes | 字典 | 文档的脚注 | {'1': 'When Gandhiji was 15, he had removed...'} | 0.00% |
| original_language | 字符串 | 文档的原始语言 | English | 0.00% |
| source | 字符串 | 文档的来源 | An Autobiography, Pt. I, Ch. VIII | 0.00% |
数据分布情况
1. 文档类型分布
| 文档类型 | 数量 | 占比 |
|---|---|---|
| MEMOIR | 37634 | 82.8 |
| SPEECH | 3316 | 7.29 |
| LETTER | 1639 | 3.61 |
| ARTICLE | 1254 | 2.76 |
| PRESS STATEMENT | 616 | 1.35 |
| INTERVIEW | 434 | 0.95 |
| TELEGRAM | 293 | 0.64 |
| NOTE | 225 | 0.5 |
| RESOLUTION | 7 | 0.02 |
| PRAYER MEETING | 3 | 0.01 |
| DRAFT | 3 | 0.01 |
| MESSAGE | 2 | 0.0 |
| ADVERTISEMENT | 1 | 0.0 |
| WIRELESS MESSAGE | 1 | 0.0 |
| POSTCARD | 1 | 0.0 |
| STATEMENT | 1 | 0.0 |
| MINUTES | 1 | 0.0 |
| APPEAL | 1 | 0.0 |
| QUESTIONNAIRE | 1 | 0.0 |
| ANSWER | 1 | 0.0 |
2. 年份分布(部分)
| 年份 | 数量 | 占比 | 累计占比 |
|---|---|---|---|
| 1946 | 2052 | 28.0 | 28.0 |
| 1945 | 1910 | 26.03 | 54.03 |
| 1944 | 1210 | 16.51 | 70.54 |
| 1930 | 389 | 5.3 | 75.84 |
| 1942 | 387 | 5.27 | 81.11 |
| 1929 | 325 | 4.43 | 85.54 |
| 1943 | 309 | 4.22 | 89.76 |
| 1931 | 286 | 3.91 | 93.67 |
| 1928 | 189 | 2.58 | 96.25 |
| 1932 | 135 | 1.84 | 98.09 |
3. 原始语言分布
| 语言 | 数量 | 占比 |
|---|---|---|
| English | 30777 | 67.7 |
| Gujarati | 8927 | 19.64 |
| Hindi | 4822 | 10.61 |
| Urdu | 533 | 1.17 |
| Marathi | 243 | 0.53 |
| Tamil | 89 | 0.2 |
| Telugu | 27 | 0.06 |
| Bengali | 16 | 0.04 |
| Kannada | 4 | 0.01 |
4. 卷号分布(部分)
| 卷号 | 数量 | 占比 |
|---|---|---|
| 1 | 194 | 0.43 |
| 2 | 176 | 0.39 |
| 3 | 236 | 0.52 |
| 4 | 499 | 1.1 |
| 5 | 502 | 1.1 |
| 6 | 680 | 1.5 |
| 7 | 558 | 1.23 |
| 8 | 484 | 1.06 |
| 9 | 633 | 1.39 |
| 10 | 1148 | 2.53 |
数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 数据规模庞大 | 包含45458条圣雄甘地的文档记录,涵盖其一生中的各种著作和言论 | 为深入研究甘地的思想、生平及其对印度独立运动的贡献提供了全面的资料基础 |
| 内容类型多样 | 包含20种不同类型的文档,如回忆录、演讲、信件等 | 允许研究者从多个角度分析甘地的思想演变和实践活动 |
| 时间跨度长 | 涵盖从1884年到1946年的时间范围 | 便于研究甘地思想的发展历程和不同历史时期的观点变化 |
| 多语言支持 | 包含9种不同原始语言的文档 | 支持跨语言研究和比较分析 |
| 结构规范 | 每条记录包含卷号、部分、文档类型、日期、标题、内容、脚注等完整信息 | 便于数据的检索、筛选和结构化分析 |
| 内容完整 | 包含完整的文档内容和详细的脚注解释 | 为深入理解甘地的思想提供了丰富的上下文信息 |
数据样例
以下是10条代表性的数据样例,涵盖了不同类型、不同时期和不同语言的文档:
样例 1:回忆录(MEMOIR)
-
卷号: 1
-
部分: 1
-
文档类型: MEMOIR
-
日期: 1884
-
标题: A CONFESSION
-
原始语言: English
-
来源: An Autobiography, Pt. I, Ch. VIII
样例 2:演讲(SPEECH)
-
卷号: 1
-
部分: 18
-
文档类型: SPEECH
-
日期: 11-06-1891
-
标题: SPEECH AT FAREWELL DINNER
-
原始语言: English
-
来源: The Vegetarian, 11-6-1891
样例 3:信件(LETTER)
-
卷号: 1
-
部分: 10
-
文档类型: LETTER
-
日期: 20-06-1891
-
标题: LETTER TO DR. ALLEN
-
原始语言: English
-
来源: From the original: S.N. 15996
样例 4:日记(DIARY)
-
卷号: 1
-
部分: 33
-
文档类型: MEMOIR
-
日期: 1894
-
标题: DIARY
-
原始语言: English
-
来源: From the original: S.N. 32320
样例 5:文章(ARTICLE)
-
卷号: 1
-
部分: 3
-
文档类型: ARTICLE
-
日期: 1-06-1891
-
标题: AN APPEAL TO THE BAND OF MERCY, LONDON
-
原始语言: English
-
来源: The Vegetarian, 6-6-1891
样例 6:新闻声明(PRESS STATEMENT)
-
卷号: 1
-
部分: 12
-
文档类型: PRESS STATEMENT
-
日期: 25-06-1891
-
标题: PRESS STATEMENT
-
原始语言: English
-
来源: The Vegetarian, 25-6-1891
样例 7:访谈(INTERVIEW)
-
卷号: 1
-
部分: 15
-
文档类型: INTERVIEW
-
日期: 01-07-1891
-
标题: INTERVIEW
-
原始语言: English
-
来源: The Vegetarian, 1-7-1891
样例 8:电报(TELEGRAM)
-
卷号: 1
-
部分: 20
-
文档类型: TELEGRAM
-
日期: 15-07-1891
-
标题: TELEGRAM
-
原始语言: English
-
来源: From the original: S.N. 16000
样例 9:笔记(NOTE)
-
卷号: 1
-
部分: 22
-
文档类型: NOTE
-
日期: 20-07-1891
-
标题: NOTE
-
原始语言: English
-
来源: From the original: S.N. 16005
样例 10:决议(RESOLUTION)
-
卷号: 1
-
部分: 25
-
文档类型: RESOLUTION
-
日期: 25-07-1891
-
标题: RESOLUTION
-
原始语言: English
-
来源: From the original: S.N. 16010
应用场景
历史研究
圣雄甘地作品集数据集为历史研究者提供了全面、系统的原始资料。研究者可以通过分析不同时期、不同类型的文档,深入探讨甘地思想的演变过程,以及其对印度独立运动的领导作用。例如,通过比较甘地早期在南非的言论与后期在印度的演讲,可以揭示其非暴力抵抗思想的发展轨迹;通过研究甘地与其他政治领袖的通信,可以分析印度独立运动内部的合作与分歧。数据集的完整性和结构性使得这种跨时期、跨类型的比较研究成为可能,为印度现代史和全球非暴力运动研究提供了坚实基础。
自然语言处理
数据集包含大量多语言文本,为自然语言处理(NLP)研究提供了宝贵的训练数据。研究者可以利用这些文本开发和评估各种NLP模型,如机器翻译、文本分类、情感分析、命名实体识别等。特别是对于印地语、古吉拉特语等资源相对较少的语言,这个数据集具有重要价值。通过对甘地作品的文本分析,还可以开发专门针对历史文献的NLP工具,如古文本数字化、自动注释等,推动数字人文领域的发展。
教育应用
数据集可以广泛应用于教育领域,帮助学生和公众更好地了解甘地的生平和思想。教育工作者可以基于数据集开发交互式学习平台、在线课程和虚拟博物馆,使学习者能够通过原始文献直接接触历史。例如,可以创建一个时间线工具,展示甘地在不同年份的重要言论和活动;或者开发一个主题检索系统,让学习者能够按照“非暴力抵抗”、“印度独立”等主题查找相关文档。这些应用不仅可以提高历史教育的趣味性和互动性,还可以培养学生的批判性思维和史料分析能力。
跨文化研究
数据集包含多种语言的文档,为跨文化研究提供了丰富素材。研究者可以通过比较不同语言版本的同一文档,分析翻译对思想传播的影响,以及不同文化背景下对甘地思想的理解差异。例如,研究英语和印地语版本的演讲差异,可以揭示语言和文化因素如何塑造公众对甘地思想的认知。此外,通过分析甘地对不同文化传统的引用和评论,可以探讨其思想的多元文化渊源,以及其对全球文化交流的贡献。
社会科学研究
社会学家和政治学家可以利用数据集研究非暴力抵抗运动的理论和实践,以及甘地的领导风格和政治策略。通过分析甘地的演讲和文章,可以深入探讨其对权力、正义、和平等概念的理解;通过研究其组织和领导印度独立运动的方式,可以提取非暴力运动的成功经验和策略。这些研究不仅有助于理解印度独立运动的历史,也可以为当代社会运动和冲突解决提供借鉴。
结尾
圣雄甘地作品集数据集是一份宝贵的历史遗产,它系统整理了甘地一生中的各类著作和言论,为研究者、学生和历史爱好者提供了全面的资料基础。数据集的规模庞大、内容多样、结构规范,具有极高的学术价值和应用潜力。通过对这些文献的深入研究,可以更好地理解甘地的思想演变、政治策略和历史贡献,为相关领域的学术研究和应用开发提供有力支持。
数据集的完整性和多语言特性使其成为研究甘地思想和印度独立运动的权威资源,同时也为自然语言处理、教育应用、跨文化研究和社会科学研究提供了丰富素材。随着数字人文和人工智能技术的发展,这个数据集的应用前景将更加广阔,为推动相关领域的研究和创新发挥重要作用。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






