# 巴尔扎克《人间喜剧》全本数据集:法语原文与人物关系网络分析资源
## 引言与背景
奥诺雷·德·巴尔扎克的《人间喜剧》是19世纪法国文学的巅峰之作,也是世界文学史上最宏伟的小说创作之一。这部巨著通过近百部作品构建了一幅19世纪法国社会的全景图,涵盖了从贵族到平民的各个阶层,展现了当时社会的政治、经济、文化和人际关系。《人间喜剧》不仅具有极高的文学价值,也是研究19世纪法国社会历史的重要资料。
本数据集提供了《人间喜剧》的完整法语原文文本、人物信息、作品信息以及人物与作品之间的关系网络数据。数据集包含86个文本文件(含序言和65部主要作品)、2个关系网络CSV文件(nodes.csv和links.csv)以及1个人物谱系PDF文件。这些资源为文学研究、计算语言学分析、社会网络分析和文化遗产数字化提供了丰富的素材。
对于科研领域,该数据集可用于研究巴尔扎克的创作风格、人物塑造技巧、作品间的关联性以及19世纪法国社会的语言特征。对于算法训练,该数据集可用于自然语言处理、文本分类、命名实体识别、关系抽取等任务。对于行业应用,该数据集可用于数字人文项目、文学教育平台、文化旅游产品开发等领域。
## 数据基本信息
### 数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|---------|
| id | 整数 | 节点唯一标识符 | 0 | 100% |
| nom | 字符串 | 节点名称(人物姓名或作品名称) | "général marquis Victor d'Aiglemont" | 100% |
| groupe | 整数 | 节点类型(1=人物,2=作品) | 1 | 100% |
| character_id | 整数 | 人物节点ID | 0 | 100% |
| work_id | 整数 | 作品节点ID | 50 | 100% |
### 数据分布情况
#### 节点类型分布
| 节点类型 | 数量 | 占比 |
|---------|------|------|
| 人物 | 50 | 43.1% |
| 作品 | 65 | 56.9% |
| 总计 | 115 | 100% |
#### 人物活跃度分布(前10名)
| 人物姓名 | 出现作品数 | 占作品总数比例 |
|---------|-----------|--------------|
| Horace Bianchon | 28 | 43.1% |
| comte Henri de Marsay | 25 | 38.5% |
| baron Frédéric de Nucingen | 24 | 36.9% |
| Eugène-Louis de Rastignac | 23 | 35.4% |
| Jean-Baptiste Bixiou | 21 | 32.3% |
| Diane de Maufrigneuse | 20 | 30.8% |
| Raoul Nathan | 19 | 29.2% |
| Joseph Bridau | 18 | 27.7% |
| comte Clément Chardin des Lupeaulx | 17 | 26.2% |
| Gabriel-Jean-Anne-Victor-Benjamin-Georges-Ferdinand-Charles Edouard Rusticoli - comte de La Palférine | 16 | 24.6% |
#### 作品人物密度分布(前10名)
| 作品名称 | 人物数量 | 占人物总数比例 |
|---------|---------|--------------|
| Splendeurs et Misères des courtisanes | 15 | 30.0% |
| La Cousine Bette | 14 | 28.0% |
| Illusions Perdues | 13 | 26.0% |
| La Maison du chat-qui-pelote | 12 | 24.0% |
| Un début dans la vie | 11 | 22.0% |
| Histoire de la grandeur et de la décadence de César Birotteau | 10 | 20.0% |
| Le père Goriot | 9 | 18.0% |
| La Duchesse de Langeais | 8 | 16.0% |
| Modeste Mignon | 8 | 16.0% |
| Les Secrets de la princesse de Cadignan | 8 | 16.0% |
### 数据规模与格式
- 文本文件:86个,格式为.txt,编码为Latin-1,总字数约为1000万词
- CSV文件:2个,格式为.csv,编码为UTF-8
- nodes.csv:115行,3列
- links.csv:553行,2列
- PDF文件:1个,格式为.pdf,包含人物谱系信息
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 完整性 | 包含《人间喜剧》的序言和65部主要作品的完整法语原文 | 支持全本分析、比较研究和文本挖掘 |
| 结构化 | 提供人物、作品及其关联关系的结构化数据 | 支持社会网络分析、人物关系可视化和作品关联研究 |
| 多格式 | 包含文本、CSV和PDF多种格式 | 满足不同研究需求,支持跨格式分析 |
| 权威性 | 基于巴尔扎克的原著,无内容篡改 | 保证研究结果的准确性和可靠性 |
| 学术价值 | 涵盖19世纪法国社会的各个层面 | 支持文学研究、历史研究和文化研究 |
## 数据样例
### 文本文件样例(《人间喜剧》序言节选)
AVANT-PROPOS.
En donnant à une œuvre entreprise depuis bientôt treize ans, le titre de la Comédie humaine, il est nécessaire d'en dire la pensée, d'en raconter l'origine, d'en expliquer brièvement le plan, en essayant de parler de ces choses comme si je n'y étais pas intéressé. Ceci n'est pas aussi difficile que le public pourrait le penser. Peu d'œuvres donne beaucoup d'amour-propre, beaucoup de travail donne infiniment de modestie.### 人物数据样例(nodes.csv节选)
| id | nom | groupe |
|----|-----|--------|
| 0 | général marquis Victor d'Aiglemont | 1 |
| 1 | marquis Miguel d'Ajuda-Pinto | 1 |
| 2 | Horace Bianchon | 1 |
| 3 | Jean-Jacques Bixiou | 1 |
| 4 | père Blondet | 1 |
### 作品数据样例(nodes.csv节选)
| id | nom | groupe |
|----|-----|--------|
| 50 | La femme de trente ans | 2 |
| 51 | La Maison Nucingen | 2 |
| 52 | Histoire de la grandeur et de la décadence de César Birotteau | 2 |
| 53 | Un début dans la vie | 2 |
| 54 | La Cousine Bette | 2 |
### 人物-作品关系样例(links.csv节选)
| character_id | work_id |
|-------------|---------|
| 0 | 50 |
| 0 | 51 |
| 0 | 52 |
| 0 | 53 |
| 0 | 54 |
## 应用场景
### 文学研究与文本分析
该数据集可用于深入研究巴尔扎克的创作风格、叙事技巧和人物塑造方法。通过对全本文本的分析,可以揭示巴尔扎克作品中的主题演变、语言特征和文学手法。研究人员可以比较不同作品中的人物形象、情节结构和社会背景,探讨《人间喜剧》作为一个整体的艺术统一性和多样性。此外,该数据集还可用于研究19世纪法国文学的发展脉络和特点,以及巴尔扎克对后世文学的影响。
### 计算语言学与自然语言处理
该数据集为计算语言学和自然语言处理研究提供了丰富的素材。研究人员可以利用这些文本进行法语语料库构建、词性标注、命名实体识别、句法分析等基础NLP任务。同时,该数据集还可用于训练和评估文本分类、情感分析、机器翻译、文本生成等高级NLP模型。特别是人物关系网络数据,为关系抽取和知识图谱构建提供了宝贵的标注数据。
### 社会网络分析与可视化
通过人物-作品关系网络数据,可以构建《人间喜剧》的人物关系网络,分析人物之间的关联程度和影响力。研究人员可以识别网络中的核心人物(如出现频率最高的Horace Bianchon和comte Henri de Marsay)、人物社区结构以及作品之间的关联性。这种分析不仅有助于理解巴尔扎克的创作构思,也为社会网络理论在文学研究中的应用提供了案例。可视化这些网络可以直观地展示《人间喜剧》的人物关系结构,为文学教学和文化传播提供生动的素材。
### 数字人文与文化遗产数字化
该数据集可用于数字人文项目的开发,如构建《人间喜剧》的数字图书馆、交互式阅读平台和文化遗产展示系统。通过整合文本、人物关系和谱系信息,可以为读者提供沉浸式的阅读体验,帮助他们理解作品中的人物关系和社会背景。此外,该数据集还可用于开发文化旅游产品,如基于《人间喜剧》的巴黎文学地图,将文学作品与现实地理位置结合起来,促进文化旅游的发展。
### 教育与普及应用
该数据集可用于文学教育和文化普及工作。教师可以利用这些资源设计文学课程、组织阅读活动和开展研究性学习。学生可以通过分析文本和人物关系,深入理解《人间喜剧》的内容和意义。此外,该数据集还可用于开发文学教育软件和应用程序,如词汇学习工具、阅读理解练习和文学知识测验,提高学习效率和兴趣。
## 结尾
巴尔扎克《人间喜剧》全本数据集是一个集文学价值、历史价值和研究价值于一体的综合性资源。它不仅提供了《人间喜剧》的完整法语原文,还包含了结构化的人物信息、作品信息和人物关系网络数据,为文学研究、计算语言学分析、社会网络研究和文化遗产数字化提供了丰富的素材。
该数据集的核心优势在于其完整性、结构化和多格式特性,支持多种研究方法和应用场景。无论是文学学者、语言学家、社会科学家还是数字人文研究者,都可以从这个数据集中获得有价值的信息和见解。
作为19世纪法国社会的百科全书,《人间喜剧》通过这个数字化数据集获得了新的生命,为当代人理解和研究这部文学巨著提供了便捷的途径。随着数字技术的不断发展,这个数据集的应用前景将更加广阔,为文学研究和文化传承做出更大的贡献。
注意:该数据集为法语原文,使用前需注意编码问题(文本文件为Latin-1编码,CSV文件为UTF-8编码)。看了又看
验证报告
以下为卖家选择提供的数据验证报告:








