wnx

verify-tagBoithos-RS1D圣经翻译平行语料数据集-55种南岛语系圣经翻译文本含希腊语与希伯来语原始语言版本支持低资源语言机器翻译与跨语言语义理解研究

圣经翻译平行语料南岛语系圣经翻译文本希腊语希伯来语

9.9

137.56MB

数据标识:D17827279091114159

发布时间:2026/06/29

# Boithos-RS1D圣经翻译平行语料数据集-55种南岛语系圣经翻译文本含希腊语与希伯来语原始语言版本支持低资源语言机器翻译与跨语言语义理解研究

## 引言与背景

圣经翻译是自然语言处理领域的重要研究方向,涉及多语言文本、复杂语义和文化背景的理解。Boithos RS1D数据集是一个专门为圣经自然语言处理研究而构建的高质量平行语料库,包含55种南岛语系(主要是印尼和菲律宾地方语言)的圣经翻译文本,以及希腊语和希伯来语的原始版本。该数据集为研究多语言机器翻译、跨语言语义理解和低资源语言处理提供了宝贵资源。

数据集采用按节排列的格式,每行对应圣经的一个章节,便于进行平行语料研究和跨语言对比分析。原始文本来自eBible.org和BibleNLP的ebible-corpus,经过清理和标准化处理,移除了伪经书籍的内容,确保了数据的一致性和可用性。这使得该数据集成为开发圣经NMT软件和进行相关学术研究的理想数据基础。

## 数据基本信息

### 数据集概览

| 项目 | 描述 |
|------|------|
| 文件数量 | 73个文本文件 |
| 翻译数量 | 55种南岛语系语言 |
| 原始语言 | 5种(希腊语、希伯来语) |
| 数据格式 | TXT(按节排列) |
| 总记录数 | 约2088390行 |
| 单行记录数 | 约31170行/翻译文件 |

### 文件结构

| 文件类型 | 数量 | 描述 | 示例 |
|----------|------|------|------|
| 翻译文本 | 55 | 各语言圣经翻译 | abpABP.txt, ifyify.txt |
| 原始文本 | 5 | 希腊语/希伯来语原文 | grcgrcbrenttisch.txt, hbohbogrcgrctisch.txt |
| 引用文件 | 6 | 修改后的章节引用 | grcgrcbrenttisch.ref.txt |
| 空行文件 | 6 | 移除的空章节 | grcgrcbrenttisch.eref.txt |
| 参考文件 | 1 | 修改后的通用引用 | modvref.txt |

### 核心字段说明

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|----------|----------|----------|----------|----------|
| 文件标识 | string | 语言代码标识 | abpABP, ifyify | 100% |
| 章节文本 | string | 圣经章节内容 | In the beginning... | 100% |
| 语言类型 | string | 翻译/原始语言 | Translation, Original | 100% |
| 章节引用 | string | 章节编号 | Gen 1:1 | 100% |

### 数据分布情况

#### 语言类型分布

| 类型 | 数量 | 占比 |
|------|------|------|
| 南岛语系翻译 | 55种 | 91.7% |
| 原始语言版本 | 5种 | 8.3% |
| 合计 | 60种 | 100.0% |

#### 文件类型分布

| 文件类型 | 数量 | 占比 |
|----------|------|------|
| 翻译文本文件 | 55 | 75.3% |
| 原始文本文件 | 5 | 6.8% |
| 引用文件 | 6 | 8.2% |
| 空行文件 | 6 | 8.2% |
| 参考文件 | 1 | 1.4% |
| 合计 | 73 | 100.0% |

#### 主要原始语言版本

| 标识 | 描述 |
|------|------|
| grcgrcbrenttisch | Brenton七十士译本与Tischendorf第8版混合 |
| grcgrcbrentmt | Brenton七十士译本与2000年修订版混合 |
| hbohbogrcgrctisch | 马所拉文本与Tischendorf第8版混合 |
| hbohbogrcgrcmt | 马所拉文本与2000年修订版混合 |
| hbohbowlcgrcgrctisch | 威斯敏斯特列宁格勒抄本与Tischendorf第8版混合 |

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|----------|----------|----------|
| 语言多样 | 55种南岛语系语言,涵盖印尼和菲律宾地方语言 | 支持低资源语言NLP研究 |
| 原始完整 | 包含希腊语七十士译本和希伯来语马所拉文本 | 支持跨语言语义对齐和原文对照 |
| 平行语料 | 同一章节有多种语言翻译,形成丰富的平行语料库 | 支持多语言机器翻译模型训练 |
| 格式统一 | 按节排列,每行一节,结构清晰 | 便于数据预处理和对齐 |
| 数据量大 | 约208万行记录,覆盖完整圣经内容 | 支持大规模深度学习模型训练 |
| 质量可靠 | 数据经过清理,移除伪经和空行 | 保证训练数据的质量 |

## 数据样例

### 翻译文本样例

| 文件 | 语言代码 | 行数 | 描述 |
|------|----------|------|------|
| abpABP.txt | abp | 31170 | 阿布拉语圣经翻译 |
| ifyify.txt | ify | 31170 | Ifugao语圣经翻译 |
| aazaaz.txt | aaz | 31170 | Ata语言圣经翻译 |
| agnagn.txt | agn | 31170 | Agta语言圣经翻译 |
| attatt.txt | att | 31170 | Atta语言圣经翻译 |

### 原始文本样例

| 文件 | 描述 | 行数 |
|------|------|------|
| grcgrcbrenttisch.txt | 希腊语七十士译本混合版 | 31170 |
| hbohbogrcgrctisch.txt | 希伯来语马所拉文本混合版 | 31170 |
| grcgrcbrentmt.txt | 希腊语七十士译本与修订版混合 | 31170 |

## 应用场景

### 低资源语言机器翻译

基于该数据集,可以开展低资源语言机器翻译研究。数据集中包含55种南岛语系语言的圣经翻译,其中许多是使用人数较少的地方语言,属于典型的低资源语言。通过构建这些语言与希腊语、希伯来语或英语之间的平行语料库,可以训练高质量的机器翻译模型。这不仅有助于打破语言障碍,促进跨文化交流,还能为保护和传承地方语言文化提供技术支持。

### 跨语言语义理解

数据集支持跨语言语义理解研究。通过比较不同语言版本的同一圣经章节,可以分析语义在不同语言中的表达差异和对应关系。这对于开发跨语言语义匹配模型、实现多语言信息检索和问答系统具有重要价值。此外,通过分析原文与翻译之间的语义映射关系,可以深入了解翻译过程中的语义保留和转换规律,为机器翻译的评估和优化提供理论支持。

### 圣经自然语言处理研究

数据集可以用于圣经自然语言处理研究。圣经文本具有独特的语言特征和复杂的语义结构,通过分析多种语言版本的圣经文本,可以深入了解宗教文本的语言规律和文化内涵。这对于开发专门针对宗教文本的NLP模型、实现智能圣经检索系统和辅助翻译工具具有重要应用价值。此外,研究圣经文本的结构特征和语言模式,还可以为其他领域的文本分析提供借鉴。

### 多语言文本对齐

数据集可以用于多语言文本对齐研究。通过分析同一章节的多种语言翻译,可以开发精确的文本对齐算法和工具。这对于构建高质量的多语言平行语料库、支持对比语言学研究和跨语言信息检索具有重要参考价值。对齐后的文本还可以用于训练多语言语言模型,提高模型在不同语言之间的迁移能力。

## 结尾

本数据集是一个高质量的Boithos-RS1D圣经翻译平行语料数据集,包含55种南岛语系语言的圣经翻译和5种原始语言版本,总计约208万行记录。数据集具有语言多样、原始完整、平行语料丰富等优点,为低资源语言机器翻译、跨语言语义理解和圣经自然语言处理研究提供了宝贵的数据资源。

数据集采用按节排列的TXT格式,便于进行数据预处理和分析。用户可以根据实际需求选择合适的数据子集进行研究,也可以结合业务知识对数据进行进一步的工程处理。

如有需要,可获取更多数据集相关信息。

看了又看

验证报告

以下为卖家选择提供的数据验证报告:

data icon
Boithos-RS1D圣经翻译平行语料数据集-55种南岛语系圣经翻译文本含希腊语与希伯来语原始语言版本支持低资源语言机器翻译与跨语言语义理解研究
9.9
137.56MB
申请报告