# 低资源语言机器翻译数据集:60万句对古希腊语圣经文本、Marian NMT格式、含BPE分词与完整词表、支持多语言变体、适用于NLP算法训练
## 引言与背景
在全球范围内,语言多样性保护与文化交流日益受到重视。然而,据估计,世界上绝大多数语言属于低资源语言,可用的数字化文本资源极为有限,这对自然语言处理(NLP)和机器翻译(MT)技术的发展构成了严峻挑战。宗教经典文献,如《圣经》,作为人类历史上翻译版本最多、覆盖语言最广的文本之一,为低资源语言的机器翻译研究提供了独特且宝贵的语料库。基于宗教文本的平行语料不仅具有稳定的语义和丰富的表达,还包含特定领域的专业词汇和文化语境,对于构建高质量的翻译系统具有重要的研究价值和应用意义。
本数据集是一个精心构建的低资源语言机器翻译平行语料库,旨在支持从源语言(古希腊语)到多种目标语言变体的翻译研究。数据集基于 Marian NMT(神经机器翻译)框架格式进行组织,包含约 60 万句对的训练数据和 1.1 万句对的验证数据,并配套完整的 BPE(字节对编码)分词规则、源语言与目标语言的词表文件以及原始文本数据。这些内容构成了一个完整的机器翻译数据处理流水线,使得研究人员和开发者能够直接用于模型训练和算法研发,无需从零开始进行数据预处理工作。
数据集的完整内容构成包括:原始文本文件(trans-raw 目录下的5个源文本文件)、训练数据分片文件(train-data 目录下的二进制数据)、验证数据文件(valid-data 目录下的源语言与目标语言文本)、BPE 编码规则文件、源语言与目标语言的词表文件(JSON 格式)、以及数据预处理的配置文件和日志。这种完整的数据组织方式对科研和算法训练具有极高的实用价值,研究人员可以直接利用预分词、预分桶的数据快速开展模型实验,节省大量的数据准备时间,同时原始文本的保留使得数据可以灵活适配不同的分词方案和模型架构。
## 数据基本信息
### 数据集字段说明
本数据集采用 Marian NMT 标准格式,源语言和目标语言文件均为纯文本格式,每行一个翻译句对。以下是数据文件的字段说明:
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|----------|----------|----------|----------|--------|
| src_id | 字符串 | 源语言标识符,包含语言变体信息 | TGT_uryury | 100%(11520/11520) |
| src_text | 字符串 | 源语言文本内容(含BPE分词标记) | E@@ N arkhe epoiesen o Theos ton ouranon kai ten gen . | 100%(11520/11520) |
| tgt_id | 字符串 | 目标语言标识符(部分数据有变体标签) | 无前缀或Hwena、Gusti等 | 100%(11520/11520) |
| tgt_text | 字符串 | 目标语言文本内容 | Kristus Yesus, Zen teipsin zini Daud Bak mo Auyan-tane. | 100%(11520/11520) |
| bpe_tokens | 列表 | BPE分词后的子词单元 | [E@@, N, arkhe, epoiesen, ...] | 100%(已预处理) |
### 数据统计分布
#### 整体数据规模
| 数据类别 | 文件数量 | 样本数量 | 总Token数 | 文件大小 |
|----------|----------|----------|-----------|----------|
| 原始文本数据(trans-raw) | 5 | 149,216 | 未统计 | 约22MB |
| 训练数据(train-data) | 1分片 | 592,326(有效) | 源: 17,235,383 / 目标: 22,877,264 | 约199MB |
| 验证数据(valid-data) | 2 | 11,520 | 源: 229,807 / 目标: 401,510 | 约1MB |
| BPE编码规则 | 1 | - | 45,001条规则 | 约0.1MB |
| 源语言词表 | 1 | 40,497词元 | - | 823KB |
| 目标语言词表 | 1 | 40,497词元 | - | 823KB |
#### 源语言序列长度分布(验证数据)
| 长度区间(词数) | 序列数量 | 占比 | 累计占比 |
|------------------|----------|------|----------|
| 1-10 | 924 | 8.02% | 8.02% |
| 11-20 | 5,716 | 49.62% | 57.64% |
| 21-30 | 3,852 | 33.44% | 91.08% |
| 31-40 | 930 | 8.07% | 99.15% |
| 41-50 | 88 | 0.76% | 99.91% |
| 51-60 | 10 | 0.09% | 100.00% |
| 合计 | 11,520 | 100% | - |
#### 目标语言序列长度分布(验证数据)
| 长度区间(词数) | 序列数量 | 占比 | 累计占比 |
|------------------|----------|------|----------|
| 1-10 | 404 | 3.51% | 3.51% |
| 11-20 | 1,962 | 17.03% | 20.54% |
| 21-30 | 3,152 | 27.36% | 47.90% |
| 31-40 | 2,555 | 22.18% | 70.08% |
| 41-50 | 1,589 | 13.79% | 83.87% |
| 51-60 | 835 | 7.25% | 91.12% |
| 61+ | 1,023 | 8.88% | 100.00% |
| 合计 | 11,520 | 100% | - |
#### 源语言变体分布(验证数据)
源语言数据包含多种语言变体,通过前缀标签进行区分,主要分布如下:
| 变体标签 | 序列数量 | 占比 |
|----------|----------|------|
| TGT_uryury | 6,483 | 56.28% |
| TGT_jvnjvnNT | 4,766 | 41.37% |
| TGT_bjnbjn | 271 | 2.35% |
| 合计 | 11,520 | 100% |
### 数据特点总结
本数据集具有以下核心特征:数据类型为平行语料库,涵盖源语言(古希腊语及变体)到目标语言(多种低资源语言变体)的翻译对。数据格式包含 Marian NMT 标准训练格式(二进制分片文件)、纯文本验证数据以及原始文本文件。标注信息以行级对齐方式呈现,每行对应一个完整的翻译句对,源端和目标端通过行号一一对应。覆盖领域为宗教文本(圣经),包含创世纪、马太福音等经典章节。值得注意的是,目标语言的平均句子长度(34.9词)显著长于源语言(19.9词),这反映了两种语言在表达风格和语法结构上的差异,为研究不同语言间的翻译对等性提供了有价值的研究素材。
## 数据优势
本数据集在多个维度上具有显著优势,特别是针对低资源语言机器翻译研究的特殊需求,提供了一套完整且高质量的数据解决方案。
| 优势特征 | 具体表现 | 应用价值 |
|----------|----------|----------|
| 完整原始文件保留 | 包含5个原始文本文件,共计149,216行未预处理的源语言数据,可灵活适配不同的分词方案和模型架构 | 支持研究人员自定义数据预处理流程,适用于新模型架构的快速实验,避免了重复数据采集的成本 |
| 多种语言变体支持 | 数据集包含至少3种源语言变体(uryury、jvnjvnNT、bjnbjn),覆盖不同的翻译版本或方言变体 | 可用于多任务学习、迁移学习研究,支持针对不同目标人群的定制化翻译模型训练 |
| 完整的BPE预处理 | 提供45,001条BPE分词规则,词表大小为40,497,源语言覆盖率达到100%,无未知词(unk=0) | 开箱即用的预处理数据大幅降低使用门槛,消除OOV(词汇外)问题,提升模型训练的效率和质量 |
| 大规模高质量平行语料 | 训练数据约60万句对(有效592,326对),训练Token超过4000万,验证数据1.1万句对,数据经过专业预处理 | 足以训练中等规模的神经机器翻译模型,为算法研发提供充足的数据支撑 |
| Marian NMT标准格式 | 数据已按分桶策略组织,序列最大长度96词,分12个桶,可直接用于Marian NMT框架训练 | 研究人员可立即启动模型训练,无需额外的数据格式转换工作,显著加速研发进程 |
| 领域特定性 | 专注于宗教文本领域,包含稳定的语义结构和丰富的专业表达,源语言与目标语言间存在显著的长度差异 | 为特定领域的翻译研究提供高质量基准,有助于探索领域自适应的翻译算法 |
| 标准化词表文件 | 源语言和目标语言词表均以JSON格式提供,共享词表设计(shared_vocab=true),便于模型嵌入层的初始化 | 支持研究人员快速加载词表配置,简化模型设计工作流 |
## 数据样例
以下展示本数据集的典型样例,涵盖不同类型的数据内容。由于训练数据分片文件(二进制格式)体积较大,无法直接在文档中展示原始内容,但实际数据集中包含完整的训练数据分片文件(约199MB),可供直接用于模型训练。
### 样例1:原始文本数据样例(trans-raw)
文件:src.bjnbjn.txt(BPE分词后的源语言文本,带有变体标签)| 序号 | 内容 |
|------|------|
| 1 | TGT_bjnbjn E@@ N arkhe epoiesen o Theos ton ouranon kai ten gen . |
| 2 | TGT_bjnbjn E de ge en a@@ ora@@ tos kai a@@ kata@@ skeu@@ as@@ tos , kai skotos epano tes abus@@ sou * kai pneuma Theou epe@@ phere@@ to epano tou udatos . |
| 3 | TGT_bjnbjn Kai eipen o Theos , genetheto phos * kai egeneto phos . |
| 4 | TGT_bjnbjn Kai eiden o Theos to phos , oti kalon * kai di@@ ekho@@ risen o Theos ana meson tou photos , kai ana meson tou skot@@ ous . |
| 5 | TGT_bjnbjn Kai ekalesen o Theos to phos emeran , kai to skotos ekalese nukta . Kai egeneto es@@ pera , kai egeneto proi , emera mia . |
| 序号 | 内容 |
|------|------|
| 1 | TGT_TEMPLATE E@@ N arkhe epoiesen o Theos ton ouranon kai ten gen . |
| 2 | TGT_TEMPLATE E de ge en a@@ ora@@ tos kai a@@ kata@@ skeu@@ as@@ tos , kai skotos epano tes abus@@ sou * kai pneuma Theou epe@@ phere@@ to epano tou udatos . |
| 3 | TGT_TEMPLATE Kai eipen o Theos , genetheto phos * kai egeneto phos . |
| 4 | TGT_TEMPLATE Kai eipen o Theos , exaga@@ ge@@ to ta udata er@@ peta psu@@ khon z@@ oson , kai peteina pe@@ to@@ mena epi tes ges kata to stere@@ oma tou ouranou * kai egeneto outos . |
| 5 | TGT_TEMPLATE Kai eipen o Theos , poiesomen anthropon kat ' eikona imeteran kai kath ' homoiosin . kai arxetosan ton ikhthun tes thalasses kai ton peteinon tou ouranou kai ton ktinion kai pasan ten gen . |
### 样例2:验证数据样例(valid-data)
源语言与目标语言对照样例(验证数据集)| 序号 | 源语言(src.txt) | 目标语言(tgt.txt) |
|------|------------------|---------------------|
| 1 | TGT_uryury Biblos geneseos Iesou Khristou uiou Daueid uiou Abraam . | Kristus Yesus , Zen teipsin zini Daud Bak mo Auyan-tane . Zeno auyan-aza mo ausuna , zen Abraham Bak onakon de aitbinkim kon gwesibir hanankam : |
| 2 | TGT_uryury Abraam egennesen ton Isaak , Isaak de egennesen ton Iakob , Iakob de egennesen ton Ioudan kai tous adelphous autou , | Abraham Isaksa we taka . Isak hwena Yakobsa we taka . Zen hwena beyana dua-blas enkam wei-wik gulku . Ahana bosena Yehuda , |
| 3 | TGT_uryury Ioudas de egennesen ton Phares kai ton Zara ek tes Thamar , Phares de egennesen ton Esrom , Esrom de egennesen ton Aram , | zen hwena Peres ne Zera neka we soka- wenya bosena Tamar hon . Hwena Peres zep Hezronsa we taka . Zen hwena Ramsa we taka . |
| 4 | TGT_uryury Aram de egennesen ton Aminadab , Aminadab de egennesen ton Naasson , Naasson de egennesen ton Salmon , | Ram hwena Aminadabsa we taka . Zen hwena Nahasonsa we taka . Zen hwena Salmonsa we taka . |
| 5 | TGT_uryury Salmon de egennesen ton Boes ek tes Rakhab , Boas hwena hwena we taka- Rut hon . Zen hwena Isaesa we taka . | Salmon hwena Boassa we taka- Rahab hon . Boas hwena Obedsa we taka- Rut hon . Zen hwena Isaesa we taka . |
| 6 | TGT_uryury Iessai de egennesen ton Daueid ton basilea . Daueid de egennesen ton Solomona ek tes tou Ouriou , | Isai hwena teipsin zini Daud Baksa we taka . Teipsin zini Daud Bak onakon hendep in kim Israel mo auyan-azasa Babel san dep asaskam kap nulhak- zao de lowehe gwen hap , zeno mae mo bosem-sesa de aitbinni an zen : Daud Salomosa we taka- Uria mo we nala Batsyeba hon . |
| 7 | TGT_uryury Solomon de egennesen ton Roboam , Roboam de egennesen ton Abia , Abia de egennesen ton Asaph , | Salomo hwena Rehabeyamsa we taka . Zen hwena Abiasa we taka . Abia hwena Asa Baksa we taka . |
| 8 | TGT_uryury Asaph de egennesen ton Iosaphat , Iosaphat de egennesen ton Ioram , Ioram de egennesen ton Ozeian , | Zen hwena Yosafatsa we taka . Hwena Yosafat Yoramsa we taka . Zen hwena Uzia Baksa we taka . |
| 9 | TGT_jvnjvnNT Kai eipen o Theos , genetheto phos * kai egeneto phos . | Gusti Allah ngandika , " Dadi ana cahya ! " Maka dadi ana cahya . |
| 10 | TGT_jvnjvnNT Kai ekalesen o Theos to phos emeran , kai to skotos ekalese nukta . Kai egeneto es@@ pera , kai egeneto proi , emera mia . | Gusti Allah ngandika cahya iku " Awan " , lan peteng iku ngandika " Wengi . " Maka dadi sore , lan dadi esuk , dina pisanan . |
### 样例3:BPE编码规则样例
以下展示部分BPE编码规则,这些规则用于将文本切分为子词单元,有效解决低资源语言的词汇外(OOV)问题:
| 序号 | BPE规则 | 说明 |
|------|---------|------|
| 1 | a n | 单字符到双字符的合并 |
| 2 | k a | 字符对编码 |
| 3 | n a | 字符对编码 |
| 4 | m a | 字符对编码 |
| 5 | a p | 字符对编码 |
| 6 | t a | 字符对编码 |
| 7 | l a | 字符对编码 |
| 8 | o s | 字符对编码 |
| 9 | e n | 字符对编码 |
| 10 | o n | 字符对编码 |
| 11 | apos ; | 特殊字符序列编码 |
| 12 | & apos; | HTML实体编码 |
| 13 | p a | 字符对编码 |
| 14 | b o | 字符对编码 |
| 15 | t n | 字符对编码 |
### 样例4:词表文件结构样例
词表以JSON格式提供,每个词元包含索引号和嵌入向量维度信息。以下是词表的部分结构示例:
json
{
"0": ["<pad>", 0],
"1": ["<unk>", 1],
"2": ["<s>", 2],
"3": ["</s>", 3],
"4": ["E", 4],
"5": ["N", 5],
"6": ["arkhe", 6],
"7": ["epoiesen", 7],
"8": ["Theos", 8],
"9": ["ton", 9]
}### 样例5:数据配置文件样例
以下是数据预处理的部分配置参数,展示了数据集的生成过程和参数设置:
| 参数名称 | 参数值 | 含义说明 |
|----------|--------|----------|
| source | data/bible.prep/train.src | 源语言训练数据路径 |
| target | data/bible.prep/train.tgt | 目标语言训练数据路径 |
| shared_vocab | true | 使用共享词表 |
| max_seq_len | [95, 95] | 最大序列长度 |
| bucket_width | 8 | 分桶宽度 |
| seed | 13 | 随机种子 |
| num_samples_per_shard | 10,000,000 | 每个分片的样本数 |
---
以上样例展示了数据集的多样性特征,覆盖了不同的数据类型、语言变体和章节内容。实际数据集中包含完整的原始文本文件、训练分片文件和验证数据文件,研究人员可以利用这些完整数据开展全面的机器翻译研究工作。
## 应用场景
### 低资源语言机器翻译模型训练与评估
本数据集最直接的应用场景是用于低资源语言神经机器翻译(NMT)模型的训练和基准评估。传统的机器翻译研究主要关注高资源语言对(如英语-法语、英语-中文等),而低资源语言对的研究由于缺乏高质量的平行语料库而进展缓慢。本数据集提供的约60万句对训练数据和1.1万句对验证数据,足以训练中等规模的Transformer或RNN-Based NMT模型。研究人员可以利用 Marian NMT 框架直接加载预处理好的数据分片文件,快速启动模型训练实验,无需进行耗时的数据准备工作。此外,数据集包含多种语言变体(如 uryury、jvnjvnNT、bjnbjn 等),这为研究人员提供了开展多任务学习和迁移学习的机会。例如,可以在主要语言变体上训练基础模型,然后在其他变体上进行微调,以探索跨语言变体的知识迁移效果。这种场景适用于学术界开展低资源语言翻译算法研究,也适用于工业界开发面向特定语言群体的翻译产品。
### 宗教文本数字化与本地化翻译研究
宗教经典文献的翻译与数字化是文化保护和传播的重要组成部分。《圣经》作为全球翻译版本最多的经典文本,为翻译研究提供了丰富的素材。本数据集以圣经文本为核心内容,涵盖了创世纪、马太福音等经典章节,源语言为古希腊语,目标语言为多种低资源语言。这种设置使得数据集特别适合用于研究古典文本到现代低资源语言的翻译问题。研究人员可以探索如何保留古典文本的语义准确性和文化内涵,同时确保目标语言表达的自然流畅性。此外,数据集包含完整的原始文本文件(trans-raw 目录下的5个文件,共149,216行),研究人员可以基于这些原始数据进行自定义的分词和预处理,以探索不同预处理策略对翻译质量的影响。这一应用场景不仅有助于推动宗教文本翻译的数字化进程,也为跨文化翻译研究提供了独特的视角和实证数据支持。
### BPE分词算法与词汇外问题研究
BPE(Byte-Pair Encoding)编码是解决低资源语言机器翻译中词汇外(OOV)问题的核心技术。本数据集提供了完整的45,001条BPE分词规则和两个大小为40,497的词表文件,源语言和目标语言的词汇覆盖率均达到100%,无未知词出现。这种高质量的BPE配置使得数据集成为研究分词算法效果和优化策略的理想测试平台。研究人员可以基于本数据集提供的BPE规则,对比不同BPE合并操作数量对翻译质量的影响,探索词表大小与模型性能之间的权衡关系。同时,数据集保留了BPE分词前的原始文本数据(trans-raw目录),研究人员可以自由设计和实验不同的分词策略,例如尝试SentencePiece、WordPiece等其他分词方法,并与本数据集的BPE方案进行对比。这一研究方向对于推进低资源语言NLP技术的发展具有重要意义,因为分词策略的选择直接影响模型的表达能力和泛化性能。
### 多语言变体翻译与迁移学习研究
数据集中包含的多种语言变体(TGT_uryury、TGT_jvnjvnNT、TGT_bjnbjn等)为多语言翻译研究提供了宝贵的数据支持。不同变体可能代表不同的翻译版本、方言变体或目标语言的不同表达形式,这种设置使得研究人员可以深入探索多语言变体间的翻译迁移机制。例如,可以研究在一种主变体(如uryury,占比56.28%)上训练的模型,如何有效地迁移到其他变体上;也可以探索多任务学习框架,同时在多种变体上训练,观察模型是否能够学习到更鲁棒的翻译特征。此外,目标语言中出现的本地化词汇(如Hwena、Gusti、Zen、Yesus等特定领域词汇)为研究人员提供了分析翻译等价性和文化适应性的丰富案例。这一应用场景适用于研究多语言NMT系统的架构设计、迁移学习策略的优化以及多语言翻译质量的评估方法等前沿课题。
### 翻译质量评估与算法创新
本数据集的验证集提供了1.1万句对的高质量翻译基准,研究人员可以利用这些数据对不同的翻译模型和算法进行客观评估。由于数据集经过了专业的预处理(包括BPE分词、分桶处理、长度过滤等),且源语言和目标语言的长度比为1:1.75(平均19.9词对34.9词),这种特定的语言特征为研究翻译算法的设计和优化提供了明确的方向。研究人员可以在此基础上开发新的翻译模型架构,例如设计针对长句翻译的注意力机制、研究语言长度比对模型性能的影响、探索领域自适应的翻译方法等。同时,数据集中不同章节内容的分布(涵盖叙事性文本、对话文本、法律性文本等多种风格)也为评估模型在不同文本类型上的表现提供了多样化的测试环境。这一应用场景有望推动机器翻译算法的创新和性能提升,特别是在低资源语言和特定领域翻译方面。
## 结尾
综上所述,本低资源语言圣经翻译机器翻译数据集是一个完整、高质量且具有广泛应用价值的研究资源。数据集的核心价值在于:它不仅提供了约60万句对的大规模平行语料,还配套了完整的BPE分词规则、标准化的词表文件、Marian NMT格式的训练分片数据以及未处理的原始文本文件,构成了一套从原始数据到模型训练的完整数据处理流水线。这种设计极大地降低了低资源语言机器翻译研究的门槛,使得研究人员能够专注于算法创新和模型优化,而非数据预处理工作。
数据集的核心优势体现在其完整性和灵活性两个方面:完整性表现在从原始文本、分词规则、词表到训练数据的全链路提供,灵活性体现在多种语言变体支持和原始数据的保留,使得数据可以适配不同的研究需求和模型架构。这些特点使得本数据集在低资源语言翻译研究、宗教文本数字化、BPE算法优化、多语言迁移学习等多个研究领域都具有重要的应用前景。
有需要可私信获取更多信息。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:





