admin367

verify-tagTifinagh手写字符数据集:133,980条标注样本助力柏柏尔文OCR研究

44.4

已售 0
113.53MB

数据标识:D17790904547881581

发布时间:2026/05/18

# Tifinagh手写字符数据集:133,980条标注样本助力柏柏尔文OCR研究

## 引言与背景

Tifinagh(提非纳)是柏柏尔语(Berber)使用的传统书写系统,主要在北非地区如摩洛哥、阿尔及利亚、利比亚等国家使用。随着数字化时代的到来,对Tifinagh文字的自动识别需求日益增长。本数据集为研究人员和开发者提供了大规模、高质量的手写Tifinagh字符图像数据,旨在推动柏柏尔文光学字符识别(OCR)技术的发展。

该数据集包含完整的原始图像文件和对应的标注信息,为机器学习模型训练提供了坚实的基础。数据集的完整性和均衡性使其成为研究Tifinagh文字识别、手写体分析、文化数字化保护等领域的理想资源。

## 数据基本信息

### 数据集概览

本数据集包含133,980条标注记录,对应129,920张手写字符图像文件(JPG格式),总大小约110.62 MB。数据集中包含33个不同的Tifinagh字符类别,每个类别恰好包含4060个样本,实现了完美的类别均衡。

### 数据字段说明

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
| :--- | :--- | :--- | :--- | :--- |
| path | string | 图像文件相对路径 | tifinagh_dataset/0/ⴰ_2747.jpg | 100% |
| index_name | integer | 字符类别索引 | 0 | 100% |
| label | string | Tifinagh字符标签 | ⴰ | 100% |

### 数据分布情况

#### 字符标签分布

| 字符标签 | 记录数量 | 占比 |
| :--- | :--- | :--- |
| ⴰ | 4,060 | 3.03% |
| ⴱ | 4,060 | 3.03% |
| ⴳ | 4,060 | 3.03% |
| ⴳⵯ | 4,060 | 3.03% |
| ⴷ | 4,060 | 3.03% |
| ⴹ | 4,060 | 3.03% |
| ⴻ | 4,060 | 3.03% |
| ⴼ | 4,060 | 3.03% |
| ⴽ | 4,060 | 3.03% |
| ⴽⵯ | 4,060 | 3.03% |
| ⵀ | 4,060 | 3.03% |
| ⵃ | 4,060 | 3.03% |
| ⵄ | 4,060 | 3.03% |
| ⵅ | 4,060 | 3.03% |
| ⵇ | 4,060 | 3.03% |
| ⵉ | 4,060 | 3.03% |
| ⵊ | 4,060 | 3.03% |
| ⵍ | 4,060 | 3.03% |
| ⵎ | 4,060 | 3.03% |
| ⵏ | 4,060 | 3.03% |
| ⵓ | 4,060 | 3.03% |
| ⵔ | 4,060 | 3.03% |
| ⵕ | 4,060 | 3.03% |
| ⵖ | 4,060 | 3.03% |
| ⵙ | 4,060 | 3.03% |
| ⵚ | 4,060 | 3.03% |
| ⵛ | 4,060 | 3.03% |
| ⵜ | 4,060 | 3.03% |
| ⵟ | 4,060 | 3.03% |
| ⵡ | 4,060 | 3.03% |
| ⵢ | 4,060 | 3.03% |
| ⵣ | 4,060 | 3.03% |
| ⵥ | 4,060 | 3.03% |

#### 文件格式分布

| 文件格式 | 数量 | 占比 |
| :--- | :--- | :--- |
| JPG | 129,920 | 99.99% |
| CSV | 1 | 0.01% |

#### 目录结构分布

| 目录深度 | 子目录数量 | 说明 |
| :--- | :--- | :--- |
| 深度0 | 1 | 主目录 tifinagh_dataset |
| 深度1 | 32 | 字符类别子目录(0-32) |

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
| :--- | :--- | :--- |
| 类别均衡 | 33个字符类别,每个类别恰好4060个样本 | 避免模型训练中的类别偏置,提升模型泛化能力 |
| 标注完整 | 所有图像均配有index_name和label标注 | 可直接用于监督学习任务,无需额外标注 |
| 包含完整原始文件 | 129,920张JPG格式手写字符图像 | 支持图像识别、手写体分析等多种计算机视觉任务 |
| 数据规模庞大 | 133,980条标注记录 | 满足深度学习模型对大规模训练数据的需求 |
| 文件组织规范 | 按字符类别分目录存储,文件命名统一 | 便于数据管理和批处理操作 |

## 数据样例

以下为数据集的元数据样例,展示不同字符类别的样本分布情况:

### 元数据样例

1. tifinagh_dataset/0/ⴰ_2747.jpg, 0, ⴰ
2. tifinagh_dataset/1/ⴱ_0001.jpg, 1, ⴱ
3. tifinagh_dataset/2/ⴳ_0002.jpg, 2, ⴳ
4. tifinagh_dataset/3/ⴳⵯ_0003.jpg, 3, ⴳⵯ
5. tifinagh_dataset/4/ⴷ_0004.jpg, 4, ⴷ
6. tifinagh_dataset/5/ⴹ_0005.jpg, 5, ⴹ
7. tif

看了又看

验证报告

以下为卖家选择提供的数据验证报告:

data icon
Tifinagh手写字符数据集:133,980条标注样本助力柏柏尔文OCR研究
44.4
已售 -
113.53MB
申请报告