wnx

verify-tagSafeBooru动漫图片数据集:302万条记录的多格式图片元数据标注数据集

动漫图片SafeBooru多格式图片元数据标注

9.9

已售 0
1.31GB

数据标识:D17790990499154565

发布时间:2026/05/18

# SafeBooru动漫图片数据集:302万条记录的多格式图片元数据标注数据集

## 引言与背景

在数字图像时代,动漫图片数据作为创意产业和人工智能研究的重要资源,具有广泛的应用价值。本数据集来源于SafeBooru平台,包含超过302万条动漫图片记录,是目前规模最大的公开动漫图片元数据集之一。该数据集涵盖了丰富的图片元数据信息,包括图片ID、创建时间、内容评级、用户评分、图片URL、尺寸信息、缩略图URL以及详细的标签标注等。这些数据对于图像检索算法训练、内容推荐系统开发、动漫文化研究等领域具有重要价值。

随着深度学习技术的发展,高质量的标注数据成为算法训练的关键。本数据集提供了标准化的元数据结构和详尽的标签体系,为研究人员和开发者提供了可靠的数据基础,可广泛应用于图像分类、目标检测、内容过滤等多种计算机视觉任务。

## 数据基本信息

### 字段说明

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| id | 整数 | 图片唯一标识 | 1 | 100% |
| created_at | 整数 | 创建时间戳 | 1264803292 | 100% |
| rating | 字符串 | 内容评级 | s | 100% |
| score | 整数 | 用户评分 | 37 | 100% |
| sample_url | 字符串 | 样本图片URL | //safebooru.org/samples/1/sample_e7b3dc281d431f7a9f4ab81986d2de9a20d36d2e.jpg | 100% |
| sample_width | 整数 | 样本图片宽度 | 850 | 100% |
| sample_height | 整数 | 样本图片高度 | 638 | 100% |
| preview_url | 字符串 | 缩略图URL | //safebooru.org/thumbnails/1/thumbnail_e7b3dc281d431f7a9f4ab81986d2de9a20d36d2e.jpg | 100% |
| tags | 字符串 | 标签集合(空格分隔) | 1girl bag black_hair blush | 100% |

### 数据分布情况

#### 内容评级分布

| 评级 | 记录数量 | 占比 |
|-----|---------|-----|
| s(安全) | 3,005,901 | 99.52% |
| q(可疑) | 14,553 | 0.48% |
| e(露骨) | 6 | <0.01% |

#### 文件格式分布

| 格式 | 记录数量 | 占比 |
|-----|---------|-----|
| jpg | 2,120,434 | 70.20% |
| png | 786,120 | 26.03% |
| jpeg | 91,134 | 3.02% |
| gif | 22,755 | 0.75% |
| bmp | 17 | <0.01% |

#### 评分分布统计

| 评分区间 | 描述 | 特征 |
|---------|-----|-----|
| 0-5 | 低评分 | 约占总数的60% |
| 6-15 | 中等评分 | 约占总数的30% |
| 16-30 | 较高评分 | 约占总数的8% |
| 31+ | 高评分 | 约占总数的2%,最高评分达239 |

### 数据规模概览

- 总记录数: 3,020,460条
- 数据格式: CSV文件
- 文件大小: 约1.5GB(压缩前)
- 时间跨度: 从2010年至今(根据时间戳推算)
- 标签覆盖: 包含数百万个标签标注

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 数据规模庞大 | 超过302万条记录,覆盖近15年的动漫图片 | 支持大规模模型训练,提高模型泛化能力 |
| 内容安全性高 | 99.5%以上为安全评级内容 | 适合教育、科研等对内容敏感的场景 |
| 标签体系丰富 | 每条记录包含多个描述性标签 | 支持多标签分类、内容检索等任务 |
| 图片尺寸多样 | 提供样本图和缩略图两种尺寸 | 满足不同分辨率需求的应用场景 |
| 元数据完整 | 包含时间、评分、尺寸等多维度信息 | 支持多模态分析和交叉验证 |
| 格式多样 | 涵盖jpg、png、gif等主流格式 | 支持不同格式的图像处理研究 |

## 数据样例

以下为元数据样例,展示数据集的多样性特征:

1. ID: 1 | 评级: s | 评分: 37 | 标签: 1girl bag black_hair blush bob_cut landscape snow solo
2. ID: 2 | 评级: s | 评分: 12 | 标签: barding black cape celty_sturluson durarara!! headless horse
3. ID: 10 | 评级: s | 评分: 17 | 标签: blonde_hair bondage bow broken_glass drill_hair touhou wings
4. ID: 71 | 评级: s | 评分: 9 | 标签: bleach crossover dragon_ball one_piece sushi
5. ID: 105 | 评级: s | 评分: 9 | 标签: animal_ears kimono tiger_ears tiger_tail yukata
6. ID: 148 | 评级: s | 评分: 5 | 标签: hatsune_miku bikini long_hair swimsuit vocaloid
7. ID: 117 | 评级: s | 评分: 5 | 标签: edward_elric fullmetal_alchemist male roy_mustang
8. ID: 27 | 评级: s | 评分: 5 | 标签: akiyama_mio bass_guitar k-on! long_hair twintails
9. ID: 110 | 评级: s | 评分: 3 | 标签: bunny_ears bunny_tail megurine_luka rabbit_ears vocaloid
10. ID: 124 | 评级: s | 评分: 4 | 标签: bikini fox_ears fox_tail kitsunemimi swimsuit
11. ID: 73 | 评级: s | 评分: 6 | 标签: bare_shoulders fox_ears fox_tail orange_hair tail
12. ID: 137 | 评级: s | 评分: 4 | 标签: dog_ears dog_tail japanese_clothes kimono tail
13. ID: 143 | 评级: s | 评分: 6 | 标签: blonde_hair bow breasts cleavage long_hair twintails
14. ID: 147 | 评级: s | 评分: 7 | 标签: blonde_hair bridget_l._satellizer dress freezing glasses
15. ID: 34 | 评级: s | 评分: 4 | 标签: aerith_gainsborough final_fantasy final_fantasy_vii flower
16. ID: 60 | 评级: s | 评分: 4 | 标签: animal_ears cat_ears cat_tail final_fantasy final_fantasy_xi
17. ID: 85 | 评级: s | 评分: 1 | 标签: bodysuit muvluv muvluv_alternative sword wallpaper
18. ID: 142 | 评级: s | 评分: 2 | 标签: blonde_hair lolita_fashion long_hair pink_hair sweet_lolita
19. ID: 153 | 评级: s | 评分: 3 | 标签: barefeet black_hair kimono red_eyes
20. ID: 82 | 评级: s | 评分: 1 | 标签: clannad fujibayashi_kyou furukawa_nagisa sakagami_tomoyo

> 说明: 以上为元数据样例,实际数据集中包含完整的图片URL链接,可直接访问原始图片资源。

## 应用场景

### 图像检索与推荐系统

基于该数据集,可以构建高精度的动漫图片检索系统。通过分析图片的标签信息和用户评分,可以实现智能推荐功能。例如,当用户搜索"blonde_hair"标签时,系统可以返回相关的高质量图片。同时,结合评分数据,可以优先展示评分较高的图片,提升用户体验。这种系统可以应用于动漫社区平台、图片分享网站等场景,帮助用户快速找到感兴趣的内容。

### 内容安全过滤

由于数据集包含不同评级的内容,可以用于训练内容安全过滤模型。通过分析安全评级与图片特征之间的关系,开发自动识别不适宜内容的算法。这对于保护青少年用户、维护平台内容安全具有重要意义。教育机构、社交媒体平台、内容分发网络等都可以受益于这类技术。

### 计算机视觉算法训练

该数据集是训练图像分类和目标检测模型的理想资源。丰富的标签信息提供了监督学习所需的标注数据,而大规模的数据量能够提高模型的泛化能力。研究人员可以利用这些数据开发针对动漫风格图像的特定算法,推动计算机视觉技术在特定领域的发展。

### 动漫文化研究

通过分析数据集中的标签分布和时间变化,可以研究动漫文化的演变趋势。例如,追踪特定角色或风格的流行程度变化,分析不同时期的审美偏好差异。这类研究对于理解动漫产业的发展、预测市场趋势具有参考价值。

## 结尾

SafeBooru动漫图片数据集以其庞大的规模、丰富的元数据和高质量的标注信息,成为动漫图像研究和应用开发的宝贵资源。其超过302万条记录涵盖了近15年的动漫图片内容,标签体系详尽,数据格式多样,为各种计算机视觉任务提供了坚实的数据基础。

该数据集的核心优势在于其内容安全性(99.5%以上为安全评级)和元数据的完整性,使其不仅适合学术研究,也适用于商业应用场景。研究人员和开发者可以基于此数据集开展图像检索、内容过滤、模型训练等多种任务,推动动漫相关技术的发展和创新。

如需获取更多关于数据集使用的详细信息,可进一步探讨相关技术实现方案。

看了又看

验证报告

以下为卖家选择提供的数据验证报告:

data icon
SafeBooru动漫图片数据集:302万条记录的多格式图片元数据标注数据集
9.9
已售 -
1.31GB
申请报告