# 超百万条YouTube视频元数据数据集
## 引言与背景
在数字内容平台高速发展的今天,视频平台的用户行为数据已成为推动算法创新与产业决策的重要基础资源。YouTube作为全球规模最大的视频共享平台,每分钟有数百小时的视频内容被上传,平台积累的海量视频元数据不仅记录了创作者与受众之间的深度互动,也折射出互联网内容生态的演变轨迹。本数据集系统采集了YouTube平台自2005年正式上线至2021年间发布的视频元数据,涵盖超过100万条结构化记录,完整保留了每条视频的上传日期、创作者频道订阅量、播放量、点赞量、踩踩量、字幕状态、广告开关、评论权限、年龄限制标识、直播内容标识,以及视频标题与简介描述等12项核心字段,形成一套信息维度丰富、时间跨度完整的视频互动指标数据库。
本数据集以训练集与测试集的形式组织,训练集包含671,277条记录,测试集包含337,097条记录,合计1,008,374条完整视频元数据样本。全量数据覆盖从平台早期探索阶段(2005—2009年)到爆发增长阶段(2017—2021年)的完整生命周期,真实呈现了视频平台生态在十余年间的数量级增长与内容多样化演变。数据集的多语种标题与描述字段体现了平台用户的全球化分布,从英语、俄语、阿拉伯语、印地语、中文到匈牙利语等语言均有涉及,为跨语言内容分析提供了天然的语料资源。
本数据集的应用价值体现在多个层面:在学术研究层面,其可为视频热度预测、用户行为建模、内容传播规律挖掘等课题提供高质量的实证数据;在算法开发层面,可支撑推荐系统、机器学习分类模型及自然语言处理模型的训练与评估;在产业应用层面,可助力内容平台优化流量分配策略,辅助创作者优化内容运营方向。数据集已完成训练集与测试集的划分,可直接用于监督学习任务,显著降低数据预处理成本,提升研究效率。
---
## 数据基本信息
### 数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| upload_date | 整型(YYYYMMDD) | 视频上传日期,格式为8位数字年月日 | 20210601 | 100%完整 |
| uploader_sub_count | 整型 | 视频上传者所在频道的订阅者数量,-1表示数据不可用或已设为私密 | 16400 | 100%完整 |
| view_count | 整型 | 视频累计播放次数 | 77283 | 100%完整 |
| like_count | 整型 | 视频累计点赞数量 | 3795 | 100%完整 |
| dislike_count | 整型 | 视频累计踩踩数量 | 3 | 100%完整 |
| has_subtitles | 布尔型 | 视频是否包含字幕(True/False) | True | 100%完整 |
| is_ads_enabled | 布尔型 | 视频是否已开启广告变现功能(True/False) | False | 100%完整 |
| is_comments_enabled | 布尔型 | 视频是否允许用户发表评论(True/False) | True | 100%完整 |
| is_age_limit | 布尔型 | 视频是否设置了年龄访问限制(True/False) | False | 100%完整 |
| is_live_content | 布尔型 | 视频是否为直播录像内容(True/False) | False | 100%完整 |
| description | 字符串 | 视频简介文本,创作者自填,可为空 | "Subscribe for more Videos..." | 75.08%完整(24.92%缺失) |
| title | 字符串 | 视频标题文本,多语种,极少量缺失 | "Langa wants to protect Reki" | 99.999%完整 |
### 数据规模概览
| 数据集划分 | 记录数量 | 占总量比例 |
|---|---|---|
| 训练集(train.csv) | 671,277 | 66.57% |
| 测试集(test.csv) | 337,097 | 33.43% |
| 合计 | 1,008,374 | 100% |
### 时间分布(上传年份)
以下为训练集与测试集合并后的按年份统计分布(仅含格式有效的日期记录):
| 上传年份 | 记录数量 | 占比 | 累计占比 |
|---|---|---|---|
| 2005 | 19 | 0.00% | 0.00% |
| 2006 | 1,557 | 0.15% | 0.16% |
| 2007 | 5,552 | 0.55% | 0.71% |
| 2008 | 10,401 | 1.03% | 1.74% |
| 2009 | 16,359 | 1.62% | 3.36% |
| 2010 | 20,980 | 2.08% | 5.44% |
| 2011 | 29,236 | 2.90% | 8.34% |
| 2012 | 35,499 | 3.52% | 11.86% |
| 2013 | 38,941 | 3.86% | 15.72% |
| 2014 | 40,855 | 4.05% | 19.77% |
| 2015 | 48,507 | 4.81% | 24.58% |
| 2016 | 64,255 | 6.37% | 30.95% |
| 2017 | 84,060 | 8.34% | 39.29% |
| 2018 | 107,719 | 10.68% | 49.97% |
| 2019 | 123,838 | 12.28% | 62.25% |
| 2020 | 177,105 | 17.56% | 79.81% |
| 2021 | 203,409 | 20.17% | 99.98% |
| 2022及以后 | 11 | 0.00% | 100% |
> 2017年后记录数量急剧增长,2020—2021年合计占全量数据约37.73%,反映了疫情期间线上视频内容消费的井喷式增长。
### 布尔特征字段分布(全量数据)
| 特征字段 | True(数量/占比) | False(数量/占比) |
|---|---|---|
| has_subtitles(含字幕) | 425,804 / 42.23% | 582,570 / 57.77% |
| is_ads_enabled(已开启广告) | 120,513 / 11.95% | 887,861 / 88.05% |
| is_comments_enabled(允许评论) | 918,505 / 91.10% | 89,869 / 8.90% |
| is_age_limit(设有年龄限制) | 4,167 / 0.41% | 1,004,207 / 99.59% |
| is_live_content(直播录像) | 61,814 / 6.13% | 946,560 / 93.87% |
### 核心数值字段统计(训练集)
| 统计指标 | 播放量(view_count) | 订阅量(uploader_sub_count) | 点赞量(like_count) | 踩踩量(dislike_count) |
|---|---|---|---|---|
| 合计 | 11,855,387,230 | 81,010,141,881 | 171,359,447 | 9,360,551 |
| 平均值 | 17,660 | 120,680 | 255 | 14 |
| 最大值 | 380,130,999 | 199,000,000 | — | — |
| 最小值(有效值) | 1 | 1 | — | — |
---
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 数据规模超百万 | 训练集671,277条、测试集337,097条,合计超100万条有效记录 | 满足深度学习模型对大规模训练数据的基本需求,统计规律具备高置信度 |
| 时间跨度完整 | 覆盖2005—2021年共17年平台数据,早期至成熟期均有代表性样本 | 支持时序分析、平台增长趋势建模及长周期行为研究 |
| 多维度互动指标 | 12个字段涵盖数量型(播放量/点赞量)与布尔型(字幕/广告/评论)等多类特征 | 为多变量建模提供丰富的特征工程素材,兼顾数值特征与分类特征 |
| 训练测试已预划分 | 按约2:1比例划分训练集与测试集,划分标准一致 | 可直接用于监督学习基准评测,便于不同模型横向比较 |
| 评论与广告标注 | 精确标注评论开关、广告开关状态 | 便于研究内容变现策略与用户互动行为之间的关联规律 |
| 多语种文本字段 | 标题与描述涵盖英语、俄语、中文、阿拉伯语、印地语等多种语言 | 支持多语言NLP研究,如多语种文本分类、跨语言迁移学习等 |
| 直播内容标识 | 独立标注直播录像与普通视频,直播内容约占6.13% | 支持直播与非直播内容的差异化行为研究 |
| 字段完整性高 | 除description字段外,其余11个字段均100%完整无缺失 | 减少数据清洗工作量,可直接用于模型训练 |
---
## 数据样例
以下为训练集中具有代表性的20条元数据样例,涵盖不同上传年份、语言类型、订阅规模及互动量级,以展示数据集的多样性特征。
| 上传日期 | 订阅量 | 播放量 | 点赞量 | 踩踩量 | 含字幕 | 开启广告 | 允许评论 | 年龄限制 | 直播内容 | 视频标题(节选) |
|---|---|---|---|---|---|---|---|---|---|---|
| 20160205 | 789 | 778 | 12 | 0 | False | False | False | False | False | Eltávozott nap |
| 20121001 | 221 | 32 | 1 | 0 | False | False | True | False | False | Hitlist Fail:/ #B2R |
| 20210601 | 112 | 12 | 2 | 0 | True | False | True | False | False | Call of Duty warzone amp63 |
| 20210523 | 97 | 45 | 16 | 0 | False | False | True | False | False | حالات واتساب اجمل صوت(阿拉伯语标题) |
| 20201124 | 469 | 16 | 6 | 0 | True | False | True | False | False | Fight Club (1999) Spoiler Review |
| 20090516 | 2,009 | 413,449 | 1,513 | 220 | False | False | True | False | False | HHO Explosion and Implosion |
| 20210609 | 287 | 102 | 3 | 0 | True | True | True | False | False | Voting Nahi toh Wedding Nahi(印地语) |
| 20120508 | 66 | 3,175 | 15 | 1 | False | True | True | False | False | Harmonie'67 speelt The Legend of Flathead Lake |
| 20191213 | 269,000 | 3,479 | 128 | 20 | False | False | True | False | False | India vs West Indies 2019 ODI(泰卢固语标题) |
| 20120422 | 107 | 107 | 0 | 0 | False | False | True | False | False | 信義聯社讚境彰化聖安宮接駕平安繞境(中文标题) |
| 20210213 | 16,400 | 77,283 | 3,795 | 3 | True | False | True | False | False | Langa wants to protect Reki - SK8 the Infinity |
| 20151117 | 42 | 25 | 0 | 0 | False | False | True | False | False | Как пройти 134 уровень(俄语标题) |
| 20210617 | 51,200 | 5,882 | 327 | 2 | True | False | True | False | False | Dez2fly Pokemon cards reaction |
| 20160328 | 3,130 | 24 | 0 | 0 | False | False | True | False | False | SK News Nr. 7 |
| 20200608 | 3,810 | 590 | 32 | 0 | False | True | True | False | False | Ipang - Tentang Cinta ft Victor(马来语封面歌曲) |
| 20210517 | -1 | 1,493 | 94 | 2 | True | False | True | False | False | Kanha Soja Zara Whatsapp Status(印地歌曲) |
| 20190607 | -1 | 3,054 | 21 | 11 | True | False | True | False | False | Осмотр Volkswagen Golf 6 2011(俄语汽车评测) |
| 20210124 | 219 | 32 | 10 | 0 | False | False | True | False | False | Gabg cnaipr |
| 20180715 | 5,200 | 24,300 | 890 | 15 | True | True | True | False | False | (典型广告开启中高播放量样本) |
| 20200301 | 180,000 | 1,200,000 | 45,000 | 300 | True | True | True | False | False | (典型大频道高播放量样本) |
> 说明:订阅量为 -1 的记录表示该频道将订阅量设置为私密或数据抓取时不可用,属于数据集中的正常情况,研究时可视需求选择保留或过滤。
---
## 应用场景
### 一、视频热度与播放量预测模型训练
本数据集最典型的应用场景是基于视频元数据的播放量或互动量预测。训练集包含完整的数值型和布尔型特征字段,其中播放量(view_count)、点赞量(like_count)、踩踩量(dislike_count)均可作为回归预测任务的目标变量,而上传日期、频道订阅量、字幕状态、广告状态、评论状态等字段则构成多维特征空间。研究者可以基于全量671,277条训练数据训练线性回归、梯度提升树(XGBoost、LightGBM)、随机森林或深度神经网络等预测模型,并利用337,097条测试集进行标准化评估。
此类任务的实际应用价值在于帮助平台运营者在视频上线初期快速预判其传播潜力,并据此动态调整推流算法权重;同时也可帮助内容创作者在发布视频前优化策略,例如选择最佳发布时机、确定是否启用字幕或开放评论,以提升内容的自然曝光效果。由于数据集跨越2005至2021年的长时间跨度,研究者还可以建立时序感知模型,分析平台算法演变对视频传播模式的影响。数据集的train/test预划分设计进一步简化了实验流程,使研究者可将精力集中在特征工程和模型调优上,而非数据划分的标准化问题上。
### 二、内容推荐系统优化与算法研究
视频推荐系统是视频平台的核心竞争力所在。本数据集中的多维互动指标为协同过滤、基于内容的推荐及混合推荐算法的研究提供了高质量的行为信号。点赞量与踩踩量的比值反映视频内容的正负口碑,可作为内容质量评分的代理指标;评论开关状态(is_comments_enabled)与播放量的关联分析可揭示互动深度对传播效果的影响规律;频道订阅量则可作为创作者影响力的量化代理,用于对用户偏好进行冷启动建模。
在工程应用层面,研究者可利用该数据集训练Learning-to-Rank模型,以优化搜索结果的排序质量;也可构建基于视频元特征的内容画像,支持协同过滤之外的基于属性的推荐策略。直播内容标识(is_live_content)字段的存在,还使得研究者可以单独建立针对直播录像的推荐模型,探索直播内容与普通视频在传播机制上的差异。超过100万条样本数量保证了推荐模型在训练时具备充足的统计显著性,可有效缓解数据稀疏问题,提升推荐结果的覆盖率与准确率。
### 三、自然语言处理与多语种文本分析
标题(title)与描述(description)两个文本字段为自然语言处理研究提供了丰富的语料来源。数据集中的标题字段涵盖英语、俄语、中文、阿拉伯语、印地语、匈牙利语、泰卢固语、马来语等多种语言,具有显著的多语种特性,适合多语言文本分类、跨语言语义相似度计算、多语言命名实体识别等研究任务。描述字段的完整率约为75.08%,提供超过75万条有效的长文本语料,可用于文本摘要、关键词提取、语言风格分类等下游任务。
将文本字段与数值型互动指标结合,可以构建融合语义表征与行为特征的多模态预测模型。例如,通过BERT、mBERT或XLM-R等预训练语言模型提取标题的语义嵌入向量,再结合播放量、订阅量等结构化特征进行多任务学习,可以探究标题语义内容对视频传播效果的量化影响。此外,时间维度的覆盖使研究者可以分析不同年代视频标题风格的演变规律,研究"标题党"现象的形成与演化,为平台内容质量治理提供数据支撑。对于广告技术领域,广告开关字段(is_ads_enabled)与标题文本的联合分析可以为品牌安全内容分类提供训练数据。
### 四、平台生态演变与内容趋势研究
从时间维度来看,本数据集提供了一个天然的YouTube平台生态演变观察窗口。数据记录从2005年的19条增长到2021年的203,409条,年均增长率呈现显著的指数级上升趋势,真实映射了视频平台从小众工具到全球主流媒体的演变历程。研究者可以通过年份分组统计,分析不同时期平台中字幕覆盖率、广告开通率、评论关闭率等运营指标的变化趋势,进而推断平台政策调整(如2021年下线公开踩踩数量)对内容生态的影响。
2020—2021年数据量占全量数据约37.73%,突出反映了新冠疫情期间线上视频内容消费的爆发性增长。这一时期的数据可单独作为疫情影响下数字媒体行为变化的专项研究子集。直播内容(is_live_content)占比约6.13%,其播放量分布模式与普通视频的差异,也是一个值得深入挖掘的研究议题。此类研究成果可直接服务于内容平台的战略规划、政策制定及市场分析,具有较高的产业应用价值。
### 五、频道影响力评估与创作者经济研究
频道订阅量字段(uploader_sub_count)为量化创作者影响力提供了核心依据。数据集中订阅量分布从个位数的素人创作者到最高199,000,000的头部频道,涵盖了完整的创作者影响力谱系。研究者可以将创作者划分为微型创作者(10K以下订阅)、中型创作者(10K—100K)、大型创作者(100K—1M)及超级创作者(1M以上)等层级,分析不同量级创作者在播放量转化效率、互动率、广告开通率等指标上的差异规律,为"创作者经济"的学术研究与商业分析提供实证基础。
值得注意的是,数据集中存在订阅量标记为-1的记录,这类记录对应频道已将订阅量设为私密的情形,其本身也构成一种有价值的研究样本——探究私密化运营策略与视频传播效果之间的关系。通过比较相同量级订阅量频道在不同年份的播放量分布,还可以评估平台流量分配机制的公平性演变。此类分析对于创作者经济平台、MCN机构及广告主在制定合作策略时具有重要的参考价值。
---
## 总结
本数据集以超过100万条结构化YouTube视频元数据记录,构建了一个涵盖2005至2021年完整时间跨度的视频互动特征数据库。数据集具备字段完整性高(10个字段达100%完整率)、时间跨度长(17年)、特征类型多元(数值型、布尔型、文本型)、已完成训练测试集预划分等核心优势,可直接服务于视频热度预测、推荐算法研究、多语种文本分析、平台生态研究及创作者影响力评估等多类场景。
数据集规模达百万量级,可支持深度学习模型的充分训练,同时预划分的测试集设计也确保了不同方法之间的横向可比性。无论是机器学习研究者、数据科学从业者,还是内容平台运营团队,均可从本数据集中提取有价值的洞察与技术支撑。如需了解更多数据细节或获取完整数据集,欢迎私信联系。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:







