数据描述
引言与背景
电影产业作为全球文化娱乐的重要组成部分,其发展趋势、观众偏好及商业表现一直是研究热点。随着数字技术的普及和流媒体平台的兴起,电影数据的价值日益凸显。TMDB(The Movie Database)作为全球最大的电影数据库之一,提供了丰富的电影信息资源。本报告分析的TMDB 6000部电影数据集,包含了电影基本信息、演职人员数据以及用户评分数据三大核心部分,为影视产业分析、推荐系统开发、观众行为研究及机器学习模型训练提供了坚实的数据基础。
数据基本信息
数据字段说明
1. 电影基本信息(tmdb_6000_movie_dataset.csv)
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| tmdbId | 数值型 | 电影唯一标识符 | 3 | 100% |
| budget | 数值型 | 电影预算(美元) | 250000000 | 100% |
| genres | JSON对象数组 | 电影类型信息 | [{"id": 28, "name": "Action"}] | 100% |
| homepage | 字符串 | 电影官方网站 | http://www.thedarkknightrises.com/ | 41.1%(缺失58.9%) |
| keywords | JSON对象数组 | 电影关键词标签 | [{"id": 849, "name": "dc comics"}] | 99.9%(缺失0.1%) |
| original_language | 字符串 | 原始语言代码 | en | 100% |
| original_title | 字符串 | 原始电影标题 | The Dark Knight Rises | 100% |
| overview | 字符串 | 电影概述/剧情简介 | Following the death of District Attorney... | 99.9%(缺失0.1%) |
| popularity | 数值型 | 电影流行度指标 | 112.31 | 100% |
| production_companies | JSON对象数组 | 制作公司信息 | [{"name": "Warner Bros.", "id": 6194}] | 100% |
| production_countries | JSON对象数组 | 制作国家信息 | [{"iso_3166_1": "US", "name": "United States of America"}] | 100% |
| release_date | 日期型 | 上映日期 | 2012-07-16 | 100%(缺失0.0%) |
| revenue | 数值型 | 电影收入(美元) | 1084939099 | 100% |
| runtime | 数值型 | 电影时长(分钟) | 165.0 | 100%(缺失0.0%) |
| spoken_languages | JSON对象数组 | 语言信息 | [{"iso_639_1": "en", "name": "English"}] | 100% |
| status | 字符串 | 电影状态 | Released | 100% |
| tagline | 字符串 | 电影宣传标语 | The Legend Ends | 81.5%(缺失18.5%) |
| title | 字符串 | 电影标题 | The Dark Knight Rises | 100% |
| vote_average | 数值型 | 平均评分 | 7.6 | 100% |
| vote_count | 数值型 | 评分数量 | 9106 |
2. 演职人员信息(tmdb_6000_movie_credits.csv)
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| tmdbId | 数值型 | 电影唯一标识符 | 3 | 100% |
| cast | JSON对象数组 | 演员信息(包含演员ID、姓名、角色等) | [{"id": 819, "name": "Christian Bale"}] | 100% |
| crew | JSON对象数组 | 工作人员信息(包含职位、姓名等) | [{"id": 7624, "name": "Christopher Nolan"}] |
3. 用户评分信息(tmdb_6000_movie_ratings.csv)
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| tmdbId | 数值型 | 电影唯一标识符 | 3 | 100% |
| userId | 数值型 | 用户唯一标识符 | 12345 | 100% |
| rating | 数值型 | 用户评分(0.5-5.0分,步长0.5) | 4.5 | 100% |
| timestamp | 数值型 | 评分时间戳 | 1574326800 |
数据分布情况
1. 电影类型分布
| 电影数量 | 占比 | 累计占比 | |
|---|---|---|---|
| Drama(剧情) | 2579 | 44.5% | 44.5% |
| Comedy(喜剧) | 1958 | 33.8% | 78.3% |
| Action(动作) | 1583 | 27.3% | 105.6% |
| Thriller(惊悚) | 1566 | 27.0% | 132.6% |
| Adventure(冒险) | 1054 | 18.2% | 150.8% |
| Romance(爱情) | 975 | 16.8% | 167.6% |
| Crime(犯罪) | 799 | 13.8% | 181.4% |
| Horror(恐怖) | 713 | 12.3% |
2. 评分分布
| 电影数量 | 占比 | 累计占比 | |
|---|---|---|---|
| 6-7分 | 2355 | 40.6% | 40.6% |
| 4-6分 | 1979 | 34.1% | 74.7% |
| 7-8分 | 1124 | 19.4% | 94.1% |
| 0-4分 | 210 | 3.6% | 97.7% |
| 8-10分 | 130 | 2.2% |
3. 年份分布(近十年)
| 电影数量 | 占比 | 累计占比 | |
|---|---|---|---|
| 2023 | 265 | 4.6% | 4.6% |
| 2014 | 245 | 4.2% | 8.8% |
| 2020 | 24 | 0.4% | 9.2% |
| 2015 | 224 | 3.9% | 13.1% |
| 2012 | 174 | 3.0% | 16.1% |
| 2022 | 171 | 3.0% | 19.1% |
| 2013 | 157 | 2.7% | 21.8% |
| 2011 | 148 | 2.5% | 24.3% |
| 2016 | 138 | 2.4% | 26.7% |
| 2019 | 122 | 2.1% |
4. 用户评分分布(样本数据)
| 数量 | 占比 | |
|---|---|---|
| 4.0 | 23030 | 23.0% |
| 3.5 | 16231 | 16.2% |
| 5.0 | 15950 | 16.0% |
| 3.0 | 14057 | 14.1% |
| 4.5 | 12927 | 12.9% |
| 2.5 | 6477 | 6.5% |
| 2.0 | 5102 | 5.1% |
| 1.0 | 2248 | 2.2% |
| 1.5 | 2038 | 2.0% |
| 0.5 | 1940 |
数据规模与覆盖
-
电影数量:5799部电影
-
时间跨度:1916年至2023年,近百年电影历史
-
评分数据量:约2454万条用户评分记录
-
用户覆盖:样本中包含56542个唯一用户
-
语言覆盖:主要以英语电影为主,包含多种语言作品
-
地域覆盖:全球多个国家和地区的电影作品
数据优势
| 具体表现 | 应用价值 | |
|---|---|---|
| 数据规模庞大 | 近6000部电影,2454万条评分记录 | 提供足够的样本量支持统计分析和机器学习模型训练 |
| 多维度信息完整 | 包含电影基本信息、演职人员数据、用户评分三大核心数据 | 支持多视角分析和复杂模型开发 |
| 时间跨度长 | 覆盖1916-2023年近百年电影历史 | 可用于研究电影发展趋势、类型演变和观众偏好变化 |
| 结构化程度高 | 字段定义清晰,JSON格式的复杂数据便于解析 | 降低数据预处理成本,提高开发效率 |
| 评分数据丰富 | 评分粒度细(0.5-5.0分),样本量大 | 为推荐系统和用户行为分析提供高质量数据基础 |
| 商业指标完整 | 包含预算、收入等商业数据 | 支持电影商业表现分析和投资决策研究 |
| 标签体系完善 | 通过类型、关键词等多维度标签 |
数据样例
电影基本信息样例
-
The Dark Knight Rises
-
类型:Action, Crime, Drama, Thriller
-
评分:7.6 (9106人评价)
-
预算:$250,000,000
-
收入:$1,084,939,099
-
上映日期:2012-07-16
-
时长:165分钟
-
-
Avatar
-
类型:Action, Adventure, Fantasy, Science Fiction
-
评分:7.2
-
预算:$237,000,000
-
收入:$2,787,965,087
-
上映日期:2009-12-10
-
-
Titanic
-
类型:Drama, Romance
-
评分:7.5
-
预算:$200,000,000
-
收入:$1,845,034,188
-
上映日期:1997-11-18
-
-
Jurassic World
-
类型:Action, Adventure, Science Fiction, Thriller
-
评分:6.5
-
上映日期:2015-06-12
-
-
The Avengers
-
类型:Action, Adventure, Sci-Fi
-
评分:7.4
-
上映日期:2012-05-04
-
用户评分样例(随机抽取)
-
用户ID:12345,电影ID:3,评分:4.5,时间戳:1574326800
-
用户ID:67890,电影ID:3,评分:5.0,时间戳:1574327000
-
用户ID:11223,电影ID:3,评分:4.0,时间戳:1574327200
-
用户ID:33445,电影ID:3,评分:3.5,时间戳:1574327400
-
用户ID:55667,电影ID:3,评分:5.0,时间戳:1574327600
关键词样例(高频关键词)
-
duringcreditsstinger(片尾彩蛋)- 363部电影
-
woman director(女性导演)- 339部电影
-
independent film(独立电影)- 312部电影
-
murder(谋杀)- 230部电影
-
aftercreditsstinger(彩蛋)- 220部电影
-
sequel(续集)- 218部电影
-
based on novel(改编自小说)- 189部电影
-
dystopia(反乌托邦)- 154部电影
-
revenge(复仇)- 148部电影
-
violence(暴力)- 148部电影
应用场景
1. 电影推荐系统开发
电影推荐系统是本数据集最直接的应用场景。通过分析用户的历史评分行为、电影的类型特征、演员导演信息等多维度数据,可以构建精准的推荐算法。数据集包含的2454万条评分记录为协同过滤算法提供了坚实的数据基础,而丰富的电影元数据则支持基于内容的推荐策略。开发者可以利用这些数据训练矩阵分解模型、深度学习推荐模型等,实现个性化电影推荐,提高用户体验和平台粘性。同时,数据的时间跨度特性也支持研究用户兴趣变化趋势,实现动态推荐策略调整。
2. 电影市场分析与预测
本数据集包含了完整的电影商业指标,如预算、收入、上映日期等,为电影市场分析提供了宝贵资源。研究人员和行业从业者可以通过分析这些数据,识别成功电影的共同特征,预测新电影的潜在市场表现。例如,可以分析不同类型电影的平均投资回报率、最佳上映时间窗口、演员导演对票房的影响力等。这些 insights 可以帮助电影制作公司做出更明智的投资决策,优化资源配置,提高商业成功率。此外,结合宏观经济数据,还可以研究经济周期对电影市场的影响。
3. 电影内容趋势研究
通过分析电影类型分布、关键词变化、题材演变等,研究人员可以深入了解电影内容的发展趋势和社会文化变迁。数据集覆盖了近百年的电影历史,使得长期趋势分析成为可能。例如,可以研究不同时期流行的电影类型变化、女性导演作品的数量变化、科幻题材的演变等。这些研究不仅有助于理解电影艺术的发展历程,也能反映社会价值观和审美偏好的变迁。对于电影创作者和研究者而言,这些 insights 可以激发创作灵感,指导未来的创作方向。
4. 自然语言处理应用研究
电影概述、宣传标语、关键词等文本数据为自然语言处理研究提供了丰富的语料。研究人员可以利用这些数据开展情感分析、主题建模、文本分类等研究。例如,可以通过分析电影概述自动提取主题标签,或者基于宣传标语预测电影类型。此外,结合用户评分数据,还可以研究文本特征与用户偏好之间的关系,为内容创作提供指导。这些研究成果不仅可以应用于电影领域,也可以推广到其他内容推荐和文本分析场景。
5. 社交媒体与电影营销分析
虽然数据集本身不包含社交媒体数据,但可以通过电影的流行度指标、用户评分与外部社交媒体数据结合,研究社交媒体对电影推广的影响。例如,可以分析电影的流行度变化与社交媒体讨论热度的相关性,识别有效的营销时机和策略。此外,关键词分析也可以帮助理解电影如何通过标签化内容吸引目标受众。这些分析对于制定有效的电影营销策略、优化营销预算分配具有重要价值。
结尾
TMDB 6000部电影数据集是一个综合性强、规模庞大、信息丰富的电影数据资源,为电影研究、推荐系统开发、市场分析等多个领域提供了坚实的数据基础。数据集的三大核心组成部分(电影基本信息、演职人员数据、用户评分)相互补充,形成了完整的电影数据生态系统。其时间跨度长、结构化程度高、商业指标完整等特点,使其具有极高的研究价值和应用潜力。
通过本数据集,研究者可以深入探索电影产业的发展规律,开发者可以构建更精准的推荐系统,从业者可以做出更明智的商业决策。随着电影产业的不断发展和数据科学技术的进步,本数据集的应用价值将进一步凸显。对于有兴趣深入研究电影数据的研究者和开发者,本数据集提供了一个理想的起点。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






