数据描述
引言与背景
在电影产业蓬勃发展的今天,对电影数据进行系统性整理与分析具有重要的科研价值和产业意义。本数据集整合了Rotten Tomatoes平台四十余年来的电影信息与影评数据,为电影研究、算法训练以及相关产业应用提供了宝贵的数据资源。
该数据集完整收录了1978年至2020年期间13,001部电影的详细信息,以及来自4,781部电影的46万条专业影评评论。数据集不仅包含电影的元数据信息,如片名、导演、演员、类型、上映时间等基础信息,更重要的是提供了专业的影评人评分、观众评分、影评内容等多维度数据,构建了一个完整的电影评价生态系统。
数据集对于科研、算法训练和行业应用具有不可估量的价值。在学术研究方面,它可以用于电影史研究、类型片分析、观众接受度研究等领域;在算法训练方面,可用于推荐系统、情感分析、评分预测等机器学习模型;在产业应用方面,可为电影制作、发行、营销等环节提供数据支持和决策依据。
数据基本信息
数据字段说明
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| movie_link | 字符串 | 电影唯一标识链接 | /m/312291718 | 100% |
| movie_name | 字符串 | 电影名称 | Tillie's Punctured Romance | 100% |
| rating | 字符串 | 电影分级信息 | NR, R, PG-13 | 99.8% |
| genre | 字符串 | 电影类型标签 | Classics,Comedy | 99.7% |
| directors | 字符串 | 导演信息 | Charles Bennett,Mack Sennett | 97.5% |
| writers | 字符串 | 编剧信息 | Hampton Del Ruth | 95.2% |
| movie_info | 字符串 | 电影详细描述 | This Keystone comedy... | 98.5% |
| poster_image | 字符串 | 电影海报图片链接 | https://resizing.flixster.com/... | 96.3% |
| casts | 字符串 | 演员阵容信息 | Charles Chaplin,Marie Dressler... | 94.8% |
| in_theaters_date | 字符串 | 影院上映日期 | Jan 1, 1914 | 89.4% |
| on_streaming_date | 字符串 | 流媒体上线日期 | Aug 24, 1999 | 78.6% |
| runtime_in_minutes | 数值 | 影片时长(分钟) | 73.0 | 98.3% |
| studio_name | 字符串 | 制作公司名称 | Keystone Film Company | 85.7% |
| box_office | 数值 | 票房收入 | 1000000 | 23.4% |
| critics_consensus | 字符串 | 影评人共识 | Certified Fresh | 67.2% |
| tomatometer_status | 字符串 | 专业评分状态 | fresh, rotten, certified_fresh | 100% |
| tomatometer_rating | 数值 | 专业评分百分比 | 83.0 | 100% |
| tomatometer_count | 数值 | 专业评分人数 | 6 | 100% |
| audience_status | 字符串 | 观众评分状态 | upright, spilled | 86.8% |
| audience_rating | 数值 | 观众评分百分比 | 44.0 | 86.8% |
| audience_count | 数值 | 观众评分人数 | 972 | 86.8% |
| tomatometer_avg_rating | 数值 | 专业评分平均分 | 6.38 | 100% |
| audience_avg_rating | 数值 | 观众评分平均分 | 3.21 | 86.8% |
| score_sentiment | 字符串 | 情感倾向 | POSITIVE, NEGATIVE |
数据分布情况
时间/年份分布
| 记录数量 | 占比 | 累计占比 | |
|---|---|---|---|
| 2000年 | 666 | 5.1% | 5.1% |
| 2001年 | 966 | 7.4% | 12.5% |
| 2002年 | 854 | 6.6% | 19.1% |
| 2003年 | 1083 | 8.3% | 27.4% |
| 2004年 | 1135 | 8.7% | 36.1% |
| 2005年 | 1092 | 8.4% | 44.5% |
| 2006年 | 1027 | 7.9% | 52.4% |
| 2007年 | 961 | 7.4% | 59.8% |
| 2008年 | 887 | 6.8% | 66.6% |
| 2009年 | 762 | 5.9% |
分类/标签分布
| 记录数量 | 占比 | |
|---|---|---|
| 剧情片 | 7559 | 58.1% |
| 喜剧 | 4494 | 34.6% |
| 动作冒险 | 3207 | 24.7% |
| 悬疑惊悚 | 2451 | 18.9% |
| 艺术电影与国际 | 2244 | 17.3% |
| 经典影片 | 1877 | 14.4% |
| 爱情 | 1564 | 12.0% |
| 科幻奇幻 | 1440 | 11.1% |
| 恐怖 | 1195 | 9.2% |
| 家庭儿童 | 851 |
文件格式分布
| 记录数量 | 占比 | |
|---|---|---|
| CSV格式 | 13001 |
时长分布
| 记录数量 | 占比 | |
|---|---|---|
| 短片(≤30分钟) | 100 | 0.8% |
| 短片(31-60分钟) | 191 | 1.5% |
| 标准长度(61-120分钟) | 10493 | 82.1% |
| 长片(121-180分钟) | 1854 | 14.5% |
| 超长片(>180分钟) | 143 |
专业评分分布
| 记录数量 | 占比 | |
|---|---|---|
| 0-20分 | 2479 | 19.1% |
| 21-40分 | 2167 | 16.7% |
| 41-60分 | 2734 | 21.0% |
| 61-80分 | 2894 | 22.3% |
| 81-100分 | 2727 |
观众评分分布
| 记录数量 | 占比 | |
|---|---|---|
| 0-1分 | 135 | 1.2% |
| 1-2分 | 890 | 7.9% |
| 2-3分 | 3749 | 33.2% |
| 3-4分 | 5079 | 45.0% |
| 4-5分 | 1440 |
主要制作公司分布
| 记录数量 | 占比 | |
|---|---|---|
| Paramount Pictures | 531 | 4.1% |
| Warner Bros. Pictures | 424 | 3.3% |
| Universal Pictures | 375 | 2.9% |
| Warner Home Video | 345 | 2.7% |
| MGM | 325 | 2.5% |
| Sony Pictures Home Entertainment | 315 | 2.4% |
| 20th Century Fox | 310 | 2.4% |
| Columbia Pictures | 298 | 2.3% |
| United Artists | 243 | 1.9% |
| MGM Home Entertainment | 241 |
影评数据分布
| 记录数量 | 占比 | |
|---|---|---|
| 专业影评人评论 | 460245 | 100% |
| Top Critic评论 | 114643 | 24.9% |
| 涉及电影数 | 4781 | - |
| 平均每部电影评论数 | 96.3 |
影评来源分布(Top 10)
| 评论数量 | 占比 | |
|---|---|---|
| eFilmCritic.com | 4564 | 1.0% |
| New York Times | 4278 | 0.9% |
| Time Out | 4253 | 0.9% |
| Washington Post | 4043 | 0.9% |
| Entertainment Weekly | 3775 | 0.8% |
| Variety | 3754 | 0.8% |
| Austin Chronicle | 3451 | 0.7% |
| Chicago Sun-Times | 3359 | 0.7% |
| Los Angeles Times | 3099 | 0.7% |
| Empire Magazine | 3014 |
数据规模与质量
数据集包含13,001部电影的完整信息记录,覆盖42年时间跨度,数据字段丰富程度达到31个维度的综合信息。数据完整性整体较高,核心字段如电影名称、类型、评分等信息完整性达到95%以上。46万条专业影评评论为数据分析提供了坚实的文本基础,平均每部电影拥有96.3条专业评论,确保了数据样本的代表性和可靠性。
数据优势
| 具体表现 | 应用价值 | |
|---|---|---|
| 数据规模优势 | 涵盖13,001部电影和46万条专业影评 | 为大规模机器学习模型提供充足训练样本,支持深度数据挖掘和分析 |
| 时间跨度完整 | 覆盖1978-2020年共42年电影发展历程 | 支持电影史研究、趋势分析和跨时代比较研究 |
| 评分体系专业 | 双重评分机制:专业影评人评分+观众评分 | 便于对比分析专业评价与大众喜好,发现评分差异规律 |
| 多维度数据 | 31个详细字段包含基本信息、评分、评论、制作信息 | 支持多角度数据分析和综合应用场景 |
| 高质量评论内容 | 来自权威媒体和专业影评人的详细文字评论 | 支持自然语言处理、情感分析和文本挖掘研究 |
| 类型分布均衡 | 15种主要电影类型,剧情片占主导地位 | 适合训练各种类型电影的分析和推荐模型 |
| 制作公司信息 | 包含主要制片厂和独立制片信息 | 支持产业分析、品牌研究等商业应用 |
| 完整性验证 | 核心字段完整性超过95% | 确保分析结果的可靠性和准确性 |
| 多语言适应性 | 英文数据可支持中英双语研究和对比分析 |
数据样例
注意:由于数据集中包含完整的原始文件(详细的电影描述文本、海报图片链接等),文件体积较大且格式多样化,因此在文章中无法直接展示全部原始内容。但数据集确实包含完整的电影海报图片链接、详细剧情描述、演员导演信息等原始文件信息,可供实际研究使用。
电影信息元数据样例(15条)
-
Tillie's Punctured Romance (1914)
-
类型:经典电影、喜剧
-
导演:Charles Bennett, Mack Sennett
-
主演:Charles Chaplin, Marie Dressler, Mabel Normand
-
专业评分:83分(新鲜度:新鲜)
-
观众评分:44分(好感度:一般)
-
时长:73分钟
-
-
Cabiria (1914)
-
类型:艺术电影与国际、经典电影、剧情片
-
导演:Giovanni Pastrone
-
专业评分:89分(新鲜度:新鲜)
-
观众评分:69分(好感度:正面)
-
时长:181分钟
-
-
The Phantom Carriage (1920)
-
类型:艺术电影与国际、剧情片、恐怖、科幻奇幻
-
导演:Victor Sjöström
-
专业评分:100分(新鲜度:新鲜)
-
观众评分:90分(好感度:正面)
-
时长:89分钟
-
-
Nosferatu, a Symphony of Horror (1922)
-
类型:艺术电影与国际、经典电影、恐怖、科幻奇幻
-
导演:F.W. Murnau
-
专业评分:97分(新鲜度:认证新鲜)
-
观众评分:87分(好感度:正面)
-
时长:63分钟
-
-
Blood and Sand (1922)
-
类型:经典电影、剧情片、爱情
-
导演:Dorothy Arzner, Fred Niblo
-
专业评分:100分(新鲜度:新鲜)
-
观众评分:61分(好感度:正面)
-
-
Our Hospitality (1923)
-
类型:经典电影、喜剧、家庭儿童
-
导演:Buster Keaton, Jack Blystone, John G. Blystone
-
专业评分:96分(新鲜度:新鲜)
-
观众评分:90分(好感度:正面)
-
时长:74分钟
-
-
The Lost World (1925)
-
类型:动作冒险、科幻奇幻
-
导演:Harry O. Hoyt
-
类型:经典电影、家庭儿童、科幻奇幻
-
专业评分:83分(新鲜度:新鲜)
-
时长:93分钟
-
-
The General (1926)
-
类型:喜剧、特别兴趣
-
导演:Arthur Hotaling
-
专业评分:98分(新鲜度:认证新鲜)
-
时长:78分钟
-
-
Metropolis (1927)
-
类型:科幻奇幻、经典电影
-
导演:Fritz Lang
-
专业评分:94分(新鲜度:认证新鲜)
-
时长:153分钟
-
-
The Jazz Singer (1927)
-
类型:剧情片、音乐与表演艺术
-
导演:Alan Crosland
-
专业评分:75分(新鲜度:新鲜)
-
时长:88分钟
-
-
The Passion of Joan of Arc (1928)
-
类型:艺术电影与国际、剧情片、经典电影
-
导演:Carl Theodor Dreyer
-
专业评分:98分(新鲜度:认证新鲜)
-
时长:82分钟
-
-
The Man Who Laughs (1928)
-
类型:经典电影、剧情片、恐怖、科幻奇幻
-
导演:Paul Leni
-
专业评分:79分(新鲜度:新鲜)
-
时长:65分钟
-
-
The Docks of New York (1928)
-
类型:剧情片、经典电影、爱情
-
导演:Josef von Sternberg
-
专业评分:95分(新鲜度:认证新鲜)
-
时长:76分钟
-
-
Un Chien Andalou (1929)
-
类型:艺术电影与国际、特别兴趣
-
导演:Luis Buñuel
-
专业评分:83分(新鲜度:新鲜)
-
时长:16分钟
-
-
The Adventures of Prince Achmed (1926)
-
类型:动画、艺术电影与国际、特别兴趣
-
导演:Lotte Reiniger
-
专业评分:91分(新鲜度:新鲜)
-
时长:80分钟
-
影评内容样例(10条)
-
来自 eFilmCritic.com: "Has more belly laughs than 10 studio-produced, star-vehicle comedies." 评分:4/5 | 类型:正面评价 | 评价者:专业影评人
-
来自 New York Times: "Calling this story about a quirky high-school student from a dysfunctional family who lives in a goofy small town a one-joke movie is exaggerating by a factor of 10." 评分:0.5/4 | 类型:负面评价 | 评价者:顶级影评人
-
来自 Variety: "There are lots of laughs for those who enjoy the sight of bottom dwellers doing stupid things that make them look even more idiotic." 评分:无评分 | 类型:负面评价 | 评价者:顶级影评人
-
来自 Time Out: "For those who think there'e nothing funnier than yokels acting like idiots for 90 minutes straight." 评分:0.5/4 | 类型:负面评价 | 评价者:专业影评人
-
来自 St. Paul Pioneer Press: "We laugh at all the nerdy behavior in the movie, and there's a reason that's OK: Because, deep down, we know we are all nerds." 评分:3.5/4 | 类型:正面评价 | 评价者:专业影评人
-
来自 Oregonian: "He makes Geekus Hollywoodium -- always played by someone such as Ben Stiller, whom we know to be fundamentally cool beneath his nerdy veneer -- look like the fraudulent genus we know it to be." 评分:B | 类型:正面评价 | 评价者:专业影评人
-
来自 Detroit News: "An independent take on a Hollywood tradition, undermined by its cliches but saved by its performances." 评分:C+ | 类型:正面评价 | 评价者:顶级影评人
-
来自 Detroit Free Press: "May be the most condescending comedy ever to imagine itself being too cool for the room." 评分:1/4 | 类型:负面评价 | 评价者:顶级影评人
-
来自 Deseret News: "This is basically a collection of hit-and-miss skits that are stumbling around in search of a story line." 评分:2.5/4 | 类型:中性评价 | 评价者:专业影评人
-
来自 Salt Lake Tribune: "Hess and Heder allow Napoleon to remain his geeky self from beginning to end, a guy who -- like his movie -- dares to be different and succeeds." 评分:3.5/4 | 类型:正面评价 | 评价者:专业影评人
应用场景
电影推荐系统开发
基于本数据集的丰富电影信息和多维度评分体系,可以构建高度精准的电影推荐系统。通过分析电影的类型、导演、演员、评分历史等信息,结合用户的历史偏好和评价行为,实现个性化的电影推荐。数据集提供的46万条专业影评和观众评分为推荐算法提供了可靠的训练基础。特别是双重评分机制(专业评分+观众评分)能够帮助推荐系统更好地平衡艺术价值与商业价值,推荐出既符合用户个人喜好又具有较高艺术价值的优质电影。这种推荐系统可以广泛应用于流媒体平台、电影院线、电影社区等场景,为不同类型的用户提供精准的观影建议。
情感分析与自然语言处理研究
数据集中包含的大量影评文本为自然语言处理和情感分析研究提供了宝贵的训练数据。研究人员可以利用这些真实的专业影评内容,开发和改进情感分析算法、文本分类模型、观点挖掘技术等。通过对不同媒体机构、不同类型电影的评价文本进行分析,可以探索影评语言的表达规律、情感倾向的分布特征、专业术语的使用模式等。这些技术可以应用于影评网站、社交媒体监控、市场调研分析等领域,帮助企业了解公众对产品或服务的情感态度,支持品牌管理和市场策略制定。同时,基于专业影评人的评价数据训练的模型在处理正式文本和评论类内容方面具有显著优势。
电影市场趋势分析
本数据集跨越42年的时间跨度,为电影市场趋势分析提供了完整的历史数据支撑。通过分析不同年代的电影类型分布、评分变化、制作成本趋势、观众喜好演变等,可以识别电影行业的发展规律和周期性变化。研究人员可以利用这些数据进行预测性分析,预测未来电影市场的发展方向、观众偏好变化、新兴类型电影的潜力等。这种分析对于电影制作公司、投资机构、发行商等具有重要价值,可以指导内容创作策略、发行时机选择、营销资源配置等决策。例如,通过分析近年来恐怖片、科幻片等类型的市场表现,可以为新项目的投资决策提供数据支持;通过分析观众评分与票房收入的关联性,可以优化电影的营销推广策略。
电影史研究
对于电影史学研究和人文社科研究,本数据集提供了宝贵的电影历史资料。通过分析不同时期的电影类型、制作技术、叙事风格、主题内容等变化,可以深入了解电影艺术的发展轨迹和社会文化背景。研究人员可以利用这些数据进行定量分析,验证或挑战传统的电影史理论,发现被忽视的历史趋势和规律。例如,通过分析女性导演在历史中的分布变化,可以研究电影行业的性别平等进程;通过分析不同国家地区电影在国际市场中的表现,可以探讨全球化对电影产业的影响。这些研究不仅具有学术价值,也为当代电影创作和政策制定提供历史借鉴。
影视产业竞争分析
利用数据集包含的制作公司信息、票房数据、评分表现等,可以进行深度的影视产业竞争分析。通过分析不同制片厂的类型偏好、制作规模、市场表现等,可以构建产业生态图谱,识别主要竞争者和市场机会。研究人员可以利用这些数据进行企业战略分析、产品组合优化、市场定位研究等。对于投资机构而言,这些分析数据可以帮助识别有潜力的影视公司、评估投资风险、制定投资组合策略。对于政策制定者而言,这些分析结果可以为产业政策制定、文化产业扶持措施等提供数据支持,促进电影产业的健康发展和国际竞争力提升。
结尾
RT电影数据集作为目前最为完整和权威的电影信息资源之一,为电影研究、算法训练和产业应用提供了坚实的基础。数据集涵盖的13,001部电影信息和46万条专业影评不仅在数量上具有显著优势,在质量上也达到了专业标准,特别是双重评分机制和详细的元数据结构为各种研究和应用场景提供了丰富的可能性。
数据集的核心价值在于其完整性和权威性。46年的电影发展历程记录、来自4,781部电影的46万条专业评论、31个维度的详细信息字段,共同构建了一个全面的电影生态系统。这种数据完整性和历史连续性使得研究人员能够进行深度的时间序列分析、趋势预测研究,以及跨时代的比较分析。同时,专业影评人的评价数据和来自权威媒体的评论内容确保了数据的学术价值和可信赖性。
在实际应用中,数据集展现出了强大的实用性和创新潜力。从推荐系统开发到情感分析研究,从市场趋势分析到电影史研究,从产业竞争分析到政策制定支持,数据集的应用场景广泛而深入。特别是对于机器学习和人工智能领域而言,这样大规模、高质量的结构化和非结构化数据为算法训练和模型优化提供了宝贵的资源。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:




