数据描述
全球电视剧详情数据集TMDb版-15万剧集完整元数据-21字段嵌套结构-剧名简介类型制作公司评分季数集数-影视推荐研究
数据集简介
本数据集为全球电视剧详情数据集(All TV Series Details Dataset),源自TMDb(The Movie Database)影视数据库,包含152,970部电视剧的完整元数据,覆盖剧名、原始名称、简介、标语、类型、制作公司、创作者、播出日期、季数集数、评分投票数、流行度和制作状态等21个核心字段,以CSV(扁平化188列)和JSON(嵌套结构21字段)两种格式提供,总容量约238MB。数据集为影视推荐系统、剧集内容分析、类型趋势研究和流媒体平台运营提供了全球范围的权威数据基础,是评估剧集质量、分析观众偏好和预测市场趋势的标准数据资源。
数据集的核心价值在于其规模与信息密度:15.3万部剧集覆盖全球多国制作(美、英、日、韩等),包含从经典老剧到最新热播剧的完整时间跨度;21个字段提供多维分析视角,如genres类型字段支持类型分布研究,created_by创作者字段可分析导演/编剧影响力,production_companies制作公司字段揭示产业格局,vote_average/vote_count评分投票数量化观众反馈,number_of_seasons/number_of_episodes季数集数反映剧集规模,in_production/status字段追踪制作动态;双格式存储(CSV便于批量处理,JSON保留嵌套结构)满足不同分析需求。该数据集特别适用于推荐算法训练、剧集评分预测、类型趋势分析、制作公司研究、观众偏好挖掘和流媒体内容策略优化等应用场景。
数据基本信息
核心字段说明(JSON格式21字段)
| 字段名 | 类型 | 含义 | 示例 | 说明 |
|---|---|---|---|---|
| id | int | TMDb剧集唯一ID | 13, 2490 | 与TMDb API对应 |
| name | string | 剧集名称 | How do you like Wednesday?, Clerks | 显示名称(可能翻译) |
| original_name | string | 原始名称 | 水曜どうでしょう | 原始语言标题 |
| overview | text | 剧集简介 | How do you like Wednesday? was a Japanese... | 剧情概述(长文本) |
| tagline | string | 标语/口号 | - | 营销标语 |
| genres | array | 类型列表 | [{id, name}] | 多类型(Drama, Comedy等) |
| original_language | string | 原始语言 | ja, en | 语言代码(ISO 639-1) |
| origin_country | array | 制作国家 | ["JP"], ["US"] | 国家代码(ISO 3166-1) |
| first_air_date | date | 首播日期 | 1996-10-09 | YYYY-MM-DD格式 |
| last_air_date | date | 末播日期 | 2002-09-18 | 最后一集播出日期 |
| number_of_seasons | int | 季数 | 1-345 | 总季数 |
| number_of_episodes | int | 集数 | 1-15704 | 总集数 |
| status | string | 状态 | Ended, Returning Series, In Production | 制作/播出状态 |
| in_production | bool | 是否在制作中 | true/false | 当前制作状态 |
| created_by | array | 创作者 | [{id, name}] | 导演/编剧/制作人 |
| production_companies | array | 制作公司 | [{id, name, logo_path, origin_country}] | 制作方信息 |
| vote_average | float | 平均评分 | 0.0-10.0 | TMDb用户评分 |
| vote_count | int | 投票人数 | - | 评分样本量 |
| popularity | float | 流行度 | - | TMDb流行度指标 |
| poster_path | string | 海报路径 | /xxxx.jpg | TMDb海报图片路径 |
CSV格式说明(188列扁平化)
- 扁平化策略: 嵌套字段通过索引展开,如genres[0].id, genres[1].id...genres[7].id
- 列分组:
- 基础信息: _id, id, name, original_name, overview, tagline等(约20列)
- 制作国家: origin_country[0-7] (8列)
- 类型: genres[0-7].id/name/_id (24列)
- 创作者: created_by[0-15].id/name/_id (48列)
- 制作公司: production_companies[0-17].id/name/logo_path/origin_country/_id (90列)
- 其他: vote_average, vote_count, popularity, __v等
- 完整性: 10.47%(由于扁平化导致大量列稀疏,JSON格式更完整)
全量统计摘要
- 总剧集数: 152,970部(CSV) / 152,970项(JSON)
- 文件容量: CSV 86.71MB, JSON 151.33MB, 合计238.04MB
- 字段数量: CSV 188列(扁平化), JSON 21字段(嵌套结构)
- 数值范围:
- 集数: 0-15,704集(最大为长寿肥皂剧)
- 季数: 0-345季
- 评分: 0.0-10.0分(TMDb 10分制)
- 语言: 多语言(ja日语, en英语, ko韩语等)
- 国家: 全球多国(US美国, JP日本, GB英国, KR韩国等)
数据特点
| 特点 | 具体表现 | 应用价值 |
|---|---|---|
| 全球覆盖 | 包含日、美、英、韩等多国剧集 | 支持跨国剧集对比与国际市场研究 |
| 双格式提供 | CSV便于批量分析,JSON保留嵌套结构 | 满足不同工具与分析场景需求 |
| 多维元数据 | 21字段涵盖内容、制作、评分、市场4大维度 | 支持多角度分析(内容、产业、受众) |
多样化样本展示
以下展示10部代表性剧集(基于JSON格式):
样本1: 日本综艺节目
- 剧名: How do you like Wednesday? (水曜どうでしょう)
- id: 13
- 类型: 喜剧/综艺
- 国家: 日本(JP)
- 首播: 1996-10-09
- 简介: How do you like Wednesday? was a Japanese television variety series that aired on the HTB network in Hokkaidō, Japan...(日本北海道地方综艺节目,1996年开播,曾创下18.6%收视率纪录)
- 特点: 地方台综艺节目,对日本地方电视产业有重大影响
样本2: 美国情景喜剧
- 剧名: Clerks
- id: 2490
- 类型: 动画/喜剧
- 国家: 美国(US)
- 首播: 2000-05-31
- 简介: The adventures of two convenience store clerks...(两位便利店店员的冒险故事)
- 特点: 基于电影改编的动画剧集
样本3-10: 其他类型剧集
(涵盖剧情、科幻、犯罪、爱情、悬疑等多种类型,跨越不同年代与国家制作)
注: 样本显示数据集包含从小众地方节目到主流商业剧集的完整光谱,体现全球影视产业的多样性。
应用场景
场景一:智能推荐系统与协同过滤算法训练
影视推荐是流媒体平台的核心功能,本数据集的15.3万剧集元数据可用于训练多种推荐算法。研究者可基于genres类型字段构建基于内容的推荐(content-based filtering),计算剧集间的类型相似度(如Jaccard系数或余弦相似度),为喜欢某类型(如科幻、悬疑)的用户推荐同类剧集。通过分析vote_average评分和vote_count投票数,可过滤低质量剧集(如评分<6.0或投票数<100),提升推荐质量。此外,可利用production_companies制作公司字段,发现用户对特定制作方的偏好(如HBO、Netflix Original),进行制作公司级推荐。结合number_of_seasons和number_of_episodes,可识别用户对长剧(>10季)或短剧(<1季)的偏好,匹配内容长度。通过popularity流行度字段,可平衡推荐的多样性与热门度,避免推荐过于小众或过于主流。在协同过滤(collaborative filtering)场景下,可结合外部用户观看记录,发现"看过剧集A的用户也喜欢剧集B"的模式,训练矩阵分解(如SVD)或深度学习(如神经协同过滤)模型。这些推荐技术,可显著提升流媒体平台的用户留存率与内容消费时长,优化商业价值。
场景二:剧集评分预测与质量评估模型
预测剧集评分对于投资决策、内容采购和质量控制具有重要意义。本数据集的vote_average评分可作为监督学习的目标变量,结合genres类型、created_by创作者、production_companies制作公司、number_of_seasons季数、first_air_date播出年份等特征,训练回归模型(如随机森林、XGBoost、神经网络)预测未上线剧集的潜在评分。通过特征工程,可提取高阶特征,如"创作者历史平均评分"(优秀导演加持)、"制作公司平均评分"(大厂出品质量保障)、"类型组合稀缺度"(创新题材可能溢价或受冷)、"季数与评分负相关"(长剧易注水)。通过分析vote_count投票数,可识别评分的可靠性,如投票数少的评分可能存在抽样偏差,需降低权重或使用贝叶斯平滑。此外,可构建分类模型,将评分分为高分(>8.0)、中等(6.0-8.0)、低分(<6.0)三类,预测剧集质量等级。通过可解释性技术(如SHAP值),可识别影响评分的关键因素,为制作方提供改进建议(如加强剧本质量、邀请知名创作者)。这些评分预测模型,可用于内容采购决策(优先购买高预测评分剧集)、投资风险评估(避免低质量项目)和营销资源分配(重点推广潜力剧集)。
场景三:类型趋势分析与内容策略优化
影视类型的流行度随时间演变,本数据集可用于追踪类型趋势与指导内容策略。研究者可按first_air_date播出年份分组,统计各类型(genres字段)的剧集产出量,绘制时间序列图,识别类型兴衰周期,如"2000年代情景喜剧流行"、"2010年代超级英雄剧崛起"、"近年悬疑犯罪剧增长"。通过对比不同年代的类型分布,可量化类型多样性变化(如使用香农熵或赫芬达尔指数),评估市场是否趋于集中或分散。此外,可分析类型组合(multi-genre)的趋势,如"科幻+剧情"、"犯罪+心理"等复合类型是否越来越常见,反映观众口味的复杂化。结合vote_average评分,可计算各类型的平均评分与评分方差,识别"高评分类型"(如纪录片、历史剧)与"评分分化类型"(如科幻剧质量差异大),指导投资决策。通过分析origin_country国家与类型的交叉分布,可发现"韩国擅长爱情剧"、"英国擅长历史剧"、"日本擅长动画"等地域特色,为国际合作与内容引进提供参考。这些类型趋势研究,可帮助制作方抓住市场机会(布局新兴类型)、流媒体平台优化内容库构成(补齐缺失类型)和投资者识别赛道潜力(避开红海、发现蓝海)。
场景四:制作公司影响力与产业格局分析
制作公司是影视产业的核心主体,本数据集的production_companies字段可用于分析产业格局与公司竞争力。研究者可统计各制作公司的剧集产出量,识别头部公司(如HBO、Netflix、BBC、ABC),绘制市场份额图,量化产业集中度(如CR10市场前10名占比)。通过计算各公司的平均评分与平均投票数,可评估公司的质量控制能力与市场影响力,如"HBO平均评分8.5,高质量口碑"、"Netflix产量高但评分分化大"。此外,可分析公司的类型专长,如某公司主要制作犯罪剧,另一公司专注喜剧,揭示公司的战略定位与核心竞争力。通过时间序列分析,可追踪公司的兴衰轨迹,如"传统电视台产量下降"、"流媒体平台产量激增",反映产业变革趋势。结合origin_country国家字段,可分析公司的国际化程度,如某公司是否仅在本土制作或跨国合作,评估全球化布局。此外,可构建公司合作网络,分析联合制作模式,识别产业联盟与竞合关系。这些产业分析,不仅可为投资者评估公司投资价值,也可为政策制定者了解产业健康度,制定扶持政策或反垄断措施。
场景五:长剧与短剧的生命周期与观众偏好研究
剧集长度(季数集数)反映制作策略与观众偏好,本数据集可用于长短剧研究。研究者可按number_of_seasons季数分组,分析不同长度剧集的分布,如"单季剧占比"、"多季剧(>5季)占比",量化长短剧的市场结构。通过对比长剧与短剧的评分(vote_average),可验证"长剧易注水评分下降"或"经典长剧评分稳定"的假设,揭示剧集长度对质量的影响。此外,可分析季数与投票数(vote_count)的关系,评估长剧的观众基础是否更稳固(忠实粉丝多)或短剧吸引力更强(新观众易入门)。结合first_air_date和last_air_date,可计算剧集播出跨度(生命周期),分析"年播剧"(每年一季)、"半年播剧"、"多年停播后复播"等不同播出模式,探索最优发行策略。通过分析status状态字段(Ended已完结, Returning Series续订, Cancelled取消),可计算续订率与取消率,识别哪些特征(类型、评分、公司)影响剧集存续,为制作方提供续订决策参考。此外,可研究number_of_episodes集数的分布,如"美剧单季13-22集"、"英剧单季6-8集"、"日剧单季10-12集",揭示不同国家的制作习惯与观众耐受度差异。这些长短剧研究,可指导内容策划(是做长剧系列还是迷你剧)、排播策略(周播还是一次性放出)和营销定位(强调持续陪伴还是快速爽感)。
场景六:国际剧集市场对比与跨文化传播研究
origin_country制作国家字段支持跨国市场对比分析。研究者可统计各国的剧集产量,识别影视制作大国(美、英、日、韩等)与新兴市场(印度、土耳其、西班牙等),绘制全球影视版图。通过对比不同国家的类型偏好(genres分布),可发现文化差异,如"美国科幻动作多"、"韩国爱情剧多"、"英国历史剧多"、"日本动画多",反映国家文化特色与观众偏好。此外,可分析各国剧集的评分(vote_average)与国际流行度(popularity),评估跨文化传播能力,如韩剧在全球流行度高反映韩流影响力,或某国剧集评分高但流行度低反映小众精品。通过分析original_language语言字段,可研究语言障碍对传播的影响,如英语剧集国际流行度是否显著高于非英语剧集,或字幕/配音策略如何影响接受度。结合production_companies国际合作数据,可分析跨国联合制作趋势,如"中美合拍"、"欧洲多国联制",评估国际合作对质量与市场的影响。此外,可研究剧集在不同国家的播出时间差(通过比较first_air_date与当地上线时间),分析内容分发策略与时差效应。这些国际市场研究,可为内容出口(识别海外潜力市场)、引进策略(选择适合本土口味的国外剧)和国际合作(寻找互补伙伴)提供数据支持。
场景七:创作者影响力与明星效应分析
created_by创作者字段可用于分析导演、编剧、制片人对剧集成功的影响。研究者可统计高产创作者(参与剧集数量多),识别业内大咖,如某导演参与100+部剧,反映其行业地位。通过计算创作者的平均评分与平均流行度,可量化其"金字招牌"效应,如"某编剧作品平均评分8.5,粉丝效应强"。此外,可分析创作者的类型专长,如某导演擅长科幻,另一编剧擅长犯罪,揭示创作风格与市场定位。通过对比新人创作者与资深创作者的表现,可评估经验对成功的影响,或发现"新人黑马"(首部作品即高分)。结合制作公司数据,可分析创作者与公司的合作模式,如某导演长期与HBO合作,反映深度绑定关系。此外,可研究创作者的职业轨迹,如从低评分作品逐步成长为高评分作品,揭示成长曲线与学习效应。通过社交网络分析,可构建创作者合作网络,识别核心团队与创意社群,如某些导演、编剧、演员经常合作形成"黄金组合"。这些创作者研究,不仅可为片方选角与团队组建提供参考(邀请高影响力创作者),也可为创作者个人品牌建设提供数据支撑(展示历史成绩),推动影视产业的人才流动与价值发现。
场景八:剧集状态监测与续订预测模型
status状态字段(Ended, Returning Series, In Production, Cancelled)和in_production是否在制作中字段,可用于追踪剧集生命周期与预测续订决策。研究者可统计各状态的剧集分布,量化市场动态,如"在播剧占比"、"已完结剧占比"、"取消剧占比",评估市场活跃度与淘汰率。通过分析从"In Production"到"Returning Series"或"Cancelled"的转化率,可识别续订影响因素,如首季评分>7.5的剧集续订率达80%,评分<6.0的续订率仅20%。结合vote_average评分、vote_count投票数、popularity流行度、number_of_seasons当前季数等特征,可训练分类模型预测续订概率,为制作方提供决策支持(是否投资下一季)。此外,可分析取消剧集的特征,如"某类型取消率高"、"某公司取消率高",揭示市场风险点。通过时间序列分析last_air_date末播日期,可识别"停播多年后复播"的案例,研究剧集复活的条件(如粉丝请愿、流媒体收购)。这些状态监测与续订预测,可帮助制作方优化投资决策(及时止损或加码续订)、平台优化内容库管理(下架低价值剧集、续约高价值剧集)和观众管理追剧风险(避免追未完结即被砍的剧)。
场景九:剧集简介文本挖掘与主题建模
overview简介字段包含丰富的文本信息,可用于NLP分析与主题挖掘。研究者可使用TF-IDF、Word2Vec或BERT等技术提取简介的关键词与语义特征,发现剧集主题模式,如"犯罪调查"、"家庭矛盾"、"青春成长"、"末日生存"等高频主题。通过主题建模(如LDA),可无监督地发现潜在主题簇,将剧集分为若干主题类别,实现比genres类型更细粒度的分类。此外,可分析简介的情感倾向(sentiment analysis),如某些剧集简介偏正面(励志、温馨),某些偏负面(黑暗、悲剧),评估情感基调对评分与流行度的影响。通过比较original_name原始名称与name翻译名称的差异,可研究本地化策略,如某些剧集名称翻译更吸引人,某些保留原名更有异域感。结合created_by创作者与genres类型,可构建"创作者-主题-类型"三元关系网络,揭示创作者的主题偏好与跨类型创作能力。此外,可使用文本生成技术(如GPT),自动生成剧集简介或tagline标语,辅助营销文案创作。这些文本挖掘应用,不仅可提升推荐系统的语义理解能力(基于主题相似度推荐),也可为内容策划提供灵感(发现未覆盖的主题空白),推动影视内容创作的数据驱动化。
场景十:影视数据库构建与教育资源开发
本数据集可作为构建影视知识库或教育资源的基础数据。研究者可将数据导入图数据库(如Neo4j),建立剧集、创作者、制作公司、类型、国家等实体及其关系(如"剧集-属于-类型"、"创作者-创作-剧集"、"公司-制作-剧集"),支持复杂查询与知识推理,如"查找由HBO制作的犯罪剧且评分>8.0的剧集"、"推荐与《绝命毒师》创作者相同的剧集"。此外,可结合外部数据(如演员信息、剧评文本、票房数据),构建多模态知识图谱,实现更丰富的知识关联。在教育场景下,可将数据集用于数据科学、机器学习、NLP课程的实验项目,如"剧集推荐系统开发"、"评分预测模型训练"、"文本主题建模",学生可通过完整的数据分析流程(数据清洗、特征工程、模型训练、评估可视化)掌握核心技能。此外,可作为影视研究(Film Studies)、传播学(Communication)课程的案例数据,分析类型演变、产业格局、跨文化传播等议题,培养学生的批判性思维与研究能力。这些数据库与教育应用,不仅可推动影视领域的知识数字化与智能化,也可为跨学科人才培养提供优质资源,促进数据科学与人文社科的融合创新。
结论
全球电视剧详情数据集TMDb版,以152,970部剧集的完整元数据、21个核心字段和双格式存储(CSV 86.71MB + JSON 151.33MB),为影视推荐系统、剧集质量评估、类型趋势研究和产业分析提供了全球范围的权威数据基础。数据集整合了TMDb影视数据库的丰富信息,涵盖剧名、简介、类型、创作者、制作公司、评分、季数集数、播出日期、制作状态等多维度元数据,支持从内容特征、产业格局、观众反馈到市场趋势的全方位分析。
从应用价值看,数据集可用于智能推荐算法训练、评分预测模型开发、类型趋势分析、制作公司影响力评估、长短剧生命周期研究、国际市场对比、创作者明星效应分析、续订预测、文本主题挖掘和知识库构建等十大场景,为流媒体平台、制作方、投资者、研究者和教育工作者提供多层次支持。数据集的全球覆盖特性(多国多语言剧集)确保了国际市场研究的代表性,双格式提供(CSV便于批量处理、JSON保留嵌套结构)满足不同分析工具需求,多维元数据(21字段)支持从微观(单剧特征)到宏观(产业趋势)的多尺度分析。
需要注意的是,CSV格式因扁平化处理导致完整性仅10.47%(嵌套字段展开后稀疏),建议优先使用JSON格式进行结构化分析;数据来源为TMDb用户贡献,可能存在缺失、错误或滞后,需与官方API或其他数据源交叉验证;评分(vote_average)与流行度(popularity)受TMDb用户群体偏好影响,可能与其他平台(IMDb、豆瓣)存在差异;部分字段(如tagline、created_by)缺失率较高,影响相关分析的覆盖度。研究者在使用数据集时,应根据分析目标选择合适格式,结合外部数据进行补充与验证,并谨慎解释因果关系以避免过度推断。总体而言,本数据集为影视推荐与产业研究社区提供了宝贵的大规模元数据资源,有助于推动流媒体时代的内容智能化与产业数字化转型。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:









