# 亚洲剧集评分数据:用户行为与内容偏好分析数据集
## 引言与背景
随着流媒体平台的快速发展和全球化趋势,亚洲剧集(尤其是韩剧、日剧、华语剧等)在全球范围内获得了广泛关注和喜爱。观众的观看行为和评分数据不仅反映了内容偏好,也为影视制作、发行和推荐系统提供了宝贵的参考依据。本数据集包含来自Mydramalist平台的全量用户评分数据,涵盖了8.4万余名用户对5万余部亚洲剧集的1.41亿条评分记录,为影视行业的市场研究、内容分析和推荐系统开发提供了全面、准确的数据支持。
数据集由三个核心文件组成:用户信息表(df_users.parquet)、剧集信息表(df_shows.parquet)和用户评分记录表(df_pairs.parquet)。这些数据不仅包含了用户的基本信息、剧集的元数据,还详细记录了用户的观看行为、评分偏好和完成状态,为深入分析用户行为模式和内容市场趋势提供了丰富的维度。对于科研人员而言,这些数据可用于开发更精准的推荐算法;对于影视行业从业者,这些数据可帮助洞察市场需求、优化内容创作和发行策略。
## 数据基本信息
### 字段说明表格
| 数据文件 | 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|---------|--------|
| df_pairs.parquet | score | float64 | 用户评分(0-10分,间隔0.5分) | 8.5 | 100% |
| df_pairs.parquet | sid | int64 | 剧集ID | 25652 | 100% |
| df_pairs.parquet | uid | int64 | 用户ID | 61239 | 100% |
| df_pairs.parquet | ep_seen | int64 | 已观看集数 | 24 | 100% |
| df_pairs.parquet | ep_total | int64 | 剧集总集数 | 24 | 100% |
| df_pairs.parquet | completed | bool | 是否观看完成 | True | 100% |
| df_shows.parquet | country | category | 制作国家/地区 | South Korea | 100% |
| df_shows.parquet | year | int64 | 制作年份 | 2019 | 100% |
| df_shows.parquet | kind | category | 剧集类型 | Drama | 100% |
| df_shows.parquet | title | category | 剧集标题 | Melting Me Softly | 100% |
| df_shows.parquet | sid | int64 | 剧集ID | 25652 | 100% |
| df_users.parquet | username | object | 用户名 | honestlybananas | 100% |
| df_users.parquet | gender | category | 用户性别(F/M/U) | F | 100% |
| df_users.parquet | join_date | datetime64[us] | 注册日期 | 2019-10-15 | 99.32% |
| df_users.parquet | last_online | datetime64[us] | 最后在线时间 | 2022-05-15 | 99.32% |
| df_users.parquet | ndropped | int64 | 弃看剧集数 | 2 | 100% |
| df_users.parquet | ncompleted | int64 | 完成剧集数 | 6 | 100% |
| df_users.parquet | uid | int64 | 用户ID | 61239 | 100% |
### 数据分布情况表格
#### 1. 评分分布
| 评分 | 记录数量 | 占比 |
|------|---------|------|
| 10.0 | 1,697,576 | 12.03% |
| 8.0 | 1,831,159 | 12.98% |
| 9.0 | 1,483,927 | 10.52% |
| 0.0 | 2,977,829 | 21.11% |
| 7.0 | 1,219,018 | 8.64% |
| 8.5 | 1,210,466 | 8.58% |
| 7.5 | 1,059,252 | 7.51% |
| 9.5 | 742,694 | 5.26% |
| 6.0 | 537,045 | 3.81% |
| 6.5 | 431,966 | 3.06% |
| 5.0 | 289,500 | 2.05% |
| 其他 | 1,786,484 | 12.66% |
#### 2. 剧集类型分布
| 剧集类型 | 记录数量 | 占比 |
|---------|---------|------|
| Movie | 23,187 | 46.00% |
| Drama | 18,487 | 36.67% |
| TV Show | 5,567 | 11.04% |
| Drama Special | 3,170 | 6.29% |
#### 3. 国家/地区分布
| 国家/地区 | 剧集数量 | 占比 |
|---------|---------|------|
| Japan | 14,245 | 28.26% |
| South Korea | 12,047 | 23.90% |
| China | 8,858 | 17.57% |
| Thailand | 6,686 | 13.26% |
| Hong Kong | 3,876 | 7.69% |
| Philippines | 2,919 | 5.79% |
| Taiwan | 1,779 | 3.53% |
| Singapore | 1 | 0.00% |
#### 4. 用户性别分布
| 性别 | 用户数量 | 占比 |
|-----|---------|------|
| F | 59,714 | 70.58% |
| U | 16,667 | 19.70% |
| M | 8,226 | 9.72% |
#### 5. 观看完成状态分布
| 完成状态 | 记录数量 | 占比 |
|---------|---------|------|
| 已完成 | 13,062,272 | 92.59% |
| 未完成 | 1,045,790 | 7.41% |
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 数据规模庞大 | 包含1.41亿条评分记录,涵盖8.4万用户和5万部剧集 | 提供足够的样本量支持大规模数据分析和模型训练,确保结果的统计显著性 |
| 数据完整性高 | 核心字段(评分、用户ID、剧集ID等)完整性达100% | 减少数据清洗成本,提高分析效率和准确性 |
| 维度丰富 | 同时包含用户信息、剧集元数据和观看行为数据 | 支持多维度交叉分析,深入洞察用户行为模式和内容偏好 |
| 时间跨度广 | 剧集年份从1898年到2024年,用户注册时间跨度超过10年 | 可用于分析长期市场趋势和用户行为演变 |
| 覆盖地区全面 | 包含日本、韩国、中国、泰国等多个亚洲国家/地区的内容 | 支持区域市场对比分析,为全球化内容策略提供参考 |
| 行为细节完整 | 记录了观看集数、完成状态等详细行为数据 | 可用于分析用户观看习惯和内容粘性,优化内容创作和推荐策略 |
## 数据样例
### 用户信息样例
| 用户名 | 性别 | 注册日期 | 最后在线 | 弃看剧集数 | 完成剧集数 | 用户ID |
|-------|-----|---------|---------|-----------|-----------|--------|
| honestlybananas | F | 2019-10-15 | 2022-05-15 | 2 | 6 | 61239 |
| palmawurzel | U | 2021-07-24 | 2023-02-24 | 18 | 164 | 73580 |
| pulomeow | F | 2022-05-09 | 2022-05-30 | 27 | 69 | 74723 |
| 7756207 | F | 2020-01-16 | 2023-04-10 | 35 | 383 | 6389 |
| Cariad | F | 2012-01-03 | 2014-07-27 | 9 | 354 | 21209 |
### 剧集信息样例
| 国家/地区 | 年份 | 类型 | 标题 | 剧集ID |
|---------|------|-----|------|--------|
| South Korea | 2019 | Drama | Melting Me Softly | 25652 |
| South Korea | 2021 | Drama | Snowdrop | 33603 |
| South Korea | 2020 | Drama | 365: Repeat the Year | 29824 |
| South Korea | 2019 | Drama | Big Issue | 24045 |
| South Korea | 2019 | Drama | Graceful Family | 25688 |
### 用户评分记录样例
| 评分 | 剧集ID | 用户ID | 已看集数 | 总集数 | 完成状态 |
|------|--------|--------|---------|-------|---------|
| 7.0 | 25652 | 61239 | 4 | 16 | False |
| 1.5 | 33603 | 61239 | 0 | 16 | False |
| 9.0 | 29824 | 61239 | 24 | 24 | True |
| 7.5 | 24045 | 61239 | 32 | 32 | True |
| 10.0 | 25688 | 61239 | 16 | 16 | True |
| 8.0 | 27115 | 73580 | 16 | 16 | True |
| 9.0 | 26931 | 73580 | 16 | 16 | True |
| 8.5 | 26304 | 73580 | 16 | 16 | True |
| 7.0 | 24251 | 73580 | 16 | 16 | True |
| 9.5 | 28891 | 73580 | 16 | 16 | True |
## 应用场景
### 1. 个性化推荐系统开发
基于用户评分和观看行为数据,开发更精准的个性化推荐算法是本数据集最直接的应用场景之一。通过分析用户的历史评分记录、观看完成状态和内容偏好,可以构建用户画像和内容特征向量,进而训练协同过滤、内容推荐或混合推荐模型。例如,利用用户对不同类型、国家/地区剧集的评分数据,可以识别用户的潜在偏好;结合观看集数和完成状态,可以分析用户对特定内容的接受度和粘性。这些模型不仅可以应用于影视流媒体平台,也可以用于视频网站、社交媒体和电商平台的内容推荐功能,提升用户体验和平台粘性。
### 2. 影视内容市场分析与趋势预测
数据集包含了5万余部亚洲剧集的元数据和1.41亿条用户评分记录,为影视内容市场分析提供了全面的视角。通过分析不同国家/地区、类型、年代剧集的评分分布和用户接受度,可以洞察市场趋势和内容偏好变化。例如,韩国剧集在全球范围内的高评分和受欢迎程度,反映了其在内容创作和全球化发行方面的成功经验;电影和剧集的不同评分模式,揭示了观众对不同内容形式的期待差异。这些分析结果可帮助影视制作公司优化内容选题、定位目标受众,也可为发行平台制定更有效的内容采购和推广策略提供参考。
### 3. 用户行为模式与内容消费习惯研究
8.4万余名用户的基本信息和行为数据为研究用户行为模式和内容消费习惯提供了丰富的素材。通过分析用户的注册时间、最后在线时间、完成剧集数和弃看剧集数,可以洞察用户的活跃度、忠诚度和消费频率;结合性别、评分偏好等维度,可以识别不同用户群体的行为特征和内容偏好差异。例如,女性用户占比超过70%的现象反映了亚洲剧集的主要受众特征;用户评分分布中高分和低分占比较高的特点,揭示了观众对内容质量的敏感度和评价的极端化倾向。这些研究结果不仅可以用于学术研究,也可以为平台运营和用户管理提供参考。
### 4. 内容质量评估与创作优化
用户评分是衡量内容质量的重要指标之一。通过分析不同类型、国家/地区剧集的平均评分和评分分布,可以评估内容质量的整体水平和差异。例如,韩国剧集的平均评分(6.42)高于其他国家/地区,反映了其在内容质量上的优势;电影和剧集的评分模式差异,为不同内容形式的创作提供了参考。此外,通过分析用户对特定剧集的评分和完成状态,可以识别内容的吸引力和改进空间。例如,某些剧集的高弃看率可能反映了剧情节奏或内容质量的问题,为后续创作提供了改进方向。
## 结尾
本数据集作为亚洲剧集领域的全量用户评分数据,为影视行业的市场研究、内容分析和推荐系统开发提供了全面、准确的数据支持。其庞大的数据规模、丰富的维度和高完整性使其成为科研人员和行业从业者的宝贵资源。通过深入分析这些数据,不仅可以洞察用户行为模式和内容偏好,也可以为影视制作、发行和推广提供科学依据。
数据集的核心优势在于其全面性和真实性,涵盖了8.4万余名用户对5万余部亚洲剧集的1.41亿条评分记录,真实反映了市场需求和用户偏好。随着流媒体平台的持续发展和全球化趋势的加强,这些数据的价值将进一步凸显。无论是开发更精准的推荐算法,还是优化内容创作和发行策略,本数据集都将发挥重要作用,为影视行业的创新和发展提供有力支持。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






