# SBOLPro用户行为预测数据集 - 105万条用户交互记录与1345维特征数据
## 引言与背景
在电子商务和在线零售领域,用户行为数据是理解用户需求、优化推荐系统和提升转化率的关键。本数据集包含超过105万条用户-产品交互记录,涵盖19万+用户与19种产品的互动行为,是进行用户行为分析、销售预测和推荐算法研究的宝贵资源。
数据集包含完整的用户交互元数据(时间戳、用户ID、产品ID)、销售转化标签(is_sold)以及1345维数值型特征,为机器学习模型训练提供了丰富的数据基础。这些特征可能包括用户画像、产品属性、上下文信息等多种维度,能够支持从简单的分类任务到复杂的深度学习模型训练。
## 数据基本信息
### 数据集概览
| 项目 | 描述 |
|------|------|
| 数据规模 | 1,056,889 行 × 1,349 列 |
| 时间范围 | 2023年1月至2023年5月 |
| 用户数量 | 190,439 个 |
| 产品数量 | 19 个 |
| 格式 | Parquet |
### 数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|----------|----------|----------|----------|----------|
| timestamp | datetime64 | 用户交互时间戳 | 2023-01-15 00:00:00 | 100% |
| user_id | int32 | 用户唯一标识 | 1010508 | 100% |
| product_id | int32 | 产品唯一标识 | 1 | 100% |
| is_sold | int32 | 是否购买(0=未购买,1=已购买) | 0 | 100% |
| feature_0 ~ feature_1344 | float64 | 用户/产品特征向量 | 0.123456 | 约91.49% |
### 数据分布情况
#### 时间分布
| 月份 | 记录数量 | 占比 | 累计占比 |
|------|----------|------|----------|
| 2023-01 | 229,119 | 21.68% | 21.68% |
| 2023-02 | 345,970 | 32.73% | 54.41% |
| 2023-03 | 292,327 | 27.66% | 82.07% |
| 2023-04 | 184,141 | 17.42% | 99.49% |
| 2023-05 | 5,332 | 0.51% | 100.00% |
#### 销售转化分布
| is_sold | 记录数量 | 占比 |
|---------|----------|------|
| 0(未购买) | 983,970 | 93.10% |
| 1(已购买) | 72,919 | 6.90% |
#### 用户行为分布
| 统计项 | 值 |
|--------|------|
| 总用户数 | 190,439 |
| 平均每个用户记录数 | 5.55 |
| 总产品数 | 19 |
| 平均每个产品记录数 | 55,625.74 |
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|----------|----------|----------|
| 数据规模大 | 超过105万条交互记录,19万+用户 | 支持大规模模型训练,提高模型泛化能力 |
| 特征维度丰富 | 1345维数值型特征 | 可用于复杂模型训练,捕捉细粒度特征 |
| 时间跨度完整 | 覆盖5个月的用户行为 | 支持时序分析和趋势预测 |
| 标签明确 | is_sold字段明确标注购买转化 | 适合二分类任务,如购买预测 |
| 数据格式规范 | Parquet格式,便于高效读写 | 支持快速数据加载和处理 |
| 缺失率可控 | 整体缺失率约8.51% | 可通过常规缺失值处理方法解决 |
## 数据样例
以下为数据集的元数据样例(特征字段未展示):
| timestamp | user_id | product_id | is_sold |
|-----------|---------|------------|---------|
| 2023-01-15 | 1010508 | 1 | 0 |
| 2023-01-15 | 1010508 | 2 | 0 |
| 2023-01-15 | 1010508 | 10 | 0 |
| 2023-01-15 | 1025935 | 2 | 0 |
| 2023-01-15 | 1025935 | 10 | 0 |
| 2023-01-15 | 1126019 | 0 | 0 |
| 2023-01-15 | 1126019 | 1 | 0 |
| 2023-01-15 | 1126019 | 2 | 0 |
| 2023-01-15 | 1127920 | 0 | 0 |
| 2023-01-15 | 1127920 | 2 | 0 |
| 2023-01-15 | 1148380 | 5 | 0 |
| 2023-01-15 | 1148380 | 6 | 0 |
| 2023-01-15 | 1148380 | 10 | 0 |
| 2023-01-15 | 1200116 | 0 | 0 |
| 2023-01-15 | 1200116 | 1 | 0 |
> 说明:上述样例仅展示元数据字段(timestamp、user_id、product_id、is_sold)。完整数据集中包含1345维特征字段(feature_0 ~ feature_1344),这些特征为数值型向量,用于描述用户和产品的各种属性。
## 应用场景
### 购买转化预测
基于用户历史行为数据和产品特征,训练机器学习模型预测用户是否会购买特定产品。这是一个典型的二分类任务,is_sold字段作为标签,1345维特征作为输入特征。通过分析用户点击、浏览、收藏等行为模式,可以识别潜在购买用户,帮助企业优化营销策略和资源配置。该模型可应用于电商平台的个性化推荐系统,提高转化率和销售额。
### 用户行为分析
通过对时间分布、用户分布和产品分布的分析,深入了解用户行为模式和偏好。例如,分析不同月份的用户活跃度变化,识别销售高峰期;分析用户对不同产品的偏好,优化产品推荐策略;分析用户购买决策因素,改进产品设计和定价策略。这些分析结果可以为企业提供数据驱动的决策支持。
### 推荐系统优化
利用用户-产品交互数据训练协同过滤模型或深度学习推荐模型,提高推荐系统的准确性和个性化程度。通过分析用户的历史购买记录和浏览行为,可以发现用户之间的相似性和产品之间的关联性,从而提供更精准的推荐。这对于提升用户体验、增加用户粘性和提高复购率具有重要意义。
### 营销效果评估
通过对比购买转化数据和营销活动时间线,评估不同营销活动的效果。例如,分析在特定营销活动期间用户购买转化率的变化,判断营销活动是否达到预期效果。这有助于企业优化营销策略,提高营销投入的回报率。
## 结尾
本数据集是一个高质量的用户行为预测数据集,包含超过105万条用户-产品交互记录和1345维特征,为用户行为分析、购买预测和推荐系统研究提供了丰富的数据资源。数据集具有数据规模大、特征维度丰富、时间跨度完整等优点,可广泛应用于机器学习模型训练、数据分析和商业决策支持等领域。
数据集以Parquet格式存储,便于高效读写和处理。用户可以根据实际需求选择合适的特征子集进行模型训练,也可以结合业务知识对特征进行进一步的工程处理。
如有需要,可获取更多数据集相关信息。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






