chmwang

verify-tag108584条零售用户行为全量数据集-覆盖会话点击浏览加购收藏购买流失转化商品品类品牌价格渠道设备地区流量来源的电商推荐系统与转化分析机器学习训练数据

8.6

已售 0
11.3MB

数据标识:D17775386667813302

发布时间:2026/04/30

# 108584条零售用户行为全量数据集:电商推荐、转化分析与用户路径建模样本

## 引言与背景

零售电商平台的增长分析、推荐系统优化和用户转化建模,离不开对真实业务链路中用户行为轨迹的结构化理解。本数据集围绕线上零售用户在会话内的浏览、点击、加购、收藏、购买与流失行为展开,提供了从用户会话、行为顺序、商品信息、渠道来源、设备环境到转化结果的完整事件级记录。数据内容由结构化元数据与行为标注字段构成,包含会话编号、用户编号、UTC 时间戳、事件序号、用户动作、商品编号、品类、品牌、价格、访问渠道、设备类型、地区、流量来源、停留时长、会话长度、交互次数、是否转化以及是否流失等信息。

该数据集适合用于科研建模、算法训练和行业分析,尤其适用于电商用户路径分析、转化率预测、流失识别、商品推荐、渠道归因、精细化运营和用户行为序列建模。相比仅提供订单结果的数据,本数据集保留了转化前后的多类中间行为,能够支持从“用户看到了什么、如何互动、在哪一步离开、什么情况下完成购买”等角度进行综合研究。由于所有统计均基于全量 108,584 条记录计算,且 18 个字段完整率均为 100%,数据在建模前处理、特征工程和实验复现方面具有较好的基础质量。

## 数据基本信息

本数据集为 CSV 表格文件,包含 108,584 条事件记录、18 个字段,覆盖 18,000 个会话、6,806 个用户、1,200 个商品、8 个商品品类、33 个品牌、3 类访问渠道、4 类设备类型、9 个地区和 7 类流量来源。时间范围为 2026-01-01 08:15:17 UTC 至 2026-05-01 07:57:37 UTC,记录粒度为用户会话内的单次行为事件。

### 数据字段说明

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| session_id | 字符串 | 会话唯一编号,用于还原同一次访问过程中的行为序列 | S0000001 | 完整率 100%,缺失率 0% |
| user_id | 字符串 | 用户唯一编号,可用于用户级行为聚合与复购/流失分析 | U000372 | 完整率 100%,缺失率 0% |
| timestamp_utc | 字符串/时间 | 行为发生的 UTC 时间戳,可用于时间分布、漏斗时序和周期分析 | 2026-01-08T02:34:40Z | 完整率 100%,缺失率 0% |
| event_index | 整数 | 行为在当前会话中的顺序编号 | 1 | 完整率 100%,缺失率 0% |
| user_action | 字符串/类别 | 用户行为类型,包括浏览、点击、加购、收藏、购买、流失等 | view | 完整率 100%,缺失率 0% |
| product_id | 字符串 | 商品唯一编号,可用于商品热度、共现和推荐建模 | P1481 | 完整率 100%,缺失率 0% |
| category | 字符串/类别 | 商品所属品类 | Electronics | 完整率 100%,缺失率 0% |
| brand | 字符串/类别 | 商品品牌名称 | Samsung | 完整率 100%,缺失率 0% |
| price | 浮点数 | 商品价格,范围为 7.29 至 499.86 | 316.55 | 完整率 100%,缺失率 0% |
| channel | 字符串/类别 | 用户访问渠道,包括 mobile、web、app | mobile | 完整率 100%,缺失率 0% |
| device_type | 字符串/类别 | 用户使用的设备类型 | desktop | 完整率 100%,缺失率 0% |
| region | 字符串/类别 | 用户地区代码 | JP | 完整率 100%,缺失率 0% |
| traffic_source | 字符串/类别 | 流量来源,如自然流量、直接访问、搜索、社媒等 | organic | 完整率 100%,缺失率 0% |
| time_spent_sec | 整数 | 当前事件停留时长,单位为秒,范围为 3 至 64 | 25 | 完整率 100%,缺失率 0% |
| session_length | 整数 | 当前会话的总事件数,范围为 3 至 13 | 4 | 完整率 100%,缺失率 0% |
| interaction_count | 整数 | 截至当前事件的交互计数,与会话进程相关 | 1 | 完整率 100%,缺失率 0% |
| is_conversion | 整数/标签 | 是否发生转化,1 表示购买转化,0 表示未转化 | 0 | 完整率 100%,缺失率 0% |
| drop_off_flag | 整数/标签 | 是否发生流失或离开,1 表示流失事件,0 表示非流失事件 | 0 | 完整率 100%,缺失率 0% |

### 时间分布

| 月份 | 记录数量 | 占比 | 累计占比 |
|---|---:|---:|---:|
| 2026-01 | 27,322 | 25.16% | 25.16% |
| 2026-02 | 25,205 | 23.21% | 48.37% |
| 2026-03 | 28,000 | 25.79% | 74.16% |
| 2026-04 | 27,703 | 25.51% | 99.67% |
| 2026-05 | 354 | 0.33% | 100.00% |

### 用户行为分布

| 用户行为 | 记录数量 | 占比 |
|---|---:|---:|
| view | 44,245 | 40.75% |
| click | 27,735 | 25.54% |
| drop | 13,797 | 12.71% |
| add_to_cart | 11,642 | 10.72% |
| wishlist | 6,962 | 6.41% |
| purchase | 4,203 | 3.87% |

### 商品品类分布

| 商品品类 | 记录数量 | 占比 |
|---|---:|---:|
| Groceries | 13,879 | 12.78% |
| Accessories | 13,740 | 12.65% |
| Sports | 13,739 | 12.65% |
| Shoes | 13,648 | 12.57% |
| Apparel | 13,562 | 12.49% |
| Home | 13,475 | 12.41% |
| Electronics | 13,376 | 12.32% |
| Beauty | 13,165 | 12.12% |

### 访问渠道与设备分布

| 维度 | 类别 | 记录数量 | 占比 |
|---|---|---:|---:|
| channel | mobile | 36,430 | 33.55% |
| channel | web | 36,333 | 33.46% |
| channel | app | 35,821 | 32.99% |
| device_type | android | 27,839 | 25.64% |
| device_type | tablet | 27,017 | 24.88% |
| device_type | ios | 26,875 | 24.75% |
| device_type | desktop | 26,853 | 24.73% |

### 地区分布

| 地区 | 记录数量 | 占比 |
|---|---:|---:|
| JP | 12,519 | 11.53% |
| US | 12,496 | 11.51% |
| DE | 12,208 | 11.24% |
| CA | 12,130 | 11.17% |
| IN | 12,075 | 11.12% |
| BR | 11,955 | 11.01% |
| UK | 11,816 | 10.88% |
| AU | 11,778 | 10.85% |
| FR | 11,607 | 10.69% |

### 流量来源分布

| 流量来源 | 记录数量 | 占比 |
|---|---:|---:|
| organic | 16,039 | 14.77% |
| direct | 15,993 | 14.73% |
| paid_search | 15,609 | 14.38% |
| referral | 15,417 | 14.20% |
| social | 15,293 | 14.08% |
| affiliate | 15,191 | 13.99% |
| email | 15,042 | 13.85% |

### 转化与流失标签分布

| 标签维度 | 标签值 | 记录数量 | 占比 |
|---|---:|---:|---:|
| is_conversion | 0 | 104,381 | 96.13% |
| is_conversion | 1 | 4,203 | 3.87% |
| drop_off_flag | 0 | 94,787 | 87.29% |
| drop_off_flag | 1 | 13,797 | 12.71% |

### 关键数值字段概览

| 字段 | 最小值 | 均值 | 中位数 | 最大值 | 说明 |
|---|---:|---:|---:|---:|---|
| event_index | 1 | 3.83 | 4 | 13 | 会话内事件顺序 |
| price | 7.29 | 249.50 | 253.85 | 499.86 | 商品价格 |
| time_spent_sec | 3 | 17.83 | 18 | 64 | 单次事件停留时长 |
| session_length | 3 | 6.67 | 7 | 13 | 会话总长度 |
| interaction_count | 1 | 3.83 | 4 | 13 | 当前交互累计次数 |

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 事件级行为链路完整 | 数据记录了浏览、点击、加购、收藏、购买和流失等关键事件,并保留会话内顺序编号 | 可用于漏斗分析、路径还原、序列建模和用户行为预测,帮助研究转化前后的行为差异 |
| 多维业务字段覆盖 | 同时包含商品、品类、品牌、价格、渠道、设备、地区、流量来源、停留时长和转化标签 | 便于构建多特征机器学习样本,支持推荐系统、转化率预测、流失识别和运营归因 |
| 数据完整性高 | 108,584 条记录中 18 个字段均无缺失,字段完整率为 100% | 降低清洗成本,便于直接用于统计分析、特征工程、教学实验和模型基线构建 |
| 类别分布均衡度较好 | 商品品类、访问渠道、设备类型、地区和流量来源覆盖较均匀 | 有助于减少单一类别过度主导造成的分析偏差,适合开展多维对比研究 |
| 标签任务明确 | 提供 is_conversion 与 drop_off_flag 两类结果标记 | 可直接用于二分类建模、转化率估计、流失预警、样本不均衡处理和模型评估 |
| 时间跨度清晰 | 覆盖 2026 年 1 月至 2026 年 5 月初的连续行为记录 | 支持月度趋势、周期性行为、阶段性渠道效果和时间序列特征构建 |

## 数据样例

以下为元数据与行为事件样例,展示不同会话、动作、品类、品牌、渠道、设备、地区、流量来源以及转化/流失标签的多样性。实际数据集中包含完整的 108,584 条结构化记录,可用于全量统计、建模训练和结果复现。

| session_id | user_id | timestamp_utc | event_index | user_action | product_id | category | brand | price | channel | device_type | region | traffic_source | time_spent_sec | session_length | interaction_count | is_conversion | drop_off_flag |
|---|---|---|---:|---|---|---|---|---:|---|---|---|---|---:|---:|---:|---:|---:|
| S0000001 | U000372 | 2026-01-08T02:34:40Z | 1 | view | P1481 | Electronics | Samsung | 316.55 | mobile | desktop | JP | organic | 25 | 4 | 1 | 0 | 0 |
| S0000001 | U000372 | 2026-01-08T02:35:20Z | 2 | wishlist | P1481 | Electronics | Samsung | 316.55 | mobile | desktop | JP | organic | 28 | 4 | 2 | 0 | 0 |
| S0000001 | U000372 | 2026-01-08T02:36:13Z | 4 | drop | P1481 | Electronics | Samsung | 316.55 | mobile | desktop | JP | organic | 16 | 4 | 4 | 0 | 1 |
| S0000002 | U004812 | 2026-01-29T11:07:27Z | 1 | view | P1836 | Groceries | OrganicCo | 212.37 | mobile | tablet | UK | direct | 15 | 4 | 1 | 0 | 0 |
| S0000002 | U004812 | 2026-01-29T11:07:40Z | 2 | add_to_cart | P1836 | Groceries | OrganicCo | 212.37 | mobile | tablet | UK | direct | 6 | 4 | 2 | 0 | 0 |
| S0000002 | U004812 | 2026-01-29T11:08:49Z | 4 | drop | P1836 | Groceries | OrganicCo | 212.37 | mobile | tablet | UK | direct | 34 | 4 | 4 | 0 | 1 |
| S0000003 | U001935 | 2026-03-08T08:35:51Z | 2 | click | P1816 | Groceries | FreshFarm | 261.82 | web | android | AU | organic | 14 | 6 | 2 | 0 | 0 |
| S0000003 | U001935 | 2026-03-08T08:37:46Z | 6 | purchase | P1816 | Groceries | FreshFarm | 261.82 | web | android | AU | organic | 24 | 6 | 6 | 1 | 0 |
| S0000004 | U001996 | 2026-01-24T06:10:24Z | 1 | view | P2136 | Sports | Adidas | 42.68 | app | desktop | IN | affiliate | 17 | 3 | 1 | 0 | 0 |
| S0000004 | U001996 | 2026-01-24T06:11:38Z | 3 | drop | P1303 | Accessories | Coach | 272.61 | app | desktop | IN | affiliate | 11 | 3 | 3 | 0 | 1 |
| S0000005 | U000024 | 2026-02-20T19:25:41Z | 1 | view | P1358 | Accessories | Puma | 294.96 | web | android | CA | affiliate | 36 | 4 | 1 | 0 | 0 |
| S0000005 | U000024 | 2026-02-20T19:26:06Z | 3 | wishlist | P1734 | Beauty | Olay | 263.92 | web | android | CA | affiliate | 3 | 4 | 3 | 0 | 0 |
| S0000005 | U000024 | 2026-02-20T19:26:20Z | 4 | drop | P1664 | Beauty | Olay | 122.43 | web | android | CA | affiliate | 13 | 4 | 4 | 0 | 1 |
| S0000006 | U001428 | 2026-02-18T15:24:11Z | 1 | view | P2032 | Home | Mainstays | 300.15 | web | tablet | CA | direct | 3 | 7 | 1 | 0 | 0 |
| S0000006 | U001428 | 2026-02-18T15:25:10Z | 2 | click | P1089 | Shoes | Puma | 444.17 | web | tablet | CA | direct | 42 | 7 | 2 | 0 | 0 |
| S0000006 | U001428 | 2026-02-18T15:26:52Z | 6 | view | P1125 | Shoes | New Balance | 117.83 | web | tablet | CA | direct | 16 | 7 | 6 | 0 | 0 |

## 应用场景

1. 电商推荐系统训练与商品排序优化。 本数据集可以用于构建基于用户行为序列的推荐模型,将浏览、点击、收藏、加购和购买作为不同强度的兴趣信号,结合商品品类、品牌、价格、渠道和地区等特征,训练召回、粗排或精排模型。研究人员可以通过会话编号和事件顺序还原同一次访问中的兴趣演化过程,分析用户从初始曝光到最终购买之间的行为变化,并进一步评估不同品类、价格区间或品牌对转化概率的影响。在产业应用中,该数据可用于模拟电商平台的实时推荐链路,帮助比较协同过滤、序列推荐、梯度提升树、深度排序模型等方案在转化预测、点击预测和购买预测中的表现。2. 用户转化率预测与营销投放归因分析。 数据中的 is_conversion 字段为转化建模提供了明确标签,traffic_source、channel、device_type、region、time_spent_sec 和 session_length 等字段则可作为解释变量,支持分析不同来源、渠道和设备环境下的转化差异。企业可以基于该数据建立转化率预测模型,识别高意向用户、优质流量来源和高价值商品组合,从而优化广告预算分配与站内资源位排序。科研或教学场景中,也可以使用该数据演示样本不均衡处理、概率校准、特征重要性解释、AUC/召回率/精确率评估等完整流程,使模型训练不只停留在静态分类,而是贴近真实增长业务中的投放评估和转化提升问题。3. 用户流失识别与会话漏斗诊断。 drop_off_flag 字段能够直接支持流失事件识别,结合 event_index、interaction_count、session_length、user_action 和 time_spent_sec,可以研究用户在会话的哪一阶段更容易离开,以及不同商品品类、品牌、渠道或设备是否存在更高流失风险。运营人员可以使用该数据构建流失预警模型,发现高风险路径,例如多次浏览后未点击、加购后未购买、收藏后快速离开等行为模式,并据此设计优惠提醒、页面优化、客服触达或推荐补位策略。对于算法研发,该数据适合用于二分类、序列分类和异常路径检测,帮助模型学习“正常浏览推进”和“流失中断”之间的行为差异。4. 用户行为路径分析与漏斗可视化研究。 由于数据保留了会话编号、事件顺序和交互计数,能够将分散的事件记录重组为完整用户路径,适合开展路径转移、漏斗转化、行为共现、停留时长分析和多步骤转化分析。分析者可以计算从 view 到 click、从 click 到 add_to_cart、从 add_to_cart 到 purchase 的阶段转化率,也可以比较不同渠道或地区在每个阶段的用户留存表现。该场景对于产品经理、数据分析师和增长团队尤其有价值,因为它不仅回答“最终有多少人购买”,还可以解释“用户在哪一步被吸引、在哪一步犹豫、在哪一步离开”,从而为页面布局、商品详情、价格展示和推荐策略提供可执行依据。5. 数据科学教学、特征工程与模型评估实验。 本数据集字段结构清晰、标签明确、类别和数值变量兼具,适合作为数据科学课程、机器学习实验和企业内部培训的综合样本。学习者可以围绕数据读取、缺失检查、类别编码、时间特征提取、价格分箱、用户会话聚合、标签构造、训练集划分和模型评估等环节完成端到端练习。由于数据规模达到十万级,既能体现真实分析中对性能和全量统计的要求,又不会过大到难以在普通环境中处理。教师和研究者还可以围绕类别分布、转化率不平衡、地区差异、渠道效果等主题设计实验任务,使课程内容更贴近电商、零售和增长分析的实际业务语境。

## 结尾

总体来看,该零售用户行为数据集以事件级记录为核心,兼具用户路径、商品信息、访问环境、流量来源和结果标签,能够支持从基础统计分析到机器学习建模的多层次应用。数据完整率高、维度覆盖全面、行为链路清晰,适合用于电商推荐系统、转化率预测、流失识别、漏斗分析、渠道归因和数据科学教学等场景。对于需要构建零售行为画像、验证算法效果或开展业务增长研究的团队而言,这份数据提供了结构规范、易于加工且具有较强应用价值的样本基础。有需要可进一步结合具体研究目标进行特征扩展、模型训练和可视化分析。

看了又看

数据加载中

验证报告

以下为卖家选择提供的数据验证报告:

data icon
108584条零售用户行为全量数据集-覆盖会话点击浏览加购收藏购买流失转化商品品类品牌价格渠道设备地区流量来源的电商推荐系统与转化分析机器学习训练数据
8.6
已售 0
11.3MB
申请报告