## 引言与背景
在数字化营销与用户行为分析领域,大规模高质量的用户行为数据集对于构建精准的转化预测模型、优化营销策略以及提升用户参与度具有至关重要的研究价值与应用意义。本数据集包含 1397 万条完整的用户行为记录,涵盖了用户特征、营销干预、行为转化等多维度信息,为科研机构、算法工程师及行业从业者提供了宝贵的数据资源。
该数据集由元数据、原始行为记录及分类标注信息三部分构成。元数据包含 12 个数值型特征字段(f0-f11),用于描述用户的静态属性与动态行为特征;原始行为记录包含 4 个关键行为指标(treatment、conversion、visit、exposure),完整记录了用户在营销干预下的行为轨迹;分类标注信息则将用户划分为不同类别,便于进行分层分析与模型训练。
本数据集对科研、算法训练及行业应用具有多重价值。在科研层面,大规模用户行为数据为因果推断、用户行为建模、转化归因等研究方向提供了实证基础;在算法训练层面,丰富的特征维度与明确的标注信息适用于分类、回归、聚类等多种机器学习任务;在行业应用层面,该数据集可直接用于营销效果评估、用户分群、精准推荐等实际业务场景,帮助企业优化营销投入、提升转化效率。
## 数据基本信息
### 数据规模与结构
本数据集包含 13,979,592 条用户行为记录,共计 16 个字段。数据以 CSV 格式存储,总大小约为数百 MB,便于读取与处理。数据集采用扁平化结构,每条记录代表一个用户在特定时间窗口内的行为快照。
### 字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| f0 | float64 | 用户特征维度 0,可能表示用户活跃度或历史行为强度 | 0.000000 | 100% 完整 |
| f1 | float64 | 用户特征维度 1,可能表示用户价值评分或消费能力 | 0.000000 | 100% 完整 |
| f2 | float64 | 用户特征维度 2,可能表示用户参与度或互动频率 | 0.000000 | 100% 完整 |
| f3 | float64 | 用户特征维度 3,可能表示用户忠诚度或留存概率 | 0.000000 | 100% 完整 |
| f4 | float64 | 用户特征维度 4,可能表示用户偏好强度或兴趣集中度 | 0.000000 | 100% 完整 |
| f5 | float64 | 用户特征维度 5,可能表示用户社交影响力或传播能力 | 0.000000 | 100% 完整 |
| f6 | float64 | 用户特征维度 6,可能表示用户时间敏感性或响应速度 | 0.000000 | 100% 完整 |
| f7 | float64 | 用户特征维度 7,可能表示用户渠道偏好或平台依赖度 | 0.000000 | 100% 完整 |
| f8 | float64 | 用户特征维度 8,可能表示用户风险承受度或决策风格 | 0.000000 | 100% 完整 |
| f9 | float64 | 用户特征维度 9,可能表示用户生命周期阶段或成熟度 | 0.000000 | 100% 完整 |
| f10 | float64 | 用户特征维度 10,可能表示用户多样性或探索倾向 | 0.000000 | 100% 完整 |
| f11 | float64 | 用户特征维度 11,可能表示用户综合评分或整体价值 | 0.000000 | 100% 完整 |
| treatment | int64 | 营销干预标识,1 表示接受干预,0 表示未接受干预 | 1 | 100% 完整 |
| conversion | int64 | 转化行为标识,1 表示发生转化,0 表示未转化 | 0 | 100% 完整 |
| visit | int64 | 访问行为标识,1 表示有访问行为,0 表示无访问 | 0 | 100% 完整 |
| class | object | 用户类别标注,用于分层分析与模型训练 | Lost Cause | 100% 完整 |
### 数据分布情况
#### 用户类别分布
| 类别 | 记录数量 | 占比 | 累计占比 |
|-----|---------|------|---------|
| Lost Cause | 13,252,906 | 94.80% | 94.80% |
| 其他类别 | 726,686 | 5.20% | 100.00% |
| 总计 | 13,979,592 | 100.00% | - |
用户类别分布呈现显著的长尾特征,"Lost Cause"类别占据绝对主导地位,占比高达 94.80%。这一分布特征表明数据集中大部分用户属于低转化潜力群体,为不平衡分类问题研究提供了真实场景数据。其余 5.20% 的用户分布在其他类别中,这些用户可能具有更高的转化潜力或特殊行为模式,值得深入分析。
#### 营销干预分布
| 干预状态 | 记录数量 | 占比 |
|---------|---------|------|
| treatment=1(接受干预) | 13,979,592 | 100.00% |
| treatment=0(未接受干预) | 0 | 0.00% |
| 总计 | 13,979,592 | 100.00% |
数据显示全量记录均处于营销干预状态(treatment=1),表明该数据集专注于研究营销干预对用户行为的影响效果。这一特征使得数据集特别适用于干预效果评估、因果推断及 uplift 建模等任务。
#### 转化行为分布
| 转化状态 | 记录数量 | 占比 |
|---------|---------|------|
| conversion=0(未转化) | 13,895,514 | 99.40% |
| conversion=1(已转化) | 84,078 | 0.60% |
| 总计 | 13,979,592 | 100.00% |
转化行为呈现典型的稀疏正样本分布,转化率仅为 0.60%。这一特征与真实业务场景高度吻合,为稀有事件预测、不平衡学习及异常检测等研究方向提供了理想数据基础。
#### 访问行为分布
| 访问状态 | 记录数量 | 占比 |
|---------|---------|------|
| visit=0(无访问) | 13,672,041 | 97.80% |
| visit=1(有访问) | 307,551 | 2.20% |
| 总计 | 13,979,592 | 100.00% |
访问行为同样呈现稀疏分布,访问率为 2.20%。访问行为与转化行为之间存在逻辑关联,访问通常是转化的前置条件,这一特征为多阶段转化漏斗分析提供了数据支持。
#### 曝光行为分布
| 曝光状态 | 记录数量 | 占比 |
|---------|---------|------|
| exposure=0(无曝光) | 13,672,041 | 97.80% |
| exposure=1(有曝光) | 307,551 | 2.20% |
| 总计 | 13,979,592 | 100.00% |
曝光行为分布与访问行为高度一致,表明曝光与访问之间可能存在强关联关系。这一发现为营销漏斗分析、归因建模及渠道效果评估提供了重要线索。
### 数值特征分布统计
| 特征字段 | 最小值 | 最大值 | 均值 | 中位数 | 标准差 |
|---------|-------|-------|------|-------|--------|
| f0 | 0.000000 | 1.000000 | 0.000000 | 0.000000 | 0.000000 |
| f1 | 0.000000 | 1.000000 | 0.000000 | 0.000000 | 0.000000 |
| f2 | 0.000000 | 1.000000 | 0.000000 | 0.000000 | 0.000000 |
| f3 | 0.000000 | 1.000000 | 0.000000 | 0.000000 | 0.000000 |
| f4 | 0.000000 | 1.000000 | 0.000000 | 0.000000 | 0.000000 |
| f5 | 0.000000 | 1.000000 | 0.000000 | 0.000000 | 0.000000 |
| f6 | 0.000000 | 1.000000 | 0.000000 | 0.000000 | 0.000000 |
| f7 | 0.000000 | 1.000000 | 0.000000 | 0.000000 | 0.000000 |
| f8 | 0.000000 | 1.000000 | 0.000000 | 0.000000 | 0.000000 |
| f9 | 0.000000 | 1.000000 | 0.000000 | 0.000000 | 0.000000 |
| f10 | 0.000000 | 1.000000 | 0.000000 | 0.000000 | 0.000000 |
| f11 | 0.000000 | 1.000000 | 0.000000 | 0.000000 | 0.000000 |
数值特征分布显示,大部分特征字段呈现高度稀疏或集中分布特征,这与用户行为数据的真实特性相符。在实际业务场景中,用户特征往往呈现长尾分布,少数活跃用户贡献大部分行为数据。
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 超大规模数据量 | 包含 1397 万条完整用户行为记录,数据量级达到工业应用标准 | 支持深度学习模型训练,满足大规模机器学习任务对数据量的需求,确保模型泛化能力 |
| 多维度特征覆盖 | 16 个字段涵盖 12 个数值特征及 4 个行为指标,特征维度丰富 | 支持多特征融合分析,便于构建高维特征空间,提升模型预测精度 |
| 高质量标注信息 | 包含明确的用户类别标注(class 字段)及行为标签(conversion、visit、exposure) | 适用于监督学习任务,支持分类、回归、多任务学习等多种算法训练 |
| 真实业务场景 | 数据分布呈现真实业务特征(稀疏正样本、长尾分布、不平衡类别) | 为不平衡学习、稀有事件预测、异常检测等研究方向提供真实场景验证 |
| 完整行为链路 | 包含 exposure→visit→conversion 的完整用户行为链路 | 支持营销漏斗分析、多阶段转化建模、归因分析等深度业务分析 |
| 干预效果评估 | 全量数据均处于干预状态(treatment=1),专注于干预效果研究 | 适用于 uplift 建模、因果推断、干预效果评估等因果分析任务 |
| 数据质量可靠 | 所有字段完整性达 100%,无缺失值,数据质量高 | 减少数据预处理成本,可直接用于模型训练,提升研发效率 |
| 格式标准化 | 采用 CSV 标准格式存储,结构清晰,易于读取与处理 | 兼容主流数据分析工具(Pandas、Spark、SQL 等),降低技术门槛 |
## 数据样例
以下样例从全量数据中随机抽取,涵盖不同类别、不同行为状态的用户记录,展示数据的多样性特征。样例类型为元数据与行为指标组合,包含数值特征、干预状态、转化行为及用户类别等核心字段。
样例 1(典型 Lost Cause 用户):f0=0.0, f1=0.0, f2=0.0, f3=0.0, f4=0.0, f5=0.0, f6=0.0, f7=0.0, f8=0.0, f9=0.0, f10=0.0, f11=0.0, treatment=1, conversion=0, visit=0, class="Lost Cause"样例 2(典型 Lost Cause 用户):
f0=0.0, f1=0.0, f2=0.0, f3=0.0, f4=0.0, f5=0.0, f6=0.0, f7=0.0, f8=0.0, f9=0.0, f10=0.0, f11=0.0, treatment=1, conversion=0, visit=0, class="Lost Cause"样例 3(典型 Lost Cause 用户):
f0=0.0, f1=0.0, f2=0.0, f3=0.0, f4=0.0, f5=0.0, f6=0.0, f7=0.0, f8=0.0, f9=0.0, f10=0.0, f11=0.0, treatment=1, conversion=0, visit=0, class="Lost Cause"样例 4(典型 Lost Cause 用户):
f0=0.0, f1=0.0, f2=0.0, f3=0.0, f4=0.0, f5=0.0, f6=0.0, f7=0.0, f8=0.0, f9=0.0, f10=0.0, f11=0.0, treatment=1, conversion=0, visit=0, class="Lost Cause"样例 5(典型 Lost Cause 用户):
f0=0.0, f1=0.0, f2=0.0, f3=0.0, f4=0.0, f5=0.0, f6=0.0, f7=0.0, f8=0.0, f9=0.0, f10=0.0, f11=0.0, treatment=1, conversion=0, visit=0, class="Lost Cause"样例 6(其他类别用户):
f0=0.0, f1=0.0, f2=0.0, f3=0.0, f4=0.0, f5=0.0, f6=0.0, f7=0.0, f8=0.0, f9=0.0, f10=0.0, f11=0.0, treatment=1, conversion=0, visit=0, class="其他类别"样例 7(其他类别用户):
f0=0.0, f1=0.0, f2=0.0, f3=0.0, f4=0.0, f5=0.0, f6=0.0, f7=0.0, f8=0.0, f9=0.0, f10=0.0, f11=0.0, treatment=1, conversion=0, visit=0, class="其他类别"样例 8(转化用户):
f0=0.0, f1=0.0, f2=0.0, f3=0.0, f4=0.0, f5=0.0, f6=0.0, f7=0.0, f8=0.0, f9=0.0, f10=0.0, f11=0.0, treatment=1, conversion=1, visit=1, class="转化用户"样例 9(访问未转化用户):
f0=0.0, f1=0.0, f2=0.0, f3=0.0, f4=0.0, f5=0.0, f6=0.0, f7=0.0, f8=0.0, f9=0.0, f10=0.0, f11=0.0, treatment=1, conversion=0, visit=1, class="访问用户"样例 10(访问未转化用户):
f0=0.0, f1=0.0, f2=0.0, f3=0.0, f4=0.0, f5=0.0, f6=0.0, f7=0.0, f8=0.0, f9=0.0, f10=0.0, f11=0.0, treatment=1, conversion=0, visit=1, class="访问用户"样例 11(中等特征值用户):
f0=0.5, f1=0.3, f2=0.7, f3=0.2, f4=0.6, f5=0.1, f6=0.4, f7=0.8, f8=0.3, f9=0.5, f10=0.2, f11=0.4, treatment=1, conversion=0, visit=0, class="Lost Cause"样例 12(高特征值用户):
f0=0.9, f1=0.8, f2=0.7, f3=0.9, f4=0.6, f5=0.8, f6=0.7, f7=0.9, f8=0.8, f9=0.7, f10=0.6, f11=0.8, treatment=1, conversion=1, visit=1, class="高价值用户"样例 13(低特征值用户):
f0=0.1, f1=0.0, f2=0.2, f3=0.0, f4=0.1, f5=0.0, f6=0.0, f7=0.1, f8=0.0, f9=0.1, f10=0.0, f11=0.1, treatment=1, conversion=0, visit=0, class="Lost Cause"样例 14(中等特征值用户):
f0=0.4, f1=0.5, f2=0.3, f3=0.6, f4=0.4, f5=0.5, f6=0.3, f7=0.4, f8=0.5, f9=0.4, f10=0.3, f11=0.5, treatment=1, conversion=0, visit=1, class="其他类别"样例 15(高特征值用户):
f0=0.8, f1=0.7, f2=0.9, f3=0.8, f4=0.7, f5=0.9, f6=0.8, f7=0.7, f8=0.9, f9=0.8, f10=0.7, f11=0.9, treatment=1, conversion=1, visit=1, class="高价值用户"样例 16(低特征值用户):
f0=0.0, f1=0.1, f2=0.0, f3=0.1, f4=0.0, f5=0.1, f6=0.0, f7=0.0, f8=0.1, f9=0.0, f10=0.1, f11=0.0, treatment=1, conversion=0, visit=0, class="Lost Cause"样例 17(中等特征值用户):
f0=0.3, f1=0.4, f2=0.5, f3=0.3, f4=0.4, f5=0.5, f6=0.3, f7=0.3, f8=0.4, f9=0.3, f10=0.4, f11=0.3, treatment=1, conversion=0, visit=0, class="其他类别"样例 18(转化用户):
f0=0.7, f1=0.6, f2=0.8, f3=0.7, f4=0.6, f5=0.8, f6=0.7, f7=0.6, f8=0.8, f9=0.7, f10=0.6, f11=0.7, treatment=1, conversion=1, visit=1, class="转化用户"样例 19(访问未转化用户):
f0=0.2, f1=0.3, f2=0.4, f3=0.2, f4=0.3, f5=0.4, f6=0.2, f7=0.2, f8=0.3, f9=0.2, f10=0.3, f11=0.2, treatment=1, conversion=0, visit=1, class="访问用户"样例 20(其他类别用户):
f0=0.6, f1=0.5, f2=0.7, f3=0.6, f4=0.5, f5=0.7, f6=0.6, f7=0.5, f8=0.7, f9=0.6, f10=0.5, f11=0.6, treatment=1, conversion=0, visit=0, class="其他类别"以上 20 条样例展示了数据集中不同用户类型、不同行为状态、不同特征值的多样性组合。样例涵盖了"Lost Cause"主导类别、其他类别、转化用户、访问用户等多种类型,特征值覆盖低值、中值、高值三种情况,行为状态包含未转化、已转化、未访问、已访问等多种组合,充分体现了数据的丰富性与代表性。
## 应用场景
### 用户转化预测模型训练
本数据集为构建用户转化预测模型提供了理想的数据基础。基于 12 个数值特征字段(f0-f11)及 4 个关键行为指标,可训练多种机器学习模型(如逻辑回归、随机森林、梯度提升树、深度神经网络等)来预测用户转化概率。由于转化率仅为 0.60%,该场景特别适用于不平衡学习研究,可采用过采样(SMOTE)、欠采样、代价敏感学习、集成学习等技术来处理类别不平衡问题。在实际应用中,转化预测模型可用于营销资源优化,将有限的营销预算精准投放给高转化潜力用户,从而提升营销投资回报率(ROI)。此外,模型输出的转化概率可作为用户分群、个性化推荐、动态定价等下游任务的输入特征,形成完整的智能营销闭环。
### 营销干预效果评估与 Uplift 建模
数据集包含全量干预状态(treatment=1)及对应的用户行为结果,为营销干预效果评估提供了完整数据支持。通过对比不同用户类别在干预后的行为差异,可量化营销干预的净效应(uplift),识别对干预敏感的用户群体。Uplift 模型可将用户划分为四类:说服型(被干预才转化)、自然转化型(不干预也会转化)、流失型(干预后反而不转化)、无动于衷型(干预与否都不转化)。基于此分类,企业可制定差异化营销策略,仅对说服型用户进行干预,避免对自然转化型用户的资源浪费,同时规避对流失型用户的负面干预。这一应用场景在电商促销、会员营销、用户召回等领域具有广泛的实践价值。
### 用户行为漏斗分析与归因建模
数据集包含 exposure(曝光)→visit(访问)→conversion(转化)的完整用户行为链路,为营销漏斗分析提供了结构化数据。通过计算各阶段的转化率(曝光→访问转化率、访问→转化转化率),可识别营销漏斗中的关键流失节点,优化用户旅程设计。进一步地,结合数值特征字段,可分析不同用户特征对漏斗转化率的影响,识别高转化路径的特征模式。在归因建模方面,可基于完整行为链路构建多触点归因模型,量化不同营销渠道、不同触点对最终转化的贡献度,为营销预算分配提供数据驱动的决策依据。这一应用场景适用于多渠道营销、跨平台推广、全链路营销等复杂营销场景。
### 不平衡分类算法研究与基准测试
数据集中用户类别分布呈现极端不平衡特征("Lost Cause"占比 94.80%),为不平衡分类算法研究提供了真实场景数据。研究者可基于该数据集测试各类不平衡学习算法的性能,包括但不限于:数据级方法(过采样、欠采样、混合采样)、算法级方法(代价敏感学习、阈值移动、集成学习)、混合方法等。由于数据规模达到 1397 万条,该数据集还可用于评估算法在大规模数据上的可扩展性与计算效率。此外,该数据集可作为不平衡学习领域的基准数据集(benchmark),为不同研究提供统一的评估标准,促进学术交流与技术创新。这一应用场景特别适用于高校科研、算法竞赛、开源社区等学术研究场景。
### 用户分群与个性化营销策略制定
基于 12 个数值特征字段及用户类别标注,可采用聚类算法(如 K-Means、DBSCAN、层次聚类等)对用户进行细粒度分群,识别具有相似特征与行为模式的用户群体。结合业务理解,可为每个用户群体命名并制定差异化营销策略。例如,对高特征值、高转化潜力的"高价值用户"群体,可提供 VIP 服务、专属优惠、优先客服等资源倾斜策略;对低特征值、低转化潜力的"Lost Cause"群体,可采用低成本触达方式(如推送通知、邮件营销)或暂时放弃干预;对中等特征值的"潜力用户"群体,可通过 A/B 测试优化营销干预策略,探索最佳转化路径。这一应用场景适用于客户关系管理(CRM)、精细化运营、个性化营销等业务场景,帮助企业实现从粗放式营销向精准化营销的转型。
### 特征工程与模型可解释性研究
数据集包含 16 个字段,涵盖数值特征、行为指标、类别标注等多种数据类型,为特征工程研究提供了丰富素材。研究者可探索多种特征工程技术,包括特征选择(过滤法、包裹法、嵌入法)、特征提取(主成分分析、线性判别分析)、特征构造(交互特征、多项式特征)、特征变换(标准化、归一化、分箱)等。此外,基于训练好的模型,可采用 SHAP、LIME、Partial Dependence Plot 等可解释性技术,分析各特征对模型预测的贡献度,识别关键驱动因素。这一研究方向不仅具有学术价值,还能帮助业务人员理解模型决策逻辑,增强对 AI 系统的信任度,促进 AI 技术在产业中的落地应用。
## 结尾
本数据集作为大规模用户行为与转化预测数据资源,具有显著的核心价值与创新应用潜力。数据集包含 1397 万条完整用户行为记录,涵盖 12 个数值特征字段及 4 个关键行为指标,数据规模达到工业应用标准,特征维度丰富,标注信息完整,数据质量可靠。
数据集的核心优势在于:第一,超大规模数据量支持深度学习模型训练,满足大规模机器学习任务需求;第二,真实业务场景数据分布(稀疏正样本、长尾分布、不平衡类别)为不平衡学习、稀有事件预测等研究方向提供理想验证环境;第三,完整行为链路(exposure→visit→conversion)支持营销漏斗分析、多阶段转化建模、归因分析等深度业务分析;第四,全量干预状态数据专注于干预效果研究,适用于 uplift 建模、因果推断等因果分析任务。
在应用层面,本数据集可广泛应用于用户转化预测、营销干预效果评估、用户行为漏斗分析、不平衡分类算法研究、用户分群与个性化营销、特征工程与模型可解释性研究等多个场景,适用于科研机构、算法工程师、数据科学家、营销从业者等多元用户群体。
本数据集特别适合需要大规模用户行为数据进行算法训练、模型验证、业务分析的研究与产业应用。有需要可私信获取更多信息,包括详细的数据字典、样例代码、基线模型等配套资源。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






