数据描述
本数据集专为 2025 年美国运通校园挑战赛(产品赛道)打造,包含 55 列核心维度的客户点击流数据,覆盖客户 ID、优惠 ID、事件时间戳、行为变量(点击 / 浏览)等基础信息,以及衍生的活跃用户标识、折扣价值、消费分层、转化率等分析指标。数据严格匹配赛事 6 大问题(18 个子问题)的计算逻辑,支持验证活跃用户偏好、分析折扣敏感度、构建 Top N 优惠 / 客户档案及预测点击概率,可直接用于数据清洗、建模分析及答案输出,为赛事解决方案提供完整数据支撑。
产品基本信息
● 数据规模:684.42 MB(约 14 万 + 记录)× 55 列(含 10 个核心可见列及 45 个衍生分析列)
● 核心字段说明:
● 核心字段说明:
customer_id
:客户唯一标识(文本型,用于分群及计数)offer_id
:优惠唯一编号(文本型,关联优惠类别 / 折扣信息)event_ts
:事件时间戳(UTC 格式,精确到毫秒,用于计算活跃用户及时间序列)event_dt
:事件日期(YYYY-MM-DD,用于划分时间窗口如 “过去 30 天”)offer_action
:行为变量(1 = 点击,0 = 未点击,核心转化指标)- 衍生字段:活跃用户标签、每美元折扣价值、消费分层标签、转化率计算中间值等
● 数据格式:CSV(兼容 Python/pandas、SQL、Excel 等工具)
● 许可证:MIT(允许商用、修改及再分发,适合赛事场景)
● 更新频率:固定版本(无后续更新)
产品使用说明
-
数据预处理步骤:
- 异常值清理:按赛事指南移除无效记录(如缺失
customer_id
、offer_action
异常值)。 - 时间窗口定义:基于
event_ts
计算 “过去 30 天”(活跃用户)、“过去 3 个月”(消费统计)等时间范围。 - 指标计算:
- 转化率 = 点击次数(
offer_action=1
)/ 浏览次数(offer_action=0
) - 每美元折扣价值 = 折扣金额 / 消费金额(需从衍生列提取或计算)
- 转化率 = 点击次数(
- 异常值清理:按赛事指南移除无效记录(如缺失
-
赛事问题针对性操作:
- 问题 1 验证:
- 筛选
活跃用户=1
,统计其点击航空类offer_id
的占比,与非活跃用户对比。 - 计算两类用户的平均折扣节省金额,用
TRUE/FALSE
判断陈述真伪。 - 去重计数
customer_id
(活跃用户且点击航空优惠)。
- 筛选
- 问题 6 概率计算:
- 按
event_dt
排序,用 EWMA 公式(current = alpha×current_click + (1-alpha)×previous
)计算每日点击概率。 - 筛选 “过去点击过优惠” 的用户子集,重复步骤 1 计算条件概率,结果保留 3 位小数。
- 按
- 问题 1 验证:
-
输出格式规范:
- 键值对格式:如问题 4 的 “OfferID:Category”,用英文冒号分隔。
- 数值格式:浮点型保留 3 位小数(向下取整),整数直接输出。
- 提交列:严格按 “Question ID,Part ID,Answer” 格式整理(如 “1,1,TRUE”)。
应用场景
- 活跃用户行为验证:基于
event_ts
判断 30 天内访问用户(活跃用户),关联offer_id
(航空类)与offer_action
(点击),验证其是否更偏好航空优惠及折扣节省差异。 - 折扣价值敏感度分析:提取 “每美元折扣价值” 字段,按 50% 分位数划分高 / 低组,计算服务、购物、旅行类优惠的转化率差值(高 - 低)。
- 消费分层研究:通过
event_dt
计算客户过去 3 个月最高消费额,均等分为低 / 中 / 高消费群,分析各组奖励积分与美元的转换率。 - Top 10 优惠建模:按
offer_action
计算转化率(点击数 / 浏览数),筛选呈现次数高于均值的优惠,输出 ID 与类别映射及消费 / 转化指标。 - 邮件营销效果评估:聚焦过去 30 天参与邮件 campaign 的客户,按转化率排名前 15 位,计算点击 - 渠道比率、最佳优惠类别及邮件点击转化率。
- 点击概率预测:采用 EWMA(alpha=0.5)处理
event_ts
序列,计算营销邮件点击概率及历史点击用户的条件概率,修正新近偏差。
相似产品
CC0 公共领域Spotify 用户收听历史数据集(14.9 万条播放记录)音乐行为数据集、播放历史数据、用户偏好建模
Power BI 适配 HR Analytics 员工流失数据集(35 维全场景) 离职预测 满意度分析 薪酬建模
IPL 2020 球员表现数据集(击球手专项)梦幻球队优化核心指标含 14 维数据维度
产品来源
数据基于美国运通真实客户营销互动记录脱敏生成,通过以下步骤构建:
- 基础字段采集:提取客户 ID、优惠 ID、时间戳、行为变量等原始交互数据。
- 衍生指标计算:按赛事规则生成活跃用户标签、折扣价值、消费分层等分析字段。
- 异常值处理:预设数据异常规则(如缺失值、逻辑错误),匹配赛事指南的清洗要求。
- 合规性验证:去除敏感信息,符合 MIT 许可证规范,确保赛事使用合法性。
验证报告
以下为卖家选择提供的数据验证报告:

美国运通校园挑战数据集(含 55 列全维度)产品赛道建模 行为分析 转化计算适配
¥1.99
已售 0
110.5MB
申请报告