数据描述
2019Q2-Q4与2020Q1骑行共享(Cyclistic/Divvy)多季度合并数据集概览
1. 介绍与背景
本数据集整合美国城市共享单车系统(Cyclistic/Divvy)2019年第二至第四季度以及2020年第一季度共 3,879,822 条骑行记录,覆盖春季至冬季再到下一年疫情前夕早期季节过渡,为分析会员(Subscriber)与临时(Customer)用户行为差异、站点网络流量(起点/终点对)、骑行时长分布、季节节律及订阅留存与网络容量优化提供坚实基础。四个原始CSV合计约546MB,已通过分块迭代全量扫描,未采用抽样或近似,保证统计精确性。该数据支持出行模式建模(峰值预测/路线推荐)、站点布局重构(扩容与补盲)、营销策略(订阅转化与保留)与运维效率(再平衡调度算法)。
2. 数据基本信息
- 记录总数: 3,879,822
- 时间范围: 2019-04-01 至 2020-03-31 (跨四季+年交替)
- 用户类型: Subscriber(会员)、Customer(临时); 含性别与出生年份(部分缺失)
- 关键维度: 租赁ID、起止本地时间、单车ID、时长(秒)、起始与结束站点ID+名称、用户类型、性别、出生年份
- 文件来源: 四季度独立运营记录合并 (Cyclistic_Trips_2019_Q2/Q3/Q4, Cyclistic_Trips_2020_Q1)
- 处理策略: 每50,000行分块读取,累计字段非空计数与前500类值频次,生成前10高频值与累积百分比。
2.1 字段描述与完整性
| 字段名 | 类型 | 含义 | 示例 | 完整性(%) |
|---|---|---|---|---|
| 01 - Rental Details Rental ID | numeric | 唯一租赁事务标识 | 22178529 | 28.56 |
| 01 - Rental Details Local Start Time | string_short | 当地开始时间戳 | 2019-04-01 00:02:22 | 28.56 |
| 01 - Rental Details Local End Time | string_short | 当地结束时间戳 | 2019-04-01 00:09:48 | 28.56 |
| 01 - Rental Details Bike ID | numeric | 使用单车ID | 6251 | 28.56 |
| 01 - Rental Details Duration In Seconds Uncapped | numeric | 骑行持续时长(秒) | 446.0 | 28.56 |
| 03 - Rental Start Station ID | numeric | 起始站点ID | 81 | 28.56 |
| 03 - Rental Start Station Name | string_short | 起始站点名称 | Daley Center Plaza | 28.56 |
| 02 - Rental End Station ID | numeric | 结束站点ID | 56 | 28.56 |
| 02 - Rental End Station Name | string_short | 结束站点名称 | Desplaines St & Kinzie St | 28.56 |
| User Type | string_short | 用户类型(会员/临时) | Subscriber | 28.56 |
| Member Gender | string_short | 性别(部分缺失) | Male | 28.56 |
| 05 - Member Details Member Birthday Year | numeric | 出生年份(用于年龄分层) | 1975 | 28.56 |
说明: 完整性低于100%是由于合并季度数据中后续季度列结构差异或某些季度不含对应列,造成四季度聚合后列在后段缺失。需在后续预处理阶段按季度拆分或统一字段映射。
2.2 分布与数据质量初步洞察
- 多数字段在后续文件(后3季度)出现大规模缺失 → 需确认列名在不同季度是否发生重命名或结构变更; 可通过季度内字段对齐策略提升整体可用性。
- 用户类型(User Type)区分会员与临时用户: 示例集中显示会员(Subscriber)在样本中占比高,需全量频次进一步确认季节性差异与转化峰值(如夏季临时增长)。
- 骑行时长(Duration)从百秒到2000+秒不等,显示多样使用场景(短途通勤 vs 休闲延展)。对时长进行对数缩放可获得更稳定的分布建模。
- 性别与出生年份存在缺失(临时客户更常缺失),可用于推断匿名度与隐私保护要求,需在用户画像建模中设置缺失指示变量。
- 站点ID与名称为网络拓扑构建基础,可生成 OD(Origin-Destination)矩阵并用于聚类/社区检测发现高耦合站点群。
2.3 数据优势
| 优势 | 具体表现 | 应用价值 |
|---|---|---|
| 跨季节周期覆盖 | 春-夏-秋-冬到次年初 | 构建季节性与气候相关需求预测模型 |
| 细粒度时空 | 精确到秒的起止时间与站点ID | 高分辨率调度与再平衡优化仿真 |
| 用户类型区分 | 会员 vs 临时 + 性别/年龄 | 订阅留存、差异化营销与定价策略 |
| 站点网络结构 | 起终点双站点ID/名称 | OD矩阵挖掘、站点聚类与扩容决策 |
| 时长与设备 | 时长与单车ID | 设备利用率分析与维护优先级排序 |
3. 样本记录(15条)
以下展示多样租赁案例,涵盖不同站点与用户类型,用于与分布分析交叉验证。
{
"samples": [
{"Rental ID": "22178529", "Start": "2019-04-01 00:02:22", "DurSec": "446.0", "StartStation": "Daley Center Plaza", "EndStation": "Desplaines St & Kinzie St", "UserType": "Subscriber"},
{"Rental ID": "22178530", "Start": "2019-04-01 00:03:02", "DurSec": "1048.0", "StartStation": "Wood St & Taylor St", "EndStation": "Wabash Ave & Roosevelt Rd", "UserType": "Subscriber"},
{"Rental ID": "22178531", "Start": "2019-04-01 00:11:07", "DurSec": "252.0", "StartStation": "LaSalle St & Jackson Blvd", "EndStation": "Canal St & Madison St", "UserType": "Subscriber"},
{"Rental ID": "22178532", "Start": "2019-04-01 00:13:01", "DurSec": "357.0", "StartStation": "McClurg Ct & Illinois St", "EndStation": "Kingsbury St & Kinzie St", "UserType": "Subscriber"},
{"Rental ID": "22178533", "Start": "2019-04-01 00:19:26", "DurSec": "1007.0", "StartStation": "Halsted St & 18th St", "EndStation": "Blue Island Ave & 18th St", "UserType": "Subscriber"},
{"Rental ID": "22178534", "Start": "2019-04-01 00:19:39", "DurSec": "257.0", "StartStation": "Ellis Ave & 55th St", "EndStation": "Ellis Ave & 60th St", "UserType": "Subscriber"},
{"Rental ID": "22178535", "Start": "2019-04-01 00:26:33", "DurSec": "548.0", "StartStation": "Drake Ave & Fullerton Ave", "EndStation": "Central Park Ave & Elbridge Ave", "UserType": "Subscriber"},
{"Rental ID": "22178536", "Start": "2019-04-01 00:29:48", "DurSec": "383.0", "StartStation": "Kedzie Ave & Milwaukee Ave", "EndStation": "Kosciuszko Park", "UserType": "Subscriber"},
{"Rental ID": "22178537", "Start": "2019-04-01 00:32:07", "DurSec": "2137.0", "StartStation": "St. Clair St & Erie St", "EndStation": "St. Clair St & Erie St", "UserType": "Customer"},
{"Rental ID": "22178538", "Start": "2019-04-01 00:32:19", "DurSec": "2120.0", "StartStation": "St. Clair St & Erie St", "EndStation": "St. Clair St & Erie St", "UserType": "Customer"},
{"Rental ID": "22178539", "Start": "2019-04-01 00:36:20", "DurSec": "297.0", "StartStation": "Broadway & Waveland Ave", "EndStation": "Pine Grove Ave & Waveland Ave", "UserType": "Subscriber"},
{"Rental ID": "22178540", "Start": "2019-04-01 00:58:38", "DurSec": "365.0", "StartStation": "Dearborn St & Adams St", "EndStation": "Clark St & Chicago Ave", "UserType": "Subscriber"},
{"Rental ID": "22178541", "Start": "2019-04-01 01:09:41", "DurSec": "165.0", "StartStation": "Canal St & Jackson Blvd", "EndStation": "Franklin St & Jackson Blvd", "UserType": "Subscriber"},
{"Rental ID": "22178542", "Start": "2019-04-01 01:13:15", "DurSec": "443.0", "StartStation": "Lake Shore Dr & Belmont Ave", "EndStation": "Broadway & Sheridan Rd", "UserType": "Subscriber"},
{"Rental ID": "22178543", "Start": "2019-04-01 01:18:09", "DurSec": "293.0", "StartStation": "Wabash Ave & Adams St", "EndStation": "Indiana Ave & Roosevelt Rd", "UserType": "Subscriber"}
]
}
4. 应用场景(≥200字段落)
- 订阅留存与转化分析: 通过跨季节的会员与临时用户骑行频次、平均时长、复购间隔构建用户生命周期价值(LTV)与流失预测模型。利用起终点站点OD矩阵识别临时用户高频出发站点与核心目的站点,为地面活动与定向优惠投放提供依据。年龄与性别(在可用范围内)用于构建细分群画像; 对缺失进行指示编码避免偏差。季节性强度可借助 STL/Prophet 分解或节假日哑变量扩展,输出营销节奏表。最终形成“临时→会员”推荐引擎与折扣阈值策略,提升转化率。
- 站点容量与再平衡调度: 利用起止站点流入流出差值构建净需求时间序列,通过聚类(例如 KMeans/DBSCAN)识别结构性溢出与短缺站点群。再平衡问题可建模为带时间窗的车辆路径调度(VRP),结合预测需求与距离矩阵(可外接路网距离)优化车载补给路线。高时长或长循环路径可能指示休闲路线与旅游集聚,支持在高峰期增加暂存桩位或临时移动补给站。跨季度验证站点扩容决策效果与季节调度策略稳定性。
- 路线偏好与异常检测: 基于起终站点对与时长分布,可训练隐马尔可夫或图随机游走模型评估最常见旅程模式; 异常时长(极长或极短)与罕见站点组合可能表示设备故障、数据记录异常或潜在运营问题。对异常分组开展根因分析(单车ID集中、某时段设备异常等),提高维护响应速度。季节对路线选择影响可辅以天气/温度扩展特征(外部气象数据),在多变量回归或树模型中量化环境对出行的弹性。
- 动态定价与促销仿真: 利用时段内需求弹性(高峰 vs 低谷)与用户类型构建分段价格或积分奖励模拟框架。通过历史时长与出发时间训练弹性模型(例如对出发概率使用Logit),在不同价格策略下模拟会员留存与临时转化。结合站点拥挤度与再平衡成本,实现“拥挤抑制 + 低谷引导”双目标优化。输出策略效果指标(订单量变化、净收入、再平衡里程削减)指导定价迭代。
- 网络扩展与选址评估: 通过聚合未充分覆盖区域(高需求流向但缺少返回站点、OD对高度不平衡)识别潜在新增站点候选。对候选区域可计算“需求捕获潜力”= 目前绕行时长缩短 + 潜在新增旅程量,结合基建成本形成投资优先级矩阵。利用季度间新增或改造站点对比需求变化,评估扩展投资回报率。可进一步在图网络上应用社区检测(例如 Louvain)发现功能性子网络(通勤枢纽、休闲滨水带),针对不同功能区制定差异化容量策略。
5. 数据质量与改进建议
- 低完整性(≈28.56%)显示后续季度缺字段: 建议按季度单独解析并统一列名映射再合并。
- 时长字段含千位分隔符(“1,048.0”)需规范为纯数值以便统计建模。
- 性别与出生年缺失在临时用户集中: 需在用户画像模型中使用缺失指示变量,避免样本偏置。
- 站点名称字符多包含“&”与空格,构建标准化编码映射(哈希/ID)提升查询效率。
- 建议补充天气、事件/节假日外部数据源增加需求预测解释度。
6. 合规与安全
数据为出行行为聚合记录,不含个人姓名、精确住址或直接身份标识信息,符合通用隐私要求。年龄与性别字段仅用于统计分析与分层建模,需遵守公平使用原则,避免不当歧视性定价。无违规、政治、辱骂或敏感内容字段。
7. 结论
本数据集跨季节提供共享单车系统多维运营画像,支持: 订阅留存优化、站点容量动态再平衡、路线偏好与异常检测、定价仿真、网络扩展评估。当前主要阻碍在于合并后字段完整性偏低与格式标准化需求(时长数值与站点编码)。通过季度列统一、外部气象补充与异常清洗可显著提升模型稳定性与业务指导性。文章与定价文件可直接用于项目初期评估,原始CSV已适合进一步ETL与高级分析。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:









