武强

verify-tagChicago共享单车Divvy出行数据集-含672万条骑行记录-跨13个月时序数据-包含GPS经纬度坐标-车辆类型与用户身份标注-支持会员散客骑行行为分析-城市出行模式挖掘与智能交通算法训练

29.9

已售 0
1.16GB

数据标识:D17774467401796660

发布时间:2026/04/29

# Chicago共享单车Divvy出行数据集

## 引言与背景

城市共享出行系统的快速普及,使得大规模骑行行为数据的采集与分析成为城市交通研究领域的重要课题。本数据集来源于芝加哥市Divvy公共共享单车系统,完整记录了2021年7月至2022年7月共13个月的骑行出行信息,涵盖672万余条真实骑行记录,是目前公开可获取的城市级共享单车数据集中规模最大、字段最为完整的数据集之一。

数据集以月为单位划分为13个CSV文件,每条记录涵盖骑行唯一标识、车辆类型、骑行起止时间、骑行时长、出发与到达站点名称及编号、起终点GPS经纬度坐标、出行用户类型(会员或散客)以及出行所在星期等16个结构化字段。数据内容涵盖原始行程元数据与地理空间信息,具备完整的时序连续性与地理覆盖广度。

对于城市交通规划、智慧出行算法研发及城市数据科学研究而言,本数据集具有不可替代的应用价值。研究人员可基于该数据集开展骑行需求预测、站点流量建模、用户行为画像、出行模式识别及路径规划优化等多维度分析,为城市级别的交通决策提供数据支撑。算法工程师亦可将其用于时间序列预测模型、图神经网络站点关系建模、用户分类模型等人工智能任务的训练与验证。

---

## 数据基本信息

### 字段说明表

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| ride_id | 字符串 | 每次骑行的唯一标识符 | 620BC6107255BF4C | 100% |
| rideable_type | 枚举字符串 | 车辆类型(经典/电动/有桩) | classic_bike | 100% |
| date | 日期字符串 | 骑行发生日期 | 10/22/2021 | 100% |
| started_at | 时间字符串 | 骑行开始时刻 | 12:46:42 PM | 100% |
| ended_at | 时间字符串 | 骑行结束时刻 | 12:49:50 PM | 100% |
| ride_length | 字符串 | 骑行时长(小时:分钟格式) | 0:35 | 100% |
| day_of_week | 枚举字符串 | 骑行所在星期几 | Friday | 100% |
| member_casual | 枚举字符串 | 用户类型(会员或散客) | member | 100% |
| start_station_name | 字符串 | 起始站点名称 | Michigan Ave & Washington St | 85.90% |
| start_station_id | 字符串 | 起始站点编号 | 13001 | 85.90% |
| end_station_name | 字符串 | 到达站点名称 | Halsted St & North Branch St | 84.93% |
| end_station_id | 字符串 | 到达站点编号 | KA1504000117 | 84.93% |
| start_lat | 浮点数 | 起始位置纬度坐标 | 41.883984 | 100% |
| start_lng | 浮点数 | 起始位置经度坐标 | -87.624684 | 100% |
| end_lat | 浮点数 | 到达位置纬度坐标 | 41.899368 | 99.91% |
| end_lng | 浮点数 | 到达位置经度坐标 | -87.648480 | 99.91% |

> 注:站点字段存在缺失主要集中于电动单车记录,原因为电动单车支持无桩还车,部分行程无明确站点归属;GPS坐标字段完整性极高,几乎全部记录均具备地理定位信息。

---

### 月度时间分布

| 月份 | 记录数 | 占比 | 累计占比 |
|---|---|---|---|
| 2021年7月 | 822,410 | 12.23% | 12.23% |
| 2021年8月 | 804,352 | 11.96% | 24.19% |
| 2021年9月 | 756,147 | 11.25% | 35.44% |
| 2021年10月 | 631,226 | 9.39% | 44.83% |
| 2021年11月 | 359,978 | 5.35% | 50.18% |
| 2021年12月 | 247,540 | 3.68% | 53.86% |
| 2022年1月 | 103,770 | 1.54% | 55.40% |
| 2022年2月 | 115,609 | 1.72% | 57.12% |
| 2022年3月 | 284,042 | 4.22% | 61.34% |
| 2022年4月 | 371,249 | 5.52% | 66.86% |
| 2022年5月 | 634,858 | 9.44% | 76.30% |
| 2022年6月 | 769,204 | 11.44% | 87.74% |
| 2022年7月 | 823,488 | 12.25% | 99.99% |
| 合计 | 6,723,873 | 100% | — |

数据呈现出显著的季节性特征:夏季(7月、8月、9月)骑行量占全年总量的约35%,而冬季(12月、1月、2月)仅占约7%,充分反映了气候对共享单车出行需求的强烈影响。

---

### 车辆类型分布

| 车辆类型 | 中文名称 | 记录数 | 占比 |
|---|---|---|---|
| classic_bike | 经典机械自行车 | 3,562,550 | 52.99% |
| electric_bike | 电动助力自行车 | 2,876,897 | 42.79% |
| docked_bike | 有桩固定单车 | 284,426 | 4.23% |
| 合计 | — | 6,723,873 | 100% |

经典机械自行车为最主要车型,占比超过半数;电动助力自行车占比接近43%,反映了电动出行需求的快速增长趋势;有桩单车为早期遗留车型,占比最小。

---

### 用户类型分布

| 用户类型 | 含义 | 记录数 | 占比 |
|---|---|---|---|
| member | 年度/月度会员用户 | 3,759,591 | 55.93% |
| casual | 单次/短期散客用户 | 2,964,282 | 44.07% |
| 合计 | — | 6,723,873 | 100% |

---

### 出行星期分布

| 星期 | 记录数 | 占比 |
|---|---|---|
| 周六(Saturday) | 1,143,825 | 17.01% |
| 周日(Sunday) | 1,003,094 | 14.92% |
| 周四(Thursday) | 960,055 | 14.28% |
| 周五(Friday) | 950,510 | 14.14% |
| 周三(Wednesday) | 904,523 | 13.45% |
| 周二(Tuesday) | 894,999 | 13.31% |
| 周一(Monday) | 866,867 | 12.89% |
| 合计 | 6,723,873 | 100% |

周末(周六+周日)合计占比约31.93%,为骑行高峰区间,工作日各天分布较为均衡,周一骑行量相对最低。

---

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 数据规模大 | 全量672万余条记录,覆盖13个连续月份 | 支持深度学习模型训练,统计结果具备高置信度 |
| 时序连续完整 | 从2021年7月至2022年7月无缺口,跨越完整年度周期 | 支持年度季节性规律研究与同比趋势分析 |
| GPS坐标全覆盖 | 起点坐标100%完整,终点坐标完整率99.91% | 支持地理空间分析、热力图生成与路径可视化 |
| 多维度字段结构 | 16个字段涵盖时间、地点、车型、用户类型等维度 | 可构建多变量分析模型,实现多角度特征工程 |
| 车辆类型标注 | 三类车型(经典/电动/有桩)均已明确标注 | 支持车型需求预测与电动化趋势分析 |
| 用户身份标注 | member/casual二分类清晰标注,无歧义 | 直接用于用户行为差异分析与精准运营研究 |
| 站点信息丰富 | 包含站点名称与站点编号双重标识 | 支持站点网络拓扑建模与流量预测 |
| 文件格式标准 | 统一CSV格式,字段一致,便于批量处理 | 可直接接入主流数据分析框架(Pandas、Spark等) |

---

## 数据样例

以下为从不同月份文件中抽取的15条代表性记录样例,涵盖多种车型、用户类型、时间段及站点组合,充分展示数据的多样性特征。

| ride_id | rideable_type | date | started_at | ended_at | ride_length | day_of_week | member_casual | start_station_name | end_station_name | start_lat | start_lng |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 620BC6107255BF4C | electric_bike | 10/22/2021 | 12:46:42 PM | 12:49:50 PM | 0:03 | Friday | member | Kingsbury St & Kinzie St | — | 41.88919 | -87.63850 |
| 4471C70731AB2E45 | electric_bike | 10/21/2021 | 9:12:37 AM | 9:14:14 AM | 0:01 | Thursday | member | — | — | 41.93000 | -87.70000 |
| 7C00A93E10556E47 | electric_bike | 11/27/2021 | 1:27:38 PM | 1:46:38 PM | 0:19 | Saturday | casual | — | — | 41.93000 | -87.72000 |
| 0A7D10CDD144061C | electric_bike | 11/26/2021 | 10:03:34 PM | 10:05:56 PM | 0:02 | Friday | casual | — | — | 41.96000 | -87.70000 |
| 46F8167220E4431F | electric_bike | 12/7/2021 | 3:06:07 PM | 3:13:42 PM | 0:07 | Tuesday | member | Laflin St & Cullerton St | Morgan St & Polk St | 41.85483 | -87.66366 |
| 73A77762838B32FD | electric_bike | 12/11/2021 | 3:43:29 AM | 4:10:23 AM | 0:26 | Saturday | casual | LaSalle Dr & Huron St | Clarendon Ave & Leland Ave | 41.89441 | -87.63233 |
| 4CF42452054F59C5 | electric_bike | 12/15/2021 | 11:10:28 PM | 11:23:14 PM | 0:12 | Wednesday | member | Halsted St & North Branch St | Broadway & Barry Ave | 41.89936 | -87.64852 |
| C2F7DD78E82EC875 | electric_bike | 1/13/2022 | 11:59:47 AM | 12:02:44 PM | 0:02 | Thursday | casual | Glenwood Ave & Touhy Ave | Clark St & Touhy Ave | 42.01280 | -87.66591 |
| A6CF8980A652D272 | electric_bike | 1/10/2022 | 8:41:56 AM | 8:46:17 AM | 0:04 | Monday | casual | Glenwood Ave & Touhy Ave | Clark St & Touhy Ave | 42.01276 | -87.66597 |
| BD0F91DFF741C66D | classic_bike | 1/25/2022 | 4:53:40 AM | 4:58:01 AM | 0:04 | Tuesday | member | Sheffield Ave & Fullerton Ave | Greenview Ave & Fullerton Ave | 41.92560 | -87.65371 |
| E1E065E7ED285C02 | classic_bike | 2/19/2022 | 6:08:41 PM | 6:23:56 PM | 0:15 | Saturday | member | State St & Randolph St | Clark St & Lincoln Ave | 41.88462 | -87.62783 |
| 1602DCDC5B30FFE3 | classic_bike | 2/20/2022 | 5:41:30 PM | 5:45:56 PM | 0:04 | Sunday | member | Halsted St & Wrightwood Ave | Southport Ave & Wrightwood Ave | 41.92914 | -87.64908 |
| BE7DD2AF4B55C4AF | classic_bike | 2/25/2022 | 6:55:56 PM | 7:09:34 PM | 0:13 | Friday | member | State St & Randolph St | Canal St & Adams St | 41.88462 | -87.62783 |
| 0A1B623926EF4E16 | docked_bike | 7/2/2021 | 2:44:36 PM | 3:19:58 PM | 0:35 | Friday | casual | Michigan Ave & Washington St | Halsted St & North Branch St | 41.88398 | -87.62468 |
| B2D5583A5A5E76EE | classic_bike | 7/7/2021 | 4:57:42 PM | 5:16:09 PM | 0:18 | Wednesday | casual | California Ave & Cortez St | Wood St & Hubbard St | 41.90036 | -87.69670 |

> 说明:以上为元数据样例,展示了记录的字段结构与内容。数据集本身为完整原始结构化数据,包含全部672万余条行程记录,可供直接使用。「—」表示该字段在原始数据中为空,属正常缺失情况(主要见于无桩电动车行程)。

---

## 应用场景

### 一、骑行需求预测与站点流量建模

本数据集所记录的13个月连续骑行行程数据,为构建高精度骑行需求时序预测模型提供了坚实基础。每条记录中精确的起止时间字段(started_atended_at)和站点信息字段,使研究者能够以分钟级粒度还原各站点的进出流量随时间变化的规律。结合月度、星期维度的分布信息,可以训练LSTM、Transformer等深度时序模型,预测未来特定时段内各站点的骑行需求量,从而指导共享单车系统的车辆调度与再平衡策略。例如,从数据中可以观察到夏季骑行量峰值约为冬季低谷的8倍,这种周期性规律有助于模型捕获季节特征,大幅提升长期预测精度。该应用场景直接服务于共享单车运营企业的智能调度系统,具有显著的降本增效价值。

### 二、用户行为差异分析与精准运营策略

数据集中的member_casual字段将全部672万条记录精准划分为会员用户(3,759,591条,55.93%)和散客用户(2,964,282条,44.07%)两大群体。通过对比分析两类用户在出行时段、骑行时长、站点偏好、车型选择以及周末/工作日分布上的差异,可以构建用户行为画像模型,挖掘两类用户的出行动机与使用习惯。会员用户通常呈现通勤型出行特征,而散客用户更多表现出休闲游览型骑行模式。基于此,运营方可针对散客制定个性化激励方案(如节假日优惠、景点周边推广),同时为会员设计差异化服务(如高峰期车位保障、路线推荐)。该分析场景也可扩展至用户转化预测模型的训练,通过历史行为特征预测散客转化为付费会员的概率,优化会员拉新成本。

### 三、城市地理空间分析与出行热力图生成

数据集为每条骑行记录提供了起点GPS坐标(完整率100%)与终点GPS坐标(完整率99.91%),共计约1344万个地理坐标点,覆盖芝加哥市主要街区。基于这些高密度地理坐标数据,研究者可生成骑行出发热力图、到达热力图及骑行流向OD矩阵(Origin-Destination Matrix),直观展示城市共享单车的空间使用格局。结合芝加哥市的道路网络数据、兴趣点(POI)数据,可以分析骑行行为与城市功能区分布的关联性,识别商业区、居住区、交通枢纽等不同类型区域的骑行特征差异。此外,地理坐标数据还可用于训练空间聚类算法(如DBSCAN、K-means地理聚类),发现潜在的停车热点区域,为站点扩容或新站点选址提供数据依据。该应用场景对城市规划部门和交通管理机构具有直接的决策参考价值。

### 四、时序模式挖掘与季节性规律研究

本数据集跨越2021年7月至2022年7月,完整包含一个年度周期,使得研究者能够系统性地研究共享单车出行的季节性规律、节假日效应及工作日/周末差异。从月度分布数据可以看出,7月、8月、9月三个月的骑行记录合计超过237万条,占年度总量的35%以上,而1月骑行量仅约10万条,不及峰值月份的1/8,季节波动系数极大。在星期维度上,周六骑行量(114万条)比周一(86万条)高出约32%,显示出明显的周末效应。这些规律对于设计具有季节感知能力的预测模型至关重要。研究者可以基于该数据集对SARIMA、Prophet、N-BEATS等时序预测算法进行基准测试(Benchmarking),评估不同模型在城市出行数据上的预测性能,为方法论研究提供标准化的实验数据。

### 五、多模式交通规划与智慧城市研究

从宏观视角来看,Divvy共享单车系统是芝加哥城市综合交通体系的重要组成部分,其骑行数据反映了城市居民短途出行的真实需求格局。将本数据集与公交线路数据、地铁客流数据、步行可达性数据等进行多源融合分析,可以评估共享单车对公共交通"最后一公里"问题的解决程度,研究不同交通方式之间的协同效应。三类车型(经典自行车、电动自行车、有桩自行车)的共存与分布差异,也为城市绿色出行结构演变研究提供了实证依据。电动自行车占比已达42.79%,接近经典自行车占比(52.99%),这一趋势对于城市交通政策制定者评估电动微出行的市场渗透率与基础设施投资需求具有重要参考意义。该场景适用于城市交通规划机构、学术科研团队及政策研究智库。

### 六、机器学习特征工程与算法基准测试

本数据集结构规整、字段丰富,是机器学习任务特征工程实践的理想原料。研究者可以基于该数据集构建骑行时长预测(回归任务)、用户类型分类(二分类任务)、站点骑行量异常检测(异常检测任务)等多种监督与非监督学习任务。ride_length字段可作为回归目标,结合时间特征、站点特征、车型特征进行预测建模;member_casual字段可作为分类标签,训练XGBoost、随机森林等传统机器学习模型或深度神经网络分类器。由于数据规模达672万条,数据量充足以支持深度模型的训练与评估,同时通过时间维度的划分,可以构建严格的训练集/验证集/测试集分割方案(如以2022年之前数据为训练集,2022年数据为测试集),确保模型评估的时序严谨性。

---

## 结语

本数据集以672万余条真实骑行记录、16个结构化字段、13个月连续时序覆盖与近乎全覆盖的GPS坐标信息,构成了一份高价值、高密度的城市共享出行数据资产。数据集涵盖车辆类型、用户身份、起止站点、地理坐标、时间戳等多维度信息,兼具时序分析、空间分析与行为分析的多重研究潜力,可直接服务于交通领域的算法研发、模型训练、策略优化及学术研究。

数据集为标准CSV格式,字段一致,可无缝接入Python(Pandas、GeoPandas、Scikit-learn)、R、Spark等主流数据处理与分析框架。无论是城市交通规划机构、共享出行平台的算法团队,还是从事智慧城市研究的高校科研人员,均可基于本数据集开展高质量的数据科学工作。如需获取更多数据相关信息,欢迎私信联系。

看了又看

数据加载中

验证报告

以下为卖家选择提供的数据验证报告:

data icon
Chicago共享单车Divvy出行数据集-含672万条骑行记录-跨13个月时序数据-包含GPS经纬度坐标-车辆类型与用户身份标注-支持会员散客骑行行为分析-城市出行模式挖掘与智能交通算法训练
29.9
已售 0
1.16GB
申请报告