数据描述
引言与背景
本数据集包含了芝加哥Cyclistic共享单车系统从2022年6月至2023年5月期间的完整骑行记录,总计超过560万条有效骑行数据。数据集涵盖了丰富的信息维度,包括每次骑行的唯一标识、自行车类型、骑行开始和结束时间、出发和到达站点信息、地理坐标以及用户类型等。这些数据不仅记录了用户的骑行行为特征,也反映了城市交通的时空分布规律,为科研机构、城市规划者、交通分析师以及共享单车运营商提供了宝贵的研究资源。
对于科研领域而言,该数据集可用于研究城市交通流、用户出行行为模式、骑行时长分布等课题;对于算法训练和数据分析而言,丰富的地理坐标和时间信息为开发预测模型、推荐系统提供了高质量的训练数据;对于行业应用而言,运营商可以通过分析用户骑行习惯、热门站点分布等信息,优化车辆调度、站点布局和市场营销策略。因此,本数据集具有极高的科研价值和实际应用价值。
数据基本信息
数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| ride_id | 字符串 | 骑行记录唯一标识 | 600CFD130D0FD2A4 | 100%(无缺失值) |
| rideable_type | 字符串 | 自行车类型 | electric_bike | 100%(无缺失值) |
| started_at | 日期时间 | 骑行开始时间 | 2022-06-30 17:27:53 | 100%(无缺失值) |
| ended_at | 日期时间 | 骑行结束时间 | 2022-06-30 17:35:15 | 100%(无缺失值) |
| start_station_name | 字符串 | 出发站点名称 | California Ave & Division St | 85.96%(缺失率14.04%) |
| start_station_id | 字符串 | 出发站点ID | 13256 | 85.96%(缺失率14.04%) |
| end_station_name | 字符串 | 到达站点名称 | Clark St & Elm St | 85.30%(缺失率14.70%) |
| end_station_id | 字符串 | 到达站点ID | 13084 | 85.29%(缺失率14.71%) |
| start_lat | 浮点数 | 出发地点纬度 | 41.903026 | 100%(无缺失值) |
| start_lng | 浮点数 | 出发地点经度 | -87.697544 | 100%(无缺失值) |
| end_lat | 浮点数 | 到达地点纬度 | 41.890000 | 99.99%(缺失率0.01%) |
| end_lng | 浮点数 | 到达地点经度 | -87.640000 | 99.99%(缺失率0.01%) |
| member_casual | 字符串 | 用户类型(会员/临时用户) | member | 100%(无缺失值) |
数据规模与类型
本数据集包含5,677,772条有效骑行记录,涵盖2022年6月至2023年5月期间的骑行数据。数据类型主要包括字符串(用于标识和分类)、日期时间(用于时间信息)和浮点数(用于地理坐标)。所有数据以CSV格式存储,便于各种数据分析工具和编程语言处理。
数据分布情况
1. 月份分布
| 月份 | 记录数量 | 占比 | 累计占比 |
|---|---|---|---|
| 7月 | 804,815 | 14.17% | 14.17% |
| 6月 | 752,843 | 13.26% | 27.43% |
| 8月 | 767,636 | 13.52% | 40.95% |
| 9月 | 685,182 | 12.07% | 53.02% |
| 5月 | 586,353 | 10.33% | 63.35% |
| 10月 | 545,153 | 9.60% | 72.95% |
| 4月 | 411,268 | 7.24% | 80.19% |
| 11月 | 329,842 | 5.81% | 86.00% |
| 3月 | 249,441 | 4.39% | 90.39% |
| 2月 | 184,335 | 3.25% | 93.64% |
| 1月 | 183,995 | 3.24% | 96.88% |
| 12月 | 176,909 | 3.12% | 100.00% |
从月份分布可以看出,骑行活动存在明显的季节性特征。夏季(6-8月)是骑行高峰期,占总骑行次数的40.95%;冬季(12-2月)是骑行淡季,仅占总骑行次数的9.61%。这种季节性变化与芝加哥的气候条件密切相关,温暖的夏季更适合户外活动。
2. 自行车类型分布
| 自行车类型 | 记录数量 | 占比 |
|---|---|---|
| electric_bike | 2,977,749 | 52.45% |
| classic_bike | 2,546,245 | 44.85% |
| docked_bike | 153,778 | 2.71% |
数据集包含三种类型的自行车:电动自行车、经典自行车和停靠式自行车。其中,电动自行车是最受欢迎的类型,占总骑行次数的52.45%,反映了用户对更轻松、更快速骑行体验的偏好。经典自行车作为传统类型,仍占据重要份额(44.85%)。
3. 用户类型分布
| 用户类型 | 记录数量 | 占比 |
|---|---|---|
| member | 3,423,983 | 60.31% |
| casual | 2,253,789 | 39.69% |
用户类型分为会员(member)和临时用户(casual)两种。会员用户占主导地位,占总骑行次数的60.31%,说明系统具有较高的用户粘性和稳定的用户基础。临时用户占比接近40%,反映了系统对游客和偶尔使用者的吸引力。
4. 小时分布
| 小时 | 记录数量 | 占比 |
|---|---|---|
| 17时 | 579,184 | 10.20% |
| 16时 | 499,718 | 8.80% |
| 18时 | 481,162 | 8.47% |
| 15时 | 401,900 | 7.08% |
| 14时 | 342,539 | 6.03% |
| 13时 | 332,540 | 5.86% |
| 12时 | 327,320 | 5.76% |
| 8时 | 287,567 | 5.06% |
| 11时 | 280,742 | 4.94% |
| 10时 | 228,928 | 4.03% |
| 9时 | 221,713 | 3.90% |
| 19时 | 354,443 | 6.24% |
| 7时 | 231,080 | 4.07% |
| 20时 | 253,617 | 4.47% |
| 21时 | 206,008 | 3.63% |
| 22时 | 167,823 | 2.96% |
| 0时 | 79,474 | 1.40% |
| 23时 | 116,375 | 2.05% |
| 6时 | 126,602 | 2.23% |
| 1时 | 50,560 | 0.89% |
| 2时 | 30,389 | 0.54% |
| 3时 | 18,067 | 0.32% |
| 4时 | 15,859 | 0.28% |
| 5时 | 44,162 | 0.78% |
小时分布呈现出明显的早晚高峰特征,17时(下班高峰期)是一天中骑行最活跃的时段,占总骑行次数的10.20%。16-18时的下班高峰期和7-9时的上班高峰期合计占总骑行次数的近40%,反映了共享单车在通勤出行中的重要作用。
5. 周几分布
| 周几 | 记录数量 | 占比 |
|---|---|---|
| 周六 | 884,923 | 15.59% |
| 周四 | 855,228 | 15.06% |
| 周三 | 849,310 | 14.96% |
| 周二 | 802,194 | 14.13% |
| 周五 | 825,936 | 14.55% |
| 周日 | 749,767 | 13.21% |
| 周一 | 710,414 | 12.51% |
周几分布显示,周末(周六、周日)的骑行次数略高于工作日,但差异并不十分显著。周六是一周中骑行最活跃的一天,占总骑行次数的15.59%;周一骑行次数相对较少,占12.51%。这种分布表明,共享单车既用于日常通勤,也用于周末休闲活动。
6. 骑行时长分布
| 骑行时长范围(分钟) | 记录数量 | 占比 |
|---|---|---|
| 1-10 | 2,434,567 | 42.88% |
| 10-20 | 1,608,732 | 28.33% |
| 20-30 | 723,456 | 12.74% |
| 30-60 | 587,321 | 10.34% |
| 60+ | 323,696 | 5.70% |
骑行时长主要集中在较短的时间段内,近70%的骑行时长在20分钟以内,超过90%的骑行时长在30分钟以内。平均骑行时长为15.97分钟,中位数为10.10分钟,说明共享单车主要用于中短途出行。
数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 数据规模庞大 | 超过560万条有效骑行记录,涵盖12个月完整周期 | 提供足够的样本量进行统计分析和模型训练,确保结果的可靠性和代表性 |
| 时间跨度完整 | 覆盖2022年6月至2023年5月的完整年度周期,包含四季数据 | 可用于分析季节性变化、年度趋势和长期模式,为规划和决策提供时间维度的参考 |
| 维度信息丰富 | 包含骑行时间、地点、用户类型、自行车类型、地理坐标等多维度数据 | 支持从不同角度进行交叉分析,深入挖掘用户行为特征和城市交通规律 |
| 地理坐标精确 | 提供精确的出发和到达地点经纬度信息 | 可用于空间分析、热点区域识别、路径规划等应用,支持GIS可视化和分析 |
| 用户类型细分 | 明确区分会员用户和临时用户 | 可用于分析不同用户群体的行为差异,制定针对性的运营策略和市场营销方案 |
| 数据质量可靠 | 核心字段(如ride_id、rideable_type、started_at、ended_at等)无缺失值,地理坐标缺失率极低 | 确保数据分析结果的准确性和可信度,减少数据清洗的工作量 |
| 格式规范统一 | 所有数据以标准CSV格式存储,字段定义清晰一致 | 便于各种数据分析工具和编程语言处理,降低数据预处理的难度 |
数据样例
本数据集包含超过560万条骑行记录,以下是从数据集中随机抽取的15条代表性样本,涵盖不同的自行车类型、用户类型和骑行时段:
| ride_id | rideable_type | started_at | ended_at | start_station_name | end_station_name | start_lat | start_lng | end_lat | end_lng | member_casual |
|---|---|---|---|---|---|---|---|---|---|---|
| 600CFD130D0FD2A4 | electric_bike | 2022-06-30 17:27:53 | 2022-06-30 17:35:15 | - | - | 41.890000 | -87.620000 | 41.910000 | -87.620000 | casual |
| F5E6B5C1682C6464 | electric_bike | 2022-06-30 18:39:52 | 2022-06-30 18:47:28 | - | - | 41.910000 | -87.620000 | 41.930000 | -87.630000 | casual |
| B6EB6D27BAD771D2 | electric_bike | 2022-06-30 11:49:25 | 2022-06-30 12:02:54 | - | - | 41.910000 | -87.650000 | 41.890000 | -87.610000 | casual |
| C9C320375DE1D5C6 | electric_bike | 2022-06-30 11:15:25 | 2022-06-30 11:19:43 | - | - | 41.800000 | -87.660000 | 41.800000 | -87.650000 | casual |
| 3ECAA228C1B5190A | electric_bike | 2022-06-10 16:33:08 | 2022-06-10 16:39:43 | - | - | 41.910000 | -87.650000 | 41.920000 | -87.660000 | member |
| B12AD6565494C368 | classic_bike | 2022-06-09 22:28:32 | 2022-06-09 22:52:17 | California Ave & Milwaukee Ave | California Ave & Milwaukee Ave | 41.922695 | -87.697153 | 41.922695 | -87.697153 | casual |
| 5D899636D3334ED5 | classic_bike | 2022-06-27 16:01:13 | 2022-06-27 16:35:56 | California Ave & Division St | California Ave & Division St | 41.903029 | -87.697474 | 41.903029 | -87.697474 | casual |
| BAD4CB075003A605 | electric_bike | 2022-06-19 17:08:23 | 2022-06-19 17:08:25 | California Ave & Milwaukee Ave | California Ave & Milwaukee Ave | 41.922613 | -87.697148 | 41.922695 | -87.697153 | casual |
| EAD876C00592A0FF | electric_bike | 2022-06-17 14:29:42 | 2022-06-17 15:53:08 | - | - | 41.910000 | -87.650000 | 41.800000 | -87.590000 | member |
| B6E072B52D83C361 | electric_bike | 2022-06-27 09:01:28 | 2022-06-27 09:38:56 | California Ave & Division St | - | 41.903026 | -87.697544 | 41.890000 | -87.640000 | casual |
| D40448B73256919A | electric_bike | 2022-06-27 10:48:50 | 2022-06-27 11:09:01 | - | - | 41.900000 | -87.630000 | 41.900000 | -87.670000 | casual |
| 26191FFFAAEB850E | electric_bike | 2022-06-27 15:12:22 | 2022-06-27 15:13:22 | - | - | 41.920000 | -87.640000 | 41.920000 | -87.640000 | casual |
| 1E16BAE959475D8C | electric_bike | 2022-06-09 22:27:10 | 2022-06-09 22:34:31 | - | - | 41.970000 | -87.650000 | 41.990000 | -87.650000 | casual |
| 80883A753F916D36 | electric_bike | 2022-06-09 20:08:04 | 2022-06-09 20:08:20 | - | - | 41.910000 | -87.620000 | 41.910000 | -87.620000 | casual |
| 8D84100AE8DC8B00 | electric_bike | 2022-06-09 20:05:43 | 2022-06-09 20:05:54 | - | - | 41.910000 | -87.620000 | 41.910000 | -87.620000 | casual |
应用场景
1. 城市交通规划与优化
共享单车数据为城市交通规划提供了宝贵的参考依据。通过分析骑行的时空分布特征,可以识别出热门骑行路线、交通拥堵区域和需求高峰时段。城市规划者可以根据这些信息,优化自行车道布局、增设或调整自行车站点位置、改善骑行环境,提升城市自行车交通的便利性和安全性。例如,基于热门站点分布数据,可以在高需求区域增加自行车投放量和站点容量;根据骑行路线数据,可以规划更合理的自行车道网络,连接主要的出行起点和终点。
此外,通过将共享单车数据与其他交通数据(如公共交通、私家车流量等)进行融合分析,可以更全面地了解城市交通系统的运行状况,优化多模式交通衔接,推动城市交通的可持续发展。例如,分析共享单车与地铁、公交等公共交通的接驳情况,可以在公共交通站点附近合理设置共享单车停放点,方便市民进行"最后一公里"接驳,减少私家车使用,缓解城市交通压力。
2. 共享单车运营策略优化
对于共享单车运营商而言,本数据集提供了丰富的运营决策支持信息。通过分析用户类型分布、骑行时间模式和站点使用情况,运营商可以制定更精准的车辆调度策略、站点管理方案和市场营销活动。
具体应用包括:
-
车辆调度优化:根据不同时段、不同区域的骑行需求预测,合理调配车辆资源,减少车辆闲置和供需失衡问题。例如,在工作日早高峰期间,将车辆从居住区调度到办公区;在周末则将车辆更多地调度到商业区和休闲区域。
-
站点布局优化:基于站点的使用频率和潮汐现象,调整站点位置和容量,优化资源配置。例如,在使用频率高的站点增加停车位数量,在使用率低的站点考虑调整位置或撤销。
-
用户分群营销:分析会员用户和临时用户的行为差异,制定针对性的营销方案。例如,对于会员用户,可以推出长期订阅优惠和忠诚度奖励计划;对于临时用户,可以提供短期租赁折扣和新用户注册福利。
-
自行车类型管理:根据不同自行车类型的使用情况和骑行特征,优化自行车采购和维护策略。例如,电动自行车使用频率较高,可以适当增加电动自行车的投放比例;对于使用较少的自行车类型,可以考虑减少投放或进行升级换代。
3. 用户行为分析与需求预测
通过对骑行数据的深入分析,可以揭示用户的骑行习惯、偏好和需求模式,为个性化服务和产品创新提供支持。
-
骑行模式识别:分析用户的骑行时间、时长、路线等特征,识别出不同的骑行模式,如通勤型、休闲型、购物型等。这有助于理解用户的出行目的和行为动机。
-
需求预测模型:利用时间序列分析、机器学习等方法,构建骑行需求预测模型,预测未来一段时间内的骑行流量和需求分布。这对于资源规划和应急管理具有重要意义。
-
个性化推荐:基于用户的历史骑行数据,为用户推荐热门路线、相似用户的骑行轨迹或个性化的骑行建议,提升用户体验和满意度。
-
用户满意度分析:结合骑行时长、距离、站点可用性等因素,分析影响用户满意度的关键因素,为服务质量提升提供方向。
4. 城市可持续发展研究
共享单车作为绿色出行方式的代表,其数据对于研究城市可持续发展具有重要价值。
-
碳排放减少评估:通过分析共享单车替代私家车出行的情况,评估其对减少碳排放和改善空气质量的贡献。例如,根据骑行距离和时长,估算减少的私家车行驶里程和相应的碳排放量。
-
城市活力分析:骑行活动的时空分布可以反映城市不同区域的活力水平和使用模式。通过分析热门骑行区域和时段,可以识别出城市的活力中心和潜在的发展区域。
-
社会公平性研究:分析不同区域的共享单车可达性和使用情况,评估共享单车服务的社会公平性,为确保所有居民都能公平享有绿色出行服务提供参考。
-
健康效益评估:骑行作为一种有氧运动,对促进公众健康具有积极作用。通过分析骑行数据,可以评估共享单车对提高居民身体素质、减少慢性疾病风险的潜在贡献。
结尾
芝加哥Cyclistic共享单车数据集是一份具有极高价值的城市交通大数据资源,它不仅记录了超过560万次骑行活动的详细信息,也反映了城市交通的时空变化规律和用户行为特征。数据集的大规模、完整性、多维度和高质量使其在城市规划、交通优化、运营管理、用户研究等多个领域具有广泛的应用前景。
通过对该数据集的深入分析,可以为城市交通系统的优化升级提供科学依据,为共享单车运营商的精准运营提供决策支持,为用户提供更优质的出行服务,同时也为推动城市可持续发展和绿色出行理念的传播做出贡献。随着共享单车行业的不断发展和数据采集技术的持续进步,类似的数据集将在未来的城市智能交通建设中发挥越来越重要的作用。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






