# 纽约市出租车行程数据集 - 650万条记录含时间费用位置信息
## 引言与背景
出租车行程数据是城市交通研究和智能交通系统开发的重要资源。本数据集包含纽约市650万条出租车行程记录,涵盖2020年初的出行数据,包含完整的行程时间、乘客数量、行程距离、费用明细和上下车位置等信息。这些数据对于分析城市交通流量、优化出租车调度、预测出行需求以及研究乘客行为模式具有重要价值。
数据集包含丰富的元数据字段,包括供应商信息、支付方式、费用构成等,为交通数据分析和机器学习模型训练提供了坚实基础。通过对这些数据的深入分析,可以揭示城市交通的时空规律,为城市规划和交通管理提供数据支持。
## 数据基本信息
### 数据集概览
| 项目 | 描述 |
|------|------|
| 数据规模 | 6,500,000 行 × 18 列 |
| 时间范围 | 2019年12月至2020年1月 |
| 供应商数量 | 2个 |
| 格式 | CSV |
### 数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|----------|----------|----------|----------|----------|
| VendorID | float64 | 供应商ID | 1.0 | 98.78% |
| tpep_pickup_datetime | object | 上车时间 | 01/01/2020 12:28:15 AM | 100% |
| tpep_dropoff_datetime | object | 下车时间 | 01/01/2020 12:33:03 AM | 100% |
| passenger_count | float64 | 乘客数量 | 1.0 | 98.78% |
| trip_distance | float64 | 行程距离(英里) | 1.2 | 100% |
| RatecodeID | float64 | 费率代码 | 1.0 | 98.78% |
| store_and_fwd_flag | object | 存储转发标志 | N | 98.78% |
| PULocationID | int64 | 上车位置ID | 238 | 100% |
| DOLocationID | int64 | 下车位置ID | 239 | 100% |
| payment_type | float64 | 支付类型 | 1.0 | 98.78% |
| fare_amount | float64 | 车费 | 6.0 | 100% |
| extra | float64 | 额外费用 | 3.0 | 100% |
| mta_tax | float64 | MTA税 | 0.5 | 100% |
| tip_amount | float64 | 小费 | 1.47 | 100% |
| tolls_amount | float64 | 过路费 | 0.0 | 100% |
| improvement_surcharge | float64 | 改善附加费 | 0.3 | 100% |
| total_amount | float64 | 总费用 | 11.27 | 100% |
| congestion_surcharge | float64 | 拥堵附加费 | 2.5 | 100% |
### 数据分布情况
#### 供应商分布
| VendorID | 记录数量 | 占比 |
|----------|----------|------|
| 2.0 | 4,300,914 | 66.17% |
| 1.0 | 2,119,857 | 32.61% |
#### 支付类型分布
| payment_type | 记录数量 | 占比 |
|--------------|----------|------|
| 1.0 (信用卡) | 4,754,867 | 73.15% |
| 2.0 (现金) | 1,614,300 | 24.84% |
| 3.0 (无收费) | 33,216 | 0.51% |
| 4.0 (争议) | 18,387 | 0.28% |
#### 乘客数量分布
| passenger_count | 记录数量 | 占比 |
|-----------------|----------|------|
| 1 | 4,604,359 | 70.84% |
| 2 | 959,137 | 14.76% |
| 5 | 228,784 | 3.52% |
| 3 | 253,553 | 3.90% |
| 4 | 125,124 | 1.92% |
| 6 | 133,978 | 2.06% |
| 0 | 115,771 | 1.78% |
#### 小时分布
| 时段 | 记录数量 | 特征描述 |
|------|----------|----------|
| 06:00-09:00 | 671,529 | 早高峰 |
| 17:00-19:00 | 833,857 | 晚高峰 |
| 00:00-05:00 | 527,176 | 夜间低谷 |
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|----------|----------|----------|
| 数据规模大 | 650万条行程记录 | 支持大规模模型训练和深度分析 |
| 时间精度高 | 精确到秒的时间戳 | 支持细粒度时间分析和预测 |
| 位置信息完整 | 上下车位置ID齐全 | 支持地理空间分析和热点识别 |
| 费用明细完整 | 包含多项费用构成 | 支持定价策略分析和收益优化 |
| 支付方式多样 | 多种支付类型记录 | 支持支付行为分析 |
| 缺失率低 | 关键字段缺失率仅1.22% | 数据质量高,可直接用于分析 |
## 数据样例
以下为数据集的元数据样例:
| VendorID | tpep_pickup_datetime | tpep_dropoff_datetime | passenger_count | trip_distance | payment_type | fare_amount | tip_amount | total_amount |
|----------|---------------------|----------------------|-----------------|---------------|--------------|-------------|------------|--------------|
| 1.0 | 01/01/2020 12:28:15 AM | 01/01/2020 12:33:03 AM | 1.0 | 1.2 | 1.0 | 6.0 | 1.47 | 11.27 |
| 1.0 | 01/01/2020 12:35:39 AM | 01/01/2020 12:43:04 AM | 1.0 | 1.2 | 1.0 | 7.0 | 1.5 | 12.3 |
| 1.0 | 01/01/2020 12:47:41 AM | 01/01/2020 12:53:52 AM | 1.0 | 0.6 | 1.0 | 6.0 | 1.0 | 10.8 |
| 2.0 | 01/01/2020 12:01:58 AM | 01/01/2020 12:04:16 AM | 1.0 | 0.0 | 2.0 | 3.5 | 0.0 | 4.8 |
| 2.0 | 01/01/2020 12:09:44 AM | 01/01/2020 12:10:37 AM | 1.0 | 0.03 | 2.0 | 2.5 | 0.0 | 3.8 |
| 1.0 | 01/01/2020 12:29:01 AM | 01/01/2020 12:40:28 AM | 2.0 | 0.7 | 1.0 | 8.0 | 2.35 | 14.15 |
| 1.0 | 01/01/2020 12:55:11 AM | 01/01/2020 01:12:03 AM | 2.0 | 2.4 | 1.0 | 12.0 | 1.75 | 17.55 |
| 2.0 | 01/01/2020 12:38:01 AM | 01/01/2020 01:15:21 AM | 1.0 | 7.76 | 1.0 | 28.5 | 4.84 | 37.14 |
| 1.0 | 01/01/2020 12:37:15 AM | 01/01/2020 12:51:41 AM | 1.0 | 0.8 | 2.0 | 9.5 | 0.0 | 13.3 |
| 1.0 | 01/01/2020 12:56:27 AM | 01/01/2020 01:21:44 AM | 1.0 | 3.3 | 1.0 | 17.0 | 4.15 | 24.95 |
## 应用场景
### 交通流量预测与优化
基于大量的历史行程数据,可以训练机器学习模型来预测不同时段、不同区域的出租车需求。通过分析小时分布数据,可以识别早晚高峰时段,为出租车调度提供决策支持。例如,模型可以预测早高峰时段(6:00-9:00)和晚高峰时段(17:00-19:00)的需求量,并据此优化车辆分配,减少乘客等待时间,提高运营效率。
### 定价策略分析
数据集包含完整的费用明细,包括车费、小费、过路费等,可以用于分析定价策略对乘客行为的影响。例如,可以研究小费金额与行程距离、时间、支付方式之间的关系,为制定合理的定价策略提供数据支持。同时,不同支付类型的分布也反映了乘客的支付偏好,可以为支付系统优化提供参考。
### 地理空间分析
通过上下车位置ID,可以分析城市不同区域的交通热点和出行模式。例如,可以识别热门的上车和下车地点,分析区域间的出行流量,为城市规划和交通基础设施建设提供参考。此外,结合时间信息还可以分析不同时段的热点区域变化,帮助优化城市交通管理。
### 需求响应系统开发
基于历史数据训练的预测模型可以用于开发智能需求响应系统。该系统可以根据实时需求动态调整出租车调度,提高资源利用率。例如,在大型活动期间,系统可以预测需求激增区域,并提前调配车辆,确保及时响应乘客需求。
## 结尾
本数据集是一个高质量的纽约市出租车行程数据集,包含650万条完整的行程记录,涵盖时间、费用、位置等多维度信息。数据集具有数据规模大、时间精度高、位置信息完整等优点,为城市交通分析、机器学习模型训练和智能交通系统开发提供了丰富的数据资源。
数据集以CSV格式存储,便于高效读写和处理。用户可以根据实际需求选择合适的字段进行分析,也可以结合业务知识对数据进行进一步的工程处理。
如有需要,可获取更多数据集相关信息。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






