wnx

verify-tag纽约出租车2022年1月-8月完整数据集分析报告-包含黄色出租车绿色出租车全量数据-地理空间信息-时间分布-支付类型分布-交通模式研究-算法训练数据

出租车数据集地理空间信息时间分布支付类型分布交通模式研究算法训练数据

29.9

已售 0
87.94MB

数据标识:D17760518713885203

发布时间:2026/04/13

# 纽约出租车2022年1月-8月数据集分析报告

## 引言与背景

纽约市的出租车数据是研究城市交通模式、出行行为和经济活动的重要资源。本数据集包含了2022年1月和8月的黄色出租车和绿色出租车的完整运营记录,以及详细的地理空间信息。这些数据不仅对于交通规划、城市管理和政策制定具有重要价值,也是机器学习算法训练、交通预测模型构建的理想数据源。

数据集由以下部分组成:黄色出租车2022年1月和8月的运营数据、绿色出租车2022年1月和8月的运营数据,以及包含265个出租车区域的地理信息数据。这些数据涵盖了纽约市五大区的出租车运营情况,记录了每笔行程的详细信息,包括上车时间、下车时间、上车地点、下车地点、乘客数量、行驶距离、费用明细等。

对于科研人员,这些数据可以用于研究城市交通流量、出行模式、拥堵情况等;对于算法工程师,这些数据可以用于训练交通预测模型、路线推荐系统、需求预测模型等;对于行业应用,这些数据可以帮助出租车公司优化运营策略、提高服务质量。

## 数据基本信息

### 数据字段说明

#### 黄色出租车数据字段

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|---------|
| VendorID | int64 | 供应商ID | 1 | 100% |
| tpep_pickup_datetime | datetime64[us] | 上车时间 | 2022-01-01 00:35:40 | 100% |
| tpep_dropoff_datetime | datetime64[us] | 下车时间 | 2022-01-01 00:53:25 | 100% |
| passenger_count | float64 | 乘客数量 | 1.0 | 97.1% |
| trip_distance | float64 | 行驶距离(英里) | 3.8 | 100% |
| RatecodeID | float64 | 费率代码ID | 1.0 | 97.1% |
| store_and_fwd_flag | object | 存储转发标志 | N | 97.1% |
| PULocationID | int64 | 上车地点ID | 142 | 100% |
| DOLocationID | int64 | 下车地点ID | 43 | 100% |
| payment_type | int64 | 支付类型 | 1 | 100% |
| fare_amount | float64 | 车费金额 | 14.5 | 100% |
| extra | float64 | 额外费用 | 3.0 | 100% |
| mta_tax | float64 | MTA税 | 0.5 | 100% |
| tip_amount | float64 | 小费金额 | 3.66 | 100% |
| tolls_amount | float64 | 通行费 | 0.0 | 100% |
| improvement_surcharge | float64 | 改进附加费 | 0.3 | 100% |
| total_amount | float64 | 总金额 | 21.96 | 100% |
| congestion_surcharge | float64 | 拥堵附加费 | 2.5 | 97.1% |
| airport_fee | float64 | 机场费用 | 0.0 | 97.1% |

#### 绿色出租车数据字段

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|---------|
| VendorID | int64 | 供应商ID | 2 | 100% |
| lpep_pickup_datetime | datetime64[us] | 上车时间 | 2022-01-01 00:02:23 | 100% |
| lpep_dropoff_datetime | datetime64[us] | 下车时间 | 2022-01-01 00:18:02 | 100% |
| store_and_fwd_flag | object | 存储转发标志 | N | 89.93% |
| RatecodeID | float64 | 费率代码ID | 1.0 | 89.93% |
| PULocationID | int64 | 上车地点ID | 41 | 100% |
| DOLocationID | int64 | 下车地点ID | 42 | 100% |
| passenger_count | float64 | 乘客数量 | 1.0 | 89.93% |
| trip_distance | float64 | 行驶距离(英里) | 1.5 | 100% |
| fare_amount | float64 | 车费金额 | 10.0 | 100% |
| extra | float64 | 额外费用 | 0.5 | 100% |
| mta_tax | float64 | MTA税 | 0.5 | 100% |
| tip_amount | float64 | 小费金额 | 2.26 | 100% |
| tolls_amount | float64 | 通行费 | 0.0 | 100% |
| ehail_fee | object | 电子叫车费用 | NaN | 0% |
| improvement_surcharge | float64 | 改进附加费 | 0.3 | 100% |
| total_amount | float64 | 总金额 | 13.56 | 100% |
| payment_type | float64 | 支付类型 | 1.0 | 89.93% |
| trip_type | float64 | 行程类型 | 1.0 | 89.93% |
| congestion_surcharge | float64 | 拥堵附加费 | 2.5 | 89.93% |

#### 出租车区域信息字段

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|---------|
| LocationID | int64 | 区域ID | 1 | 100% |
| Borough | object | 行政区 | EWR | 100% |
| Zone | object | 区域名称 | Newark Airport | 100% |
| service_zone | object | 服务区域 | EWR | 100% |

### 数据分布情况

#### 时间分布(黄色出租车1月)

| 小时 | 记录数量 | 占比 | 累计占比 |
|------|---------|------|---------|
| 0 | 60,065 | 2.44% | 2.44% |
| 1 | 42,313 | 1.72% | 4.16% |
| 2 | 29,193 | 1.18% | 5.34% |
| 3 | 19,308 | 0.78% | 6.12% |
| 4 | 12,828 | 0.52% | 6.64% |
| 5 | 14,443 | 0.59% | 7.23% |
| 6 | 36,206 | 1.47% | 8.70% |
| 7 | 74,137 | 3.01% | 11.71% |
| 8 | 101,528 | 4.12% | 15.83% |
| 9 | 109,376 | 4.44% | 20.27% |
| 10 | 119,816 | 4.86% | 25.13% |
| 11 | 129,561 | 5.26% | 30.39% |
| 12 | 142,216 | 5.77% | 36.16% |
| 13 | 147,878 | 6.00% | 42.16% |
| 14 | 163,858 | 6.65% | 48.81% |
| 15 | 174,416 | 7.08% | 55.89% |
| 16 | 168,564 | 6.84% | 62.73% |
| 17 | 176,701 | 7.17% | 69.90% |
| 18 | 177,696 | 7.21% | 77.11% |
| 19 | 151,346 | 6.14% | 83.25% |
| 20 | 117,997 | 4.79% | 88.04% |
| 21 | 109,627 | 4.45% | 92.49% |
| 22 | 104,649 | 4.25% | 96.74% |
| 23 | 80,209 | 3.26% | 100.00% |

#### 支付类型分布(黄色出租车1月)

| 支付类型 | 记录数量 | 占比 |
|---------|---------|------|
| 信用卡 | 1,874,874 | 76.09% |
| 现金 | 495,171 | 20.10% |
| 无 charge | 11,709 | 0.48% |
| 争议 | 10,673 | 0.43% |
| 未知 | 71,503 | 2.90% |

#### 上车区域分布(黄色出租车1月Top 10)

| 区域ID | 行政区 | 区域名称 | 记录数量 | 占比 |
|---------|---------|---------|---------|------|
| 237 | Manhattan | Upper East Side South | 121,630 | 4.94% |
| 236 | Manhattan | Upper East Side North | 120,814 | 4.90% |
| 132 | Queens | JFK Airport | 103,485 | 4.20% |
| 161 | Manhattan | Midtown Center | 88,237 | 3.58% |
| 186 | Manhattan | Penn Station/Madison Sq West | 80,580 | 3.27% |
| 142 | Manhattan | Lincoln Square East | 80,187 | 3.25% |
| 141 | Manhattan | Lenox Hill West | 77,192 | 3.13% |
| 48 | Manhattan | Clinton East | 77,003 | 3.13% |
| 239 | Manhattan | Upper West Side South | 75,563 | 3.07% |
| 170 | Manhattan | Murray Hill | 75,486 | 3.06% |

### 数据规模与类型

- 总记录数:5,745,032 条
- 黄色出租车:5,616,608 条(97.77%)
- 绿色出租车:128,424 条(2.23%)
- 数据格式:Parquet 文件
- 时间范围:2022年1月和8月
- 覆盖区域:纽约市五大区及周边地区
- 数据类型:结构化数据,包含时间、地理位置、数值和分类数据

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 数据量庞大 | 超过570万条记录,涵盖纽约市主要出租车运营数据 | 提供足够的样本量用于模型训练和分析 |
| 数据维度丰富 | 包含时间、地理位置、费用、支付方式等多个维度 | 支持多维度分析和复杂模型构建 |
| 时间跨度合理 | 包含1月(冬季)和8月(夏季)的数据,体现季节差异 | 可研究季节性交通模式变化 |
| 地理信息完整 | 包含265个出租车区域的详细信息 | 支持地理空间分析和区域交通研究 |
| 数据质量高 | 核心字段完整性超过97% | 保证分析结果的可靠性 |
| 包含多种出租车类型 | 同时包含黄色出租车和绿色出租车数据 | 可比较不同类型出租车的运营特征 |
| 原始数据完整 | 包含完整的行程记录和费用明细 | 支持详细的费用分析和预测 |

## 数据样例

### 黄色出租车样例(2022年1月)

| VendorID | tpep_pickup_datetime | tpep_dropoff_datetime | passenger_count | trip_distance | PULocationID | DOLocationID | fare_amount | total_amount | payment_type |
|---------|---------------------|----------------------|----------------|--------------|-------------|-------------|-------------|-------------|-------------|
| 1 | 2022-01-01 00:35:40 | 2022-01-01 00:53:25 | 1.0 | 3.8 | 142 | 43 | 14.5 | 21.96 | 1 |
| 1 | 2022-01-01 00:33:43 | 2022-01-01 00:42:07 | 1.0 | 2.1 | 236 | 48 | 10.0 | 17.30 | 1 |
| 2 | 2022-01-01 00:53:21 | 2022-01-01 01:02:19 | 1.0 | 1.9 | 132 | 138 | 11.0 | 17.80 | 2 |
| 2 | 2022-01-01 00:25:21 | 2022-01-01 00:35:23 | 1.0 | 2.5 | 161 | 141 | 12.0 | 19.30 | 1 |
| 2 | 2022-01-01 00:36:48 | 2022-01-01 00:55:52 | 1.0 | 4.3 | 186 | 237 | 16.0 | 23.80 | 1 |

### 绿色出租车样例(2022年1月)

| VendorID | lpep_pickup_datetime | lpep_dropoff_datetime | passenger_count | trip_distance | PULocationID | DOLocationID | fare_amount | total_amount | payment_type |
|---------|---------------------|----------------------|----------------|--------------|-------------|-------------|-------------|-------------|-------------|
| 2 | 2022-01-01 00:02:23 | 2022-01-01 00:18:02 | 1.0 | 1.5 | 41 | 42 | 10.0 | 13.56 | 1.0 |
| 2 | 2022-01-01 00:04:24 | 2022-01-01 00:10:37 | 1.0 | 0.9 | 74 | 75 | 6.0 | 9.86 | 1.0 |
| 2 | 2022-01-01 00:09:18 | 2022-01-01 00:27:00 | 1.0 | 3.8 | 166 | 244 | 14.5 | 18.36 | 1.0 |
| 2 | 2022-01-01 00:12:35 | 2022-01-01 00:22:42 | 1.0 | 2.1 | 75 | 41 | 10.0 | 13.86 | 1.0 |
| 2 | 2022-01-01 00:14:29 | 2022-01-01 00:29:01 | 1.0 | 3.0 | 42 | 166 | 12.0 | 15.86 | 1.0 |

### 出租车区域信息样例

| LocationID | Borough | Zone | service_zone |
|---------|---------|---------|---------|
| 1 | EWR | Newark Airport | EWR |
| 2 | Queens | Jamaica Bay | Boro Zone |
| 3 | Bronx | Allerton/Pelham Gardens | Boro Zone |
| 4 | Manhattan | Alphabet City | Yellow Zone |
| 5 | Staten Island | Arden Heights | Boro Zone |

## 应用场景

### 交通流量分析与预测

基于本数据集,可以分析纽约市不同区域、不同时间段的交通流量分布,识别交通高峰时段和拥堵热点区域。通过历史数据训练预测模型,可以预测未来的交通流量趋势,为交通管理部门提供决策支持。例如,利用时间分布数据,可以发现早高峰(7-9点)和晚高峰(17-19点)的流量特征,结合地理分布数据,可以识别出曼哈顿中城、JFK机场等热点区域,从而优化交通信号控制、调整公共交通运力。

### 出租车运营策略优化

出租车公司可以利用本数据集分析乘客需求模式,优化车辆调度策略。例如,通过分析上车区域分布,可以了解不同区域的需求密度,合理安排车辆投放;通过分析时间分布,可以在高峰时段增加车辆供应;通过分析支付类型分布,可以优化支付方式,提高服务效率。此外,还可以分析不同季节的需求变化,为季节性运营调整提供依据。

### 机器学习算法训练

本数据集是训练交通相关机器学习模型的理想素材。可以用于训练以下类型的模型:
- 需求预测模型:基于历史数据预测未来某区域的出租车需求
- 价格预测模型:基于行程距离、时间、区域等因素预测车费
- 路线推荐模型:基于历史行驶数据推荐最优路线
- 异常检测模型:识别异常的行程记录或费用模式

这些模型可以应用于出租车调度系统、叫车平台、交通管理系统等场景,提高运营效率和服务质量。

### 城市规划与政策制定

城市规划者可以利用本数据集分析城市出行模式,为城市规划和交通政策制定提供依据。例如,通过分析乘客上下车地点分布,可以识别出公共交通覆盖不足的区域,优化公交线路布局;通过分析交通流量的时间和空间分布,可以合理规划道路建设和改造;通过分析不同区域的出行特征,可以制定针对性的交通管理政策,如拥堵收费、限行措施等。

### 经济活动分析

出租车数据可以间接反映城市的经济活动情况。例如,商业区、娱乐区的出租车需求变化可以反映商业活动的活跃程度;机场、火车站的出租车流量可以反映旅游业的发展状况;不同区域的车费水平可以反映区域经济发展水平。这些信息对于商业规划、投资决策等都具有参考价值。

## 结尾

纽约出租车2022年1月-8月数据集是一份极具价值的城市交通数据资源,包含了超过570万条详细的出租车行程记录,涵盖了黄色出租车和绿色出租车的运营情况,以及完整的地理空间信息。

该数据集的核心价值在于:
- 数据量庞大,提供了足够的样本用于分析和建模
- 数据维度丰富,支持多维度的交通模式分析
- 时间跨度合理,体现了不同季节的交通特征
- 地理信息完整,支持地理空间分析
- 数据质量高,核心字段完整性超过97%

这些数据不仅可以用于交通流量分析、出租车运营优化、机器学习算法训练等技术应用,还可以为城市规划、政策制定、经济活动分析等提供重要参考。

本数据集的应用前景广阔,无论是科研机构、企业还是政府部门,都可以从中获取有价值的信息,为城市交通的智能化、高效化发展做出贡献。

有需要获取更多信息或使用本数据集的用户,可私信联系获取详细说明。

看了又看

暂无推荐

验证报告

以下为卖家选择提供的数据验证报告:

data icon
纽约出租车2022年1月-8月完整数据集分析报告-包含黄色出租车绿色出租车全量数据-地理空间信息-时间分布-支付类型分布-交通模式研究-算法训练数据
29.9
已售 0
87.94MB
申请报告