# 纽约市出租车行程数据集深度分析:1191万条记录揭示城市出行规律
## 引言与背景
纽约市作为全球最重要的商业和文化中心之一,其出租车服务是城市交通系统的重要组成部分。这份包含超过1191万条记录的出租车行程数据集,涵盖了丰富的出行信息,包括行程时间、地点、费用等关键维度。该数据集不仅为城市交通规划提供了宝贵的数据支撑,也为机器学习算法训练、出行模式分析、推荐系统优化等研究领域提供了高质量的数据基础。
数据集包含完整的原始行程记录,涵盖18个核心字段,包括行程时间戳、乘客数量、行程距离、费用明细、上下车地点等。这些数据来源于纽约市出租车和豪华轿车委员会(TLC)的官方记录,具有高度的权威性和准确性。通过对这些数据的深入分析,可以揭示城市交通的运行规律、居民出行习惯以及经济活动特征,为城市管理和商业决策提供数据驱动的洞察。
## 数据基本信息
### 字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| VendorID | object | 出租车运营商ID | 1或2 | 99.23% |
| tpep_pickup_datetime | object | 上车时间 | 01/01/2020 12:28:15 AM | 100% |
| tpep_dropoff_datetime | object | 下车时间 | 01/01/2020 12:33:03 AM | 100% |
| passenger_count | float64 | 乘客数量 | 1 | 99.23% |
| trip_distance | float64 | 行程距离(英里) | 1.2 | 100% |
| RatecodeID | float64 | 费率代码 | 1 | 99.23% |
| store_and_fwd_flag | object | 存储转发标志 | N | 99.23% |
| PULocationID | float64 | 上车地点ID | 238 | 100% |
| DOLocationID | float64 | 下车地点ID | 239 | 100% |
| payment_type | float64 | 支付类型 | 1 | 99.23% |
| fare_amount | float64 | 车费金额 | 6 | 100% |
| extra | float64 | 额外费用 | 3 | 100% |
| mta_tax | float64 | MTA税 | 0.5 | 100% |
| tip_amount | float64 | 小费金额 | 1.47 | 100% |
| tolls_amount | float64 | 过路费 | 0 | 100% |
| improvement_surcharge | float64 | 改善附加费 | 0.3 | 100% |
| total_amount | float64 | 总金额 | 11.27 | 100% |
| congestion_surcharge | float64 | 拥堵附加费 | 2.5 | 100% |
### 数据分布情况
#### 时间分布
| 小时 | 记录数量 | 占比 |
|-----|---------|------|
| 18:00 | 823,085 | 6.91% |
| 17:00 | 751,000 | 6.30% |
| 19:00 | 741,304 | 6.22% |
| 14:00 | 680,742 | 5.71% |
| 15:00 | 696,510 | 5.85% |
| 12:00 | 633,017 | 5.31% |
| 13:00 | 643,141 | 5.40% |
| 21:00 | 643,260 | 5.40% |
| 20:00 | 659,254 | 5.53% |
| 11:00 | 582,728 | 4.90% |
#### 乘客数量分布
| 乘客数量 | 记录数量 | 占比 |
|---------|---------|------|
| 1人 | 8,494,455 | 71.3% |
| 2人 | 1,758,003 | 14.76% |
| 3人 | 461,681 | 3.87% |
| 5人 | 418,233 | 3.51% |
| 6人 | 245,829 | 2.06% |
| 4人 | 224,675 | 1.89% |
| 0人 | 222,229 | 1.87% |
#### 支付类型分布
| 支付类型 | 记录数量 | 占比 |
|---------|---------|------|
| 信用卡 | 8,819,858 | 73.99% |
| 现金 | 2,910,360 | 24.43% |
| 无支付 | 60,954 | 0.51% |
| 争议 | 34,041 | 0.29% |
#### 费率代码分布
| 费率代码 | 描述 | 记录数量 | 占比 |
|---------|------|---------|------|
| 1 | 标准费率 | 11,440,233 | 95.99% |
| 2 | JFK机场 | 283,480 | 2.38% |
| 5 | 纽瓦克机场 | 66,835 | 0.56% |
| 3 | 夜间费率 | 24,712 | 0.21% |
| 4 | 团体费率 | 9,252 | 0.08% |
#### 主要上车地点分布(Top 10)
| 地点ID | 记录数量 | 占比 |
|-------|---------|------|
| 237 | 535,131 | 4.50% |
| 161 | 527,316 | 4.43% |
| 236 | 499,478 | 4.20% |
| 162 | 440,190 | 3.69% |
| 186 | 428,652 | 3.60% |
| 230 | 426,551 | 3.58% |
| 132 | 381,818 | 3.21% |
| 170 | 363,437 | 3.05% |
| 48 | 360,598 | 3.03% |
| 142 | 358,517 | 3.01% |
### 数据规模与统计摘要
数据集包含11,916,667条行程记录,时间跨度从2003年1月至2021年1月,主要集中在2020年。行程距离方面,平均行程约2.88英里,中位数为1.6英里,说明大部分行程为短途出行。费用方面,平均车费为12.64美元,平均小费为2.21美元,平均总费用为18.61美元。
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 数据规模庞大 | 超过1191万条行程记录 | 支持大规模机器学习训练和深度数据分析 |
| 时间跨度长 | 覆盖近18年的行程数据 | 可分析长期出行趋势和季节性变化 |
| 字段丰富 | 18个核心字段,涵盖行程全生命周期 | 支持多维度分析和交叉验证 |
| 数据完整性高 | 核心字段缺失率低于1% | 保证分析结果的可靠性和准确性 |
| 地理信息完整 | 包含上下车地点ID | 支持地理空间分析和热点区域识别 |
| 费用结构详细 | 包含多种费用明细字段 | 支持定价策略分析和成本优化 |
| 支付方式多样 | 涵盖多种支付类型 | 支持支付行为分析和金融研究 |
## 数据样例
以下为数据集中的典型样例记录,涵盖不同时间段、乘客数量和费用水平:
| VendorID | tpep_pickup_datetime | tpep_dropoff_datetime | passenger_count | trip_distance | RatecodeID | payment_type | fare_amount | tip_amount | total_amount |
|---------|---------------------|----------------------|-----------------|---------------|------------|--------------|-------------|------------|--------------|
| 1 | 01/01/2020 12:28:15 AM | 01/01/2020 12:33:03 AM | 1 | 1.2 | 1 | 1 | 6 | 1.47 | 11.27 |
| 2 | 01/01/2020 12:01:58 AM | 01/01/2020 12:04:16 AM | 1 | 0 | 1 | 2 | 3.5 | 0 | 4.8 |
| 1 | 01/01/2020 12:29:01 AM | 01/01/2020 12:40:28 AM | 2 | 0.7 | 1 | 1 | 8 | 2.35 | 14.15 |
| 2 | 01/01/2020 12:19:13 AM | 01/01/2020 12:28:54 AM | 1 | 2.12 | 1 | 1 | 9 | 0 | 12.8 |
| 1 | 01/01/2020 12:37:15 AM | 01/01/2020 12:51:41 AM | 1 | 0.8 | 1 | 2 | 9.5 | 0 | 13.3 |
| 2 | 01/01/2020 12:38:01 AM | 01/01/2020 01:15:21 AM | 1 | 7.76 | 1 | 1 | 28.5 | 4.84 | 37.14 |
| 1 | 01/01/2020 12:15:35 AM | 01/01/2020 12:27:06 AM | 3 | 1.6 | 1 | 2 | 9 | 0 | 12.8 |
| 2 | 01/01/2020 12:08:21 AM | 01/01/2020 12:25:29 AM | 1 | 8.45 | 1 | 2 | 24.5 | 0 | 25.8 |
| 1 | 01/01/2020 12:49:00 AM | 01/01/2020 01:17:42 AM | 1 | 2.9 | 1 | 1 | 19 | 4.55 | 27.35 |
| 2 | 01/01/2020 12:42:23 AM | 01/01/2020 12:47:08 AM | 4 | 0.66 | 1 | 1 | 5 | 1.76 | 10.56 |
## 应用场景
### 智能交通规划与管理
基于该数据集,城市交通管理部门可以深入分析不同时段、不同区域的出行需求,优化出租车调度策略。通过识别高峰时段和热点区域,可以合理分配运力,减少空载率,提高运营效率。例如,分析显示晚高峰(18:00-19:00)是出行需求最大的时段,相关部门可以在此时段增加特定区域的出租车投放量。此外,通过分析行程距离分布和上下车热点,可以为城市规划提供参考,优化道路建设和公共交通线路规划。
### 机器学习与预测模型训练
该数据集为机器学习算法训练提供了丰富的样本。研究人员可以利用这些数据训练行程时间预测模型、费用估算模型、需求预测模型等。例如,基于历史数据训练的需求预测模型可以帮助出租车公司提前调配车辆,响应实时需求变化。同时,数据集包含的多维度特征(时间、地点、乘客数量等)为深度学习模型提供了充足的训练素材,有助于提升预测精度和模型泛化能力。
### 商业智能与决策支持
对于出租车运营企业而言,该数据集可用于分析运营成本结构、定价策略效果、客户行为模式等。通过分析不同支付方式的比例和小费行为,可以优化定价策略和服务质量。例如,数据显示信用卡支付占比达73.99%,说明电子支付已成为主流,企业可以据此优化支付系统配置。此外,分析热门上下车地点可以帮助企业制定针对性的营销策略,提高市场竞争力。
### 城市经济分析与研究
出租车出行数据反映了城市经济活动的活跃度和居民消费行为。研究人员可以通过分析不同时段的出行频次、平均费用等指标,评估城市经济运行状况。例如,节假日和工作日的出行模式差异可以反映居民的生活节奏和消费习惯。此外,通过分析不同区域的出行流量,可以评估商业区、住宅区和旅游景点的活跃度,为商业决策提供数据支撑。
## 结尾
本数据集以其庞大的规模、丰富的字段和较高的数据质量,为城市交通研究、机器学习训练和商业决策提供了宝贵的资源。超过1191万条记录覆盖了近18年的出租车行程,包含完整的行程时间、地点、费用等多维度信息,支持从宏观趋势分析到微观行为研究的多层次应用。
该数据集的核心优势在于其完整性和多样性。完整的原始数据记录使得研究人员可以进行深入的数据分析和挖掘,而多样化的字段则支持多维度交叉分析。无论是用于智能交通规划、算法训练还是商业决策,该数据集都展现出强大的应用潜力。
如需获取更多关于数据集的详细信息或定制化分析服务,可私信获取进一步支持。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:





