# 芝加哥出租车行程数据集(2024年)
## 引言与背景
城市出租车出行数据是研究城市交通系统运作规律的重要基础资源。本数据集来源于芝加哥市开放数据平台,记录了2024年1月至2月间芝加哥市内出租车的全部出行信息,覆盖行程时间、里程、费用、支付方式、运营公司及精确地理坐标等核心字段,共计865,247条完整行程记录,原始文件大小约357 MB。
数据集以结构化CSV格式存储,每条记录涵盖行程唯一标识、出租车匿名标识、行程起止时间戳、行驶时长与里程、计价费用与小费、通行费、附加费、合计金额、支付方式、所属运营公司,以及上下客点所在人口普查区、社区编号与经纬度坐标共23个字段。数据中既包含结构化的数值信息,也包含分类标签与地理空间信息,具有极强的多维可挖掘性。
该数据集对交通领域科研、城市规划、智能出行算法研发以及商业分析具有显著价值。研究者可以借助此数据集探索出行需求的时空分布规律,分析乘客支付偏好的演变趋势,训练行程费用预测、需求热力图生成与司机调度优化等机器学习模型。对于城市交通管理部门而言,数据集所揭示的高频上客区域与出行时段特征,有助于制定更科学的运力部署策略;对于互联网出行平台与研究机构而言,精准的地理坐标数据为空间分析与路径规划算法的验证提供了高质量的真实场景基准。
---
## 数据基本信息
### 字段说明表格
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性(缺失率) |
|---|---|---|---|---|
| Trip ID | 字符串 | 行程唯一标识符(SHA1哈希) | 0287f53fedcde6b0... | 0.00% |
| Taxi ID | 字符串 | 出租车匿名唯一标识(SHA256哈希) | e54db25f18193a08... | 0.00% |
| Trip Start Timestamp | 日期时间 | 行程开始时间(精确到分钟) | 03/01/2024 12:00:00 AM | 0.00% |
| Trip End Timestamp | 日期时间 | 行程结束时间(精确到分钟) | 03/01/2024 12:15:00 AM | 0.00% |
| Trip Seconds | 整数 | 行程时长(秒) | 900 | 0.02% |
| Trip Miles | 浮点数 | 行程里程(英里) | 3.0 | 0.00% |
| Pickup Census Tract | 字符串 | 上客点所在人口普查区编号 | 17031081500 | 62.2% |
| Dropoff Census Tract | 字符串 | 下客点所在人口普查区编号 | 17031320100 | 63.7% |
| Pickup Community Area | 整数 | 上客点所在芝加哥社区编号(1-77) | 24 | 2.7% |
| Dropoff Community Area | 整数 | 下客点所在芝加哥社区编号(1-77) | 8 | 9.7% |
| Fare | 浮点数 | 计价器金额(美元) | 12.00 | 0.24% |
| Tips | 浮点数 | 小费金额(美元,仅信用卡支付含值) | 0.00 | 0.24% |
| Tolls | 浮点数 | 通行费(美元) | 0.00 | 0.24% |
| Extras | 浮点数 | 附加费(美元) | 0.00 | 0.24% |
| Trip Total | 浮点数 | 行程总金额(美元) | 12.00 | 0.24% |
| Payment Type | 字符串 | 支付方式(Credit Card/Cash/Mobile/Prcard等) | Cash | 0.00% |
| Company | 字符串 | 出租车运营公司名称 | Taxi Affiliation Services | 0.00% |
| Pickup Centroid Latitude | 浮点数 | 上客点质心纬度(WGS84) | 41.901206994 | 2.7% |
| Pickup Centroid Longitude | 浮点数 | 上客点质心经度(WGS84) | -87.676355989 | 2.7% |
| Pickup Centroid Location | 字符串 | 上客点质心坐标(WKT Point格式) | POINT (-87.676 41.901) | 2.7% |
| Dropoff Centroid Latitude | 浮点数 | 下客点质心纬度(WGS84) | 41.899602111 | 9.2% |
| Dropoff Centroid Longitude | 浮点数 | 下客点质心经度(WGS84) | -87.633308037 | 9.2% |
| Dropoff Centroid Location | 字符串 | 下客点质心坐标(WKT Point格式) | POINT (-87.633 41.899) | 9.2% |
> 数据规模总览:共865,247条行程记录,CSV格式,文件大小约357 MB,时间跨度为2024年1月至2024年2月,字段数量23个。
---
### 月度行程量分布
| 月份 | 行程数 | 占比 | 累计占比 |
|---|---|---|---|
| 2024年1月 | 425,203 | 49.14% | 49.14% |
| 2024年2月 | 440,005 | 50.85% | 99.99% |
| 2024年3月 | 39 | 0.00% | 100.00% |
| 合计 | 865,247 | 100.00% | — |
> 数据主要覆盖2024年1月与2月,两月数据量基本均衡,其中2月份行程量略高于1月份。
---
### 支付方式分布
| 支付方式 | 行程数 | 占比 |
|---|---|---|
| Credit Card(信用卡) | 324,125 | 37.46% |
| Cash(现金) | 253,722 | 29.32% |
| Mobile(移动支付) | 127,520 | 14.74% |
| Prcard(政府采购卡) | 112,964 | 13.06% |
| Unknown(未知) | 45,868 | 5.30% |
| No Charge(免费) | 738 | 0.09% |
| Dispute(争议) | 310 | 0.04% |
| 合计 | 865,247 | 100.00% |
---
### 主要运营公司分布(Top 10)
| 排名 | 公司名称 | 行程数 | 占比 |
|---|---|---|---|
| 1 | Flash Cab | 196,924 | 22.76% |
| 2 | Taxi Affiliation Services | 163,321 | 18.88% |
| 3 | Sun Taxi | 91,445 | 10.57% |
| 4 | Taxicab Insurance Agency Llc | 90,628 | 10.47% |
| 5 | City Service | 79,740 | 9.22% |
| 6 | Chicago Independents | 50,675 | 5.86% |
| 7 | 5 Star Taxi | 38,704 | 4.47% |
| 8 | Globe Taxi | 31,753 | 3.67% |
| 9 | Blue Ribbon Taxi Association | 29,769 | 3.44% |
| 10 | Medallion Leasin | 25,128 | 2.90% |
> Top 10 公司合计覆盖全部行程的91.24%,市场集中度较高。
---
### 主要上客社区分布(Top 10)
| 社区编号 | 社区名称 | 上客行程数 |
|---|---|---|
| 76 | O'Hare(奥黑尔机场区) | 189,650 |
| 8 | Near North Side(市中心北区) | 171,016 |
| 32 | Loop(芝加哥环城区/CBD) | 135,189 |
| 28 | Near West Side(近西区) | 88,197 |
| 56 | Garfield Ridge(中途机场附近) | 26,967 |
| 6 | Lake View(湖景区) | 26,398 |
| 33 | Near South Side(近南区) | 24,345 |
| 7 | Lincoln Park(林肯公园) | 15,999 |
| 3 | Uptown(市区北部) | 15,039 |
| 77 | Edgewater(湖滨区) | 11,241 |
---
### 行程关键指标统计
| 指标 | 均值 | 中位数 | 最大值 |
|---|---|---|---|
| 行程时长(秒) | 1,173.0 | 931.0 | 86,340 |
| 行程里程(英里) | 7.30 | 4.36 | 3,093.5 |
| 计价费用(美元) | $22.10 | $15.86 | — |
| 行程总金额(美元) | $27.25 | $18.90 | — |
---
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 数据规模大 | 包含865,247条行程,覆盖2个完整月份 | 支持大规模统计建模与深度学习训练,样本量充足、统计显著性强 |
| 多维字段覆盖 | 23个字段涵盖时间、里程、费用、支付、公司、地理信息 | 多角度特征工程,适合多任务联合建模 |
| 精确地理坐标 | 提供WGS84经纬度与WKT格式坐标 | 支持GIS空间分析、热力图生成、路径规划与地理围栏应用 |
| 完整费用拆分 | 分别记录Fare、Tips、Tolls、Extras、Trip Total | 可精细分析定价结构、小费行为与附加收费模式 |
| 支付方式多样 | 覆盖信用卡、现金、移动支付、政府采购卡等7种支付类型 | 适用于支付偏好分析、无现金社会研究 |
| 运营公司标识 | 记录真实公司名称,覆盖10余家主要运营商 | 支持公司竞争力分析、市场格局研究 |
| 匿名化处理完善 | 行程ID与出租车ID均经哈希匿名化 | 在保护隐私的前提下支持轨迹关联与车辆行为分析 |
| 官方权威来源 | 数据来自芝加哥市开放数据平台,政府公开授权 | 数据质量可靠,适合学术研究与公开引用 |
---
## 数据样例
以下为从数据集中提取的20条代表性行程样例(元数据样例),涵盖多种支付方式、不同运营公司、不同出行距离与费用区间,体现数据的多样性特征。
| 行程ID(前16位) | 开始时间 | 行程时长(秒) | 里程(英里) | 计价费($) | 总金额($) | 支付方式 | 运营公司 | 上客社区 → 下客社区 |
|---|---|---|---|---|---|---|---|---|
| 0287f53fedcde6b0 | 2024-03-01 00:00 | 15 | 0.09 | 3.25 | 38.75 | Credit Card | City Service | 8 → 8 |
| 1f0034299b914fd7 | 2024-03-01 00:00 | 900 | 3.00 | 12.00 | 12.00 | Cash | Taxi Affiliation Services | 24 → 8 |
| 01a0b77b722a0b91 | 2024-03-01 00:00 | 711 | 5.84 | 16.75 | 26.70 | Credit Card | City Service | 56 → — |
| 14aff2071ac81c64 | 2024-03-01 00:00 | 1770 | 13.36 | 34.75 | 47.10 | Credit Card | Sun Taxi | 76 → 3 |
| 16d3a633e2f380ce | 2024-03-01 00:00 | 849 | 6.13 | 18.51 | 22.82 | Mobile | 5 Star Taxi | 8 → 3 |
| 07a1e0cf2a3e0def | 2024-03-01 00:00 | 2280 | 2.00 | 77.50 | 154.50 | Credit Card | Taxi Affiliation Services | 76 → — |
| 4d61a32dfe8fc947 | 2024-03-01 00:00 | 1416 | 11.17 | 29.75 | 29.82 | Prcard | 5 Star Taxi | 28 → 28 |
| cce9346b4b5af0d6 | 2024-03-01 00:00 | 1553 | 13.21 | 34.00 | 46.20 | Credit Card | City Service | 76 → 5 |
| 76a403a0963ffdb0 | 2024-03-01 00:00 | 1755 | 12.52 | 32.75 | 48.43 | Credit Card | Sun Taxi | 76 → 4 |
| 6bf67f3a4636d6d9 | 2024-03-01 00:00 | 1260 | 9.90 | 26.75 | 26.75 | Cash | Taxi Affiliation Services | 28 → 6 |
| 62cd6c126e51b6df | 2024-03-01 00:00 | 903 | 2.49 | 10.50 | 10.50 | Prcard | City Service | 8 → 8 |
| c467ce4012447801 | 2024-03-01 00:00 | 180 | 0.00 | 11.25 | 11.25 | Cash | Taxi Affiliation Services | 24 → 7 |
| cddbe510b42483db | 2024-03-01 00:00 | 1500 | 17.20 | 42.75 | 57.40 | Credit Card | Taxi Affiliation Services | 76 → 8 |
| ae39c4467162ea5c | 2024-03-01 00:00 | 1380 | 14.00 | 35.25 | 50.40 | Credit Card | Taxi Affiliation Services | 56 → 41 |
| fb9913c9681d3d43 | 2024-03-01 00:00 | 1167 | 13.93 | 29.69 | 36.53 | Mobile | Blue Ribbon Taxi Association | 8 → 44 |
| 4d69deca298bbbbe | 2024-03-01 00:00 | 1157 | 11.64 | 30.00 | 60.00 | Credit Card | Sun Taxi | 76 → — |
| 4b47025cf64d8fe9 | 2024-03-01 00:00 | 420 | 0.10 | 7.75 | 9.75 | Credit Card | Taxi Affiliation Services | 32 → 33 |
| e73c5525333d0cf4 | 2024-03-01 00:00 | 1340 | 13.02 | 33.50 | 37.50 | Cash | City Service | 56 → 29 |
| e69e69c81441d3c1 | 2024-03-01 00:00 | 0 | 0.00 | 28.75 | 33.25 | Cash | Chicago Independents | — → — |
| e79e6f7a30f20f76 | 2024-03-01 00:00 | 420 | 1.50 | 7.50 | 7.50 | Cash | Chicago City Taxi Association | 8 → 28 |
> 样例类型说明:以上为行程元数据样例,展示了短途与长途行程、多种支付方式、多家运营公司的数据多样性。部分行程的下客社区(—)表示该字段在原始数据中为空。
---
## 应用场景
### 1. 出行需求预测与智能调度模型训练
本数据集记录了865,247条真实行程的精确起止时间与地理位置,为出行需求预测模型的训练提供了坚实基础。研究人员可以以每小时、每15分钟为时间粒度,统计各社区的上客需求量,构建时序预测模型(如LSTM、Transformer、Prophet等),从而预测未来某一时刻、某一区域的出租车需求。结合月度分布数据可以发现,奥黑尔机场(社区76)与芝加哥环城区CBD(社区32)是最主要的出行起点,这类高密度节点的需求波动规律尤其值得重点建模。对于运营平台而言,精准的需求预测可以优化司机的空驶等待时间,提升乘客的响应速度,降低运营成本。此外,数据中包含多家出租车公司的行程记录,研究者可以对比不同公司在相同区域的调度效率,探讨市场化竞争环境下的最优运力分配策略,为城市级别的智能网约车系统提供算法支撑。
### 2. 行程费用预测与定价策略研究
数据集中包含完整的费用拆分字段,包括计价器金额(Fare)、小费(Tips)、通行费(Tolls)、附加费(Extras)以及行程总金额(Trip Total),为构建行程费用预测模型提供了高质量的监督信号。研究者可以以行程时长、行驶里程、出发/到达社区、出发时间段、支付方式等作为输入特征,训练回归模型(如XGBoost、LightGBM、深度神经网络等)预测行程总金额,评估定价合理性。从统计数据来看,行程平均计价金额为22.10美元,中位数为15.86美元,而行程平均总金额为27.25美元,说明小费与附加费对总金额有显著贡献。该数据集还可用于研究小费金额与支付方式之间的相关性——信用卡支付用户的小费行为通常与现金支付用户存在明显差异,为支付方式影响消费行为的学术研究提供了真实数据支撑。
### 3. 城市交通空间分析与热力图生成
本数据集提供了上下客点的精确经纬度坐标(WGS84格式),覆盖芝加哥市全域,适合进行多种形式的地理空间分析。研究者可以利用上客点坐标生成出行需求热力图,直观展示芝加哥市内各区域的打车密度分布;利用上下客配对坐标绘制出行流向图(Origin-Destination Matrix),分析城市不同区域之间的出行联系强度;基于社区级别的聚合统计,可以进一步研究机场、CBD、住宅区、商业区等不同功能区在出行行为上的差异。此外,通过将出行数据与城市POI(兴趣点)数据融合,可以分析特定地标(如会议中心、大型商场、医院等)对周边出行需求的辐射效应,为城市规划部门优化出租车站点布局、调整路网信号配时提供数据依据。
### 4. 支付行为分析与无现金化趋势研究
支付方式字段完整覆盖865,247条记录,涵盖信用卡(37.46%)、现金(29.32%)、移动支付(14.74%)、政府采购卡(13.06%)等7种类型,为支付行为研究提供了丰富的样本。研究者可以通过对支付方式与行程特征(里程、费用、时段、社区)的交叉分析,揭示不同支付方式在使用场景上的显著差异——例如,移动支付是否更集中于特定人群或特定区域,现金支付是否与低费用短途行程高度相关。政府采购卡(Prcard)占比高达13.06%,这一现象在其他城市出租车数据集中较为罕见,反映了芝加哥市政公务出行的规模与特点,可为公共财政与城市治理研究提供独特视角。此类数据对金融科技公司、支付平台以及政策研究机构均具有重要参考价值。
### 5. 机器学习特征工程与基准数据集构建
本数据集因其字段丰富、数量庞大、来源权威,非常适合作为机器学习任务的基准数据集。研究人员可以基于此数据集构建多种监督学习任务,例如:行程时长分类(短途/中途/长途)、费用区间预测、支付方式分类、异常行程检测(如极端里程或极端费用行程的识别)等。数据集中行程里程最大值达3,093.5英里,行程时长最大值达86,340秒(约24小时),这些离群值的存在为异常检测算法的测试提供了真实场景。此外,数据集中的缺失值分布具有明显的规律性(人口普查区字段缺失率超过60%,而核心字段缺失率接近于零),为缺失值处理策略的研究与评估提供了良好的实验载体,适合作为数据质量管理与数据清洗方法论的教学与研究案例。
### 6. 出租车行业竞争格局与公司运营效率分析
数据集完整记录了各行程所属的运营公司信息,涵盖10余家主要公司。Flash Cab以22.76%的市场份额排名第一,Taxi Affiliation Services以18.88%紧随其后,前两家公司合计占据市场的41.64%,市场集中度较高。研究者可以从公司维度出发,分析不同公司在时段分布、区域覆盖、平均里程、平均费用、小费比率等方面的差异,从而评估各公司的运营策略与服务特征。结合地理信息字段,还可以分析不同公司在机场、CBD、住宅区等关键区域的市场份额与竞争格局,为出租车行业监管部门的政策制定提供量化依据,也为商业竞争情报分析提供参考。
---
## 总结
本数据集是一份覆盖芝加哥市2024年1至2月完整出行周期的高质量出租车行程数据集,包含865,247条真实行程记录,字段涵盖时间、里程、费用结构、支付方式、运营公司及地理坐标共23个维度。数据体量充足,结构清晰,来源权威,具备直接用于模型训练、空间分析、行业研究和政策评估的条件,无需额外数据清洗即可快速上手。
数据集在支付方式、运营公司、地理空间等关键维度上均呈现出显著的多样性与代表性,特别是精确经纬度坐标的完整保留,使其在空间分析领域具有突出优势。机场区域与CBD区域的高密度出行数据,为城市枢纽节点的交通行为研究提供了不可多得的真实样本。
如需获取完整数据集文件或进一步了解数据字段的详细说明,欢迎私信咨询。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






