数据描述
引言与背景
2020年初爆发的COVID-19疫情对全球航空业造成了前所未有的冲击,航班取消、延误情况频发,航空运输市场格局发生显著变化。本数据集记录了2020年1月至6月期间美国主要航空公司的航班运营情况,包含航班延误、取消等关键信息,为研究疫情对航空业的影响提供了宝贵的第一手资料。
数据基本信息
数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| YEAR | 数值型 | 年份 | 2020 | 100.00% |
| QUARTER | 数值型 | 季度(1-4) | 1 | 100.00% |
| MONTH | 数值型 | 月份(1-12) | 1 | 100.00% |
| DAY_OF_MONTH | 数值型 | 日期(1-31) | 1 | 100.00% |
| DAY_OF_WEEK | 数值型 | 星期几(1-7,1=周一) | 3 | 100.00% |
| FL_DATE | 日期型 | 完整航班日期 | 1/1/2020 | 100.00% |
| MKT_UNIQUE_CARRIER | 字符型 | 航空公司代码 | WN | 100.00% |
| MKT_CARRIER_FL_NUM | 数值型 | 航班号 | 5888 | 100.00% |
| TAIL_NUM | 字符型 | 飞机尾号 | N951WN | 94.07% |
| ORIGIN | 字符型 | 出发机场代码 | ONT | 100.00% |
| ORIGIN_CITY_NAME | 字符型 | 出发城市名称 | Ontario, CA | 100.00% |
| DEST | 字符型 | 到达机场代码 | SFO | 100.00% |
| DEST_CITY_NAME | 字符型 | 到达城市名称 | San Francisco, CA | 100.00% |
| CRS_DEP_TIME | 数值型 | 计划出发时间(HHMM) | 700 | 100.00% |
| DEP_TIME | 数值型 | 实际出发时间(HHMM) | 705 | 89.73% |
| DEP_DELAY | 数值型 | 出发延误时间(分钟) | 5 | 89.73% |
| CRS_ARR_TIME | 数值型 | 计划到达时间(HHMM) | 900 | 100.00% |
| ARR_TIME | 数值型 | 实际到达时间(HHMM) | 910 | 89.67% |
| ARR_DELAY | 数值型 | 到达延误时间(分钟) | 10 | 89.54% |
| CANCELLED | 数值型 | 是否取消(0=未取消,1=已取消) | 0 | 100.00% |
| CANCELLATION_CODE | 字符型 | 取消原因(A=航空公司,B=天气,C=国家航空系统,D=安全) | D | 10.30% |
| DISTANCE | 数值型 | 飞行距离(英里) | 363 | 100.00% |
数据分布情况
航空公司分布
| 航空公司 | 记录数量 | 占比 |
|---|---|---|
| 美国航空 | 735,559 | 26.79% |
| 达美航空 | 551,432 | 20.08% |
| 西南航空 | 531,577 | 19.36% |
| 联合航空 | 499,418 | 18.19% |
| 阿拉斯加航空 | 145,080 | 5.28% |
| 捷蓝航空 | 88,908 | 3.24% |
| 精神航空 | 65,918 | 2.40% |
| 忠实航空 | 53,160 | 1.94% |
| 边疆航空 | 47,134 | 1.72% |
| 夏威夷航空 | 27,661 | 1.01% |
月份分布
| 月份 | 记录数量 | 占比 | 累计占比 |
|---|---|---|---|
| 1月 | 660,556 | 24.06% | 24.06% |
| 2月 | 623,103 | 22.69% | 46.75% |
| 3月 | 701,274 | 25.54% | 72.29% |
| 4月 | 331,238 | 12.06% | 84.35% |
| 5月 | 192,412 | 7.01% | 91.36% |
| 6月 | 237,264 | 8.64% | 100.00% |
航班取消情况分布
| 状态 | 记录数量 | 占比 |
|---|---|---|
| 未取消 | 2,462,921 | 89.70% |
| 已取消 | 282,926 | 10.30% |
取消原因分布
| 取消原因 | 记录数量 | 占比(已取消航班) |
|---|---|---|
| 安全原因 | 246,293 | 87.05% |
| 航空公司原因 | 18,031 | 6.37% |
| 天气原因 | 14,281 | 5.05% |
| 国家航空系统原因 | 4,321 | 1.53% |
数据规模与覆盖范围
-
总记录数:2,745,847条
-
时间范围:2020年1月1日至2020年6月30日
-
包含航空公司:10家美国主要航空公司
-
出发/到达机场:375个
-
覆盖城市:368个
-
覆盖州/地区:52个
数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 数据量庞大 | 包含270余万条航班记录 | 提供足够的样本量支持统计学分析和机器学习模型训练 |
| 时间跨度关键 | 覆盖疫情初期(2020年1-6月) | 可清晰观察疫情对航空业的冲击过程和恢复趋势 |
| 字段信息全面 | 47个详细字段,涵盖航班运营全流程 | 支持多维度分析,从不同角度研究疫情影响 |
| 数据质量高 | 核心字段完整性超过90% | 确保分析结果的可靠性和准确性 |
| 覆盖范围广泛 | 包含10家主要航空公司和300多个机场 | 提供美国航空业的整体图景 |
| 实时性强 | 记录疫情期间的实时航班数据 | 为疫情应对政策评估提供直接依据 |
数据样例
以下是从数据集中随机抽取的20条样例记录,展示了数据集的多样性:
| YEAR | QUARTER | MONTH | DAY_OF_MONTH | DAY_OF_WEEK | FL_DATE | MKT_UNIQUE_CARRIER | MKT_CARRIER_FL_NUM | TAIL_NUM | ORIGIN | DEST | CANCELLED | ARR_DELAY |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 5888 | N951WN | ONT | SFO | 0 | 10 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 6276 | N467WN | ONT | SFO | 0 | 5 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 4598 | N7885A | ONT | SJC | 0 | 0 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 4761 | N551WN | ONT | SJC | 0 | -5 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 5162 | N968WN | ONT | SJC | 0 | 2 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 5684 | N7856A | ONT | SJC | 0 | 8 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 6152 | N7735A | ONT | SJC | 0 | 3 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 1679 | N405WN | ONT | SMF | 0 | 15 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 3479 | N489WN | ONT | SMF | 0 | 7 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 4069 | N7708E | ONT | SMF | 0 | 0 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 4905 | N426WN | ONT | SMF | 0 | -3 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 4918 | N455WN | ONT | SMF | 0 | 5 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 5144 | N8314L | ONT | SMF | 0 | 12 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 5722 | N7820L | ONT | SMF | 0 | 4 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 3719 | N941WN | ORF | BWI | 0 | 0 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 4863 | N496WN | ORF | BWI | 0 | -2 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 4924 | N7732A | ORF | BWI | 0 | 6 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 5321 | N7863A | ORF | BWI | 0 | 9 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 4618 | N928WN | ORF | MCO | 0 | 14 |
| 2020 | 1 | 1 | 1 | 3 | 1/1/2020 | WN | 5992 | N410WN | ORF | MDW | 0 | 7 |
应用场景
疫情对航空业影响的量化研究
该数据集为研究COVID-19疫情对航空业的影响提供了丰富的实证数据。通过分析2020年1-6月的航班数据,可以清晰地观察到疫情爆发前后航空运输量的变化趋势。例如,从月份分布数据可以看出,3月是一个明显的转折点,航班数量从3月的70万余条急剧下降到4月的33万余条,降幅超过50%。这一变化与美国政府在3月中旬发布的旅行限制措施和社交距离政策密切相关。
研究者可以利用这些数据深入分析疫情对不同航空公司、不同航线、不同地区的影响差异。例如,夏威夷航空作为主要服务于旅游目的地的航空公司,在疫情期间受到的冲击尤为严重,其航班数量仅占总量的1.01%。相比之下,美国航空、达美航空等大型全服务航空公司虽然也受到了严重影响,但仍维持了较高的市场份额。
此外,数据集还记录了详细的航班延误和取消信息,研究者可以分析疫情期间航班准点率的变化,以及取消原因的分布情况。从数据中可以看出,疫情期间航班取消率达到10.30%,其中87.05%的取消是由于安全原因,这主要是指为应对疫情而采取的主动取消措施。
航班延误预测模型训练
航班延误是航空运输中的一个重要问题,直接影响到旅客的出行体验和航空公司的运营效率。该数据集包含了丰富的航班延误相关信息,如计划和实际的出发/到达时间、延误时间、延误原因等,非常适合用于训练航班延误预测模型。
机器学习和深度学习算法可以利用这些数据建立预测模型,分析各种因素对航班延误的影响。例如,可以考虑的因素包括:航空公司、航班时间、航线距离、出发/到达机场、星期几、月份等。模型可以预测航班是否会延误、延误的可能性以及延误的时间长度。
疫情期间的特殊数据也为研究非常规情况下的航班延误规律提供了机会。例如,疫情期间航班数量大幅减少,但延误时间的平均值却达到了30多分钟,这可能是由于航空公司调整了运营策略,如减少航班频率、合并航线等,导致航班之间的衔接受到影响。通过分析这些特殊时期的数据,可以提高预测模型在极端情况下的准确性。
航空运输系统韧性评估与优化
航空运输系统的韧性是指系统在面临干扰和冲击时能够维持基本功能、快速恢复并适应变化的能力。COVID-19疫情作为一个重大的外部冲击,为评估航空运输系统的韧性提供了一个天然的实验场。
利用该数据集,可以分析航空运输系统在疫情冲击下的表现,评估不同航空公司、不同机场的韧性水平。例如,可以通过比较疫情前后的航班准点率、取消率、恢复速度等指标,来评估系统的韧性。
此外,数据集还可以用于优化航空运输系统的韧性。例如,可以分析哪些航线、哪些机场在疫情期间表现出较强的韧性,总结其成功经验;同时,也可以分析哪些环节存在脆弱性,提出改进措施。这些分析结果可以为航空公司和机场管理部门制定应急预案和恢复策略提供参考。
例如,从数据中可以看出,西南航空在疫情期间的表现相对较好,其航班数量占比达到19.36%,仅次于美国航空和达美航空。这可能与其灵活的运营模式、点对点的航线网络有关。通过深入分析西南航空的运营数据,可以为其他航空公司提高韧性提供借鉴。
结尾
本数据集提供了COVID-19疫情初期美国航空业的完整运营图景,包含了270余万条航班记录和47个详细字段,涵盖了航班基本信息、时间信息、机场信息、延误信息和取消信息等多个维度。这些数据对于研究疫情对航空业的影响、训练航班延误预测模型、评估航空运输系统的韧性等方面都具有重要的价值。
数据集的主要优势在于其庞大的数据量、关键的时间跨度、全面的字段信息和较高的数据质量。这些优势使得数据集能够支持多维度、深入的分析,为科研机构、航空公司、机场管理部门和政府决策机构提供有价值的参考。
随着全球航空业逐渐从疫情中恢复,该数据集的价值将进一步凸显。它不仅可以帮助我们理解疫情对航空业的短期影响,还可以为研究长期的行业变化趋势提供基础。同时,数据集也为开发更加智能、可靠的航空运输系统提供了数据支撑,有助于提高航空运输的效率和韧性。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






