数据描述
引言与背景
随着共享经济的快速发展,Airbnb作为全球领先的住宿共享平台,其数据蕴含着丰富的市场洞察和研究价值。本数据集包含了自2008年至2021年间全球主要城市的Airbnb房源信息和用户评论数据,为研究共享住宿市场的发展趋势、价格波动、用户偏好以及监管政策影响提供了宝贵的一手资料。数据集由两个核心文件组成:Listings.csv包含了详细的房源信息,涵盖房东资料、房源特征、价格、评分等多维度数据;Reviews.csv则记录了用户对房源的评价信息,包括评论ID、日期和评论者ID。这些数据不仅对学术研究具有重要价值,也为市场分析、投资决策、旅游规划以及政策制定提供了数据支撑。
数据字段说明
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| listing_id | int64 | 房源唯一标识 | 11798 | 100.00% |
| name | object | 房源名称 | "Beautiful 1BR in Le Marais" | 99.99% |
| host_id | int64 | 房东唯一标识 | 24837558 | 100.00% |
| host_since | object | 房东加入Airbnb的日期 | "2014-12-14" | 99.96% |
| host_location | object | 房东所在地 | "Paris, Ile-de-France, France" | 97.42% |
| host_response_time | object | 房东响应时间 | "within an hour" | 62.20% |
| host_response_rate | object | 房东响应率 | "98%" | 62.20% |
| host_acceptance_rate | object | 房东接受预订率 | "100%" | 57.83% |
| host_is_superhost | object | 是否超级房东 | "f" | 99.96% |
| host_total_listings_count | int64 | 房东总房源数 | 1 | 99.96% |
| host_has_profile_pic | object | 是否有头像 | "t" | 99.97% |
| host_identity_verified | object | 身份是否验证 | "f" | 99.97% |
| neighbourhood | object | 所在社区 | "Passy" | 99.99% |
| district | object | 所在区域 | "" | 30.06% |
| city | object | 所在城市 | "Paris" | 99.99% |
| latitude | float64 | 纬度坐标 | 48.855 | 100.00% |
| longitude | float64 | 经度坐标 | 2.26979 | 100.00% |
| property_type | object | 房产类型 | "Entire apartment" | 99.99% |
| room_type | object | 房间类型 | "Entire place" | 100.00% |
| accommodates | int64 | 可容纳人数 | 2 | 100.00% |
| bedrooms | int64 | 卧室数量 | 1 | 98.81% |
| amenities | object | 配套设施 | "["Heating", "TV", ...]" | 99.99% |
| price | object | 价格 | "60" | 99.99% |
| minimum_nights | int64 | 最低入住晚数 | 2 | 100.00% |
| maximum_nights | int64 | 最高入住晚数 | 1125 | 100.00% |
| review_scores_rating | float64 | 总体评分 | 100.0 | 61.43% |
| review_scores_accuracy | float64 | 准确性评分 | 10.0 | 61.31% |
| review_scores_cleanliness | float64 | 清洁度评分 | 10.0 | 61.31% |
| review_scores_checkin | float64 | 入住体验评分 | 10.0 | 61.31% |
| review_scores_communication | float64 | 沟通评分 | 10.0 | 61.31% |
| review_scores_location | float64 | 位置评分 | 10.0 | 61.31% |
| review_scores_value | float64 | 性价比评分 | 10.0 | 61.31% |
| instant_bookable | object | 是否可即时预订 | "f" | 99.99% |
| review_id | int64 | 评论ID | 330265172 | 100.00% |
| date | object | 评论日期 | "2018-09-30" | 100.00% |
| reviewer_id | int64 | 评论者ID | 11863072 |
数据分布情况
1. 房间类型分布
| 记录数量 | 占比 | |
|---|---|---|
| Entire place | 182,005 | 65.07% |
| Private room | 86,988 | 31.10% |
| Hotel room | 5,857 | 2.09% |
| Shared room | 4,862 |
2. 地区分布(Top 10)
| 记录数量 | 占比 | |
|---|---|---|
| I Centro Storico | 14,874 | 5.32% |
| Sydney | 8,074 | 2.89% |
| Copacabana | 7,712 | 2.76% |
| Cuauhtemoc | 7,626 | 2.73% |
| Buttes-Montmartre | 7,237 | 2.59% |
| Beyoglu | 6,674 | 2.39% |
| Popincourt | 6,206 | 2.22% |
| Vaugirard | 4,826 | 1.73% |
| Waverley | 4,737 | 1.69% |
| Enclos-St-Laurent | 4,628 |
3. 可容纳人数分布(Top 10)
| 记录数量 | 占比 | |
|---|---|---|
| 2 | 118,332 | 42.30% |
| 4 | 57,260 | 20.47% |
| 3 | 27,936 | 9.99% |
| 1 | 25,813 | 9.23% |
| 6 | 19,455 | 6.96% |
| 5 | 13,527 | 4.84% |
| 8 | 6,514 | 2.33% |
| 7 | 3,697 | 1.32% |
| 10 | 2,630 | 0.94% |
| 16 | 1,162 |
4. 房东入驻时间分布
| 新房东数量 | 累计占比 | |
|---|---|---|
| 2008 | 65 | 0.04% |
| 2009 | 461 | 0.30% |
| 2010 | 2,150 | 1.55% |
| 2011 | 6,966 | 5.21% |
| 2012 | 16,066 | 13.93% |
| 2013 | 25,453 | 26.81% |
| 2014 | 37,650 | 47.17% |
| 2015 | 44,886 | 70.68% |
| 2016 | 42,402 | 90.87% |
| 2017 | 26,553 | 105.46% |
| 2018 | 27,020 | 120.97% |
| 2019 | 31,447 | 138.30% |
| 2020 | 17,220 | 148.05% |
| 2021 | 1,208 |
5. 评论时间分布
| 评论数量 | 占比 | |
|---|---|---|
| 2008 | 2 | 0.00% |
| 2009 | 115 | 0.00% |
| 2010 | 1,236 | 0.02% |
| 2011 | 6,253 | 0.11% |
| 2012 | 19,922 | 0.35% |
| 2013 | 50,522 | 0.89% |
| 2014 | 122,132 | 2.16% |
| 2015 | 280,332 | 4.96% |
| 2016 | 501,754 | 8.88% |
| 2017 | 777,200 | 13.76% |
| 2018 | 1,142,496 | 20.22% |
| 2019 | 1,633,546 | 28.92% |
| 2020 | 755,324 | 13.37% |
| 2021 | 82,309 |
数据规模与质量
-
总数据规模:
-
Listings数据:279,712条房源记录
-
Reviews数据:5,649,113条评论记录
-
数据时间跨度:2008年至2021年(14年)
-
-
关键实体数量:
-
唯一房源数:279,712
-
唯一房东数:182,024
-
唯一评论者数:4,450,005
-
-
数据质量:
-
21个字段完整性高于95%
-
仅1个字段缺失率超过50%
-
核心标识符(ID字段)完整性达100%
-
数据优势
| 具体表现 | 应用价值 | |
|---|---|---|
| 时间跨度长 | 涵盖14年(2008-2021)的完整发展历程 | 可分析长期市场趋势、季节性波动和重大事件(如疫情)的影响 |
| 地理覆盖广 | 包含全球多个主要城市的房源数据 | 支持跨城市比较研究、区域市场分析和国际化商业模式探索 |
| 数据维度丰富 | 包含35个房源属性字段,涵盖房东、房源、位置、价格、评分等多维度信息 | 支持多维度交叉分析,深入挖掘市场规律和用户行为模式 |
| 用户行为数据完整 | 超过560万条评论记录,445万独立评论者 | 可进行用户行为分析、情感分析和服务质量评估 |
| 数据质量高 | 核心字段完整性达100%,大部分字段完整性超过95% | 确保分析结果的可靠性和准确性,适合学术研究和商业决策 |
| 实时性特征 | 包含响应时间、接受率等动态指标 |
数据样例
房源数据样例
以下是10条房源数据样例,展示了数据集的多样性:
-
ID: 4823489, 名称: "Close to Eiffel Tower - Beautiful flat : 2 rooms", 类型: Entire apartment, 价格: 60, 位置: Paris, 容纳人数: 2, 评分: 100
-
ID: 4898654, 名称: "NEW - Charming apartment Le Marais", 类型: Entire apartment, 价格: 95, 位置: Paris, 容纳人数: 2, 评分: 100
-
ID: 6021700, 名称: "2P - Entre Bastille et Republique", 类型: Entire apartment, 价格: 80, 位置: Paris, 容纳人数: 2, 评分: 100
-
ID: 6945740, 名称: "57sqm btw. Bastille & Père Lachaise", 类型: Entire apartment, 价格: 59, 位置: Paris, 容纳人数: 2, 评分: 100
-
ID: 7491966, 名称: "Charming appartment near the Parc Buttes Chaumont", 类型: Entire apartment, 价格: 80, 位置: Paris, 容纳人数: 2, 评分: 100
评论数据样例
以下是10条评论数据样例:
-
房源ID: 11798, 评论ID: 330265172, 日期: 2018-09-30, 评论者ID: 11863072
-
房源ID: 15383, 评论ID: 330103585, 日期: 2018-09-30, 评论者ID: 39147453
-
房源ID: 16455, 评论ID: 329985788, 日期: 2018-09-30, 评论者ID: 1125378
-
房源ID: 17919, 评论ID: 330016899, 日期: 2018-09-30, 评论者ID: 172717984
-
房源ID: 26827, 评论ID: 329995638, 日期: 2018-09-30, 评论者ID: 17542859
应用场景
市场趋势分析与预测
本数据集为研究Airbnb平台的长期发展趋势提供了丰富素材。通过分析2008-2021年的房源数量、价格变化和房东入驻情况,可以清晰把握共享住宿市场的发展脉络。研究人员可以识别市场的成长期、成熟期和波动期,分析不同时期的驱动因素。例如,数据显示2015-2016年是房东入驻的高峰期,而2019年达到评论数量的最高峰。这些趋势分析对于投资者、政策制定者和行业从业者理解市场动态、预测未来发展至关重要。此外,通过比较不同地区的发展模式,可以发现区域性差异和共性规律,为精准市场定位提供依据。
价格影响因素研究与定价策略优化
数据集包含了丰富的房源特征信息,如位置、房型、设施、可容纳人数等,结合价格数据,可以深入研究影响房价的关键因素。研究人员可以构建多元回归模型,量化各因素对价格的影响程度,识别溢价因素和价值洼地。例如,分析不同社区的价格差异、整套房源与私人房间的价格溢价、超级房东身份对定价的影响等。对于房东和平台运营者而言,这些 insights可以指导制定科学的定价策略,优化房源配置,提高收益。同时,对于消费者而言,也有助于理解价格形成机制,做出更明智的预订决策。
用户行为与满意度分析
超过560万条评论记录和445万独立评论者的数据为研究用户行为和满意度提供了宝贵资源。研究人员可以分析评论的时间分布、频率模式,识别用户评价行为的规律。通过结合评分数据,可以深入研究影响用户满意度的关键因素,如清洁度、位置、沟通等维度的相对重要性。此外,还可以进行情感分析,挖掘用户评论中的隐性需求和痛点。这些分析对于平台改进服务质量、房东提升待客体验、以及旅游服务业理解消费者偏好都具有重要价值。特别是在疫情前后的对比分析中,可以发现用户需求的变化趋势。
城市旅游影响与可持续发展研究
Airbnb等共享住宿平台对城市旅游和社区发展的影响是近年来的研究热点。本数据集提供了房源的地理坐标和社区信息,可以分析房源在城市中的空间分布特征,研究其与旅游热点、交通枢纽的关系。研究人员可以评估共享住宿对城市住房市场、社区结构和旅游承载力的影响,为城市规划和旅游政策制定提供数据支持。例如,分析热门旅游区域的房源密度,评估可能的社区影响;研究不同类型社区的Airbnb渗透率,了解平台对城市多样性的影响。这些研究对于促进共享经济与城市可持续发展的协调具有重要意义。
监管政策效果评估
近年来,全球多个城市对共享住宿平台实施了不同程度的监管政策。本数据集的时间跨度覆盖了这一政策演变期,可以用于评估各类监管措施的实际效果。研究人员可以通过政策实施前后的对比分析,考察监管对房源数量、价格水平、房东行为和平台活跃度的影响。例如,分析巴黎、纽约等城市实施严格监管后,房源增长率的变化;研究对短期租赁的限制如何影响市场结构和价格分布。这些评估对于政策制定者优化监管策略、平衡平台创新与公共利益具有重要参考价值。
结尾
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






