数据描述
GeoNames全球地理名称数据集完整版-1336万地名记录-252国家418时区-坐标人口高程时区-地理信息系统与POI研究
数据集简介
本数据集为GeoNames全球地理名称数据集(allCountries.txt)完整版,包含13,366,633条地理实体记录,覆盖全球252个国家/地区的1336万个地名,涵盖人口聚集地(城市、村庄)、自然地理特征(山脉、河流、湖泊)、人工设施(建筑、道路)、行政区划、时区等10大特征类别,每条记录包含19个字段:地名ID、名称、ASCII名称、别名、经纬度坐标、特征分类编码、国家代码、行政区划代码、人口数、海拔高度、数字高程模型(DEM)、时区和修改日期等完整元数据,文件大小1683.5MB。数据集为地理信息系统(GIS)开发、POI兴趣点推荐、地图应用、地理实体识别(NER)、多语言地名匹配和全球时区转换提供了开放的权威数据基础。
数据集的核心价值在于其全球覆盖度与字段完整性:1336万记录覆盖从国家首都到偏远村庄、从珠穆朗玛峰到马里亚纳海沟的全球地理实体,252个国家代码确保世界范围无遗漏,418个时区支持精确的时区转换与本地时间计算;10大特征类(P=人口聚集地81.5万、H=水系47万、S=建筑设施42.4万、T=地形31.6万、L=区域10.8万、A=行政区划7.7万、V=植被1.6万、R=道路0.8万、U=海底地形0.2万)覆盖自然与人文地理的完整维度;经纬度坐标(latitude/longitude)支持空间分析与地图可视化,人口(population)和海拔(elevation)字段支持人口密度研究与地形分析,alternatenames别名字段包含多语言翻译(如北京/Beijing/Peking)和历史名称,支持跨语言地名匹配与文化研究。该数据集特别适用于地图导航应用、旅游推荐系统、地理知识图谱构建、自然语言处理中的地名实体识别、气候与地理相关性研究和全球物流路径规划等应用场景。
数据基本信息
字段描述表(19字段)
| 字段序号 | 字段名 | 类型 | 含义 | 示例 | 说明 |
|---|---|---|---|---|---|
| 1 | geonameid | int | GeoNames唯一ID | 2994701 | 全球唯一标识符 |
| 2 | name | string | 地名(UTF-8) | Roc Meler, 北京市 | 本地语言名称 |
| 3 | asciiname | string | ASCII名称 | Roc Meler, Beijing | 英文/转写名称 |
| 4 | alternatenames | text | 别名列表 | Roc Mele,Roc Meler,Roc Mélé | 逗号分隔的多语言/历史名称 |
| 5 | latitude | float | 纬度 | 42.58765 | WGS84坐标系 |
| 6 | longitude | float | 经度 | 1.7418 | WGS84坐标系 |
| 7 | feature_class | string | 特征大类 | T(地形), P(人口地) | 单字母代码,见下表 |
| 8 | feature_code | string | 特征细分类 | PK(山峰), PPL(城市) | 2-5字符代码 |
| 9 | country_code | string | 国家代码 | AD(安道尔), CN(中国) | ISO 3166-1 alpha-2 |
| 10 | cc2 | string | 备用国家代码 | AD,FR(跨境) | 跨国地理实体 |
| 11 | admin1_code | string | 一级行政区代码 | 02(省/州) | 国家内部编码 |
| 12 | admin2_code | string | 二级行政区代码 | 09(市/县) | 国家内部编码 |
| 13 | admin3_code | string | 三级行政区代码 | 091 | 国家内部编码 |
| 14 | admin4_code | string | 四级行政区代码 | 09139 | 国家内部编码 |
| 15 | population | int | 人口数 | 0(无人口/非聚集地) | 人口聚集地有效 |
| 16 | elevation | int | 海拔(米) | 2348 | 海平面以上高度 |
| 17 | dem | int | 数字高程模型 | 2411 | SRTM3或GTOPO30 |
| 18 | timezone | string | 时区 | Europe/Andorra, Asia/Shanghai | IANA时区数据库标识符 |
| 19 | modification_date | date | 修改日期 | 2023-10-03 | YYYY-MM-DD格式 |
特征大类(feature_class)分布
| 代码 | 英文名称 | 中文名称 | 记录数 | 占比 | 典型特征细分(feature_code) |
|---|---|---|---|---|---|
| P | Populated place | 人口聚集地 | 814,631 | 6.1% | PPL(城市)、PPLL(乡村)、PPLC(首都)、PPLA(省会) |
| H | Hydrographic | 水系 | 469,689 | 3.5% | STM(河流)、LK(湖泊)、RSV(水库)、OCN(海洋) |
| S | Spot, building, farm | 建筑设施 | 424,472 | 3.2% | SCH(学校)、CH(教堂)、HTL(酒店)、SPA(温泉) |
| T | Terrain | 地形 | 315,752 | 2.4% | MT(山)、PK(山峰)、PASS(山口)、ISL(岛屿) |
| L | Parks, area | 区域 | 108,172 | 0.8% | PRK(公园)、LCTY(城市区域)、RGN(地区) |
| A | Administrative | 行政区划 | 76,919 | 0.6% | ADM1(省/州)、ADM2(市/县)、ADM3(区/镇) |
| V | Vegetation | 植被 | 16,328 | 0.1% | FRST(森林)、GRSLD(草地)、VIN(葡萄园) |
| R | Roads, railroads | 道路铁路 | 8,172 | 0.06% | RD(道路)、ST(街道)、RR(铁路) |
| U | Undersea | 海底地形 | 1,989 | 0.01% | APNU(海底峡谷)、RDGU(海底山脊) |
注: 其余约1130万记录为未分类或其他类型。
国家/地区分布(Top 30)
| 国家代码 | 国家名称 | 记录数 | 国家代码 | 国家名称 | 记录数 |
|---|---|---|---|---|---|
| US | 美国 | 224,132 | DE | 德国 | 21,039 |
| AU | 澳大利亚 | 214,464 | BE | 比利时 | 20,334 |
| BR | 巴西 | 211,477 | AQ | 南极洲 | 18,561 |
| CN | 中国 | 94,555 | BG | 保加利亚 | 18,377 |
| AF | 阿富汗 | 75,841 | FR | 法国 | 17,389 |
| AO | 安哥拉 | 74,028 | MA | 摩洛哥 | 15,388 |
| IN | 印度 | 65,988 | NP | 尼泊尔 | 14,804 |
| NO | 挪威 | 60,806 | KR | 韩国 | 14,473 |
| BD | 孟加拉国 | 59,418 | - | 其他222国 | - |
| AR | 阿根廷 | 59,063 | - | - | - |
时区分布(Top 20)
| 时区 | 记录数 | 时区 | 记录数 |
|---|---|---|---|
| Asia/Shanghai | 92,259 | America/La_Paz | 40,392 |
| America/New_York | 76,711 | Australia/Brisbane | 35,592 |
| Asia/Kabul | 75,838 | Australia/Adelaide | 34,540 |
| America/Sao_Paulo | 75,539 | Asia/Yerevan | 32,379 |
| Africa/Luanda | 73,984 | Asia/Bangkok | 30,309 |
| America/Chicago | 72,888 | - | 其余398时区 |
| Asia/Kolkata | 65,986 | - | - |
| Europe/Oslo | 60,819 | - | - |
| Asia/Dhaka | 59,417 | - | - |
| Australia/Sydney | 59,253 | - | - |
全量统计摘要
- 总记录数: 13,366,633
- 文件大小: 1683.5MB (纯文本TSV格式)
- 字段数: 19
- 国家/地区数: 252
- 时区数: 418
- 特征大类: 10种(P/H/S/T/L/A/V/R/U/空)
- 坐标范围: 纬度 -90°至90°, 经度 -180°至180°
- 海拔范围: -11034米(马里亚纳海沟)至8850米(珠穆朗玛峰)
- 人口范围: 0(无人口地理特征)至数千万(超大城市)
- 数据来源: GeoNames.org开放地理数据库
- 数据许可: Creative Commons Attribution 4.0 License
数据特点
| 特点 | 具体表现 | 应用价值 |
|---|---|---|
| 全球覆盖 | 252国1336万记录,从大陆到海底 | 支持全球地图应用与跨国业务系统 |
| 多语言支持 | alternatenames包含多语言/历史名称 | 支持国际化应用与文化研究 |
| 坐标精确 | WGS84经纬度,配合DEM高程数据 | 支持高精度空间分析与3D地图 |
多样化样本展示
以下展示10条代表性地理实体记录:
样本1: 安道尔山峰
- geonameid: 2994701
- name: Roc Meler
- alternatenames: Roc Mele, Roc Meler, Roc Mélé
- latitude: 42.58765, longitude: 1.7418
- feature: T(地形) - PK(山峰)
- country: AD(安道尔)
- elevation: 2348米
- timezone: Europe/Andorra
- modification_date: 2023-10-03
样本2: 安道尔山峰(国际边界)
- geonameid: 3017832
- name: Pic de les Abelletes
- alternatenames: Pic de la Font-Nègre, Pic de les Abelletes
- latitude: 42.52535, longitude: 1.73343
- feature: T - PK
- country: AD(安道尔), cc2: AD,FR(跨法国边界)
- elevation: 2411米
- timezone: Europe/Andorra
- modification_date: 2014-11-05
样本3: 安道尔湖泊
- geonameid: 3017833
- name: Estany de les Abelletes
- alternatenames: Étang de Font-Nègre
- latitude: 42.52915, longitude: 1.73362
- feature: H(水系) - LK(湖泊)
- country: AD(安道尔), cc2: AD,FR
- elevation: 2260米
- timezone: Europe/Andorra
- modification_date: 2014-11-05
样本4-10: 其他类型地理实体
- 山口(PASS): Port Vieux de la Coume d'Ose, 海拔2687米
- 道路(PASS): Port de la Cabanette, 海拔2379米
- 山峰(PK): Roc de Port Dret, 海拔2650米
- 斜坡(SLP): Costa de Xurius, 海拔1839米
- 泉水(SPNG): Font de la Xona, 海拔1976米
- 村庄(PPL): Xixerella, 海拔1417米
- 河流(STM): Riu Xic, 海拔1851米
注: 样本显示GeoNames数据集涵盖从山峰、湖泊到村庄、河流的完整地理实体类型,并保留多语言名称(如法语、加泰罗尼亚语)。
应用场景
场景一:地图导航应用与POI兴趣点推荐系统
地图导航是GeoNames数据集的核心应用场景,1336万地理实体可作为地图应用的POI(Point of Interest)数据源。开发者可利用经纬度坐标(latitude/longitude)在地图上标注城市、景点、设施等位置,结合feature_class和feature_code分类,为用户提供分层展示(如缩放级别:国家→省→市→街道→建筑)。通过人口(population)字段,可优先显示大城市(如人口>100万的PPLC首都),或按人口密度调整地图标签密度,避免小地名过度拥挤。时区(timezone)字段支持实时显示当地时间,对于跨时区旅行或国际业务至关重要。在POI推荐场景下,可根据用户位置与兴趣,推荐附近的特定类型地点,如S类建筑中的HTL(酒店)、SCH(学校)、CH(教堂),或H类水系中的LK(湖泊)、RSV(水库)用于户外活动推荐。通过alternatenames别名字段,可实现多语言搜索(如用户输入"Beijing"或"北京"均可找到北京市),提升国际化用户体验。此外,海拔(elevation)字段可用于登山路线规划或洪水风险评估,DEM数字高程模型支持3D地图渲染。这些地图导航应用,广泛用于Google Maps、高德地图、旅游APP和车载导航系统。
场景二:自然语言处理中的地理实体识别(NER)与消歧
地理实体识别(Geographic Named Entity Recognition, Geo-NER)是NLP的重要任务,本数据集可作为地名词典用于训练和评估NER模型。研究者可利用name和asciiname字段构建地名词表,通过规则匹配或机器学习模型(如CRF、BERT-NER)从文本中识别地名实体。alternatenames别名字段提供了同义词与多语言变体,可处理地名的多样性表达(如"纽约"、"New York"、"NYC"均指同一城市),提升召回率。在地名消歧(Disambiguation)场景下,可利用country_code、admin1_code等行政区划信息消除歧义,如"Springfield"在美国有数十个同名城市,通过匹配state代码可确定具体指哪个Springfield。此外,可结合上下文语义与地理空间关系(如"距离北京100公里的城市"),通过计算经纬度距离进行实体链接。在新闻分析、社交媒体监测和情报分析中,地理实体识别可自动提取事件发生地、人物活动轨迹和区域热点,支持地理信息可视化与空间分析。这些NER技术,不仅可提升文本理解能力,也可为地理知识图谱构建提供实体基础。
场景三:全球时区转换与本地时间计算
时区管理是全球化应用的核心挑战,本数据集的418个时区数据可用于精确的时间转换。开发者可根据用户输入的地名,查询timezone字段获取IANA时区标识符(如Asia/Shanghai、America/New_York),结合编程语言的时区库(如Python的pytz、JavaScript的moment-timezone)计算本地时间。在多国业务场景下,可根据用户位置自动切换时区显示,如电商网站显示"本地时间下午3点前下单当日发货",或视频会议软件自动转换各地参会者的时间。通过统计时区分布,可发现全球人口集中区域(如Asia/Shanghai覆盖9.2万地名,反映中国地理实体密度高),为服务器部署与CDN节点选址提供参考。此外,可分析跨时区地理实体(cc2字段包含多国代码),如边境城市可能横跨两个时区,需特殊处理。在航空、物流和金融领域,精确的时区转换对于航班时刻表、配送承诺时间和交易时间戳至关重要,避免因时区错误导致的业务损失。
场景四:旅游推荐系统与景点知识图谱构建
旅游应用可利用GeoNames数据集构建景点知识图谱与推荐系统。研究者可提取特定feature_code的地理实体作为旅游资源,如T类地形中的MT(山)、PK(山峰)、ISL(岛屿)适合登山与海岛游,H类水系中的LK(湖泊)、OCN(海洋)适合水上活动,S类设施中的HTL(酒店)、SPA(温泉)、MNMT(纪念碑)是旅游服务与文化景点。通过经纬度计算地理距离,可推荐用户附近的景点(如"周边10公里内的湖泊"),或构建旅游路线(如"从巴黎出发的一日游,包含3个历史建筑和1个公园")。结合人口(population)与海拔(elevation)字段,可过滤偏远无人区或极端高海拔地点,确保推荐的可达性与安全性。通过分析国家(country_code)与时区,可为出境游提供签证提示、货币兑换和时差适应建议。此外,alternatenames别名中的多语言名称可用于生成多语言旅游指南,如中文用户看到"埃菲尔铁塔",英文用户看到"Eiffel Tower"。通过构建"国家-城市-景点"三层知识图谱,可支持问答系统(如"法国有哪些著名景点?")和智能行程规划。这些旅游应用,广泛用于携程、TripAdvisor等OTA平台和旅游攻略社区。
场景五:气候与地理相关性研究
地理位置对气候模式有显著影响,本数据集的坐标与海拔数据可用于气候与地理的关联分析。研究者可结合外部气候数据(如温度、降水、风速),分析不同纬度、经度和海拔的气候特征,如验证"低纬度地区气温高"、"高海拔地区气温低"、"沿海地区湿度大"等假设。通过提取特定feature_code的地理实体,如H类水系的LK(湖泊)、RSV(水库),可研究水体对局部气候的调节作用(如湖泊降温效应);T类地形的MT(山脉)可分析地形雨与背风坡效应。时区(timezone)字段间接反映经度,可用于研究昼夜长短与季节性气候的关系。在农业领域,可根据海拔与坐标预测作物适宜种植区域,如某作物适宜海拔500-1500米、温带气候区,通过匹配GeoNames数据筛选候选种植地。在灾害预警场景下,可利用地形数据(如低洼地、河流附近)预测洪水风险区域,或根据沿海城市坐标预警台风路径。这些地理-气候研究,不仅可推动环境科学与地球系统模型发展,也可为精准农业、灾害管理和城市规划提供数据支撑。
场景六:全球物流路径规划与配送网络优化
物流行业依赖地理数据进行路径规划与网点布局,本数据集可用于构建全球物流网络。开发者可利用P类人口聚集地(PPL城市、PPLL乡村)的坐标与人口数据,评估潜在配送需求,优先在高人口密度区域设立配送中心或仓库。通过R类道路(RD道路、ST街道)与A类行政区划(ADM1省、ADM2市),可构建分层配送网络(如国家级中心→省级仓库→市级站点→社区配送点),优化物流成本与配送时效。时区(timezone)字段支持跨时区配送时间预估,如从中国(Asia/Shanghai)发货到美国纽约(America/New_York)需考虑12-13小时时差,影响签收时间计算。海拔(elevation)与地形(T类)数据可识别交通不便地区(如高山、沙漠),调整运费或配送时效承诺。在国际物流场景下,可根据国家代码(country_code)查询海关政策、关税税率和物流禁运限制,避免违规发货。此外,可利用经纬度计算两地直线距离或球面距离(Haversine公式),作为运费估算的基础,或结合道路网络数据计算实际运输距离。这些物流优化应用,广泛用于顺丰、DHL等快递公司和亚马逊、京东等电商平台的配送网络设计。
场景七:多语言地名标准化与数据清洗
地名数据常存在不一致、重复或错误,本数据集可用于地名标准化与数据清洗。研究者可利用geonameid全球唯一ID作为标准标识符,将分散的地名数据统一到GeoNames体系,避免"北京"、"Beijing"、"Peking"被视为不同实体的问题。通过alternatenames别名字段,可构建地名同义词词典,实现模糊匹配与自动纠错,如用户输入"Newyork"(无空格)可自动匹配到"New York"。在数据清洗场景下,可利用country_code与admin1_code验证地名的国家/省份归属,识别错误数据(如标注为"中国上海"但country_code=US的记录)。通过经纬度坐标,可检测异常地名(如标注在海洋中的城市、坐标超出国家边界的地名),进行人工复核或自动过滤。在多语言应用中,可根据用户语言偏好,从alternatenames中选择对应语言的名称显示,如中文用户显示"巴黎",法语用户显示"Paris"。此外,modification_date修改日期字段可用于追踪地名变更历史(如国家改名、城市合并),确保数据时效性。这些标准化与清洗技术,可提升数据质量,减少下游应用的错误率,广泛用于数据集成、ETL流程和主数据管理(MDM)系统。
场景八:地理知识问答与搜索引擎优化
地理知识问答系统依赖结构化地理数据,本数据集可用于构建问答引擎或优化搜索结果。开发者可基于字段构建问答模板,如"中国有多少个城市?"(统计country_code=CN且feature_code=PPL的记录数)、"世界最高峰在哪个国家?"(查询elevation最大的PK山峰的country_code)、"美国东部有哪些时区?"(筛选country_code=US且timezone包含America/New_York的地名)。通过自然语言处理(NLP)技术,可解析用户复杂查询(如"距离北京100公里内的湖泊"),提取地理实体(北京)、空间关系(距离100公里)和目标类型(湖泊LK),计算经纬度范围并筛选结果。在搜索引擎优化(SEO)场景下,可利用地名数据生成本地化内容,如旅游网站为每个城市自动生成"XXX旅游攻略"页面,提升长尾关键词覆盖度。通过分析用户搜索的地名频率,可识别热门旅游目的地或新闻热点地区,优化内容推荐策略。此外,alternatenames别名可用于搜索查询扩展,如用户搜索"NYC"自动匹配"New York City"的相关内容。这些问答与搜索应用,不仅可提升信息检索效率,也可为智能助手(如Siri、Alexa)提供地理知识后台,支持语音交互场景。
场景九:行政区划边界分析与政治地理研究
行政区划是国家治理的基础,本数据集的A类行政区划数据(ADM1省、ADM2市、ADM3区)可用于政治地理研究。研究者可统计各国的行政层级结构,如中国有34个省级(ADM1)、333个市级(ADM2),美国有50个州级(ADM1)、3000+县级(ADM2),对比不同国家的地方治理模式(联邦制vs单一制)。通过分析admin1_code到admin4_code的层级关系,可构建行政树结构(如"中国→北京市→海淀区→中关村街道"),支持自上而下的统计汇总或自下而上的数据穿透。在选举分析场景下,可结合人口(population)字段,计算各行政区的选民规模,评估选区划分的合理性或识别人口流失/增长地区。通过时间序列分析modification_date,可追踪行政区划调整(如撤县设市、区域合并),研究城市化进程与政策演变。在跨国对比研究中,可分析不同国家的地名密度(记录数/国土面积),反映地理信息化水平或地理实体复杂度。此外,cc2备用国家代码字段可识别跨国行政区(如边境地区共管),研究地缘政治复杂性。这些行政区划研究,不仅可为政府治理提供数据支撑,也可为学术界的比较政治学、区域经济学研究提供量化证据。
场景十:教育资源开发与地理数据科学教学
本数据集的大规模、多字段特性使其成为地理信息系统(GIS)、数据科学和地球科学教育的理想资源。教师可在GIS课程中,使用本数据集教授空间数据管理、地图制图和空间分析技术,如"使用QGIS导入GeoNames数据绘制世界城市分布图"、"使用PostGIS进行空间查询(如查找中国境内海拔>3000米的山峰)"。在数据科学课程中,可作为大数据处理案例,教授分布式计算(如用Spark处理1336万记录)、数据清洗(如处理缺失值和异常坐标)、特征工程(如从经纬度计算两地距离)和可视化(如用Matplotlib绘制海拔分布直方图)。在地球科学课程中,可结合气候、地质、生态数据,分析地理与环境的相互作用,如"海拔对植被分布的影响"、"纬度对气温的影响"。学生可通过完整的实验流程(数据导入→探索性分析→假设检验→结果可视化),掌握科学研究方法与工具技能。此外,可作为毕业设计或课程项目的数据源,如"基于GeoNames的全球城市层级分析"、"多语言地名匹配算法研究"、"时区分布与经济发展的关联性"。这些教育应用,不仅可培养学生的空间思维与数据素养,也可为跨学科人才(GIS+计算机、地理+统计)培养提供优质资源,推动地理数据科学的教育普及。
结论
GeoNames全球地理名称数据集完整版,以13,366,633条地理实体记录、252个国家/地区、418个时区和19个完整字段,为地理信息系统开发、POI推荐、地名实体识别、时区转换和地理知识图谱构建提供了开放的权威数据基础。数据集覆盖从人口聚集地(城市、乡村)到自然地理特征(山脉、河流)、人工设施(建筑、道路)和行政区划的完整地理维度,涵盖经纬度坐标、人口、海拔、时区和多语言名称等丰富元数据,支持从空间分析、时间计算到语言处理的多领域应用。
从应用价值看,数据集可用于地图导航与POI推荐、地理实体识别与消歧、全球时区转换、旅游推荐与景点知识图谱、气候地理相关性研究、物流路径规划、多语言地名标准化、地理知识问答、行政区划分析和GIS教育等十大场景,为地图服务商、旅游平台、物流企业、NLP研究者、气候科学家和教育工作者提供多层次支持。数据集的全球覆盖特性(1336万记录遍布252国)确保了世界范围应用的完整性,多语言支持(alternatenames包含各语言变体)满足国际化需求,坐标与高程数据(经纬度+海拔+DEM)支持高精度空间分析与3D可视化。
需要注意的是,数据集为纯文本TSV格式(1.68GB),需要数据库或GIS工具导入后才能高效查询;部分字段(如人口、海拔)存在缺失值,特别是非人口聚集地的人口字段通常为0;地名的多语言别名(alternatenames)质量参差不齐,部分小语种或历史名称可能不完整;modification_date显示数据持续更新,但使用时需验证最新性,特别是新建城市或改名地区。研究者在使用数据集时,应根据应用场景选择合适的数据库(如PostgreSQL+PostGIS支持空间索引)、结合外部数据进行补充与验证(如人口数据可参考WorldPop、UN数据),并注意开源许可(CC BY 4.0)的使用条款。总体而言,本数据集为全球地理信息应用社区提供了宝贵的开放资源,有助于推动地图服务、智能导航、地理AI和空间数据科学的创新发展。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:









