data-k

verify-tagGeoNames全球地理名称数据集完整版-1336万地名记录-252国家418时区-坐标人口高程时区-地理信息系统与POI研究

62

已售 0
395.7MB

数据标识:D17646590249420896

发布时间:2025/12/02

数据描述

GeoNames全球地理名称数据集完整版-1336万地名记录-252国家418时区-坐标人口高程时区-地理信息系统与POI研究

数据集简介

本数据集为GeoNames全球地理名称数据集(allCountries.txt)完整版,包含13,366,633条地理实体记录,覆盖全球252个国家/地区的1336万个地名,涵盖人口聚集地(城市、村庄)、自然地理特征(山脉、河流、湖泊)、人工设施(建筑、道路)、行政区划、时区等10大特征类别,每条记录包含19个字段:地名ID、名称、ASCII名称、别名、经纬度坐标、特征分类编码、国家代码、行政区划代码、人口数、海拔高度、数字高程模型(DEM)、时区和修改日期等完整元数据,文件大小1683.5MB。数据集为地理信息系统(GIS)开发、POI兴趣点推荐、地图应用、地理实体识别(NER)、多语言地名匹配和全球时区转换提供了开放的权威数据基础。

数据集的核心价值在于其全球覆盖度与字段完整性:1336万记录覆盖从国家首都到偏远村庄、从珠穆朗玛峰到马里亚纳海沟的全球地理实体,252个国家代码确保世界范围无遗漏,418个时区支持精确的时区转换与本地时间计算;10大特征类(P=人口聚集地81.5万、H=水系47万、S=建筑设施42.4万、T=地形31.6万、L=区域10.8万、A=行政区划7.7万、V=植被1.6万、R=道路0.8万、U=海底地形0.2万)覆盖自然与人文地理的完整维度;经纬度坐标(latitude/longitude)支持空间分析与地图可视化,人口(population)和海拔(elevation)字段支持人口密度研究与地形分析,alternatenames别名字段包含多语言翻译(如北京/Beijing/Peking)和历史名称,支持跨语言地名匹配与文化研究。该数据集特别适用于地图导航应用、旅游推荐系统、地理知识图谱构建、自然语言处理中的地名实体识别、气候与地理相关性研究和全球物流路径规划等应用场景。

数据基本信息

字段描述表(19字段)

字段序号 字段名 类型 含义 示例 说明
1 geonameid int GeoNames唯一ID 2994701 全球唯一标识符
2 name string 地名(UTF-8) Roc Meler, 北京市 本地语言名称
3 asciiname string ASCII名称 Roc Meler, Beijing 英文/转写名称
4 alternatenames text 别名列表 Roc Mele,Roc Meler,Roc Mélé 逗号分隔的多语言/历史名称
5 latitude float 纬度 42.58765 WGS84坐标系
6 longitude float 经度 1.7418 WGS84坐标系
7 feature_class string 特征大类 T(地形), P(人口地) 单字母代码,见下表
8 feature_code string 特征细分类 PK(山峰), PPL(城市) 2-5字符代码
9 country_code string 国家代码 AD(安道尔), CN(中国) ISO 3166-1 alpha-2
10 cc2 string 备用国家代码 AD,FR(跨境) 跨国地理实体
11 admin1_code string 一级行政区代码 02(省/州) 国家内部编码
12 admin2_code string 二级行政区代码 09(市/县) 国家内部编码
13 admin3_code string 三级行政区代码 091 国家内部编码
14 admin4_code string 四级行政区代码 09139 国家内部编码
15 population int 人口数 0(无人口/非聚集地) 人口聚集地有效
16 elevation int 海拔(米) 2348 海平面以上高度
17 dem int 数字高程模型 2411 SRTM3或GTOPO30
18 timezone string 时区 Europe/Andorra, Asia/Shanghai IANA时区数据库标识符
19 modification_date date 修改日期 2023-10-03 YYYY-MM-DD格式

特征大类(feature_class)分布

代码 英文名称 中文名称 记录数 占比 典型特征细分(feature_code)
P Populated place 人口聚集地 814,631 6.1% PPL(城市)、PPLL(乡村)、PPLC(首都)、PPLA(省会)
H Hydrographic 水系 469,689 3.5% STM(河流)、LK(湖泊)、RSV(水库)、OCN(海洋)
S Spot, building, farm 建筑设施 424,472 3.2% SCH(学校)、CH(教堂)、HTL(酒店)、SPA(温泉)
T Terrain 地形 315,752 2.4% MT(山)、PK(山峰)、PASS(山口)、ISL(岛屿)
L Parks, area 区域 108,172 0.8% PRK(公园)、LCTY(城市区域)、RGN(地区)
A Administrative 行政区划 76,919 0.6% ADM1(省/州)、ADM2(市/县)、ADM3(区/镇)
V Vegetation 植被 16,328 0.1% FRST(森林)、GRSLD(草地)、VIN(葡萄园)
R Roads, railroads 道路铁路 8,172 0.06% RD(道路)、ST(街道)、RR(铁路)
U Undersea 海底地形 1,989 0.01% APNU(海底峡谷)、RDGU(海底山脊)

注: 其余约1130万记录为未分类或其他类型。

国家/地区分布(Top 30)

国家代码 国家名称 记录数 国家代码 国家名称 记录数
US 美国 224,132 DE 德国 21,039
AU 澳大利亚 214,464 BE 比利时 20,334
BR 巴西 211,477 AQ 南极洲 18,561
CN 中国 94,555 BG 保加利亚 18,377
AF 阿富汗 75,841 FR 法国 17,389
AO 安哥拉 74,028 MA 摩洛哥 15,388
IN 印度 65,988 NP 尼泊尔 14,804
NO 挪威 60,806 KR 韩国 14,473
BD 孟加拉国 59,418 - 其他222国 -
AR 阿根廷 59,063 - - -

时区分布(Top 20)

时区 记录数 时区 记录数
Asia/Shanghai 92,259 America/La_Paz 40,392
America/New_York 76,711 Australia/Brisbane 35,592
Asia/Kabul 75,838 Australia/Adelaide 34,540
America/Sao_Paulo 75,539 Asia/Yerevan 32,379
Africa/Luanda 73,984 Asia/Bangkok 30,309
America/Chicago 72,888 - 其余398时区
Asia/Kolkata 65,986 - -
Europe/Oslo 60,819 - -
Asia/Dhaka 59,417 - -
Australia/Sydney 59,253 - -

全量统计摘要

  • 总记录数: 13,366,633
  • 文件大小: 1683.5MB (纯文本TSV格式)
  • 字段数: 19
  • 国家/地区数: 252
  • 时区数: 418
  • 特征大类: 10种(P/H/S/T/L/A/V/R/U/空)
  • 坐标范围: 纬度 -90°至90°, 经度 -180°至180°
  • 海拔范围: -11034米(马里亚纳海沟)至8850米(珠穆朗玛峰)
  • 人口范围: 0(无人口地理特征)至数千万(超大城市)
  • 数据来源: GeoNames.org开放地理数据库
  • 数据许可: Creative Commons Attribution 4.0 License

数据特点

特点 具体表现 应用价值
全球覆盖 252国1336万记录,从大陆到海底 支持全球地图应用与跨国业务系统
多语言支持 alternatenames包含多语言/历史名称 支持国际化应用与文化研究
坐标精确 WGS84经纬度,配合DEM高程数据 支持高精度空间分析与3D地图

多样化样本展示

以下展示10条代表性地理实体记录:

样本1: 安道尔山峰

  • geonameid: 2994701
  • name: Roc Meler
  • alternatenames: Roc Mele, Roc Meler, Roc Mélé
  • latitude: 42.58765, longitude: 1.7418
  • feature: T(地形) - PK(山峰)
  • country: AD(安道尔)
  • elevation: 2348米
  • timezone: Europe/Andorra
  • modification_date: 2023-10-03

样本2: 安道尔山峰(国际边界)

  • geonameid: 3017832
  • name: Pic de les Abelletes
  • alternatenames: Pic de la Font-Nègre, Pic de les Abelletes
  • latitude: 42.52535, longitude: 1.73343
  • feature: T - PK
  • country: AD(安道尔), cc2: AD,FR(跨法国边界)
  • elevation: 2411米
  • timezone: Europe/Andorra
  • modification_date: 2014-11-05

样本3: 安道尔湖泊

  • geonameid: 3017833
  • name: Estany de les Abelletes
  • alternatenames: Étang de Font-Nègre
  • latitude: 42.52915, longitude: 1.73362
  • feature: H(水系) - LK(湖泊)
  • country: AD(安道尔), cc2: AD,FR
  • elevation: 2260米
  • timezone: Europe/Andorra
  • modification_date: 2014-11-05

样本4-10: 其他类型地理实体

  • 山口(PASS): Port Vieux de la Coume d'Ose, 海拔2687米
  • 道路(PASS): Port de la Cabanette, 海拔2379米
  • 山峰(PK): Roc de Port Dret, 海拔2650米
  • 斜坡(SLP): Costa de Xurius, 海拔1839米
  • 泉水(SPNG): Font de la Xona, 海拔1976米
  • 村庄(PPL): Xixerella, 海拔1417米
  • 河流(STM): Riu Xic, 海拔1851米

注: 样本显示GeoNames数据集涵盖从山峰、湖泊到村庄、河流的完整地理实体类型,并保留多语言名称(如法语、加泰罗尼亚语)。

应用场景

场景一:地图导航应用与POI兴趣点推荐系统

地图导航是GeoNames数据集的核心应用场景,1336万地理实体可作为地图应用的POI(Point of Interest)数据源。开发者可利用经纬度坐标(latitude/longitude)在地图上标注城市、景点、设施等位置,结合feature_class和feature_code分类,为用户提供分层展示(如缩放级别:国家→省→市→街道→建筑)。通过人口(population)字段,可优先显示大城市(如人口>100万的PPLC首都),或按人口密度调整地图标签密度,避免小地名过度拥挤。时区(timezone)字段支持实时显示当地时间,对于跨时区旅行或国际业务至关重要。在POI推荐场景下,可根据用户位置与兴趣,推荐附近的特定类型地点,如S类建筑中的HTL(酒店)、SCH(学校)、CH(教堂),或H类水系中的LK(湖泊)、RSV(水库)用于户外活动推荐。通过alternatenames别名字段,可实现多语言搜索(如用户输入"Beijing"或"北京"均可找到北京市),提升国际化用户体验。此外,海拔(elevation)字段可用于登山路线规划或洪水风险评估,DEM数字高程模型支持3D地图渲染。这些地图导航应用,广泛用于Google Maps、高德地图、旅游APP和车载导航系统。

场景二:自然语言处理中的地理实体识别(NER)与消歧

地理实体识别(Geographic Named Entity Recognition, Geo-NER)是NLP的重要任务,本数据集可作为地名词典用于训练和评估NER模型。研究者可利用name和asciiname字段构建地名词表,通过规则匹配或机器学习模型(如CRF、BERT-NER)从文本中识别地名实体。alternatenames别名字段提供了同义词与多语言变体,可处理地名的多样性表达(如"纽约"、"New York"、"NYC"均指同一城市),提升召回率。在地名消歧(Disambiguation)场景下,可利用country_code、admin1_code等行政区划信息消除歧义,如"Springfield"在美国有数十个同名城市,通过匹配state代码可确定具体指哪个Springfield。此外,可结合上下文语义与地理空间关系(如"距离北京100公里的城市"),通过计算经纬度距离进行实体链接。在新闻分析、社交媒体监测和情报分析中,地理实体识别可自动提取事件发生地、人物活动轨迹和区域热点,支持地理信息可视化与空间分析。这些NER技术,不仅可提升文本理解能力,也可为地理知识图谱构建提供实体基础。

场景三:全球时区转换与本地时间计算

时区管理是全球化应用的核心挑战,本数据集的418个时区数据可用于精确的时间转换。开发者可根据用户输入的地名,查询timezone字段获取IANA时区标识符(如Asia/Shanghai、America/New_York),结合编程语言的时区库(如Python的pytz、JavaScript的moment-timezone)计算本地时间。在多国业务场景下,可根据用户位置自动切换时区显示,如电商网站显示"本地时间下午3点前下单当日发货",或视频会议软件自动转换各地参会者的时间。通过统计时区分布,可发现全球人口集中区域(如Asia/Shanghai覆盖9.2万地名,反映中国地理实体密度高),为服务器部署与CDN节点选址提供参考。此外,可分析跨时区地理实体(cc2字段包含多国代码),如边境城市可能横跨两个时区,需特殊处理。在航空、物流和金融领域,精确的时区转换对于航班时刻表、配送承诺时间和交易时间戳至关重要,避免因时区错误导致的业务损失。

场景四:旅游推荐系统与景点知识图谱构建

旅游应用可利用GeoNames数据集构建景点知识图谱与推荐系统。研究者可提取特定feature_code的地理实体作为旅游资源,如T类地形中的MT(山)、PK(山峰)、ISL(岛屿)适合登山与海岛游,H类水系中的LK(湖泊)、OCN(海洋)适合水上活动,S类设施中的HTL(酒店)、SPA(温泉)、MNMT(纪念碑)是旅游服务与文化景点。通过经纬度计算地理距离,可推荐用户附近的景点(如"周边10公里内的湖泊"),或构建旅游路线(如"从巴黎出发的一日游,包含3个历史建筑和1个公园")。结合人口(population)与海拔(elevation)字段,可过滤偏远无人区或极端高海拔地点,确保推荐的可达性与安全性。通过分析国家(country_code)与时区,可为出境游提供签证提示、货币兑换和时差适应建议。此外,alternatenames别名中的多语言名称可用于生成多语言旅游指南,如中文用户看到"埃菲尔铁塔",英文用户看到"Eiffel Tower"。通过构建"国家-城市-景点"三层知识图谱,可支持问答系统(如"法国有哪些著名景点?")和智能行程规划。这些旅游应用,广泛用于携程、TripAdvisor等OTA平台和旅游攻略社区。

场景五:气候与地理相关性研究

地理位置对气候模式有显著影响,本数据集的坐标与海拔数据可用于气候与地理的关联分析。研究者可结合外部气候数据(如温度、降水、风速),分析不同纬度、经度和海拔的气候特征,如验证"低纬度地区气温高"、"高海拔地区气温低"、"沿海地区湿度大"等假设。通过提取特定feature_code的地理实体,如H类水系的LK(湖泊)、RSV(水库),可研究水体对局部气候的调节作用(如湖泊降温效应);T类地形的MT(山脉)可分析地形雨与背风坡效应。时区(timezone)字段间接反映经度,可用于研究昼夜长短与季节性气候的关系。在农业领域,可根据海拔与坐标预测作物适宜种植区域,如某作物适宜海拔500-1500米、温带气候区,通过匹配GeoNames数据筛选候选种植地。在灾害预警场景下,可利用地形数据(如低洼地、河流附近)预测洪水风险区域,或根据沿海城市坐标预警台风路径。这些地理-气候研究,不仅可推动环境科学与地球系统模型发展,也可为精准农业、灾害管理和城市规划提供数据支撑。

场景六:全球物流路径规划与配送网络优化

物流行业依赖地理数据进行路径规划与网点布局,本数据集可用于构建全球物流网络。开发者可利用P类人口聚集地(PPL城市、PPLL乡村)的坐标与人口数据,评估潜在配送需求,优先在高人口密度区域设立配送中心或仓库。通过R类道路(RD道路、ST街道)与A类行政区划(ADM1省、ADM2市),可构建分层配送网络(如国家级中心→省级仓库→市级站点→社区配送点),优化物流成本与配送时效。时区(timezone)字段支持跨时区配送时间预估,如从中国(Asia/Shanghai)发货到美国纽约(America/New_York)需考虑12-13小时时差,影响签收时间计算。海拔(elevation)与地形(T类)数据可识别交通不便地区(如高山、沙漠),调整运费或配送时效承诺。在国际物流场景下,可根据国家代码(country_code)查询海关政策、关税税率和物流禁运限制,避免违规发货。此外,可利用经纬度计算两地直线距离或球面距离(Haversine公式),作为运费估算的基础,或结合道路网络数据计算实际运输距离。这些物流优化应用,广泛用于顺丰、DHL等快递公司和亚马逊、京东等电商平台的配送网络设计。

场景七:多语言地名标准化与数据清洗

地名数据常存在不一致、重复或错误,本数据集可用于地名标准化与数据清洗。研究者可利用geonameid全球唯一ID作为标准标识符,将分散的地名数据统一到GeoNames体系,避免"北京"、"Beijing"、"Peking"被视为不同实体的问题。通过alternatenames别名字段,可构建地名同义词词典,实现模糊匹配与自动纠错,如用户输入"Newyork"(无空格)可自动匹配到"New York"。在数据清洗场景下,可利用country_code与admin1_code验证地名的国家/省份归属,识别错误数据(如标注为"中国上海"但country_code=US的记录)。通过经纬度坐标,可检测异常地名(如标注在海洋中的城市、坐标超出国家边界的地名),进行人工复核或自动过滤。在多语言应用中,可根据用户语言偏好,从alternatenames中选择对应语言的名称显示,如中文用户显示"巴黎",法语用户显示"Paris"。此外,modification_date修改日期字段可用于追踪地名变更历史(如国家改名、城市合并),确保数据时效性。这些标准化与清洗技术,可提升数据质量,减少下游应用的错误率,广泛用于数据集成、ETL流程和主数据管理(MDM)系统。

场景八:地理知识问答与搜索引擎优化

地理知识问答系统依赖结构化地理数据,本数据集可用于构建问答引擎或优化搜索结果。开发者可基于字段构建问答模板,如"中国有多少个城市?"(统计country_code=CN且feature_code=PPL的记录数)、"世界最高峰在哪个国家?"(查询elevation最大的PK山峰的country_code)、"美国东部有哪些时区?"(筛选country_code=US且timezone包含America/New_York的地名)。通过自然语言处理(NLP)技术,可解析用户复杂查询(如"距离北京100公里内的湖泊"),提取地理实体(北京)、空间关系(距离100公里)和目标类型(湖泊LK),计算经纬度范围并筛选结果。在搜索引擎优化(SEO)场景下,可利用地名数据生成本地化内容,如旅游网站为每个城市自动生成"XXX旅游攻略"页面,提升长尾关键词覆盖度。通过分析用户搜索的地名频率,可识别热门旅游目的地或新闻热点地区,优化内容推荐策略。此外,alternatenames别名可用于搜索查询扩展,如用户搜索"NYC"自动匹配"New York City"的相关内容。这些问答与搜索应用,不仅可提升信息检索效率,也可为智能助手(如Siri、Alexa)提供地理知识后台,支持语音交互场景。

场景九:行政区划边界分析与政治地理研究

行政区划是国家治理的基础,本数据集的A类行政区划数据(ADM1省、ADM2市、ADM3区)可用于政治地理研究。研究者可统计各国的行政层级结构,如中国有34个省级(ADM1)、333个市级(ADM2),美国有50个州级(ADM1)、3000+县级(ADM2),对比不同国家的地方治理模式(联邦制vs单一制)。通过分析admin1_code到admin4_code的层级关系,可构建行政树结构(如"中国→北京市→海淀区→中关村街道"),支持自上而下的统计汇总或自下而上的数据穿透。在选举分析场景下,可结合人口(population)字段,计算各行政区的选民规模,评估选区划分的合理性或识别人口流失/增长地区。通过时间序列分析modification_date,可追踪行政区划调整(如撤县设市、区域合并),研究城市化进程与政策演变。在跨国对比研究中,可分析不同国家的地名密度(记录数/国土面积),反映地理信息化水平或地理实体复杂度。此外,cc2备用国家代码字段可识别跨国行政区(如边境地区共管),研究地缘政治复杂性。这些行政区划研究,不仅可为政府治理提供数据支撑,也可为学术界的比较政治学、区域经济学研究提供量化证据。

场景十:教育资源开发与地理数据科学教学

本数据集的大规模、多字段特性使其成为地理信息系统(GIS)、数据科学和地球科学教育的理想资源。教师可在GIS课程中,使用本数据集教授空间数据管理、地图制图和空间分析技术,如"使用QGIS导入GeoNames数据绘制世界城市分布图"、"使用PostGIS进行空间查询(如查找中国境内海拔>3000米的山峰)"。在数据科学课程中,可作为大数据处理案例,教授分布式计算(如用Spark处理1336万记录)、数据清洗(如处理缺失值和异常坐标)、特征工程(如从经纬度计算两地距离)和可视化(如用Matplotlib绘制海拔分布直方图)。在地球科学课程中,可结合气候、地质、生态数据,分析地理与环境的相互作用,如"海拔对植被分布的影响"、"纬度对气温的影响"。学生可通过完整的实验流程(数据导入→探索性分析→假设检验→结果可视化),掌握科学研究方法与工具技能。此外,可作为毕业设计或课程项目的数据源,如"基于GeoNames的全球城市层级分析"、"多语言地名匹配算法研究"、"时区分布与经济发展的关联性"。这些教育应用,不仅可培养学生的空间思维与数据素养,也可为跨学科人才(GIS+计算机、地理+统计)培养提供优质资源,推动地理数据科学的教育普及。

结论

GeoNames全球地理名称数据集完整版,以13,366,633条地理实体记录、252个国家/地区、418个时区和19个完整字段,为地理信息系统开发、POI推荐、地名实体识别、时区转换和地理知识图谱构建提供了开放的权威数据基础。数据集覆盖从人口聚集地(城市、乡村)到自然地理特征(山脉、河流)、人工设施(建筑、道路)和行政区划的完整地理维度,涵盖经纬度坐标、人口、海拔、时区和多语言名称等丰富元数据,支持从空间分析、时间计算到语言处理的多领域应用。

从应用价值看,数据集可用于地图导航与POI推荐、地理实体识别与消歧、全球时区转换、旅游推荐与景点知识图谱、气候地理相关性研究、物流路径规划、多语言地名标准化、地理知识问答、行政区划分析和GIS教育等十大场景,为地图服务商、旅游平台、物流企业、NLP研究者、气候科学家和教育工作者提供多层次支持。数据集的全球覆盖特性(1336万记录遍布252国)确保了世界范围应用的完整性,多语言支持(alternatenames包含各语言变体)满足国际化需求,坐标与高程数据(经纬度+海拔+DEM)支持高精度空间分析与3D可视化。

需要注意的是,数据集为纯文本TSV格式(1.68GB),需要数据库或GIS工具导入后才能高效查询;部分字段(如人口、海拔)存在缺失值,特别是非人口聚集地的人口字段通常为0;地名的多语言别名(alternatenames)质量参差不齐,部分小语种或历史名称可能不完整;modification_date显示数据持续更新,但使用时需验证最新性,特别是新建城市或改名地区。研究者在使用数据集时,应根据应用场景选择合适的数据库(如PostgreSQL+PostGIS支持空间索引)、结合外部数据进行补充与验证(如人口数据可参考WorldPop、UN数据),并注意开源许可(CC BY 4.0)的使用条款。总体而言,本数据集为全球地理信息应用社区提供了宝贵的开放资源,有助于推动地图服务、智能导航、地理AI和空间数据科学的创新发展。

看了又看

暂无推荐

验证报告

以下为卖家选择提供的数据验证报告:

data icon
GeoNames全球地理名称数据集完整版-1336万地名记录-252国家418时区-坐标人口高程时区-地理信息系统与POI研究
62
已售 0
395.7MB
申请报告