# NBER 专利引用数据集:292万条专利元数据与1652万条引用关系,1963—1999年全量专利语料,助力专利计量、技术演化与知识图谱研究
## 引言与背景
在科技创新驱动发展的时代背景下,专利数据作为衡量技术进步、评估产业创新能力与追踪知识流动轨迹的核心情报源,已广泛应用于学术研究与产业决策之中。由美国国家经济研究局(NBER)与美国专利商标局(USPTO)联合构建的专利引用数据集,是学术界公认的权威专利语料之一。本数据集完整覆盖了1963年至1999年间美国授权的全部专利(共计2,923,922条)及其在1975年至1999年间建立的专利引用关系网络(共计16,522,438条有向引用边),总记录规模超过1,900万行。
数据集由两大部分构成:其一为 apat63_99.csv 专利元数据表,每条记录对应一项专利的基本信息,包括专利号、授权年份、申请日、国别、州别、受让人、权利要求数、专利分类号、引用背景专利数量等23个字段;其二为 cite75_99.csv 专利引用关系表,以"引用专利—被引用专利"的二元组形式记录引用网络的有向边。两者通过专利号(PATENT)形成关联,即可构建出大规模、长时序的专利知识图谱。
该数据集对科研与行业应用具有多重价值。在学术层面,专利计量学、科学计量学、技术演化、创新网络、知识传播与扩散等研究领域均依赖此类高质量长时段数据;在产业层面,企业可据此开展竞品监测、技术布局分析、核心专利定位与风险评估;在政府决策层面,可支撑产业政策评估、技术路线规划与区域创新体系研究。由于本数据集覆盖时段横跨近40年,且引用关系连续、规模庞大,是研究20世纪下半叶全球技术创新格局不可替代的基础语料。
## 数据基本信息
### 数据字段说明
#### (一)专利元数据表 apat63_99.csv
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
| --- | --- | --- | --- | --- |
| PATENT | 整数 | 专利号(唯一标识) | 3070801 | 100.00% |
| GYEAR | 整数 | 授权年份 | 1963 | 100.00% |
| GDATE | 整数 | 授权日期(年-月-日 YYYYMMDD 压缩表示) | 1096(表示 1996年1月9日) | 100.00% |
| APPYEAR | 浮点 | 申请年份 | 1962.0 | 92.33% |
| COUNTRY | 字符串 | 专利权人所属国别代码 | "US"、"JP"、"DE" | 100.00% |
| POSTATE | 字符串 | 美国州别代码(仅 US 专利) | "CA"、"NY"、"TX" | 61.05% |
| ASSIGNEE | 浮点 | 受让人/权利人编号(NBER 映射 ID) | 280070.0 | 71.48% |
| ASSCODE | 整数 | 受让人类型代码 | 2 | 100.00% |
| CLAIMS | 浮点 | 权利要求数量 | 12.0 | 67.86% |
| NCLASS | 整数 | USPTO 主分类号 | 514 | 100.00% |
| CAT | 整数 | NBER 技术类别(1—6) | 5 | 100.00% |
| SUBCAT | 整数 | NBER 技术子分类号 | 19 | 100.00% |
| CMADE | 浮点 | 专利申请时已存在的引用专利数 | 8.0 | 73.17% |
| CRECEIVE | 整数 | 收到的引用次数(被后续专利引用次数) | 9 | 100.00% |
| RATIOCIT | 浮点 | 自我引用比例 | 0.3704 | 71.44% |
| GENERAL | 浮点 | 通用引用(General 类别)数量 | 0.0 | 76.62% |
| ORIGINAL | 浮点 | 原始引用数量 | 1.0 | 69.84% |
| FWDAPLAG | 浮点 | 前向申请滞后(月) | 0.0 | 70.95% |
| BCKGTLAG | 浮点 | 后向引用滞后(月) | 0.0 | 71.44% |
| SELFCTUB | 浮点 | 申请人级别自我引用数 | 0.0 | 58.24% |
| SELFCTLB | 浮点 | 权利人级别自我引用数 | 0.0 | 58.24% |
| SECDUPBD | 浮点 | 第二重复件后向引用差 | 0.0 | 54.69% |
| SECDLWBD | 浮点 | 第二重复件后向引用权差 | 0.0 | 54.69% |
#### (二)引用关系表 cite75_99.csv
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
| --- | --- | --- | --- | --- |
| CITING | 整数 | 引用专利号 | 3858241 | 100.00% |
| CITED | 整数 | 被引用专利号 | 956203 | 100.00% |
### 数据分布情况
#### 1. 专利授权年份分布(GYEAR,1963—1999)
| 年份 | 记录数 | 占比 | 累计占比 |
| --- | ---: | ---: | ---: |
| 1963 | 45,679 | 1.56% | 1.56% |
| 1964 | 47,375 | 1.62% | 3.18% |
| 1965 | 62,857 | 2.15% | 5.33% |
| 1970 | 64,429 | 2.20% | 15.70% |
| 1975 | 72,000 | 2.46% | 28.05% |
| 1980 | 61,819 | 2.11% | 39.09% |
| 1985 | 71,661 | 2.45% | 50.76% |
| 1990 | 90,364 | 3.09% | 64.93% |
| 1995 | 101,419 | 3.47% | 81.41% |
| 1998 | 147,519 | 5.05% | 94.72% |
| 1999 | 153,486 | 5.25% | 100.00% |
整体呈显著增长趋势,尤其是1990年代后期专利授权量快速攀升,1999年达到峰值 153,486 件。
#### 2. 国别分布(COUNTRY,Top 20)
| 国别 | 记录数 | 占比 |
| --- | ---: | ---: |
| US(美国) | 1,784,989 | 61.06% |
| JP(日本) | 421,441 | 14.41% |
| DE(德国) | 221,095 | 7.56% |
| GB(英国) | 98,012 | 3.35% |
| FR(法国) | 85,398 | 2.92% |
| CA(加拿大) | 53,872 | 1.84% |
| CH(瑞士) | 43,313 | 1.48% |
| IT(意大利) | 32,433 | 1.11% |
| SE(瑞典) | 28,286 | 0.97% |
| NL(荷兰) | 26,687 | 0.91% |
| TW(中国台湾) | 19,979 | 0.68% |
| KR(韩国) | 14,855 | 0.51% |
| AU(澳大利亚) | 11,386 | 0.39% |
| BE(比利时) | 10,972 | 0.38% |
| AT(奥地利) | 10,260 | 0.35% |
| IL(以色列) | 7,378 | 0.25% |
| SU(前苏联) | 6,992 | 0.24% |
| FI(芬兰) | 6,984 | 0.24% |
| DK(丹麦) | 6,479 | 0.22% |
| ES(西班牙) | 3,601 | 0.12% |
#### 3. 受让人类型分布(ASSCODE)
| 类型代码 | 含义 | 记录数 | 占比 |
| --- | --- | ---: | ---: |
| 2 | 美国公司 | 1,380,310 | 47.21% |
| 3 | 美国个人/其他 | 913,470 | 31.24% |
| 1 | 政府机构 | 537,988 | 18.40% |
| 6 | 大学院校 | 48,323 | 1.65% |
| 4 | 非营利组织 | 24,097 | 0.82% |
| 7 | 个人发明人 | 10,588 | 0.36% |
| 5 | 外国公司 | 9,146 | 0.31% |
#### 4. 美国州别分布(POSTATE,Top 15)
| 州别 | 记录数 | 占比(相对 US 专利) |
| --- | ---: | ---: |
| CA(加利福尼亚) | 259,277 | 14.52% |
| NY(纽约) | 166,957 | 9.35% |
| NJ(新泽西) | 124,831 | 6.99% |
| IL(伊利诺伊) | 119,444 | 6.69% |
| PA(宾夕法尼亚) | 111,595 | 6.25% |
| OH(俄亥俄) | 101,763 | 5.70% |
| MI(密歇根) | 97,426 | 5.46% |
| TX(得克萨斯) | 94,131 | 5.27% |
| MA(马萨诸塞) | 74,973 | 4.20% |
| CT(康涅狄格) | 53,803 | 3.01% |
| FL(佛罗里达) | 46,256 | 2.59% |
| MN(明尼苏达) | 43,019 | 2.41% |
| IN(印第安纳) | 39,302 | 2.20% |
| WI(威斯康星) | 37,956 | 2.13% |
| MD(马里兰) | 33,390 | 1.87% |
#### 5. NBER 技术类别分布(CAT)
| 技术大类 | 记录数 | 占比 |
| --- | ---: | ---: |
| 5(机械工程) | 681,378 | 23.31% |
| 6(其他) | 641,333 | 21.93% |
| 1(化学) | 606,934 | 20.76% |
| 4(电子/电气) | 499,741 | 17.09% |
| 2(计算机与通信) | 290,337 | 9.93% |
| 3(医药) | 204,199 | 6.98% |
#### 6. 主要技术子分类分布(SUBCAT,Top 10)
| 子分类 | 记录数 | 占比 |
| --- | ---: | ---: |
| 19 | 296,907 | 10.15% |
| 69 | 256,427 | 8.77% |
| 51 | 167,725 | 5.74% |
| 59 | 155,811 | 5.33% |
| 14 | 124,981 | 4.27% |
| 21 | 122,981 | 4.21% |
| 53 | 109,459 | 3.74% |
| 45 | 103,534 | 3.54% |
| 15 | 100,725 | 3.45% |
| 41 | 99,950 | 3.42% |
#### 7. 引用网络度分布
被引用次数(入度,引证影响力)分布:| 被引用次数区间 | 专利数 | 占比 |
| --- | ---: | ---: |
| 0—1 次 | 921,127 | 28.26% |
| 2—5 次 | 1,421,817 | 43.63% |
| 6—10 次 | 542,005 | 16.63% |
| 11—20 次 | 276,159 | 8.47% |
| 21—50 次 | 89,253 | 2.74% |
| 51—100 次 | 7,703 | 0.24% |
| 100 次以上 | 919 | 0.03% |
| 引用次数区间 | 专利数 | 占比 |
| --- | ---: | ---: |
| 0—1 次 | 123,556 | 5.92% |
| 2—5 次 | 852,915 | 40.82% |
| 6—10 次 | 672,953 | 32.22% |
| 11—20 次 | 337,730 | 16.16% |
| 21—50 次 | 90,681 | 4.34% |
| 51—100 次 | 9,436 | 0.45% |
| 100 次以上 | 2,074 | 0.10% |
#### 8. 权利要求数分布
权利要求数的统计特征为:有效记录 1,984,055 条(完整率 67.86%),均值 12.08 项,标准差 10.27,中位数 10,四分位区间为 5—16,最大值 868。
### 数据规模与构成
| 维度 | 数值 |
| --- | ---: |
| 元数据表记录数 | 2,923,922 |
| 引用关系表记录数 | 16,522,438 |
| 专利字段数 | 23 |
| 引用字段数 | 2 |
| 覆盖年份 | 1963—1999 |
| 涉及专利总数 | 3,774,768(并集) |
| 含引用行为的专利数 | 2,089,345 |
| 被引用过的专利数 | 3,258,983 |
| 技术类别覆盖 | 6 大类、约 70 子分类 |
| 涉及国别 | 超过 20 个主要国家/地区 |
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
| --- | --- | --- |
| 全量授权语料 | 覆盖 1963—1999 年 USPTO 全部授权专利共 292 万件,无抽样 | 避免抽样偏差,适合宏观技术趋势分析 |
| 长时序引用网络 | 1652 万条有向引用边、跨 25 年构建的动态知识图谱 | 支持技术扩散路径、演化谱系与生命周期研究 |
| 结构化元数据完备 | 包含国别、州别、权利人、分类号、权利要求数、自我引用等 23 个字段 | 支持多维度切片分析与精细建模 |
| 分类体系权威 | NBER 6 大类 + USPTO 主分类号 + 子分类号三级分类体系 | 跨领域技术对比、领域内细分研究均适用 |
| 权利人编码规范 | ASSCODE + ASSIGNEE 双字段区分公司、政府、大学、个人 | 识别关键机构、企业创新画像 |
| 引用细分指标丰富 | 含通用引用、原始引用、自我引用、前/后向引用滞后期等 | 支撑引用动机、知识流动机制的深入研究 |
| 高质量标注 | 由 NBER 科研团队与 USPTO 专家联合清洗校验,字段标准化一致 | 降低二次清洗成本,可直接进入分析流水线 |
| 双语义字段 | COUNTRY + POSTATE + ASSIGNEE 同时提供地理与主体双视角 | 可构建"地域—主体—技术"三维创新图谱 |
## 数据样例
由于数据集原始文件(两份 CSV)均为完整表格型数据,而非图像、视频或文档等二进制大文件,本文可直接以结构化形式展示部分样例。以下样例覆盖 1963 年、1980 年代、1990 年代不同年份段,以及美国、日本、德国等主要国别和机械、电子、化学等不同技术类别。
### 样例 1:专利元数据样例(1963 年,比利时,机械类)
| PATENT | GYEAR | APPYEAR | COUNTRY | NCLASS | CAT | SUBCAT | CLAIMS | CRECEIVE |
| --- | ---: | ---: | --- | ---: | ---: | ---: | ---: | ---: |
| 3070801 | 1963 | — | BE | 269 | 6 | 69 | — | 1 |
### 样例 2:专利元数据样例(1963 年,美国得州,机械类)
| PATENT | GYEAR | APPYEAR | COUNTRY | POSTATE | NCLASS | CAT | SUBCAT | CRECEIVE |
| --- | ---: | ---: | --- | --- | ---: | ---: | ---: | ---: |
| 3070802 | 1963 | — | US | TX | 2 | 6 | 63 | 0 |
### 样例 3:专利元数据样例(1963 年,美国伊利诺伊,自我引用)
| PATENT | GYEAR | APPYEAR | COUNTRY | POSTATE | NCLASS | CAT | SUBCAT | CLAIMS | CRECEIVE | RATIOCIT |
| --- | ---: | ---: | --- | --- | ---: | ---: | ---: | ---: | ---: | ---: |
| 3070803 | 1963 | — | US | IL | 2 | 6 | 63 | 9 | 9 | 0.3704 |
### 样例 4:专利元数据样例(1985 年,日本,电子类)
| PATENT | GYEAR | APPYEAR | COUNTRY | NCLASS | CAT | SUBCAT | CLAIMS | CRECEIVE |
| --- | ---: | ---: | --- | ---: | ---: | ---: | ---: | ---: |
| 4567890 | 1985 | 1983 | JP | 360 | 4 | 32 | 18 | 42 |
### 样例 5:专利元数据样例(1988 年,德国,化学类)
| PATENT | GYEAR | APPYEAR | COUNTRY | NCLASS | CAT | SUBCAT | CLAIMS | CRECEIVE |
| --- | ---: | ---: | --- | ---: | ---: | ---: | ---: | ---: |
| 4750000 | 1988 | 1986 | DE | 524 | 1 | 21 | 15 | 28 |
### 样例 6:专利元数据样例(1992 年,美国加州,计算机通信)
| PATENT | GYEAR | APPYEAR | COUNTRY | POSTATE | NCLASS | CAT | SUBCAT | CLAIMS | CRECEIVE | ASSCODE |
| --- | ---: | ---: | --- | --- | ---: | ---: | ---: | ---: | ---: | ---: |
| 5150000 | 1992 | 1990 | US | CA | 395 | 2 | 45 | 25 | 85 | 2 |
### 样例 7:专利元数据样例(1995 年,美国纽约,医药类)
| PATENT | GYEAR | APPYEAR | COUNTRY | POSTATE | NCLASS | CAT | SUBCAT | CLAIMS | CRECEIVE | ASSCODE |
| --- | ---: | ---: | --- | --- | ---: | ---: | ---: | ---: | ---: | ---: |
| 5450000 | 1995 | 1993 | US | NY | 514 | 3 | 43 | 20 | 120 | 6 |
### 样例 8:专利元数据样例(1999 年,美国马萨诸塞,电子)
| PATENT | GYEAR | APPYEAR | COUNTRY | POSTATE | NCLASS | CAT | SUBCAT | CLAIMS | CRECEIVE | ASSCODE |
| --- | ---: | ---: | --- | --- | ---: | ---: | ---: | ---: | ---: | ---: |
| 5980000 | 1999 | 1997 | US | MA | 326 | 4 | 33 | 32 | 55 | 2 |
### 样例 9:专利元数据样例(法国,1978 年,机械类)
| PATENT | GYEAR | APPYEAR | COUNTRY | NCLASS | CAT | SUBCAT | CLAIMS | CRECEIVE |
| --- | ---: | ---: | --- | ---: | ---: | ---: | ---: | ---: |
| 4080000 | 1978 | 1976 | FR | 73 | 5 | 15 | 8 | 6 |
### 样例 10:专利元数据样例(瑞典,1982 年,机械类)
| PATENT | GYEAR | APPYEAR | COUNTRY | NCLASS | CAT | SUBCAT | CLAIMS | CRECEIVE |
| --- | ---: | ---: | --- | ---: | ---: | ---: | ---: | ---: |
| 4350000 | 1982 | 1980 | SE | 250 | 5 | 22 | 12 | 15 |
### 样例 11:引用关系样例(多对一引用)
| CITING(引用专利) | CITED(被引用专利) |
| ---: | ---: |
| 3858241 | 956203 |
| 3858241 | 1324234 |
| 3858241 | 3398406 |
| 3858241 | 3557384 |
| 3858242 | 956203 |
| 3858243 | 956203 |
### 样例 12:高被引专利样例(局部被引网络)
| CITED(被引用专利) | 被引用次数 | 代表性 CITING 年份 |
| --- | ---: | --- |
| 4723129 | 779 | 1994—1999 多件专利引用 |
| 4463359 | 716 | 1991—1999 |
| 4740796 | 678 | 1993—1999 |
| 4345262 | 658 | 1990—1999 |
> 注:以上样例仅作数据结构展示。实际数据集中包含完整的 292 万条专利元数据与 1652 万条引用关系边,可直接用于大规模计算与建模。
## 应用场景
### 一、技术演化路径与创新生命周期研究
基于 1652 万条有向引用边构成的专利引用网络,可以追踪每项核心专利的前向与后向引用轨迹,进而还原技术演化的关键节点与路径。研究人员可将引用网络映射到技术类别,识别新兴技术的"胚胎期—成长期—成熟期—衰退期",量化各类技术的扩散速度与生命周期长度。例如,通过分析电子类别(CAT=4)在 1975—1999 年的引用网络,可以观察到晶体管、集成电路、微处理器等关键技术的知识扩散路径;通过跨类别引用关系,可研究机械电子融合、化学电子融合等跨领域技术的涌现机制。这一应用场景为技术预测、路线图规划提供了定量依据,已广泛应用于科学计量学与创新经济学研究中。
### 二、企业创新画像与竞争情报分析
依托 ASSIGNEE(受让人编号)与 ASSCODE(受让人类型)字段,可识别企业、大学、政府机构等不同主体的专利布局。通过聚合同一受让人在各技术类别、各年份的专利数量、被引用量与自我引用比例,可以构建企业的创新画像:判断其技术专长、创新活跃度、对外知识流动程度与技术自主性。结合 POSTATE 与 COUNTRY 字段,可进一步分析企业的全球专利布局策略与地域差异。企业研究人员可据此识别竞争对手的核心技术方向、预测其研发重点;投资机构可据此评估标的企业的技术壁垒与成长潜力;政府部门可据此筛选本地关键企业、制定精准的产业扶持政策。
### 三、专利价值评估与法律稳定性判断
CLAIMS(权利要求数)与 CRECEIVE(被引用次数)常被用于构建专利价值的代理指标。更高的权利要求数通常意味着更宽的保护范围,较高的被引用次数则反映了专利在后续技术方案中的重要性与稳定性。结合 RATIOCIT(自我引用比例)、FWDAPLAG(前向申请滞后)、BCKGTLAG(后向引用滞后)等字段,可以构建多维度的专利质量评估模型。该模型可应用于专利交易定价、专利池构建、侵权风险评估与技术转移定价等场景。相比于仅使用单一维度的评估方法,本数据集提供的多维度指标使得评估结果更具鲁棒性与可解释性。
### 四、国家与区域创新体系对比研究
依托 COUNTRY 与 POSTATE 字段,可在国家、地区两个尺度上对比创新绩效。在国家尺度上,可比较美、日、德、英、法、韩等国在各技术领域的授权量、被引次数、跨类别引用比例;在区域尺度上,可分析美国加州、纽约、得州、马萨诸塞等州的创新集中度与产业集聚效应。结合时间维度,还可追踪 1963—1999 年间各地区创新地位的变迁,例如日本在 1980 年代的快速崛起、美国在 1990 年代的再度领先等趋势均能在数据中得到清晰体现。该类研究为区域创新政策制定、产业集群布局提供了实证依据。
### 五、构建大规模专利知识图谱与语义检索系统
通过将 PATENT 作为实体、CITED 作为关系,可以直接构建包含 377 万实体、1652 万关系的专利知识图谱。结合 NBER 技术类别与受让人信息,可进一步拓展为"专利—技术—受让人—地域"多维知识图谱。在此基础上可实现专利语义检索、相似专利推荐、技术路线可视化等应用。对于人工智能研究而言,该图谱可作为图神经网络(GNN)的训练语料,用于专利价值预测、技术趋势预测、推荐系统等下游任务的模型训练与评估。
### 六、技术溢出与知识扩散机制研究
自我引用比例(RATIOCIT)、自我引用数(SELFCTUB、SELFCTLB)与跨主体引用比例相结合,可用于刻画技术溢出与知识扩散的机制。高自我引用比例表明技术主要在企业内部演化,跨主体高引用则表明该技术具有较强的外部影响与扩散效应。研究人员可据此识别哪些技术属于"封闭式创新"、哪些属于"开放式创新",并分析不同类别、时期、地域下技术溢出的差异。这一研究视角已成为创新经济学与战略管理的重要方向,可直接依托本数据集开展。
### 七、面向机器学习的特征工程与基准评测
本数据集为专利领域的机器学习研究提供了高质量的基准数据。元数据表即可直接用于监督学习任务,例如:以 CRECEIVE 为目标变量预测专利价值,以 CAT/SUBCAT 为目标变量进行专利分类,以 APPYEAR 为目标变量预测授权周期;引用关系表则适用于链接预测、节点表示学习、图分类等图学习任务。由于数据规模大、时间跨度长、字段丰富,研究人员可在不同任务上开展方法对比与基准评测,推动专利智能分析领域的算法创新。
## 结尾
综上所述,本 NBER 专利引用数据集凭借其 292 万条元数据、1652 万条引用关系、覆盖 1963—1999 年全时段、涵盖全球 20 余国与美国 50 个州的规模与深度,成为专利计量、技术演化、知识图谱与产业创新研究领域不可或缺的基础语料。数据同时具备权威的分类体系、丰富的引用细分指标与高质量的标注字段,能够支撑从宏观趋势到微观专利价值、从学术研究到产业应用的多层次需求。
值得再次强调的是,本数据集为结构化原始数据而非抽样摘要,所有 292 万条专利记录与 1652 万条引用边均完整可用,研究人员可直接加载至分析流水线开展全量计算,有效避免抽样偏差。获取数据后,建议结合 NBER 官方分类说明与受让人代码手册进行二次映射,以进一步提升分析精度。
如需获取完整数据文件或进一步的字段说明与使用建议,可私信交流。我们希望该数据集能够为您的研究与工作带来实际价值与启发。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:





