数据描述
在数字化时代,职业社交网络数据已成为人才分析、市场研究、算法开发等领域的重要资源。领英(LinkedIn)作为全球最大的职业社交平台,汇聚了数亿专业人士的职业信息、教育背景、技能标签和工作经历,这些数据对于理解全球人才市场趋势、开发智能推荐系统、构建人才画像模型具有不可估量的价值。本数据集通过对领英平台数据的系统化采集和结构化整理,为研究者、数据科学家、企业人力资源部门以及算法工程师提供了一个高质量、大规模、多维度的人才数据资源,可用于训练机器学习模型、进行人才市场分析、开发智能招聘系统、构建职业发展预测模型等多元化应用场景。数据集不仅覆盖了不同行业、不同国家、不同职业层级的专业人士信息,还包含了丰富的关联数据,如工作经历、教育背景、技能标签、地理位置等,为深入的人才分析和算法研发提供了坚实的数据基础。
数据基本信息
本数据集包含2,277,067条领英用户记录,数据规模达到2.8GB,采用JSON格式存储,每条记录都经过结构化处理和标准化清洗。数据集覆盖了149个不同行业,涉及237个国家和地区,数据的时间跨度从2010年至2020年,涵盖了不同职业发展阶段的人才信息。
每条数据记录包含以下核心字段:用户基本信息(姓名、性别、LinkedIn ID、个人简介)、职业信息(当前职位、公司名称、行业分类、职位级别、工作起始时间)、教育背景(学校名称、学位类型、专业方向、毕业时间)、技能标签(专业技能列表)、工作经历(历史工作记录、公司信息、职位变更)、联系方式(邮箱地址、电话号码)、地理位置(国家、地区、城市、地理坐标)、社交网络信息(LinkedIn连接数、其他社交平台链接)、推断属性(预估薪资范围、工作年限)。数据采用统一的结构化格式,便于程序化处理和批量分析,同时保留了原始数据的完整性和丰富性。
数据字段说明
每条数据记录包含以下字段,字段说明如下:
| 字段类别 | 字段名称 | 数据类型 | 字段说明 |
|---|---|---|---|
| 基础信息 | id | String | 记录唯一标识符 |
| full_name | String | 用户全名 | |
| first_name | String | 名 | |
| middle_name | String | 中间名(可选) | |
| last_name | String | 姓 | |
| gender | String | 性别(male/female/null) | |
| birth_year | Integer | 出生年份 | |
| birth_date | String | 出生日期 | |
| LinkedIn信息 | linkedin_url | String | LinkedIn个人主页URL |
| linkedin_username | String | LinkedIn用户名 | |
| linkedin_id | String | LinkedIn用户ID | |
| linkedin_connections | Integer | LinkedIn连接数 | |
| 职业信息 | industry | String | 所属行业 |
| job_title | String | 当前职位名称 | |
| job_title_role | String | 职位角色 | |
| job_title_sub_role | String | 职位子角色 | |
| job_title_levels | Array | 职位级别列表 | |
| job_company_name | String | 公司名称 | |
| job_company_id | String | 公司ID | |
| job_company_size | String | 公司规模 | |
| job_company_founded | String | 公司成立年份 | |
| job_company_industry | String | 公司所属行业 | |
| job_start_date | String | 工作开始日期 | |
| job_last_updated | String | 工作信息最后更新时间 | |
| 地理位置 | location_name | String | 位置名称(完整地址) |
| location_locality | String | 城市 | |
| location_region | String | 州/省/地区 | |
| location_country | String | 国家 | |
| location_continent | String | 大洲 | |
| location_geo | String | 地理坐标(经纬度) | |
| 联系方式 | emails | Array | 邮箱地址列表(包含address和type字段) |
| phone_numbers | Array | 电话号码列表 | |
| work_email | String | 工作邮箱 | |
| mobile_phone | String | 手机号码 | |
| 社交网络 | facebook_url | String | Facebook个人主页URL |
| facebook_username | String | Facebook用户名 | |
| twitter_url | String | Twitter个人主页URL | |
| twitter_username | String | Twitter用户名 | |
| github_url | String | GitHub个人主页URL | |
| github_username | String | GitHub用户名 | |
| 技能与兴趣 | skills | Array | 技能标签列表 |
| interests | Array | 兴趣爱好列表 | |
| languages | Array | 语言能力列表 | |
| 工作经历 | experience | Array | 工作经历列表,每个经历包含:company(公司信息)、title(职位信息)、start_date(开始日期)、end_date(结束日期)、is_primary(是否当前工作) |
| 教育背景 | education | Array | 教育经历列表,每个教育包含:school(学校信息)、degrees(学位列表)、majors(专业列表)、start_date(开始日期)、end_date(结束日期)、gpa(GPA成绩) |
| 认证 | certifications | Array | 认证证书列表 |
| 推断属性 | inferred_salary | String | 推断的薪资范围 |
| inferred_years_experience | Integer | 推断的工作年限 | |
| 个人简介 | summary | String | LinkedIn个人简介 |
| 其他信息 | profiles | Array | 社交平台档案列表 |
| location_names | Array | 位置名称列表 | |
| regions | Array | 地区列表 | |
| countries | Array | 国家列表 | |
| street_addresses | Array | 街道地址列表 | |
| version_status | Object | 版本状态信息 |
数据统计信息
基于**全量数据(2,277,067条记录)**分析,以下是关键统计数据:
国家/地区分布(Top 20)
| 国家/地区 | 数量 | 占比 |
|---|---|---|
| 美国 (United States) | 154,647 | 6.79% |
| 印度 (India) | 45,590 | 2.00% |
| 巴西 (Brazil) | 36,562 | 1.61% |
| 英国 (United Kingdom) | 26,509 | 1.16% |
| 法国 (France) | 17,984 | 0.79% |
| 加拿大 (Canada) | 16,522 | 0.73% |
| 墨西哥 (Mexico) | 12,191 | 0.54% |
| 意大利 (Italy) | 10,345 | 0.45% |
| 澳大利亚 (Australia) | 10,274 | 0.45% |
| 西班牙 (Spain) | 9,991 | 0.44% |
| 印度尼西亚 (Indonesia) | 9,122 | 0.40% |
| 德国 (Germany) | 9,031 | 0.40% |
| 荷兰 (Netherlands) | 7,250 | 0.32% |
| 南非 (South Africa) | 6,581 | 0.29% |
| 哥伦比亚 (Colombia) | 6,547 | 0.29% |
| 土耳其 (Turkey) | 6,395 | 0.28% |
| 阿根廷 (Argentina) | 6,353 | 0.28% |
| 中国 (China) | 6,120 | 0.27% |
| 菲律宾 (Philippines) | 5,411 | 0.24% |
| 智利 (Chile) | 4,923 | 0.22% |
数据覆盖范围:数据集共覆盖237个不同国家和地区,具有全球代表性。
行业分布(Top 20)
| 行业 | 数量 | 占比 |
|---|---|---|
| 信息技术与服务 (Information Technology and Services) | 48,525 | 2.13% |
| 医院与医疗保健 (Hospital & Health Care) | 31,516 | 1.38% |
| 高等教育 (Higher Education) | 29,883 | 1.31% |
| 金融服务 (Financial Services) | 27,242 | 1.20% |
| 零售 (Retail) | 26,842 | 1.18% |
| 建筑业 (Construction) | 20,122 | 0.88% |
| 银行业 (Banking) | 19,631 | 0.86% |
| 教育管理 (Education Management) | 19,442 | 0.85% |
| 政府管理 (Government Administration) | 18,722 | 0.82% |
| 电信 (Telecommunications) | 18,311 | 0.80% |
| 计算机软件 (Computer Software) | 17,723 | 0.78% |
| 市场营销与广告 (Marketing and Advertising) | 17,415 | 0.76% |
| 石油与能源 (Oil & Energy) | 16,047 | 0.70% |
| 汽车 (Automotive) | 15,521 | 0.68% |
| 保险 (Insurance) | 13,341 | 0.59% |
| 房地产 (Real Estate) | 13,044 | 0.57% |
| 会计 (Accounting) | 12,023 | 0.53% |
| 酒店业 (Hospitality) | 11,703 | 0.51% |
| 互联网 (Internet) | 11,496 | 0.50% |
| 非营利组织管理 (Non-profit Organization Management) | 10,859 | 0.48% |
数据覆盖范围:数据集共涵盖149个不同行业,覆盖科技、金融、医疗、教育、制造业、服务业等各个领域。
性别分布
| 性别 | 数量 | 占比 |
|---|---|---|
| 男性 (Male) | 219,037 | 9.62% |
| 女性 (Female) | 185,136 | 8.13% |
| 未标注 (Not Specified) | 1,872,894 | 82.25% |
说明:大部分记录未明确标注性别信息,已标注的记录中男性占比略高于女性。
薪资范围分布(Top 10)
| 薪资范围 | 数量 | 占比 |
|---|---|---|
| <20,000 | 52,060 | 2.29% |
| 55,000-70,000 | 26,335 | 1.16% |
| 70,000-85,000 | 22,866 | 1.00% |
| 100,000-150,000 | 22,731 | 1.00% |
| 85,000-100,000 | 17,716 | 0.78% |
| 45,000-55,000 | 15,461 | 0.68% |
| 35,000-45,000 | 12,573 | 0.55% |
| 150,000-250,000 | 8,916 | 0.39% |
| 25,000-35,000 | 7,873 | 0.35% |
| 20,000-25,000 | 2,652 | 0.12% |
说明:薪资信息为推断值,仅部分记录包含此信息。数据显示薪资分布主要集中在中等收入水平(55,000-150,000范围)。
其他关键统计指标
| 指标 | 数值 |
|---|---|
| 总记录数 | 2,277,067条 |
| 数据规模 | 2.8GB |
| 覆盖国家数 | 237个 |
| 覆盖行业数 | 149个 |
| 包含地理位置信息的记录数 | 较高(大部分记录包含) |
| 包含教育背景信息的记录数 | 较高(大部分记录包含) |
数据优势
| 优势特性 | 具体描述 |
|---|---|
| 数据规模 | 包含227万条高质量用户记录,数据量充足,适合大规模模型训练和统计分析 |
| 地理覆盖 | 覆盖237个国家和地区,涵盖北美、欧洲、亚洲、南美、非洲等多个大洲,具有全球代表性 |
| 行业多样性 | 覆盖149个不同行业,包括科技、金融、医疗、教育、制造业、服务业等各个领域 |
| 字段丰富 | 每条记录包含超过50个字段,涵盖个人信息、职业发展、教育背景、技能标签等多个维度 |
| 结构化程度高 | 采用标准JSON格式,数据结构清晰,易于解析和处理,支持快速数据抽取和分析 |
| 时间跨度广 | 数据时间跨度从2010年至2020年,可支持纵向职业发展轨迹分析和趋势研究 |
| 标注信息完整 | 包含行业分类、职位层级、地理位置、技能标签等结构化标注,便于分类和聚类分析 |
| 关联数据丰富 | 不仅包含用户基本信息,还包含工作经历、教育背景、公司信息等多层次关联数据 |
| 适用场景广泛 | 可用于推荐系统、人才分析、市场研究、算法训练、数据挖掘等多个应用领域 |
| 数据质量高 | 经过清洗和标准化处理,数据一致性好,缺失值标注明确,便于后续分析和建模 |
数据样例
以下是数据集中的20条代表性原始数据样例(JSON格式),展示了数据在不同行业、不同国家、不同职业层级的多样性。所有数据均为原始格式,未做任何修改:
样例1-3:完整JSON数据展示
[
{
"id": "oUtNZ6WK47citf2SLvtvrg_0000",
"full_name": "phary yoeun",
"first_name": "phary",
"middle_initial": null,
"middle_name": null,
"last_name": "yoeun",
"gender": null,
"birth_year": null,
"birth_date": null,
"linkedin_url": "linkedin.com/in/phary-yoeun-6137b646",
"linkedin_username": "phary-yoeun-6137b646",
"linkedin_id": "163224303",
"facebook_url": null,
"facebook_username": null,
"facebook_id": null,
"twitter_url": null,
"twitter_username": null,
"github_url": null,
"github_username": null,
"work_email": null,
"mobile_phone": null,
"industry": "media production",
"job_title": "communication officer",
"job_title_role": null,
"job_title_sub_role": null,
"job_title_levels": [],
"job_company_id": null,
"job_company_name": "plan international cambodia",
"job_company_website": null,
"job_company_size": null,
"job_company_founded": null,
"job_company_industry": null,
"job_company_linkedin_url": null,
"job_company_linkedin_id": null,
"job_company_facebook_url": null,
"job_company_twitter_url": null,
"job_company_location_name": null,
"job_company_location_locality": null,
"job_company_location_metro": null,
"job_company_location_region": null,
"job_company_location_geo": null,
"job_company_location_street_address": null,
"job_company_location_address_line_2": null,
"job_company_location_postal_code": null,
"job_company_location_country": null,
"job_company_location_continent": null,
"job_last_updated": "2018-12-01",
"job_start_date": "2010-09",
"job_summary": null,
"location_name": "cambodia",
"location_locality": null,
"location_metro": null,
"location_region": null,
"location_country": "cambodia",
"location_continent": "asia",
"location_street_address": null,
"location_address_line_2": null,
"location_postal_code": null,
"location_geo": null,
"location_last_updated": "2018-12-01",
"linkedin_connections": 10,
"inferred_salary": null,
"inferred_years_experience": 6,
"summary": "Student at Department of Media and Communication",
"phone_numbers": [],
"emails": [
{
"address": "pharyyoeun@yahoo.com",
"type": "personal"
}
],
"interests": [],
"skills": [],
"location_names": [],
"regions": [],
"countries": [
"cambodia"
],
"street_addresses": [],
"experience": [
{
"company": {
"name": "plan international cambodia",
"size": null,
"id": null,
"founded": null,
"industry": null,
"location": null,
"linkedin_url": null,
"linkedin_id": null,
"facebook_url": null,
"twitter_url": null,
"website": null
},
"location_names": [],
"end_date": null,
"start_date": "2010-09",
"title": {
"name": "communication officer",
"role": null,
"sub_role": null,
"levels": []
},
"is_primary": true,
"summary": null
}
],
"education": [
{
"school": null,
"end_date": "2014",
"start_date": "2010",
"gpa": null,
"degrees": [
"bachelors",
"bachelor of arts"
],
"majors": [
"media management"
],
"minors": [],
"summary": null
}
],
"profiles": [
{
"network": "linkedin",
"id": "163224303",
"url": "linkedin.com/in/phary-yoeun-6137b646",
"username": "phary-yoeun-6137b646"
}
],
"certifications": [],
"languages": [],
"version_status": {
"status": "updated",
"contains": [],
"previous_version": "12.0",
"current_version": "13.0"
}
},
应用场景
1. 智能推荐系统开发与优化
本数据集为推荐系统开发提供了丰富的用户行为数据和特征信息,可用于构建职业社交网络推荐算法、职位推荐系统、人才匹配推荐引擎等。数据集中的用户技能标签、工作经历、教育背景、行业分类等信息可以作为推荐算法的特征输入,通过协同过滤、内容推荐、深度学习等算法,实现精准的职位推荐、人才推荐、技能推荐等功能。研究人员可以利用数据集中的用户-公司关系、用户-技能关系、用户-行业关系构建多层次的推荐模型,通过分析用户的历史职业轨迹和技能发展路径,预测用户可能感兴趣的职位或技能方向。此外,数据集中的地理位置信息可以支持基于地理位置的推荐算法,帮助用户发现同城或同地区的职业机会。数据集的规模优势使得模型训练具有足够的样本量,可以提高推荐系统的准确性和泛化能力,同时多样化的行业和职位分布使得推荐系统能够覆盖更广泛的用户群体和应用场景。
2. 人才市场分析与趋势预测
数据集包含227万条用户记录,覆盖35个行业和33个国家,为人才市场研究提供了全面而深入的数据基础。研究人员可以利用数据集分析不同行业的薪资水平分布、人才流动趋势、技能需求变化、地区人才分布差异等关键问题。通过分析不同行业、不同国家、不同职位层级的用户数据,可以识别出人才市场的热点领域、新兴职业、技能发展趋势,为企业的人力资源规划、政府的就业政策制定、教育机构的专业设置提供数据支持。数据集中的时间信息(工作起始时间、教育毕业时间等)支持纵向分析,可以追踪个人职业发展轨迹,研究职业转换模式、薪资增长规律、技能发展路径等。同时,通过分析不同地区、不同行业的用户分布,可以识别出人才集中的地理区域和行业集群,为区域经济发展和产业布局提供参考。数据集的全球覆盖特性使得研究人员可以进行跨国比较研究,分析不同国家人才市场的特点和差异,为全球化人才战略提供洞察。
3. 职业画像构建与人才分类
数据集丰富的字段信息为构建全面的职业画像提供了数据基础,可以利用机器学习算法对用户进行多维度分类和聚类分析。通过分析用户的行业、职位、技能、教育背景、工作经历等特征,可以构建不同职业群体的画像模型,识别出不同职业群体的典型特征、技能组合、发展路径等。这些画像可以用于人才分类、职业匹配、能力评估等应用场景。例如,可以利用数据集训练分类模型,自动识别用户的职业类别、职位层级、技能水平等,为企业的人力资源管理、招聘筛选、人才评估提供自动化工具。同时,通过聚类分析可以发现具有相似职业特征的用户群体,识别出不同职业类型的人才特征模式,为职业规划和职业发展指导提供参考。数据集的多样性确保了模型能够覆盖不同行业、不同国家、不同职业层级的用户,提高了职业画像模型的通用性和准确性。此外,数据集中的关联数据(如公司信息、教育机构信息)可以用于构建更丰富的人才网络图谱,支持基于网络分析的人才发现和推荐。
4. 自然语言处理与文本挖掘研究
数据集中的个人简介、工作摘要、技能描述等文本字段为自然语言处理研究提供了丰富的语料资源。研究人员可以利用这些文本数据训练文本分类模型、命名实体识别模型、情感分析模型等,应用于简历分析、职位描述理解、技能提取等任务。数据集中的结构化信息(如行业分类、职位层级)可以作为文本分类任务的标注数据,训练模型自动识别文本中的职业信息、行业信息、技能信息等。同时,通过分析不同行业、不同职位的文本描述,可以挖掘出行业特定的术语、职位特征描述、技能关键词等,为构建领域知识图谱提供数据支持。数据集的规模优势使得文本挖掘模型具有足够的训练样本,可以提高模型的性能和泛化能力。此外,数据集的多语言特性(包含英语、西班牙语、法语等多种语言)支持跨语言文本处理研究,可以训练多语言模型,应用于全球化的文本分析和理解任务。文本挖掘的结果可以进一步应用于智能搜索、信息抽取、知识图谱构建等应用场景。
5. 社交网络分析与关系挖掘
数据集中的LinkedIn连接数、社交平台链接等信息为社交网络分析提供了数据基础,可以构建职业社交网络图谱,分析用户之间的关系模式、信息传播路径、影响力分布等。通过分析用户的连接数、地理位置、行业分布等信息,可以识别出网络中的关键节点、影响力用户、社区结构等,为社交媒体营销、影响力营销、网络传播研究提供数据支持。数据集中的公司信息、教育机构信息可以用于构建用户-公司网络、用户-教育机构网络等多层次网络结构,分析人才的流动模式、校友网络效应、企业人才来源等。同时,通过分析不同行业、不同地区的网络结构,可以识别出行业内部的人才流动模式、地区间的人才迁移趋势等,为人才政策制定和区域发展规划提供参考。数据集的规模优势使得网络分析具有足够的节点和边,可以构建大规模的网络模型,发现更复杂的网络模式和规律。社交网络分析的结果可以应用于人才推荐、信息传播优化、网络营销策略制定等应用场景。
6. 机器学习与深度学习模型训练
数据集的结构化特征和丰富标注为机器学习模型训练提供了高质量的训练数据,可以用于分类任务、回归任务、聚类任务、推荐任务等多种机器学习应用。研究人员可以利用数据集训练预测模型,预测用户的薪资水平、职位层级、职业发展方向等,应用于薪资评估、职业规划、人才评估等场景。同时,可以利用数据集训练分类模型,自动识别用户的行业、职位类型、技能领域等,应用于自动化简历筛选、人才分类、信息抽取等任务。数据集的规模优势确保了模型训练具有足够的样本量,可以提高模型的准确性和泛化能力,同时多样化的数据分布使得模型能够适应不同的应用场景。深度学习模型可以利用数据集中的多模态特征(文本、数值、类别等),构建端到端的预测模型,实现更复杂的学习任务。此外,数据集中的时间信息支持时间序列分析,可以训练预测模型预测用户的职业发展轨迹、薪资增长趋势等。机器学习模型训练的结果可以应用于自动化系统、智能推荐引擎、预测分析工具等产品开发。
总结
本数据集作为一个包含227万条记录、覆盖35个行业和33个国家的大规模职业人才数据集,为研究者和开发者提供了丰富而全面的数据资源。数据集不仅规模庞大,而且字段丰富、结构清晰、质量高,适用于推荐系统开发、人才市场分析、职业画像构建、文本挖掘研究、社交网络分析、机器学习模型训练等多个应用领域。数据集的全球覆盖特性和行业多样性确保了其广泛的适用性和代表性,为跨行业、跨地区的人才研究和分析提供了数据基础。同时,数据集的结构化程度高,便于程序化处理和分析,支持快速的数据抽取、特征工程和模型训练,为高效的研究和开发工作提供了便利。无论是学术研究、算法开发,还是商业应用,本数据集都能为相关项目提供坚实的数据支撑。有需要可私信获取更多信息。
看了又看
验证报告

卖家暂未授权典枢平台对该文件进行数据验证,您可以向卖家




