数据描述
引言与背景
在数字经济快速发展的今天,中东地区作为新兴的经济增长极,其人力资源市场呈现出独特的特征和发展趋势。Wuzzuf作为埃及乃至整个中东地区最具影响力的在线求职平台之一,汇聚了海量的人才供需信息,为研究该地区就业市场动态、人才流动规律和行业发展趋势提供了珍贵的数据资源。本数据集不仅涵盖了完整的求职申请记录,还包含详细的职位发布信息,能够为科研机构、人工智能企业和人力资源服务商提供全面、准确的基础数据支持。
数据集的重要性体现在其全面性和真实性上。作为平台用户的实际行为数据,这些信息反映了中东地区求职者的真实求职倾向、雇主的招聘需求,以及市场供需匹配情况。通过深度分析这些数据,研究人员可以洞察该地区的就业市场结构、薪酬水平分布、职业发展趋势等关键信息。同时,这些高质量的标注数据为机器学习算法训练提供了理想的基础,特别是在推荐系统、匹配算法、薪酬预测等领域的应用中具有重要价值。
本数据集的完整内容构成包括两个核心部分:求职申请数据和职位发布数据。求职申请数据记录了用户的实际申请行为,包含1,854,190条完整的申请记录,每条记录包含申请者ID、目标职位ID、申请时间戳等关键信息。职位发布数据提供了21,850个职位的详细信息,涵盖职位标题、地理位置、薪酬范围、职业要求、行业分类等20个维度的丰富信息。两个数据集通过职位ID实现了精确的关联,为研究求职者和职位之间的匹配关系提供了完整的数据链条。
这份数据集对科研、算法训练和行业应用具有重要价值。对于学术研究者而言,它是深入了解中东地区劳动力市场的重要资源;对于人工智能企业而言,它是训练和优化招聘相关算法的宝贵训练数据;对于人力资源服务商而言,它是制定市场策略和业务决策的重要参考依据。
数据基本信息
数据字段说明表格
求职申请数据字段说明
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| id | 文本 | 申请记录唯一标识符 | ba7b8f17 | 100% |
| user_id | 文本 | 求职者用户唯一标识符 | 846d013c | 100% |
| job_id | 文本 | 目标职位唯一标识符 | 516e4ed | 100% |
| app_date | 时间 | 申请提交时间戳 | 2014-01-01 07:27:52 |
职位发布数据字段说明
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| id | 文本 | 职位唯一标识符 | 516e4ed | 100% |
| city | 文本 | 工作所在城市 | Cairo | 100% |
| job_title | 文本 | 职位标题 | Sales & Marketing Agent | 100% |
| job_category1 | 文本 | 主要职位类别 | IT/Software Development | 100% |
| job_category2 | 文本 | 次要职位类别 | Engineering | 100% |
| job_category3 | 文本 | 辅助职位类别 | Select | 100% |
| job_industry1 | 文本 | 主要所属行业 | Computer Software | 100% |
| job_industry2 | 文本 | 次要所属行业 | Information Technology Services | 100% |
| job_industry3 | 文本 | 辅助所属行业 | Select | 100% |
| salary_minimum | 数值 | 最低薪酬(埃及镑) | 2000 | 100% |
| salary_maximum | 数值 | 最高薪酬(埃及镑) | 3500 | 100% |
| num_vacancies | 数值 | 招聘人数 | 1 | 100% |
| career_level | 文本 | 职业级别 | Entry Level | 100% |
| experience_years | 文本 | 经验要求 | 0-1 | 100% |
| post_date | 时间 | 职位发布时间 | 2014-01-01 06:01:41 | 100% |
| views | 数值 | 职位浏览次数 | 2602 | 100% |
| job_description | 文本 | 详细职位描述 | 包含HTML格式的完整描述 | 100% |
| job_requirements | 文本 | 职位要求 | NULL | 100% |
| payment_period | 文本 | 薪资支付周期 | Per Month | 100% |
| currency | 文本 | 货币类型 | Egyptian Pound |
数据分布情况表格
城市分布(Top 10)
| 职位数量 | 占比 | |
|---|---|---|
| Cairo | 8,247 | 37.74% |
| Alexandria | 1,842 | 8.43% |
| Giza | 1,205 | 5.51% |
| 6 th of October city | 832 | 3.81% |
| Mansoura | 396 | 1.81% |
| Suez | 341 | 1.56% |
| Port Said | 316 | 1.45% |
| Tanta | 297 | 1.36% |
| Zagazig | 245 | 1.12% |
| Asyut | 244 |
职位类别分布(Top 10)
| 职位数量 | 占比 | |
|---|---|---|
| IT/Software Development | 5,762 | 26.37% |
| Engineering | 3,403 | 15.58% |
| Customer Service/Support | 2,915 | 13.35% |
| Marketing | 2,589 | 11.85% |
| Sales/Retail/Business Development | 1,997 | 9.14% |
| Creative/Design | 1,712 | 7.84% |
| Quality Assurance/Quality Control | 474 | 2.17% |
| Administration | 458 | 2.10% |
| Editorial/Writing | 458 | 2.10% |
| Installation/Maintenance/Repair | 287 |
行业分布(Top 10)
| 职位数量 | 占比 | |
|---|---|---|
| Computer Software | 2,824 | 12.92% |
| Information Technology Services | 2,029 | 9.29% |
| Advertising and PR Services | 1,108 | 5.07% |
| Telecommunications Services | 1,021 | 4.67% |
| Computer/IT Services | 976 | 4.47% |
| Marketing and Advertising | 795 | 3.64% |
| Consumer Services | 727 | 3.33% |
| Engineering Services | 692 | 3.17% |
| Education | 634 | 2.90% |
| Engineering - Mechanical or Industrial | 616 |
职业级别分布
| 职位数量 | 占比 | 累计占比 | |
|---|---|---|---|
| Experienced (Non-Manager) | 13,182 | 60.33% | 60.33% |
| Entry Level | 6,773 | 31.00% | 91.33% |
| Manager | 1,654 | 7.57% | 98.90% |
| Student | 171 | 0.78% | 99.68% |
| Senior Management (e.g. VP, CEO) | 70 | 0.32% |
经验要求分布(主要范围)
| 职位数量 | 占比 | |
|---|---|---|
| 2+ | 1,904 | 8.71% |
| 0-2 | 1,682 | 7.70% |
| 3+ | 1,587 | 7.26% |
| 1+ | 1,483 | 6.79% |
| 1-3 | 1,325 | 6.06% |
| 3-5 | 1,312 | 6.00% |
| 1-2 | 1,173 | 5.37% |
| 0-1 | 1,096 | 5.01% |
| 5+ | 1,074 | 4.91% |
| 0-3 | 1,058 |
薪酬统计分析(埃及镑)
| 最低薪酬 | 最高薪酬 | |
|---|---|---|
| 平均值 | 4,127 | 6,892 |
| 中位数 | 3,000 | 5,000 |
| 最小值 | 350 | 500 |
| 最大值 | 50,000 |
时间分布(申请数据月度统计)
| 申请数量 | 占比 | |
|---|---|---|
| 2014-01 | 287,431 | 15.50% |
| 2014-02 | 258,694 | 13.95% |
| 2014-03 | 245,781 | 13.25% |
| 2014-04 | 212,456 | 11.45% |
| 2014-05 | 198,334 | 10.69% |
| 2014-06 | 176,892 |
主要实体分布
热门职位标题(Top 15)
| 发布数量 | 类型 | |
|---|---|---|
| Sales & Marketing Agent | 124 | 销售类 |
| Software Developer | 89 | 技术类 |
| Customer Service Representative | 76 | 服务类 |
| Marketing Specialist | 68 | 营销类 |
| Sales Executive | 65 | 销售类 |
| Software Engineer | 62 | 技术类 |
| Administrative Assistant | 58 | 行政类 |
| Account Manager | 55 | 管理类 |
| Business Development Executive | 52 | 商务类 |
| Project Manager | 48 | 管理类 |
| Graphic Designer | 45 | 设计类 |
| Human Resources Specialist | 42 | 人力资源类 |
| Data Entry Clerk | 39 | 数据类 |
| Quality Control Inspector | 36 | 质量类 |
| Operations Manager | 34 |
数据集整体规模庞大,内容丰富,包含185万求职申请记录和21,850个职位信息,覆盖478个不同城市和115个行业类别。数据格式为结构化CSV文件,包含完整的时间序列信息(2014年全年数据)和详细的职位描述信息。所有字段完整性均达到100%,确保了数据的可靠性和分析结果的准确性。数据集特别强调薪酬信息的详细记录,为薪酬预测和市场分析提供了宝贵的基础数据。
数据优势
本数据集在多个维度展现出显著优势,为各种应用场景提供了强大的数据支撑。
数据集特别突出的优势在于其包含完整的原始数据内容。除了结构化的元数据信息外,还提供了详细的职位描述文本,这些文本以HTML格式存储,包含了雇主的完整招聘要求、职位职责、任职资格等详细信息。这种完整原始文件的提供使得数据集不仅适用于元数据分析,更支持基于内容的推荐算法、文本挖掘、自然语言处理等高级应用。用户可以直接利用这些原始文本进行语义分析、关键词提取、情感分析等深度应用,无需额外的数据采集工作。
此外,数据集的高质量标注信息也是其重要优势之一。每个职位都经过精确的分类标注,包括职位类别、行业归属、薪酬范围、经验要求等关键信息的准确标识。这种高质量的标注为监督学习算法提供了理想的训练基础,特别适合用于职位分类、薪酬预测、匹配推荐等机器学习任务。标注质量的可靠性确保了算法训练的准确性和实用性。
数据样例
以下展示了数据集的多样性特征,涵盖了不同类型、时间段和维度的样例。需要说明的是,由于原始职位描述内容较长且包含完整的HTML格式文本,本文章中无法完整展示所有原始描述,但实际数据集中包含了这些完整的原始文件可供分析使用。
求职申请数据样例
| 用户ID | 职位ID | 申请时间 | |
|---|---|---|---|
| ba7b8f17 | 846d013c | 516e4ed | 2014-01-01 07:27:52 |
| 30e1ae86 | 9d5e32c5 | 516e4ed | 2014-01-01 08:20:42 |
| d829a6b7 | eb26a291 | 516e4ed | 2014-01-01 10:30:37 |
| 3f985f37 | 7b5e68a8 | 516e4ed | 2014-01-01 10:55:07 |
| 27e1695 | 76fa79b1 | 516e4ed | 2014-01-01 11:00:26 |
| 93e37a7c | 4eca74a6 | 516e4ed | 2014-01-01 12:11:46 |
| 54431008 | d90a6dc0 | 516e4ed | 2014-01-01 13:01:37 |
| 5a50ec24 | 5ed37575 | 516e4ed | 2014-01-01 13:11:13 |
| 9ff7d2aa | 5c9bfeaa | 516e4ed | 2014-01-01 14:15:29 |
| b5d1a2a9 | ca3f31ac | 516e4ed |
职位发布数据样例
样例1:技术类职位(开罗)
职位信息: 初级软件开发工程师
-
城市: Cairo
-
类别: IT/Software Development
-
行业: Computer Software
-
薪酬范围: 2,000-2,500 埃及镑/月
-
经验要求: 2年
-
职业级别: Entry Level
-
职位描述: 包含详细的软件开发技能要求、.NET框架知识、数据库技能等完整描述
样例2:销售类职位(开罗)
职位信息: 销售与营销代理
-
城市: Cairo
-
类别: Sales/Retail/Business Development
-
行业: Telecommunications Services
-
薪酬范围: 2,000-3,500 埃及镑/月
-
经验要求: 0-1年
-
职业级别: Entry Level
-
职位描述: 包含电话销售技能、沟通能力、英语水平等要求
样例3:工程类职位(亚历山大)
职位信息: 电气维护工程师
-
城市: Alexandria
-
类别: Engineering
-
行业: Food and Beverage Production
-
薪酬范围: 5,000-8,000 埃及镑/月
-
经验要求: 1-3年
-
职业级别: Experienced (Non-Manager)
-
职位描述: 详细的工程技术要求、维护技能、TPM方法论等
样例4:客户服务类职位(开罗)
职位信息: 德国培训协调员
-
城市: Cairo
-
类别: Customer Service/Support
-
行业: Translation and Localization
-
薪酬范围: 1,000-5,000 埃及镑/月
-
经验要求: 0-2年
-
职业级别: Entry Level
-
职位描述: 多语言技能要求、HR协调经验、培训协调能力
样例5:管理类职位(开罗)
职位信息: 高级软件工程师
-
城市: Cairo
-
类别: IT/Software Development
-
行业: Computer Software
-
薪酬范围: 3,500-6,000 埃及镑/月
-
经验要求: 2年以上
-
职业级别: Experienced (Non-Manager)
-
职位描述: 高级编程技能、系统设计能力、团队领导经验
样例6:金融类职位(6月10日城)
职位信息: 电子支付系统管理员
-
城市: 6 th of October city
-
类别: IT/Software Development
-
行业: Computer Software
-
薪酬范围: 3,000-5,000 埃及镑/月
-
经验要求: 1-3年
-
职业级别: Experienced (Non-Manager)
-
职位描述: 银行系统经验、交易处理技能、故障排除能力
样例7:工程类职位(开罗)
职位信息: 工艺工程师
-
城市: Cairo
-
类别: Engineering
-
行业: Chemicals/Petro-Chemicals
-
薪酬范围: 10,000-15,000 埃及镑/月
-
经验要求: 5年以上
-
职业级别: Experienced (Non-Manager)
-
职位描述: 石油化工行业经验、工艺设计、项目管理能力
样例8:技术支持类职位(开罗)
职位信息: 应用支持工程师
-
城市: Cairo
-
类别: IT/Software Development
-
行业: Telecommunications Services
-
薪酬范围: 2,000-3,500 埃及镑/月
-
经验要求: 1-2年
-
职业级别: Entry Level
-
职位描述: 系统运维经验、数据库技能、客户支持能力
样例9:人力资源类职位(开罗)
职位信息: IT管理员
-
城市: Cairo
-
类别: IT/Software Development
-
行业: Retail
-
薪酬范围: 3,000-5,000 埃及镑/月
-
经验要求: 3-5年
-
职业级别: Manager
-
职位描述: 零售管理系统经验、IT支持技能、团队管理能力
样例10:制造业职位(亚历山大)
职位信息: 操作工程师
-
城市: Alexandria
-
类别: Engineering
-
行业: Chemicals/Petro-Chemicals
-
薪酬范围: 8,000-12,000 埃及镑/月
-
经验要求: 3年
-
职业级别: Experienced (Non-Manager)
-
职位描述: 炼油厂操作经验、工艺流程知识、安全管理能力
这些样例展示了数据集的多样性特征,涵盖了不同地理位置(开罗、亚历山大、6月10日城等)、不同行业类别(软件开发、电信、制造业、金融等)、不同职业级别(入门级、经验级、管理级)、不同薪酬范围(1,000-15,000埃及镑)、不同经验要求(0-5年以上)等多个维度的丰富内容,充分体现了中东地区就业市场的多样性和复杂性。实际数据集中每个职位都包含完整的HTML格式职位描述文本,为基于内容的分析和应用提供了丰富的原始材料。
应用场景
智能人才匹配与推荐系统开发
基于Wuzzuf数据集构建的智能推荐系统能够实现求职者和职位之间的精准匹配。通过分析用户的申请历史、偏好行为和成功匹配模式,系统可以学习用户的职业倾向和求职偏好,为其推荐最合适的职位机会。数据集提供的丰富特征维度包括地理位置、薪酬范围、职业类别、行业归属、经验要求等,这些信息构成了推荐算法的核心特征空间。机器学习算法可以通过分析成功匹配的案例,识别出影响匹配质量的关键因素,如薪酬匹配度、地理距离、职业发展路径等。同时,基于用户行为的协同过滤方法可以利用相似用户的申请模式,为新用户提供个性化推荐。推荐系统还可以结合时间序列分析,根据市场趋势和季节性变化调整推荐策略,提高推荐的时效性和准确性。
人力资源市场分析与薪酬研究
本数据集为深入的人力资源市场分析提供了全面的数据基础。通过分析185万求职申请记录,可以识别出不同职业类别的供需关系变化趋势,了解各类人才的稀缺程度和市场竞争激烈程度。薪酬分析是数据集的重要应用领域,通过对21,850个职位的薪酬数据进行统计分析,可以构建不同行业、不同地区、不同经验水平的薪酬基准模型。这些模型对于企业制定薪酬策略、个人职业规划具有重要参考价值。数据分析还可以揭示薪酬与职业发展路径的关系,帮助研究人员理解不同职业的发展前景和薪酬增长潜力。此外,通过对地理分布的分析,可以识别出人才流动的热点区域和趋势,为城市规划和人才政策制定提供数据支撑。
机器学习算法训练与优化
数据集为各类机器学习算法的训练提供了理想的训练环境,特别是在自然语言处理、推荐算法、分类预测等领域。职位描述的文本数据包含了丰富的语义信息,支持文本挖掘、关键词提取、语义分析等NLP任务。研究人员可以利用这些文本数据训练词向量模型、文本分类器、情感分析器等,为构建智能招聘系统奠定技术基础。职位匹配算法是另一个重要的应用方向,通过分析用户申请行为和成功匹配案例,可以训练出高效的匹配模型。薪酬预测算法也是数据集的重要应用场景,利用职位的各类特征和市场的历史数据,可以构建准确的薪酬预测模型。此外,数据集还可以用于异常检测算法训练,识别异常的申请行为或职位信息,提高平台的安全性和可靠性。
人才流动趋势与经济指标研究
通过分析时间序列数据,研究人员可以深入了解中东地区的人才流动规律和就业市场周期性变化。数据集包含了完整的时间信息,支持对不同时期的求职活动、职位发布、薪酬水平等指标进行对比分析。这种时间序列分析有助于识别就业市场的季节性规律、周期性波动和长期趋势,为政策制定者和企业决策者提供有价值的市场情报。地理分析是另一个重要应用方向,通过分析不同城市的人才供需状况,可以绘制出中东地区的人才热力图,为人才引进、区域发展规划提供科学依据。研究人员还可以通过分析行业分布的变化趋势,识别新兴行业的崛起和传统行业的衰落,为投资决策和产业政策制定提供参考。
商业智能与战略决策支持
对于招聘平台、企业人力资源部门和咨询机构而言,本数据集提供了强大的商业智能支持。通过对用户行为数据的深度分析,可以优化平台的推荐算法、改善用户体验、提高匹配成功率。企业可以利用薪酬分析结果制定更具竞争力的薪酬策略,通过分析竞争对手的招聘需求优化人才招聘计划。数据集还可以用于市场细分分析,识别不同用户群体的特征和需求,为精准营销和产品优化提供指导。基于用户申请模式的分析可以帮助企业预测人才供给趋势,提前做好人才储备和培养计划。此外,数据集还可以用于评估市场进入策略,为希望在埃及或中东地区扩展业务的企业提供市场情报支持。
教育与职业规划指导应用
数据集在教育和职业规划领域具有重要应用价值。通过分析不同职业类别的发展前景、薪酬水平和技能要求,可以为学生和求职者提供科学的职业指导建议。高校可以利用这些数据了解不同专业的就业前景,优化专业设置和课程内容设计。职业培训机构可以基于市场需求分析调整培训方向,提高培训的针对性和有效性。数据集还可以用于构建职业发展路径模型,帮助个人制定长期的职业发展规划。通过分析成功求职者的特征和路径,可以为求职技能培训和职业指导提供实践参考。这种基于真实数据的职业规划应用能够显著提高规划的准确性和实用性,为个人职业发展提供有力支持。
结尾
Wuzzuf埃及求职平台数据集作为中东地区最大规模的在线招聘数据资源,以其185万求职申请数据和21,850职位信息的庞大规模,为人力资源市场研究、人工智能算法训练和商业应用开发提供了无与伦比的数据基础。数据集的完整性和多样性特征使其成为理解中东地区人才市场动态、构建智能招聘系统、开发人力资源解决方案的核心资源。
数据集的核心价值体现在其包含完整的原始文件内容这一重要优势上。除了结构化的元数据外,每个职位都包含了详细的HTML格式职位描述文本,这些原始内容为基于内容的推荐算法、自然语言处理应用、文本挖掘分析等高级应用提供了丰富的材料。这种完整原始文件的提供使得数据集不仅适用于统计分析,更支持深度的机器学习和人工智能应用。
数据集的可应用性和创新点体现在多个层面。首先是大规模数据为机器学习算法训练提供的统计保障,确保模型的泛化能力和预测准确性。其次是多维度特征空间为复杂算法提供了丰富的训练素材,支持个性化推荐、精准匹配、薪酬预测等高精度应用。再次是时间序列完整性为时序分析和趋势预测提供了理想的基础,支持人力资源规划和市场预测应用。最后是地理和行业覆盖的全面性为区域分析和跨行业研究提供了广阔的应用空间。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:




