chmwang

verify-tag1470条员工流失与人力资源画像全量数据集-覆盖年龄部门岗位薪酬加班差旅满意度绩效培训年限等35字段的离职预测机器学习建模与组织分析样本数据资源

7.9

已售 0
222.63KB

数据标识:D17775374870789292

发布时间:2026/04/30

# 员工流失与人力资源画像全量数据集分析

## 引言与背景

员工流失分析是人力资源管理、组织行为研究和企业经营决策中的重要主题。本文基于 WA_Fn-UseC_-HR-Employee-Attrition.csv 的全量数据进行整理与分析,该数据集共包含 1470 条员工级记录和 35 个字段,覆盖员工年龄、差旅频率、部门、岗位角色、薪酬指标、加班状态、满意度评分、绩效评分、培训次数、总工作年限、在司年限以及是否流失等内容。数据以单一 CSV 表格文件形式提供,核心内容为结构化元数据和离职标签,不包含图片、音频、视频、简历全文或其他外部原始文件,也不包含额外标注文件;其中 Attrition 字段可以作为明确的监督学习目标标签,用于区分员工是否发生流失。由于该数据同时呈现员工个人画像、岗位结构、组织环境感受与职业发展变量,因此既能支持科研场景中的员工流失机制研究,也能服务于算法训练、风险识别、人才保留策略评估和企业人力资源分析流程建设。

## 数据基本信息

该数据集包含 1470 条记录、35 个字段,文件格式为 CSV。全量检查显示,35 个字段均无缺失值,整体完整率为 100.00%。其中,流失员工记录为 237 条,占比 16.12%;未流失员工记录为 1233 条,占比 83.88%。员工平均年龄为 36.92 岁,月收入中位数为 4,919,平均在司年限为 7.01 年。

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
| --- | --- | --- | --- | --- |
| Age | 数值 | 员工年龄 | 41 | 100.00% 完整 / 0.00% 缺失 |
| Attrition | 字符串/分类 | 是否发生员工流失,Yes 表示已流失,No 表示未流失 | Yes | 100.00% 完整 / 0.00% 缺失 |
| BusinessTravel | 字符串/分类 | 商务差旅频率 | Travel_Rarely | 100.00% 完整 / 0.00% 缺失 |
| DailyRate | 数值 | 日薪或日费率指标 | 1102 | 100.00% 完整 / 0.00% 缺失 |
| Department | 字符串/分类 | 所属部门 | Sales | 100.00% 完整 / 0.00% 缺失 |
| DistanceFromHome | 数值 | 通勤距离或居住地到工作地点距离 | 1 | 100.00% 完整 / 0.00% 缺失 |
| Education | 数值 | 教育程度编码 | 2 | 100.00% 完整 / 0.00% 缺失 |
| EducationField | 字符串/分类 | 教育专业领域 | Life Sciences | 100.00% 完整 / 0.00% 缺失 |
| EmployeeCount | 数值 | 员工计数字段,样本中为固定值 | 1 | 100.00% 完整 / 0.00% 缺失 |
| EmployeeNumber | 数值 | 员工编号,用于区分记录 | 1 | 100.00% 完整 / 0.00% 缺失 |
| EnvironmentSatisfaction | 数值 | 工作环境满意度评分 | 2 | 100.00% 完整 / 0.00% 缺失 |
| Gender | 字符串/分类 | 性别分类 | Female | 100.00% 完整 / 0.00% 缺失 |
| HourlyRate | 数值 | 小时费率指标 | 94 | 100.00% 完整 / 0.00% 缺失 |
| JobInvolvement | 数值 | 工作投入度评分 | 3 | 100.00% 完整 / 0.00% 缺失 |
| JobLevel | 数值 | 岗位层级 | 2 | 100.00% 完整 / 0.00% 缺失 |
| JobRole | 字符串/分类 | 岗位角色 | Sales Executive | 100.00% 完整 / 0.00% 缺失 |
| JobSatisfaction | 数值 | 工作满意度评分 | 4 | 100.00% 完整 / 0.00% 缺失 |
| MaritalStatus | 字符串/分类 | 婚姻状态 | Single | 100.00% 完整 / 0.00% 缺失 |
| MonthlyIncome | 数值 | 月收入 | 5993 | 100.00% 完整 / 0.00% 缺失 |
| MonthlyRate | 数值 | 月费率指标 | 19479 | 100.00% 完整 / 0.00% 缺失 |
| NumCompaniesWorked | 数值 | 过往任职公司数量 | 8 | 100.00% 完整 / 0.00% 缺失 |
| Over18 | 字符串/分类 | 是否年满 18 岁 | Y | 100.00% 完整 / 0.00% 缺失 |
| OverTime | 字符串/分类 | 是否加班 | Yes | 100.00% 完整 / 0.00% 缺失 |
| PercentSalaryHike | 数值 | 薪资涨幅百分比 | 11 | 100.00% 完整 / 0.00% 缺失 |
| PerformanceRating | 数值 | 绩效评分 | 3 | 100.00% 完整 / 0.00% 缺失 |
| RelationshipSatisfaction | 数值 | 关系满意度评分 | 1 | 100.00% 完整 / 0.00% 缺失 |
| StandardHours | 数值 | 标准工时 | 80 | 100.00% 完整 / 0.00% 缺失 |
| StockOptionLevel | 数值 | 股票期权等级 | 0 | 100.00% 完整 / 0.00% 缺失 |
| TotalWorkingYears | 数值 | 总工作年限 | 8 | 100.00% 完整 / 0.00% 缺失 |
| TrainingTimesLastYear | 数值 | 上一年度培训次数 | 0 | 100.00% 完整 / 0.00% 缺失 |
| WorkLifeBalance | 数值 | 工作生活平衡评分 | 1 | 100.00% 完整 / 0.00% 缺失 |
| YearsAtCompany | 数值 | 在本公司工作年限 | 6 | 100.00% 完整 / 0.00% 缺失 |
| YearsInCurrentRole | 数值 | 当前岗位任职年限 | 4 | 100.00% 完整 / 0.00% 缺失 |
| YearsSinceLastPromotion | 数值 | 距离上次晋升年限 | 0 | 100.00% 完整 / 0.00% 缺失 |
| YearsWithCurrManager | 数值 | 与当前经理共事年限 | 5 | 100.00% 完整 / 0.00% 缺失 |

### 离职标签分布

| Attrition | 记录数量 | 占比 | 累计占比 |
| --- | --- | --- | --- |
| No | 1233 | 83.88% | 83.88% |
| Yes | 237 | 16.12% | 100.00% |

### 部门分布

| 部门 | 记录数量 | 占比 | 累计占比 |
| --- | --- | --- | --- |
| Research & Development | 961 | 65.37% | 65.37% |
| Sales | 446 | 30.34% | 95.71% |
| Human Resources | 63 | 4.29% | 100.00% |

### 岗位角色分布

| 岗位角色 | 记录数量 | 占比 | 累计占比 |
| --- | --- | --- | --- |
| Sales Executive | 326 | 22.18% | 22.18% |
| Research Scientist | 292 | 19.86% | 42.04% |
| Laboratory Technician | 259 | 17.62% | 59.66% |
| Manufacturing Director | 145 | 9.86% | 69.52% |
| Healthcare Representative | 131 | 8.91% | 78.44% |
| Manager | 102 | 6.94% | 85.37% |
| Sales Representative | 83 | 5.65% | 91.02% |
| Research Director | 80 | 5.44% | 96.46% |
| Human Resources | 52 | 3.54% | 100.00% |

### 差旅频率分布

| 差旅频率 | 记录数量 | 占比 | 累计占比 |
| --- | --- | --- | --- |
| Travel_Rarely | 1043 | 70.95% | 70.95% |
| Travel_Frequently | 277 | 18.84% | 89.80% |
| Non-Travel | 150 | 10.20% | 100.00% |

### 加班状态分布

| 是否加班 | 记录数量 | 占比 | 累计占比 |
| --- | --- | --- | --- |
| No | 1054 | 71.70% | 71.70% |
| Yes | 416 | 28.30% | 100.00% |

### 年龄分布

| 年龄区间 | 记录数量 | 占比 | 累计占比 |
| --- | --- | --- | --- |
| 18-25岁 | 123 | 8.37% | 8.37% |
| 26-35岁 | 606 | 41.22% | 49.59% |
| 36-45岁 | 468 | 31.84% | 81.43% |
| 46-55岁 | 226 | 15.37% | 96.80% |
| 56岁及以上 | 47 | 3.20% | 100.00% |

### 月收入分布

| 月收入区间 | 记录数量 | 占比 | 累计占比 |
| --- | --- | --- | --- |
| 3000以下 | 395 | 26.87% | 26.87% |
| 3000-5999 | 519 | 35.31% | 62.18% |
| 6000-9999 | 275 | 18.71% | 80.88% |
| 10000-14999 | 148 | 10.07% | 90.95% |
| 15000及以上 | 133 | 9.05% | 100.00% |

### 教育专业领域分布

| 教育领域 | 记录数量 | 占比 | 累计占比 |
| --- | --- | --- | --- |
| Life Sciences | 606 | 41.22% | 41.22% |
| Medical | 464 | 31.56% | 72.79% |
| Marketing | 159 | 10.82% | 83.61% |
| Technical Degree | 132 | 8.98% | 92.59% |
| Other | 82 | 5.58% | 98.16% |
| Human Resources | 27 | 1.84% | 100.00% |

### 关键数值字段范围

| 字段名称 | 最小值 | 中位数 | 平均值 | 最大值 |
| --- | --- | --- | --- | --- |
| Age | 18 | 36 | 36.92 | 60 |
| DailyRate | 102 | 802 | 802.49 | 1,499 |
| DistanceFromHome | 1 | 7 | 9.19 | 29 |
| Education | 1 | 3 | 2.91 | 5 |
| EmployeeCount | 1 | 1 | 1 | 1 |
| EmployeeNumber | 1 | 1,020 | 1,025 | 2,068 |
| EnvironmentSatisfaction | 1 | 3 | 2.72 | 4 |
| HourlyRate | 30 | 66 | 65.89 | 100 |
| JobInvolvement | 1 | 3 | 2.73 | 4 |
| JobLevel | 1 | 2 | 2.06 | 5 |
| JobSatisfaction | 1 | 3 | 2.73 | 4 |
| MonthlyIncome | 1,009 | 4,919 | 6,503 | 19,999 |
| MonthlyRate | 2,094 | 14,236 | 14,313 | 26,999 |
| NumCompaniesWorked | 0 | 2 | 2.69 | 9 |
| PercentSalaryHike | 11 | 14 | 15.21 | 25 |
| PerformanceRating | 3 | 3 | 3.15 | 4 |
| RelationshipSatisfaction | 1 | 3 | 2.71 | 4 |
| StandardHours | 80 | 80 | 80 | 80 |
| StockOptionLevel | 0 | 1 | 0.79 | 3 |
| TotalWorkingYears | 0 | 10 | 11.28 | 40 |
| TrainingTimesLastYear | 0 | 3 | 2.8 | 6 |
| WorkLifeBalance | 1 | 3 | 2.76 | 4 |
| YearsAtCompany | 0 | 5 | 7.01 | 40 |
| YearsInCurrentRole | 0 | 3 | 4.23 | 18 |
| YearsSinceLastPromotion | 0 | 1 | 2.19 | 15 |
| YearsWithCurrManager | 0 | 3 | 4.12 | 17 |

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
| --- | --- | --- |
| 字段维度丰富 | 数据包含 35 个字段,覆盖员工基本属性、岗位信息、薪酬水平、差旅、加班、满意度、绩效、培训和职业年限等多个维度。 | 可用于构建更完整的员工画像,支持多变量建模、分群分析和组织诊断。 |
| 标签明确 | Attrition 字段直接标识员工是否流失,其中流失样本 237 条、未流失样本 1233 条。 | 适合训练离职预测模型,也便于评估分类算法在不均衡标签场景下的表现。 |
| 完整性高 | 全量数据检查显示所有字段缺失率均为 0.00%,无需复杂补全即可进入统计分析或模型训练环节。 | 降低数据清洗成本,提升实验复现效率,适合教学、演示和快速原型验证。 |
| 业务解释性强 | 加班、满意度、收入、岗位层级、晋升年限和在司年限等字段均具有直接的人力资源管理含义。 | 模型结果更容易转化为人才保留策略、部门管理优化和员工体验改进建议。 |
| 结构化元数据清晰 | 数据以单一 CSV 文件提供,不包含图片、音频、视频等外部原始文件,也不包含敏感正文材料。 | 便于导入 BI、统计软件和机器学习平台,适合标准化数据产品交付。 |

## 数据样例

该数据集为结构化表格数据集,样例部分展示的是员工级元数据样例,重点体现流失状态、部门、岗位、差旅、加班、收入和工作年限等维度的差异。由于数据集中不包含图片、音频、视频、简历全文或其他外部原始文件,因此本文不展示文件列表样例,而是通过多条员工记录展示数据的主要类别和取值多样性。

| Age | Attrition | BusinessTravel | Department | DistanceFromHome | EducationField | Gender | JobRole | JobSatisfaction | MaritalStatus | MonthlyIncome | OverTime | TotalWorkingYears | YearsAtCompany |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| 41 | Yes | Travel_Rarely | Sales | 1 | Life Sciences | Female | Sales Executive | 4 | Single | 5993 | Yes | 8 | 6 |
| 30 | Yes | Travel_Frequently | Research & Development | 5 | Medical | Female | Laboratory Technician | 2 | Single | 2422 | No | 4 | 3 |
| 49 | No | Travel_Frequently | Research & Development | 8 | Life Sciences | Male | Research Scientist | 2 | Married | 5130 | No | 10 | 10 |
| 48 | No | Travel_Rarely | Research & Development | 6 | Life Sciences | Male | Healthcare Representative | 3 | Single | 4240 | No | 19 | 2 |
| 25 | No | Travel_Rarely | Sales | 18 | Life Sciences | Male | Sales Executive | 3 | Married | 6232 | No | 6 | 3 |
| 25 | No | Travel_Rarely | Research & Development | 7 | Medical | Male | Research Scientist | 4 | Married | 2889 | No | 2 | 2 |
| 24 | Yes | Travel_Frequently | Research & Development | 7 | Life Sciences | Female | Laboratory Technician | 3 | Married | 2886 | Yes | 6 | 6 |
| 37 | No | Travel_Rarely | Research & Development | 1 | Life Sciences | Female | Manufacturing Director | 2 | Married | 6447 | No | 8 | 6 |
| 41 | No | Non-Travel | Research & Development | 2 | Other | Female | Healthcare Representative | 3 | Single | 6811 | Yes | 10 | 8 |
| 46 | No | Travel_Rarely | Sales | 3 | Marketing | Male | Manager | 3 | Married | 17465 | No | 23 | 12 |
| 34 | No | Travel_Rarely | Sales | 14 | Technical Degree | Female | Sales Representative | 3 | Divorced | 2579 | Yes | 8 | 8 |
| 53 | No | Travel_Rarely | Research & Development | 2 | Medical | Male | Research Director | 2 | Single | 16598 | No | 35 | 9 |
| 44 | No | Travel_Rarely | Human Resources | 1 | Life Sciences | Female | Human Resources | 4 | Divorced | 3195 | Yes | 8 | 2 |
| 35 | No | Travel_Frequently | Sales | 1 | Marketing | Female | Sales Executive | 3 | Single | 8789 | No | 10 | 10 |
| 36 | No | Travel_Rarely | Research & Development | 3 | Life Sciences | Female | Laboratory Technician | 4 | Divorced | 2835 | No | 7 | 1 |
| 37 | No | Travel_Rarely | Human Resources | 8 | Other | Male | Human Resources | 2 | Divorced | 4071 | No | 19 | 10 |

## 应用场景

### 员工流失预测与风险预警模型训练
该数据集最核心的应用场景是构建员工流失预测模型。由于 Attrition 字段直接给出了是否流失的标签,研究者和数据团队可以将年龄、部门、岗位、月收入、加班状态、差旅频率、满意度评分、培训次数、工作年限、晋升年限等字段作为输入特征,训练逻辑回归、随机森林、梯度提升树、XGBoost、神经网络等分类模型,并比较准确率、召回率、F1 值、AUC 等指标。在企业场景中,模型可以被用于识别潜在离职风险较高的群体,帮助人力资源部门提前开展沟通、激励、岗位调整或管理干预。因为数据为结构化元数据,不依赖文本简历或访谈材料,所以建模流程更容易标准化,也适合用于教学实验、算法评测和离职风险评分系统的原型验证。

### 人力资源画像与组织结构分析
该数据集能够支持围绕部门、岗位角色、薪酬区间、教育背景、差旅频率和在司年限的人力资源画像分析。分析人员可以统计不同部门的岗位构成、不同岗位的收入区间、不同教育领域员工的职业分布,以及加班、满意度和流失状态之间的关系,从而识别组织结构中可能存在的风险点和差异化管理需求。例如,团队可以比较销售、研发和人力资源部门在流失率、平均收入、岗位层级和培训次数方面的差异,也可以观察高频差旅或长期未晋升员工是否呈现更高的流失倾向。此类分析能够为招聘规划、岗位体系优化、薪酬策略评估和员工关怀方案设计提供数据支持,并帮助管理者从整体组织视角理解人才状态。

### 员工体验、满意度与保留策略研究
数据中的工作环境满意度、工作满意度、关系满意度、工作投入度和工作生活平衡等字段,为员工体验研究提供了较好的结构化基础。研究者可以围绕满意度评分与离职标签之间的关系开展统计检验、分组对比和模型解释,进一步判断员工体验因素在流失预测中的作用强弱。企业内部也可以使用该类数据设计保留策略评估框架,例如分析不同岗位层级、婚姻状态、加班状态或收入区间员工的满意度差异,再结合流失情况制定更有针对性的管理动作。由于字段含义直观且具有现实管理意义,分析结果能够较快转化为组织沟通、经理培训、福利优化、晋升机制调整和工作负荷管理等具体方案。

### 特征工程、分类算法教学与数据产品验证
这份数据集也非常适合用于数据科学教学、机器学习课程和数据产品流程验证。它同时包含分类字段、连续数值字段、等级评分字段和二分类目标变量,能够完整演示类别编码、标准化、训练集测试集划分、类别不平衡处理、交叉验证、特征重要度解释和模型部署前评估等流程。对于学习者而言,数据主题贴近真实企业管理场景,比抽象示例更容易理解;对于数据平台或自动化分析系统而言,该数据可以用于验证 CSV 导入、字段识别、自动摘要、可视化生成、质量报告和模型训练流水线是否稳定。因为全量数据没有缺失值,流程验证时可以更专注于业务建模、变量解释和系统集成效果,而不必把过多精力放在复杂的数据修复上。

## 结尾

总体来看,这是一份结构清晰、标签明确、字段覆盖较完整的员工流失与人力资源画像数据集。它以 1470 条员工级记录呈现组织管理、岗位结构、薪酬、加班、满意度和职业发展等多方面信息,能够支持离职预测、组织画像、员工体验研究、分类算法训练和数据产品验证等多类任务。数据本身为标准 CSV 结构化元数据,不包含图片、音频、视频或外部原始文件,因此更适合快速导入分析工具并形成可复用的建模流程。对于需要开展人力资源分析、人才保留策略研究或机器学习分类实验的使用者而言,该数据集具有较高的可应用性和教学价值,有需要可私信获取更多信息。

看了又看

数据加载中

验证报告

以下为卖家选择提供的数据验证报告:

data icon
1470条员工流失与人力资源画像全量数据集-覆盖年龄部门岗位薪酬加班差旅满意度绩效培训年限等35字段的离职预测机器学习建模与组织分析样本数据资源
7.9
已售 0
222.63KB
申请报告