引言与背景
在当今金融科技快速发展的时代,信用风险评估已成为金融机构核心竞争力的重要组成部分。准确预测借款人的违约概率不仅有助于降低金融机构的信贷损失,还能优化资源配置,提高金融服务的普惠性。本数据集包含了987,548条完整的贷款记录,涵盖了从2015年12月开始发行的各类贷款信息,为信用风险评估模型的开发与验证提供了丰富的素材。
本数据集包含了全面的贷款相关信息,包括借款人基本信息、贷款条款、信用历史、还款表现等57个字段。这些数据不仅涵盖了传统的财务指标,还包含了借款人的职业、工作年限、住房状况等多维度属性,为构建全面的信用风险评估模型提供了基础。此外,数据集中明确标注了贷款的最终状态(全额还清或违约),为有监督学习模型的训练提供了高质量的标签信息。
数据基本信息
数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性(缺失率) |
|---|---|---|---|---|
| loan_amnt | float64 | 贷款金额 | 3600.0 | 0.0% |
| term | object | 贷款期限 | 36 months | 0.0% |
| int_rate | float64 | 贷款利率 | 13.99 | 0.0% |
| grade | object | 信用等级 | C | 0.0% |
| sub_grade | object | 信用子等级 | C4 | 0.0% |
| emp_title | object | 职业头衔 | leadman | 0.0% |
| emp_length | object | 工作年限 | 10+ years | 0.0% |
| home_ownership | object | 住房所有权 | MORTGAGE | 0.0% |
| annual_inc | float64 | 年收入 | 55000.0 | 0.0% |
| verification_status | object | 收入验证状态 | Not Verified | 0.0% |
| issue_d | object | 贷款发放日期 | Dec-2015 | 0.0% |
| loan_status | object | 贷款状态 | Fully Paid | 0.0% |
| purpose | object | 贷款目的 | debt_consolidation | 0.0% |
| title | object | 贷款标题 | Debt consolidation | 0.0% |
| zip_code | object | 邮政编码 | 190xx | 0.0% |
| addr_state | object | 所在州 | PA | 0.0% |
| dti | float64 | 债务收入比 | 5.91 | 0.0% |
| delinq_2yrs | float64 | 两年内逾期次数 | 0.0 | 0.0% |
| earliest_cr_line | object | 最早信用记录日期 | Aug-2003 | 0.0% |
| fico_range_high | float64 | 最高信用评分 | 679.0 | 0.0% |
| inq_last_6mths | float64 | 最近6个月查询次数 | 1.0 | 0.0% |
| open_acc | float64 | 开放账户数 | 7.0 | 0.0% |
| pub_rec | float64 | 公共记录数 | 0.0 | 0.0% |
| revol_bal | float64 | 循环信用余额 | 2765.0 | 0.0% |
| revol_util | float64 | 循环信用利用率 | 29.7 | 0.0% |
| total_acc | float64 | 总账户数 | 13.0 | 0.0% |
| initial_list_status | object | 初始列表状态 | w | 0.0% |
| total_pymnt | float64 | 总还款金额 | 4421.72 | 0.0% |
| total_rec_int | float64 | 总利息收入 | 821.72 | 0.0% |
| total_rec_late_fee | float64 | 总滞纳金收入 | 0.0 | 0.0% |
| recoveries | float64 | 追偿金额 | 0.0 | 0.0% |
| last_pymnt_d | object | 最后还款日期 | Jan-2019 | 0.0% |
| last_pymnt_amnt | float64 | 最后还款金额 | 122.67 | 0.0% |
| last_credit_pull_d | object | 最后信用查询日期 | Mar-2019 | 0.0% |
| last_fico_range_high | float64 | 最后最高信用评分 | 564.0 | 0.0% |
| collections_12_mths_ex_med | float64 | 12个月内催收记录(不含医疗) | 0.0 | 0.0% |
| application_type | object | 申请类型 | Individual | 0.0% |
| acc_now_delinq | float64 | 当前逾期账户数 | 0.0 | 0.0% |
| tot_coll_amt | float64 | 总催收金额 | 722.0 | 0.0% |
| tot_cur_bal | float64 | 总当前余额 | 144904.0 | 0.0% |
| acc_open_past_24mths | float64 | 过去24个月新开账户数 | 4.0 | 0.0% |
| bc_open_to_buy | float64 | 可用循环信用额度 | 1506.0 | 0.0% |
| chargeoff_within_12_mths | float64 | 12个月内冲销记录 | 0.0 | 0.0% |
| delinq_amnt | float64 | 逾期金额 | 0.0 | 0.0% |
| mort_acc | float64 | 抵押贷款账户数 | 1.0 | 0.0% |
| mths_since_recent_inq | float64 | 最近查询至今月数 | 4.0 | 0.0% |
| num_accts_ever_120_pd | float64 | 曾经逾期120天以上的账户数 | 2.0 | 0.0% |
| num_rev_tl_bal_gt_0 | float64 | 有余额的循环账户数 | 4.0 | 0.0% |
| num_tl_120dpd_2m | float64 | 最近2个月逾期120天以上的账户数 | 0.0 | 0.0% |
| num_tl_30dpd | float64 | 逾期30天以上的账户数 | 0.0 | 0.0% |
| num_tl_op_past_12m | float64 | 过去12个月新开账户数 | 3.0 | 0.0% |
| pct_tl_nvr_dlq | float64 | 从未逾期的账户百分比 | 76.9 | 0.0% |
| pub_rec_bankruptcies | float64 | 公共记录破产数 | 0.0 | 0.0% |
| tax_liens | float64 | 税务留置权数 | 0.0 | 0.0% |
| total_bal_ex_mort | float64 | 非抵押贷款总余额 | 7746.0 | 0.0% |
| disbursement_method | object | 放款方式 | Cash | 0.0% |
| debt_settlement_flag | object | 债务清算标志 | N | 0.0% |
数据分布情况
贷款状态分布
| 贷款状态 | 记录数量 | 占比 |
|---|---|---|
| Fully Paid | 790,652 | 80.06% |
| Charged Off | 196,896 | 19.94% |
贷款目的分布
| 贷款目的 | 记录数量 | 占比 |
|---|---|---|
| debt_consolidation | 581,979 | 58.93% |
| credit_card | 215,679 | 21.84% |
| home_improvement | 65,380 | 6.62% |
| other | 54,258 | 5.49% |
| major_purchase | 20,502 | 2.08% |
| medical | 10,910 | 1.10% |
| small_business | 9,722 | 0.98% |
| car | 9,468 | 0.96% |
| moving | 6,574 | 0.67% |
| vacation | 6,448 | 0.65% |
| house | 5,317 | 0.54% |
| wedding | 697 | 0.07% |
| renewable_energy | 613 | 0.06% |
| educational | 1 | 0.00% |
贷款期限分布
| 贷款期限 | 记录数量 | 占比 |
|---|---|---|
| 36 months | 735,377 | 74.46% |
| 60 months | 252,171 | 25.54% |
信用等级分布
| 信用等级 | 记录数量 | 占比 |
|---|---|---|
| C | 286,238 | 28.98% |
| B | 284,387 | 28.80% |
| A | 164,256 | 16.63% |
| D | 149,597 | 15.15% |
| E | 71,083 | 7.20% |
| F | 24,706 | 2.50% |
| G | 7,281 | 0.74% |
住房所有权分布
| 住房所有权 | 记录数量 | 占比 |
|---|---|---|
| MORTGAGE | 509,022 | 51.54% |
| RENT | 377,282 | 38.20% |
| OWN | 100,968 | 10.22% |
| ANY | 210 | 0.02% |
| OTHER | 35 | 0.00% |
| NONE | 31 | 0.00% |
收入验证状态分布
| 验证状态 | 记录数量 | 占比 |
|---|---|---|
| Source Verified | 413,222 | 41.84% |
| Not Verified | 294,755 | 29.85% |
| Verified | 279,571 | 28.31% |
数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 数据规模庞大 | 包含987,548条完整记录 | 提供足够的样本量,确保模型的泛化能力 |
| 字段维度丰富 | 涵盖57个字段,包括财务、个人、信用等多维度信息 | 支持构建全面的信用风险评估模型 |
| 标签质量高 | 明确标注贷款最终状态(全额还清或违约) | 为有监督学习模型提供可靠的训练标签 |
| 完整性好 | 所有字段缺失率均为0% | 减少数据预处理的工作量,提高模型训练效率 |
| 时效性强 | 包含从2015年开始的最新数据 | 反映当前的信用风险特征和趋势 |
| 覆盖范围广 | 包含各类贷款目的、期限和信用等级 | 适用于多种信用风险评估场景 |
数据样例
以下是从数据集中随机抽取的10条记录示例,展示了数据的多样性和完整性:
| loan_amnt | term | int_rate | grade | loan_status | purpose | annual_inc | home_ownership |
|---|---|---|---|---|---|---|---|
| 3600.0 | 36 months | 13.99 | C | Fully Paid | debt_consolidation | 55000.0 | MORTGAGE |
| 24700.0 | 36 months | 11.99 | C | Fully Paid | small_business | 65000.0 | MORTGAGE |
| 10400.0 | 60 months | 22.45 | F | Fully Paid | major_purchase | 104433.0 | MORTGAGE |
| 20000.0 | 36 months | 9.17 | B | Fully Paid | debt_consolidation | 180000.0 | MORTGAGE |
| 20000.0 | 36 months | 8.49 | B | Fully Paid | major_purchase | 85000.0 | MORTGAGE |
| 10000.0 | 36 months | 6.49 | A | Fully Paid | credit_card | 85000.0 | RENT |
| 8000.0 | 36 months | 11.48 | B | Fully Paid | credit_card | 42000.0 | MORTGAGE |
| 18000.0 | 60 months | 19.48 | E | Charged Off | debt_consolidation | 150000.0 | RENT |
| 9600.0 | 36 months | 7.49 | A | Fully Paid | credit_card | 60000.0 | MORTGAGE |
| 25000.0 | 36 months | 7.49 | A | Fully Paid | debt_consolidation | 109000.0 | MORTGAGE |
应用场景
信用风险评估模型开发
本数据集最直接的应用场景是用于开发和测试信用风险评估模型。金融机构可以基于这些数据构建预测模型,预测借款人的违约概率。通过对数据集的深入分析,可以识别出影响贷款违约的关键因素,如贷款金额、利率、期限、信用等级、借款人的收入水平、债务收入比等。基于这些因素,可以开发出逻辑回归、随机森林、梯度提升树、神经网络等多种类型的预测模型。
在实际应用中,金融机构可以将这些模型集成到信贷审批流程中,实现自动化的信用评分和风险等级划分。这不仅可以提高审批效率,减少人工干预带来的主观偏差,还能提高风险识别的准确性,降低信贷损失。此外,通过对模型的持续监测和更新,可以适应不断变化的市场环境和风险特征,保持模型的有效性。
贷款定价策略优化
基于本数据集,金融机构还可以优化贷款定价策略。贷款定价的核心是根据借款人的信用风险确定合理的利率水平,既要覆盖信用风险成本,又要保持市场竞争力。通过对数据集的分析,可以建立风险与收益之间的关系模型,根据借款人的风险等级制定差异化的定价策略。
例如,对于信用等级较高(如A、B级)的借款人,可以提供较低的利率以吸引优质客户;对于信用等级较低(如E、F、G级)的借款人,则需要提高利率以覆盖潜在的违约风险。此外,还可以根据贷款期限、贷款目的等因素进行差异化定价。通过优化定价策略,金融机构可以在控制风险的前提下,提高贷款业务的盈利能力。
客户分层与精准营销
本数据集还可以用于客户分层和精准营销。通过对借款人的基本信息、信用特征、贷款行为等进行聚类分析,可以将客户划分为不同的群体,每个群体具有相似的特征和行为模式。基于这些群体特征,可以制定针对性的营销策略,提高营销效率和效果。
例如,对于债务整合需求较高的客户群体,可以重点推广债务整合贷款产品;对于有购房装修需求的客户群体,可以推广住房装修贷款;对于信用记录良好的优质客户,可以提供更优惠的贷款条件和增值服务。通过精准营销,金融机构可以提高客户满意度,增强客户粘性,促进业务增长。
监管合规与反欺诈分析
在金融监管日益严格的背景下,本数据集还可以用于支持监管合规和反欺诈分析。通过对数据的深入挖掘,可以识别出潜在的欺诈模式和违规行为,如虚假收入证明、多头借贷、异常的还款行为等。
金融机构可以基于这些分析结果,建立反欺诈模型和监控系统,实时监测和识别欺诈风险。此外,这些数据还可以用于满足监管机构的信息披露要求,如贷款发放情况、违约率、风险集中度等。通过加强监管合规和反欺诈能力,金融机构可以降低合规风险和操作风险,保护自身和客户的利益。
金融科技创新与学术研究
对于金融科技企业和学术研究机构而言,本数据集是一个理想的研究素材。可以用于探索信用风险评估的新方法和新技术,如深度学习、自然语言处理、图神经网络等。例如,可以利用借款人的职业描述等文本信息,通过自然语言处理技术提取有价值的特征;可以利用借款人的社交网络信息(如果有),通过图神经网络建立更准确的信用评估模型。
此外,这些数据还可以用于研究宏观经济因素对信用风险的影响,如经济周期、利率变化、失业率等。通过学术研究,可以推动金融科技的创新和发展,为金融行业的数字化转型提供理论支持和技术保障。
结尾
本数据集是一个高质量、大规模的贷款违约数据集,包含了丰富的字段信息和准确的标签数据,为信用风险评估和金融风控研究提供了宝贵的资源。通过对这些数据的深入分析和应用,可以帮助金融机构提高风险识别能力,优化贷款定价策略,实现精准营销,同时也为金融科技创新和学术研究提供了重要的支持。
本数据集的核心优势在于其规模庞大、维度丰富、标签准确、完整性好,这些特点使得它成为信用风险评估领域的理想数据集。无论是金融机构、科研人员还是算法工程师,都可以从这些数据中获得有价值的 insights,推动信用风险评估技术的发展和应用。
需要注意的是,虽然本数据集包含了大量的历史数据,但在实际应用中,仍需要结合当前的市场环境和政策法规进行适当的调整和验证。此外,在使用这些数据时,应严格遵守相关的隐私保护法规,确保借款人的个人信息安全。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






