第11章 德国信用数据分析

本章包含以下主要内容。

  • 转换数据。
  • 可视化分类数据。
  • 识别违约的判别分析。
  • 划分数据和ROC。
  • 拟合逻辑回归模型。
  • 决策树和决策规则。
  • 德国信用数据决策树。

贷款对借款人来说是一笔债务,而对银行来说却是一笔资产!银行肯定喜欢只提供贷款,而不提供储蓄方案,比如储蓄账户、定期存款、分期存款,等等。原因很简单,因为银行必须在一段时间之后才支付客户利息,如果他们未赚到足够多的钱,那么就付不起利息。尽管银行愿意提供尽可能多的贷款,但还是存在很多原因使得银行不愿以先到先得的方式发放贷款。一个非常明显的原因就是,如果客户违约,那么银行就会得到一个为更好的客户服务的机会。然而,一个明显的问题就是,如何来定义一个更好的客户,此时分析方法在这里将会有所帮助。一个实用的数据集是德国信用数据集,它包含了代表客户是否全额偿还了贷款的最终状态以及其他一些重要的变量。

人们已经对该数据集进行了大量的分析,目前它已经成为分类问题的一个重要基准数据集。此外,该数据集已经应用于很多研究工作中,在本书编写之际,该数据集的总点击量已经达到了228 982次。读者可以从r-project网站上找到利用R软件对其进行各种角度分析的案例。下一节,我们将从RSADBE包中提取该数据集,然后对其进行简单的转换。下面是对该数据集的详细描述信息。

GC(German Credit,德国信用)数据集包含1000个分布在21个维度上的观测值。在该信用数据中,我们感兴趣的变量包括某笔贷款是良性贷款还是恶性贷款,即客户是否完全偿还了贷款金额,此状态信息保存在变量good_bad中。在该数据集中,1000个观测对象中有700个是良性贷款,而其余的则是恶性贷款。另外,该数据集中还包含了大量重要的变量数据,这些数据提供了关于客户类型的信息。此外,其他变量既包括数量性的(数值),也包括质量性(分类)的变量。数值变量包括以月份为单位的持续时间(duration)、信用额(credit)、按可支配收入的百分比计算的分期付款率(installp)、在当前居住地的居住时间(resident)、年龄(age)、在银行现有的信用额(existcr)以及申请人的家属数量(depends)。剩下的21个变量都是分类变量。 ...

Get 数据科学实战手册(R+Python)(第2版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.