机器学习

2024-07-15 16:19| 来源: 网络整理| 查看: 265

机器学习-Sklearn-06（逻辑回归制作评分卡）学习06 3 案例：用逻辑回归制作评分卡

在银行借贷场景中，评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段，它衡量向别人借钱的人（受信人，需要融资的公司）不能如期履行合同中的还本付息责任，并让借钱给别人的人（授信人，银行等金融机构）造成经济损失的可能性。一般来说，评分卡打出的分数越高，客户的信用越好，风险越小。

这些”借钱的人“，可能是个人，有可能是有需求的公司和企业。对于企业来说，我们按照融资主体的融资用途，分别使用企业融资模型，现金流融资模型，项目融资模型等模型。而对于个人来说，我们有”四张卡“来评判个人的信用程度：A卡，B卡，C卡和F卡。而众人常说的“评分卡”其实是指A卡，又称为申请者评级模型，主要应用于相关融资类业务中新用户的主体评级，即判断金融机构是否应该借钱给一个新用户，如果这个人的风险太高，我们可以拒绝贷款。

一个完整的模型开发，需要有以下流程：在这里插入图片描述今天我们以个人消费类贷款数据，来为大家简单介绍A卡的建模和制作流程，由于时间有限，我们的核心会在”数据清洗“和“模型开发”上。模型检验与评估也非常重要，但是在今天的课中，内容已经太多，我们就不再去赘述了。

#3.1 导库，获取数据 %matplotlib inline import numpy as np import pandas as pd from sklearn.linear_model import LogisticRegression as LR #其实日常在导库的时候，并不是一次性能够知道我们要用的所有库的。通常都是在建模过程中逐渐导入需要的库。

‘’’ 在银行系统中，这个数据通常使来自于其他部门的同事的收集，因此千万别忘记抓住给你数据的人，问问她/他各个项都是什么含义。通常来说，当特征非常多的时候（比如几百个），都会有一个附带的excel或pdf文档给到你，备注了各个特征都是什么含义。这种情况下其实要一个个去看还是非常困难，所以如果特征很多，建议先做降维，具体参考“2.2.2 逻辑回归中的特征工程”。 ‘’’ data = pd.read_csv(r"D:\whole_development_of_the_stack_study\RS_Algorithm_Course\为其1年的CV课程\04机器学习-Sklearn（第三版）-解锁式学习\24630_机器学习-Sklearn（第三版）\05逻辑回归与评分卡\rankingcard.csv",index_col=0)

#3.2 探索数据与数据预处理 #观察数据类型 data.head() 在这里插入图片描述 #观察数据结构 data.shape data.info() #3.2.1 去除重复值 #去除重复值 data.drop_duplicates(inplace=True) data.info() #删除之后千万不要忘记，恢复索引 data.index = range(data.shape[0]) data.info() #3.2.2 填补缺失值 data.isnull().sum() #探索缺失值 data.info() #获取空值比例 data.isnull().sum()/data.shape[0] #data.isnull().mean() 在这里插入图片描述 data[“NumberOfDependents”].fillna(int(data[“NumberOfDependents”].mean()),inplace=True) #如果你选择的是删除那些缺失了2.5%的特征，千万记得恢复索引哟~ data.info() data.isnull().sum()/data.shape[0] def fill_missing_rf(X,y,to_fill):

"""

使用随机森林填补一个特征的缺失值的函数参数： X：要填补的特征矩阵 y：完整的，没有缺失值的标签 to_fill：字符串，要填补的那一列的名称 “”"

#构建我们的新特征矩阵和新标签 df = X.copy() fill = df.loc[:,to_fill] df = pd.concat([df.loc[:,df.columns != to_fill],pd.DataFrame(y)],axis=1) #找出我们的训练集和测试集 Ytrain = fill[fill.notnull()] Ytest = fill[fill.isnull()] Xtrain = df.iloc[Ytrain.index,:] Xtest = df.iloc[Ytest.index,:] #用随机森林回归来填补缺失值 from sklearn.ensemble import RandomForestRegressor as rfr rfr = rfr(n_estimators=100) rfr = rfr.fit(Xtrain, Ytrain) Ypredict = rfr.predict(Xtest) return Ypredict

X = data.iloc[:,1:] y = data[“SeriousDlqin2yrs”] #y = data.iloc[:,0] X.shape #y.shape 在这里插入图片描述 #=【TIME WARNING：1 min】=# y_pred = fill_missing_rf(X,y,“MonthlyIncome”)

y_pred 在这里插入图片描述 y_pred.shape data.loc[data.loc[:,“MonthlyIncome”].isnull(),“MonthlyIncome”].shape #确认我们的结果合理之后，我们就可以将数据覆盖了 data.loc[data.loc[:,“MonthlyIncome”].isnull(),“MonthlyIncome”] = y_pred data.info() #3.2.3 描述性统计处理异常值 #描述性统计 data.describe([0.01,0.1,0.25,.5,.75,.9,.99]).T 在这里插入图片描述 #异常值也被我们观察到，年龄的最小值居然有0，这不符合银行的业务需求，即便是儿童账户也要至少8岁，我们可以查看一下年龄为0的人有多少 (data[“age”] == 0).sum() #发现只有一个人年龄为0，可以判断这肯定是录入失误造成的，可以当成是缺失值来处理，直接删除掉这个样本 data = data[data[“age”] != 0] data.shape 在这里插入图片描述 #再运行描述性统计，查看年龄最小值 data.describe([0.01,0.1,0.25,.5,.75,.9,.99]).T

“”" 另外，有三个指标看起来很奇怪： “NumberOfTime30-59DaysPastDueNotWorse” “NumberOfTime60-89DaysPastDueNotWorse” “NumberOfTimes90DaysLate” 这三个指标分别是“过去两年内出现35-59天逾期但是没有发展的更坏的次数”，“过去两年内出现60-89天逾期但是没有发展的更坏的次数”,“过去两年内出现90天逾期的次数”。这三个指标，在99%的分布的时候依然是2，最大值却是98，看起来非常奇怪。一个人在过去两年内逾期35~59天98次，一年6个60天，两年内逾期98次这是怎么算出来的？我们可以去咨询业务人员，请教他们这个逾期次数是如何计算的。如果这个指标是正常的，那这些两年内逾期了98次的客户，应该都是坏客户。在我们无法询问他们情况下，我们查看一下有多少个样本存在这种异常： “”" data[data.loc[:,“NumberOfTimes90DaysLate”] > 90] 在这里插入图片描述 data[data.loc[:,“NumberOfTimes90DaysLate”] > 90].count() data.loc[:,“NumberOfTimes90DaysLate”].value_counts() #有225个样本存在这样的情况，并且这些样本，我们观察一下，标签并不都是1，他们并不都是坏客户。因此，我们基本可以判断，这些样本是某种异常，应该把它们删除。 data = data[data.loc[:,“NumberOfTimes90DaysLate”] < 90] data.shape 在这里插入图片描述 #再运行描述性统计，查看年龄最小值 data.describe([0.01,0.1,0.25,.5,.75,.9,.99]).T #恢复索引 data.index = range(data.shape[0]) data.info() #3.2.4 为什么不统一量纲，也不标准化数据分布？在描述性统计结果中，我们可以观察到数据量纲明显不统一，而且存在一部分极偏的分布，虽然逻辑回归对于数据没有分布要求，但是我们知道如果数据服从正态分布的话梯度下降可以收敛得更快。但在这里，我们不对数据进行标准化处理，也不进行量纲统一，为什么？

无论算法有什么样的规定，无论统计学中有什么样的要求，我们的最终目的都是要为业务服务。现在我们要制作评分卡，评分卡是要给业务人员们使用的基于新客户填写的各种信息为客户打分的一张卡片，而为了制作这张卡片，我们需要对我们的数据进行一个“分档”，比如说，年龄2030岁为一档，年龄3050岁为一档，月收入1W以上为一档，5000~1W为一档，每档的分数不同。

一旦我们将数据统一量纲，或者标准化了之后，数据大小和范围都会改变，统计结果是漂亮了，但是对于业务人员来说，他们完全无法理解，标准化后的年龄在0.00328-0.00467之间为一档是什么含义。并且，新客户填写的信息，天生就是量纲不统一的，我们的确可以将所有的信息录入之后，统一进行标准化，然后导入算法计算，但是最终落到业务人员手上去判断的时候，他们会完全不理解为什么录入的信息变成了一串统计上很美但实际上根本看不懂的数字。由于业务要求，在制作评分卡的时候，我们要尽量保持数据的原貌，年龄就是8~110的数字，收入就是大于0，最大值可以无限的数字，即便量纲不统一，我们也不对数据进行标准化处理。

#3.2.5 样本不均衡问题 #探索标签的分布 X = data.iloc[:,1:] y = data.iloc[:,0] y.value_counts() 在这里插入图片描述

y.value_counts() n_sample = X.shape[0] n_1_sample = y.value_counts()[1] n_0_sample = y.value_counts()[0] print(‘样本个数：{}; 1占{:.2%}; 0占{:.2%}’.format(n_sample,n_1_sample/n_sample,n_0_sample/n_sample)) 在这里插入图片描述 ‘’’ 可以看出，样本严重不均衡。虽然大家都在努力防范信用风险，但实际违约的人并不多。并且，银行并不会真的一棒子打死所有会违约的人，很多人是会还钱的，只是忘记了还款日，很多人是不愿意欠人钱的，但是当时真的很困难，资金周转不过来，所以发生逾期，但一旦他有了钱，他就会把钱换上。对于银行来说，只要你最后能够把钱还上，我都愿意借钱给你，因为我借给你就有收入（利息）。所以，对于银行来说，真正想要被判别出来的其实是”恶意违约“的人，而这部分人数非常非常少，样本就会不均衡。这一直是银行业建模的一个痛点：我们永远希望捕捉少数类。 ‘’’

#之前提到过，逻辑回归中使用最多的是上采样方法来平衡样本。 #如果报错，就在prompt安装：pip install imblearn import imblearn #imblearn是专门用来处理不平衡数据集的库，在处理样本不均衡问题中性能高过sklearn很多 #imblearn里面也是一个个的类，也需要进行实例化，fit拟合，和sklearn用法相似 from imblearn.over_sampling import SMOTE

sm = SMOTE(random_state=42) #实例化 X,y = sm.fit_resample(X,y) #返回已经上采样完毕过后的特征矩阵和标签 n_sample_ = X.shape[0] X.shape 在这里插入图片描述 y.shape pd.Series(y).value_counts()

n_1_sample = pd.Series(y).value_counts()[1] n_0_sample = pd.Series(y).value_counts()[0] print(‘样本个数：{}; 1占{:.2%}; 0占{:.2%}’.format(n_sample_,n_1_sample/n_sample_,n_0_sample/n_sample_)) 在这里插入图片描述 #3.2.6 分训练集和测试集 from sklearn.model_selection import train_test_split X = pd.DataFrame(X) y = pd.DataFrame(y) X_train, X_vali, Y_train, Y_vali = train_test_split(X,y,test_size=0.3,random_state=420)

#在建模数据中，需要将特征矩阵和标签合并在一起使用。且标签为第一列。 model_data = pd.concat([Y_train, X_train], axis=1) model_data 在这里插入图片描述 data.columns model_data.index = range(model_data.shape[0]) model_data.columns = data.columns model_data data.columns model_data.index = range(model_data.shape[0]) model_data.columns = data.columns model_data model_data.shape #训练集 #验证集 vali_data = pd.concat([Y_vali, X_vali], axis=1) vali_data.index = range(vali_data.shape[0]) vali_data.columns = data.columns vali_data 在这里插入图片描述 vali_data.shape model_data.to_csv(r"D:\whole_development_of_the_stack_study\RS_Algorithm_Course\Practical\machine_learning\05\model_data.csv") vali_data.to_csv(r"D:\whole_development_of_the_stack_study\RS_Algorithm_Course\Practical\machine_learning\05\vali_data.csv")

#3.3 分箱前面提到过，我们要制作评分卡，是要给各个特征进行分档，以便业务人员能够根据新客户填写的信息为客户打分。因此在评分卡制作过程中，一个重要的步骤就是分箱。可以说，分箱是评分卡最难，也是最核心的思路，分箱的本质，其实就是离散化连续变量，好让拥有不同属性的人被分成不同的类别（打上不同的分数），其实本质比较类似于聚类。那我们在分箱中要回答几个问题：

首先，要分多少个箱子才合适？最开始我们并不知道，但是既然是将连续型变量离散化，想也知道箱子个数必然不能太多，最好控制在十个以下。而用来制作评分卡，最好能在4~5个为最佳。我们知道，离散化连续变量必然伴随着信息的损失，并且箱子越少，信息损失越大。为了衡量特征上的信息量以及特征对预测函数的贡献，银行业定义了概念Information value(IV)：在这里插入图片描述其中N是这个特征上箱子的个数，i代表每个箱子，是这个箱内的优质客户（标签为0的客户）占整个特征中所有优质客户的比例，是这个箱子里的坏客户（就是那些会违约，标签为1的那些客户）占整个特征中所有坏客户的比例，而则写作：在这里插入图片描述这是我们在银行业中用来衡量违约概率的指标，中文叫做证据权重(weight of Evidence)，本质其实就是优质客户比上坏客户的比例的对数。WOE是对一个箱子来说的，WOE越大，代表了这个箱子里的优质客户越多。而IV是对整个特征来说的，IV代表的意义是我们特征上的信息量以及这个特征对模型的贡献，由下表来控制：在这里插入图片描述可见，IV并非越大越好，我们想要找到IV的大小和箱子个数的平衡点。箱子越多，IV必然越小，因为信息损失会非常多，所以，我们会对特征进行分箱，然后计算每个特征在每个箱子数目下的WOE值，利用IV值的曲线，找出合适的分箱个数。

其次，分箱要达成什么样的效果？我们希望不同属性的人有不同的分数，因此我们希望在同一个箱子内的人的属性是尽量相似的，而不同箱子的人的属性是尽量不同的，即业界常说的”组间差异大，组内差异小“。对于评分卡来说，就是说我们希望一个箱子内的人违约概率是类似的，而不同箱子的人的违约概率差距很大，即WOE差距要大，并且每个箱子中坏客户所占的比重（bad%）也要不同。那我们，可以使用卡方检验来对比两个箱子之间的相似性，如果两个箱子之间卡方检验的P值很大，则说明他们非常相似，那我们就可以将这两个箱子合并为一个箱子。基于这样的思想，我们总结出我们对一个特征进行分箱的步骤：在这里插入图片描述 #3.3.1 等频分箱 #分箱 model_data[“age”] #按照等频对需要分箱的列进行分箱 model_data[“qcut”], updown = pd.qcut(model_data[“age”], retbins=True, q=20)

“”" pd.qcut，基于分位数的分箱函数，本质是将连续型变量离散化只能够处理一维数据。返回箱子的上限和下限参数q：要分箱的个数参数retbins=True来要求同时返回结构为索引为样本索引，元素为分到的箱子的Series 现在返回两个值：每个样本属于哪个箱子，以及所有箱子的上限和下限 “”"

#在这里时让model_data新添加一列叫做“分箱”，这一列其实就是每个样本所对应的箱子 #dataframe[“列名”] 这个列存在的时候，就是索引，当这个列名不存在的时候，DataFrame会自动生成叫做这个列名的一个新的列 model_data.head() 在这里插入图片描述 model_data[“qcut”].value_counts() #20个箱子 #所有箱子的上限和下限 updown #20个箱子的上下界 updown.shape #统计每个分箱中0和1的数量 #这里使用了数据透视表的功能groupby

coount_y0 = model_data[model_data[“SeriousDlqin2yrs”]== 0].groupby(by=“qcut”).count()[“SeriousDlqin2yrs”]

coount_y1=model_data[model_data[“SeriousDlqin2yrs”]==1].groupby(by=“qcut”).count()[“SeriousDlqin2yrs”]

coount_y0 在这里插入图片描述 #num_bins值分别为每个区间的上界，下界，0出现的次数，1出现的次数 num_bins = [*zip(updown,updown[1:],coount_y0,coount_y1)]

#注意zip会按照最短列来进行结合 num_bins 在这里插入图片描述 #3.3.2【选学】确保每个箱中都有0和1 #确保每个箱中都有0和1 for i in range(20): #如果第一个组没有包含正样本或负样本，向后合并 if 0 in num_bins[0][2:]: num_bins[0:2] = [( num_bins[0][0], num_bins[1][1], num_bins[0][2]+num_bins[1][2], num_bins[0][3]+num_bins[1][3])] continue

"""

合并了之后，第一行的组是否一定有两种样本了呢？不一定如果原本的第一组和第二组都没有包含正样本，或者都没有包含负样本，那即便合并之后，第一行的组也还是没有包含两种样本所以我们在每次合并完毕之后，还需要再检查，第一组是否已经包含了两种样本这里使用continue跳出了本次循环，开始下一次循环，所以回到了最开始的for i in range(20), 让i+1 这就跳过了下面的代码，又从头开始检查，第一组是否包含了两种样本如果第一组中依然没有包含两种样本，则if通过，继续合并，每合并一次就会循环检查一次，最多合并20次如果第一组中已经包含两种样本，则if不通过，就开始执行下面的代码 “”" #已经确认第一组中肯定包含两种样本了，如果其他组没有包含两种样本，就向前合并 #此时的num_bins已经被上面的代码处理过，可能被合并过，也可能没有被合并 #但无论如何，我们要在num_bins中遍历，所以写成in range(len(num_bins)) for i in range(len(num_bins)): if 0 in num_bins[i][2:]: num_bins[i-1:i+1] = [( num_bins[i-1][0], num_bins[i][1], num_bins[i-1][2]+num_bins[i][2], num_bins[i-1][3]+num_bins[i][3])] break #如果对第一组和对后面所有组的判断中，都没有进入if去合并，则提前结束所有的循环 else: break

"""

这个break，只有在if被满足的条件下才会被触发也就是说，只有发生了合并，才会打断for i in range(len(num_bins))这个循环为什么要打断这个循环？因为我们是在range(len(num_bins))中遍历但合并发生后，len(num_bins)发生了改变，但循环却不会重新开始举个例子，本来num_bins是5组，for i in range(len(num_bins))在第一次运行的时候就等于for i in range(5) range中输入的变量会被转换为数字，不会跟着num_bins的变化而变化，所以i会永远在[0,1,2,3,4]中遍历进行合并后，num_bins变成了4组，已经不存在=4的索引了，但i却依然会取到4，循环就会报错因此在这里，一旦if被触发，即一旦合并发生，我们就让循环被破坏，使用break跳出当前循环循环就会回到最开始的for i in range(20)中此时判断第一组是否有两种标签的代码不会被触发，但for i in range(len(num_bins))却会被重新运行这样就更新了i的取值，循环就不会报错了 “”"

#3.3.3 定义WOE和IV函数 #计算WOE和BAD RATE #BAD RATE与bad%不是一个东西 #BAD RATE是一个箱中，坏的样本所占的比例 (bad/total) #而bad%是一个箱中的坏样本占整个特征中的坏样本的比例 def get_woe(num_bins): # 通过 num_bins 数据计算 woe columns = [“min”,“max”,“count_0”,“count_1”] df = pd.DataFrame(num_bins,columns=columns) df[“total”] = df.count_0 + df.count_1 #一个箱子当中所有的样本数 df[“percentage”] = df.total / df.total.sum() #一个箱子里的样本数，占所有样本数的比例。 df[“bad_rate”] = df.count_1 / df.total df[“good%”] = df.count_0/df.count_0.sum() df[“bad%”] = df.count_1/df.count_1.sum() df[“woe”] = np.log(df[“good%”] / df[“bad%”]) return df #计算IV值 def get_iv(df): rate = df[“good%”] - df[“bad%”] iv = np.sum(rate * df.woe) return iv

#3.3.4 卡方检验（检验两列数据的相似性），合并箱体，画出IV曲线 num_bins_ = num_bins.copy() import matplotlib.pyplot as plt import scipy

IV = [] axisx = [] while len(num_bins_) > 2: pvs = [] # 获取 num_bins_两两之间的卡方检验的置信度（或卡方值） for i in range(len(num_bins_)-1): x1 = num_bins_[i][2:] x2 = num_bins_[i+1][2:] # 0 返回 chi2 值，0返回卡方值（chi2值），1 返回 p 值。 pv = scipy.stats.chi2_contingency([x1,x2])[1] # chi2 = scipy.stats.chi2_contingency([x1,x2])[0] pvs.append(pv) # 通过 p 值进行处理。合并 p 值最大的两组 i = pvs.index(max(pvs)) num_bins_[i:i+2] = [( num_bins_[i][0], num_bins_[i+1][1], num_bins_[i][2]+num_bins_[i+1][2], num_bins_[i][3]+num_bins_[i+1][3])] bins_df = get_woe(num_bins_) axisx.append(len(num_bins_)) IV.append(get_iv(bins_df)) plt.figure() plt.plot(axisx,IV) plt.xticks(axisx) plt.xlabel(“number of box”) plt.ylabel(“IV”) plt.show() 在这里插入图片描述 #3.3.5 用最佳分箱个数分箱，并验证分箱结果 #将合并箱体的部分定义为函数，并实现分箱： def get_bin(num_bins_,n): while len(num_bins_) > n: pvs = [] for i in range(len(num_bins_)-1): x1 = num_bins_[i][2:] x2 = num_bins_[i+1][2:] pv = scipy.stats.chi2_contingency([x1,x2])[1] # chi2 = scipy.stats.chi2_contingency([x1,x2])[0] pvs.append(pv) i = pvs.index(max(pvs)) num_bins_[i:i+2] = [( num_bins_[i][0], num_bins_[i+1][1], num_bins_[i][2]+num_bins_[i+1][2], num_bins_[i][3]+num_bins_[i+1][3])] return num_bins_

afterbins = get_bin(num_bins,6) afterbins 在这里插入图片描述 bins_df = get_woe(num_bins) bins_df #3.3.6 将选取最佳分箱个数的过程包装为函数 def graphforbestbin(DF, X, Y, n=5,q=20,graph=True):

"""

自动最优分箱函数，基于卡方检验的分箱参数： DF: 需要输入的数据 X: 需要分箱的列名 Y: 分箱数据对应的标签 Y 列名 n: 保留分箱个数 q: 初始分箱的个数 graph: 是否要画出IV图像区间为前开后闭 (] “”"

DF = DF[[X,Y]].copy() DF["qcut"],bins = pd.qcut(DF[X], retbins=True, q=q,duplicates="drop") coount_y0 = DF.loc[DF[Y]==0].groupby(by="qcut").count()[Y] coount_y1 = DF.loc[DF[Y]==1].groupby(by="qcut").count()[Y] num_bins = [*zip(bins,bins[1:],coount_y0,coount_y1)] for i in range(q): if 0 in num_bins[0][2:]: num_bins[0:2] = [( num_bins[0][0], num_bins[1][1], num_bins[0][2]+num_bins[1][2], num_bins[0][3]+num_bins[1][3])] continue for i in range(len(num_bins)): if 0 in num_bins[i][2:]: num_bins[i-1:i+1] = [( num_bins[i-1][0], num_bins[i][1], num_bins[i-1][2]+num_bins[i][2], num_bins[i-1][3]+num_bins[i][3])] break else: break def get_woe(num_bins): columns = ["min","max","count_0","count_1"] df = pd.DataFrame(num_bins,columns=columns) df["total"] = df.count_0 + df.count_1 df["percentage"] = df.total / df.total.sum() df["bad_rate"] = df.count_1 / df.total df["good%"] = df.count_0/df.count_0.sum() df["bad%"] = df.count_1/df.count_1.sum() df["woe"] = np.log(df["good%"] / df["bad%"]) return df def get_iv(df): rate = df["good%"] - df["bad%"] iv = np.sum(rate * df.woe) return iv IV = [] axisx = [] while len(num_bins) > n: pvs = [] for i in range(len(num_bins)-1): x1 = num_bins[i][2:] x2 = num_bins[i+1][2:] pv = scipy.stats.chi2_contingency([x1,x2])[1] pvs.append(pv) i = pvs.index(max(pvs)) num_bins[i:i+2] = [( num_bins[i][0], num_bins[i+1][1], num_bins[i][2]+num_bins[i+1][2], num_bins[i][3]+num_bins[i+1][3])] bins_df = pd.DataFrame(get_woe(num_bins)) axisx.append(len(num_bins)) IV.append(get_iv(bins_df)) if graph: plt.figure() plt.plot(axisx,IV) plt.xticks(axisx) plt.xlabel("number of box") plt.ylabel("IV") plt.show() return bins_df

#3.3.7 对所有特征进行分箱选择 model_data.columns 在这里插入图片描述 for i in model_data.columns[1:-1]: print(i) graphforbestbin(model_data,i,“SeriousDlqin2yrs”,n=2,q=20,graph=True)

在这里插入图片描述 #我们发现，不是所有的特征都可以使用这个分箱函数，比如说有的特征，像家人数量，就无法分出20组。于是我们将可以分箱的特征放出来单独分组，不能自动分箱的变量自己观察然后手写： auto_col_bins = {“RevolvingUtilizationOfUnsecuredLines”:6, “age”:5, “DebtRatio”:4, “MonthlyIncome”:3, “NumberOfOpenCreditLinesAndLoans”:5}

#不能使用自动分箱的变量 hand_bins = {“NumberOfTime30-59DaysPastDueNotWorse”:[0,1,2,13] ,“NumberOfTimes90DaysLate”:[0,1,2,17] ,“NumberRealEstateLoansOrLines”:[0,1,2,4,54] ,“NumberOfTime60-89DaysPastDueNotWorse”:[0,1,2,8] ,“NumberOfDependents”:[0,1,2,3]}

#保证区间覆盖使用 np.inf替换最大值，用-np.inf替换最小值 hand_bins = {k:[-np.inf,*v[:-1],np.inf] for k,v in hand_bins.items()}

hand_bins 在这里插入图片描述 #接下来对所有特征按照选择的箱体个数和手写的分箱范围进行分箱： bins_of_col = {} #生成自动分箱的分箱区间和分箱后的 IV 值 for col in auto_col_bins: bins_df = graphforbestbin(model_data,col ,“SeriousDlqin2yrs” ,n=auto_col_bins[col] #使用字典的性质来取出每个特征所对应的箱的数量 ,q=20 ,graph=False) bins_list = sorted(set(bins_df[“min”]).union(bins_df[“max”])) #保证区间覆盖使用 np.inf 替换最大值 -np.inf 替换最小值 bins_list[0],bins_list[-1] = -np.inf,np.inf bins_of_col[col] = bins_list

bins_of_col 在这里插入图片描述 #合并手动分箱数据 bins_of_col.update(hand_bins) bins_of_col #3.4 计算各箱的WOE并映射到数据中 ‘’’ 我们现在已经有了我们的箱子，接下来我们要做的是计算各箱的WOE，并且把WOE替换到我们的原始数据model_data中，因为我们将使用WOE覆盖后的数据来建模，我们希望获取的是”各个箱”的分类结果，即评分卡上各个评分项目的分类结果。 ‘’’ data = model_data.copy() #函数pd.cut，可以根据已知的分箱间隔把数据分箱 #参数为 pd.cut(数据，以列表表示的分箱间隔) data = data[[“age”,“SeriousDlqin2yrs”]].copy() data 在这里插入图片描述 data[“cut”] = pd.cut(data[“age”],[-np.inf, 48.49986200790144, 58.757170160044694, 64.0, 74.0, np.inf]) data #将数据按分箱结果聚合，并取出其中的标签值 data.groupby(“cut”)[“SeriousDlqin2yrs”].value_counts() #使用unstack()来将树状结构变成表状结构 data.groupby(“cut”)[“SeriousDlqin2yrs”].value_counts().unstack() 在这里插入图片描述 bins_df = data.groupby(“cut”)[“SeriousDlqin2yrs”].value_counts().unstack() bins_df[“woe”] = np.log((bins_df[0]/bins_df[0].sum())/(bins_df[1]/bins_df[1].sum())) bins_df #把以上过程包装成函数： def get_woe(df,col,y,bins): df = df[[col,y]].copy() df[“cut”] = pd.cut(df[col],bins) bins_df = df.groupby(“cut”)[y].value_counts().unstack() woe = bins_df[“woe”] = np.log((bins_df[0]/bins_df[0].sum())/(bins_df[1]/bins_df[1].sum())) return woe

bins_of_col 在这里插入图片描述 #将所有特征的WOE存储到字典当中 woeall = {} for col in bins_of_col: woeall[col] = get_woe(model_data,col,“SeriousDlqin2yrs”,bins_of_col[col])

woeall 在这里插入图片描述 #接下来，把所有WOE映射到原始数据中： model_data.head() #不希望覆盖掉原本的数据，创建一个新的DataFrame，索引和原始数据model_data一模一样 model_woe = pd.DataFrame(index=model_data.index) model_woe #将原数据分箱后，按箱的结果把WOE结构用map函数映射到数据中 model_woe[“age”] = pd.cut(model_data[“age”],bins_of_col[“age”]).map(woeall[“age”]) model_woe.head() 在这里插入图片描述 #对所有特征操作可以写成： for col in bins_of_col: model_woe[col] = pd.cut(model_data[col],bins_of_col[col]).map(woeall[col])

model_woe 在这里插入图片描述 #将标签补充到数据中 model_woe[“SeriousDlqin2yrs”] = model_data[“SeriousDlqin2yrs”] #这就是我们的建模数据了 model_woe.head() #3.5 建模与模型验证 #处理测试集 vali_woe = pd.DataFrame(index=vali_data.index)

for col in bins_of_col: vali_woe[col] = pd.cut(vali_data[col],bins_of_col[col]).map(woeall[col])

vali_woe[“SeriousDlqin2yrs”] = vali_data[“SeriousDlqin2yrs”]

vali_woe.head() 在这里插入图片描述 vali_X = vali_woe.iloc[:,:-1] vali_y = vali_woe.iloc[:,-1]

#接下来，就可以开始顺利建模了： X = model_woe.iloc[:,:-1] y = model_woe.iloc[:,-1]

from sklearn.linear_model import LogisticRegression as LR lr = LR().fit(X,y) lr.score(vali_X,vali_y) 在这里插入图片描述 #返回的结果一般，我们可以试着使用C和max_iter的学习曲线把逻辑回归的效果调上去。

c_1 = np.linspace(0.01,1,20) c_2 = np.linspace(0.01,0.2,20)

score = [] for i in c_2: lr = LR(solver=‘liblinear’,C=i).fit(X,y) score.append(lr.score(vali_X,vali_y)) plt.figure() plt.plot(c_2,score) plt.show() 在这里插入图片描述 #我们可以使用属性.n_iter_来调用本次求解中真正实现的迭代次数 lr.n_iter_ score = [] for i in [1,2,3,4,5,6]: lr = LR(solver=‘liblinear’,C=0.025,max_iter=i).fit(X,y) score.append(lr.score(vali_X,vali_y)) plt.figure() plt.plot([1,2,3,4,5,6],score) plt.show() 在这里插入图片描述 lr = LR(solver = “liblinear”, C=0.035, max_iter=3).fit(X,y) lr.score(vali_X, vali_y) #尽管从准确率来看，我们的模型效果属于一般，但我们可以来看看ROC曲线上的结果。 import scikitplot as skplt #%%cmd #pip install scikit-plot vali_proba_df = pd.DataFrame(lr.predict_proba(vali_X))

skpltrics.plot_roc(vali_y, vali_proba_df, plot_micro=False,figsize=(6,6), plot_macro=False) 在这里插入图片描述 #3.6 制作评分卡 #用numpy可以很容易求出A和B的值： B = 20/np.log(2) A = 600 + B*np.log(1/60) B,A ‘’’ 有了A和B，分数就很容易得到了。其中不受评分卡中各特征影响的基础分，就是将截距作为带入公式进行计算，而其他各个特征各个分档的分数，也是将系数带入进行计算： ‘’’

lr.intercept_ #查看截距在这里插入图片描述 base_score = A - Blr.intercept_ base_score model_data.head() woeall score_age = woeall[“age”] * (-Blr.coef_[0][1]) score_age #我们可以通过循环，将所有特征的评分卡内容全部一次性写往一个本地文件ScoreData.csv：

file = “D:/whole_development_of_the_stack_study/RS_Algorithm_Course/Practical/machine_learning/05/ScoreData.csv” #open是用来打开文件的python命令，第一个参数是文件的路径+文件名，如果你的文件是放在根目录下，则你只需要文件名就好 #第二个参数是打开文件后的用途，“w"表示用于写入，通常使用的是"r”，表示打开来阅读 #首先写入基准分数 #之后使用循环，每次生成一组score_age类似的分档和分数，不断写入文件之中 with open(file,“w”) as fdata:

fdata.write("base_score,{}\n".format(base_score))

for i,col in enumerate(X.columns):

score = woeall[col] * (-B*lr.coef_[0][i]) score.name = "Score" score.index.name = col score.to_csv(file,header=True,mode="a")

至此，我们评分卡的内容就全部结束了。由于时间有限，我无法给大家面面俱到这个很难的模型，如果有时间，还会给大家补充更多关于模型验证和评估的内容。其实大家可以发现，真正建模的部分不多，更多是我们如何处理数据，如何利用统计和机器学习的方法将数据调整成我们希望的样子，所以除了算法，更加重要的是我们能够达成数据目的的工程能力。这份代码也还有很多细节可以改进，大家在使用的时候可以多找bug多修正，敢于挑战现有的内容，写出属于自己的分箱函数和评分卡模型。

【本文地址】

公司简介

联系我们