专题：评分卡模型

2021-03-04

导入数据

数据预处理

去重，恢复索引，df.info()，查看缺失值，对缺失比例严重的属性列直接删除，其余填补，根据业务情况可采取mean,median,算法填补。我昨天的文章写了如何使用随机森林填补某特征列的缺失值，这儿同样采用随机森林填补缺失值。

异常值处理比如年龄为0岁的能向银行贷款？这种不符合常识的数据直接删掉。

分箱

超级困难，首先你得明白概念和公式，IV值(Information Value)，WOE(Weight of Evidence)，

分箱算法很难，因为评分卡模型就是给新数据按照它的属性值打分，就是要分档，主要是目前学习的比较少，不知道分箱在其他方面还有哪些应用

jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true