导入数据
数据预处理
去重,恢复索引,df.info(),查看缺失值,对缺失比例严重的属性列直接删除,其余填补,根据业务情况可采取mean,median,算法填补。我昨天的文章写了如何使用随机森林填补某特征列的缺失值,这儿同样采用随机森林填补缺失值。
异常值处理 比如年龄为0岁的能向银行贷款?这种不符合常识的数据直接删掉。
分箱
超级困难,首先你得明白概念和公式,IV值(Information Value),WOE(Weight of Evidence),
分箱算法很难,因为评分卡模型就是给新数据按照它的属性值打分,就是要分档,主要是目前学习的比较少,不知道分箱在其他方面还有哪些应用