3.【数据清洗】主要内容为【缺失数据处理】、【上限/下限】、【检查数据分布】。检查数据分布是否和预期一致,若不一致采用合理方法进行调整。若值过大或过小时,应通过限制【上限/下限】进行解决。这样是为了使数据分布不至于分散。
6.【模型评估】主要内容为【VIF】、【C值】、【R的平方】、【Lift图】、【INS/OOS/OOT】。【VIF】是衡量模型中自变量贡献性的一个指标,【VIF】越大表示变量之间的贡献性越强。【C值】和【R的平方】是用于评价模型本身表现的参数。【C值】是用于逻辑回归模型,【R的平方】是用于线性回归模型。
13.【蓝色】表示建模数据集,【绿线】是建模数据集里的子集,【红线】表示验证数据集。在理想状态下,我们希望用整体的建模数据集的子集,以及验证数据集,绘制出的曲线尽可能重合,这样可以表明模型是相对稳定的。