一般来说,建立统计学习模型,简单是指利用一个或多个输入变量(一般也称为自变量,预测变量)通过拟合适当的关系式来预测输出变量(也称因变量,响应变量)的方法。其中f(x)是我们希望探求的关系式,但一般来说是固定但未知。尽管f(x)未知,但是我们的目标就是利用一系列的统计/数据挖掘方法来尽可能求出接近f(x)的形式,这个形式可以是一个简单的线性回归模型(y=a+bx),也可能是一个曲线形式(y=a+b(x的平方)),当然也有可能是一个神经网络模型或者一个决策树模型。
,我们希望模型尽可能地精确,相反预测模型f的形式可能是一个黑箱模型(即模型的本身我们不能很好的解释或者并不清楚,我们更加关心这当中的输入和输出,并不试图考察其内部结构),只要能够提高我们的预测精度我们就认可达到目的了。一般认为,神经网络模型属于黑箱模型,如几年前Google X实验室开发出一套具有自主学习能力的神经网络模型,它能够从一千万中图片中找出那些有小猫的照片。在这里,输入就是这一千万张图片,输出就是对于这些图片的识别。
2在控制任务中,预测结果固然重要,但是我们也十分关心模型的形式具体是怎么样,或者借助统计挖掘模型帮助我们生成了怎样的判别规则。例如在银行业,我们希望通过客户的个人信用信息来评价个人的借贷风险,这就要求我们不但能够回答这个客户的风险是高是低,还要求我们回答哪些因素对客户风险高低有直接作用,每个因素的影响程度有多大。
根据数据类型,预测可以分为两个大的类别。如果是discrete data,称为classification,这也是目前机器学习中比较重要的组成部分。如果是continuous data,称为regression。
先说我大学课程里系统学过的回归。现有的很多selection criteria都可以用在回归里,比如AIC,BIC等等都是很常用的。另外还有常用的likelihood ratio test,比较full model和nested reduced model。我非常同意@慧航说的,
。(根据我目前所学)一般情况下,人们更倾向于选择简单但是在描述数据时又不缺失信息的模型,而这也是LRT的核心思想。另外,当你在R中summary一个model,这个model中每个predictor的p value决定了它是否是significant的,即在高度总结数据的过程中它是否是有用的。假如p value很大的话,我们会考虑不把它放进model里。
而在prediction model里,我们也不再追求简单的model,不再过于关注这些predictor是否significant,因为此时的目的是预测,而任何一点点的extra information都可能会让预测结果变得更准确。