预测和回归的区别是什么？_分析预测_资讯

　　一般来说，建立统计学习模型，简单是指利用一个或多个输入变量（一般也称为自变量，预测变量）通过拟合适当的关系式来预测输出变量（也称因变量，响应变量）的方法。其中f(x)是我们希望探求的关系式，但一般来说是固定但未知。尽管f(x)未知，但是我们的目标就是利用一系列的统计/数据挖掘方法来尽可能求出接近f(x)的形式，这个形式可以是一个简单的线性回归模型（y=a+bx），也可能是一个曲线形式（y=a+b（x的平方）），当然也有可能是一个神经网络模型或者一个决策树模型。

　　，我们希望模型尽可能地精确，相反预测模型f的形式可能是一个黑箱模型（即模型的本身我们不能很好的解释或者并不清楚，我们更加关心这当中的输入和输出，并不试图考察其内部结构），只要能够提高我们的预测精度我们就认可达到目的了。一般认为，神经网络模型属于黑箱模型，如几年前Google X实验室开发出一套具有自主学习能力的神经网络模型，它能够从一千万中图片中找出那些有小猫的照片。在这里，输入就是这一千万张图片，输出就是对于这些图片的识别。

　　2在控制任务中，预测结果固然重要，但是我们也十分关心模型的形式具体是怎么样，或者借助统计挖掘模型帮助我们生成了怎样的判别规则。例如在银行业，我们希望通过客户的个人信用信息来评价个人的借贷风险，这就要求我们不但能够回答这个客户的风险是高是低，还要求我们回答哪些因素对客户风险高低有直接作用，每个因素的影响程度有多大。

　　根据数据类型，预测可以分为两个大的类别。如果是discrete data，称为classification，这也是目前机器学习中比较重要的组成部分。如果是continuous data，称为regression。

　　先说我大学课程里系统学过的回归。现有的很多selection criteria都可以用在回归里，比如AIC，BIC等等都是很常用的。另外还有常用的likelihood ratio test，比较full model和nested reduced model。我非常同意@慧航说的，

　　。（根据我目前所学）一般情况下，人们更倾向于选择简单但是在描述数据时又不缺失信息的模型，而这也是LRT的核心思想。另外，当你在R中summary一个model，这个model中每个predictor的p value决定了它是否是significant的，即在高度总结数据的过程中它是否是有用的。假如p value很大的话，我们会考虑不把它放进model里。

　　而在prediction model里，我们也不再追求简单的model，不再过于关注这些predictor是否significant，因为此时的目的是预测，而任何一点点的extra information都可能会让预测结果变得更准确。