回归分析预测模型_分析预测_资讯

　　在时间序列中，我们经常观察到过去和现在的值之间的相似性。那是因为我们在此类数据中遇到自相关。换句话说，通过了解当今产品的价格，我们经常可以对明天的产品价值做出大致的预测。因此，在大数据分析python自回归模型中，我们将讨论一个反映这种相关性的模型。–自回归模型。

　　自回归模型或简称为AR模型，仅依靠过去的时间值来预测当前值。这是一个线性模型，其中当前期间的值是过去结果的总和乘以数字因子。我们将其表示为AR(p)，其中“ p”称为模型的阶数，表示我们要包括的滞后值的数量。

　　好了，现在我们需要打破方程的唯一部分是ε 牛逼。这就是所谓的残留，并代表周期t和正确的值(ε我们的预测之间的差吨 = Y 吨 - ŷ 吨)。这些残差通常是不可预测的差异，因为如果存在某种模式，它将被模型的其他现有因素捕获。

　　现在，通常来说，考虑到更多数据进行预测的模型通常会更好。但是，如果系数(ϕ 1，ϕ 2，…… n)与0的差别不大，则它们对预测值没有影响(因为ϕ k X t-k = 0)，因此将它们包括在内几乎没有意义。在模型中。

　　立即查看完整的大数据分析技术文章。从我们的统计，数学和Excel课程开始，从基础知识入手，逐步掌握SQL，Python，R和Tableau的经验，并通过机器学习，深度学习，信用风险建模，时间序列分析升级技能和Python中的客户分析。如果您仍然不确定要把对数据科学的兴趣变成扎实的职业，我们还提供了大数据分析试听课程。联系在线客服小姐姐索取试听课程

　　的一个主要目标是基于一个或多个预测变量来预测结果值(我们也用它来研究两个变量的相关性，同时校正其他混杂因素)。那么，当我们取得了预测模型后，根据该预测模型对新数据进行预测得出的预测值是什么？这个预测值的可信度如何呢？今天的讲解中，我们会给出答案。

　　# Call:## lm(formula = dist ~ speed, data = cars)## Coefficients:## (Intercept) speed ## -17.58 3.93

　　例如，与速度19相关的95％置信区间为(51.83，62.44)，平均预测值为57.1。根据我们的模型，一辆时速为19 mph的汽车的平均制动距离为51.83到62.44ft，即平均值落在51.83到62.44到概率为95%。

　　给定过去一段时间的数据，如何对未来的数据进行预测？这类时间序列预测问题是很多领域都关心的问题。在机器学习中，目前主流的方法是利用LSTM等递归神经网络来对未来数据进行预测，这次介绍的DeepAR模型也不例外，不过不同的是，DeepAR模型并不是直接简单地输出一个确定的预测值，而是输出预测值的一个概率分布，这样做的好处有两点：1、很多过程本身就具有随机属性，因此输出一个概率分布更加贴近本质，预测的精度反而更高；2、可以评估出预测的不确定性和相关的风险。接下来我们就来看DeepAR模型是如何具体实现的。

　　另外，最近还有一篇论文利用DeepAR模型做了一些金融领域的实验，这里简单介绍两个小实验，第一个是在S&P500股票数据上的收益实验，该实验构建了这样一个多空交易策略：在时刻t，预测所有股票在t+h时刻的涨跌情况，然后做多期望收益最高的k只股票，并做空期望损失最大的k支股票（利用蒙特卡洛方法来估计收益期望）。得到的收益与目前主流的非概率模型的结果对比如下：

　　这篇论文提出的DeepAR模型不同于以往的时间序列预测模型，它输出的是未来数据的一个概率分布，我们需要通过采样的方法，用DeepAR递归地生成对于未来一段时间数据的预测，不过因为是从概率分布中采样得到的，这只是一条可能的“轨迹”，要计算期望值的话，就需要利用蒙特卡洛方法多次重复采样后取平均来得到。个人感觉这种让模型输出概率分布的方法特别适用于像金融数据这类具有较大不确定性的时间序列数据，这类数据上往往具有一些噪声，这就导致直接对未来数据做直接预测并不一定可靠，而对于预测概率分布的DeepAR模型，最大化未来序列的似然函数的方式反而能够更好地反映出数据内在的随机性质，它不仅能够预测数值，还可以预测未来的波动，这一特点对于需要考虑风险的金融领域是非常有帮助的。

　　二项分布是由伯努利提出的概念，指的是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果，而且两种结果发生与否互相对立，并且相互独立，与其它各次试验结果无关，事件发生与否的概率在每一次独立试验中都保持不变，则这一系列试验总称为n重伯努利实验，当试验次数为1时，二项分布服从0-1分布。

　　也就是说，在age，yearsmarried，religiousness等协变量都不变的情况下，当rating从1变成5时，affair的概率从0.526变成了0.153. 基本上模型的预测就是这样，可以用predict函数，推广到其它的模型，如线性模型等，预测在某一自变量变化（如从分位浓度1变成分位浓度3时，因变量的变化）