一般而言,描述性分析是在某种意义上或为数据集添加某些结构的过程,有时这可能非常大。因此,大多数在业务中提及“分析”的讨论实际上都是在谈论描述性分析(Bertolucci,2013)。最明显的例子是当我们在研究开始时进行描述性统计,并查看诸如范围,均值,中位数,四分位数,偏斜和峰度之类的数据时。我们正在了解数据如何分解。在某些情况下,这实际上可能是我们要寻找的全部内容,但是在大多数情况下,我们将希望进一步深入了解数据。例如,当我们运行诸如k-means之类的聚类算法时,它使我们能够将数据组织成看起来似乎彼此相同的组。
另一方面,预测分析还可以查看数据的形状,但是它也使我们能够识别趋势并对未来事件进行数学预测。简而言之,您正在分析过去(也许是最近的过去,如“实时”数据中的,但仍然是过去),以预测未来。理解这一点的最简单方法可能是考虑回归技术,即在数据中确定趋势线时,它的基本数学公式使您可以预测在类似条件下将来会发生什么。掌握代数的任何人都可以理解其原理-一旦确定了模型的公式及其系数,您只需插入因变量,并获得结果的预测值。
当我们将“推论”引入组合时,这会让人感到困惑,这是由Merriam-Webster定义的,涉及“ 通常以计算出的确定性程度将统计样本数据传递给一般化(根据总体参数的值)” 。换句话说,我们正在根据我们在数据中看到的信息,对未来可能发生的情况进行有根据的猜测。这种推论广泛应用于可 预测的数据分析以及 描述性数据分析。。例如,如果Netflix根据共同的喜好使用某种形式的聚类来将用户分组(例如喜欢外国电影的人),那么他们非常会使用该描述性数据来告知电影他们“推荐”给您的电影。实际上,他们是根据描述性数据进行预测。它可能没有附加数学方程式(或者也许有,因为他们可能有更高级的技巧),但这只是一个预测。另一方面,如果Netflix使用回归模型,则它可能会发现一组变量与另一组变量之间的相关性,并对某事进行量化预测。
总而言之,描述性和预测性技术之间似乎有些重叠,但是其定义可能类似于有监督和无监督的学习,其中一种涉及基于过去的场景进行预测,在这种情况下我们可以确定已知的结果,而另一种则基于涉及经历并规划过去发生的事情。