数据分析最重要的目的就是从数据中寻找规律,找到能够指导我们未来实践的原则和方法,它是产生智慧的主要途径。所以,预测分析是数据分析的终极目的。虽然数据分析可以承担各种功能,包括监测、监控、检查、证据、校验,但预测还是最为关键的,所以掌握数据分析和挖掘的预测方法才是数据分析师的看家本领。
预测包括现象的预测和规律的预测。自然科学在本质上也是对事物的属性、本质和规律的预测。有了对事物的认知和对规律的掌握,我们就能够创造出更多的东西。商业社会也是如此,如果我们能够知道影响股票波动的因素,并能够掌握这些影响因素的数据,就能够对股价做出精准的预测,从而指导我们的投资决策,做到稳赚不赔。但事物具有复杂性,我们无法掌握所有的信息,更无法掌握所有的规律,所以才会有了那么多的偶然影响因素和随机事件。
在美国电视剧(简称美剧)《疑犯追踪》中有一台超级服务器,它能够掌握所有事情,预测所有事情的发展,从而能够预测各种犯罪的发生和危险事件。主人公与几个特工组成一个阻止悲剧发生的战队,开始了各种所谓的营救行动。这样的机器或许在未来能够出现,但在目前能掌握所有事物的数据并通晓其规律的机器还没有。在智能领域,我们已经能够制造出会下围棋的AlphaGo,但距离精准的预测还有很大的距离,但这并不能阻止我们对某些特殊事物的预测。
随着大数据、物联网等技术的快速发展和应用,我们会拥有越来越多的数据,在这些数据的基础上,通过各种分析技术的发展,我们就能够加工出越来越多的“智慧”,从而能够指导我们的实践,而我们对未来的预测会越来越精准,越来越有效。
人们总是把事情想象得过于美好,认为做大数据的人能够上知天文,下晓地理,能够准确地预测未来。现在还没有人有这样的能力,至少目前不会有,未来10年估计也不会有。所以企业的老板也不能对数据部门寄予过高的期望。
经济学、社会学、社会物理学、心理学、统计学和数学等众多学科都是预测的工具和方法,人类已经掌握了一些基本的事物发展规律,对人类大脑、情感、心理的认知也逐步深入。但我们对这些学科的掌握程度还远远达不到准确预测未来的程度,我们所知道的仅仅是大自然中非常小的一部分。所以永远不要过高地估计我们对世界的认知。
20年前,互联网刚刚开始兴起,那个时候人们觉得互联网永远无法取代电视、报纸、杂志和广播,认为互联网只会成为信息传播的一种工具,而且最初人们只希望用互联网来传播知识,而拒绝使用互联网从事商业行为。20年后的今天,互联网的普及彻底改变了我们的生活方式。
我们经常说“以史为鉴”,其实就是研究事物发展的历史,为我们研究新的事物做出指导,让我们对未来的事物有更远一点的估计。研究互联网的发展历史,能够让我们更好地估计或者预测同为信息技术的大数据技术在未来的发展。
互联网从1995年开始推广应用到2015年,整整20年的时间,其已经不再被看作是新的技术了,而是日常必不可少的一种技术应用,而且应用的范围和领域也越来越广,如下图所示。如今我们已经真正进入到“互联网+”的时代。
著名的研究公司Gartner以研究技术发展和为技术公司提供咨询服务为主。其跟踪和研究各种新技术的发展历程,并形成了一个关于技术发展周期的HypeCycle理论体系。此理论体系将技术的发展分成触发期、过热期、幻灭期、复苏期和创新应用期。不同的技术发展会有不同的结局,有的会在发展的过程中就消逝了,有的成了影响人们生活的重要技术。在Gartner看来,不同的技术处在不同的阶段,大家对其的期望会有不同,这在股票市值或者公司估值上能够体现出来。
下图是Gartner对新兴技术的研究结论:不同的技术处在不同的时期。大数据技术在2014年曾经被Gartner认为进入幻灭期,目前其在中国仍然处在过热期,大家都看好这个技术,动辄就投资几十亿元来推动大数据应用,而得到的实际应用价值还是非常少的,但是这个技术却比互联网更加能够影响我们的生活。
通过研究互联网技术的发展历史,我们能够预测未来大数据技术的发展。互联网从触发期到过热期用了5年左右的时间,1999—2000年是互联网技术的幻灭期,一直到2005年用了5年去复苏,2005—2010年是互联网技术的复苏期,2010年开始进入创新应用期,2015年进入产业广泛应用的“互联网+”时期。每5年一次大的转变,让人们对该技术的看法彻底改变了。
大数据从2007年被提出来,到2012年爆发,历时5年;2012—2017年是幻灭期。当然国内对大数据的看法会有所不同,鉴于互联网时期的泡沫,人类更加理性,大数据会存在泡沫,可能不会比当时互联网技术存在的泡沫大。现在大数据在国内仍然处在过热期,各地都在建设大数据中心,包括以贵阳为代表的大数据交易平台也在建设中。对于大数据能否像商品一样用来交易,或是建成像高速公路这样的基础设施供大家使用,目前还没有定论。而且在大数据领域中还有很多未能解决的问题,包括数据所有权问题、数据的安全性问题、隐私保护问题、数据犯罪问题等。
在2017年之后,大数据就会进入一个复苏期。在这期间,大量的数据得到积累和整合,各种数据会关联起来形成可用的数据集,新的应用算法和处理工具会得到普及,查询数据、计算数据、展示数据都不再是少数专业人员的专利。这个时候大数据才会真正应用起来,企业会利用大数据服务来优化自己的生产,会利用大数据来管理自己的企业,并且贡献自己的数据集,丰富整个大数据资源。
事物是复杂的,我们对事物的认知是有限的,正因如此,事物在发展的过程中会发生超越我们预期的偶然事件和随机事件,我们把这些叫作误差,误差是必然存在的。随着我们对事物的认知越清楚,掌握的信息数据越完善,这个误差就会越小,偶然事件就会越少。预测不准确是正常的,我们不能因为预测不准确而放弃对事物的预测。掌控未来发展是人类的本能,也是人类进化的动力。
互联网、物联网、智能设备、移动互联网,以及数据分析与挖掘技术的联合作用,让大数据技术的发展如虎添翼。大数据技术必然会更加广泛地应用到企业的生产和管理过程中,应用到生活的方方面面。现在,我们在选择出行路线时会根据地图应用提供的交通流量信息,选择最不堵车的路线,这是一个典型的应用场景——把大数据当作平台和基础设施的应用场景。未来会有越来越多的这种应用场景。
有了这些应用场景,我们就能够预测未来可能会发生的事情。企业之间将不再是价格的竞争,而是根据消费者需求进行定制化的模式竞争,未来企业的规模可能会变小。大企业的存在是为了让更多的人集结在一起做出少数人做不到的事情,大数据带来了人工智能技术,当智能机器可以完成少数人无法完成的任务时,大企业存在的优势将不再显现,而且企业越大,其个性化产品和服务就会越加不灵活。而且人类的组织方式都有可能会发生变化。
所谓的经验法就是按照过去的经验来预测通过做什么来达到什么结果。例如一个市场总监在A公司做了5年,对于每年花费多少广告费带来多少销售额,用什么方法打广告会更有效果,哪个时间段的广告最能够触达客户从而带来更高的转化率,他都积累了丰富的经验,并且能够形成准确的判断。当他进入B公司后,能够根据以前的经验判断该如何打广告更加有效,让公司的广告效果增加1%,这就是靠经验来预测事物未来的发展状况。
所谓的类比法就是根据A事物的发展历程来判断B这个新事物可能会怎样发展。通过类比相似的事物,把已知事物的发展规律应用到未知事物的发展规律上,这种方法就是类比法。前面我们介绍了通过研究互联网技术的发展史来认知未来大数据技术的发展史,通过类比,就能够对大数据技术有更加深刻的认知。
事物的发展都会有惯性,这种惯性规律在经济学上特别明显。社会发展的惯性主要是根据人们的行为习惯。人们的行为习惯一旦养成后,如果要更改,则需要一定的时期,这个时期我们就称为惯性期。我们利用事物发展的惯性,对事物未来的发展做出判断的方法就是惯性预测法。
逻辑关系法是预测的终极武器。如果我们知道两个事物之间的逻辑关系,则根据逻辑关系和一个事物直接得出另外一个事物的方法就是逻辑关系法。例如如果我们知道两个数据之间的函数关系,就能够根据一个变量的数据得到另外一个的数据,这就是逻辑关系预测法。