说道“数据分析”一词,大家应该并不陌生,数据分析从字面上来理解,就是对数据做出分析然后得出一个结论,看起来浅显易懂,下面我们把这个词语分开得到的是“数据”与“分析”。“数据”的范围就很广泛了,小到一个计量数字,大到成亿级别的数据汇总,都可以称为数据;“分析”一词并不难理解,以智慧思维的方法对某一事物做出合理的解释,给出结论是为分析,一般会用到数学上的分析方法,比如统计学或者概率论等等。
”的时代。就拿我们自己举例子,比如你的购物习惯、你的喜好等等,这些都会组成数据,对你购物习惯的分析会帮助购物平台更精准的推荐商品,这只是数据分析应用的冰山一角,它还可以应用到金融领域、交通领域、畜牧业等等。
随着数据规模越来越庞大,单靠人力重复的脑力劳动已经无法跟上行业的发展态势,人类的智慧应该更多应用于决断与选择层次,而让数据分析成为人类的一种辅助工具,可以帮助决策者更明确做出预期判断与预测,这也是促使 Python 语言快速走红的原因。
图1:数据分析2) 数据分析的目的从上面介绍可以看出,数据分析并不是一个新兴的概念,只是伴随着时代的发展,或者更准确的讲是互联网的浪潮的发展,推动它逐渐演化成了一个行业,行业的从业人员称为“数据分析师”,从业者的主要职责就是不断从杂乱无章的的数据挖掘出存在价值的有效信息,再通过所研究它们并找出内在规律,这些信息的最终的目的是辅助人们做出决策,管理科学上有一个专业名词就是“不断寻找最优解”的过程。
在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。例如设计人员在开始一个新的设计以前,要通过广泛的设计调查,分析所得数据以判定设计方向。
图2:数据分析3) 数据分析的定义综上所述我们给出数据分析的定义:数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
1) 啤酒与尿布的故事“啤酒与尿布”的故事产生于 20 世纪 90 年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上,他们在购买尿布的同时,往往会顺便买啤酒犒劳自己,这就是上述情况出现的原因。
沃尔玛发现了这一独特的现象,开始尝试将啤酒与尿布摆放在相同的区域的促销手段,从而提高了这两件商品销售收入,这就是“啤酒与尿布” 故事的由来。在这个案例中可以发现,通过研究顾客的购物习惯,发现了购物人群对商品的需求性,商家发现后做出相应的调整策略,从而实现了增加利润的目的,两个毫无关联的商品通过数据分析的手段,挖掘出来了潜藏的商机,这是精准营销典型案例。2) 股票走势预测一入股市深似海,玩过股票的朋友对此深有体会,股票的走势预测也是通过数据分析的手段完成的,通过预测结果提供给持股人参考意见。这里的预测结果并不是无中生有,亦或是是空穴来风,而是经过准确的数据分析之后得出的结论。
现在市面上各种股票分析软件很多,它们就是通过对某支股票之前涨跌数据经过分析后,给出合理的意见,有最近一年的、最近一周的、最近三天的,数据分析的越多得出结论越趋于合理。当然股票行情由于存在的影响因素居多,比如企业并购、管理层更换、国家政策等等,所以股票的数据分析最终只能是一种参考而已,最终的决定权还在持股人手里,但是这种对于股票的数据分析无疑给玩股票的人提供了更多有效信息。
图4:股市预测3. 数据分析的方法通过上面的介绍,大家对于数据分析有了基本的认识,那么应该如何进行数据分析呢?数据分析的常用方法有哪些呢?我们进行简单的了解。1) 数据分析大致过程数据分析过程的主要由识别信息需求、收集数据、分析数据以及评价并改进数据分析的有效性组成。
明确需求,这是确保数据分析过程有效的首要条件,可以为收集数据、分析数据提供清晰的目标,在这个阶段要确定哪些因素影响最终的结论,比如对一个 app 的用户进行分析,会包括对新增用户、活跃用户、启动次数、留存率的分析。收集数据要有目的性,数据要确保真实、全面与充分,比如你要统计平均身高,如果你收集身高 180cm 或者150cm,那就会造成数据偏差。2) 数据分析常用工具我们将如何进行数据分析的方法作为关注的重点,数据的分析最终结果会以直观可视化的形式展现出来,比如柱状图、曲线趋、概率分布图等等,形式有很多种,这里面就涉及到诸多的数学知识。
现在市面上有很多软件,可以帮助我们很快的形成可视化的结果,比如大家都熟悉的 Excel,还有一些亲民类的软件诸如 Origin、SPSS software、 Tableau、PowerBI 等,它们都是数据分析的得力助手,但它们的不足也是显而易见的:操作繁琐,复用性差,功能相对局限单一。而对于程序猿来说主要使用 Python、Matlab、R 语言进行数据分析软件的开发或者从事数据分析的工作。3) 数据分析常用方法
还有诸多种分析方法,比如回归分析、聚类分析等等,我们把它们当成一种模型最合适不过了,因为这些模型也是在数学方法的基础上提炼出来,经过不断验证才形成的,所以你不必纠结不理解原理,只要记住它们的使用场景以及使用流程就可以了。记住你不是科研工作者,你要做就是“拿来主义”,只要解决了你所遇到的问题,又何必钻牛角去研究那些科学家历经 n 多年推导论证出来的公式呢。