想象一下,如果我们开了一家零售店,数据能够告诉我们明天将会来多少消费者、各种商品的销量预计会是多少,我们是不是就可以从容地调整零售店的销售策略,并最大化地控制库存了?要知道,这些问题将对于零售店的利润带来直接的影响。
毫无疑问,预测分析的基础是丰富、多维度且高质量的数据。在不同的场景中,需要搜集的数据都是不一样的。例如,在零售场景中,这些数据可能包括不同产品/时间/地点的销售额组成,消费者的年龄/性别/收入分层,甚至是消费者的表情、情绪等基于计算机视觉的深度数据,这些数据越多、准确性与即时性越高,那么就越有可能产生精准的预测结果。
而在网络分析场景中,需要搜集的数据也远不止简单的页面视图跟踪,还要确保尽可能多地记录用户行为的不同信号。这可能意味着用户需要测量滚动行为、视频消费、下载活动、购物或浏览活动、购物车进展等,有些数据需要工具的支撑,并需要得到用户的授权。当然,这些数据越细致,可能支撑的洞察也就越深入。
需要注意的是,在搜集数据的过程中,一定要注意合规性的风险。GDPR以及网络安全法都已经将数据安全保障作为一个必须要遵守的严格规范,因此,企业在搜集这些数据的过程中,要尽量避免额外、敏感数据的搜集,并最好能够取得消费者的授权。此外,还需要注意这些数据在储存、调用过程中的安全性。
说到数据处理,不可避免的会涉及到数据仓库或是数据湖的使用,在之前的文章中,我们也提到了两者应该如何构建,以及相关的问题,这里就不再赘述。我们需要注意的是,从数据搜集到数据处理的这个链路中,清除数据杂音、去掉重复或是错误数据对于降低数据体量,提升预测结果准确率有着至关重要的作用。
以零售店为例,这些数据应该确保用户以近乎实时的方式了解库存,包括库存不足、商品摆放错误,以及货品补充。无论是店员还是总部员工,均可轻松地在用户友好型界面上对相关信息进行查看、管理和优先级划分。访问这种动态的真实数据还有助于进行战略规划,以提高销量。它支持零售机构了解各项决策所带来的影响,比如改变商店布局和客户路径、降低库存商品价格,或使用数字标牌展示商店特制或通用的企业讯息宣传标语等。
对于拥有大规模数据集的用户来说,通过深度学习等技术来进行大数据应用是最佳的选择。Hadoop 等大数据工具可用于并行处理大量信息,同时为用户提供对底层集群资源的轻松透明管理,其往往支持图形数据库、传输分析、常规批处理、即席查询和机器学习,可以通过数据建模来生成数据预测结果。
对于数据规模中等或较小的用户来说,通过BI工具来进行预测分析是更优的选择:虽然不少分析人员可以熟练地通过回归分析等技能,来进行一些形式的预测分析,但是这对于时间、成本都将是一个考验。而Data Analytics 数据分析平台等BI工具提供了简单、易使用的预测分析功能,让这个过程变得更加轻松。