预测建模,机器学习和其他先进的分析应用程序,有助于挖掘大数据系统的商业价值,但对于许多用户来说,这需要使用大量的工具,并付出一定努力才能达到预期。
零售商Macy's五年前部署了Hadoop集群,在此之前,它面临着一个严峻的问题,那就是如何有效处理各种系统生成的销售和营销数据。Macy's这些年一直在积极扩展在线业务,数据处理的问题也变得越来越严重,因为需要进行处理分析的数据量一直在增加。
该公司的传统数据仓库架构有着严格的处理限制,无法处理非结构化的信息——如文本。历史数据基本上也是无法自由访问的,通常这些数据会被归档到磁带上,运往异地存储设备。“数据科学家和其他分析师只能在特定时间段的数据上进行数据查询”,Macy's负责市场分析和客户关系管理(CRM)系统的主管Seetha Chakrapany说道,“他们受到了严重的束缚,无法很好地完成工作。”
Hadoop系统部署后,上述问题得到了一定的缓解,该系统提供了大数据分析架构,也支持基本的商业智能(BI)和报表流程。“Hadoop集群能够真正成为Macy's企业数据分析平台”,Chakrapany 说道。现在,分析团队一直在使用Hadoop平台,市场营销、销售业务,产品管理等部门的数千名用户得以访问上百个BI仪表板,这些仪表板的数据都来源于Hadoop平台上的分析。
但Macy's的大数据环境可不仅仅只有Hadoop集群。例如在前端,Macy's已经部署了多种分析工具来满足不同的应用需求。在统计分析层面,这家零售商则使用SAS和Microsoft R Server完成,后者基于R开源统计编程语言。
还有其他一些工具负责提供预测分析,数据挖掘和机器学习能力。包括H2O,Salford Predictive Modeler,Apache Mahout开源的机器学习平台和KXEN——三年前由SAP收购,已经集成到SAP BusinessObjects预测分析软件中。数据展示上,Macy's使用Tableau提供的数据可视化工具以及AtScale提供的基于Hadoop技术的BI软件。
更好地分析大数据
这些不同的工具是确保大数据分析架构准确有效的关键要素,Chakrapany 在2016年Hadoop峰会上的演讲和随后的采访中说到,使用统计方法和机器学习来进行高级分析过程自动化是大势所趋,他强调。
Chakrapany说,“我们一直处于实验状态。由于数据量巨大,不可能采用人工的方式来分析这些数据。所以,我们使用大量的统计算法来帮助我们认清业务情况。包括客户分析、订单分析、产品和市场的数据分析,此外还有从网站捕获的客户点击行为记录。”
类似的情况也越来越多地出现在其他企业中。作为大数据平台,如Hadoop,NoSQL数据库和Spark 处理引擎被企业广泛采用。部署先进的分析工具,帮助企业分析业务数据流,这类方式被越来越多的企业所接受。
2016年11月,TechTarget针对企业应用BI和分析软件进行的一个调查显示,7000的受访者中,26.7%的人表示,他们的企业已经部署了预测分析工具。接下来预测分析软件在企业未来一年的计划投资榜单中高居榜首。有39.5%的受访者表示,预测分析软件与数据可视化、自助服务BI和企业报表等所有更主流的BI技术对于企业来说不可或缺,甚至更为重要。
2015下半年进行的一项TDWI调查还发现,越来越多企业计划使用预测分析软件来支持业务。在这种情况下,309 名BI,分析和数据管理方面的专业人士受访者中,有87%的人表示,他们的企业已经是上述技术的活跃用户,或预计在三年内实施这些技术。其他高级的分析形式,例如模拟和指令性分析,用户数量也在逐渐增长。
预测分析的使用增长情况
用算法找到数据隐含的意义
机器学习工具和其他类型的人工智能技术——深度学习,认知计算也越来越多地受到关注,这些关注主要来源于技术用户和供应商,他们的分析团队期望使用自动化算法来帮助他们进一步探索数据集的意义。
Progressive Casualty Insurance Co是已经开始接触这些技术的公司之一。这家保险公司使用 Hadoop集群来加速其Snapshot程序, 该程序主要负责受保人的保险费用折扣,折扣力度则基于驾驶员的安全驾驶情况,其驾驶数据采集于车载诊断设备。
集群是基于Hadoop的 Hortonworks分布式框架的,它使用了60个计算节点用于提升 Snapshot程序的速度,Progressive的大数据分析架构包括一系列的工具,如SAS,R和H2O,该公司的数据科学家使用这些工具,在Hadoop系统中进行数据分析和处理。
数据可视化软件会备份大量的数据,数据科学家在这些数据上运行预测算法,以帮助参与该计划的用户评估其安全驾驶情况。他们还使用分析结果确定不良的驾驶习惯和可能的机械问题,如发电机的信号异常,该问题可以通过分析电压异常波动数据来判定。
预测分析和机器学习的功能十分强大,Pawan Divakarla——Progressive负责数据分析业务的主管说道,“你有那么多的数据,并且你具有很好的模型用于分析。你 需要一些东西来帮助你,让工作变得更为有效。”
更深入的大数据分析
Yahoo在2006年成为第一个将Hadoop应用于生产环境的用户,当时,Hadoop的开发者之一Doug Cutting正在这家网络搜索和互联网服务公司工作,Yahoo宣传自己是当今Hadoop平台最大的用户。Yahoo的大数据分析架构,包括40000多个节点,300多个应用,40个集群,Yahoo将Hadoop与Apache HBase数据库,Apache Storm 实时处理引擎和其他大数据技术结合使用。但这家公司并不满足于现状,它一直在努力将这些技术扩展到新的领域。
Yahoo负责大数据和机器学习架构的副总裁Andy Feng说道,“即使在10年后,我们仍然会发现这么做的好处,在过去的三年里,他花了大约95%的时间专注于机器学习工具和应用上。在过去,可以构建并运行现有机器学习技术上的自动算法不足以在Hadoop集群处理如此庞大的数据集,其准确性无法令人满意。”
“我们一直尝试机器学习,但我们的尝试有着一定的约束,所以产生的结果是有限的,Yahoo负责云计算和大数据平台产品开发的高级总监Sumeet Singh补充说道。不过,他和Feng都表示,近年来,情况已经大为好转。“我们看到,人工智能和机器学习重回人们的视线,其中一个主要原因就是数据量的增长,”Singh指出。
例如,Yahoo现在正在运行一个机器学习算法,该算法使用语义分析过程,更好地将付费广告搜索结果页面与用户输入的搜索关键字进行匹配,它将每个搜索的营收提升了9%。另一个使用机器学习的应用可以让Yahoo Flickr在线照片和视频服务的用户能够按照视觉内容来对图像进行组织,而在以前,他们只能按照拍照日期排序。该算法还可以标记那些不适合在工作中查看的照片,以帮助用户避免在办公室看照片时产生的尴尬情况,Feng说。
Hadoop集群节点新增了图形处理单元,让这些应用成为了可能。Feng表示,GPU可以进行传统CPU无法完成的图像处理。Yahoo在大数据分析架构中新增了Spark处理引擎,接管了一些处理工作。
此外,Yahoo还部署了MLlib,Spark的机器学习算法内置库。然而,这些算法太过于基础,Singh说。这促使大数据团队开发了一个深度学习算法库CaffeOnSpark, Yahoo已经在GitHub网站上传了该算法库,使用者可以自由下载。