电子说
来源:黑科技数据
概要:从微观视角细分领域分析大数据行业。
今天带大家从微观视角细分领域分析大数据行业。
虽然这三个领域在功能及应用范围上各有千秋,但实质上可以说是相辅相成:通过大数据的基础分析工具,研究人员可以获得数据内部的逻辑及结果表现,但通常这些结果过于复杂并缺乏合理的表达形式,使数据科学家及企业的管理者无法快速领会并对经营活动进行调整。
因此大数据的可视化方案应运而生,多数可视化方案都作为数据分析工具的延伸而存在,但也有少部分公司另辟蹊径,采用非传统方式将数据的可视化更加贴近需求。BI则是大数据分析和可视化与业务场景的结合,作为企业内部管理工具,使企业的价值有了极大的增长,成为了大数据应用领域重要的一环。
大部分大数据分析企业的现状,可以说是将数据的分析、可视化及数据的采集、治理、集成进行了一体化,以大数据的分析平台形式存在。例如Fractal Analytics除了具备数据分析功能外,还提供自动化数据清理及验证服务,能够返回标准化的结构化数据; Voyager Labs则能够实时采集、分析遍布世界各地的数十亿个数据点,帮助用户进行预测。
上述典型公司主要面向大型企业进行定制化全流程服务,客单价有时高达千万美元级别,例如Fractal Analytics的客户就包括飞利浦、金佰利等大型公司,其高昂的价格及服务令小型企业望尘莫及。
但随着大数据技术的逐渐普及,SaaS化的大数据分析服务将是一个明确的发展方向,而其使用门槛也将大幅降低,从而将大数据分析的能力逐步赋予给中小企业,以真正的实现其基础资源的价值。同时确保企业数据安全的数据脱敏、数据保护市场也会随着SaaS化的到来而逐步拓展出新的市场空间。
目前大数据技术简化、低成本、易用的趋势已经在部分公司的产品策略上有所体现,例如大数据分析公司Domino的产品让数据科学家只需专注于自己的分析工作,而不用关注软硬件基础设施的建立及维护,Datameer更进一步开发出的产品屏蔽了复杂的大数据分析底层技术,通过类似电子表格的可视化数据分析用户界面,让企业的员工能够快速上手使用,RapidMiner Studio可零代码操作客户端,实现机器学习、数据挖掘、文本挖掘、预测性分析等功能。
在大数据分析能力普及的同时,提升数据分析性能、优化数据分析结果的技术研发也在快速进展中。例如SigOpt通过自主开发的贝叶斯优化(Bayesian Optimization)算法来调整模型的参数,获得了比常见的网格搜索(grid searching technique)解决方案更快、更稳定、更易于使用的结果,目前SigOpt 的产品不仅可以让用户测试不同变量,还能够提供下一步的测试建议,以帮助用户持续优化改善数据分析结果。
令人感到欣喜的是,在大数据分析领域还存在着一些颠覆了传统数据分析理论,采用独特方式方法进行数据分析的公司。这类公司的技术对传统数据分析方法进行了很好的补充,在特定领域有着成功的应用。
这类公司中的典型之一是由三位全球顶尖的数学家创立的Ayasdi,它利用拓扑数据分析技术和上百种机器学习的算法来处理复杂的数据集,不仅可以有效地捕捉高维数据空间的拓扑信息,而且擅长发现一些用传统方法无法发现的小分类,这种方法目前在基因与癌症研究领域大显身手,例如一位医生利用Ayasdi的数据分析技术发现了乳腺癌的14个变种,如今Ayasdi已经在金融服务和医疗保健行业中获得了相当数量的客户。
大数据可视化是连接数据分析结果与人脑的最好途径,因此可视化技术的高低也成为了左右大数据企业获客能力的重要因素。目前可视化的发展方向同大数据分析一致,都是朝着简单、自动化、智能的方向在努力。
典型企业如Alteryx是一个提供一站式数据分析平台的初创公司,旨在让用户在同一个平台上完成数据输入、建模以及数据图形化等操作,将数据运算与精美的图像完美地嫁接在一起,并能够和SAS和R语言一样进行数据的统计和分析。
通过可视化帮助用户实现真正的管理能力提升也是重要的功能之一,德国大数据公司Celonis通过流程挖掘技术,从日常记录中提取数据、发现关键因素,并最终揭示公司在业务中的执行情况,能够帮助客户公司提高30%的工作效率。
发展到如今,可视化技术已经不局限于传统的分析结果展示,而是能够直接转换文本、图片等非结构化的数据并直观展现,例如Quid利用机器智能读取大量文本,然后将该数据转换为交互式视觉地图,以节约过去通常会耗费在阅读检索中的大量时间。Origami帮助营销人员将CRM、社交媒体、邮件营销和调查报告等跨平台的数据整合并进行有效分析,使其简单化、直观化、视觉化,人人都能够高效实用。
同时数据分析及可视化对硬件应用的革新也在进行中,开发GPU关系数据库服务的Kinetica获得了5000万美元A轮融资,采用同一技术路线的MapD也已经能够做到比传统计算内核快100倍的速度对大数据进行查询与可视化。
BI技术的发展已经有了较长的历史,但由于技术因素此前一直被限制于企业内部采集与应用,实际发挥的效果有限并且使用率不高。如今在数据采集与应用范围普及与大数据分析、可视化技术的推动下,通过数据仪表板、智能决策等方式提升企业运营效率利器的BI再次获得了资本市场的青睐,Tableau作为BI的代表性企业已经顺利IPO目前市值超过48亿美元,另一家代表性企业DOMO估值也达到20亿美元,成长速度远超传统商业软件公司。
相比于可视化技术,BI更偏重于实际的应用,通过模板化、SaaS化及去代码等方式,BI应用范围不再局限于数据科学家及企业高管,可预见未来企业内部每个员工都可以通过BI工具获知自己及所处部门的各项数据,并能够有针对性的改进工作方式与方向。
已经累计融资1.77亿美元的Looker令用户能够使用自然语言进行查询,降低了查询大型数据集的门槛;GoodData为企业提供大数据分析SaaS服务,其所有的数据分析服务实现了100%云化,企业可以将公司已有数据导入GoodData的云平台,再对数据做跟踪、切分、可视化、分析等处理。
BI领域一个有意思的应用案例是Qlik公司的产品受到了中国海关总署的高度赞扬。海关总署每天都需要进行庞大的数据分析, Qlik则通过图形化数据展示,使海关管理人员不再受平台和时间的限制,能够多视角长跨度的分析,实现了对于现有海量数据的业务的快速展示,极大地促进了稽查效果。
“企业大数据检索、产品大数据分析、大数据咨询预测、大数据平台及机器学习领域
企业大数据检索能够充分挖掘并释放企业数据的潜力;产品的大数据分析使用户行为成为了产品设计与运营环节的重要参考因素;大数据技术与咨询业务的结合则对咨询行业形成了很大的影响,数据技术导向的咨询业务将极有可能成为未来行业的主流选择;大数据服务支撑平台类企业则为大数据技术的普及和实用化做了很大的贡献,是大数据技术生态中不可或缺的一环;最后是机器学习,作为大数据分析的底层技术方法也逐渐开始得到广泛应用。
首先将企业大数据检索、产品大数据分析、大数据咨询预测、大数据平台和机器学习这五个领域的典型企业列举如下,接下来将分版块进行详细介绍。
移动互联网的普及与SaaS服务的兴起令企业沉淀的数据量呈指数级上升,但目前对企业数据价值的挖掘仅仅停留在较浅层面,真正的大数据分析能力还尚未应用。因此如何做好企业内部数据信息价值的发掘成为了关键的第一步。
提升企业数据挖掘检索能力,并将检索的技术门槛降低的典型企业有Algolia,目前其产品具备关键字输入智能容错功能,并提供搜索排名配置,能够让普通员工也能按需要找到自己所需的数据信息。同时Algolia还为移动设备提供了离线搜索引擎,其C++ SDK可以嵌入到应用服务器端,这样即便没有网络连接应用也能提供搜索功能,适用范围很广。
而在SaaS化服务兴起的同时,企业采用多种软件导致内部数据不联通而形成了数据孤岛。根据互联网女皇Mary Meeker的分析,不同行业的公司平均使用SaaS服务的数量从最低25个至高达91个,需要跨平台数据检索分析服务。Maana开发的数据搜索和发现平台Maana Knowledge Graph,其长处便是收集来自多个系统或者”孤岛”的数据,并将其转换为运营建议,可广泛应用于多个行业。
产品大数据分析相对其他应用来说关注度稍低,但其能够发挥的功能并不少。通过收集用户的浏览、点击、购买等行为,不单从宏观上能够察觉用户群体的喜好变化提前应对,微观上还能够构建用户画像,从而做到定制的产品推荐与营销,能够有效的提升用户的消费水平与满意程度。
Mixpanel便是一家提供类似产品的公司,其让企业用户跟踪用户的使用习惯提供实时分析,其产品有用户动态分析(Trends)、行为漏斗模型(Funnels)、用户活跃度(Cohorts)及单用户行为分析(People)等几个模块,全面的覆盖了可能发生的用户行为与场景。
如今大数据技术的发展为事件分析和预测提供了可能,并且准确度和处理速度已经具备了很大竞争力,传统咨询公司的处境类似于现在面对AI威胁的华尔街分析师,或许不久之后就将会被替代。因此随着逐渐出现大数据咨询公司的同时,传统咨询企业也纷纷与大数据技术公司合作,甚至成立了自己的数据业务部门。
Opera Solutions便是一家依托大数据分析的咨询公司,其创始人是咨询行业资深人士,曾创办了商业咨询公司Mitchell Madison和Zeborg。
目前Opera致力于金融领域的数据分析类咨询,通过建模、定量分析给客户提供建议,解决客户的商业问题。例如其计算机系统可以一次性采集数十亿条数据,包含从房产和汽车价格到经纪账户和供应链的实时数据等,通过分析从中获得有关消费者、市场和整个经济体系将如何行动的信号或见解。其客户包含了咨询机构及花旗银行等公司,最近还为摩根士丹利提供了帮助经纪人团队给其客户提供投资建议的业务。
新技术、机器学习与咨询预测行业的结合,相比于仅使用大数据分析技术能够获得更好的效果,也成为了行业内的一个小热点。例如基于社会物理学原理的Endor能够依托少量数据生成统一的人类行为数据集,并比传统海量数据分析方式更早的做出模式识别与判断。在甄别facebook上受ISIS控制的账号的实验中,根据已知少量ISIS账号特性,Endor高效分辨出了新的ISIS疑似账号并且准确度令人满意。
目前围绕着大数据技术与大数据产业生态链发展的,还有许多是平台服务型的公司,这类公司具备一定的技术水平,但主要通过服务大数据技术公司及科研人员而存在,是技术生态中不可或缺的一环。
Dataiku创建了一个云平台,旨在使数据科学家和普通员工更容易获得公司收集的大数据,并通过机器学习库缩短了专家以及数据分析师所需要的时间。
Algorithmia的平台上提供包括机器学习、语义分析、文本分析等通用性算法,一旦用户找到想用的算法,只需添加几行简单的算法查询代码到应用中,Algorithmia的服务器就会与应用连接,避免了开发者的重复劳动。
目前部分向开发者社区业务发展过渡的平台型企业,因其资源已经得到行业巨头的青睐,被Google收购的Kaggle便是一例,通过举办数据科学周边的线上竞赛,Kaggle吸引了大量数据科学家、机器学习开发者的参与,为各类现实中的商业难题寻找基于数据的算法解决方案。同时Kaggle为其社区提供了一整套服务,包括知名的招聘服务以及代码分享工具Kernels。
机器学习,是模式识别、统计学习、数据挖掘的技术手段,也是计算机视觉、语音识别、自然语言处理等领域的底层技术,在附件的介绍中大家可以看到,微软Azure、Google云平台及AWS都推出了自己的机器学习产品,而众多的机器学习创业公司则通过提供有特色的技术或服务进行差异化竞争。
已累计获得了7900万美元融资的Attivio专注于利用机器学习技术通过文本进行情绪分析,提供有监督的机器学习与无监督机器学习两种技术,帮助企业通过识别企业语料库中的文档进行情绪建模与分析。思科通过Attivio的智能系统令销售人员能够在与客户合作时依据对方的情绪、消费能力等数据推荐合适产品,从而节省了数百万的销售运营费用,同时节约了销售团队15-25%的时间。
DataRobot的业务是搜索了数百万种可能的算法组合,并进行预处理、特征计算、转换和调整参数,为用户的数据集和预测目标提供最佳模型,使用户无需数据科学专业背景也能在几分钟内构建优秀模型,例如银行利用Datarobot能够自动构建非常准确的预测模型,识别欺诈性金融交易从而避免损失。
全部0条评论
快来发表一下你的评论吧 !