您好,欢迎来电子发烧友网! ,新用户?[免费注册]

您的位置:电子发烧友网>源码下载>数值算法/人工智能>

运营商构建大数据能力的实践探索

大小:0.07 MB 人气: 2017-10-13 需要积分:1
2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会 (Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。
  2015中国大数据技术大会首日全体会议中,中国移动苏州研发中心总经理助理兼CTO孙少陵在主题演讲中表示传统企业在大数据转型过程中,通常要经历BI升级为大数据平台、组织架构转型和内部数据整合、主动数据采集三个阶段,目前中国移动已完成第一阶段,第二阶段已开展,第三阶段已初露萌芽。
  
  中国移动苏州研发中心总经理助理兼CTO 孙少陵
  他结合实践案例,分享了中国移动在大数据领域的探索成果并总结了运营商大数据系统设计思路:
  集中化的数据管理。全网数据跨省、跨地域数据的高效存储和统一管理。多样化的服务模式。与应用解耦,提供灵活的数据服务。精细化的资源管理。实现多租户支持,最大程度地提高资源使用效率。高效的任务调度。同一平台高效提供多种类型应用的支持。
  以下为演讲实录
  孙少陵:大家下午好!今天大家话题的气氛都是比较积极向上的,大数据现在这么热,为什么会有冷思考?在目前互联网尤其移动互联网的条件之下,我们中国移动现在也算是个传统行业,传统行业在发展大数据转型过程中面临确实有很多困惑,所有的公司都认为中国移动是个富有数据的公司。
  在大数据这个时代,对中国移动给予了非常高的期待,但我们在运作的时候,不管是内部应用,还是在外部变现,现在都遇到很多困惑的问题。其实也是借这么个机会,希望能够抛砖引玉,大家一起共同思考。
  我的演讲分两个部分,第一是传统行业在大数据时代转型方面的思考,第二是中国移动在大数据方面的实践和探索。
  传统行业在大数据的思考
  大数据现在继续成为行业热点,不管从国家政策方面,还是从产业发展的角度,都对大数据抱有非常高的期望。大家从今天上午发布的十大热点能够看得出来,
  大数据处于上升的阶段。今年有个变化,在Gartner新技术炒作曲线里面发现没有大数据了,这个我跟Gartner探讨过,Gartner并不是说在新技术里面大数据已经不重要了,是大数据变得更宽泛,这个东西已经慢慢嵌入到各行各业各类应用,所以今年专门有个大数据自身的炒作曲线,比如有大数据的安全和隐私的炒作曲线,所以并不是说大数据已经变得不那么热了,而是说它更热了,现在很多分报告去探讨大数据在各行各业各领域的应用,包括供应链、物联网、金融、医疗等。像麦肯锡等对大数据提出了很高的预期,包括未来它在各行业中的产值,以及未来人才需求方面。
  在大数据时代我们实现转型,面临很多问题和挑战,互联网公司是把大数据作为互联网+的利器,互联网公司利用手里数据的优势实现业务拓展,如果有了这种商品交易的数据,它可以做银行、做支付。传统行业能不能+互联网?在现有的领域中,通过大数据助力实现转型,这是实现行业困局的突破。
  开展大数据有下面几个典型的问题:
  第一,技术能力不足。在传统行业,IT一直作为后端的部门,IT一般不是直接跟它业务直接相关,它经常被IT作为后端的支撑手段,大量通过外包或采购方式实现,所以在自身软件开发和大数据平台运维、大数据新技术应用、大数据分析挖掘方面能力相当有限。从前面几位专家介绍我们能够感受到,现在大数据没有达到易用性是普通的非IT人员就可以很容易操作的,它各个环节需要非常专业的IT支撑能力。
  第二,数据条块的分割。因为传统的业务单位都是根据它的业务去组织它的组织架构,所以不可避免造成很多数据分散在它不同的系统当中。比如对中国移动来说,我们现在IT支撑系统分BOM三个域,解决计费、用户注册数据、经营分析,O域主要是网络运维,网络采集的数据,M域是内部的ERP等办公类数据,这三个域分布在三个不同部门,三个系统分别建设。目前这个数据间有壁垒,而且这个数据标准也不统一,就算简单的把三个域合成一起,也很难带来数据融合以后“1+1大于2”的效果,这方面也限制传统行业对大数据的应用。
  第三,组织架构不匹配。因为我们现在不同的数据分散在不同的部门,没有个专门的机构去管理这些数据,对这些数据进行统一的标准,对这些数据进行维护,所以目前我们数据的使用都在自己的条块之内。
  第四,思维模式的转变。传统行业某种意义上来说,在利用大数据方面还处在摸索阶段,技术和业务知识方面可能并不是主要的问题,关键是意识的问题。今天上午王坚先生提到一个问题,他认为数据不是采集的,但我有不同的看法。我认为传统行业开始主动的收集数据,重视它行业中各种各样的数据,甚至在它业务系统、业务流程设计时,把数据采集作为一个很重要的工作纳入进去,这个公司某种意义上才可以说是实现了大数据的初步思维模式转变,传统行业是没有这方面的意识。如果把业务系统的设计、业务流程的设计,跟数据的采集分析有机融合在一起,我认为这个真正是未来传统行业实现互联网+转型的很重要步骤。我们看互联网公司现在在走什么样的路,它的业务流程通过引入大数据,实现了业务的智能化和自动化,这是未来互联网+和工业4.0要达到的目标。所以思维转变对传统行业有效利用大数据实现业务转型起到非常重要的作用。
  传统行业大数据发展路径一般分三个阶段:
  第一,技术升级,我们可以把它形象比喻成“BIPLUS”,传统行业都有BI,不管是做决策支持,还是做市场营销支持,一般都是用IOE的架构去实现的。在第一阶段技术升级的时候,传统行业一般会随着技术发展的趋势引入像Hadoop、Spark、MPP数据仓库等等新技术,这个阶段大家主要关心新技术对传统技术替代过程中怎么提高效率和降低成本。目前大部分传统行业是用混搭的方式,因为现在部门业务线条是孤立的,所以往往它内部会形成多个数据仓库系统,出现不同的Spark、不同的Hadoop集群。
  第二,数据融合和组织架构调整的阶段。在数据应用的过程当中,大家发现现在技术手段具备了,现在有Spark和Hadoop,可以分析存储大量的数据,但是发现数据源存储在不同的数据系统里面,这时候有整合的需求存在。这种整合必然带来组织架构的调整,原来业务按条块分割、系统按条块分割去建设,没有统一的团队去整理和维护这些数据的话,这种数据整合肯定无法实现。
  第三,思维模式的变化。思维模式的变化就是把大数据作为企业的一个思维习惯,所有的经营活动都考虑数据的收集和采集,都考虑未来业务流程中如何利用这些数据去优化、去发现问题,所以收集数据会变成这个阶段业务设计的一个重要考虑。随着数据对于业务优化效果的体现,会出现数据饥渴。这个阶段也许有的公司会出现盲目的收集数据,数据会大量的飞速增长,同时大数据和业务系统深度整合,同时研发、运营一体化实现快速迭代,使业务更加智能化和自动化。实际上对传统行业来说,思维转变是实现互联网+转型的一个关键。
  中国移动大数据探索实践与思考
  中国移动是一个富有大数据的公司,现在我们的组织架构也是个典型的传统行业,不光是我们在公司内部有不同的线条,比如做业务支撑的,做网络维护的,做市场营销的,同时我们也是一个分区域的公司,我们现在有31家省公司,现在还有18家的专业公司。
  数字类型可以看一些数字,比如我们有超过8.2亿用户,100万机站,经营分析系统里有10B以上的数据,每分钟有大量用户的呼叫等等,实际上所有这些动作每天都在产生大量的数据。之前我们这个公司有个测算,就是中国移动到底有多少数据,我要把这些数据集中在一起会有个什么效果。网络部最后做了个测算,我们一个大的省公司比如广东公司一天数据可能几百P,第二,如果把这些数据集中在一点,比如都传到哈尔滨或者呼和浩特的集中数据中心,需要重构一个中国移动的CMNET,就是我们Internet的骨干网。所以某种意义上来说,一方面可以看到这个数据量非常大,另外一方面我们可以看到这个投资也是非常惊人的。
  目前中国移动数据主要用于网络优化、业务创新、精准营销、决策支持,这个跟其他很多公司使用大数据的方式和方法都一样。中国移动在大数据的探索方面,我个人自我评价的话,觉得是初步完成了第一阶段,现在在部分省公司开始做第二阶段,集团也在开始考虑做第二个阶段,第三个阶段只能说现在有些萌芽:
  第一阶段,公司在2011年、2012年时就在激烈的讨论,就是Hadoop这种新型技术到底适用不适用中国移动,我们传统部门有很多质疑的声音,他们认为MPP数据仓库出现了,现在传统的业务尤其话音等等这样的业务,应该用比较稳定的商业系统。我们作为一个研发单位,积极推进Hadoop、Spark、流计算等等新技术,最终的结果是到了去年、今年这个质疑不存在了,大家开始稳步建设,在系统当中不断引入新技术,同时开始业务中大数据的工作。
  第二阶段,现在有些省公司把数据进行集中化,有的建个部门,有的在部门下面专门建个团队,实现三个域数据的融合。
  第三个阶段,这里想结合个案例,说一下我们为什么认为传统行业要改变思维模式,那么我们第三阶段到底都做了些什么。这里我们以福建移动为例,最近福建移动做了件事情,他们把传统的网络性能管理系统做了重新的开发,这个网络性能管理系统目前在公司内部的效果非常突出,远远好于其他单位用传统方式去做的。这里有哪些不同于传统的网管系统的特点?
  福建公司是最找实现BOM三个域整合,福建公司业务支撑系统部下面专门设计了大数据中心,BMO三个域的数据现在都放在它那统一进行管理,它现在也是部署了好几个Hadoop集群,进行数据的管理和维护。刚才说性能管理系统,它实际上是网络部在这个平台上的应用,因为它实现了三域数据的融合,所以给我们这个性能管理系统带来了一个进行创新的物质基础。我们的网络部根据它业务上的经验,把原来传统的网管系统只关注网络这个环节拓展开来,变成端到端的去关注整个网络的运行情况。
  除了原来传统的网络,现在包括小区、用户、终端、包括我们开设的业务平台,所以定义“五元”、“五阶”概念,“五阶”是业务流程,也就是说我们打通一通电话或者连接上网过程中有五个步骤,这五个步骤中产生所有数据挖掘收集过来,并且进行建模,在某种意义上是数据融合带来的好处。
  在它的运维方式上实现了突破,这个突破体现在什么地方?第一,因为它有不同维度的数据,所以他们提出来一个“空间置换法”,也就是说它原来有很多故障的发现和排除,某种意义上来说它是端到端的一点点去找故障的方式。现在它可以做横向比较,比如某个业务访问有问题,那么它看一下同类业务平台,比如你是个视频类的,那么其他视频类的业务是不是有问题,通过类似于这样的方法逐点去排除,最后很快的定位到底故障在哪。第二种方式,他们提出来叫“主动运维”,主动运维跟我们传统运维的观念产生很大的变化,传统运维的运维系统是只监不控,也就是说我在运维的过程中不会调整我的网络,但是他们在发现问题以后会去调整它的业务流量、流向等等,做这样一些工作,去看调整之前和之后的变化,通过这种方式去发现问题,甚至发现一些还没有出现但潜在存在的问题,所以他们叫“主动运维”。
  他们还培养了一个小的团队,这个小团队的人熟悉Hadoop和Spark等等编程,这些人是业务方面的专家,他可以通过业务方面的知识,快速利用这些新的技术去解决问题,研发和运营实现了一体化,所以他能够比较快速的把他的想法变成可以用的东西。刚才说的这几点是我感觉出来的,就是一个传统行业大数据带来思维的变化,它应该有这样的一些反映。
  中国移动大数据发展路径,公司内部也慢慢意识到大数据对我们来说非常重要,所以公司首先成立了苏州研发中心,第一,苏州研发中心首先是个研发单位,第二,它的定位是云计算、大数据、IT支撑系统这三大部分。目前我们现在已经有超过500人,研发人员占85%以上,我们的职责,一方面为公司内部提供新的技术和产品,比如Hadoop、Spark等等,我们都维护自己的定制版本,同时,在此基础上我们做定制化等新工作,让我们新的技术在现在的应用中更容易让非IT背景的人员使用。
  现在公司提倡所有的省公司鼓励员工去做开发,就是大家培养一个开发的能力。作为传统行业,我们发现有很多能力是缺失的,在云计算和大数据时代,我们的一线员工不会开发,不会去应用这些新的基础,在很多工作推进的时候都会有问题。所以像今年中国移动也有自主开发大赛,它的条件就是所有的这些应用都是我们员工自己写代码做的,同时,像今年我们的科技进步奖评奖之类的,要求也必须是自主研发,所以大家可以看到传统行业也在转变。
  在数据管理、大数据的开放方面,我们一方面积极的去建立公司内部的数据管控体系,首先知道内部的数据的家底是什么,要摸清楚,第二是数据的标准化,未来对数据质量有管控。
  前面很多专家提到了,尽管大家对大数据未来的商业预期非常大,但实际上现在看起来效果并没有那么明显,有很多公司过来找中国移动,说像咱们交通行业可以一块做点什么,也有一些比如像客户的营销等等方面,说我需要你中国移动的数据,甚至有很多金融的行业认证方面也需要你的一些数据。但我感觉现在都没有找到一个解决用户痛点的应用,也就是说这个东西好多都不是刚需,顶多是解决一个点。目前我们在推进大数据过程中,一方面积极,第二方面比较慎重,所以我们非常关注大数据这个系统它的建设和应用怎么去高效和低成本。
  在整个大数据系统设计思路上来说,我们按这四个方面去考虑:
  第一,集中化数据管理,因为我们目前的数据是分散存放,它的资源利用率非常低,数据冗余很高,同时不利于多域数据融合和交叉使用,所以集中的数据管理,对结构化和非结构化进行统一管理,对跨省的数据也统一管理,同时有效描述这个数据,让非这个业务领域人通过这个描述很容易理解,同时知道怎么用。同时,数据安全和数据质量方面也非常重要。
  第二,多样化服务模式。现在数据它本身的管理、维护、和数据的应用对人的能力要求是不一样的。未来集中化的数据维护和数据管理团队更应该是IT背景,怎么把这个数据有效管好,并且做初步的预处理等等。但是真正的应用一定要放给业务人员,因为懂业务的人才能最好地应用这个数据。这里问题在于中间的界面,我们觉得未来数据一定要服务化,有三种模式,第一种,DaaS,数据就是服务,举例来说,某个单位它需要数据,作为数据管理的团队,我按你的要求把不同数据整合成个宽表给你,这就是DaaS的服务。第二种,PaaS,尤其外部数据服务的时候,有些数据没有办法离开数据平台,王坚博士也说他们的数据尽管做了很多脱敏,但是给了第三方以后,开发者能够从中发现很多有隐私的信息,所以实际上只有数据维度够多,尽管你去掉了你认为是隐私的数据,最后还是能把用户非常机密的信息挖掘出来。在这种条件之下我们来提供平台,提供各种各样数据分析挖掘的工具,你在我的平台上用我的数据运行出你需要的结果,这是就PaaS,第三种是SaaS,比如出报告可以通过这种模式。同时,这个平台应该高度的资助化和自动化,用户在平台上很容易获取他要的数据集,把多个数据集整合在一起,申请他相应需要的服务,比如Hadoop、Spark或高级工具,最终实现它业务想要的结果。
  第三,精细化的资源管理。这要实现多租户支持,通过虚拟化的技术。我们现在非常关注容器技术,因为我们未来大数据系统必定是多任务并行运行的环境,在这种并行运行的环境我们必须对它资源进行有效的处理,把这个任务有效的调度,最大限度使用我这个平台。所以我们要求未来一定要是个支持多租户的环境。同时,冷热数据要进行分级存储,对一些不需要的数据,要把它放在低成本的存储系统里,同时,对于这个系统要有一个系统老化的管理,就是有些长期不用的数据,或者这个数据需求很小,在系统内部应该把它剔除掉。同时,网络压缩节省带宽。
  第四,高效的任务调度。我们要执行并行计算框架,比如Spark是我们非常关心的新技术,Spark的确在高性能、要求实施性高这样一些内存类的计算里面非常有优势。但是我们还有一些面向离线批处理的,还有一些流式等等,各种各样计算模式在平台中都要去支持,适应各种不同的业务类型。同时,要支持标准SQL,给客户更好的UI,支持传统数据处理、数据挖掘、数据工程师所习惯用的接口和工具。当然,我们希望在可视化上做工作,比如数据挖掘、ETL、流式处理的工具都可以实现拖拉拽,把常用的模型算法固化在里面,这样对业务人员来说,他简单配置就可以达到要形成的数据挖掘和分析的业务流程。
  这是按照我们刚才的设想去做的一个系统架构图,苏州研发中心现在基本实现这个系统,当然,很多地方还在不断优化,其实有很多问题,像安全问题,像源数据管理等等这样的问题,我们希望跟业界共同探索,因为在业界是比较新的,需要不断探索的技术领域。
  在应用方面,我们跟上午联通领导讲到的比较类似,我们主要的应用,一方面包括网络优化,二是市场营销,三是客户体验,同时我们现在开始探索一些外部大数据变现的服务。在这个过程当中中国移动不断对大数据应用进行深入探索,包括像我们的垃圾短信,这是大数据应用的新领域,像骚扰电话一直困扰中国移动,怎么用大数据方法自动识别,如果我们用传统手工的方式去解决的话,这个工作量太大。
  下面从几个案例分析来讲,一方面跟大家分享中国移动和中国移动苏州研发中心到底在做什么,第二方面是我们大数据目前有几种比较典型的商业模式在去做。第一个,不良信息治理,中国移动很多年一直在做,每年315我们都很紧张,因为有几年的315晚会上都点名我们的垃圾短信,其实中国移动在这方面投入很多工作,原来的方式都通过用户行为识别、模式匹配,比如发垃圾短信的发送特点、频率、时段以及号码群体等等,这些都能够体现出来他是个恶意用户,他发的短信可能是垃圾短信,所以原来传统方式是我们用行为匹配、用户行为特征方式进行垃圾短信排除,但是这种做下来,每天有几十万上百万无法识别的短信要到我们后台人工去做。
  中国移动在河南那边有个安全的操作中心,他们很多人在人工去做这方面的事情,所以带来一个需求,就是我怎么样通过大数据的方式再进一步把无法识别的垃圾短信搜集出来,然后节省人工的工作量。苏州研发中心配合集团公司的信息安全中心在做这个事情,它用了一些自然语言处理的方法,去对内容进行分析,发现比如什么样字段的组合在垃圾短信方面概率很高。当然,现在效果并不是很理解,比原来基础之上再进一步滤掉百分之三四十垃圾短信的数据,但是剩下那些还需要人工去做。所以我们也在考虑结合文本的深度挖掘,未来结合语义的理解,就是我们怎么判断垃圾短信,希望机器用同样的方式进一步提高排查率,降低我们对人工方面的支出。
  第二个案例是服装行业的大数据解决方案,这是我们的一个数据挖掘工具,跟江苏的时尚云公司,以及印度塔塔公司合作,由塔塔作为集成方,我们提供数据挖掘平台,给服装时尚云提供服务。服装时尚云的数据是来自于比如政府,来自于它互联网的收集,还有一些其他企业的渠道。它想做一个B2B的大数据服务,给一些服装厂家提供市场需求、市场营销方面的信息支持,同时它去分析一下比如原材料,还有时尚领域颜色、面料等元素的发展趋势,这个它用得也是非常好,中国移动苏州研发中心只提供个平台。这个阶段大家大数据的商业模式大部分是做软件,我们从2015年工信部电信研究院发布的一个报告可以看得出来,现在大数据产业大概百分之三四十是软件,所以现在这个商业模式是目前比较成熟的。
  第三个案例是一个制造业的企业,就是三一重工,它比我们更是传统行业,它的业务领域跟IT的距离更远,我们在交流的过程中,他希望我们帮他托管数据,去做数据的分析,在未来工业大数据怎么去优化工业提供一些帮助。他最初的诉求是,他数据原来存在Oracle数据库里面,这个Oracle数据库在处理大量数据时能力是不足的,比如政府希望三一重工调一下全国挖掘机开工的数据,这个数据某种意义上代表前一段时间中国房地产市场到底怎么样,国家政府一直打个问号,统计局的数据有很多不可信,它希望从这方面拿到第一手的数据,但是三一重工现有的平台无法处理这个东西。我们在自己的云计算平台上,给它搭建这样一个大数据系统,它把数据托管过来,未来我们能帮它做初步的数据统计。当然,后续我们还在探索如何进一步的去更紧密的合作,比如我帮他做挖掘机的运行状况的统计和分析,比如油耗的分析和预警等等,通过大数据和传统业务的结合,真正让他实现业务的升级,这也是往工业4.0或者互联网+前进的一步。在这种商业模式过程中,首先我是平台的出租方,我们提供云计算的基础设施,数据存储和托管的基础平台,同时,在这个基础之上我们去探索,如何利用我们的专业知识帮助它提高在业务方面的优化,这也是我们在探讨的商业模式。
 

非常好我支持^.^

(0) 0%

不好我反对

(0) 0%

      发表评论

      用户评论
      评价:好评中评差评

      发表评论,获取积分! 请遵守相关规定!