0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据时代还需要数据治理吗?如何面向用户开展大数据治理?

电子工程师 来源:lp 2019-03-19 14:43 次阅读

前段时间写作了一篇独家 | 以数据价值视角,构建工业互联网全景认知“数据线”,获得了业界行业人士的关注和好评。近期也在围绕数据条线深挖,渐次发现了很多专业领域,比如“数据空间”、“数据治理”、“数据中台”等等。

实际上,这些领域的研究和应用在大数据崛起时已经得到挖掘,但在制造业的工业大数据领域,相对谈的较少。而这俨然又是一个新的天地。

在大数据和工业互联网显得热闹的今天,同时带来了“概念泛化”的困扰。在“大数据”面前加上“工业”二字,但并不足以代表“工业大数据”的真实意思,在“互联网”面前加上“工业”二字,当然也不能代表“工业互联网”的内涵和边界;

尽管如此,“数据”价值的挖掘和释放,大数据和互联网时期的关于“数据”领域的方法和策略,也许对于制造领域的工业大数据和工业互联网有所借鉴,不妨先看为敬。

本文目录:

一、大数据时代还需要数据治理吗?

二、如何面向用户开展大数据治理?

三、面向用户的自服务大数据治理架构

四、总结

一、大数据时代还需要数据治理吗?

数据平台发展过程中随处可见的数据问题

大数据不是凭空而来,1981年第一个数据仓库诞生,到现在已经有了近40年的历史,相对数据仓库来说我还是个年轻人。而国内企业数据平台的建设大概从90年代末就开始了,从第一代架构出现到现在已经经历了近20年的时间。

在这20年的时间里,国内数据平台实施者可以说是受尽折磨,数据项目一直不受待见,是出了名的脏活累活。

可以说,忽视数据治理给数据平台建设带来了不少问题。随处可见的数据不统一,难以提升的数据质量,难以完成的数据模型梳理等源源不断的基础性数据问题,限制了数据平台发展,导致数据应用不能在商业上快速展示效果。

举一个典型商业智能应用的例子,管理驾驶舱可能很多朋友都听说过,很多企业建设了管理驾驶舱,但是建设完之后往往成为摆设,只有当领导需要看的时候,大家才去拼命改数据。

为什么数据平台的建设遇到这么多“坎”,而且难以真正发挥其商业价值?其实核心问题还是数据本身不统一,数据内容准确度不高。

数据治理逐渐受到各行业认识

我国最早意识到数据治理重要性的行业银行是金融行业。由于对数据的强依赖,金融业一直非常重视数据平台的建设,经过几代数据平台的验证,发现数据治理是平台建设的主要限制因素,而且随着投资和建设的投入增加,对数据治理的重要性的认识也越来越深刻。

人民银行与银监会也非常重视数据治理,从08年开始,在全国银行业推行统一的数据标准,控制行业的数据质量。工行、建行、国开等大型银行,对数据治理都非常重视。08年前,我们与国开一起开始了数据治理的建设,下图展示的就是国开银行针对数据全生命周期的数据管控。

如今各行业都开始了大数据平台的建设,希望利用大数据的能力,来实现数字化转型。大数据平台的建设本质上还是数据的建设,传统数据平台碰到的所有问题大数据平台都有可能碰到,由于数据量级的变化,大数据平台必然还会产生新的问题。

大数据时代下需要新一代的数据治理能力

目前大数据平台的突出问题主要体现在以下四方面:

数据不可知:用户不知道大数据平台中有哪些数据,也不知道这些数据和业务的关系是什么,虽然意识到了大数据的重要性,但平台中有没有能解决自己所面临业务问题的关键数据?该到哪里寻找这些数据?

数据不可控:数据不可控是从传统数据平台开始就一直存在的问题,在大数据时代表现得更为明显。没有统一的数据标准导致数据难以集成和统一,没有质量控制导致海量数据因质量过低而难以被利用,没有能有效管理整个大数据平台的管理流程。

数据不可取:用户即使知道自己业务所需要的是哪些数据,也不能便捷自助地拿到数据,相反,获取数据需要很长的开发过程,导致业务分析的需求难以被快速满足,而在大数据时代,业务追求的是针对某个业务问题的快速分析,这样漫长的需求响应时间是难以满足业务需求的。

数据不可联:大数据时代,企业拥有着海量数据,但企业数据知识之间的关联还比较弱,没有把数据和知识体系关联起来,企业员工难以做到数据与知识之间的快速转换,不能对数据进行自助的的探索和挖掘,数据的深层价值难以体现。

通过分析以上四类问题,我们发现传统数据平台面临的问题,在大数据时代不仅没有消失,还不断涌现出新的问题,传统的数据治理需要提升能力,来解决大数据平台建设过程中的这些问题。

在传统数据平台阶段,数据治理的目标主要是做管控,为数据部门建立一个的治理工作环境,包括标准、质量等。在大数据平台阶段,用户对数据的需求持续增长,用户范围从数据部门扩展到全企业,数据治理不能再只是面向数据部门了,需要成为面向全企业用户的工作环境,需要以全企业用户为中心,从给用户提供服务的角度,管理好数据的同时为用户提供自助获得大数据的能力,帮助企业完成数字化转型。

二、如何面向用户开展大数据治理?

面向用户的大数据治理实践案例

很多企业经过一段时间的摸索,已经看到了用户对大数据治理的这种需求,大数据治理也持续在各行业的大数据平台建设中得到关注。

在我参与过的项目中给大家举个例子。最近普元主导了某电力公司的新一代数据治理平台建设,我们融合该电力公司现有的数据管理工具建设成果,以元数据为基础,实现了贯穿数据设计、产生、存储、迁移、使用、归档等环节的数据全生命周期管理,以及数据从源端到数据中心,再到应用端的全过程的管理,做到了以用户为中心,通过大数据治理,为用户提供了更便捷、更灵活、更准确地获得企业大数据资产的能力。

该电力公司的大数据治理的起点是先以元数据为基础,构建数据资产管理体系。从用户的视角说明白企业数据有哪些,哪些用户能够使用。在该电力公司的数据资产定义过程中,我们选择了贴近业务用户的数据分类方案,梳理和识别企业运营数据资源。

我们又基于第一步形成的数据分类管理体系框架,梳理、整合各级各类数据资源,建立了数据资产树,按照不同数据细类制定相应的工作模板,对指标数据和明细数据进行梳理和归并。

所有资产梳理和控制的最终目标都是为了用户能够使用数据,我们通过L0–L1–L2三个层次的定义,以业务驱动为导向提高数据查询的实用性。

L0:按照电网业务域–业务主题–业务活动的结构化方法,对查询进行分类导航。

L1:依据业务和数据源中数据资源情况,按业务主题对数据进行预处理和定义。

L2:将数据库表字段等技术元数据转换为业务人员可以理解的业务元数据。

我们通过梳理数据、管理数据、提供数据、关联业务,形成了一整套以用户为中心的大数据治理能力,最终为用户直接使用数据提供了帮助,从而使数据治理完成了从以管控为中心到以业务为中心的转变。由于受限于篇幅这里不过多描述。

面向用户的大数据治理的四个阶段

面向用户的大数据治理该如何做,我们总结了四个阶段。

(1)第一阶段:全面梳理企业信息,自动化构建企业的数据资产库

在第一阶段,主要是对企业大数据的梳理,从而全面掌握企业大数据的情况,主要有以下三个方面。

梳理全企业数据架构,对企业的数据模型、数据关系、数据处理有清晰化的认识。

对数据资产形成统一的自动化管理,形成企业的元数据库。

对企业数据资产形成多种视图,使数据资产能够让不同用户,有不同视角的展示。

(2)第二阶段:建立管理流程,落地数据标准,提升数据质量

在第二阶段,需要建立大数据管控能力,包括从业务的角度梳理企业数据质量问题,形成质量控制能力,形成核心数据标准,并抓标准落地。针对关键问题,建立数据的管理流程,少而精,控制核心问题。

在这个阶段主要是为数据部门形成一套管理大数据的能力,同时为数据部门形成数据管理的工作环境。

(3)第三阶段:直接为用户提供价值,向用户提供数据微服务

通过前两个阶段,企业能够建立基本的数据治理的能力,在此基础上,还需要以用户为中心,为用户提供直接获取数据的能力。第三阶段依赖于前两个阶段能力的建设,在这个阶段的目标是向用户提供自助化的数据服务,使用户能够自助地获取和使用数据,并且在用户的使用过程中再反过去进一步落地标准、控制质量。

(4)第四阶段:智能化企业知识图谱,为全企业提供数据价值

最后一个阶段是将数据沉淀成为知识,形成企业的知识图谱,提供从“关系”的角度去分析问题的能力。

人进行数据搜索是通过业务术语(知识)来搜索的,而知识之间是有相互联系的,例如水果和西红柿是上下位关系(后者是前者的具体体现),好的搜索除了要列出直接结果,还需要显示与之关联的知识,这就要建立知识图谱。

简单说知识图谱就是概念、属性以及概念之间的关联关系,这个关系可以手工建立,也能通过自然语言处理等方法,对政策、法规、需求、数据库comments、界面等多种来源进行分析,自动化建立起企业知识图谱。从而使数据治理成为整个企业的数据工作环境,强化企业数据与知识体系之间的关联,加快企业员工数据与知识之间的转换效率,让数据的深层价值得以体现。

通过这四个阶段的建设,使数据治理平台由数据部门的工作环境,转变成为全企业的数据工作环境,以用户为中心,让用户能够直接使用大数据,并通过用户的使用来管理数据,持续优化数据质量,在达到治理数据目标的同时,也最大限度发挥了数据的价值。

三、面向用户的自服务大数据治理架构

自服务大数据治理架构

以用户为中心的自服务大数据治理技术架构包括五部分:数据资产管理、数据监控管理、数据准备平台、数据服务总线,消息与流数据管理。

整个平台分为五块核心能力:数据资产、数据准备、数据服务总线、消息&流数据管理、数据监控管理。

数据资产管理是对企业数据信息统一管理也是整个平台的基础,数据准备平台是资产服务化的加工厂,它不但能将原始数据通过服务形式以用户能看懂的方式提供,也可以通过在线数据模型设计实现最终数据产品的发布,起到承上启下的作用。

数据服务总线和消息&流数据管理的价值层次是一致的,只是从数据时效性上面对数据进行了区分,去适应用户不同的管理和应用诉求。起到数据通道和安全管理两个核心内容。

数据监控管理有别于大数据中的数据节点管理,而是从数据管理的视角切入对数据的结构的变化、关系的变化进行管理和控制,它是数据持续发挥价值的监管者。

自服务大数据治理的关键技术

(1)人工智能的知识图谱构建

主要有三个步骤

a、基于企业元数据信息,通过自然语言处理、机器学习、模式识别等算法,以及业务规则过滤,实现知识提取;

b、以本体形式表示和存储知识,自动构建成起资产知识图谱;

c、通过知识图谱关系,利用智能搜索、关联查询手段,为最终用户提供更加精确的数据;

(2)细粒度的敏感信息控制

数据内容安全管理包括对IT系统和数据进行敏感度等级划分的定义、浏览、检核,辅助安全规则在业务、技术领域的应用。从功能上包括数据敏感性分级、系统敏感性分级,数据安全策略定义管理,安全策略输出,安全管理报告,数据安全检核,敏感数据角色管理,敏感数据权鉴管理及相关电子审批流程。

(3)自助化的大数据服务生产线

这里有4个关键点:

a、自助的查询到想要的数据;

b、自动的生成数据服务;

c、及时稳定的获得数据通道;

d、数据安全有保证;

通过自助化的数据生产线,数据使用方(业务人员)大大减少了对开发人员依赖,80%以上的数据需求,都能通过自己进行整合开发,最终获取数据。让所有用数据的人能方便得到想要的数据。

(4)多维度实时的数据资产信息的展示

数据治理平台提供实时、全面的数据监控,不仅能从作业、模型、物理资源等各方面进行全面的数据资产盘点,还能对数据及时性、问题数据量等方面的数据健康环境进行全面的预警。

(5)以业务元模型为核心的数据微服务

数据需要以服务的形式提供给最终用户,在服务的提供上不能再采用传统的方式,而需要用微服务的方式提供,每个单独数据微服务自己对所提供数据做缓存,在其中利用元数据能力,把知识(业务模型)与技术(数据模型)相结合,从而向最终数据用户提供多种数据能力,使用户能够以多种方式使用数据。

最后在整个大数据治理平台的构建中还需要满足一系列原则,详情参考我写过的《敏捷数据管理的12个技术原则》。

四、总结

大数据时代,企业急需建立以用户为中心的自服务大数据治理,信息梳理、数据管控、连接用户、智能化是实现自服务大数据治理的四个主要阶段,掌握一系列关键技术和技术原则,是实现自服务大数据治理的重要基础。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 制造业
    +关注

    关注

    9

    文章

    2243

    浏览量

    53640
  • 工业互联网
    +关注

    关注

    28

    文章

    4323

    浏览量

    94151
  • 工业大数据
    +关注

    关注

    0

    文章

    72

    浏览量

    7853

原文标题:建设大数据平台,释放数据价值,从“治理”数据谈起

文章出处:【微信号:junguancha,微信公众号:工业互联网研习社】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    raid 在大数据分析中的应用

    的具体应用: 一、提高性能 并行读写 :RAID技术通过并行读写多个磁盘,可以显著提高数据的读写速度。在大数据分析环境中,数据读写速度是影响分析效率的关键因素之一。RAID 0(条带化)模式将
    的头像 发表于 11-12 09:44 257次阅读

    数据要素时代下构建高效数据治理能力的策略

    数据驱动的商业时代,高效的数据治理平台已成为企业成功的核心要素。尽管市场上已有众多成熟的数据治理
    的头像 发表于 11-01 11:19 320次阅读

    智慧城市与大数据的关系

    的建设需要对海量的数据资源进行收集、整合、存储与分析。大数据技术的应用,如智能感知、分布式存储等,使得这些数据能够被高效地处理和利用。 决策支持 : 在智慧城市的建设和运行过程中,
    的头像 发表于 10-24 15:27 729次阅读

    千方城市交通组织时空优化大数据应用平台

    交通组织不合理是造成交通拥堵的重要原因,当前交通组织优化大多单纯依赖“专家经验”,缺乏交通出行大数据的支撑。千方科技基于深耕交通行业二十余年持续积累的数据融合治理、建模处理、综合应用能力,推出时空优化
    的头像 发表于 09-27 09:38 294次阅读

    使用CYW20829的BLE进行最大数据发送应用,BLE丢失数据如何解决?

    我目前正在使用 CYW20829 的 BLE 进行最大数据发送应用,我使用的是 FREERTOS(例程 Bluetooth_LE_GATT_Throughput_Server 是我的参考),蓝牙被
    发表于 07-23 07:56

    大数据起步之前我们还需要注意些什么?

    超级传感器的企业就意味着其掌握了对大数据应用至关重要的用户信息数据。那么,在真正开始其大数据应用之前,我们还需要在起步时注意些什么? 创意比
    的头像 发表于 07-10 14:51 328次阅读

    中国面向人工智能的数据治理 行业研究报告

    电子发烧友网站提供《中国面向人工智能的数据治理 行业研究报告.pdf》资料免费下载
    发表于 05-10 17:22 0次下载

    数据中台、数据仓库、数据治理与主数据的定位与差异

    在数字化时代大数据已经成为企业运营和决策的重要资产。为了更好地管理和利用这些数据数据中台、数据仓库、
    的头像 发表于 05-08 10:40 447次阅读

    数据赋能:构建数据治理与AI的协同闭环

    在数字化浪潮中,数据已成为企业的新型燃料,而AI则是提炼这种燃料的精炼厂。数据治理与AI的协同作用,正在引领企业迈向更智能、更高效的未来。本文将展示企业如何通过将数据
    的头像 发表于 03-15 10:47 492次阅读

    大数据时代的关键:融合数据治理与AI为企业增值_光点科技

    数据驱动的今天,企业不能再将数据治理和人工智能(AI)视作孤立的实体。它们之间的协同作用已经成为推动企业增长的强大引擎。本文将探索数据治理
    的头像 发表于 03-14 11:20 330次阅读

    CYBT-343026传输大数据时会丢数据的原因?

    我正在使用 CYBT-343026 (CYW-20706 Silicon) 模块。 我根据 SPP 样本制作了一个操作 SPP 的应用程序。 但是,传输大数据时有时会丢失数据。 它从
    发表于 03-01 15:04

    浅析大数据时代下的数据中心运维管理

    数据中心运维治理的整体质量。这样,才能充分发挥大数据的价值,并推动企业加速发展。 关键词:大数据数据中心;远维管理;策略 0引言 目前,我
    的头像 发表于 02-22 14:40 392次阅读
    浅析<b class='flag-5'>大数据</b><b class='flag-5'>时代</b>下的<b class='flag-5'>数据</b>中心运维管理

    数据中台助力数据可视化智能治理

    数据可视化和智能治理的重要手段,为企业带来越来越多的重要价值。   在过去,工厂的数据往往分散在各个车间,设备协议多样、数据格式不一,难以实现有效整合。
    的头像 发表于 02-01 13:41 321次阅读
    <b class='flag-5'>数据</b>中台助力<b class='flag-5'>数据</b>可视化智能<b class='flag-5'>治理</b>

    大数据技术是干嘛的 大数据核心技术有哪些

    大数据技术是指用来处理和存储海量、多类型、高速的数据的一系列技术和工具。现如今,大数据已经渗透到各个行业和领域,对企业决策和业务发展起到了重要作用。本文将详细介绍大数据技术的概念、发展
    的头像 发表于 01-31 11:07 3535次阅读

    数据治理为什么要清洗数据

    在当今科技发展迅速的时代数据已经成为企业和组织中不可或缺的重要资源。在数聚看来,随着数据量的不断增加和数据来源的多样性,数据的质量与一致性
    的头像 发表于 01-23 08:55 1057次阅读