0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

直播精彩回顾(三)| 虹科Torch——数据管理的可观察性解决方案

广州虹科电子 2022-03-11 10:12 次阅读

3月8日,【虹科云课堂】数据管理与可视化解决方案前3期免费直播课程已结束,感谢大家的观看与支持。虹小科为大家整理了课后笔记,请查收

导语

虹科云课堂

虹科的数据可观察性解决方案,它是一个由三部分产品组成的集成套件,作为一个中立的多平台数据可观察性解决方案,我们的方案可以使数据运营团队能够从单个控制台有效地管理其整个数据基础架构,最大限度地提高数据工程团队的生产力,以及数据模型和分析应用程序的性能和正常运行时间。其机器学习功能可帮助企业预测和预防其数据管道的潜在问题,最大限度地减少停机时间并使其能够满足其 SLA/SLO。Torch是一款用在数据层的可观察性解决方案,通过数据管道观察数据流,优化数据的可靠性、质量和使用。它使用先进的机器学习和人工智能来确保企业数据系统的数据质量和可靠性,同时可以进行数据发现和数据优化。

那么它是如何帮助企业保证数据可靠性呢?我们先不说答案,把文章看完,你就明白了,最后我们会总结这个问题的答案。

本文围绕3部分展开

虹科云课堂

1、Torch产品介绍

2、Torch介绍功能详解

(数据可观察性相关概念可见3月1、8日直播)

01

Torch产品介绍

虹科云课堂

320f9a2a-a08e-11ec-8b86-dac502259ad0.jpg32348f92-a08e-11ec-8b86-dac502259ad0.jpg

这里有写几个典型的企业会遇到的问题,第一个就是数据质量问题阻碍了云迁移,当数据从一种技术或环境迁移到另一种技术或环境时,数据的许多方面可能会“在转换中丢失”。例如,将数据从数据仓库移动到数据湖一方面可以提供灵活性,但另一方面缺乏控制。

第二个是由数据质量、管理和可靠性问题导致的数据停机,数据停机会导致客户的体验感不佳,时间成本投入较高等等,同时也会让数据团队将时间花在解决、调试和修复数据问题上,而不是在其他可以为您的客户增加实质性价值的优先事项上取得进展。

第三个是对类似的数据资产进行大规模的数据质量管理,假如一个组织中平均有 9 个数据集副本。那么手动检查和重新创建每个数据质量是没有意义的。我们帮助您识别相似的数据资产,并且还支持规则重用,允许您将现有规则“复制/粘贴”到其他数据集。这消除管理数据质量方面的重复工作。

第四个是与不必要的数据集相关联的过度成本,数据系统会接收和存储海量的数据,这些数据中可能会有重复的、不必要的数据,如果没有工具或平台去帮助数据系统识别和处理多余的、不必要的数据集,那么就会导致企业在存储、计算、维护等方面花费大量的资金。

最后一个是难以理解和增加对大规模分布式数据集的访问,分布式存储系统有很多个数据节点,每个节点都存储着这个巨大的数据集的一部分,随着数据量和用户量的增多,数据的存取结构复杂,程序访问(读取)这个数据集会特别慢,系统响应延迟较高,可用性较低。

可见这些问题都与数据质量脱不了干系,面对这些数据挑战,我们推荐虹科的Torch解决这些问题

3253c7cc-a08e-11ec-8b86-dac502259ad0.jpg

Torch 是一种数据质量解决方案,是一个数据编目和质量监控系统,它可以确保数据在整个数据管道中保持准确和完整,包括为数据团队解决问题并在可能的情况下自动解决质量问题。

高质量的数据对于做出良好的商业决策至关重要。如果数据质量较低或可疑,企业就无法完整、准确地了解其组织,并且有可能投资不足、错过收入机会或损害其运营。然而,在现代数据管道中,数据是不断运动的。当数据通过管道从源流向目标时,它会经历几个不同的阶段。集成阶段将多个数据源合并在一起。转换阶段是数据清理和验证的阶段。在一些简单的处理阶段,数据被汇总、聚合和过滤。最后,还有更复杂的处理阶段类型,使用机器学习,比如预测建模。在这些阶段中的任何一个阶段,流程都可能会失败或减慢,从而阻止数据到达其预期目的地,并给业务帯来潜在风险。因此,高质量的数据并不一定能保证数据的可靠性。那我们的这个产品Torch就是为了帮助企业拥有高质量数据的可靠交付、实时处理和大规模的端到端管道。

Torch提供可扩展、连续的数据质量监控,它能够根据用户定义的数据质量策略来监控数据资产。自动化的数据质量规则和警报可以更轻松地识别缺失数据、数据类型违规、不正确的值和格式、敏感数据等。

Torch利用核对策略来确保数据按预期到达。对于每个核对策略,数据工程师命名数据源和目的地,要执行的比较类型,以及要检查的比较,在仪表盘中显示结果,如有不匹配的情况则会向管理员发送警报,以便迅速采取行动。

并且它提供数据和模式漂移监测,以保护管道和AI/ML模型的准确性。过监控意外内容更改来提高 AI/ML 工作负载的准确性。数据漂移规则根据关键指标的容差阈值自动验证更改。收到有关过度数据漂移的通知。检测可能破坏管道或影响下游应用程序的模式和表的结构更改。了解何时添加、修改和删除列。

然后它是通过机器学习自适应企业数据环境,用户可以添加标签,按目的、所有者或业务功能和评级对数据资产进行分类、聚类、关联和自动标记,以改进数据发现和管理

通过机器学习建立专业知识,利用基于人工智能的建议和自动警报做出快速反应,预测数据质量问题,数据团队可以应用这些建议快速解决常见问题。这些基于人工智能的建议可以提高生产力、准确性和覆盖率

那么是谁会用Torch呢?包括分析师、数据科学家和开发人员在内的所有用户都可以依靠 Torch 来观察数据在仓库或数据湖中的流动情况,并可以放心,不会丢失数据。

326bfa86-a08e-11ec-8b86-dac502259ad0.jpg

接下来我们看一下它的特点:首先它可以从任何数据源或湖中抓取数据,Torch 使用爬虫来获取元数据并将其存储在数据源中,并且根据数据源的不同,对元数据进行自动分类,同时确保可以轻松搜索元数据。在 Torch中,每次数据源被云或大数据爬虫抓取时,都会执行模式漂移策略。在数据抓取过程中,根据源的类型, Torch收集不同类型的元数据。例如,为数据库和数据仓库收集的元数据可能包括模式、表、列和视图,而查询服务的元数据可能包括数据集、视图和查询域。Torch收集关于数据源的元数据,并显对模式的改变。当变化出乎意料时,一个数据工程师可以深入了解模式的变化,然后去响应问题、解决问题。

第二个是它能快速与企业数据源集成,Torch连接到任何流行的数据源,无论是在云中还是在本地。它能实时发现和验证所有数据源中的数百万行数据,

我们知道一些数据团队依赖手动 ETL 验证脚本,ETL 验证脚本旨在以有限的批次处理稳定的静态数据。他们无法处理来自复杂数据管道、跨云、混合和弹性系统架构的连续数据流。随着越来越多的企业走向数字化转型,他们越来越需要分析传入的实时数据流,但使用手动 ETL 验证脚本会导致时间滞后,可能会导致失去商机。将 Torch之类的数据可观察性平台与 Kafka 一起使用,可以让您更好地控制数据管道。使用 Torch 进行 Kafka 流式传输可让你分析存储在 Kafka 集群中的数据并监控实时数据流的分布。事件是管道中任何出现的流或消息。使用 Torch,您可以监控 Kafka 生态系统中的内部事件,以获得更快的吞吐量和更好的稳定性。无需依赖 ETL 验证脚本来清理和验证传入数据,Torch 自动实时标记不完整、不正确和不准确的数据,而无需任何手动干预。

最后它可以添加策略和业务规则以改进组织运作的方式,它可以根据用户定义的策略监控数据,以识别数据和模式错误。它还监测数据管道本身的可靠性,并显示每个组件有关的信息。在 Torch中,每次对资产进行剖析时都会执行数据漂移策略。在数据剖析过程中, Torch收集了有关数据结构如何、各部分如何相互关联以及个别记录中的错误的信息。Torch还跟踪每一个被执行的剖析。通过比较针对同一数据资产运行的两个配置文件之间的差异,数据工程师可以确定数据漂移错误首次出现的时间。

32914a34-a08e-11ec-8b86-dac502259ad0.jpg

接下来看一下pulse的应用场景

第一个是属于电信、金融服务、能源、物联网电子商务行业和任何依赖大量静止数据和动态数据以满足运营和分析需求的企业。

例如,假设您经营一个电子商务商店,其中包含多个数据源(销售交易、库存数量、用户分析),这些数据源整合到一个数据仓库中。销售部门需要销售交易数据来生成财务报告。营销部门依靠用户分析数据来有效地开展营销活动。数据科学家依靠数据为产品推荐引擎训练和部署机器学习模型。如果其中一个数据源不同步或不正确,则可能会损害业务的不同方面。

数字业务依赖于流畅且响应迅速的技术。网站或应用程序的缓慢响应可能会直接导致客户流失。网站或数据系统的中断可能会导致销售损失和延误,从而影响您的声誉。

第二个就是依赖大量静止数据和动态数据来满足运营和分析需求的公司,第三个就是拥有 Amazon EMR, Amazon Glue, Amazon Redshift, Apache HBase, Azure SQL 等等这些产品的公司。

32bb39ac-a08e-11ec-8b86-dac502259ad0.jpg

看一下Torch的架构,Torch将强大的数据质量管理平台与功能丰富的资产目录、分析器、业务词汇表等结合在一起。Torch 从底层数据源读取和处理原始数据以及元信息,以收集各种指标并验证系统内定义的数据质量策略。Torch 被设计为一系列微服务,它们协同工作以协调各种业务成果。此外,它使用 Apache spark 来运行卸载数据处理需求的作业。

首先建立数据源链接,然后由爬虫遍历数据源并提取元数据,再将元数据信息发送到目录服务器,通过其余的表示状态传输调用目录服务器正确索引它们,并将它们存储在数据库中,然后,您可以设置执行以下操作的规则:分析数据。验证数据源中的数据。使用 ETL(提取、转换和加载)工具协调从另一个源系统加载到数据源的数据。用户界面用于查看元数据并检索有关其数据源中数据的有用信息,质量规则可以设置自动运行或在执行规则时的计划 ,它会创建系统执行。执行结果决定了该时间段内该规则是通过还是失败,这将显示在用户界面中,你将通过电子邮件或slack收到通知。

Torch功能详解

虹科云课堂

02

32e8ebcc-a08e-11ec-8b86-dac502259ad0.jpg33044188-a08e-11ec-8b86-dac502259ad0.jpg

总结一下:我们的自动化机器学习会自动对您的数据资产进行分类,甚至理解大量的非结构化数据集,包括敏感、相似和相关的数据资产,并在几分钟内进行自动分析、协调和分类。将相似的资产聚集在一起,并为相关资产赋予相同的标签。我们还会自动扫描您的数据资产以了解数据质量,并提供准确的一键式建议来解决多达 80% 的问题。进行检测模式和数据漂移:提高动态数据处理,维护ML和AI的准确性。它能够增加数据消耗:发现数据、探索数据配置文件,并通过仪表板的自助服务快速访问元数据。您的数据工程师可以围绕自动扫描和触发器设置多策略规则和计划,并配置规则以扫描您的整个数据基础架构,无论是分布式和异构的。这可确保数据可靠,并为 AI、ML 和其他分析应用程序提供准确的结果。这使您的数据工程师能够专注于为业务服务的工作,而不是日常故障排除。

Torch保证数据可靠性的三个点:

全面:Torch 监控常见的数据质量问题以及许多其他风险,包括:协调动态数据、模式漂移以及数据趋势和异常,以提供全面的数据可靠性

自动化:Torch 利用机器学习和易于掌握、用户友好的 UI界面来快速管理跨大型和多样化数据环境的数据可靠性

可扩展:Torch 利用在本地和所有主要云提供商上运行的分布式处理框架来确保数据能够以现代业务的速度移动。

03

Torch保证企业数据可靠性的原因

虹科云课堂

第一个它能消除数据停机时间,超越数据监控,通过整个数据管道,确保跨算法、模型、特性和源的数据可靠性和质量。跨数据湖、仓库和其他存储库监控企业数据,以消除影响可靠性的问题。然后它能扩展工作负载,确保关键任务数据和工作负载的可用性。最后一个是它能自动验证数据质量,对静态数据和动态数据进行分类、编目和管理业务规则。

其他精彩课程

虹科云课堂

1

什么是数据可观察性?

2

虹科Pulse——数据处理的可观察性解决方案

科技事业部

虹科电子

虹科在工业、制造业领域深耕了长达20年,随着云技术的全面发展和数字化工厂的逐步落地,虹科参与了越来越多的云主题的业务,从最初的所有数据先统一采集上云,到后续的边缘计算再上云,到现在的全面业务优化、洞察研究、成本优化等,虹科的云科技事业部已经为行业的用户实操并积累了丰富的解决方案和应用场景。它们包括:资源监控、安全保障、多云的互联互通、应用和数据牵引等。虹科云科技团队在不断顺应国家策略,从技术创新、标准制定、丰富生态、安全保障、节能减排等五个方面,不断创造出更好的产品,帮助工业制造业的用户实现数字化转型、实现基于数据的降本增效。

虹科云科技工程师团队不断参与美国和欧洲产业内先进的专家培训,学习和实践创新的技术手段、操作性强的应用案例,并不断引入到国内的项目中完成落地和推广,这让我们团队充满了自豪感与使命感,赋予了我们当今时代极大的技术价值、工作成就感。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据管理
    +关注

    关注

    1

    文章

    294

    浏览量

    19621
收藏 人收藏

    评论

    相关推荐

    PDM产品数据管理系统的必要分析 PDM如何助力企业提升竞争力

    在当今竞争激烈的制造业环境中,企业对高效、准确的产品数据管理需求日益增长。PDM(Product Data Management,产品数据管理系统)正是应对这一需求的利器。本文将深入探讨PDM产品数据管理系统建设的必要
    的头像 发表于 11-27 11:56 228次阅读

    技术资讯 I 设计数据管理要点

    本文要点什么是设计数据管理?为什么说管理设计数据非常重要?有效的设计数据管理要注意哪些事项?PCBA开发和/或生产的各个方面都取决于设计数据
    的头像 发表于 11-09 01:05 221次阅读
    技术资讯 I 设计<b class='flag-5'>数据管理</b>要点

    应用 为什么PCAN方案能成为石油工程通讯的首选?

    在石油工程领域,实时监控钻井参数对于确保作业安全和提高效率至关重要。提供的PCAN解决方案凭借其高可靠和便捷的安装维护特性,为石油钻井行业带来了显著的革新。
    的头像 发表于 11-08 16:48 225次阅读
    <b class='flag-5'>虹</b><b class='flag-5'>科</b>应用 为什么<b class='flag-5'>虹</b><b class='flag-5'>科</b>PCAN<b class='flag-5'>方案</b>能成为石油工程通讯的首选?

    实验室数据管理与LIMS平台的关系

    的生成。有效的实验室数据管理对于确保数据的准确、完整和可追溯至关重要。 LIMS(Laboratory Information Man
    的头像 发表于 10-28 18:10 461次阅读

    直播 | 超哥来了!看汽修专家如何拿捏高速抖动难题!

    上期直播回顾HongkePico10月17日晚,PicoNVH振动异响诊断——专家用户分享交流会正式拉开序幕!美国ASE大师级认证专家、TG免拆诊断创始人戈华飞老师做客
    的头像 发表于 10-24 08:02 173次阅读
    <b class='flag-5'>虹</b><b class='flag-5'>科</b><b class='flag-5'>直播</b> | 超哥来了!看汽修专家如何拿捏高速抖动难题!

    高燃回顾|第届OpenHarmony技术大会精彩瞬间

    卓越开源人才 为全球操作系统的技术创新持续贡献中国力量 立即点击视频回顾大会精彩瞬间 ↓↓↓ 技术引领筑生态,万物智联创未来 让我们期待下一次的相聚!
    发表于 10-16 18:47

    SOLIDWORKS 2025:更有效的协作和数据管理

    在当今快速变化的商业环境中,有效的协作和数据管理已成为企业成功的关键。作为CAD领域的领军者,SOLIDWORKS始终致力于为用户提供优越的维设计与工程解决方案。随着SOLIDWORKS 2025的发布,这款旗舰软件在协作和
    的头像 发表于 10-08 16:52 274次阅读

    方案 领航智能交通革新:PEAK智行定位车控系统Demo版亮相

    /CANFD信号处理,方案不仅提升了车辆的智能化水平,更在安全和效率上迈出了革命的一步。
    的头像 发表于 08-27 09:28 276次阅读
    <b class='flag-5'>虹</b><b class='flag-5'>科</b><b class='flag-5'>方案</b>  领航智能交通革新:<b class='flag-5'>虹</b><b class='flag-5'>科</b>PEAK智行定位车控系统Demo版亮相

    应用 当CANoe不是唯一选择:发现PCAN-Explorer 6

    在CAN总线分析软件领域,当CANoe不再是唯一选择时,PCAN-Explorer 6软件成为了一个有竞争力的解决方案。在现代工业控制和汽车领域,CAN总线分析软件的重要不言而喻
    的头像 发表于 08-16 13:08 509次阅读
    <b class='flag-5'>虹</b><b class='flag-5'>科</b>应用 当CANoe不是唯一选择:发现<b class='flag-5'>虹</b><b class='flag-5'>科</b>PCAN-Explorer 6

    直播 | 令你耳目一“新”的新能源车诊断分享

    上期直播回顾HongkePico6月20日晚,玉山连通车服技术总监,玩示波器的行者,应良卿老师做客Pico直播间,不仅与大家分享了采集从
    的头像 发表于 06-27 08:09 255次阅读
    <b class='flag-5'>虹</b><b class='flag-5'>科</b><b class='flag-5'>直播</b> | 令你耳目一“新”的新能源车诊断分享

    案例|为什么PCAN MicroMod FD是数模信号转换的首选方案

    精确的信号采集和转换是确保生产效率和质量的关键。PCAN MicroMod FD系列模块,以其卓越的数模信号转换能力,为工程师们提供了一个强大的工具。本文将深入探讨如何通过PC
    的头像 发表于 06-11 15:36 376次阅读
    <b class='flag-5'>虹</b><b class='flag-5'>科</b>案例|为什么PCAN MicroMod FD是数模信号转换的首选<b class='flag-5'>方案</b>?

    新品 | E-Val Pro Plus有线验证解决方案

    有线验证解决方案E-ValProPlus我们很高兴地宣布,我们将推出全新的
    的头像 发表于 04-19 08:04 361次阅读
    <b class='flag-5'>虹</b><b class='flag-5'>科</b>新品 | E-Val Pro Plus有线验证<b class='flag-5'>解决方案</b>

    E-Val Pro Plus有线验证解决方案,功能升级,优化制药流程,确保安全和合规

    有线验证解决方案全新升级,E-Val Pro Plus新品发布!帮助您减少停机和上市时间,优化制药流程,确保合规和安全,是任何热验证
    的头像 发表于 04-18 13:36 346次阅读
    E-Val Pro Plus有线验证<b class='flag-5'>解决方案</b>,功能升级,优化制药流程,确保安全<b class='flag-5'>性</b>和合规<b class='flag-5'>性</b>!

    方案 | 符合医药行业规范的液氮罐运输和存储温度监测解决方案

    在医药行业,液氮罐用于运输和存储敏感生物样本和药品,需保持极低温度。的液氮罐温度监测解决方案不仅符合行业规范,还解决了极端低温下的挑战。了解如何保障产品质量、安全,满足合规要求,
    的头像 发表于 04-17 13:08 319次阅读
    <b class='flag-5'>虹</b><b class='flag-5'>科</b><b class='flag-5'>方案</b> | 符合医药行业规范的液氮罐运输和存储温度监测<b class='flag-5'>解决方案</b>

    方案|低负载ECU老化检测解决方案:CAN/CAN FD总线“一拖n”

    安全、性能和效率。ECU的老化可能导致诸如性能下降、功能失效甚至安全风险等问题,因此对ECU老化进行检测非常重要。本篇文章为您介绍低负载ECU老化检测解决方案。 一、ECU老化检测的必要
    的头像 发表于 01-24 09:41 425次阅读
    <b class='flag-5'>虹</b><b class='flag-5'>科</b><b class='flag-5'>方案</b>|低负载ECU老化检测<b class='flag-5'>解决方案</b>:CAN/CAN FD总线“一拖n”