用于实时机器学习的流式传输优先基础架构

KOKOKO123 2023-06-15 312

人工智能

636人已加入

描述

实时机器学习是指通过向机器学习模型提供实际数据来不断改进机器学习模型。数据分析师/科学家或开发人员使用先前测试集的集合脱机创建模型。所有部门和行业都尽最大努力从机器学习中获得所有可能的好处，无论是认知研究还是自动连续过程。考虑像Google Home这样的智能家居助理或智能活动跟踪设备，Alexa或Siri等语音识别系统，或自动驾驶汽车。这种人工技术已经进步了很多。

机器学习更多地分为其他类型，定义如下：

监督学习：您的模型预测正确的结果/标签。大多数监督学习算法包括线性和逻辑回归;

无监督学习：这种学习寻找数据集中预先存在标签的模式;

强化学习：这种学习是指如何阻止或鼓励某些行为;

由于数据漂移，机器学习模型的准确性会随着时间的推移而下降。更新的频率决定了模型的运行效率。虽然像谷歌、阿里巴巴和Facebook这样的企业已经能够使用实时管道来不断改变生产中的几种算法并提高他们的性能，但许多其他企业仍然手动更新他们的模型。在本文中，我们将讨论机器学习当前持续学习状态的动机、困难和潜在解决方案。

提供给机器学习模型的数据的价值通常是最重要的，因为它可以立即用于做出适当的决策。但是，用户数据通常会被引入、转换、存储，并在机器学习模型使用之前长时间处于空闲状态。

面向消费者的产品（如 Headspace 应用程序）通过使用消费者数据提供实时见解和判断，可以显著减少边缘用户反馈循环。这是因为用户在片刻之前采取了可以完全集成到项目中的操作，为消费者提供更有意义、个性化定制和情境内容的建议。

然而，对于流或实时数据，孟菲斯平台被广泛使用，并提供机器学习算法的训练。

实时机器学习通过提供准确的数据来不断改进机器学习模型。

机器学习模型应用于流数据管道。此工作流在称为流式机器学习的过程中以实时块的形式吸收和修改供应商和目标之间的数据。

持续学习和机器学习预测延迟可以通过流式处理基础结构得到改善。计算的一部分是小型数据集的批处理。

机器学习和数据分析技术适用于帮助大型流媒体系统的安全性。机器学习（也称为模型训练）根据所需的给定数据创建预测模型。

当基于知识的算法（如实时机器学习或深度神经网络）得到正确使用时，它们受益最大。图像识别现实生活中常用且广泛的机器学习应用是图像识别。

为什么需要实时机器学习

由于需要事先有更多可用数据进行训练，或者当数据必须响应不同的趋势时，实时机器学习可能会有所帮助。例如，如果客户的偏好和需求随时间而变化，则不断改进的基于机器学习的项目推荐器可以适应这些变化，而无需额外的再培训。因此，通过识别新趋势并进行调整以反映它们，实时机器学习可以为企业及其消费者提供更即时的准确性。

实时机器学习模型通常以这种方式部署到事件驱动架构中的生产环境，其中数据不断注入到模型中。用于处理数据流的管道处理使数据准备好输入模型所需的所有数据优化和操作。管道使用实时数据同时修改模型及其构建所基于的参考数据集。

在过去的几年里，高性能技术在我们的日常生活中每天都在增加。人工智能的范围及其各自的工作现在在行业中备受推崇。从Siri或Alexa等语音助手到高科技咖啡机，这些正在成为我们日常生活的重要组成部分，导致机器学习人工智能工作的积极发展。

实时数据流平台

你可以收集、处理、评估大量数据，并通过实时数据流服务向实时应用和分析服务提供持续流式处理。通过利用安全、高度可访问、强大且适应性强的集中管理服务，开发人员可以轻松创建实时应用程序。

实时数据流是从多个来源收集和吸收一系列数据，然后实时解释这些数据以获取信息。实时数据流允许用户立即检查和处理数据，而不必等待一段时间或更长时间才能获得结果。

由Web应用程序用户生成的日志文件，电子商务预付款，来自社交网络的数据，来自金融平台的交易信息，地理分析服务以及来自智能小工具的卫星跟踪都是流数据的示例。

实时数据流有五个组件：

来源：数以千计的设备每秒生成数百万个数据，如移动设备、Web 应用程序等。

流摄取：使您能够掌握上述设备产生的数千条数据;

流存储：将用于保存各种数据的内存

流处理

目标：为分析保密提供流数据以供进一步分析;

一个广泛用于持续处理数据流的主要平台是Memphis 。

Memphis

Memphis 是开发实时系统的所有问题的新兴解决方案。它声称是最快的解决方案，并且已被证明是最快的解决方案。它有助于比市场上任何平台更快地构建流媒体平台。Memphis 的主要好处是它是一个可公开访问的开源平台。该平台是一个易于访问的实时数据集成器。

特征

当前

它在几分钟内提供了一个完全优化的消息代理。

它提供了一个直观的用户界面，例如命令行界面。

它提供了数据级别的可观测性。

它在传输过程中提供消息的路由。

它利用软件开发工具包，如Python Node.JS等。

来

它将使用更多的 SDK。

它将提供准备好的连接和分析工具。

它将提供内联处理。

使用Memphis 的优点

Memphis 的平台能够构建下一代应用程序，这些应用程序需要大量流和增强数据、当前协议、零操作、快速开发、大幅降低成本以及面向数据的程序员和数据工程师的更少开发时间。孟菲斯的主要重点是：

性能 – 提高缓存利用率;

弹性 – 提供 99.95% 的正常运行时间;

可观察性 – 正确的观察，减少故障排除时间;

开发人员体验 – 内联处理、模式管理、模块化和顶部;

实时机器学习场景

对于商业研究人工智能，计算机系统可以使用机器学习来使用所有客户数据。它遵循已经编程的必需指令，同时仍会根据不同的情况进行更改或调整。显示以前无法执行行为的数据会导致算法发生变化。

如果数字助理能够了解情况，它可能会阅读电子邮件并检索重要信息。这种理解伴随着将未来客户端行为作为内置功能预测的能力。因此，您可能对消费者的需求更加积极和灵活。

深度学习属于机器学习。神经网络网络有三层。可以使用单层神经网络进行粗略估计。精度和性能都可以通过添加更多层来提高。机器学习在各种不同的区块和业务中都有帮助，并且可以随着时间的推移更有效地向前发展。以下是机器学习的实际应用的五个实例。

模式/图像识别

模式或图像识别是机器学习在物理世界中的常见且广泛使用的应用。根据深色或浅色或黑白或彩色图像中像素的严重性，它可以将项目识别为数码照片。它现实生活中的例子是诊断X射线是否患有癌症。

属于图像识别类别的方法集合，图像识别是人工智能的一个分支，代表图像的检测和解释，以实现特定活动的自动化。它是一种可以识别图像中的物体、人物、地点和其他各个方面并通过分析得出结论的方法。

语音识别

与文本交谈是机器学习的一种能力。文本文件可以使用特定的计算机软件生成，该软件可以转换语音和录音或录制的语音。语音根据时频带的强度进一步表征为片段。现实生活中的单词示例包括语音拨号和语音搜索。

麦克风必须产生类似于波的电信号，然后任何系统才能理解语音。然后，该信号由计算机或计算机网络（例如设备的声卡）转换为二进制代码。语音识别软件检查数字数据以识别不同的元音，这是语音的基本组成部分。这些单词是通过重新组合辅音来创建的。但是，由于如此多的单词具有相似的声音，因此算法必须根据情况来选择正确的术语。

医疗诊断

机器学习可以帮助进行医学诊断。许多临床医生使用语音软件来识别疾病集群。它的真实例子包括分析体液。

预测分析

可用数据可以通过机器学习分为研究人员制定的法规进一步定义的类别。研究人员可以在分类完成后确定缺陷的可能性。一个现实生活中的例子包括检查交易是有效的还是欺诈的。

萃取

从非结构化数据中，机器学习可以检索特定数据。企业收集无数的客户数据。为预测数据分析工具自动标记数据集的过程使用机器学习算法。现实生活中的例子包括帮助医生治疗问题并轻松诊断它们。此提取由我们的平台孟菲斯执行，这使得它对我们更有帮助，因为它通过使用云提供了一个更现实和全面的系统。

在线预测

AI 平台预测旨在尽可能快地使用专用模型处理您的数据。该服务从您那里接收少量数据并响应您的预测。

由于维护日志的费用，默认情况下，自动网络预测工具不会提供有关查询的记录信息。每秒处理多个请求的在线预测可能会生成大量由云监控收费的日志。

当您希望在低延迟方案中将每个示例与其他实例分开进行预测时，将使用在线预测上下文。

例如，预测可用于快速确定到期金额是否最有可能是欺诈性的。

虽然我认为持续学习的广泛采用还需要几十年的时间，但我观察到企业在转向在线预测方面付出了相当大的努力。我们将描述采用批次特征的简单在线预测系统的要求，通常有助于会话中适应，从批次预测系统开始。稍后，我们将讨论开发一种同时使用批处理和流式处理功能的在线预测工具。

要求

对于此阶段，您必须执行以下操作：

将模型从批量预测切换到基于会话的预测。

在在线预测工具中包含会话数据。

您无需为使用在线预测时未查看您网站的用户创建联想查询。例如，在 2020 年，Grub Hub 报告了 31 万月活跃消费者和 620，000 个平均订单。想象一下，每天只有 2% 的消费者登录您的应用程序。

如果您每天为每个客户生成预测，那么生成 98% 的在线预测所需的计算能力将毫无用处。

持续学习

持续学习（也称为增量学习）背后的想法是按时间顺序学习许多多个作业的模型，而不会忽略从它们之前的任务中获得的信息，即使在训练新任务时不再提供旧任务的统计数据。

人们在听到“持续学习”时，会立即想到频繁的模型更新，比如每五分钟更新一次。许多人认为，大多数企业不需要定期进行更改，因为：

为了理解重新训练的时间线，他们需要流量。

他们的模型不会退化得那么快。

我同意他们的看法。然而，持续学习并不是关于模型重新训练频率的频率;这是关于它是如何重新训练的。

大多数企业使用无状态再训练，其中每次模型都是从头开始编程的。持续学习需要启用有状态训练，其中模型通过新的输入不断学习。持续学习是我们的目标，也是我们认为许多企业最终会遵循的目标。

当边缘部署和持续学习相结合时，达到峰值。Envision可以提供带有新小工具（手机，可穿戴手表等）的基本模型，并让该模型自动跟踪并根据周围环境进行自定义。无需在设备和云之间不断传输数据，也没有客户端-服务器成本。

结论

实时机器学习的主要问题是设备。平台团队和计算机分析或机器学习团队必须协作才能找到解决方案。持续学习和在线预测需要一个发达的流媒体平台。继续学习的培训部分可以分批完成，但其在线评估部分需要流式传输。流媒体既困难又昂贵，这让许多开发人员感到担忧。虽然三年前是准确的，但流媒体技术已经有了很大的进步。许多知名公司现在正在提供并越来越多地提出一种解决方案，以简化企业向流媒体的过渡。孟菲斯在流媒体方面发挥着重要作用，借助其基于云的系统使其效率更高。

如今，许多开发人员正在进行民意调查，以了解有关实时机器学习使用和行业障碍的更多信息。您只需几分钟即可与他们分享您的意见。结果在编译和汇总后将通知用户。

审核编辑：郭婷

打开APP阅读更多精彩内容