OrionX AI芯片计算资源池化技术-电子发烧友网

作为 AI 市场中的重要组成，以 GPU、FPGA 等为主的 AI 加速器市场发展也随之水涨船高。GPU 资源池化技术从初期的简单虚拟化，到资源池化，经历了四个技术演进阶段。

简单虚拟化。将物理 GPU 按照 2 的 N 次方，切分成多个固定大小的 vGPU（Virtual GPU，虚拟 GPU），每个 vGPU 的算力和显存相等。实践证明，不同的 AI 模型对于算力、显存资源的需求是不同的。所以，这样的切分方式，并不能满足 AI 模型多样化的需求。

任意虚拟化。将物理 GPU 按照算力和显存两个维度，自定义切分，获得满足 AI 应用个性化需求的 vGPU。

远程调用。AI 应用与物理 GPU 服务器分离部署，允许通过高性能网络远程调用 GPU资源。这样可以实现 AI 应用与物理 GPU 资源剥离，AI 应用可以部署在私有云的任意位置，只需要网络可达，即可调用 GPU 资源。

资源池化。形成 GPU 资源池后，需要统一的管理面来实现管理、监控、资源调度和资源回收等功能。同时，也需要提供北向 API，与数据中心级的资源调度平台对接，让用户在单一界面，就可以调度包括 vGPU 在内的数据中心内的各类资源。

OrionX 通过软件定义 AI 算力，颠覆了原有的 AI 应用直接调用物理 GPU 的架构，增加软件层，将 AI 应用与物理 GPU 解耦合。AI 应用调用逻辑的 vGPU，再由 OrionX 将 vGPU需求匹配到具体的物理 GPU。OrionX 架构实现了 GPU 资源池化，让用户高效、智能、灵活地使用 GPU 资源，达到了降本增效的目的。

一个典型的 OrionX GPU 资源池的逻辑架构中包含了 OrionX Controller（OC）、OrionX Server Service（OSS）、OrionX Client Runtime（OCRT）、和 OrionX GUI（OG）等功能组件。

OrionX 的各功能组件可以根据用户环境需求被部署在单服务器上，也可以被分布式地部署在数据中心的多个物理机、虚拟机或者容器环境中。在分布式的部署环境中，各功能组件可以通过多种类型的网络建立连接，从而把数据中心的 GPU 资源管理起来，形成一种可以被全局共享的计算资源，对 AI 应用提供可远程访问的、可灵活切分的、可聚合的弹性 GPU算力。OrionX 的逻辑架构如下图所示。

CUDA是由 Nvidia 公司定义且公开推广、维护的一种 GPU 编程接口。从 2007 年推出之后，经过十几年生态培育，已经成为 GPU 编程的一个事实标准。大部分流行的 AI 框架，例如 TensorFlow、PyTorch、MXNet 和 PaddlePaddle都是基于 CUDA 编程接口开发。

OrionX 在管理物理 GPU 之后，通过模拟 CUDA 标准接口，为各种 AI 应用提供一个与 Nvidia CUDA SDK 接口功能一致的运行环境，从而使得 AI 应用透明无感知地运行在 OrionX GPU资源池之上。OrionX 不仅在单服务器上模拟了 CUDA 标准接口，并且通过分布式部署各功能组件，能够提供分布式的 CUDA 运行环境。

OrionX 的各个功能组件通过管理平面网络和数据平面网络进行通信，共同完成 GPU 资源池的管理以及 GPU 资源的调度等功能。

在部署 OrionX 时，使用基于 TCP/IP 网络的管理平面，来承载整个系统的管理工作。通过管理网络，分布在各个节点的功能组件都保持和 OrionX Controller 同步。管理平面逻辑结构如下图所示。

在应用运行的过程中，应用所在环境和 GPU 物理节点之间的数据传输使用的是 OrionX 的数据面。该数据面支持多种后端数据传输载体，包括 TCP/IP 以太网络、RoCE RDMA、Infiniband RDMA、Share Memory 等。具备高带宽、低延迟。同时支持多种传输协议，根据优先级自动使用高性能的传输方式。支持虚拟机、容器和宿主机之间的 TCP/IP 网络隔离。

OrionX 的各个组件，支持直接部署在裸金属服务器上，即安装操作系统后，直接以 Binary形式部署，也支持容器化部署。OrionX 具备适配多种 Linux 操作系统和云平台的能力，因此，OrionX 具有多样化的部署形式。

OrionX 支持 CentOS、Ubuntu、Debian 等 Linux 发行版本，同时支持基于 KVM 的虚拟机云平台和基于 Docker 的容器云平台。尤其是支持原生容器，并实现了和 Kubernetes 的平滑对接。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

FPGA

FPGA

+关注

关注
1629

文章
21736

浏览量
603419
服务器

服务器

+关注

关注
12

文章
9160

浏览量
85425
AI芯片

AI芯片

+关注

关注
17

文章
1887

浏览量
35025

原文标题：OrionX AI芯片计算资源池化技术

文章出处：【微信号：AI_Architect，微信公众号：智能计算芯世界】欢迎添加关注！文章转载请注明出处。

NanoEdge AI的技术原理、应用场景及优势

NanoEdge AI 是一种基于边缘计算的人工智能技术，旨在将人工智能算法应用于物联网（IoT）设备和传感器。这种技术的核心思想是将数据处理和分析从云端转移到设备本身，从而减少数据传

发表于 03-12 08:09

AI发展对芯片技术有什么影响？

现在说AI是未来人类技术进步的一大方向，相信大家都不会反对。说到AI和芯片技术的关系，我觉得主要体现在两个方面：第一，

发表于 08-12 06:38

平头哥剑池CDK 更新重磅来袭！三大亮点速看！

的芯片的开发。剑池CDK概览一、剑池CDK基本介绍剑池CDK在产品设计中，分为四个部分：Packages：组件化模块；用于支撑剑

发表于 09-01 15:00

OpenHarmony3.1 Release版本特性解析——OpenHarmony硬件资源池化架构介绍

，实现硬件互助、资源共享，为用户提供流畅的全场景体验。本期，我们通过介绍 OpenHarmony 的硬件资源池化框架，为大家揭晓 OpenHarmony 是如何实现多设备协同的。一、硬

发表于 05-23 16:42

电力云资源池的建立

国家电网公司从2010年开始建设电力云资源池，存储域作为资源池的必须部分，设计和实现存储域是资源池

发表于 11-27 17:33 •0次下载

华为视频云平台通过云技术实现计算、网络、存储资源池化

华为视频云的支撑框架为云平台FusionCloud，可承建北京城市副中心行政办公区的视频监控系统，构建计算、存储等资源池适配视频的应用业务，通过基于主流开放的OpenStack架构的云虚拟化

发表于 12-14 16:35 •8161次阅读

OpenHarmony硬件资源池化模型

在设计初期，为解决两台设备间的协同问题，我们通过 OpenHarmony 提供的分布式设备虚拟化能力将两台设备的硬件资源进行融合，实现了“一对一”的硬件资源访问。这便是硬件资源

发表于 05-11 10:24 •1534次阅读

什么是内存池

1什么是内存池 1.1池化技术所谓“池化技术”，就

发表于 11-08 16:26 •905次阅读

高并发内存池项目实现

相关知识 1、池化技术池化技术就是程序先向系统申请过量的资

发表于 11-09 11:16 •722次阅读

了解连接池、线程池、内存池、异步请求池

池化技术池化技术能够减少资源对象的创建次数，提⾼程

发表于 11-09 14:44 •1338次阅读

内存池主要解决的问题

内存池的定义 1.池化技术池是在计算机技术中经常使用的一种设计模式，其内涵在于：将程序中需要

发表于 11-13 15:23 •710次阅读

池化技术的应用实践

作为一名Java开发人员，池化技术或多或少在业务代码中使用。常见的包括线程池、连接池等。也是因为Java语言超级丰富的基建，基本上这些

发表于 11-24 10:22 •526次阅读

优刻得与联想AI实验室携手共建高效AI资源池

近日，云计算服务提供商优刻得（UCloud）与联想AI实验室宣布达成战略合作，双方将共同打造一个高效且灵活的本地化AI资源

发表于 07-14 14:19 •1095次阅读

打造异构计算新标杆！国数集联发布首款CXL混合资源池参考设计

今日，领先的高速互联芯片及方案设计厂商国数集联发布业界首创的CXL混合资源池（Compute Express Link Hybrid Resource Pool ,以下简称“CHRP”）参考设计。该

发表于 08-06 14:19 •320次阅读

AI云端计算资源有哪些类型

AI云端计算资源涵盖了从基础设施到软件服务的多个层面，为AI模型的训练、推理和部署提供了强大的支持。下面，AI部落小编为您详细介绍

发表于 11-15 09:39 •163次阅读