在本文中,我们将介绍 GPU Operator release 1.8 中添加的新功能,进一步简化 GPU 对各种部署场景的管理,包括:
增加了对 GPU 操作员升级的支持
支持 NVX 交换机系统,包括 DGX A100 和 NVIDIA HGX A100 服务器
支持收集 GPU 操作员状态指标
GPU 运营商和网络运营商改进多节点培训
支持 Red Hat OpenShift 4.8
NVIDIA 软件生命周期管理
GPU Operator 的 1.8 版为组织提供了更新机制,以更新其 GPU Operator 版本,而不会中断运行 GPU Operator 的群集的工作流。 GPU Operator 的早期版本要求用户在安装新版本之前卸载以前的版本,这意味着在升级过程中群集中没有可用的 GPU 。
从 1.8 开始,升级版本不会中断工作流程。该机制以滚动方式一次更新一个节点,因此其他节点可以继续使用。只有在安装完成且上一个节点重新联机时,下一个节点才会更新。用户可以确信,在更新 GPU 操作员时,他们的工作流程将得到更好的管理。
现在支持 NVS 交换机系统
对于 1.8 , GPU 操作员自动在 NVIDIA 上部署初始化结构所需的软件 NVSwitch 系统,包括 NVIDIA HGX A100 和 DGX A100 。一旦初始化,所有 GPU 都可以在全 NVLink 带宽下相互通信,以创建一个可扩展的终端计算平台。
GPU 操作员还经过认证,可在 DGX A100 系统上与 Red Hat OpenShift 4 一起使用。
支持收集 GPU 操作员状态指标
在 1.8 版本中, GPU 运营商现在报告各种指标,供用户监控 GPU 运营商和 GPU – 运营商资源命名空间下的运营商部署资源的总体运行状况。 SRE 团队和集群管理员现在可以配置必要的 Prometheus 用于收集指标以及在某些故障情况下触发警报的资源。
对于 OpenShift 容器平台,这些资源将在此版本中自动创建。监控解决方案,如 Grafana 可用于构建仪表板和可视化 GPU 操作员和节点组件的操作状态。
更好地结合: NVIDIA 加速计算和联网
最近, NVIDIA 发布了 NVIDIA Network Operator 。 模拟 NVIDIA GPU Operator ,网络运营商通过自动化网络部署和配置的各个方面简化了 Kubernetes 的扩展网络设计,否则需要手动操作。它在具有 NVIDIA 网络接口的任何群集节点上加载所需的驱动程序、库、设备插件和 CNI 。
当它们一起部署时, NVIDIA GPU 和网络运营商启用 GPU 直接 RDMA ,即不同节点上 NVIDIA GPU 之间的快速数据路径。这是数据密集型工作负载(如 AI 多节点培训)的关键技术促成因素。
了解有关最新版本的更多信息 NVIDIA 网络运营商发布 。
增加了对 Red Hat OpenShift 的支持
我们继续支持红帽 OpenShift 。
GPU Operator 1.8 和 1.7 支持 Red Hat OpenShift 4.8 和 4 . 7
GPU 运算符 1.6 支持 Red Hat OpenShift 4. 7
GPU 运算符 1. 5 支持 Red Hat OpenShift 4 . 6
GPU Operator 1. 4 和1 .3 分别支持 Red Hat OpenShift 4.5 和 4.4
概括
以下资源可用于使用 NVIDIA GPU 运算符:
GPU 操作员 1.8 发行说明
入门指南
GPU NGC 上的操作员舵图
GitHub 上的 GPU 运算符
NVIDIA GPU 运算符是许多应用程序的关键组件 边缘计算 解决。
关于作者
Troy Estes 是 NVIDIA Edge 和企业计算解决方案的产品营销经理。在加入 Edge & Enterprise 业务部门之前,特洛伊曾在自主汽车业务部门和 NVIDIA 电网产品集团从事营销活动和支持产品 GTM 。
Erik Bohnhorst 是 NVIDIA 的高级产品经理,专注于云本地技术,为 edge 和数据中心构建一流的解决方案。 Erik 于 2014 年加入 NVIDIA ,以解决方案架构师的身份帮助客户构建世界一流的虚拟化远程工作站。埃里克领导技术营销团队,直到他加入了 EGX 团队。
审核编辑:郭婷
全部0条评论
快来发表一下你的评论吧 !