KubeDL 是阿里开源的基于 Kubernetes 的 AI 工作负载管理框架,取自"Kubernetes-Deep-Learning"的缩写;旨在使深度学习工作负载能够更轻松、更高效地在 Kubernetes 上运行。KubeDL 是一个 CNCF Sandbox 项目。
其核心功能包括:
- 在将 ML 模型部署为推理服务之前自动调整最佳容器级配置。- Morphling Github
- 用于在 CRD 中本地跟踪模型历史的模型沿袭和版本控制:何时使用哪些数据和哪些图像训练模型、模型的每个版本、正在运行的版本等。
- 启用利用容器映像存储和版本控制模型。每个模型版本都存储为自己的图像,以后可以使用 Serving 框架提供服务。
- 在单个统一控制器中支持推理框架和训练工作负载(Tensorflow、Pytorch、Mars等)。