0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为Volcano项目为构建云原生批量计算平台奠定基础

牵手一起梦 来源:华为云 作者:佚名 2020-04-17 14:26 次阅读

4月10日,CNCF(云原生计算基金会)正式接纳由华为云捐赠的容器批量计算项目Volcano, 迎来CNCF首个容器批量计算项目。Volcano项目的加入,将CNCF的云原生版图进一步扩展至AI、大数据、基因等批量计算领域,为构建“云原生批量计算平台”奠定了基础。

华为云CTO张宇昕表示:“ 华为云多年来一直致力于云原生技术推广,不仅在国内最早推出了Kubernetes云原生容器技术的商业化产品云容器引擎CCE和云容器实例CCI,而且在开源社区发起并领导了多个生态项目,帮助各行业更快地落地并实践云原生技术。Volcano是基于Kubernetes的云原生批量计算引擎,基于华为云在AI、大数据领域的深厚业务积累,补齐了Kubernetes在面向AI、大数据、高性能计算等批量计算任务调度、编排等场景下的短板,向下支持鲲鹏、昇腾、X86等多元算力,向上使能TensorFlow、Spark、华为MindSpore等主流行业计算框架,让数据科学家和算法工程师充分享受到云原生技术所带来的高效计算与极致体验。”

Volcano介绍

随着Kubernetes的成熟,越来越多的企业把Kubernetes作为AI、大数据以及高性能批量计算的下一代基础设施,得益于Kubernetes在应用一致性、跨云迁移便利性、灵活任务调度等方面的优势,使得Kubernetes在大数据、AI、以及高性能批量计算领域快速得到广泛应用。

然而,Kubernetes作为普适的容器化解决方案,应用到大数据、AI、高性能批量计算等专业领域时,仍与业务诉求存在一些差距,主要体现在:

▸K8s的原生调度功能无法满足计算要求

▸K8s作业管理能力无法满足AI训练的复杂诉求

▸数据管理方面,缺少计算侧数据缓存能力,数据位置感知等功能

▸资源管理方面缺少分时共享,利用率低

硬件异构能力弱

华为云容器团队针对以上问题,推出高性能容器批量计算解决方案。

同时,为加快云原生技术在各行业的快速普及,于2019年将解决方案的核心引擎Volcano开源,Volcano在调度、作业管理、数据管理、资源管理四个方面进行了重点优化。

✎ 增强了任务调度能力,如公平的调度(fair-share),组调度(gang-scheduling)

✎ 进一步优化了作业管理能力,如multiple pod template能力, 更灵活的error handling机制

✎ 增加计算侧数据缓存,提升数据的传输与读取效率

✎ 引入多维度的综合评分机制,实现资源更高效的管理和分配

✎ 多元算力支持:支持x86、鲲鹏和昇腾等算力

生态合作

针对不同应用场景,Volcano已与多个主流计算框架社区完成官方合作集成,包括Kubeflow、Spark、PaddlePaddle、Horovod (MPI)、Cromwell 、MindSpore等。

Volcano弥补了Kubernetes在AI场景下的不足,为飞桨分布式深度学习对接Kubernetes提供了更好支持,PaddlePaddle on Volcano方案显著简化了飞桨推荐系统解决方案 ElasticCTR的部署落地,我们非常期待Kubernetes+Volcano+PaddlePaddle的整套开源部署方案更加成熟完善,给AI开发者带来更大便利”。

—飞桨(PaddlePaddle)总架构师于佃海

MindSpore是华为开源的一款支持端边云全场景的深度学习训练推理框架,当前主要应用于计算机视觉、自然语言处理等AI领域,旨在为数据科学家和算法工程师提供设计友好、运行高效的开发体验,提供昇腾AI处理器原生支持及软硬件协同优化。Volcano开源项目将有助于提升Kubernetes对AI任务的调度能力支持,有利于MindSpore等深度学习框架更加有效的部署,为AI和云原生两大领域的携手共创繁荣开源生态打下了坚实的基础。

—MindSpore社区技术委员会主席、华为MindSpore首席科学家陈雷教授

Volcano自2019年6月宣布开源以来,受到了广泛的关注和支持,来自15家大企业/机构的80+核心开发者参与了社区开发及贡献。

商业应用

目前,Volcano已在华为云容器批量计算解决方案商用,并支撑多家国内外头部企业应用于AI、大数据、基因等计算场景。Volcano支持批量任务与容器的快速发放,最快每秒可发放1000容器,并提供公平调度、队列调度等高级功能,同时与华为鲲鹏、昇腾处理器深度融合,打造更高性能、更高性价比的容器批量计算解决方案。

未来可期

此次CNCF正式将Volcano接纳为云原生领域唯一容器批量计算项目,将极大促进Volcano上下游社区生态构建及合作,吸引广大云原生企业用户深度参与,Volcano将在企业数字化、云原生转型过程中发挥越来越重要的作用,华为云也将在云原生领域持续耕耘、持续引领创新、繁荣生态,助力各行业走向快速智能发展之路。

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    216

    文章

    34428

    浏览量

    251625
  • AI
    AI
    +关注

    关注

    87

    文章

    30818

    浏览量

    268970
  • 大数据
    +关注

    关注

    64

    文章

    8884

    浏览量

    137423
收藏 人收藏

    评论

    相关推荐

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器学习平台
    的头像 发表于 12-25 11:54 63次阅读

    艾体宝与Kubernetes原生数据平台AppsCode达成合作

    虹科姐妹公司艾体宝宣布与Kubernetes 原生数据平台 AppsCode达成正式合作,致力于将其核心产品KubeDB引入中国市场,企业提供专业、高效的云原生数据库管理解决方案。
    的头像 发表于 12-16 15:07 214次阅读

    构建云原生机器学习平台流程

    构建云原生机器学习平台是一个复杂而系统的过程,涉及数据收集、处理、特征提取、模型训练、评估、部署和监控等多个环节。
    的头像 发表于 12-14 10:34 117次阅读

    什么是云原生MLOps平台

    云原生MLOps平台,是指利用云计算的基础设施和开发工具,来构建、部署和管理机器学习模型的全生命周期的平台。以下,是对
    的头像 发表于 12-12 13:13 93次阅读

    梯度科技入选2024云原生企业TOP50榜单

    近日,国内专业咨询机构DBC德本咨询发布“2024云原生企业TOP50”榜单。梯度科技凭借自主研发的“梯度智能云平台”入选该榜单,彰显公司在该领域的行业竞争力。
    的头像 发表于 12-06 11:35 259次阅读

    k8s微服务架构就是云原生吗?两者是什么关系

    和安全性,使开发者能够更轻松地构建和部署现代化的应用程序。然而,云原生不仅仅局限于Kubernetes或任何单一的技术,它是一种方法论和最佳实践,涵盖了多个技术和理念,旨在充分利用云计算的优势来
    的头像 发表于 11-25 09:39 139次阅读

    云原生和非云原生哪个好?六大区别详细对比

    云原生和非云原生各有优劣,具体选择取决于应用场景。云原生利用云计算的优势,通过微服务、容器化和自动化运维等技术,提高了应用的可扩展性、更新速度和成本效益。非
    的头像 发表于 09-13 09:53 386次阅读

    基于Arm架构的Azure虚拟机助力云原生应用开发

    子系统 (CSS) 所构建的解决方案专为运行现代通用云工作负载而设计,并且通过优化,云原生产品提供更高的效率和性能。
    的头像 发表于 09-05 15:54 1792次阅读

    京东云原生安全产品重磅发布

    “安全产品那么多,我怎么知道防住了?”“大家都说自己是云原生的,我看都是换汤不换药”在与客户沟通云原生安全方案的时候,经常会遇到这样的吐槽。越来越的客户已经开始了云原生化的技术架构改造,也意识到
    的头像 发表于 07-26 10:36 469次阅读
    京东<b class='flag-5'>云原生</b>安全产品重磅发布

    从积木式到装配式云原生安全

    从这两个方面分别进行分析和解决。 新技术带来新的安全风险 云原生的概念定义本身就比较抽象,从诞生到现在也经历了多次变化。2018年CNCF对云原生的概念进行了重定义:云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中
    的头像 发表于 07-26 10:35 296次阅读
    从积木式到装配式<b class='flag-5'>云原生</b>安全

    基于DPU与SmartNic的云原生SDN解决方案

    随着云计算,大数据和人工智能等技术的蓬勃发展,数据中心面临着前所未有的数据洪流和计算压力,这对SDN提出了更高的性能和效率要求。自云原生概念被提出以来,Kubernetes
    的头像 发表于 07-22 11:44 693次阅读
    基于DPU与SmartNic的<b class='flag-5'>云原生</b>SDN解决方案

    首批认证!拓维信息梧桐云原生平台获鲲鹏原生开发技术认证

    7月10日,拓维信息梧桐云原生平台V3.0获得华为鲲鹏原生开发技术首批认证。作为华为鲲鹏战略合作伙伴,拓维信息以28年行业数字化经验和持续技术创新能力,携手
    的头像 发表于 07-19 08:15 442次阅读
    首批认证!拓维信息梧桐<b class='flag-5'>云原生平台</b>获鲲鹏<b class='flag-5'>原生</b>开发技术认证

    赋能产业互联网,高通量计算让世界更高效!

    随着互联网技术的迅猛发展,计算机的主要应用从以传统的科学与工程计算为主逐步演变为以数据处理核心,以传统高性能计算机体系结构核心技术的新型
    发表于 04-12 14:46 250次阅读
    赋能产业互联网,高通<b class='flag-5'>量计算</b>让世界更高效!

    云原生是大模型“降本增效”的解药吗?

    云原生AI正当时
    的头像 发表于 02-20 09:31 387次阅读

    米哈游大数据云原生实践

    近年来,容器、微服务、Kubernetes 等各项云原生技术的日渐成熟,越来越多的公司开始选择拥抱云原生,并开始将 AI、大数据等类型的企业应用部署运行在云原生之上。以 Spark
    的头像 发表于 01-09 10:41 585次阅读
    米哈游大数据<b class='flag-5'>云原生</b>实践