DH3G游戏资讯网

重磅!业界首个云原生批量计算项目 Volcano 正式晋级为 CNCF 孵化项目

发表于:2024-11-21 作者:创始人
编辑最后更新 2024年11月21日,4 月 7 日,云原生计算基金会(CNCF)宣布,由华为云捐献的业界首个云原生批量计算项目 Volcano 正式晋级为 CNCF 孵化项目。这意味着 Volcano 的技术生态受到业界广泛认可,CNC

4 月 7 日,云原生计算基金会(CNCF)宣布,由华为云捐献的业界首个云原生批量计算项目 Volcano 正式晋级为 CNCF 孵化项目。这意味着 Volcano 的技术生态受到业界广泛认可,CNCF 云原生技术版图对于批量计算的支持也已趋于成熟。

华为云 CTO 张宇昕表示:"华为云一直致力于云原生技术、产业和生态的建设,Volcano 融入了华为云在云原生、AI、大数据、HPC 等领域中沉积的行业和技术经验,促进云原生技术与企业数据资产高效融合、充分释放数据红利,加速企业数字化、智能化进程。"

CNCF 首席技术官 Chris Aniszczyk 也表示:"对于复杂的 Kubernetes 工作负载,尤其是 AI、大数据等领域,批处理可以大大简化部署。以云原生的方式来精简大批量数据的处理是非常新颖和有价值的实践,Volcano 使得 Kubernetes 能够成为世界级的工具,助力科学研究、高性能计算等行业的发展。"

Volcano 项目于 2019 年 6 月开源,2020 年 4 月正式成为 CNCF 沙箱项目。Volcano 自 2020 年进入 CNCF 以来,在人工智能、大数据、基因测序等海量数据计算和分析场景得到快速应用,并构建起完善的上下游生态,目前腾讯、爱奇艺、小红书、蘑菇街、唯品会、鹏城实验室、锐天投资等企业均已将 Volcano 应用于生产环境。

自加入 CNCF 以来,Volcano 社区已吸引 2.6 万全球开发者、并获得 2.3k Star 和 530+ Fork。Google、Facebook、Amazon、Red Hat、华为、百度、腾讯、建信金融科技等科技巨头纷纷加入 Volcano 社区贡献,海内外生产落地用户广泛分布于互联网、先进制造、金融、生命科学、科研等行业。Volcano 也因其创新的技术理念、活跃的社区生态获得第二届"中国优秀开源项目"和 "2021 年 OSCAR 尖峰开源社区及开源项目奖",其作业管理能力被写入由中国信息通信研究院牵头制定的《高性能计算 (HPC) 云平台标准》,成为行业标准。

过去两年,Volcano 全球生态发展迅速,一批行业标杆用户不仅积极地推动 Volcano 落地生产环境,也基于自身实践反哺社区,实现双赢。

小红书技术部负责人张雷表示:"云原生批量计算项目 Volcano 应用于小红书大规模机器学习平台、大数据平台等生产系统,支撑着搜索、推荐、广告、内容审核等多项关键业务,Volcano 大大简化和加速了大数据以及 AI 应用在云原生环境的落地进程,小红书业务系统借助 Volcano 提供的丰富功能和优越性能,实现了资源成本的降低和作业性能的提升,期待 Volcano 在云原生领域持续深耕,发挥更大价值。"

中科类脑研发总监常峰提出:"Volcano 是最早针对批量计算场景开源的云原生项目之一,其动态可配的高级调度策略和优秀的资源管理能力解决了 AI 场景下作业调度、生命周期管理、异构硬件支持等多个问题。在落地实践的过程中,我们基于 Volcano 的能力做扩展,有效提升了系统稳定性和资源利用效率。期待加入 CNCF 后,在社区的加持下 Volcano 能持续孕育出更多优秀的解决方案和最佳实践。"

截止目前,Volcano 社区共发布 21 个版本,最新版本为 v1.5.1。2022 年,社区将会进一步扩大技术版图,聚焦以下能力建设:

・ 跨云跨集群调度:跨集群一直是分布调度系统解决大规模、灾备等问题的主要解决方案。同时,为了降低厂商绑定的风险,并最大限度兼顾不同云厂商的优势,多云环境下的负载高效分发逐渐成为趋势。Volcano 将会通过多个项目构建分层调度体系,基于全局资源视图,提供多样化策略如成本优先、效率优先等,为作业发放提供最佳决策。

・ 在离线作业混部:针对业界普遍存在的数据中心集群资源率低下的问题,Volcano 将围绕业务感知、在离线统一调度、资源超卖、资源隔离与抢占、动态调度等能力的构建,在保证业务稳定性的前提下实现降本增效。

・ 弹性调度:针对弹性训练、竞价实例的场景,Volcano 将会增强基于 min,max 的调度能力、作业感知、资源抢占能力,实现资源利用最大化。

・ GPU 虚拟化:推理场景以及 GPU 开发的场景,GPU 使用率普遍偏低,Volcano 已实现多容器共享使用 GPU,未来将进一步增强算力、显存的隔离能力,保障在提升利用率的同时,降低业务间的干扰。

・ 细粒度资源管理:Volcano 目前通过 Queue 提供资源的高效复用,针对更复杂的场景,Volcano 将会通过 Hierarchy Queue,、Policy per Queue、Plugin per Queue 等机制提供更细粒度的管理和共享。

・ 工作流管理:工作量的编排使用越来越广泛,Volcano 将基于子项目 JobFlow,构建多场景、轻量化、高性能的编排能力。

・ 基于真实负载的动态调度与重调度:针对当前基于资源申请进行的负载调度、资源碎片化引入的节点使用率不均衡的问题,Volcano 将结合监控能力构建基于真实负载的动态调度和重调度。

华为云一直是云原生新技术的探路者、产业新格局的开拓者,2015 年华为作为唯一亚洲企业参与云原生计算基金会(CNCF)创建,并一直是 CNCF 核心项目的主要贡献者,代码贡献稳居亚洲第一。除 Volcano 项目外,华为云还捐献了首个智能边缘计算项目 KubeEdge、首个多云容器编排项目 Karmada,完善了 CNCF 的技术生态;同时,华为云还拥有服务网格顶级开源社区 Istio 在亚洲的首个指导委员会席位。为进一步推动云原生技术在各行业的落地、构建产业融合新格局,华为云联合中国信通院先后发布了《云原生 2.0 白皮书》、《数字政府云原生基础设施白皮书》为企业落地云原生提供体系化的理论参考,并与 CNCF、中国信通院联合成立了全球云原生交流平台 -- 创原会,为全球企业提供共享、共创、共赢的云原生交流平台,已服务于 500 + 企业的技术管理者。未来,华为云将持续与广大客户一起共建云原生产业生态圈,做深耕数字化的先行者。

欢迎参与了解 Volcano 详情,并参与社区贡献。

2022-05-06 01:59:08
0