硬核实测 | 深信服超融合承载 Oracle,重载虚拟机热迁移居然这么平滑
云化时代, 虚拟机热迁移 (Live migration) 是被大家广泛关注的的热点技术, 作为云计算平台核心技术之一, 虚拟机热迁移也是信服云一直深入钻研的底层技术。
那么信服云旗下的超融合产品在热迁移上实力究竟如何? 这场测试揭晓了答案。
虚拟机热迁移指虚拟机从一台宿主机迁移到另一台宿主机, 确保业务始终运行在可靠且资源充足的物理主机上, 并且在迁移过程中尽可能的不中断业务。
随着越来越多的用户将核心业务部署在云平台, 业务应用需要更高的 SLA 保障, 可停机的窗口时间的要求越来越高, 甚至提出了零停机的能力要求。特别是在如下场景中:
(1) 物理主机的维护, 比如配件更换、服务维护。
(2) 云平台升级, 需要实现集群内物理主机的滚动热升级。
(3) 云平台对集群内进行虚拟机运行位置调度, 获得更优的资源使用效率。
为了检验信服云虚拟机热迁移的真实能力表现, 信服云在真实环境中对 Oracle 业务承载下的虚拟机热迁移进行了测试, 并和业界其他厂家进行了对比。
测试环境
测试结果
↑ Oracle 1000 用户场景下的深信服超融合热迁移
结果说明
通过以上测试结果可看出, 基于深信服超融合的热迁移方案可以获得平滑的业务连续性体验, 迁移得更快、更稳。
对于承载了 1000 并发用户的 Oracle 业务虚拟机, 深信服超融合承载的 Oracle 业务在迁移过程中性能仅抖动了 6s, 其中业务中断时间仅 1s, 上层业务可获得近乎 0 中断的平滑迁移体验。相较于业界其他超融合产品的测试结果, 信服云的优势明显。
平滑迁移背后的创新设计
深信服超融合能实现远超业界其他产品的平滑迁移体验, 源自多个底层核心技术的优势。其中一个关键技术是 CPU 节流算法, 其基本原理如下:
在迁移初始阶段, 源主机通过协商机制在目的主机上启动一个同样的虚拟机, 并将其置于静默状态。
然后源主机 QEMU 记录虚拟机的所有内存数据后, 通过网络传输到目的主机, 但传输过程中由于正在运行的业务会读写内存数据, 新产生的内存数据会在第一轮传输完成后重新记录并按照同样的方式传输到目的主机, 依次迭代下去, 直到最后记录的内存数据满足一个阈值后, 源主机会停止运行 (即仅 1s 的业务中断时长)。
QEMU 将剩余的内存数据一次性传输到目的主机, 然后目的主机开始运行, 源主机关机。这个过程中可能产生依次迭代无法收敛的情况, 将会降低虚拟机 CPU 利用率 (即节流), 使业务降低吞吐量, 深信服超融合的优化主要是设计了新的算法, 综合考虑多个指标, 兼顾了迁移时间和业务受节流影响的时间, 最终能够降低迁移时间和业务受节流影响的时间。
该项技术的实现, 使得原本无法迁移完的场景, 现在能够成功迁移完, 并领先业界水平; 同时, 热迁移最后 downtime 停机阶段,ping 网络中断时间不超过 2 秒 (最佳测试结果是 0s)。
除了 CPU 节流算法, 深信服超融合在 QEMU 热迁移压缩算法优化、磁盘热迁移 BITMAP 数据块粒度调整、热点内存脏数据延迟迁移机制、内存热迁移时间片动态调整机制、磁盘热迁移 IO QoS 动态调整机制等技术上都有自己的创新设计, 后续《信服云黑板报》将陆续为大家带来信服云技术干货的分享。
2022-05-06 02:11:40