0
| 本文作者: 嘉嘉 | 2022-04-25 19:36 |
云化時代,虛擬機熱遷移(Live migration)是被大家廣泛關注的的熱點技術,作為云計算平臺核心技術之一,虛擬機熱遷移也是信服云一直深入鉆研的底層技術。
那么信服云旗下的超融合產品在熱遷移上實力究竟如何?這場測試揭曉了答案。
虛擬機熱遷移指虛擬機從一臺宿主機遷移到另一臺宿主機,確保業務始終運行在可靠且資源充足的物理主機上,并且在遷移過程中盡可能的不中斷業務。
隨著越來越多的用戶將核心業務部署在云平臺,業務應用需要更高的SLA保障,可停機的窗口時間的要求越來越高,甚至提出了零停機的能力要求。特別是在如下場景中:
(1)物理主機的維護,比如配件更換、服務維護。
(2)云平臺升級,需要實現集群內物理主機的滾動熱升級。
(3)云平臺對集群內進行虛擬機運行位置調度,獲得更優的資源使用效率。
為了檢驗信服云虛擬機熱遷移的真實能力表現,信服云在真實環境中對Oracle業務承載下的虛擬機熱遷移進行了測試,并和業界其他廠家進行了對比。


↑ Oracle 1000用戶場景下的深信服超融合熱遷移

通過以上測試結果可看出,基于深信服超融合的熱遷移方案可以獲得平滑的業務連續性體驗,遷移得更快、更穩。
對于承載了1000并發用戶的Oracle業務虛擬機,深信服超融合承載的Oracle業務在遷移過程中性能僅抖動了6s,其中業務中斷時間僅1s,上層業務可獲得近乎0中斷的平滑遷移體驗。相較于業界其他超融合產品的測試結果,信服云的優勢明顯。
深信服超融合能實現遠超業界其他產品的平滑遷移體驗,源自多個底層核心技術的優勢。其中一個關鍵技術是CPU節流算法,其基本原理如下:
在遷移初始階段,源主機通過協商機制在目的主機上啟動一個同樣的虛擬機,并將其置于靜默狀態。
然后源主機QEMU記錄虛擬機的所有內存數據后,通過網絡傳輸到目的主機,但傳輸過程中由于正在運行的業務會讀寫內存數據,新產生的內存數據會在第一輪傳輸完成后重新記錄并按照同樣的方式傳輸到目的主機,依次迭代下去,直到最后記錄的內存數據滿足一個閾值后,源主機會停止運行(即僅1s的業務中斷時長)。
QEMU將剩余的內存數據一次性傳輸到目的主機,然后目的主機開始運行,源主機關機。這個過程中可能產生依次迭代無法收斂的情況,將會降低虛擬機CPU利用率(即節流),使業務降低吞吐量,深信服超融合的優化主要是設計了新的算法,綜合考慮多個指標,兼顧了遷移時間和業務受節流影響的時間,最終能夠降低遷移時間和業務受節流影響的時間。
該項技術的實現,使得原本無法遷移完的場景,現在能夠成功遷移完,并領先業界水平;同時,熱遷移最后downtime停機階段,ping網絡中斷時間不超過2秒(最佳測試結果是0s)。
除了CPU節流算法,深信服超融合在QEMU熱遷移壓縮算法優化、磁盤熱遷移BITMAP數據塊粒度調整、熱點內存臟數據延遲遷移機制、內存熱遷移時間片動態調整機制、磁盤熱遷移IO QoS動態調整機制等技術上都有自己的創新設計,后續《信服云黑板報》將陸續為大家帶來信服云技術干貨的分享。
以上就是本期《信服云黑板報》關于虛擬機熱遷移的分享。關注“深信服科技”公眾號,獲取更多技術干貨內容哦!
雷峰網(公眾號:雷峰網)
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。