0
當AIOps與云計算相容,Azure還是那個Azure?
2022年1月13日,微軟亞洲研究院在“智能運維”媒體溝通會上分享了智能運維的應用場景、面臨的挑戰及未來發展方向,并詳解微軟亞洲研究院智能運維為Azure所提供的智能原動力。
隨著越來越多的企業擁抱云計算,企業上云成為共識,企業在享用云計算帶來快捷服務的同時也要面對傳統運維帶來的挑戰。
那么如何對云服務進行規劃與設計?如何讓運維體系更加適應云的變化?如何快速部署、監控云資源?“AIOps”應運而生。
結合了大數據和人工智能的AIOps,可以實現智能化操作,快速地分析和處理大量數據,得出有效的運維決策,可以有效地開展大規模系統軟件的運維。
如今微軟亞洲研究院與微軟云產品團隊深度合作,目前有哪些成果?有了AIOps的微軟云有什么變化?目前AIOps發展現狀如何?
會議現場,雷峰網及相關媒體與微軟亞洲研究院常務副院長、微軟杰出首席科學家張冬梅,首席研究員林慶維展開了深入交流。

微軟亞洲研究院常務副院長、微軟杰出首席科學家張冬梅

微軟亞洲研究院首席研究員林慶維
一、AIOps市場規模可觀,“吃肉”還是“喝湯”?
“AIOps”是 Gartner 于 2016 年創立的術語。AIOps通過創新的AI/ML技術,可以有效且高效的設計、構建并運營大規模的復雜云服務。AIOps平臺綜合了大數據、機器學習和可視化技術,用于增強和部分取代 IT運維流程和任務,包括可用性和性能監控,事件關聯和分析,IT服務管理和自動化。
Research and Markets預計,到2025年,AIOps市場規模將達到143億美元。
面對如此大的市場規模,AIOps賽道發展真的好嗎?數據量少、應用場景等都是人們所關注的問題。
而隨著云計算時代的到來,AIOps成為了云計算當中不可或缺的一環。正如張冬梅院長所說:“現在云計算平臺已經變成了整個世界的基礎設施,而未來云計算會像水、電、氣一樣不可或缺。”
而對于整個系統管理來講,也正面臨著前所未有的挑戰。海量用戶、大規模集群、復雜的系統架構使傳統的運維方式力不從心。
傳統運維走向智能運維是一個必然趨勢。
而早在10年前,微軟亞洲研究院就率先開展云智能以及AIOps相關領域的研究,在該領域提出了全新的方法與設計,如主動系統設計、數據驅動型安全部署等;在全球高影響力的學術會議上,發表論文超過50篇。發起、組織系列討論會@AAAI 2020、ICSE 2021、Chinasoft、MLSys 2022等。
目前微軟亞洲研究院的AIOps研究成果已經應用到了微軟Azure、Skype、OneDrive、Office 365、Azure等諸多在線服務中。
在AIOps這一賽道中,微軟走的比較早也比較靠前,無論誰“吃肉”還是誰“喝湯”, 微軟實力都不容小覷。
二、AIOps在微軟云應用如何?
目前微軟云有上千萬臺多物理服務器部署在世界五大洲,上千個數據中心運行著上百萬客戶的應用和服務,其中包括 95% 以上的全球500強企業,每個月都會更新硬件,每天都會更新軟件。
微軟云計算與人工智能事業部首席數據科學家黨映農指出:“面對微軟云這樣的大規模高度復雜并承載大量客戶應用的云計算系統,用傳統的非智能的軟件開發和運維技術進行高效開發部署運營和管理是不可行的,而早在五六年前微軟云就意識到實現智能運維的必要性,因此開始加強與微軟亞洲研究院的合作,現在看來在微軟云中,AIOps的應用和影響是深遠的。”
在Azure的應用中,AIOps也已經顯現出了不俗的能力。
據了解,微軟云已經在智能運維方面積累了很多重要的技術創新,包括云服務系統的智能化和管理的自動化、云開發和部署的智能化以及智能化客戶響應等。另一方面,人工智能和機器學習技術已經深度集成到了微軟云的基礎設施的管理軟件站,包括智能監控、智能預測、智能修復等。
自動化和智能化一起推進,一方面使得云服務的可用性、可靠性以及效率的提升,另一方面云服務運行的自主性得到提高,需要進行人工維護的場景不斷減少,機器學習技術也極大的改善并增強了微軟云的開發和維護,比如像智能測試、智能診斷、智能部署等,大大提高開發和運營工程師的效率。
根據Gartner數據,微軟Azure占據全球云計算近20%的份額。微軟將AIOps能力賦能給Azure,想必微軟也看到了在人人都可上云的時代, Azure“升維”AIOps必不可少。
三、服務、客戶、工程是AIOps的核心
過去的運維是小數據,每一個運維模塊都是一個數據孤島,不涉及算法,僅能滿足傳統運維的使用場景。而發展至今傳統的運維已經不能適應現在云計算時代的新運維。
隨著人工智能大潮來臨,基于人工智能的智能運維(AIOps)開始火爆起來了,得到了更廣泛的關注。
張冬梅院長表示:“AIOps的三個核心是服務/系統、客戶、開發/運維。”
具體來說,AIOps一方面可以讓服務/系統設計和構建更加可靠、高性能和更高效;另一方面智能化運維可以改善用戶體驗、提升用戶滿意度;最后AIOps智能運維工具可以賦能給工程人員,讓開發/運維實現更高生產力。
據林慶維介紹,目前AIOps已經可以應用于云系統的故障預測、異常檢測、智能診斷、容量規劃、事故管理等諸多實際應用場景。
比如為了保證云平臺的高可靠性和高可用性,實時檢測可能的系統異常尤為重要。大規模系統的異常檢測通過監控平臺的各種運行狀態數據來實現,如性能指標數據(訪問成功率、響應速度、CPU 使用率、內存占用率),系統事件,系統日志等,從數據窺探系統的健康狀況。
除此之外,還有智能診斷:利用系統數據自動定位可能的故障原因、縮小問題空間;故障預測:在故障發生之前,提前預測以避免可能的損失,比如硬盤故障預測、大規模服務故障預測等。
與此同時,我們也不得不關注,AIOps所面臨的短板挑戰。在檢測、診斷、預測以及優化中都面臨著不同的問題,比如差異化需求、缺乏標注數據、在線系統的大規模和復雜性為運維帶來難度。總的來說,機器學習所適用的場景與現實環境還是存在一定差距的。
因此,微軟亞洲研究院將繼續探索AIOps領域,讓AIOps在未來更加自動化、主動化、通用化。(雷峰網(公眾號:雷峰網))
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。