0
2023年8月14日,由GAIR研究院、雷峰網、世界科技出版社、科特勒咨詢集團聯合主辦的第七屆GAIR全球人工智能與機器人大會,在新加坡烏節大酒店拉開帷幕。





潘毅對話黃學東
圍繞大模型的討論在繼續。繼黃學東介紹完「what we are now」后,清華大學周伯文接著介紹大模型在復雜場景中的應用。周伯文是清華大學惠妍講席教授、電子工程系長聘教授,銜遠科技創始人,IEEE/CAAI Fellow。

周伯文發表演講
需要注意的是,將大模型的能力遷移到產業應用中,將不可避免地遇到更低頻、長尾的復雜場景和大規模協同需求。對此,京東探索研究院院長、京東科技智能服務與產品部總裁、IEEE Fellow 何曉冬指出,應用于產業的大模型必須具備產業原生、價值驅動、開放協同三大特性。



Alex Ren對話邱諄
隨著大模型參數的指數級增加,如何高效訓練模型成為大模型開發的重中之重。阿里云計算平臺首席架構師林偉在 GAIR 2023 的演講中提出,今天 AI 工程面臨非常多挑戰。硬件復雜度高,芯片每半年更新一次;集群復雜,高投入未必能帶來高性能;分布式任務配置復雜;每一個問題都會大量分散算法工程師在模型訓練上的精力。
林偉介紹了阿里云 PAI 靈駿智算平臺的基礎架構。在算力底座層面,靈駿智算集群通過自研高性能網絡、高性能存儲、異構資源池化、數據加載加速等優化技術,可實現端到端1.5微秒超低系統通信時延,通信效率17%優化,異構資源利用率3倍提升。在工程平臺層,PAI靈駿智算服務提供覆蓋AI開發全流程的平臺和分布式計算優化能力,單個訓練任務可達到萬卡級別規模,千卡規模的線性擴展效率達92%,為通用大型模型研發提供穩定、高效的支撐。

阿里云林偉演講中
伊利諾伊大學厄巴納-香檳分校(UIUC)副教授李博指出,大模型時代,機器學習無處不在,但是大模型的安全性和可信性問題一直是學術界和工業界關注的重點,Amazon、Anthropic、 Google和 OpenAI 等公司曾共同承諾將更加負責等對AI進行開發;與此同時,大模型因為數據隱私等方面的問題,一旦進入物理世界,便會十分脆弱。為此,他們團隊提供了一個綜合可信度大模型評價平臺叫「DecodingTrust」,從有害內容(toxicity)、刻板偏見(stereotype bias)、對抗魯棒性(adversarial robustness)等多個維度對 GPT 模型進行了可靠性評估,旨在評估不同可信度視角下的 GPT 模型的準確性,以及其在對抗性環境(如對抗性系統/用戶提示、示例樣本)中的穩健性。「DecodingTrust」研究發現,盡管 GPT-4 在標準基準測試中通常比 GPT-3.5 更可信,但在越獄系統或用戶提示的情況下更容易受到攻擊,背后原因可能是因為 GPT-4 更加準確地遵循(誤導的)指令。李博認為,AI 系統的安全性并沒有單一的解決方案可以解決所有問題,需要多方持續地關注。

李博遠程演講中
南洋理工大學副教授張含望帶來了以《視覺識別中的因果關系》為主題的演講。他認為,對于當前的大模型來說,如果想要真正突破一些最底層邏輯上的問題,因果關系(Causality)是一條必經之路。
張含望表示,在多模態模型或大語言模型的研究中,偏差(bias)是常見問題。隨著模型規模的不斷擴大,它可能會越來越智能,但偏差問題依舊存在。這就意味著,若不把因果關系加上去,大模型只是在進行強行關聯。如果幸運,模型在回答問題時能夠給出正確答案,否則就會“胡說八道”。這是因為它背后的關聯本身就是錯誤的,把共生關系當成了因果關系。張含望還更進一步地指出,共生不等于因果,經常發生的事情不一定是因果關系。
對此,他給出的建議是,做多模態模型的過程中,一方面一定要多關注“等變性”,因為“可拆解性”可以通過數據量堆疊,“等變性”不可以;另一方面,目前,多模態之間互通的瓶頸在于非語言模態(例如圖像)的spatial tokens和語言分布差的太遠。他認為,語言的本質是可遞歸的符號系統,這也是大語言模型可以推理的基礎。所以,如果想得到真正的多模態大模型,就必須找到一種“可遞歸,可拆解的”的tokenization的方法,把非語言模態轉成“可遞歸分布”的token。

張含望演講中
嚴睿在 GAIR 2023 的演講中主要介紹了大模型的發展歷程,以及大模型所對應的新特性與背后對應的新技術。此外,介紹了將大模型能力與對話式人工智能相結合的研究點,探討了一些現有的技術發展路線與可能存在的技術挑戰。最后介紹了一下人民大學推出的玉蘭系列大模型,包括RecAgent推薦仿真大模型,能在一定程度上解決數據匱乏與冷啟動問題,也有可能推廣到其他場景。
會后,嚴睿與現場觀眾對涉及到通用模型在專業領域應用的話題展開討論,嚴認為將開源模型進行微調以適應特定領域數據有一定效果,但研究尚處早期無確切定論。

嚴睿演講中
大會下午第二場進入“大模型時代超級基建”環節。過去數年間,AI領域應用落地曾一度乏善可陳。但在剛剛過去的幾個月,ChatGPT引爆了大模型的浪潮。盡管如此,當前的大語言模型的訓練然面臨諸多挑戰。基于此,GAIR大會首日設置“大模型時代的超級基建”,共同探討AI底層基礎設施相關話題。
過去數年,AI 模型的參數發生了極大變化。新加坡國立大學校長青年教授、潞晨科技創始人尤洋指出,從 2016 年至 2021 年 1 月,AI 模型的參數量是每 18 個月增長 40 倍;從 2018 年 1 月到 2021 年 1 月,AI 模型的參數量每 18 個月增長 340 倍。而相形之下,2016 年 1 月至 2021 年 1 月間,GPU 的計算增長速度每 18 個月僅增長了 1.7 倍。由此可見,訓練成本高、周期長,是當前大模型發展最需要克服的難題。
針對這一問題,尤洋提出了 Colossal-AI 系統,從高效內存系統、N 維并行系統和大規模優化三個層次出發,以實現同樣的設備條件下將數據移動的最小化,將 GPU 的吞吐量擴大至最高點。
尤洋還指出,現階段的模型參數量以 10 萬倍擴大、但層數增加不多,這或意味著:如今的 AI 發展可能不再是深度學習、而是進入了寬度學習時代。在模型變得更寬的情況下,面對大規模、長時間的 GPU 訓練任務,大模型訓練系統的核心將是如何實現 GPU 并行計算,以實現大模型訓練越快越省錢的目標。

尤洋演講中
如何用云計算支撐大模型的發展?UCloud董事長兼CEO季昕華分享了以《中立云服務助力AIGC的發展》為主題的演講。
季昕華認為,判斷一個大模型能不能做好主要有四個關鍵要素:一是資金密度;二是人才密度;三是數據密度;四是算力密度。
一家大模型公司如果沒有一個億美金,那基本上壓力就會比較大。因此,大模型被稱為是互聯網的重工業。除資金以外,大模型的訓練需要大量的科學家人才、數據、算力。
而UCloud主要做的就是大模型最下面的基礎設施。季昕華提到,目前,國內有139家公司在做大模型,其中五六十家都是由UCloud支撐和支持。所以,他們對整個模型過程中的技術要求非常清楚,也看到了大模型目前發展階段在技術上所遇到的挑戰,包括功耗、存儲、網絡等。

季昕華演講中
匯智智能聯合創始人劉黃驍烈在演講中介紹了當前大模型技術的主要應用場景。他表示,目前,大模型技術應用場景可以分成優化交互、輔助工作、素材制作三個方向。他還指出,這三個方向主要落在輔助用戶,幫助用戶去提效上,并不能替代人工。
在實踐過程中,他發現對于沒有AI專業背景的用戶使用大模型,常常會出現翻車現象。這種情況下,大模型對他們工作的提效就是負的。
在用戶眼里,現在的大模型就像是一套擁有超能力的鋼鐵盔甲,用戶期待穿上這套盔甲以后,立馬就能飛起來、發射激光炮……但現實是,現在大多數用戶的問題是:不知道如何去操作這套擁有超能力的鋼鐵盔甲,以及面對不同種類型的盔甲,應該如何選擇?
劉黃驍烈把當前用戶面對的大模型時的困境,歸納總結叫做“GNOMIC困境”,六個字母分別對應的是 Guide(指導)、 Notarize(公正)、Operate(操作)、Measure(衡量)、Identify(區別)、 Catelog(推介)。
基于以上分析,匯智智能推出如下產品和服務:AIGC開源社區微言大義——解決“GNOMIC困境”的一個全量的解決方案。通過智能體的概念把大語言模型封裝成一系列,用戶能夠更好地感知行業案例。

劉黃驍烈演講中
Zilliz創始人兼CEO星爵指出,過去十年,受限于研發成本和開發難度,全球僅有1%的人專注于AI領域的研發工作。但如今,有了大模型和向量數據庫作為能力基座,一個AI 應用的開發僅僅需要兩三個工程師一個周末的時間便可完成。“忽如一夜春風來,千樹萬樹梨花開。”對于大模型,星爵如此評價道。
此外,星爵還強調了向量數據庫之于大模型的重要性。他認為,向量數據庫承擔著大模型數據片外存儲的重任,不管是圖片、視頻語言還是生物學中蛋白質的三維結構,都可以用向量的方式表征它的語義。
針對數據實時性和私域專有數據的問題,星爵表示,學術界和工業界存在兩種解決方案,一是通過Fine tuning的方式迭代演進,讓大模型學到更多知識;二是通過Vector search方法,把最新的或私域知識存到向量數據庫中,需要時再在向量數據庫中做基于語義的向量檢索。上述兩種方法都能為大模型提供更加精準的答案。
不過,星爵也坦言,從成本角度出發,向量數據庫的成本是Fine tuning的1/ 1000。所以大模型廠商都無一例外地推薦開發者使用向量檢索的方式做知識庫管理,以便和模型有一個更好交互,降低落地使用成本的同時,提升在業務中的實際效果。

星爵演講中
在演講過后的圓桌論壇環節,云啟資本合伙人陳昱與尤洋、季昕華、星爵三位嘉賓共同討論了當下備受關注的熱門話題,包括大模型基礎設施建設面臨的挑戰、如何降低大模型訓練成本等。
針對大模型基礎設施建設面臨的挑戰:
尤洋認為,通信基礎設施非常重要。比如,英偉達收購Mellanox的目的就是為了打造高速網絡。過去,挖礦等一些非AI需求的GPU就沒有很好的高速互聯。
季昕華在此前演講中已經提到大模型面臨的挑戰。在圓桌環節,他進一步解釋強調,資金方面,大模型的訓練需要大量的資金投入;算力方面,現在大部分的公司都沒有足夠的卡來做支撐;工程方面,數據存儲性能問題,以及整個訓練過程掉卡問題,都會使得整個訓練周期會變得非常長。
星爵則強調了數據方面的問題。他表示,世界上有 80% 以上的數據都是非結構化的數據。過去十多年,非結構化數據的管理能力主要由谷歌、微軟等大公司掌握。星爵表示,新AI時代對數據管理的要求也會變得更大,如何更好地做好數據基建,這對大家都是很大的挑戰。
針對業內非常關心的成本問題,幾位嘉賓也都給出了相應的觀點。
尤洋表示,大模型訓練的一個巨大負擔是訓練計算量太大。對此,他給出了三種解決方案:一是不改變硬件條件下試試能否加速收斂;二是,針對下層軟件,在不改變模型結果前提下,能否提供更好的基礎設施;三是能否進行模型優化。
季昕華表示,優刻得主要通過五個方面幫助客戶降低成本。一是降低電費。不論做訓練還是推理,電費大約占總成本的15%左右,優刻得烏蘭察布數據中心能夠把電費單價從1塊錢/度降低到3毛錢/度;二是化購買為租用。由于訓練一般分階段,因此公司可以選擇租用模式。比起購買,租用會極大降低使用者的成本;三是通過網絡帶寬和存儲帶寬來提高使用者的訓練效率;四是通過壓縮模型等手段,來降低推理成本。畢竟,未來推理成本可能會遠大于訓練成本;五是通過一體機的模式,即私有部署的模式推進私有化大模型。
星爵表示,就降低成本而言,從向量數據庫角度來看,主要包括三方面:第一,要有更好的算法;第二,要更聰明地利用個體存儲;第三,要比以往有更強的有效利用硬件的能力。

圓桌結尾,電腦報創始人陳宗周發表了總結感言,他對各位嘉賓的演講和工作成果都給予了盛贊。陳老師還特別提到,很多講者已經把事業做得非常龐大,但依然非常謙遜,中間更是有不少人是年輕一代的榜樣。

陳宗周致大會總結
至此,第七屆GAIR全球人工智能與機器人大會首日日程圓滿結束。8月15日,精彩繼續!
這個世界從不缺時代的注腳,GAIR存在的意義,就是讓AI歷史上的各種機緣與巧合,交織在一起,碰撞出新的思想與故事。
8月14日-15日,一群涌動著探險家、變革者、英雄血液的創造者,也將讓最前沿、最奇思妙想的大模型技術突破與商業試驗,以空前肆無忌憚的方式綻放。
這次他們齊聚在新加坡烏節酒店,為第七屆GAIR全球人工智能與機器人大會,帶來最為激蕩的思想碰撞。
雷峰網(公眾號:雷峰網)
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。