0
作者 | 黃楠
編輯 | 陳彩嫻
字節入場語言生成大模型,國內大廠在大模型領域的競爭又熱鬧了!
近日有消息稱,原達摩院大模型 M6 帶頭人楊紅霞已加入字節 AI lab,參與語言生成大模型的研發,楊紅霞在團隊中處于領導地位,直接向字節跳動副總裁楊震原匯報。
去年9月初,楊紅霞從阿里達摩院離職,彼時她向 AI 科技評論表示,離開是出于個人家庭原因,而非行業問題,達摩院大模型 M6 團隊的后續工作不受影響。
AI科技評論也向當事方進行了詢問,但截止發稿為止,尚未收到進一步的確認信息。AI科技評論也會繼續關注本次變動的后續相關信息,也歡迎知情人士補充。(AI科技評論將持續關注AI大模型領域動態,歡迎添加本文作者微信:finfl26est,互通有無。)
楊紅霞 2007 年本科畢業于南開大學,獲統計學學士學位。之后她去往美國杜克大學統計科學系攻讀博士學位,師從 David Dunson 教授。
博士畢業后,楊紅霞先入職 IBM 全球研發中心任 Watson 研究員,后又加入雅虎公司,擔任首席數據科學家。
2016 年,楊紅霞結束了在美近 10 年的留學及工作生涯,回國后加入阿里巴巴達摩院智能計算實驗室,大模型 M6 是楊紅霞在達摩院任職期間最突出的成就。

2021 年 3 月,阿里達摩院首次發布 M6,英文全稱是 MultiModality-to-MultiModality Multitask Mega-transformer,6個 M,簡稱 M6,是國內首個千億參數多模態大模型。
同年6月,楊紅霞團隊又發布萬億參數的 M6,僅使用 480 塊GPU,就能實現萬億參數體量的智能運算。相比原來的百億參數模型,功耗降低 8 成,效率提升 11 倍。僅過4個月后,M6 又在當年 10 月再次突破極限,楊紅霞團隊使用 512塊 GPU,在 10 天內訓練出 10 萬億模型。與大模型 GPT-3 具有同等參數規模,但能耗僅為其 1%。
大模型 M6 擁有多模態、多任務能力,其目標是打造全球領先的具有通用性的人工智能大模型,尤其擅長設計、寫作、問答,在電商、制造業、文學藝術、科學研究等領域有廣泛應用,通過將不同模態的信息經過統一加工處理,沉淀成知識表征,為各個行業場景提供語言理解、圖像處理、知識表征等智能服務。
相較于其他 AI 模型,大模型 M6 更低碳高效,提升了超大規模預訓練模型的資源利用率與訓練效率,沉淀大模型高效訓練的能力。楊紅霞曾在接受媒體采訪時表示:“多模態預訓練是下一代人工智能的基礎,M6 模型實現了訓練效率和生成精度等多項突破,是當前眾多中文多模態下游任務最優模型。”
在達摩院期間,楊紅霞帶領阿里巴巴達摩院 M6 團隊致力于認知智能方向,研發了 AliGraph、M6、洛犀等較為有影響力的人工智能開源平臺和系統,發表頂級會議、期刊文章超過 100 篇,美國和中國專利超過 30 項。她曾帶領團隊獲 2019 世界人工智能大會最高獎卓越人工智能引領者(Super AI Leader,簡稱 SAIL 獎),2020 年國家科學技術進步獎二等獎和 2020 年杭州市創新領軍團隊。2022年6月,楊紅霞入選 2022 福布斯中國科技女性50榜。
去年9月初,由于個人家庭原因,楊紅霞從阿里巴巴達摩院智能計算實驗室離職。
此前 ChatGPT 帶動的熱潮中,百度率先發布“文心一言”,正式打響了國內科技大廠的較量。
相較于此前在大模型上有布局的企業,例如百度“文心”、阿里“通義”、華為“盤古”等,字節在這場大模型之戰中顯得略為低調。
此前有媒體報道稱,字節跳動在大模型上已有布局,主要在語言和圖像兩種模態上發力。其中,語言大模型團隊組建于今年,團隊規模在十數人左右,主要探索方向為同搜索、廣告等業務線的結合。
另一名知情人士向 AI 科技評論透露,相比起其他大廠的大張旗鼓,字節目前研究大模型的人并不算多。此前在馬維英擔任字節跳動副總裁兼人工智能實驗室主任期間曾主推人工智能賦能內容創作和視頻內容的理解,但當時內部 AI 和推薦引擎是分開的;字節之前離開的另一位領軍人物王崇則專長于機器學習,此前是字節推薦引擎負責人。
另外有知情人士稱,國內字節等大廠做 ChatGPT 的模型,目前學習架構大部分采用大模型教小模型的方式,小模型學習到大模型能力的百分之幾,能解決大部分問題后再慢慢升級。
ChatGPT 不是終點,在這場關于通用人工智能的的角逐中,數據和場景成為了競爭的關鍵,從這個角度上看,字節有豐富的多模態數據,又有娛樂、學習、電商等豐富的應用場景。
此前王小川曾對 AI 科技評論表示,字節在這場爭奪戰應占有一席之地,“如果能夠出現一個產品可以理解視頻,基本就立于不敗之地了。”
楊紅霞常年深耕在產業化大規模落地的人工智能相關技術,她的加入將彌補字節在語言生成大模型領軍人才的空缺,而她此前展示出的在提升效率、降低能耗等方面的杰出工程能力,也將對字節語言生成大模型的研究創新、場景應用落地等方面帶來重要影響。
更多內容,點擊下方關注:


未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!
公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。
雷峰網(公眾號:雷峰網)
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。