0
| 本文作者: 馬廣宇 | 2024-10-12 20:09 | 專題:全面突破 vivo NEX |
雷峰網(公眾號:雷峰網)消息,2024 vivo開發者大會于10月10日在廣東深圳正式召開,vivo發布自研大模型——全新藍心大模型矩陣,并帶來了多項核心能力升級。
首先是語言大模型升級,vivo自研語音大模型基于藍心文本大模型開發,通過離散化編碼結合文本大模型學習,實現更智能、豐富和簡單的語音交互。它具備四大核心能力:語音合成、音色復刻、語音翻譯和方言自由說。語音合成能將文本轉化為逼真擬人的語音,支持多語言及方言;音色復刻則只需用戶一句話即可復制音色;方言自由說功能不僅滿足用戶方言交流需求,還助力方言文化的保護與傳承;語音翻譯能力則能直接將語音轉化為目標語言文本,提高翻譯效率。
vivo將繼續深耕語音大模型在各場景的應用,提升用戶體驗,并期待與各界共同探索大模型技術的更多可能性,造福社會。未來,vivo計劃將語音大模型能力逐步開放至智能體平臺,以更廣泛地服務于用戶和開發者。
BlueLM-70B 2.0新增學習了1億知識問答,500w篇的論文,以及1.2億代碼倉庫等高質量數據,模型整體能力提升30%。新增了多模態多輪對話能力,支持400+手機系統工具和180+三方工具的調用,以及全面升級了大模型的代碼生成能力,能實現數理計算和Excel的數據分析能力。BlueLM-70B 2.0模型較1.0模型能力提升30%。
圖像大模型方面,隨著擴散模型與AI架構的深度融合,圖像生成技術迎來了指數級飛躍,其中文生圖技術尤為顯著。vivo AIGC圖像大模型技術總監阮曉虎在論壇上介紹了vivo的文生圖大模型——藍心圖像大模型BlueLM-Art,該模型精通中文語境,融合了中國特色與東方美學,其在中文理解、中國文化詮釋、人物攝影美學及中文文字繪制等多個維度都取得了出色的效果,多次榮登SuperCLUE-Image基準榜單中文領域榜首。

通過在算法架構、數據處理、工程以及算力上的全面優化,使藍心圖像大模型BlueLM-Art擁有諸多特性,不僅精通中文,擁有出色的指令跟隨性,還能生成與圖文完美結合的中文字符,并提供藝術字繪制插件。同時,藍心圖像大模型BlueLM-Art在人物攝影美學方面有著卓越表現,能呈現美觀、真實、富有質感的人物形象。最后,BlueLM-Art還擁有可控性生成能力,能在圖像創作中保持更高的主體一致性。
基于藍心圖像大模型BlueLM-Art,vivo在藍心小V中推出了圖像創作、AI消除、圖像風格化、藝術字創作等一系列AI功能,并在PAD的原子筆記中加入了AI涂鴉美化功能,極大地提升了用戶的創作體驗。后續vivo將繼續優化文生圖大模型及其相關AIGC功能,為用戶提供更多創意資源,讓先進的AI技術惠及更廣泛的用戶群體,持續推動圖像生成技術的創新與發展。

大模型時代,vivo持續推進各模態大模型端側化能力建設,探索大模型在各業務場景端側產品落地,覆蓋“聽、說、讀、寫、畫”各應用場景。在“聽”方面,vivo升級應用語音識別大模型,讓語音操作隨時可用;在“說”方面,利用語音生成大模型生成超擬人音色,為故事講述賦予更鮮活的魅力;在“讀”方面,利用多模態大模型針對視障用戶打造圖像問答功能;在“寫”方面,將語言大模型在端側更廣泛的應用,同時升級為3B端側大模型,給用戶更為優質的體驗。此外,vivo還探索了圖像大模型端側化,為用戶帶來隨時可用的AI消除功能。
針對全模態大模型端側化,vivo從算法模型設計,到量化、性能瓶頸分析工具建設,再到底層運行時異構方案設計和業務框架層靈活的多業務部署架構建設,提供了完整的解決方案。通過軟硬件協同,充分挖掘芯片潛力,確保大模型在端側運行時的強悍性能。未來,vivo計劃開放成熟算法能力與端側加速能力,與行業開發者合作,共同打造創新、便利、智能的業務場景,為用戶提供更優質的智能化體驗。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。
本專題其他文章