漆遠獲新融資，阿里云參投；芯原創始人直言百模大戰就是“群模亂舞”，是在浪費電；英偉達今年在華將交付超100萬顆芯片丨AI情報局

本文作者：我在思考中

2024-07-08 11:01

導語：產品推薦：Pygma、AnythingLLM、Artificial Analysis

融資快報

無限光年完成新一輪融資：無限光年的核心產品是可信大模型，這是漆遠認為通往人工智能通用智能的道路。可信大模型結合了大語言模型與符號推理，旨在解決大模型的幻覺問題和遺忘性災難，提高模型的可信度和可解釋性。無限光年已完成多輪融資，并與金融和醫療行業的頭部企業合作，打造了針對特定行業的精專大模型。此次投資人包括阿里云、啟明創投等頭部投資機構。創始人漆遠從螞蟻集團副總裁任上離職后，漆遠先是重返學界，在復旦擔任教職，而后又產學研并行地創立了大模型公司無限光年。

Benchmark募資4.25億美元投向AI新時代：據《福布斯》獲得的一封投資者信顯示，風險投資公司 Benchmark 正在為其第十一期基金募集 4.25 億美元。新基金將被命名為 "Benchmark 1"，據悉，該公司的所有合伙人預計都會在其典型的專注領域（如消費科技、云計算或加密貨幣）內尋找人工智能公司。

軟銀宣布4億英鎊收購AI芯片公司Graphcore：日本軟銀宣布將以4億英鎊收購陷入困境的人工智能初創公司 Graphcore，該交易還需要獲得英國政府的審查批準才能生效。Graphcore成立于2016年，生產稱為智能處理器單元的AI芯片，旨在挑戰英偉達。由于英偉達的設備需求量很大，投資者們紛紛向這家初創公司注入資金，尋找替代英偉達的可行方案。2020年，Graphcore以28億美元的估值籌集2.22億美元，使其成為英國最有前途的初創公司之一。

EvolutionaryScale獲超1.42億美元種子輪融資： 該公司創始團隊的八位成員全都來自于Meta的FAIR部門。去年八月Meta官宣旗下的蛋白質折疊團隊Meta-FAIR解散。EvolutionaryScale旨在通過開放、安全的研究方式，來指導蛋白質設計領域的人工智能技術開發，團隊開發用于創造新型蛋白質和其他生物系統的大型語言模型ESM，已迭代到ESM-3。本次融資由Nat Friedman和Daniel Gross以及Lux Capital領投，亞馬遜、NVentures和天使投資人參投。

DNEG集團獲2億美元戰略投資：DNEG是好萊塢視效技術提供商，曾參與多部知名好萊塢電影的制作，如“狂怒”、“銀翼殺手2049”和“星際穿越”。這一投資將推動DNEG集團新成立的Brahma，開發人工智能驅動的CGI工具，以簡化視覺效果的創作過程。Brahma的AI創作者解決方案將利用超過25年的VFX數據生成逼真的視覺效果。該筆融資來自United Al Saqer Group，將使DNEG集團的估值超過20億美元。

焱融科技完成雙輪融資：焱融科技核心產品YRCloudFile 高性能文件存儲系統，在 AI 和高性能計算場景中嶄露頭角。完成 B 輪和 B+ 輪融資，累計融資額近 2 億元人民幣。兩輪融資分別由豐年資本和北京股權領投，老股東耀途資本、卓源亞洲、信雅達等知名投資機構持續跟投。

大道智創完成500萬人民幣融資：大道智創是一家專注于研發安保機器人的公司，主要研發和銷售巡邏機器人、安保機器人等商用服務型機器人，以視覺定位為主，配合多傳感器融合，在復雜環境下實現全自主定位巡航，目前已推出了一代產品“e巡 ”機器警長。投資方為中關村科技租賃。

Altrove AI獲400萬美元種子融資：Altrove使用AI生成無機材料的潛在配方，特別是稀土元素。融資由Contrarian Ventures領投。

Phaidra獲1200萬美元融資：該公司的系統從設施內的數千個傳感器收集數據，并使用人工智能模型就如何更有效地管理和冷卻設備做出實時決策。融資由Index Ventures 領投。

OpenLedger 籌集了 800 萬美元的種子資金：用于 AI 模型開發的去中心化數據基礎設施

（歡迎添加微信AIyanxishe2，了解更多AIGC、融資情況，與志同道合的朋友一同暢聊時新AI產品）

國內情報：

2024 世界人工智能大會線下參觀人數創歷史新高，預計總投資額超 400 億元：

大會線下參觀人數突破 30 萬人次，全網流量突破 10 億，比上屆增長了 90%，據悉，本次大會對接 132 個采購團組，形成了 126 個項目采購需求，預計意向采購金額達 150 億元，推動 24 個重大產業項目的簽約，預計總投資額超過 400 億元。本次大會的展覽面積超過 5.2 萬平方米，500 余家知名企業、超過 1500 項展品參展，50 余款新品首發首秀，均創歷史新高。

快手可靈 AI 網頁端上線，文生圖大模型“可圖”開源：

快手可靈 AI 網頁端正式上線，所有功能限時免費。“文生視頻”開放最長 10 秒生成能力，“圖生視頻”新增運鏡控制、自定義首尾幀等功能。據悉，已有超過50萬用戶申請可靈的內測資格，視頻生成數量達700萬。此外，文生圖大模型“可圖”開源，已上線網頁版和微信小程序，支持文生圖和圖生圖兩類功能，可用于 AI 創作圖像以及 AI 形象定制。

科大訊飛大模型新增投入超 6.5 億元、AI 學習機發布預售11699 元：

科大訊飛發布 2024 上半年業績預告，預計凈虧損 3.8 億元至 4.6 億元，上年同期盈利 7357.2 萬元，同比下降 725.24%~616.50%。科大訊飛表示，公司在全力加大“訊飛星火大模型”研發投入的同時，加快了大模型的落地推廣力度。2024 年上半年營收、毛利預計增長 15%-20%，且毛利增速高于收入增速。

此外科大訊飛近期還發布了 AI 學習機新品 T30 Ultra，內置星火大模型，屏幕尺寸為 14.7 英寸，12GB+1TB 版本到手 11699 元，將于 7 月 20 日開售。

智譜開源代碼生成大模型 CodeGeeX 第四代，號稱百億以下規模性能最強：

該產品集成了代碼補全和生成、代碼問答、代碼解釋器、工具調用、聯網搜索、項目級代碼問答等功能，支持超過 300 種編程語言，并且能夠處理 128K 上下文，這使得其能夠更好地理解和處理復雜的代碼文件。CodeGeeX4-ALL-9B 在 Berkeley Function Calling Leaderboard 上的測試表現超過 90% 的成功率，被譽為目前唯一能實現 Function Call 的代碼大模型。

騰訊發布大模型時代的AI十大趨勢，走進“機器外腦”時代：

騰訊研究院、上海交通大學、騰訊優圖實驗室、騰訊云智能聯合發布了《2024大模型十大趨勢——走進“機器外腦”時代》報告。報告指出，我們正在進入一個“機器外腦”時代。海量GPU和新一代大模型的組合起來，使人工智能在三個方向上有了實質性的飛躍：推理分析、創意生成和情緒智能。這意味著AI第一次擁有了類人的交互能能力，新一代AI正在成為人類的“機器外腦”，提供智力的外掛。

上海AI lab開源超強多模態LLM InternLM-XComposer-2.5：

上海 AI 實驗室聯合香港中文大學、商湯科技集團以及清華大學研發了 IXC-2.5 模型。模型具備長上下文處理能力，能夠處理超長的文本和圖像輸入，同時在視覺能力上有特殊優勢，包括超高分辨率的圖像理解和細粒度的視頻理解。模型架構包括輕量級的視覺編碼器、大型語言模型，以及部分 LoRA 對齊技術。在 28 個基準測試中，IXC-2.5 在 16 項測試中超過了現有的開源模型，其余 16 項測試中的表現也接近或超過了 GPT-4V 和 Gemini Pro。

支付寶發布多模態醫療大模型，支持千億級視覺識別：

支付寶多模態醫療大模型成為國內首批多模態醫療大模型之一。基于螞蟻百靈的多模態能力，模型可實現直接理解并訓練音頻、視頻、圖、文等多模態數據，使其更像人一樣感知和互動，能“看”會“聽”、能“說”會“畫”，支持千億級別參數醫療視覺識別。據悉，螞蟻百靈大模型已具備原生多模態能力，可以直接理解并訓練音頻、視頻、圖、文等多模態數據。

金山辦公發布 WPS AI 2.0，新增 4 個 AI 辦公助手，政務自研模型首次亮相:

WPS AI 2.0包含 WPS AI 辦公助手、WPS AI 政務版等應用，并首次公開了 13B 級別的政務自研模型，金山政務辦公模型 1.0。為個人用戶新增了 4 個 AI 辦公助手，分別為 AI 寫作助手、AI 閱讀助手、AI 數據助手、AI 設計助手。此次發布的金山政務辦公模型 1.0 擅長公文寫作，實現無口語化描述且按照公文風輸出，輸出的內容自帶公文格式，模型了解國家相關政策，回答均基于可靠依據。

阿里“通義”APP上線特殊AI繪本工具“追星星的AI”：

這是一款為孤獨癥兒童提供定制 AI 繪本服務的工具。它基于阿里自研 Modelscope-Agent 框架，調用了通義大模型的多項服務，可實現從一句話故事梗概到完整有聲繪本的生成。上海美術電影制片廠免費授權了旗下經典動畫形象供公益繪本使用。“通義”APP 已經限時上線以孫悟空和大耳朵圖圖為主角的 AI 繪本。

商湯科技發布日日新5.5大模型體系：

該大模型體系包括6000億參數基礎模型日日新5.5，性能提升30%；流式多模態交互模型日日新5o，是國內首個所見即所得模型，可進行實時多模態交互和問答；日日新5.5Lite在端側模型進行升級，模型精度提升10%、首包延遲降低40%，推理效率提升15%。

王堅稱美國AI發展的電力瓶頸短板我國不存在，最不缺就是電：

中國工程院院士、阿里云創始人王堅表示，美國AI人工智能發展的瓶頸是電力，這對中國來說不是問題。“中國一年的發電量是美國、日本、俄羅斯的總和還要多”，王堅說道。另外他提出一個應用、模型、電力和算力的不等式，認為在此不等式下，目前從事人工智能的人還不用擔心瓶頸問題。

MiniMax創始人閆俊杰稱至少三年后才會出現“殺手級”AI應用：

閆俊杰表示，雖然國內很多公司正在迎頭趕上ChatGPT，但是目前模型的錯誤率在60%-70%的水平，遠不及GPT-4的30%-40%。類似于微信、抖音、今日頭條這種規模的“殺手級”AI超級應用（Killer App），至少要到三年之后才能實現。

無問芯穹發布全球首個單任務千卡異構芯片混合訓練平臺，算力利用率達 97.6%：

無問芯穹聯合創始人兼 CEO 夏立雪發布無問芯穹大規模模型的異構分布式混合訓練系統，稱千卡異構混合訓練集群算力利用率最高達到了 97.6%。夏立雪還宣布無問芯穹 Infini-AI 云平臺已集成大模型異構千卡混訓能力，是全球首個可進行單任務千卡規模異構芯片混合訓練的平臺，具備萬卡擴展性。

中國公司開始大量訂購NVIDIA H20芯片：

摩根士丹利報告，NVIDIA特供中國市場的人工智能芯片H20系列，開始吸引包括百度、阿里巴巴、騰訊和字節跳動在內的中國科技巨頭的采購興趣。盡管H20在性能上不及英偉達的H100，其AI算力只有H100的不到15%，甚至部分性能不及Ascend 910B，但在國產AI芯片供應不足的情況下，中國廠商的選擇顯得有些無奈。

百度李彥宏稱開源模型是智商稅，閉源模型更強大、推理成本更低：

李彥宏稱：“我覺得，開源其實是一種智商稅”，“當你理性地去想，大模型能夠帶來什么價值，以什么樣的成本帶來價值的時候，就會發現，你永遠應該選擇閉源模型。今天無論是 ChatGPT、還是文心一言等閉源模型，一定比開源模型更強大，推理成本更低。”

李彥宏還指出，當前AI領域存在一種不良風氣，即各個公司競相發布新一代大語言模型，宣稱自己的模型參數規模和訓練數據量超越了GPT-4，但在實際應用落地方面卻鮮有成熟方案。AI技術的發展不應僅僅停留在跑分和刷榜上。今天一個震撼發布，明天一個史詩級更新，但實際應用卻遲遲未見。只有將AI技術應用于實際產業和場景，才能創造出真正的價值。

中國工程院院士高文稱今天的人工智能是低水平智能，有一點中水平的假象：

他認為，AI技術的智能水平可以劃分為低中高三階段。低水平智能，是對顯式知識的記憶和使用來表現智能，即所謂的記憶學習。中水平智能，是利用得到的少量顯式知識，可以類比推理得到相關隱式知識簇。能夠舉一反三，觸類旁通。高水平智能，是利用極少的線索，創造新知識和知識體系，例如牛頓力學和相對論。今天的人工智能，主要還是低水平智能，因為深度神經網絡是使用數據訓練出來的，是基于統計的模型，連知識都不能算，等到什么時候可解釋了，才能算知識。“大語言模式是由不同種的知識涌現，原則上還是低水平智能，有一點中水平的假象，相當于熟讀唐詩三百首，不會作詩也會吟，屬于熟能生巧的范疇。”

此外高文認為，AI技術需要完善理論基礎驗證，并實現模型的可解釋性；要嚴格控制人工智能的底層價值取向，實現技術的標準化；在應用階段，需要預防人為造成的人工智能安全問題，對人工智能進行動機選擇。應對強人工智能，必須加強國際合作。

阿里云創始人王堅院士稱GPT的潛力還沒有被完整地探索：

王堅認為，今天的AI有別于過去的AI，GPT的潛力事實上還沒有被完整地探索。此外他還談到，AI時代下一定會有新的大公司出現，也一定會有大公司“浴火重生”。對于不同規模的企業來說，大企業一定會覺得AI是“工具的革命”；小企業一定會覺得這是“革命的工具”，“如果大企業也意識到這是革命的工具，那變化就來了”。

另外阿里云 CTO 周靖人宣布通義千問開源模型下載量增長 2 倍，突破 2000 萬次，阿里云百煉服務客戶數從 9 萬增長至 23 萬，漲幅超 150%。「到今天，通義千問已經實現真正意義上的全尺寸、全模態開源，拉平了開源、閉源模型之間的差距。」

芯原創始人直言百模大戰就是“群模亂舞”，是在浪費電：

在中國RISC-V產業聯盟理事長、芯原微電子創始人戴偉民博士看來，當前AI領域的"百模大戰"現象更像是一種資源的浪費。這種"群模亂舞"的現象實際上并不經濟。要實現超越人腦智能的AI，需要不斷擴大模型參數規模，這對計算力的需求呈指數級增長，將導致巨大的電力消耗。

他預測，到2028年，中國基礎大模型的數量將少于10個，更理想的狀態是5個。戴偉民還提到，目前全球有超過100款AI大模型，但這種模式并不可持續，他認為應該集中資源發展更高效、更環保的AI技術，而不是盲目追求模型數量。此外，戴偉民還探討了生成式AI所需的算力芯片發展趨勢，他認為未來將有更多專用芯片出現，挑戰現有的GPU/GPGPU架構。

華為張平安稱中國 AI 發展離不開算力基礎設施的創新，必須摒棄“沒有最先進芯片就無法發展”的觀念：

張平安指出，華為創新的方向是將端側的 AI 算力需求通過光纖和無線網絡釋放到云上，通過端云協同獲得無縫的 AI 算力。通過云側的算力，讓端側既保持了豐富的功能，又極大地降低了功耗和對芯片的依賴。他強調，中國的 AI 發展道路，追求的應該是在行業領域構筑大模型的全球領先地位。如果各行各業都積極擁抱 AI，積極地開放行業的業務場景，中國很有機會在 2B 領域構筑起全球的領先優勢。

更多國內情報：

工信部透露中國算力規模位居全球第二：截至 5 月底，全國規劃具有高性能計算機集群的智算中心已達十余個，智能算力在算力總規模中的比重超過了30%。目前，我國已經培育了 421 家國家級智能制造示范工廠，人工智能企業的數量也超過了 4500 家，并推動制定了 48 項智能制造相關的國際標準。

全球最大甲骨文“數據集”開源：“數字甲骨共創中心”正式開源全球最大的甲骨文多模態數據集，共包含一萬片甲骨的拓片、摹本，甲骨單字對應位置、對應字頭、對應釋文以及辭例分組、釋讀順序等數據。所有研究者都能基于該數據集研發甲骨文檢測、識別、摹本生成、字形匹配和釋讀等算法，加速甲骨文研究智能化進程。

B站首次展出自研大語言模型：嗶哩嗶哩公布了多項自主研發的 AI 技術成果和 AIGC 多元創意，包括最新定制的 AI 語音聲庫、自研音視頻大模型必剪 Studio 以及自研 AI 動態漫技術等。

百度文心智能體平臺升級，向開發者免費開放文心大模型4.0：開發者在文心智能體平臺上制作智能體時，可靈活選擇文心大模型 3.5 或 4.0 版本。

AI羅永浩評10年前與王自如“約架”：有媒體向智譜的數字員工AI老羅提問還記得王自如嗎？AI老羅表示：“可別提了，讓我想起來的都是些不愉快的事，我們倆在直播辯論的時候，他那個所謂的客觀獨立第三方的評測，簡直讓人笑掉大牙。”“我可是為了真理和正義而戰，他只會躲在數據后面，不敢正面回應，這種對手不提也罷。”

國內首款鴻蒙人形機器人正在蔚來、亨通等工廠檢測驗證：“盤古大模型 + 夸父人形機器人”將在工業和家庭兩大場景同步推進應用。

國際情報：

英偉達今年在華銷售額預計將達120億美元，發貨超100萬顆芯片：

芯片咨詢公司SemiAnalysis報告預估，今年英偉達有望在中國銷售價值約120億美元的人工智能芯片。黃仁勛曾表示，希望借助新的芯片使得英偉達在中國的業務實現最大化。英偉達有望在未來幾個月內在中國交付超過100萬顆定制版H20芯片，這些芯片的設計不受美國對向中國客戶銷售人工智能處理器的限制。據悉，每顆H20芯片的價格在12000至13000美元之間。

消息稱黑客去年曾侵入OpenAI內部系統，部分AI設計細節被盜：

據悉，一名黑客去年曾成功“黑入”了OpenAI的內部消息系統，并竊取了有關人工智能技術和研究材料的敏感討論，但黑客并未進入托管人工智能源代碼的服務器。OpenAI高管在去年4月的全體員工大會上向員工和公司董事會通報了這一漏洞，但高管并未對外公開這一消息。

Meta AI 重磅發布，多標記預測模型現已開放研究：

Meta 在Hugging Face上發布了采用多標記預測方法的預訓練模型，可能改變大型語言模型的開發和部署方式。這種新技術模型同時預測多個未來單詞，可能改善語言結構和上下文理解，有望提高人工智能效率，加速人機協作編碼的趨勢。

破解ChatGPT驚人耗電！DeepMind新算法訓練提效13倍，能耗暴降10倍：

DeepMind 研究團隊提出了一種名為 JEST（多模態對比學習與聯合示例選擇）的新算法，旨在加快 AI 訓練過程并減少所需的計算資源和能耗。JEST 算法能夠以 13 倍更少的迭代次數和 10 倍更少的計算量，超越最先進的模型。這一發現揭示了數據篩選水平可以作為評判 Scaling Law 的一個新維度。JEST 算法通過從 “超級 batch” 中篩選出最具可學習性的 “子 batch”，實現了高效的數據管理和訓練過程。實驗結果表明，JEST 方法在效率提升和性能優化方面取得了顯著成效，尤其是在多模態學習加速和數據質量引導方面。

解鎖動物語言？SuperAnimal這款AI神器，顛覆人與自然的關系：

SuperAnimal是一款開源AI模型，能自動識別和分析動物的運動行為，提供精確的姿態分析；該模型通過統一的預訓練模型和關鍵點空間映射，減少人工標注需求，提高數據整合和模型泛化能力；SuperAnimal應用于獸醫學、生物醫學研究和野生動物保護，使用高級模型架構和獨特訓練方法以提高性能和適應性。

更多國際情報：

布局 AI 等市場，格芯收購泰戈爾科技氮化鎵技術和相關團隊：氮化鎵成為可持續高效電源管理（尤其是在數據中心）的關鍵解決方案。泰戈爾科技公司工程師團隊將加入格芯，進一步開發氮化鎵技術。

“高達”式鐵路機器人在日本大范圍推廣：主要設計用于修剪鐵軌上的樹枝，固定和噴漆列車上方電纜的金屬框架等等。

互聯網巨頭公司正合法利用用戶數據來訓練其 AI 模型：多家硅谷科技公司，如谷歌、Meta、X、Snap 和 Zoom 在隱私政策和服務條款中，加入了使用用戶數據來訓練 AI 模型的條款。

真實商戰？報告稱谷歌曾試圖禁止蘋果 Safari 瀏覽器用戶使用 AI 摘要功能：美國司法部調查谷歌在搜索行業的統治地位，涉及谷歌每年向蘋果支付超 200 億美元費用，以成為 iPhone 的默認搜索引擎。谷歌試圖增加 iPhone 用戶在在 Safari 瀏覽器以外的平臺上進行搜索的比例，目標是到 2030 年時達到 50%。為此曾考慮限制 AI 摘要功能，但最終決定不采取這一措施。

YouTube 測試“AI 音頻橡皮擦”：該工具使用 AI 算法來專門檢測和刪除相關歌曲，創作者可輕松移除受版權保護背景音樂，而不會影響包括對話或音效在內的任何其他音頻。

Product Hunt 熱榜， Pygma

Pygma是一款AI驅動社交媒體管理助手，專為Instagram用戶和中小企業量身打造。這款智能工具通過深度分析用戶風格和受眾反應，在幾秒鐘內生成定制化的帖子、故事和Reels內容，大大簡化了社交媒體流程。

不僅提供內容創作，還集成了智能編輯、排程發布等功能，真正實現一站式社媒管理。其獨特的AI生成器和編輯器，加上即將推出的目標受眾分析功能，使Pygma成為提升品牌形象和吸引目標受眾的強大工具。

?https://www.pygma.me/

GitHub Trending 熱榜，智能辦公AI助手AnythingLLM

獲 YC 投資，為企業構建一站式內部 Agent 和 RAG 應用解決方案的 Mintplex Labs 開源其跨端應用 anything-llm是一款多功能AI商業智能工具，支持多種大型語言模型和操作系統。該工具提供一鍵安裝的桌面應用程序，強調用戶隱私保護，支持自定義模型和多種文檔格式處理。AnythingLLM適用于個人和組織用戶，可在離線環境下運行。

該工具提供全面的開發者API和外觀定制選項，支持企業級和開源模型。AnythingLLM的官方網站提供了詳細的產品信息，包括定價、使用方法和與其他類似工具的比較。這些特性使AnythingLLM成為一個全面的AI商業智能解決方案。

?https://github.com/Mintplex-Labs/anything-llm

開發者推薦

1.AI模型評測：Artificial Analysis

Artificial Analysis平臺專注于對各大LLM API提供商進行全面基準測試，不僅評估模型輸出質量，還重點關注響應速度。通過整合LMSYS Chatbot Arena、Hugging Face排行榜和斯坦福HELM項目等多方數據，Artificial Analysis為開發者提供了更全面、更實用的模型選擇參考。

這一創新approach填補了現有AI評測體系的空白，特別適合對令牌生成速度要求較高的應用場景。業內專家認為，Artificial Analysis的出現將激勵AI服務提供商不斷優化模型性能，推動整個行業向更高效、更實用的方向發展。對開發者而言，這個網站的評測結果將幫助他們更精準地選擇適合自身需求的AI模型，從而提升應用效果和用戶體驗。

?https://artificialanalysis.ai2.KREA免費生成和增強圖像與視頻

KREA 旨在通過強大的人工智能技術，讓用戶能夠直觀地生成和增強圖像與視頻。該平臺提供了多種功能，包括實時視頻生成、圖像增強、視頻增強以及免費訪問的 AI 視頻生成。此外，KREA 還推出了一系列迷你應用程序，如 “Logo Illusions” 和 “AI Patterns”，以及舊版應用程序，如 “AI Training” 和 “Canvas Project Studio”。用戶需要在瀏覽器中啟用 JavaScript 以正確查看頁面。

?https://www.krea.ai/home

3.AI視頻創作一條龍，達摩院“尋光”突破可控編輯難題：

尋光定位為PUGC一站式AI視頻創作平臺，能夠實現視頻創作的全流程 AI 輔助，包括劇本創作、分鏡圖設計、視頻素材編輯等。讓視頻編輯像操作PPT一樣簡單，主要用于輔助創作劇本、分鏡圖，支持對素材進行AI編輯，包括人物控制、場景控制、運鏡控制、目標新增/消除/修改等10多種功能，解決了 AI 視頻內容的可控編輯問題。

?https://xunguang.damo-vision.com/

前沿技術

1.LivePortrait：AI 肖像動畫技術

快手科技團隊推出 LivePortrait，這是一種基于隱式關鍵點框架的高效肖像動畫技術。它能從單張源圖像和驅動視頻生成生動的視頻，展現出優秀的泛化能力、可控性和效率。

研究者通過擴大訓練數據集、采用混合訓練策略、升級網絡架構等方法提升了生成質量。LivePortrait 在 RTX 4090 GPU 上每幀僅需 12.8 毫秒，效果媲美擴散模型方法。該項目的推理代碼和模型已開源。

?https://liveportrait.github.io/

2.通義語音團隊開源了語音基座大模型，SenseVoice和CosyVoice：

SenseVoice多語言音頻理解大模型：多語言語音識別在中文和粵語上相比Whisper相對提升+50%，推理速度快15倍，并且支持SOTA的情緒識別和音頻事件檢測。

CosyVoice多語言音頻生成大模型：通過超過17萬小時的多語言音頻數據訓練，支持多語言、音色和情感控制，CosyVoice則在多語言語音生成、零樣本語音生成、跨語言聲音合成和指令執行能力方面表現卓越。

?https://fun-audio-llm.github.io/

3.斯坦福大學發布OccFusion，可完整渲染出被遮擋的人體：

OccFusion 是一種基于高效 3D 高斯分片和預訓練 2D 擴散模型的人體渲染技術，它能在人體被部分遮擋的情況下渲染出完整的形態。OccFusion 在 ZJU-MoCap 和 OcMotion 序列上進行了評估，表現出色，達到了遮擋人體渲染的最新水平。整個訓練過程僅需在單個 Titan RTX GPU 上花費 10 分鐘。

?https://cs.stanford.edu/~xtiange/projects/occfusion/

4.浦語靈筆 IXC-2.5 展現多模態實力

上海人工智能實驗室最新推出的浦語靈筆 IXC-2.5 模型引發業界關注。這款基于7B LLM的多模態大模型在圖像和視頻理解方面表現出色，據稱能力可與GPT-4V相媲美。其特色功能包括高分辨率圖像理解、精細視頻分析和多輪多圖像對話。該模型還拓展了實用領域，能夠自動生成網頁和創作高質量文章，利用逐步推理方法確保長文本內容的邏輯性和連貫性。浦語靈筆 IXC-2.5 的推出為人工智能在多模態應用領域開辟了新的可能性。

?https://huggingface.co/spaces/Willow123/InternLM-XComposer

5.推薦系統新范式：DiffMM開啟多模態精準推薦時代

港大和騰訊研究人員聯手打造的DiffMM多模態推薦系統引發業界關注。這一創新模型通過構建包含用戶和視頻多元信息的圖譜，并結合圖擴散技術和對比學習方法，實現了對用戶喜好的深度理解。在三個公共數據集的實驗中，DiffMM展現出卓越性能，超越現有基線模型。該項目已開源，為推薦系統研究提供了新思路，有望在短視頻等領域帶來更精準的個性化推薦體驗。

?https://github.com/HKUDS/DiffMM

6.快手AI繪畫新里程碑：Kolors模型雙語圖像生成

快手科技旗下Kolors團隊近日推出了一款突破性的文本到圖像生成模型Kolors。這一基于潛流擴散技術的大規模模型在數十億文本-圖像對上進行訓練，在視覺質量、語義準確性和中英文字體渲染方面均展現出卓越表現。Kolors支持中英雙語輸入，特別在生成中文內容時表現出色。通過人類專家評估和機器評測，Kolors在視覺吸引力和整體滿意度方面均領先于現有開源和閉源模型。

?https://github.com/Kwai-Kolors/Kolors

熱議話題

AI應用現狀:期待與現實的差距

Retool 2024年上半年AI狀況報告指出AI應用的真實情況：

1.AI采用，進展緩慢但穩定：AI在企業中的實際應用進展并不如想象中迅速。報告顯示，僅有約30%的受訪者認為他們的公司在AI采用方面處于"運行"或"飛行"階段，這一比例甚至較2023年有所下降。

2.AI影響尚未達到變革性水平：盡管AI已在多個領域得到應用，但影響力似乎被夸大了。受訪者給出的平均影響評分僅為6.7/10，遠未達到"變革性"的程度。

3.投資態度，謹慎樂觀：盡管AI的實際影響有限，但大多數企業并不認為他們在AI上投資過度。相反，42%的受訪者認為投資"恰到好處"，40.5%甚至認為投資"不夠"。企業對AI的長期潛力持樂觀態度，愿意繼續投入資源。

4.AI應用場景以內部為主，外部謹慎：企業更傾向于在內部應用AI技術。最常見的用例包括編寫代碼或查詢(42.1%)、知識庫問答(36.4%)和支持聊天機器人(33.9%)。相比之下，面向客戶的AI應用相對較少。這種傾向可能源于企業希望在內部環境中先行試驗和完善AI應用，以降低風險。

5.OpenAI獨占鰲頭，新星嶄露頭角：在AI技術棧方面，OpenAI的模型仍然主導市場，GPT-4和GPT-3.5合計占據70%的份額。不過像Anthropic的Claude 3和Mistral這樣的新興模型正在嶄露頭角，AI技術生態趨向多元化。

6.潛力巨大，道路漫長：業內人士對AI未來發展保持樂觀。總的來說，AI技術的發展正處于一個關鍵的轉折點。雖然其影響力尚未達到預期，但企業和開發者正在積極探索和實踐，為未來的突破奠定基礎。

?https://retool.com/blog/state-of-ai-h1-2024

敬請期待明日的最新動態！

AI情報局征集情報合伙人，匯集獨家價值線索！如果您可以提供有關AI最新成果&行業內幕&獨特產品，請添加運營微信號：AIyanxishe2備注行業崗位。

雷峰網(公眾號：雷峰網)

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

我在思考中

運營

發私信

當月熱門文章