0
| 本文作者: 我在思考中 | 2024-07-08 11:01 |
融資快報
無限光年完成新一輪融資:無限光年的核心產品是可信大模型,這是漆遠認為通往人工智能通用智能的道路。可信大模型結合了大語言模型與符號推理,旨在解決大模型的幻覺問題和遺忘性災難,提高模型的可信度和可解釋性。無限光年已完成多輪融資,并與金融和醫療行業的頭部企業合作,打造了針對特定行業的精專大模型。此次投資人包括阿里云、啟明創投等頭部投資機構。創始人漆遠從螞蟻集團副總裁任上離職后,漆遠先是重返學界,在復旦擔任教職,而后又產學研并行地創立了大模型公司無限光年。
Benchmark募資4.25億美元投向AI新時代:據《福布斯》獲得的一封投資者信顯示,風險投資公司 Benchmark 正在為其第十一期基金募集 4.25 億美元。新基金將被命名為 "Benchmark 1",據悉,該公司的所有合伙人預計都會在其典型的專注領域(如消費科技、云計算或加密貨幣)內尋找人工智能公司。
軟銀宣布4億英鎊收購AI芯片公司Graphcore:日本軟銀宣布將以4億英鎊收購陷入困境的人工智能初創公司 Graphcore,該交易還需要獲得英國政府的審查批準才能生效。Graphcore成立于2016年,生產稱為智能處理器單元的AI芯片,旨在挑戰英偉達。由于英偉達的設備需求量很大,投資者們紛紛向這家初創公司注入資金,尋找替代英偉達的可行方案。2020年,Graphcore以28億美元的估值籌集2.22億美元,使其成為英國最有前途的初創公司之一。
EvolutionaryScale獲超1.42億美元種子輪融資: 該公司創始團隊的八位成員全都來自于Meta的FAIR部門 。去年八月Meta官宣旗下的蛋白質折疊團隊Meta-FAIR解散。EvolutionaryScale旨在通過開放、安全的研究方式,來指導蛋白質設計領域的人工智能技術開發,團隊開發用于創造新型蛋白質和其他生物系統的大型語言模型ESM,已迭代到ESM-3。本次融資由Nat Friedman和Daniel Gross以及Lux Capital領投,亞馬遜、NVentures和天使投資人參投。
DNEG集團獲2億美元戰略投資:DNEG是好萊塢視效技術提供商,曾參與多部知名好萊塢電影的制作,如“狂怒”、“銀翼殺手2049”和“星際穿越”。這一投資將推動DNEG集團新成立的Brahma,開發人工智能驅動的CGI工具,以簡化視覺效果的創作過程。Brahma的AI創作者解決方案將利用超過25年的VFX數據生成逼真的視覺效果。該筆融資來自United Al Saqer Group,將使DNEG集團的估值超過20億美元。
焱融科技完成雙輪融資:焱融科技核心產品YRCloudFile 高性能文件存儲系統,在 AI 和高性能計算場景中嶄露頭角。完成 B 輪和 B+ 輪融資,累計融資額近 2 億元人民幣。兩輪融資分別由豐年資本和北京股權領投,老股東耀途資本、卓源亞洲、信雅達等知名投資機構持續跟投。
大道智創完成500萬人民幣融資:大道智創是一家專注于研發安保機器人的公司,主要研發和銷售巡邏機器人、安保機器人等商用服務型機器人,以視覺定位為主,配合多傳感器融合,在復雜環境下實現全自主定位巡航,目前已推出了一代產品“e巡 ”機器警長。投資方為中關村科技租賃。
Altrove AI獲400萬美元種子融資:Altrove使用AI生成無機材料的潛在配方,特別是稀土元素。融資由Contrarian Ventures領投。
Phaidra獲1200萬美元融資:該公司的系統從設施內的數千個傳感器收集數據,并使用人工智能模型就如何更有效地管理和冷卻設備做出實時決策。融資由Index Ventures 領投。
OpenLedger 籌集了 800 萬美元的種子資金:用于 AI 模型開發的去中心化數據基礎設施
(歡迎添加微信AIyanxishe2,了解更多AIGC、融資情況,與志同道合的朋友一同暢聊時新AI產品)
國內情報:
2024 世界人工智能大會線下參觀人數創歷史新高,預計總投資額超 400 億元:
大會線下參觀人數突破 30 萬人次,全網流量突破 10 億,比上屆增長了 90%,據悉,本次大會對接 132 個采購團組,形成了 126 個項目采購需求,預計意向采購金額達 150 億元,推動 24 個重大產業項目的簽約,預計總投資額超過 400 億元。本次大會的展覽面積超過 5.2 萬平方米,500 余家知名企業、超過 1500 項展品參展,50 余款新品首發首秀,均創歷史新高。
快手可靈 AI 網頁端上線,文生圖大模型“可圖”開源:
快手可靈 AI 網頁端正式上線,所有功能限時免費。“文生視頻”開放最長 10 秒生成能力,“圖生視頻”新增運鏡控制、自定義首尾幀等功能。據悉,已有超過50萬用戶申請可靈的內測資格,視頻生成數量達700萬。此外,文生圖大模型“可圖”開源,已上線網頁版和微信小程序,支持文生圖和圖生圖兩類功能,可用于 AI 創作圖像以及 AI 形象定制。
科大訊飛大模型新增投入超 6.5 億元、AI 學習機發布預售11699 元:
科大訊飛發布 2024 上半年業績預告,預計凈虧損 3.8 億元至 4.6 億元,上年同期盈利 7357.2 萬元,同比下降 725.24%~616.50%。科大訊飛表示,公司在全力加大“訊飛星火大模型”研發投入的同時,加快了大模型的落地推廣力度。2024 年上半年營收、毛利預計增長 15%-20%,且毛利增速高于收入增速。
此外科大訊飛近期還發布了 AI 學習機新品 T30 Ultra,內置星火大模型,屏幕尺寸為 14.7 英寸,12GB+1TB 版本到手 11699 元,將于 7 月 20 日開售。
智譜開源代碼生成大模型 CodeGeeX 第四代,號稱百億以下規模性能最強:
該產品集成了代碼補全和生成、代碼問答、代碼解釋器、工具調用、聯網搜索、項目級代碼問答等功能,支持超過 300 種編程語言,并且能夠處理 128K 上下文,這使得其能夠更好地理解和處理復雜的代碼文件。CodeGeeX4-ALL-9B 在 Berkeley Function Calling Leaderboard 上的測試表現超過 90% 的成功率,被譽為目前唯一能實現 Function Call 的代碼大模型。
騰訊發布大模型時代的AI十大趨勢,走進“機器外腦”時代:
騰訊研究院、上海交通大學、騰訊優圖實驗室、騰訊云智能聯合發布了《2024大模型十大趨勢——走進“機器外腦”時代》報告。報告指出,我們正在進入一個“機器外腦”時代。海量GPU和新一代大模型的組合起來,使人工智能在三個方向上有了實質性的飛躍:推理分析、創意生成和情緒智能。這意味著AI第一次擁有了類人的交互能能力,新一代AI正在成為人類的“機器外腦”,提供智力的外掛。
上海AI lab開源超強多模態LLM InternLM-XComposer-2.5:
上海 AI 實驗室聯合香港中文大學、商湯科技集團以及清華大學研發了 IXC-2.5 模型。模型具備長上下文處理能力,能夠處理超長的文本和圖像輸入,同時在視覺能力上有特殊優勢,包括超高分辨率的圖像理解和細粒度的視頻理解。模型架構包括輕量級的視覺編碼器、大型語言模型,以及部分 LoRA 對齊技術。在 28 個基準測試中,IXC-2.5 在 16 項測試中超過了現有的開源模型,其余 16 項測試中的表現也接近或超過了 GPT-4V 和 Gemini Pro。
支付寶發布多模態醫療大模型,支持千億級視覺識別:
支付寶多模態醫療大模型成為國內首批多模態醫療大模型之一。基于螞蟻百靈的多模態能力,模型可實現直接理解并訓練音頻、視頻、圖、文等多模態數據,使其更像人一樣感知和互動,能“看”會“聽”、能“說”會“畫”,支持千億級別參數醫療視覺識別。據悉,螞蟻百靈大模型已具備原生多模態能力,可以直接理解并訓練音頻、視頻、圖、文等多模態數據。
金山辦公發布 WPS AI 2.0,新增 4 個 AI 辦公助手,政務自研模型首次亮相:
WPS AI 2.0包含 WPS AI 辦公助手、WPS AI 政務版等應用,并首次公開了 13B 級別的政務自研模型,金山政務辦公模型 1.0。為個人用戶新增了 4 個 AI 辦公助手,分別為 AI 寫作助手、AI 閱讀助手、AI 數據助手、AI 設計助手。此次發布的金山政務辦公模型 1.0 擅長公文寫作,實現無口語化描述且按照公文風輸出,輸出的內容自帶公文格式,模型了解國家相關政策,回答均基于可靠依據。
阿里“通義”APP上線特殊AI繪本工具“追星星的AI”:
這是一款為孤獨癥兒童提供定制 AI 繪本服務的工具。它基于阿里自研 Modelscope-Agent 框架,調用了通義大模型的多項服務,可實現從一句話故事梗概到完整有聲繪本的生成。上海美術電影制片廠免費授權了旗下經典動畫形象供公益繪本使用。“通義”APP 已經限時上線以孫悟空和大耳朵圖圖為主角的 AI 繪本。
商湯科技發布日日新5.5大模型體系:
該大模型體系包括6000億參數基礎模型日日新5.5,性能提升30%;流式多模態交互模型日日新5o,是國內首個所見即所得模型,可進行實時多模態交互和問答;日日新5.5Lite在端側模型進行升級,模型精度提升10%、首包延遲降低40%,推理效率提升15%。
王堅稱美國AI發展的電力瓶頸短板我國不存在,最不缺就是電:
中國工程院院士、阿里云創始人王堅表示,美國AI人工智能發展的瓶頸是電力,這對中國來說不是問題。“中國一年的發電量是美國、日本、俄羅斯的總和還要多”,王堅說道。另外他提出一個應用、模型、電力和算力的不等式,認為在此不等式下,目前從事人工智能的人還不用擔心瓶頸問題。
MiniMax創始人閆俊杰稱至少三年后才會出現“殺手級”AI應用:
閆俊杰表示,雖然國內很多公司正在迎頭趕上ChatGPT,但是目前模型的錯誤率在60%-70%的水平,遠不及GPT-4的30%-40%。類似于微信、抖音、今日頭條這種規模的“殺手級”AI超級應用(Killer App),至少要到三年之后才能實現。
無問芯穹發布全球首個單任務千卡異構芯片混合訓練平臺,算力利用率達 97.6%:
無問芯穹聯合創始人兼 CEO 夏立雪發布無問芯穹大規模模型的異構分布式混合訓練系統,稱千卡異構混合訓練集群算力利用率最高達到了 97.6%。夏立雪還宣布無問芯穹 Infini-AI 云平臺已集成大模型異構千卡混訓能力,是全球首個可進行單任務千卡規模異構芯片混合訓練的平臺,具備萬卡擴展性。
中國公司開始大量訂購NVIDIA H20芯片:
摩根士丹利報告,NVIDIA特供中國市場的人工智能芯片H20系列,開始吸引包括百度、阿里巴巴、騰訊和字節跳動在內的中國科技巨頭的采購興趣。盡管H20在性能上不及英偉達的H100,其AI算力只有H100的不到15%,甚至部分性能不及Ascend 910B,但在國產AI芯片供應不足的情況下,中國廠商的選擇顯得有些無奈。
百度李彥宏稱開源模型是智商稅,閉源模型更強大、推理成本更低:
李彥宏稱:“我覺得,開源其實是一種智商稅”,“當你理性地去想,大模型能夠帶來什么價值,以什么樣的成本帶來價值的時候,就會發現,你永遠應該選擇閉源模型。今天無論是 ChatGPT、還是文心一言等閉源模型,一定比開源模型更強大,推理成本更低。”
李彥宏還指出,當前AI領域存在一種不良風氣,即各個公司競相發布新一代大語言模型,宣稱自己的模型參數規模和訓練數據量超越了GPT-4,但在實際應用落地方面卻鮮有成熟方案。AI技術的發展不應僅僅停留在跑分和刷榜上。今天一個震撼發布,明天一個史詩級更新,但實際應用卻遲遲未見。只有將AI技術應用于實際產業和場景,才能創造出真正的價值。
中國工程院院士高文稱今天的人工智能是低水平智能,有一點中水平的假象:
他認為,AI技術的智能水平可以劃分為低中高三階段。低水平智能,是對顯式知識的記憶和使用來表現智能,即所謂的記憶學習。中水平智能,是利用得到的少量顯式知識,可以類比推理得到相關隱式知識簇。能夠舉一反三,觸類旁通。高水平智能,是利用極少的線索,創造新知識和知識體系,例如牛頓力學和相對論。今天的人工智能,主要還是低水平智能,因為深度神經網絡是使用數據訓練出來的,是基于統計的模型,連知識都不能算,等到什么時候可解釋了,才能算知識。“大語言模式是由不同種的知識涌現,原則上還是低水平智能,有一點中水平的假象,相當于熟讀唐詩三百首,不會作詩也會吟,屬于熟能生巧的范疇。”
此外高文認為,AI技術需要完善理論基礎驗證,并實現模型的可解釋性;要嚴格控制人工智能的底層價值取向,實現技術的標準化;在應用階段,需要預防人為造成的人工智能安全問題,對人工智能進行動機選擇。應對強人工智能,必須加強國際合作。
阿里云創始人王堅院士稱GPT的潛力還沒有被完整地探索:
王堅認為,今天的AI有別于過去的AI,GPT的潛力事實上還沒有被完整地探索。此外他還談到,AI時代下一定會有新的大公司出現,也一定會有大公司“浴火重生”。對于不同規模的企業來說,大企業一定會覺得AI是“工具的革命”;小企業一定會覺得這是“革命的工具”,“如果大企業也意識到這是革命的工具,那變化就來了”。
另外阿里云 CTO 周靖人宣布通義千問開源模型下載量增長 2 倍,突破 2000 萬次,阿里云百煉服務客戶數從 9 萬增長至 23 萬,漲幅超 150%。「到今天,通義千問已經實現真正意義上的全尺寸、全模態開源,拉平了開源、閉源模型之間的差距。」
芯原創始人直言百模大戰就是“群模亂舞”,是在浪費電:
在中國RISC-V產業聯盟理事長、芯原微電子創始人戴偉民博士看來,當前AI領域的"百模大戰"現象更像是一種資源的浪費。這種"群模亂舞"的現象實際上并不經濟。要實現超越人腦智能的AI,需要不斷擴大模型參數規模,這對計算力的需求呈指數級增長,將導致巨大的電力消耗。
他預測,到2028年,中國基礎大模型的數量將少于10個,更理想的狀態是5個。戴偉民還提到,目前全球有超過100款AI大模型,但這種模式并不可持續,他認為應該集中資源發展更高效、更環保的AI技術,而不是盲目追求模型數量。此外,戴偉民還探討了生成式AI所需的算力芯片發展趨勢,他認為未來將有更多專用芯片出現,挑戰現有的GPU/GPGPU架構。
華為張平安稱中國 AI 發展離不開算力基礎設施的創新,必須摒棄“沒有最先進芯片就無法發展”的觀念:
張平安指出,華為創新的方向是將端側的 AI 算力需求通過光纖和無線網絡釋放到云上,通過端云協同獲得無縫的 AI 算力。通過云側的算力,讓端側既保持了豐富的功能,又極大地降低了功耗和對芯片的依賴。他強調,中國的 AI 發展道路,追求的應該是在行業領域構筑大模型的全球領先地位。如果各行各業都積極擁抱 AI,積極地開放行業的業務場景,中國很有機會在 2B 領域構筑起全球的領先優勢。
更多國內情報:
工信部透露中國算力規模位居全球第二:截至 5 月底,全國規劃具有高性能計算機集群的智算中心已達十余個,智能算力在算力總規模中的比重超過了30%。目前,我國已經培育了 421 家國家級智能制造示范工廠,人工智能企業的數量也超過了 4500 家,并推動制定了 48 項智能制造相關的國際標準。
全球最大甲骨文“數據集”開源:“數字甲骨共創中心”正式開源全球最大的甲骨文多模態數據集,共包含一萬片甲骨的拓片、摹本,甲骨單字對應位置、對應字頭、對應釋文以及辭例分組、釋讀順序等數據。所有研究者都能基于該數據集研發甲骨文檢測、識別、摹本生成、字形匹配和釋讀等算法,加速甲骨文研究智能化進程。
B站首次展出自研大語言模型:嗶哩嗶哩公布了多項自主研發的 AI 技術成果和 AIGC 多元創意,包括最新定制的 AI 語音聲庫、自研音視頻大模型必剪 Studio 以及自研 AI 動態漫技術等。
百度文心智能體平臺升級,向開發者免費開放文心大模型4.0:開發者在文心智能體平臺上制作智能體時,可靈活選擇文心大模型 3.5 或 4.0 版本。
AI羅永浩評10年前與王自如“約架”:有媒體向智譜的數字員工AI老羅提問還記得王自如嗎?AI老羅表示:“可別提了,讓我想起來的都是些不愉快的事,我們倆在直播辯論的時候,他那個所謂的客觀獨立第三方的評測,簡直讓人笑掉大牙。”“我可是為了真理和正義而戰,他只會躲在數據后面,不敢正面回應,這種對手不提也罷。”
國內首款鴻蒙人形機器人正在蔚來、亨通等工廠檢測驗證:“盤古大模型 + 夸父人形機器人”將在工業和家庭兩大場景同步推進應用。
國際情報:
英偉達今年在華銷售額預計將達120億美元,發貨超100萬顆芯片:
芯片咨詢公司SemiAnalysis報告預估,今年英偉達有望在中國銷售價值約120億美元的人工智能芯片。黃仁勛曾表示,希望借助新的芯片使得英偉達在中國的業務實現最大化。英偉達有望在未來幾個月內在中國交付超過100萬顆定制版H20芯片,這些芯片的設計不受美國對向中國客戶銷售人工智能處理器的限制。據悉,每顆H20芯片的價格在12000至13000美元之間。
消息稱黑客去年曾侵入OpenAI內部系統,部分AI設計細節被盜:
據悉,一名黑客去年曾成功“黑入”了OpenAI的內部消息系統,并竊取了有關人工智能技術和研究材料的敏感討論,但黑客并未進入托管人工智能源代碼的服務器。OpenAI高管在去年4月的全體員工大會上向員工和公司董事會通報了這一漏洞,但高管并未對外公開這一消息。
Meta AI 重磅發布,多標記預測模型現已開放研究:
Meta 在Hugging Face上發布了采用多標記預測方法的預訓練模型,可能改變大型語言模型的開發和部署方式。這種新技術模型同時預測多個未來單詞,可能改善語言結構和上下文理解,有望提高人工智能效率,加速人機協作編碼的趨勢。
破解ChatGPT驚人耗電!DeepMind新算法訓練提效13倍,能耗暴降10倍:
DeepMind 研究團隊提出了一種名為 JEST(多模態對比學習與聯合示例選擇)的新算法,旨在加快 AI 訓練過程并減少所需的計算資源和能耗。JEST 算法能夠以 13 倍更少的迭代次數和 10 倍更少的計算量,超越最先進的模型。這一發現揭示了數據篩選水平可以作為評判 Scaling Law 的一個新維度。JEST 算法通過從 “超級 batch” 中篩選出最具可學習性的 “子 batch”,實現了高效的數據管理和訓練過程。實驗結果表明,JEST 方法在效率提升和性能優化方面取得了顯著成效,尤其是在多模態學習加速和數據質量引導方面。
解鎖動物語言?SuperAnimal這款AI神器,顛覆人與自然的關系:
SuperAnimal是一款開源AI模型,能自動識別和分析動物的運動行為,提供精確的姿態分析;該模型通過統一的預訓練模型和關鍵點空間映射,減少人工標注需求,提高數據整合和模型泛化能力;SuperAnimal應用于獸醫學、生物醫學研究和野生動物保護,使用高級模型架構和獨特訓練方法以提高性能和適應性。
更多國際情報:
布局 AI 等市場,格芯收購泰戈爾科技氮化鎵技術和相關團隊:氮化鎵成為可持續高效電源管理(尤其是在數據中心)的關鍵解決方案。泰戈爾科技公司工程師團隊將加入格芯,進一步開發氮化鎵技術。
“高達”式鐵路機器人在日本大范圍推廣:主要設計用于修剪鐵軌上的樹枝,固定和噴漆列車上方電纜的金屬框架等等。
互聯網巨頭公司正合法利用用戶數據來訓練其 AI 模型:多家硅谷科技公司,如谷歌、Meta、X、Snap 和 Zoom 在隱私政策和服務條款中,加入了使用用戶數據來訓練 AI 模型的條款。
真實商戰?報告稱谷歌曾試圖禁止蘋果 Safari 瀏覽器用戶使用 AI 摘要功能:美國司法部調查谷歌在搜索行業的統治地位,涉及谷歌每年向蘋果支付超 200 億美元費用,以成為 iPhone 的默認搜索引擎。谷歌試圖增加 iPhone 用戶在在 Safari 瀏覽器以外的平臺上進行搜索的比例,目標是到 2030 年時達到 50%。為此曾考慮限制 AI 摘要功能,但最終決定不采取這一措施。
YouTube 測試“AI 音頻橡皮擦”:該工具使用 AI 算法來專門檢測和刪除相關歌曲,創作者可輕松移除受版權保護背景音樂,而不會影響包括對話或音效在內的任何其他音頻。
Product Hunt 熱榜, Pygma
Pygma是一款AI驅動社交媒體管理助手,專為Instagram用戶和中小企業量身打造。這款智能工具通過深度分析用戶風格和受眾反應,在幾秒鐘內生成定制化的帖子、故事和Reels內容,大大簡化了社交媒體流程。
不僅提供內容創作,還集成了智能編輯、排程發布等功能,真正實現一站式社媒管理。其獨特的AI生成器和編輯器,加上即將推出的目標受眾分析功能,使Pygma成為提升品牌形象和吸引目標受眾的強大工具。
?https://www.pygma.me/
GitHub Trending 熱榜,智能辦公AI助手AnythingLLM
獲 YC 投資,為企業構建一站式內部 Agent 和 RAG 應用解決方案的 Mintplex Labs 開源其跨端應用 anything-llm是一款多功能AI商業智能工具,支持多種大型語言模型和操作系統。該工具提供一鍵安裝的桌面應用程序,強調用戶隱私保護,支持自定義模型和多種文檔格式處理。AnythingLLM適用于個人和組織用戶,可在離線環境下運行。
該工具提供全面的開發者API和外觀定制選項,支持企業級和開源模型。AnythingLLM的官方網站提供了詳細的產品信息,包括定價、使用方法和與其他類似工具的比較。這些特性使AnythingLLM成為一個全面的AI商業智能解決方案。
?https://github.com/Mintplex-Labs/anything-llm
開發者推薦
1.AI模型評測:Artificial Analysis
Artificial Analysis平臺專注于對各大LLM API提供商進行全面基準測試,不僅評估模型輸出質量,還重點關注響應速度。通過整合LMSYS Chatbot Arena、Hugging Face排行榜和斯坦福HELM項目等多方數據,Artificial Analysis為開發者提供了更全面、更實用的模型選擇參考。
這一創新approach填補了現有AI評測體系的空白,特別適合對令牌生成速度要求較高的應用場景。業內專家認為,Artificial Analysis的出現將激勵AI服務提供商不斷優化模型性能,推動整個行業向更高效、更實用的方向發展。對開發者而言,這個網站的評測結果將幫助他們更精準地選擇適合自身需求的AI模型,從而提升應用效果和用戶體驗。
?https://artificialanalysis.ai2.KREA免費生成和增強圖像與視頻
KREA 旨在通過強大的人工智能技術,讓用戶能夠直觀地生成和增強圖像與視頻。該平臺提供了多種功能,包括實時視頻生成、圖像增強、視頻增強以及免費訪問的 AI 視頻生成。此外,KREA 還推出了一系列迷你應用程序,如 “Logo Illusions” 和 “AI Patterns”,以及舊版應用程序,如 “AI Training” 和 “Canvas Project Studio”。用戶需要在瀏覽器中啟用 JavaScript 以正確查看頁面。
?https://www.krea.ai/home
3.AI視頻創作一條龍,達摩院“尋光”突破可控編輯難題:
尋光定位為PUGC一站式AI視頻創作平臺,能夠實現視頻創作的全流程 AI 輔助,包括劇本創作、分鏡圖設計、視頻素材編輯等。讓視頻編輯像操作PPT一樣簡單,主要用于輔助創作劇本、分鏡圖,支持對素材進行AI編輯,包括人物控制、場景控制、運鏡控制、目標新增/消除/修改等10多種功能,解決了 AI 視頻內容的可控編輯問題。
?https://xunguang.damo-vision.com/
前沿技術
1.LivePortrait:AI 肖像動畫技術
快手科技團隊推出 LivePortrait,這是一種基于隱式關鍵點框架的高效肖像動畫技術。它能從單張源圖像和驅動視頻生成生動的視頻,展現出優秀的泛化能力、可控性和效率。
研究者通過擴大訓練數據集、采用混合訓練策略、升級網絡架構等方法提升了生成質量。LivePortrait 在 RTX 4090 GPU 上每幀僅需 12.8 毫秒,效果媲美擴散模型方法。該項目的推理代碼和模型已開源。
?https://liveportrait.github.io/
2.通義語音團隊開源了語音基座大模型,SenseVoice和CosyVoice:
SenseVoice多語言音頻理解大模型:多語言語音識別在中文和粵語上相比Whisper相對提升+50%,推理速度快15倍,并且支持SOTA的情緒識別和音頻事件檢測。
CosyVoice多語言音頻生成大模型:通過超過17萬小時的多語言音頻數據訓練,支持多語言、音色和情感控制,CosyVoice則在多語言語音生成、零樣本語音生成、跨語言聲音合成和指令執行能力方面表現卓越。
?https://fun-audio-llm.github.io/
3.斯坦福大學發布OccFusion,可完整渲染出被遮擋的人體:
OccFusion 是一種基于高效 3D 高斯分片和預訓練 2D 擴散模型的人體渲染技術,它能在人體被部分遮擋的情況下渲染出完整的形態。OccFusion 在 ZJU-MoCap 和 OcMotion 序列上進行了評估,表現出色,達到了遮擋人體渲染的最新水平。整個訓練過程僅需在單個 Titan RTX GPU 上花費 10 分鐘。
?https://cs.stanford.edu/~xtiange/projects/occfusion/
4.浦語靈筆 IXC-2.5 展現多模態實力
上海人工智能實驗室最新推出的浦語靈筆 IXC-2.5 模型引發業界關注。這款基于7B LLM的多模態大模型在圖像和視頻理解方面表現出色,據稱能力可與GPT-4V相媲美。其特色功能包括高分辨率圖像理解、精細視頻分析和多輪多圖像對話。該模型還拓展了實用領域,能夠自動生成網頁和創作高質量文章,利用逐步推理方法確保長文本內容的邏輯性和連貫性。浦語靈筆 IXC-2.5 的推出為人工智能在多模態應用領域開辟了新的可能性。
?https://huggingface.co/spaces/Willow123/InternLM-XComposer
5.推薦系統新范式:DiffMM開啟多模態精準推薦時代
港大和騰訊研究人員聯手打造的DiffMM多模態推薦系統引發業界關注。這一創新模型通過構建包含用戶和視頻多元信息的圖譜,并結合圖擴散技術和對比學習方法,實現了對用戶喜好的深度理解。在三個公共數據集的實驗中,DiffMM展現出卓越性能,超越現有基線模型。該項目已開源,為推薦系統研究提供了新思路,有望在短視頻等領域帶來更精準的個性化推薦體驗。
?https://github.com/HKUDS/DiffMM
6.快手AI繪畫新里程碑:Kolors模型雙語圖像生成
快手科技旗下Kolors團隊近日推出了一款突破性的文本到圖像生成模型Kolors。這一基于潛流擴散技術的大規模模型在數十億文本-圖像對上進行訓練,在視覺質量、語義準確性和中英文字體渲染方面均展現出卓越表現。Kolors支持中英雙語輸入,特別在生成中文內容時表現出色。通過人類專家評估和機器評測,Kolors在視覺吸引力和整體滿意度方面均領先于現有開源和閉源模型。
?https://github.com/Kwai-Kolors/Kolors
熱議話題
AI應用現狀:期待與現實的差距
Retool 2024年上半年AI狀況報告指出AI應用的真實情況:
1.AI采用,進展緩慢但穩定:AI在企業中的實際應用進展并不如想象中迅速。報告顯示,僅有約30%的受訪者認為他們的公司在AI采用方面處于"運行"或"飛行"階段,這一比例甚至較2023年有所下降。
2.AI影響尚未達到變革性水平:盡管AI已在多個領域得到應用,但影響力似乎被夸大了。受訪者給出的平均影響評分僅為6.7/10,遠未達到"變革性"的程度。
3.投資態度,謹慎樂觀:盡管AI的實際影響有限,但大多數企業并不認為他們在AI上投資過度。相反,42%的受訪者認為投資"恰到好處",40.5%甚至認為投資"不夠"。企業對AI的長期潛力持樂觀態度,愿意繼續投入資源。
4.AI應用場景以內部為主,外部謹慎:企業更傾向于在內部應用AI技術。最常見的用例包括編寫代碼或查詢(42.1%)、知識庫問答(36.4%)和支持聊天機器人(33.9%)。相比之下,面向客戶的AI應用相對較少。這種傾向可能源于企業希望在內部環境中先行試驗和完善AI應用,以降低風險。
5.OpenAI獨占鰲頭,新星嶄露頭角:在AI技術棧方面,OpenAI的模型仍然主導市場,GPT-4和GPT-3.5合計占據70%的份額。不過像Anthropic的Claude 3和Mistral這樣的新興模型正在嶄露頭角,AI技術生態趨向多元化。
6.潛力巨大,道路漫長:業內人士對AI未來發展保持樂觀。總的來說,AI技術的發展正處于一個關鍵的轉折點。雖然其影響力尚未達到預期,但企業和開發者正在積極探索和實踐,為未來的突破奠定基礎。
?https://retool.com/blog/state-of-ai-h1-2024
敬請期待明日的最新動態!
AI情報局征集情報合伙人,匯集獨家價值線索!如果您可以提供有關AI最新成果&行業內幕&獨特產品,請添加運營微信號:AIyanxishe2備注行業崗位。
雷峰網(公眾號:雷峰網)
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。