<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      業(yè)界 正文
      發(fā)私信給二維馬曉寧
      發(fā)送

      0

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      本文作者: 二維馬曉寧 2024-04-15 12:29
      導語:Mini-Gemini還提供了2B小杯到34B的超大杯,最強模型在多個指標上相比Google Gemini Pro甚至GPT-4V都不遑多讓。

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      更高清圖像的精確理解、更高質(zhì)量的訓練數(shù)據(jù)、更強的圖像解析推理能力,還能結(jié)合圖像推理和生成,香港中文大學終身教授賈佳亞團隊提出的這款多模態(tài)模型Mini-Gemini堪稱絕絕子,相當于開源社區(qū)的GPT4+DALLE3的王炸組合!

      Mini-Gemini還提供了2B小杯到34B的超大杯,最強模型在多個指標上相比Google Gemini Pro甚至GPT-4V都不遑多讓。目前,Mini-Gemini從代碼、模型、到數(shù)據(jù)已全部開源,登上了PaperWithCode熱榜。

      Mini-Gemini線上Demo也已發(fā)布,超會玩梗,一起來體驗下!

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      Mini-Gemini Demo放出后受到廣大網(wǎng)友關(guān)注,一番“品嘗”后,他們認為Mini-Gemini跟商業(yè)模型差不了多少!

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      目前,絕大多數(shù)多模態(tài)模型僅支持低分辨率圖像輸入和文字輸出,而在實際場景中,許多任務(wù)都需要對高清圖像進行解析,并用圖像的形式進行展現(xiàn)。

      如上圖所示,Mini-Gemini不僅能夠根據(jù)圖片對做面包的過程進行手把手教學,也能夠準確將不同電腦品種根據(jù)圖片中的各種參數(shù)進行對比。網(wǎng)友表示:媽媽再也不用擔心我的生活了。

      更重要的是,Mini-Gemini在保留超強的圖像理解和推理能力的同時,還解鎖了圖像的生成能力,就如同ChatGPT和生成模型的結(jié)合。

      下面,讓我們通過幾個例子來更直觀地感受這種能力:

      案例分析:

      還記得Google Gemini的官方演示視頻么?當用戶給出兩個毛線團并問出能用它們做什么時,Gemini可以識別出圖片內(nèi)容并給出相應的建議。

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      當我們把相似的輸入給到Mini-Gemini,它會怎么回答呢?

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      可以發(fā)現(xiàn),Mini-Gemini也可以識別出圖片中的元素,并且合理地建議,同時生成了一只對應的毛線小熊。

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      通過一些抽象的多模態(tài)指令來讓模型給出推理,并生成合適的圖片,這個操作就很像是ChatGPT和DALLE3的聯(lián)動了!

      接下來讓Mini-Gemini做自己最擅長的推理和圖片理解,看看它表現(xiàn):比如理解圖片中的矛盾點并舉一反三——輸入冰川中的仙人掌,它會解釋其中的矛盾并生成一張熱帶雨林中北極熊的圖片:

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      圖片呈現(xiàn)了仙人掌的典型棲息地與冰的存在之間的視覺矛盾,因為在沙漠環(huán)境中自然不會出現(xiàn)冰。這種矛盾的類似例子可能是一只北極熊出現(xiàn)在熱帶雨林中,因為北極熊適應于寒冷、覆蓋著冰的環(huán)境,在炎熱潮濕的氣候中無法生存。這種并置創(chuàng)造了一個引人注目且超現(xiàn)實的視覺效果,挑戰(zhàn)觀眾的期待,并可能引發(fā)人們對氣候變化、環(huán)境適應或不同生態(tài)系統(tǒng)融合的思考。

      同時,正如ChatGPT+DALLE3的夢幻結(jié)合一樣,Mini-Gemini的“推理生成”功能還可以在多輪對話中通過簡單指令生成連環(huán)小故事。

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      比方說,讓它根據(jù)用戶輸入講一個貴族小老鼠的故事。Mini-Gemini會根據(jù)前文的文字生成結(jié)果和用戶輸入進行推理,在保持一致性的情況下對圖片進行修改,使其更符合用戶的要求。

      當然,Mini-Gemini對于多模態(tài)模型的傳統(tǒng)技能圖片理解也不在話下。比方讓模型理解輸入曲線圖的數(shù)學意義(高斯分布),并讓它使用代碼復現(xiàn)這張圖,通過運行生成的代碼,模型可以高質(zhì)量地還原曲線圖,節(jié)省了復現(xiàn)的時間。

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      又或者讓Mini-Gemini理解梗圖,通過其強大的OCR和推理能力,也可以準確指出笑點。

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      高清復雜的多圖表理解和歸納也是小菜一碟,Mini-Gemini直接秒變打工人效率提升的超級外掛。

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      技術(shù)細節(jié):

      問題來了,Mini-Gemini是怎樣做到這種驚艷的效果呢?核心在于三點,(1) 用于高清圖像的雙編碼器機制,(2) 更高質(zhì)量的數(shù)據(jù), (3) 訓練階段結(jié)合生成模型數(shù)據(jù)拓展。

      大道至簡,Mini-Gemini的整體思路并不復雜。其中的Gemini(雙子座)表達的是使用視覺雙分支的信息挖掘(Mining-Info in Gemini)解決高清圖像理解問題。

      詳細來說,Mini-Gemini將傳統(tǒng)所使用的ViT當做低分辨率的Query,而使用卷積網(wǎng)絡(luò)(ConvNet) 將高分辨率的圖像編碼成Key和Value。使用Transformer中常用的Attention機制,來挖掘每個低分辨率Query所對應的高分辨率區(qū)域。從而在保持最終視覺Token數(shù)目不變的情況下去提升對高清圖像的響應,保證了在大語言模型 (LLM) 中對于高清圖像的高效編碼。值得一提的是,由于高分辨率分支卷積網(wǎng)絡(luò)的使用,可以根據(jù)需要對圖像所需的分辨率自適應調(diào)整,能夠遇強則強。對于圖像的生成部分,Mini-Gemini借助了SDXL,使用LLM推理后所生成的文本鏈接兩個模型,類似于DALLE3的流程。

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      而對于數(shù)據(jù)這個萬金油,Mini-Gemini進一步收集并優(yōu)化了訓練數(shù)據(jù)的質(zhì)量,并加入了跟生成模型結(jié)合的文本數(shù)據(jù)進行訓練。在僅使用2-3M數(shù)據(jù)的情況下,實現(xiàn)了對圖像理解、推理、和生成的統(tǒng)一流程。

      Mini-Gemini在各種Zero-shot的榜單上毫不遜色于各種大廠用大量數(shù)據(jù)訓練出來的模型,可謂是“平、靚、正” !

      量化指標:

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      可以看出,Mini-Gemini提供了多種普通和高清版本的模型,并且覆蓋了2B的小杯到34B的超大杯,各個版本都取得了相似參數(shù)量下領(lǐng)先的效果,在許多指標上甚至超越Gemini Pro和GPT-4V。

      在線可玩:

      值得一提的是,Mini-Gemini的圖像理解和生成能力已經(jīng)出了Demo,可以在線跟自定義圖像對話的那種。

      操作也極其簡單,直接跟輸入圖像或文字進行對話即可,歡迎來撩!

      生圖超級外掛!賈佳亞團隊提出 VLM 模型 Mini-Gemini,堪比 GPT4+DALLE3 王炸組合

      Github地址:https://github.com/dvlab-research/MiniGemini

      Demo地址: http://103.170.5.190:7860/

      論文地址:https://arxiv.org/pdf/2403.18814.pdf

      模型地址:https://huggingface.co/collections/YanweiLi/mini-gemini-6603c50b9b43d044171d0854

      數(shù)據(jù)地址:https://huggingface.co/collections/YanweiLi/mini-gemini-data-660463ea895a01d8f367624e

      雷峰網(wǎng)(公眾號:雷峰網(wǎng))文章

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      分享:
      相關(guān)文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 亚洲欧美成人一区二区在线电影 | 久久综合干| 99国产欧美另类久久久精品| 中文亚洲字幕| 综合欧美视频一区二区三区| 国产精品久久久久久亚洲影视| 国产成人无码a区在线| 福利一区二区三区av| 日本无翼乌邪恶大全彩h| 毛片a久久99亚洲欧美毛片| 激情内射亚州一区二区三区爱妻| 人妻熟女一区二区三区APP下载| 黑人VA| av东京热一区二区三区| 免费va国产在线观看| 亚洲成人精选| 免费ā片在线观看| 日本护士╳╳╳hd少妇| 中文字幕一区二区三区久久蜜桃| 精品精品亚洲高清a毛片| 亚洲video| 欲色天天网综合久久| 精品av国产一区二区三区| 日韩精品中文字幕无码一区| 精品日本一区二区三区在线观看| 污污内射在线观看一区二区少妇| 国产精品美女一区二区视频| 国产AV影片麻豆精品传媒| 精品人妻少妇嫩草AV无码专区 | 成人综合精品| 亚洲国产精品久久一线不卡| 成在线人永久免费视频播放 | 国内精品视频一区二区三区| 亚洲3p| 男人的天堂av社区在线| 日产精品久久久久久久蜜臀| 亚洲精品不卡av在线播放| 国产精品???A片在线观看| 叙永县| 久久国产亚洲一区二区三区| 中文字幕一区二区三区日韩精品 |