<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給朱可軒
      發送

      0

      蘋果大模型最新論文:AFM 模型多維度評測「出爐」

      本文作者: 朱可軒 2024-08-30 17:23
      導語:蘋果大模型最新進展。

      編譯 | 朱可軒

      編輯 | 陳彩嫻

      不久前,蘋果在全球開發者大會(WWDC)上推出了最新個人智能系統 Apple Intelligence,可以深度集成到 iOS 18、iPadOS 18 和 macOS Sequoia 中,引起了 AI 業內人士、尤其是端側智能領域的討論。

      蘋果在 2024 年的一系列技術動作,被戲稱為蘋果為端側 AI 所設計的“開卷考試”,即:大模型時代,AI 技術應如何在手機、平板等端側設備上運營,讓手機變得更智能?

      近日,蘋果團隊又在 arXiv 上更新了關于 Apple Intelligence 的最新論文,其中介紹了蘋果用在 Apple Intelligence 上的兩個基礎語言模型,包括:一個在設備端運行的大約 30 億參數的語言模型 AFM-on-device,以及一個在私有云計算上運行的大規模服務器語言模型 AFM-server。

      蘋果大模型最新論文:AFM 模型多維度評測「出爐」

      論文鏈接:https://arxiv.org/pdf/2407.21075

      根據該論文,蘋果開發的端側大模型在語言理解、指令跟隨、推理、寫作與工具使用等多個任務上都有出色表現。同時,在保護用戶數據隱私與安全上,蘋果強調在后訓練階段不會使用用戶的個人數據進行訓練。

      結果顯示,蘋果的 AFM 模型在指令遵循層面皆優于其他大模型,同時,從寫作寫作能力來看,在摘要總結方面,AFM 模型無論是端側還是私有云也均要好于其他。而在安全性評估時,AFM 模型也比其他模型要更為負責。但是值得一提的是,AFM 模型的數學能力整體上來看較為一般。

      研究發現

      人類評估

      在人類評估中,在端側,AFM 僅輸于 Llama-3-8B ,而與其他模型相比顯然更優。據論文介紹,AFM 與 Phi-3-mini 相比,模型尺寸小了 25%,而勝率達47.7% ,AFM 甚至超出參數數量為兩倍多的 Gemma-7B 和 Mistral-7B。而在私有云上,與GPT-3.5相比時,AFM 也具有一定競爭力,勝率超 50%。

      蘋果大模型最新論文:AFM 模型多維度評測「出爐」

      指令遵循

      在指令級(Instruction-level)與提示級(Prompt-level)的評估中,無論是端側還是私有云上,均為 AFM 模型表現最好。其指令級的得分分別為 85.7% 和 88.5%,而提示級的得分則分別為 79.3% 和 83.0%。

      此外,蘋果還使用了 AlpacaEval 2.0 LC 和 Arena Hard 作為基準進行評估。在私有云上,這兩項測試中均為 GPT-4 的表現最優,其中,在 Arena Hard 測試中,GPT-4 的得分甚至倍超 AFM。在端側的 AlpacaEval 2.0 LC 測試中,則為 Gemma-7B 評分最優,AFM 模型緊隨其后。

      蘋果大模型最新論文:AFM 模型多維度評測「出爐」

      工具使用

      蘋果還測試了在調用工具使用基準測試中 AFM 模型的表現,分別從簡單(Simple)、多重(Multiple)、并行(Parallel)、并行多重(Parallel Multiple)、相關性(Relevance)和平均(Average)幾個緯度展開。

      整體來看,AFM-server 表現較優,從測試結果上來看,在簡單、多重、相關性、平均性維度中,AFM-server 均得分最高,分別為91.0、95.5、91.3、89.5。在并行多重維度中,AFM-server 得分 85.0,僅次于 Gemini-1.5-Pro-0514 的 88.0,且領先于 GPT-4 與 GPT-3.5。

      但 AFM-on-device 表現則較為一般,在多重、并行多重、相關性及平均維度中,均要稍遜于 GPT-4 和 Gemini-1.5-Pro-0514。除此之外,在并行維度中,AFM-server 和 AFM-on-device 的表現情況則都較為一般。

      蘋果大模型最新論文:AFM 模型多維度評測「出爐」

      寫作能力分兩塊,一塊是摘要總結,一塊是長作文。其中,AFM 模型主要在摘要總結上表現較好,在端側的表現優于 Mistral-7B、Gemma-7B、Phi-3-mini 與 Gemma-2B,在私有云上則優于 GPT-4、Mixtral-8x22B、DBRX Instruct 與 GPT-3.5:

      蘋果大模型最新論文:AFM 模型多維度評測「出爐」

      數學能力上,蘋果 AFM 模型的表現則一般,僅在端側 MATH 基準上高于 Llama-3-8B、Phi-3 mini、Gemma-7B 與 Mistral-7B,GSM8k 是 8-shot、MATH 是 4-shot:

      蘋果大模型最新論文:AFM 模型多維度評測「出爐」

      負責任的 AI

      在文本摘要總結功能中,蘋果團隊將 AFM 模型在郵件、信息與通知這三個應用上作了測試,分別從 5 個維度(仇恨言論、歧視、違法、色情、暴力)來評估模型的“好”與“差”。研究顯示,蘋果的 AFM 模型在“好”維度的表現均高于 Gemma-7B、Phi-3-8B 與 Llama-3-8B:

      蘋果大模型最新論文:AFM 模型多維度評測「出爐」

      安全性評測

      在有害輸出上,蘋果 AFM-on-device 的得分為 7.5%、AFM-server 的得分為 6.3%,得分越低、效果越好,遠遠高于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 與 Mistral-7B(其余得分均在 10% 以上):

      蘋果大模型最新論文:AFM 模型多維度評測「出爐」

      在安全提示詞上,人類評估,蘋果的 AFM-on-device 模型表現優于 Gemma-7B、Gemma-7B、Phi-3-mini、Llama-3-8B 與 Mistral-7B,AFM-server 模型的表現也要遠超 GPT-3.5、GPT-4 和 Llama-3-70B:雷峰網雷峰網(公眾號:雷峰網)

      蘋果大模型最新論文:AFM 模型多維度評測「出爐」

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      蘋果大模型最新論文:AFM 模型多維度評測「出爐」

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 人妻中出无码一区二区三区| 久章草在线毛片视频播放| 亚洲国产aⅴ成人精品无吗| 日韩无码系列| 欧美日一本| 久久国产成人高清精品亚洲| 野花香高清在线观看视频播放免费 | 欧美日韩国产一区二区三区欧| 人妻无码视频一区二区三区| 光泽县| 依依成人精品视频在线观看 | 91资源站| 英德市| 精品国产av色欲果冻传媒| 99免费精品| 国产精品久久无码一区二区三区网 | 国产片av片永久免费观看| 99re热这里只有精品视频| 国产97色在线 | 日韩| 天天干天天色综合网| 国产内射爽爽大片| 国产欧美久久一区二区三区| 97香蕉碰碰人妻国产欧美| 亚洲一本网| 国产中文在线| 亚洲精品国产电影午夜在线观看| 国产精品毛片av999999| 丰满人妻被黑人中出849| 日本护士╳╳╳hd少妇| 精品无码一区二区三区在线视频| 国产成人精品a视频一区| 色伊人| 无码av波多野结衣| 一级AV韩国| 亚州精品无码| 囯产精品99久久久久久WWW| 亚洲伊人色| 亚洲日韩字幕| 欧美日本亚洲| 亚洲国产午夜精品福利| 国产精品后入内射视频|