<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
      人工智能 正文
      發(fā)私信給AI研習(xí)社-譯站
      發(fā)送

      0

      多圖帶你讀懂 Transformers 的工作原理

      本文作者: AI研習(xí)社-譯站 2019-03-19 10:11
      導(dǎo)語(yǔ):Transformer是一類神經(jīng)網(wǎng)絡(luò)架構(gòu),現(xiàn)在越來越受歡迎了。

      多圖帶你讀懂 Transformers 的工作原理

      本文為 AI 研習(xí)社編譯的技術(shù)博客,原標(biāo)題 :

      How Transformers Work

      作者 | Giuliano Giacaglia

      翻譯 | 胡瑛皓       

      校對(duì) | 醬番梨        審核 | 約翰遜·李加薪       整理 | 立魚王

      原文鏈接:

      https://towardsdatascience.com/transformers-141e32e69591

      Transformer是一類神經(jīng)網(wǎng)絡(luò)架構(gòu),現(xiàn)在越來越受歡迎了。Transformer最近被OpenAI用于訓(xùn)練他們的語(yǔ)言模型,同時(shí)也被DeepMind的AlphaStar?采用,用于他們的程序擊敗那些頂級(jí)星際玩家。

      Transformer是為了解決序列傳導(dǎo)問題或神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯而設(shè)計(jì)的,意味著任何需要將輸入序列轉(zhuǎn)換為輸出序列的任務(wù)都可以用,包括語(yǔ)音識(shí)別和文本到語(yǔ)音轉(zhuǎn)換等。

      多圖帶你讀懂 Transformers 的工作原理

      序列傳導(dǎo)。綠色表示輸入,藍(lán)色表示模型,紫色表示輸出。動(dòng)圖摘自:jalammar.github.io

      對(duì)于需要進(jìn)行序列傳導(dǎo)的模型,有必要有某種記憶。例如,我們將以下句子翻譯到另一種語(yǔ)言(法語(yǔ)):

      “The Transformers” are a Japanese [[hardcore punk]] band. The band was formed in 1968, during the height of Japanese music history”

      本例中,第二句話中的“the band”一詞指代第一句中引入的“The Transformers”。當(dāng)你讀到第二句中的"the band",你知道它指的是“The Transformers” band。這可能對(duì)翻譯很重要。事實(shí)上,后一句話中的某個(gè)詞指代前幾句話中出現(xiàn)的某個(gè)詞,像這樣的例子很多。

      翻譯這樣的句子,模型需要找出之間的依賴和關(guān)聯(lián)。循環(huán)神經(jīng)網(wǎng)絡(luò) (RNNs)和卷積神經(jīng)網(wǎng)絡(luò)(CNNs)由于其特性已被使用來解決這個(gè)問題。 讓我們回顧一下這兩種架構(gòu)及其缺點(diǎn)。


         循環(huán)神經(jīng)網(wǎng)絡(luò)

      循環(huán)神經(jīng)網(wǎng)絡(luò)內(nèi)部有循環(huán),允許信息保存其中。

      多圖帶你讀懂 Transformers 的工作原理

      輸入表示為 x_t

      如上圖所示,我們看到神經(jīng)網(wǎng)絡(luò)的一部分A,處理輸入x_t,然后輸出h_t。A處循環(huán)使得信息可從前一步傳遞至后一步。

      可以換一種方式思考這些循環(huán)。循環(huán)神經(jīng)網(wǎng)絡(luò)可認(rèn)為是同一網(wǎng)絡(luò)A的多重備份,每個(gè)網(wǎng)絡(luò)將信息傳遞給其后續(xù)網(wǎng)絡(luò)??匆幌氯绻覀儗⒀h(huán)展開會(huì)如何:

      多圖帶你讀懂 Transformers 的工作原理

      展開的循環(huán)神經(jīng)網(wǎng)絡(luò)

      圖中鏈?zhǔn)奖举|(zhì)清楚地表明循環(huán)神經(jīng)網(wǎng)絡(luò)與序列和列表相關(guān)。 如果以這種方式翻譯一段文本,需要將文本中的每個(gè)單詞設(shè)置為其輸入。循環(huán)神經(jīng)網(wǎng)絡(luò)將序列中前面的詞語(yǔ)的信息傳入后一個(gè)神經(jīng)網(wǎng)絡(luò),這樣便可以利用和處理這些信息。

      下圖展示了sequence to sequence模型通常是如何用循環(huán)神經(jīng)網(wǎng)絡(luò)工作的。每個(gè)單詞被單獨(dú)處理,然后將編碼階段的隱狀態(tài)傳入解碼階段以生成結(jié)果句子,然后這樣就產(chǎn)生了輸出。

      多圖帶你讀懂 Transformers 的工作原理

      動(dòng)圖摘自此文:jalammar.github.io

      長(zhǎng)期依賴的問題

      考慮一下這類模型,即使用之前看到的單詞預(yù)測(cè)下一個(gè)單詞。如果我們需要預(yù)測(cè)這句話“the clouds in the ___”的下一個(gè)單詞,不需要額外的語(yǔ)境信息,很顯然下個(gè)單詞是“sky”。

      這個(gè)例子里,相關(guān)信息和需預(yù)測(cè)單詞的距離很近。循環(huán)神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)前面的信息,并找出句中下一個(gè)單詞。

      多圖帶你讀懂 Transformers 的工作原理

      圖片摘自此文:colah.github.io

      但有些情況我們需要更多語(yǔ)境信息。例如試圖預(yù)測(cè)這句話的最后一個(gè)單詞: “I grew up in France… I speak fluent ___”。 最靠近這個(gè)單詞的信息建議這很有可能是一種語(yǔ)言,但當(dāng)你想確定具體是哪種語(yǔ)言時(shí),我們需要語(yǔ)境信息France,而這出現(xiàn)在較前面的文本中。

      多圖帶你讀懂 Transformers 的工作原理

      圖片摘自此文:colah.github.io

      當(dāng)相關(guān)信息和詞語(yǔ)之間距離變得很大時(shí),RNN變得非常低效。那是因?yàn)?,需要翻譯的信息經(jīng)過運(yùn)算中的每一步,傳遞鏈越長(zhǎng),信息就越可能在鏈中丟失。

      理論上RNN可以學(xué)習(xí)這些長(zhǎng)期依賴關(guān)系,不過實(shí)踐表現(xiàn)不佳,學(xué)不到這些信息。因而出現(xiàn)了LSTM,一種特殊的RNN,試圖解決這類問題。


         Long-Short Term Memory (LSTM)

      我們平時(shí)安排日程時(shí),通常會(huì)為不同的約會(huì)確定不同的優(yōu)先級(jí)。如果有什么重要行程安排,我們通常會(huì)取消一些不那么重要的會(huì)議,去參加那些重要的。

      RNN不會(huì)那么做。無(wú)論什么時(shí)候都會(huì)不斷往后面加信息,它通過應(yīng)用函數(shù)轉(zhuǎn)換全部現(xiàn)有信息。在過程中所有信息都被修改了,它不去考慮哪些重要,哪些不重要。

      LSTMs在此基礎(chǔ)上利用乘法和加法做了一些小改進(jìn)。在LSTMs里,信息流經(jīng)一種機(jī)制稱為細(xì)胞狀態(tài)。LSTM便可以選擇性的記憶或遺忘那些重要或不重要的事情了。

      LSTM內(nèi)部看起來像是這樣:

      多圖帶你讀懂 Transformers 的工作原理

      圖片摘自此文:colah.github.io

      每個(gè)細(xì)胞的輸入為x_t (在句子到句子翻譯這類應(yīng)用中x_t是一個(gè)單詞), 上一輪細(xì)胞狀態(tài)以及上一輪的輸出。模型基于這些輸入計(jì)算改變其中信息,然后產(chǎn)生新的細(xì)胞狀態(tài)和輸出。本文不會(huì)詳細(xì)講每個(gè)細(xì)胞的實(shí)現(xiàn)機(jī)制。如果你想了解這些細(xì)胞的運(yùn)作機(jī)制,推薦你看一下Christopher的博客:

      Understanding LSTM Networks -- colah's blog
      這些循環(huán)使得循環(huán)神經(jīng)網(wǎng)絡(luò)看起來有點(diǎn)神秘。 但如果再細(xì)想一下,事實(shí)上
      https://colah.github.io/posts/2015-08-Understanding-LSTMs/

      采用細(xì)胞狀態(tài)后,在翻譯過程中,句子中對(duì)翻譯單詞重要的信息會(huì)被一輪一輪傳遞下去。

      LSTM的問題

      總體來說問題LSTM的問題與RNN一樣,例如當(dāng)句子過長(zhǎng)LSTM也不能很好的工作。原因在于保持離當(dāng)前單詞較遠(yuǎn)的上下文的概率以距離的指數(shù)衰減。

      那意味著當(dāng)出現(xiàn)長(zhǎng)句,模型通常會(huì)忘記序列中較遠(yuǎn)的內(nèi)容。RNN與LSTM模型的另一個(gè)問題,由于不得不逐個(gè)單詞處理,因此難以并行化處理句子。不僅如此,也沒有長(zhǎng)短范圍依賴的模型??傊?,LSTM和RNN模型有三個(gè)問題:

      • 順序計(jì)算,不能有效并行化

      • 沒有顯示的建模長(zhǎng)短范圍依賴

      • 單詞之間的距離是線性的


         Attention

      為了解決其中部分問題,研究者建立了一項(xiàng)能對(duì)特定單詞產(chǎn)生注意力的技能。

      當(dāng)翻譯一個(gè)句子,我會(huì)特別注意我當(dāng)前正在翻譯的單詞。當(dāng)我錄制錄音時(shí),我會(huì)仔細(xì)聆聽我正在寫下的部分。如果你讓我描述我所在的房間,當(dāng)我這樣做的時(shí)候,我會(huì)瞥一眼描述的物體。

      神經(jīng)網(wǎng)絡(luò)用attention可以做到同樣的效果,專注于給出信息的那部分。例如,RNN可注意另一RNN的輸出。在每個(gè)時(shí)點(diǎn)它聚焦于其他RNN不同的位置。

      為了解決這些問題,注意力(attention)是一種用于神經(jīng)網(wǎng)絡(luò)的技術(shù)。 對(duì)于RNN模型,與其只編碼整個(gè)句子的隱狀態(tài),我們可以把每個(gè)單詞的隱狀態(tài)一起傳給解碼器階段。在RNN的每個(gè)步驟使用隱藏狀態(tài)進(jìn)行解碼。詳見下面動(dòng)圖

      多圖帶你讀懂 Transformers 的工作原理

      綠色步驟是編碼階段,紫色步驟是解碼階段,動(dòng)圖摘自此文:jalammar.github.io

      其背后的想法是句子每個(gè)單詞都有相關(guān)信息。為了精確解碼,需要用注意力機(jī)制考慮輸入的每個(gè)單詞。

      對(duì)于要放入序列傳導(dǎo)RNN模型的注意力,我們分成編碼和解碼兩步。一步以綠色表示另一步以紫色表示。綠色步驟稱為編碼階段紫色步驟稱為解碼階段。

      多圖帶你讀懂 Transformers 的工作原理

      動(dòng)圖摘自此文:jalammar.github.io

      綠色步驟負(fù)責(zé)由輸入建立隱狀態(tài)。我們把句子中每個(gè)單詞產(chǎn)生的所有隱狀態(tài)傳入解碼階段,而不是和過去的attention一樣,僅傳遞一個(gè)隱狀態(tài)給解碼器。每個(gè)隱狀態(tài)都會(huì)在解碼階段被使用,去找出網(wǎng)絡(luò)應(yīng)該注意的地方。

      比如,當(dāng)我們翻譯這句 “Je suis étudiant”法語(yǔ)句子到英語(yǔ)時(shí),需要在翻譯時(shí)解碼步驟去查不同的單詞。

      多圖帶你讀懂 Transformers 的工作原理

      此動(dòng)圖展示當(dāng)翻譯“Je suis étudiant”至英語(yǔ)時(shí),如何給每個(gè)隱狀態(tài)賦予權(quán)重。顏色越深對(duì)于每個(gè)單詞的權(quán)重越大。動(dòng)圖摘自此文:jalammar.github.io

      或再比如,當(dāng)你將“L’accord sur la zone économique européenne a été signé en ao?t 1992.” 法語(yǔ)翻譯成英語(yǔ),下圖展示了需要對(duì)每個(gè)輸入賦予多少注意力。

      多圖帶你讀懂 Transformers 的工作原理

      翻譯 “L’accord sur la zone économique européenne a été signé en ao?t 1992.”法語(yǔ)句子到英文。圖片摘自此文:jalammar.github.io

      不過我們前面討論的一些問題,用帶attention的RNN仍然無(wú)法解決。比如,不可能并行處理輸入的單詞。對(duì)較大的文本語(yǔ)料,增加了翻譯文本的用時(shí)。


         卷積神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)可以幫助解決這些問題,可以做到:

      • 并行化 (按層)

      • 利用局部依賴

      • 位置間的距離是對(duì)數(shù)級(jí)的

      一些最流行的序列傳導(dǎo)網(wǎng)絡(luò), 例如 Wavenet和Bytenet就采用卷積神經(jīng)網(wǎng)絡(luò)。

      多圖帶你讀懂 Transformers 的工作原理

      Wavenet, 模型采用卷積神經(jīng)網(wǎng)絡(luò) (CNN). 動(dòng)圖摘自此文

      卷積神經(jīng)網(wǎng)絡(luò)可并行處理是因?yàn)?,輸入的每個(gè)單詞可被同時(shí)處理并不必依賴于前一個(gè)單詞翻譯的結(jié)果。不僅如此,輸出單詞與任何CNN輸入的單詞的“距離”是log(N)?數(shù)量級(jí)—?—?即輸入單詞到輸出單詞連線形成的樹的高度 (如上面動(dòng)圖所示)。 這比RNN輸出到其輸入的距離要好很多,因?yàn)槠渚嚯x是N數(shù)量級(jí)。

      問題在于卷積神經(jīng)網(wǎng)絡(luò)在翻譯句子過程中不一定有助于解決依賴問題。這就是transformers被創(chuàng)造出來的原因,它結(jié)合了CNN和attention機(jī)制.


         Transformers

      Transformers模型試圖結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和attention機(jī)制解決并行化問題。attention機(jī)制提升模型從一個(gè)序列轉(zhuǎn)換為另一個(gè)序列的速度。

      我們來看一下Transformer是如何工作的。Transformer是一類用attention來提速的模型,具體來說使用的是self-attention。

      多圖帶你讀懂 Transformers 的工作原理

      Transformer, 圖片摘自此文:jalammar.github.io

      從內(nèi)部來看Transformer與之前模型架構(gòu)相似,只是Transformer由6個(gè)編碼器和6個(gè)解碼器組成。

      多圖帶你讀懂 Transformers 的工作原理

      圖片摘自此文:jalammar.github.io

      編碼器非常相似,所有編碼器都具有相同的架構(gòu)。解碼器也有相同的屬性諸如互相之間非常相似。編碼器有兩層: self-attention層和前饋神經(jīng)網(wǎng)絡(luò)層。

      多圖帶你讀懂 Transformers 的工作原理

      圖片摘自此文:jalammar.github.io

      編碼器的輸入先進(jìn)入self-attention層,有助于編碼器在編碼句中特定單詞時(shí)可參考輸入句子中其他單詞。解碼器也包含這兩層,不過在兩層中間增加了attention層,以幫助解碼器聚焦到輸入句子的相關(guān)部分。

      多圖帶你讀懂 Transformers 的工作原理

      圖片摘自此文:jalammar.github.io


         Self-Attention

      注: 這部分轉(zhuǎn)自Jay Allamar的博文
      https://jalammar.github.io/illustrated-transformer/

      我們來看一下模型中各種不同的向量/張量,它們?cè)谝延?xùn)練模型組件中如何流轉(zhuǎn),從而把輸入轉(zhuǎn)化成輸出的。 由于這是一個(gè)NLP應(yīng)用實(shí)例,我們先用詞嵌入算法把每個(gè)輸入的詞語(yǔ)轉(zhuǎn)換為詞向量。

      多圖帶你讀懂 Transformers 的工作原理

      圖片摘自此文:jalammar.github.io

      每個(gè)單詞被轉(zhuǎn)換為一個(gè)長(zhǎng)度512的向量。圖中我們用這些簡(jiǎn)單的方塊表示這些向量。

      僅在最底層的解碼器處進(jìn)行詞嵌入轉(zhuǎn)換。對(duì)于所有編碼器,它們都接收大小為512的向量列表

      最底層的編碼器接收的是詞嵌入,但其他編碼器接收的輸入是其下一層的直接輸出。當(dāng)輸入序列中的單詞做詞嵌入轉(zhuǎn)換后,數(shù)據(jù)就按順序流經(jīng)各層編碼器的2層結(jié)構(gòu)。

      多圖帶你讀懂 Transformers 的工作原理

      圖片摘自此文:jalammar.github.io

      此處我們開始看到Transformer的一個(gè)重要特性,每個(gè)位置上的單詞在編碼器中流經(jīng)自己的路徑。在self-attention層處理這些路徑的依賴關(guān)系。前饋神經(jīng)網(wǎng)絡(luò)不處理這些依賴關(guān)系。這樣當(dāng)數(shù)據(jù)流經(jīng)前饋神經(jīng)網(wǎng)絡(luò)時(shí),不同的路徑可被并行執(zhí)行。

      接下來,我們將切換到一句短句實(shí)例,看一下在編碼器的子層里會(huì)發(fā)生什么。

      Self-Attention

      首先讓我們來看一下如何用向量計(jì)算self-attention,然后再看一下利用矩陣運(yùn)算的實(shí)現(xiàn)方式。

      多圖帶你讀懂 Transformers 的工作原理

      找出句中單詞之間的關(guān)系并給出正確的注意力。圖片摘自此文:http://web.stanford.edu

      self-attention計(jì)算的第一步是通過編碼器的輸入向量 (本例中是每個(gè)單詞的詞嵌入向量) 建立Query, Key和Value三個(gè)向量,我們通過輸入的詞嵌入向量乘以之前訓(xùn)練完成的三個(gè)矩陣得到。

      注意,這些新向量的長(zhǎng)度小于詞嵌入向量的長(zhǎng)度。這里取64,而詞嵌入向量及編碼器的輸入輸出長(zhǎng)度為512。這是一個(gè)架構(gòu)性選擇,向量長(zhǎng)度不需要變得更小,使得多頭注意力(multiheaded attention)計(jì)算基本穩(wěn)定。

      多圖帶你讀懂 Transformers 的工作原理

      圖片摘自此文:jalammar.github.io

      將詞向量x1乘以權(quán)重矩陣WQ得到q1,即與這個(gè)單詞關(guān)聯(lián)的“query”向量。這樣,我們最終分別得到輸入句子里每個(gè)單詞的“query”,“key”和“value”投射。

      那“query”, “key”和“value”向量是什么?

      它們是一種抽象,在計(jì)算和考慮注意力時(shí)會(huì)被用到。如果你讀了下文里關(guān)于注意力的計(jì)算方法,你就差不多明白各向量的角色。

      計(jì)算self-attention的第二步是計(jì)算一項(xiàng)得分(score)。我們以計(jì)算句中第一個(gè)單詞Thinking的self-attention為例。我們需要計(jì)算句中每個(gè)單詞針對(duì)這個(gè)詞的得分。當(dāng)我們?cè)谔囟ǖ奈恢镁幋a一個(gè)單詞時(shí),該得分決定了在輸入句子的其他部分需要放多少焦點(diǎn)。

      得分等于當(dāng)前詞的query向量與需評(píng)分詞語(yǔ)的key向量的點(diǎn)積。因此,如果需要計(jì)算#1位置處單詞的self-attention,第一個(gè)得分是q1與k1的點(diǎn)積,第二個(gè)得分就是q1和k2的點(diǎn)積。

      多圖帶你讀懂 Transformers 的工作原理

      圖片摘自此文:jalammar.github.io

      第三第四步是將所有得分除以8(論文中取的是向量維數(shù)開根號(hào)—?—?64,這樣會(huì)得到更穩(wěn)定的梯度。當(dāng)然也可以用其他值,不過這是默認(rèn)值),然后將結(jié)果放入一個(gè)softmax操作. softmax方法正則化這些得分,使它們都大于0且加和為1。

      多圖帶你讀懂 Transformers 的工作原理

      圖片摘自此文:jalammar.github.io

      這個(gè)經(jīng)過softmax的score決定了該單詞在這個(gè)位置表達(dá)了多少。很顯然當(dāng)前位置所在的單詞會(huì)得到最高的softmax得分,不過有時(shí)候有助于算法注意到其他與當(dāng)前單詞相關(guān)的單詞。

      第五步,將每個(gè)value向量乘以softmax得分 (準(zhǔn)備對(duì)它們求和)。這里的意圖是保持需要聚焦的單詞的value,并且去除不相關(guān)的單詞(乘以一個(gè)很小的數(shù)字比如0.001)。

      第六步,求和加權(quán)后的value向量。這就產(chǎn)生了(對(duì)于第一個(gè)單詞)在self-attention層上此位置的輸出。

      多圖帶你讀懂 Transformers 的工作原理

      圖片摘自此文:jalammar.github.io

      這樣self-attention計(jì)算就結(jié)束了。結(jié)果向量就可以拿來作為前饋神經(jīng)網(wǎng)絡(luò)的輸入。不過實(shí)際實(shí)現(xiàn)中,考慮到性能該計(jì)算由矩陣形式運(yùn)算完成。我們現(xiàn)在看一下,我們已經(jīng)知道如何在詞級(jí)別計(jì)算了。

      Multihead attention

      Transformer基本上就是這么工作的。此外還有一些其他細(xì)節(jié)使其工作得更好。比如,實(shí)現(xiàn)中使用了多頭注意力的概念,而不是只在一個(gè)維度上計(jì)算注意力。

      其背后的想法是,當(dāng)你翻譯一個(gè)單詞時(shí),基于不同的問題,會(huì)對(duì)于同一個(gè)單詞產(chǎn)生不同的注意力,如下圖所示。比如說當(dāng)你在翻譯“I kicked the ball”句中的“kicked”時(shí),你會(huì)問“Who kicked”。由于問題不同,當(dāng)翻譯成另一種語(yǔ)言時(shí)結(jié)果可能改變。或者問了其他問題,比如“Did what?”,等…

      多圖帶你讀懂 Transformers 的工作原理

      多圖帶你讀懂 Transformers 的工作原理

      多圖帶你讀懂 Transformers 的工作原理

      圖片摘自此文:http://web.stanford.edu

      Positional Encoding

      Transfomer的另一個(gè)重要步驟是為每個(gè)詞增加了位置編碼。由于每個(gè)單詞的位置與翻譯相關(guān),所以編碼每個(gè)單詞的位置是有用的。


         總結(jié)

      本文概述transformers是怎么工作的,以及在序列傳導(dǎo)問題中使用的原因。如果你希望更深入的理解模型運(yùn)作的原理及相關(guān)差異。推薦閱讀以下帖子、文章和視頻資料。

      1. The Unreasonable Effectiveness of Recurrent Neural Networks

      2. Understanding LSTM Networks

      3. Visualizing A Neural Machine Translation Model

      4. The Illustrated Transformer

      5. The Transformer?—?Attention is all you need

      6. The Annotated Transformer

      7. Attention is all you need attentional neural network models

      8. Self-Attention For Generative Models

      9. OpenAI GPT-2: Understanding Language Generation through Visualization

      10. WaveNet: A Generative Model for Raw Audio

      想要繼續(xù)查看該篇文章相關(guān)鏈接和參考文獻(xiàn)?

      點(diǎn)擊【多圖帶你讀懂 Transformers 的工作原理】或長(zhǎng)按下方地址:

      https://ai.yanxishe.com/page/TextTranslation/1558

      AI研習(xí)社今日推薦雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

      卡耐基梅隆大學(xué) 2019 春季《神經(jīng)網(wǎng)絡(luò)自然語(yǔ)言處理》是CMU語(yǔ)言技術(shù)學(xué)院和計(jì)算機(jī)學(xué)院聯(lián)合開課,主要內(nèi)容是教學(xué)生如何用神經(jīng)網(wǎng)絡(luò)做自然語(yǔ)言處理。神經(jīng)網(wǎng)絡(luò)對(duì)于語(yǔ)言建模任務(wù)而言,可以稱得上是提供了一種強(qiáng)大的新工具,與此同時(shí),神經(jīng)網(wǎng)絡(luò)能夠改進(jìn)諸多任務(wù)中的最新技術(shù),將過去不容易解決的問題變得輕松簡(jiǎn)單。

      加入小組免費(fèi)觀看視頻:https://ai.yanxishe.com/page/groupDetail/33

      多圖帶你讀懂 Transformers 的工作原理


      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      多圖帶你讀懂 Transformers 的工作原理

      分享:
      相關(guān)文章

      知情人士

      AI研習(xí)社(yanxishe.com)譯站頻道,傳播前沿人工智能知識(shí),讓語(yǔ)言不再成為學(xué)習(xí)知識(shí)的門檻。(原雷鋒字幕組)
      當(dāng)月熱門文章
      最新文章
      請(qǐng)?zhí)顚懮暾?qǐng)人資料
      姓名
      電話
      郵箱
      微信號(hào)
      作品鏈接
      個(gè)人簡(jiǎn)介
      為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請(qǐng)驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號(hào)信息
      您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 国产xxxxxxx| 广东少妇大战黑人34厘米视频| 精品久久久久久久久久中文字幕 | 国产精品亚洲综合久久小说| 国产国产国产国产系列| 无码人妻久久久一区二区三区| 在线精品无码字幕无码av| 东京热加勒比综合| 少妇被黑人到高潮喷出白浆| 欧美喷白浆| 无码h黄肉动漫在线观看| 亚洲欧美人成人让影院| 国产人人人| 临清市| 久久亚洲精品情侣| 亚洲无码精品人妻| 伊人久久无码中文字幕| 制服丝袜人妻| 商水县| 亚洲の无码国产の无码步美| jizz偷拍| 裸体丰满白嫩大尺度尤物 | 亚洲国产精选| 偶偶福利影院| 出租屋勾搭老熟妇啪啪| 狠狠躁夜夜躁无码中文字幕| 色偷偷男人的天堂亚洲av| 欧美日韩高清在线观看| 2018av天堂在线视频精品观看| 一本—道久久a久久精品蜜桃| 中文人妻熟妇乱又伦精品| 国产在线观看无码免费视频 | 青青草99| jizz国产精品网站| 国产亚洲精品成人av一区 | 未满十八18禁止免费无码网站| 宝应县| 丰满老熟好大bbb| 人妻少妇白浆| 无码爆乳护士让我爽| 高清国产一区二区无遮挡|