英特爾宋繼強：2020年，要讓深度學習模型訓練時間縮短100倍｜2016 CAIIC

本文作者：程弢

2016-12-17 23:00

專題：2016中國人工智能產業大會

導語：宋繼強定下了一個小目標，到2020年，在英特爾軟硬件方案的集成下，深度學習模型的訓練時間可以縮短100倍。

雷鋒網按：今日，由中國人工智能學會主辦的 2016 中國人工智能產業大會暨第六屆吳文俊人工智能科學技術獎頒獎盛典在深圳舉行。英特爾中國研究院院長宋繼強站在芯片供應商的角度為大家分享了他對人工智能的觀點。以下整理自演講內容，雷鋒網做了不改變原意的修改。

數據驅動人工智能的發展

英特爾宋繼強：2020年，要讓深度學習模型訓練時間縮短100倍｜2016 CAIIC

據第三方機構預測，到2020年會有500億的智能設備連入互聯網，這些智能設備會產生大量的數據，到2020年，僅一位互聯網用戶每日就能產生1.5GB的流量，而一家智慧工廠每天產生的數據更是高達1000000GB，當然，你完全不用為此感到驚慌，這些數據正是人工智能算法的基礎。

這些數據促使了我們有更好的數據去訓練人工智能的算法，同時這些數據也可以讓我們通過訓練好的人工智能算法，產生更大的增值價值，這也是為什么人工智能吸引了這么多的科研人員和企業，大家一起把資源貢獻出來。

宋繼強如是說。

數據是基礎，但擁有數據之后并不意味著你可以就此一勞永逸。在應用層，除了從各種渠道獲取的數據之外，處理和分析數據的能力也格外重要，通俗點說，就是有了數據你要知道怎么用。宋繼強認為，這其中的關鍵是端到端的集成。

智能終端的種類很多，它們采集來的數據種類很多，通常不是傳統的結構化數據，而是非結構化的數據，怎么樣能夠很好的利用云端和終端協同計算能力和它們之間無縫并且高速的傳輸能力、存儲能力，構建端到端的解決方案，構成一個良性循環。也就是采集了數據，做了處理，送到云端以后，在云端繼續分析它，去提取出中間有用的價值，并且能夠有一些是可以增值，讓終端更智能的再下發到終端，這樣一個反復的循環，是一個最優的途徑，這是我們深刻相信的未來的場景。

人工智能依然處于早期階段

人工智能從60年前被提出，到現在已經發展到了一個新的高度，人工智能已經逐漸融入到了人們的生活當中，不過在宋繼強看來，現在的人工智能并不成熟。“20年后再來看，歷史的發展長河里面，現在人工智能仍然處在一個早期階段。”

宋繼強給出了三個評價技術是否已經達到了成熟階段的標準：

第一，看它的應用是否已經普及到各行各業，還是你只在一小塊產業里去提供價值，所以一個是應用的廣泛度。
第二，是否已經有標準，不管是國家標準還是行業標準，是否已經有標準開始在制定和落地。
第三，是否已經有專用的硬件開始在市面上使用，而且第三點也是比較重要的，大家知道做硬件，第一個花錢，第二個周期長，產業沒起來之前，硬件廠商是不會鋪進去的。

英特爾聯合創始人Robert Noyce曾表示，“一直以來，我們通過計算機建模的方式來探究大腦如何工作。或許我們應該反其道而行之，為了探索計算機的未來發展方向，我們應該向大腦尋求答案。”宋繼強在大會上也表示，怎么利用我們在腦科學上得到的一些認知和新奇的想法，去促進計算機科學或者計算架構的發展，為這個領域提供更好的計算能力，這是業界需要考慮的。

英特爾宋繼強：2020年，要讓深度學習模型訓練時間縮短100倍｜2016 CAIIC

通常我們在做硬件的時候，必須要走這樣的過程。

宋繼強以深度學習舉了個例子：如果訓練出一個深度學習模型，直接變成一個硬件是不太可能的，而且也是低效的，高效的辦法是去分析這個模型，而且必須找到懂這個模型的人、懂為什么產生這種模型，然后把這個模型通過硬件的描述給描述出來，接下來是抽象出硬件中的數據流。這里會涉及到很多問題，數據是怎么流的？中間的流水線上有哪些重要處理模塊？它們各自的時間、帶寬要求是怎么樣？有哪些計算的原語？在這樣的基礎上，做硬件芯片就有很好的認識，我們能知道哪些放在硬件里面固化，哪些是去靈活使用，有了這樣的認知以后，就可以產生出一個針對這種工作，這種工作負載優化的硬件。

如果這個產業真的發展到了一個普及，那就需要專業模型，而不是在通用的芯片上做模擬。

英特爾做了什么？

雖然宋繼強在大會現場表示英特爾不是人工智能領域的專家，但英特爾近一年來在這一領域做出的投入并不少。他說，英特爾正在做的就是終端到云端的解決方案，例如中間的通訊鏈路、存儲等。

在云端方面，雷鋒網曾報道，今年11月英特爾推出了代號為Lake Crest的芯片，這是一款專門為深度學習定制的處理器。宋繼強在現場介紹了這款芯片的特點：第一，它里面的運算設計是為了深度學習量身定制，同時它的計算密度也非常高；第二，它突破了多節點之間數據訪問的瓶頸；第三，支持高速的內存，這個高速內存是使用HBM2的內存，直接封裝在一個芯片的。

這樣的設計意味著什么？

在做深度學習訓練的時候，即使你的模型、神經網絡的每一個節點里面既有計算也有數據，而且數據有的還是浮點的，希望是每個計算節點有自己的內存接口，這個要求還不是那么容易滿足，現在我們可以通過這個硬件技術支持到這一點，你有了這個支持，意味著我首先設計的模型，我在做很多算法訓練的時候，我的尺寸大小不受太大的限制。因為很多人在初始設計的時候不考慮功耗，不考慮代價成本，去做出來，但是這時候是需要允許你去做這么大模型的平臺的，同時IO增加，你也可以知道是多少增加。

英特爾宋繼強：2020年，要讓深度學習模型訓練時間縮短100倍｜2016 CAIIC

除此之外，在硬件方面，至強、至強融核的技術以及Arria FPGA也都是英特爾在人工智能硬件上不可或缺的產品線，這些人工智能的硬件和方案都屬于英特爾Nervana平臺的產品。

英特爾宋繼強：2020年，要讓深度學習模型訓練時間縮短100倍｜2016 CAIIC

反觀在算法的研究上，英特爾更多的是與學術界合作，合作的方向也是多元化的：如何加快訓練的速度，以及更好的利用少一些的數據和少一些的監督，來達到訓練的特性；怎么把大模型稀疏化和修剪，因為現在模型和參數非常多，但實際有用的卻寥寥無幾，這對存儲和計算會造成巨大的浪費，所以怎么做好大量模型的稀疏化，以提升效率；第三點是怎么支持更大規模的計算，例如在云端可以同時做運算，在每個節點用更高階的方法做處理。

毋庸置疑，這些技術可以大幅增加模型的并行化計算能力，而未來英特爾也將推出更先進的Knights Crest。宋繼強還透露了英特爾的一個小目標，到2020年，在英特爾軟硬件方案的集成下，深度學習模型的訓練時間可以縮短100倍。

英特爾宋繼強：2020年，要讓深度學習模型訓練時間縮短100倍｜2016 CAIIC

在數據爆發且對計算性能要求苛刻的時代，云端固然重要，但對實時性要求高的應用而言，終端的處理能力也不容忽視。今年9月，英特爾收購了視覺處理芯片商Movidius，這是英特爾在人工智能終端上布局的代表作。在宋繼強看來，終端嵌入AI是未來的一大趨勢，它有更高的能效、更低的寬帶需求、更低的延遲，而且對存儲的消耗更少，容錯連續性也更好。

英特爾宋繼強：2020年，要讓深度學習模型訓練時間縮短100倍｜2016 CAIIC