0
本文為 AI 研習社編譯的技術博客,原標題 :
25 Open-Source Machine Learning Repos to Inspire Your Next Project
作者 | Khoa Pham
翻譯 | 狒狒 校對 | 姚秀清
整理 | 菠蘿妹
原文鏈接:
https://heartbeat.fritz.ai/25-open-source-machine-learning-repos-to-inspire-your-next-project-3b027a90155
很有啟發性的25個開源機器學習項目
在過去幾年中,機器學習開辟了很多新的領域,出現了很多高級應用案例:Facebook的臉部識別、Netflix的電影推薦、PrimaAI的圖像風格轉移、Siri的語音識別、Google Allo的自然語言處理等等。
除了這些用例之外,GitHub上還有大量優秀的開源機器學習項目。以下列出了目前最受歡迎的項目。希望讀者能從中學到新東西,并受到啟發。
TensorFlow是一個用于研究和生產的開源機器學習庫。TensorFlow為初學者和專家提供了用于桌面、移動、web和云開發的API接口。
TensorFlow最初由谷歌大腦團隊開發,用于內部使用,2015年11月9日TensorFlow根據Apache 2.0開源許可協議進行正式對外發布。
最新版本的TensorFlow支持Keras,這是一種高級神經網絡API,用Python編寫,能夠基于TensorFlow、CNTK或Theano運行。還有支持Javascript和Swift的接口。
Scikit-learn最初是由David Cournapeau在夏季谷歌代碼活動上編寫的。它的名字或多或少參考了SciPy工具包。Scikit-learn擁有基于NumPy、SciPy和Matplotlib的簡單高效的數據挖掘和數據分析工具。因為它簡單易用,所以經常與TensorFlow一起配合使用。
除了TensorFlow、Keras和Scikit-learn之外,還有來自Apache的MXNet深度學習框架。 它是為效率和靈活性而設計的——它允許您混合使用符號和指令式編程來最大化效率和生產力??梢栽L問它的模型社區獲取更多采用MXNet的模型。
如果沒有提到PyTorch,這個列表就不完整了,PyTorch是機器學習愛好者的另一個流行選擇。 PyTorch基于Torch,由Facebook作為機器學習的框架而分發。 PyTorch是一個Python包,它提供了兩個高級特性:帶強GPU加速的張量計算(比如NumPy)和基于tape的autograd系統的深層神經網絡。
https://twitter.com/pytorch/status/966324198758006784
Magenta 是一個研究項目,探索機器學習在藝術和音樂創作過程中的作用。 這主要涉及開發新的深度學習和增強學習算法,以生成歌曲、圖像、繪圖和其他材料。 但這也是在構建智能工具和接口方面的探索,這些工具和接口允許藝術家和音樂家使用這些模型擴展(而不是替換!)他們的創作過程。
主要的repo采用Python語言,但針對Javascript語言也有magenta.js。 在展示先進的機器學習應用方面,Magenta 是一個完美的項目。我們大多數人從未想到過。若對 Magenta感興趣,可以使用聲音和繪圖生成器來查看一些演示。
這個項目旨在給線條藝術著色。人工智能可以根據給定的顏色風格在草圖上作畫,創建自己的顏色風格并在草圖上作畫,或者轉移另一個插圖的風格。
有一些新的功能,如圖像錨和圖像轉換,值得一看。
這個項目有兩個組件——cyclegan和pix2pix,它們包含用于非成對和成對圖像到圖像轉換的PyTorch實現。一開始,它看起來像另一個相當普通的風格轉換的解決方案,但它可以做一些不同的事情,比如把一匹馬轉換成斑馬,或者把現場照片轉換成莫奈風格的畫作。這個過程足夠快,可以在視頻直播中使用。
我們有一些用于圖像和視頻的樣式轉換工具,那么聲音呢?深度語音對話就是這種能力的一個完美案例。
如果你能模仿一位名人的聲音或者像一位著名歌手那樣唱歌呢?這個項目一開始的目標是將某人的聲音轉換為特定的目標聲音。這就是所謂的語音風格轉換。我們致力于這個項目,旨在將某人的聲音轉換為著名的英國女演員凱特溫斯萊特的聲音。我們實現了一個深度神經網絡來實現這一點,并且使用了超過2小時的由Kate Winslet朗讀的有聲書讀物作為數據集。
如果你還不相信,那就去SoundCloud,有很多Kate Winslet聲音的Demo。
StarGAN是這篇論文的一個PyTorch實現: 多區域圖像到圖像轉換的統一生成對抗性網絡。
它超越了樣式轉換,通過應用不同的發型、皮膚類型、年齡、性別和不同的情緒來轉換源圖像。非常棒。
這聽起來可能并不有趣,因為現在我們可以很容易地在iOS和Android上使用Core ML或ML Kit。但更深入的觀察顯示這是多么的棒。它不僅能識別人臉,還能識別情緒和性別。
實時人臉檢測和情感/性別分類使用fer2013/IMDB數據集與Keras CNN模型和OpenCV。
Uber AI Labs建立了這個深度概率軟件庫,以幫助簡化其交通服務的預測和優化。這個庫對于任何處理概率建模的人來說都很有興趣。
機會范圍從匹配乘客與司機,建議最佳路線,并到找到合理的資源池組合,甚至是創造下一代智能汽車。為了解決這些挑戰,我們將最先進的人工智能(AI)技術與擁有豐富專業知識的數據科學家、工程師和其他用戶相結合。我們正在探索一種工具優先的方法,使我們和其他人能夠創造出下一代人工智能解決方案。
作為Facebook研究項目的一部分,ParlAI是一個框架,用于訓練和評估各種基于公開可用對話數據集的人工智能模型。ParlAI使得研究人員可以訪問許多流行的數據集,同時擁有一個統一的框架來共享和測試對話模型。你可以在這里閱讀更多關于ParlAI的內容。
facet是可視化機器學習數據集的工具。
可視化實現為 Polymer web組件,由Typescript代碼支持,可以很容易地嵌入到Jupyter筆記本或網頁中。
可視化的關鍵方面是跨多個數據集的離群點檢測和分布比較。有趣的值(例如高比例的缺失數據,或者跨多個數據集的不同特性分布)用紅色突出顯示。
ELF是一個使用AlphaGoZero/AlphaZero重新實現的游戲研究平臺。ELF為游戲研究提供了端到端解決方案。它包括小型實時戰略游戲環境、并發模擬、基于數千臺機器的分布式訓練、直觀的api、基于web的可視化以及一個由PyTorch提供支持的強化學習框架。
Detectron是Facebook AI 研究部門的軟件系統,它實現了最先進的目標檢測算法,包括Mask R-CNN。它是用Python編寫的,并由Caffe2深度學習框架提供支持。
采用TensorFlow CNN實現,這可能是圖像風格轉換的最好例子之一,正如它的名字所暗示的,它的運行非???。實現了基于Gatys藝術風格的神經算法,Johnson對實時風格轉換和超分辨率的感知損失,以及Ulyanov的實例規范化。
這個工具為面部識別提供了簡單的api。它能發現面部特征,并能猜出照片中的人是誰。
使用dlib最先進的面部識別技術進行深度學習。該模型對自然環境中被標記的人臉的測試準確率為99.38%。 也提供了一個簡單的命令來進行執行面部識別。
face_recognition
命令行工具,允許您從命令行對圖像文件夾進行面部識別!
另一個極好的風格轉換項目。這個repo包含代碼和一篇研究論文:深度照片風格變換。它提供了簡單的api來處理合并樣式和源圖像。令人印象非常深刻的照片風格變換。
fastText 是一種高效學習詞匯表示和句子分類的庫。
為了更好地了解這個項目,可以查看他們的文本分類教程,該教程展示了如何在監督學習中使用這個庫。文本分類的目的是將文檔(如電子郵件、帖子、短信、產品評論等)分配給一個或多個類別。
AirSim是一個基于虛幻引擎來模擬無人機、汽車的應用。它是開源的,跨平臺的,它支持流行的飛行控制器硬件,如PX4用于物理和視覺的仿真。它是一個虛擬插件,可以簡單地放到任何你想要的不真實的環境中。
機器學習能做的比我們想象的更多。 Deep Image Prior ,它采用神經網絡修復圖像——但不需要學習。
這個工具可以恢復帶有刮痕,壞點,或不需要的文本標記損壞的圖像。
Open Pose 是第一個實時多人系統,可以在單個圖像上同時檢測人體、手、面部和腳的關鍵點(總共135個關鍵點)。它能探測到腳、身體、臉和手。
PirateAI在模擬環境(島嶼)中訓練自主個體(海盜)。 這個程序運行一個訓練管道,在游戲(尋找寶藏)和模型訓練(Keras + hyperopt)之間交替進行。
與這個列表中的許多項目相比,這是相當簡單的,但是它是學習神經網絡如何工作的一個很好的起點。 這個實現是純Swift的,沒有使用任何庫,而且很容易模仿。
Deep Exemplar-Based Colorization 是基于范例進行局部著色的第一個深度學習方法。 給定一個參考的彩色圖像,我們的卷積神經網絡直接將灰度圖像轉換成彩色圖像輸出。 這是論文“基于深度范例的色彩化”的應用。
謝謝你瀏覽這個列表。我希望你已經找到了一些能激勵和吸引你的東西。相對而言,機器學習剛剛起步,所以未來肯定會有更多有趣的新項目。這里有更多的資源供進一步探索:
GitHub Machine Learning Collection: 每天都能發現熱門機器學習項目
Awesome machine learning: 有一個關于所有事情的“令人驚訝的列表”——這個列表以機器學習為中心,它的管理令人印象深刻。
Fantastic machine learning: 這個列表主要是關于ML相關的核心項目。 雷鋒網雷鋒網雷鋒網
歡迎在Hacker News和Reddit上討論這篇文章
想要繼續查看該篇文章相關鏈接和參考文獻?
長按鏈接點擊打開或點擊【這25個開源機器學習項目,一般人我不告訴Ta】:
http://ai.yanxishe.com/page/TextTranslation/1122
AI研習社每日更新精彩內容,觀看更多精彩內容:
使用 SKIL 和 YOLO 構建產品級目標檢測系統
AI課程/書籍/視頻講座/論文精選大列表
如何極大效率地提高你訓練模型的速度?
數據科學家應當了解的五個統計基本概念:統計特征、概率分布、降維、過采樣/欠采樣、貝葉斯統計
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。