關于應用機器學習作為搜索問題的入門簡介

本文作者： AI研習社-譯站

2018-01-02 14:51

導語：機器學習的應用可以理解為一個搜索問題，即根據某個項目的已知信息和可獲取的資源，找到從輸入到輸出的最好的映射

應用機器學習很具挑戰性，因為設計完美的學習系統相當困難。

一個問題永遠沒有最好的訓練數據集或者最好的算法，最好的只能是目之所及。

機器學習的應用可以理解為一個搜索問題，即根據某個項目的已知信息和可獲取的資源，找到從輸入到輸出的最好的映射。在本文你即將看到把應用機器學習當作搜索問題的概念。

閱讀完雷鋒網本譯文你會了解到：

1.應用機器學習是一個逼近未知映射（輸入到輸出）函數的問題。
2.設計上的某些決定比如數據和算法的選擇局限了映射函數的選擇。
3.機器學習的搜索概念化有助于合理地選擇集成算法，算法的查驗以及理解算法在學習的過程。

現在一起來看下吧

關于應用機器學習作為搜索問題的入門簡介

概述

本文分為5部分，分別是：

1.函數近似問題
2.搜索里的函數近似
3.數據的選擇
4.算法的選擇
5.機器學習作為搜索的影響

函數近似問題

應用機器學習是一種學習系統的發展，目的是為解決具體的學習問題。

學習問題指有可觀察的輸入和輸出，并且二者存在某種未知但內在的關系。

學習系統的目的是學習輸入與輸出之間可推廣普遍適用的映射，從而可以從同一問題領域內的新輸入數據里預測輸出。

從統計學習，即統計角度下的機器學習，這個問題可以定義為求解給定輸入X和對應的輸出y之間的映射函數f。

y = f(X)

我們有X和y，目的是盡最大可能得到這樣一個函數fprime，可以使得在給定新數據Xhat的情況下，得到的預測結果yhat接近真實輸出。

yhat = fprime(Xhat)

由此而見應用機器學習可以被看作函數近似的問題。

關于應用機器學習作為搜索問題的入門簡介

習得的映射一定不會完美。

設計和建立這樣的學習系統實際上是尋找潛在而未知的從輸入變量到輸出變量之間的映射函數。

我們不知道這個函數的具體形式，因為如果我們知道就不必去找了，直接用它解決問題就可以了。

正因為我們不知道真正的底層函數，我們必須采用逼近的方法，這也意味著我們不知道而且可能永遠不知道我們距離那個真正的映射函數有多遠。

搜索里的函數近似

我們需要根據實際的問題和目標找到那個足夠近似的映射函數。

然而實際學習過程里很多噪音導致錯誤，這使得學習變得更加挑戰，而結果找到的目標函數差強人意。比如：

問題定義的選擇
訓練數據集的選擇
訓練數據集的準備（清洗，處理等）的選擇
預測模型的表達形式的選擇
算法的選擇（模型比較好地契合訓練集）
預測模型的評估

以及更多其他因素。

可以看到在學習過程中有很多決策點（決策的關鍵點），但是它們在此之前都是未知的。

你可以把學習系統的學習當做一個很大的搜索空間，每個決策點都幫助減少搜索的范圍。

關于應用機器學習作為搜索問題的入門簡介

舉個例子，如果學習問題是預測花朵的種類，那么你可以減少搜索的范圍：

選擇定義問題為預測花的種類，如分類
選擇某種類以及類屬種類的花的測量方式
選擇某個具體的花棚里的花作為訓練樣本
選擇決策樹模型，因為該模型解釋度高
選擇CART算法來契合決策樹
選擇分類準確率作為評估標準

也許你會發現建立學習系統的眾多決策中有自然的層級式關系，其中每個決策都有助于減少搜索空間。

搜索空間的減少實際上引入了有益的偏差，它會有意選擇那些更可能靠近底層映射函數的學習系統。偏差即在高層定義函數的時候發揮用處，同時也在底層算法以及其配置問題上有幫助。

數據的選擇

機器學習問題的架構選擇和用于訓練系統的數據是學習系統開發中的一個重要因素。

你無法一開始就能獲取所有的數據：即所有輸入和與之對應的輸出。如果你已經有了全部的數據，那么也就不需要預測模型就能對新的輸入觀測值進行輸出預測了。

你肯定會有一些輸入輸出組的歷史記錄。如果沒有，那你就沒有任何數據來訓練你的預測模型。

也許你有很多數據，但你只需要選擇其中的一部分用來訓練學習系統。或者，也許你可以隨意生成數據，而挑戰在于生成或收集什么數據以及要生成多少數據。

選擇用來對學習系統建模的數據必須能夠充分地俘獲輸入和輸出數據之間的關系。這些數據既包括現有的數據，也包括預測模型將要預測的數據。

關于應用機器學習作為搜索問題的入門簡介

算法的選擇

您必須選擇模型的表示形式和用于在訓練數據上擬合模型的算法。這是影響學習系統發展的另一個重要因素。

關于應用機器學習作為搜索問題的入門簡介

項目的利益相關人員對項目施加約束是很常見的，例如模型要能夠解釋預測，而這反過來又對最終模型的表示形式，以及你可以搜索的映射范圍施加了約束。但是，這個決策通常被簡化為對算法的選擇。

關于應用機器學習作為搜索問題的入門簡介

機器學習作為搜索的意義

這種將學習系統的開發概念化為搜索問題有助于闡明應用機器學習中的許多相關方面，本節將討論其中幾個方面。

迭代學習算法

用于學習映射的算法將施加進一步的約束，它與所選擇的算法配置一起，將在模型擬合后控制如何引導可能的候選映射空間（例如機器學習算法中的迭代學習）。

在此，我們可以看到，機器學習算法從訓練數據中學習的行為實際上有望引導學習系統可能的映射空間從差到好，逐漸優化（如爬山算法）。

關于應用機器學習作為搜索問題的入門簡介

集成的理論基礎

我們也可以看到不同的模型表示在所有可能的函數映射的空間中占據著完全不同的位置，而在進行預測時（例如不相關的預測誤差）又有著完全不同的行為。

這為集成學習方法提供了一個概念性的理論基礎。集成學習結合了多種巧妙的預測模型的預測結果。

關于應用機器學習作為搜索問題的入門簡介

抽樣檢查理論

具有不同表示方式的不同算法可以從可能函數映射空間中的不同位置開始，并以不同的方式引導該空間。

如果這些算法引導的約束空間都是由合適的架構所限定，而且有良好的數據，那么大部分的算法都可能會發現良好而且相似的映射函數。

我們還可以看到，如果有一個好的架構和精心挑選的訓練數據，那么通過現代強大的機器學習算法就可以開辟一個候選映射空間。

這為在給定的機器學習問題上對一套算法進行抽樣檢查有助于找到最優或選擇最省的結果（例如奧卡姆剃刀理論）提供了理論基礎。

延伸閱讀

如果您想深入研究的話，本節將提供更多關于該主題的資源。

Chapter 2, Machine Learning, 1997.
Generalization as Search, 1982.
Chapter 1, Data Mining: Practical Machine Learning Tools and Techniques, 2016.
On algorithm selection, with an application to combinatorial search problems, 2012.
Algorithm Selection on Wikipedia

總結

在雷鋒網這篇譯文中，您掌握了作為搜索問題的應用機器學習的概念。具體來說，你學習了：