AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？

本文作者： skura

2019-09-21 14:46

導語：你怎么看？

近日，一個大型的新的 CT 腦數據集被發布，其目的是訓練模型來檢測顱內出血。由此，Luke Oakden-Rayner 寫了一篇名為《AI competitions don’t produce useful models》的博文，這篇文章在社交媒體上引發了激烈討論。

文章作者 Luke Oakden-Rayner 認為，AI 比賽不會催生在實際中可用的好的模型，其意義到底在哪里？”Luke Oakden-Rayner 的文章如下。

到目前為止，這個比賽的數據集看起來還不錯，盡管我還沒有詳細研究（魔鬼經常出現在細節中）。

該數據集是為一場競賽而發布的，和往常一樣，它在 Twitter 上掀起了一股友好的競爭風氣：

AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？

當然，這也引起了很多人的質疑。有人認為，比賽就像擲硬幣，全看運氣。只要有些人的模型和其他人相比更符合數據集，就可以獲得高分。

AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？

有人認為「既然有一個不變的測試集，你怎么能過度適合？」，也有人認為「所提出的解決方案決并不打算直接應用」。

隨著討論的進行，我意識到，雖然我們「都知道」競爭結果在臨床意義上有點可疑，但我從來沒有真正看到一個令人信服的解釋——為什么會這樣。

我希望通過這篇文章告訴你，為什么比賽并不能構建真正意義上有用的人工智能系統。

讓我們開始討論吧

AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？

辯論不是一件錯誤的事情

那么什么是醫學人工智能競賽呢？以下是一些選項：

讓團隊嘗試解決臨床問題
讓團隊探索如何解決問題并嘗試新的解決方案
讓團隊建立一個在競賽測試集中表現最好的模型
浪費時間

現在，我并沒有那么疲倦，我跳到最后一個選項（怎樣才能讓時間花得有價值是一個問題，臨床效用只是一個考慮因素）。

但前三個選項呢？這些模型是否適用于臨床任務，它們是否帶來了廣泛適用的解決方案和足夠的新穎性，或者它們只是在競賽中表現良好，而不是在現實世界中？

（劇透：我要為后者辯護）。

好的模型與壞的模型

我們是否應該期待這場競賽會產生好的模型？讓我們看看組織者怎么說。

AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？

酷！完全同意！缺乏大型、標記良好的數據集是構建有用的臨床人工智能的最大障礙，因此該數據集應該會有所幫助。

但是說數據集是有用的并不是說這個競賽會產生好的模型。

因此，為了定義我們的術語，我們假設一個好的模型是一個可以在沒有遇到過的數據上檢測出腦出血情況的模型（模型對數據沒有認知）。

與之相反，一個壞的模型指的是不能在未遇到的數據中檢測出腦出血的模型。

這些定義是沒有爭議的。我相信大賽組織者同意這些定義，他們更希望自己的參賽者構建出好的模型，而不是壞的模型。事實上，他們顯然是以一種旨在推廣優秀模型的方式來舉辦比賽的。

這還不夠。

Epi vs ML，戰斗！

AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？

如果學術上的爭論這么可愛就好了

ML101（這里擬人化了）告訴我們，控制過度擬合的方法是使用一個保持測試集，它里面是模型訓練期間沒有見過的數據。這模擬了醫生在臨床環境中看到新病人的情況。

ML101 還認為，保持數據只適用于對一個模型進行測試。如果你測試多個模型，那么即使你沒有將測試信息泄漏到你的開發過程中，你的最佳結果可能也只是一個異常值，它只是偶然地比你的最差結果好。

因此，如今的競賽組織者只會制作出具有持久性的測試集，并且只允許每個團隊在數據上運行他們的模型一次。在 ML101 看來，這樣問題就解決了。獲勝者只測試了一次，所以沒有理由認為他們的模型是靠著異常情況得到這個結果的，他們有最好的模型。

別那么快，伙計。

讓我給你介紹一下 Epidemiology 101，他聲稱自己有一枚神奇的硬幣。

AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？

Epi101 告訴你擲硬幣 10 次。如果你得到 8 個或更多的人頭，這就證實了硬幣是魔法（雖然這個斷言顯然是胡說八道，但你還會跟著玩，因為你知道 8/10 人頭等于一個公平硬幣的 p 值<0.05，所以它一定是合法的）。

AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？

在你不知道的情況下，Epi101 對另外 99 個人做了同樣的事情，所有人都認為他們是唯一一個測試硬幣的人。你認為接下來會發生什么？

如果硬幣是完全正常的，而不是魔法，大約 5 個人會發現硬幣是特別的。這看起來似乎很明顯，但要從個人的角度來考慮——這 5 個人都只做了一次測試。根據他們的說法，他們有統計上顯著的證據表明他們持有一枚「魔法」硬幣。

現在想象一下你不是在擲硬幣。假設你們都在一個競賽測試集中運行一個模型。與其懷疑你的硬幣是不是魔法，你反而希望你的模型是最好的，因為這將為你贏得 25000 美元。

當然，你只能提交一個模型。如果多余一個，那就是作弊。其中一個模型可以表現得很好，這相當于擲一個公平的硬幣得到 8 個人頭，只是一個偶然事件。

AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？

多重假設檢驗

當然，我們在 Epi101 硬幣上看到的效果也適用于我們的競賽。由于隨機性，有些模型的性能會優于其他模型，即使實際上它們都是一樣好的。從數學上來看，到底是一個團隊測試了 100 個模型還是 100 個團隊并不重要。

即使某些模型在某種意義上比其他模型要好，除非你真的相信贏家是唯一能夠使用 ML-wizard 的，否則你必須接受，至少其他一些參與者會取得類似的結果，因此冠軍能夠獲勝只是因為他們運氣好。真正的「最佳表現」將在某個地方重新出現，可能高于平均水平，但低于勝利者。

AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？

Epi101 提到，這種效應被稱為多重假設檢驗。在競賽中，你會有很多假設——每個參與者都比其他所有人都好。對于 100 個參與者，有 100 個假設。

其中一個獨立的假設可能會告訴我們有一個具有統計學意義的贏家（p<0.05）。但綜合來看，即使獲勝者的計算「獲勝」p 值小于 0.05，也并不意味著我們只有 5% 的機會做出不合理的決定。事實上，如果這是硬幣翻轉（這個更容易計算，但不是完全不同）游戲，我們將有超過 99% 的機會出現一個或多個人會「贏」，并擲出了 8 個人頭的情況！

這就是人工智能競賽的贏家：一個在擲硬幣時碰巧得到 8 個人頭的人。

有趣的是，雖然 ML101 非常清楚，運行 100 個模型，選擇效果最好的一個將導致過度適合，但是他們很少討論這種「過度擬合的人群」。當你意識到幾乎所有的 ML 研究都是對經過對公共數據集進行過度測試得到的，你會覺得這一點非常奇怪……

那么我們如何處理多重假設檢驗呢？一切都歸結于問題的原因，那就是數據。Epi101 告訴我們，任何測試集都是目標群體的有偏版本。在這種情況下，目標人群是「所有 CT 頭部成像的患者，有或沒有顱內出血」。讓我們來看看這種偏差是如何產生的，舉一個假設人口很少的演示例子：

AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？

在這個人群中，我們有相當合理的「臨床」病例組合。腦內出血 3 例（可能與高血壓或中風有關），外傷性出血 2 例（右側硬膜下出血，左側硬膜外出血）。

現在，讓我們對這個總體進行采樣，以構建我們的測試集：

AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？

隨機地，我們最終會有大部分額外的軸（大腦本身以外）出血。一個在這個測試中表現良好的模型不一定能在真實的病人身上發揮作用。事實上，你可能會期待一個模型，它真正擅長識別軸外出血。

但 Epi101 不僅指出了問題，他還給出了一個解決方案。

如此強大

只有一種方法可以得到一個無偏的測試集——如果測試集包括了整個人群！這樣的話，無論哪種模式在測試中表現良好，它在實踐中也會是最好的，因為你在所有可能的未來患者身上都測試了它（這看起來很困難）。

這就引出了一個非常簡單的想法——隨著測試集的增大，測試結果變得更加可靠。我們實際上可以預測測試集是如何使用功率計算的。

AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？

這些是功率曲線。如果你粗略地了解你的「勝出」模型比下一個最佳模型要好多少，你可以估計你需要多少個測試用例才能可靠地證明它是更好的。

所以要想知道你的模型是否比競爭對手好 10%，你需要大約 300 個測試用例。您也可以看到，隨著模型之間的差異越來越小，所需病例的數量呈指數增長。

我們把這個付諸實踐吧。如果我們看看另一個醫學人工智能競賽，即 SIIM-ACR 氣胸分割挑戰賽，我們會發現在排行榜的頂端，骰子得分（介于 0 和 1 之間）的差異可以忽略不計。請記住，這個比賽有 3200 個案例（這是大概的，他們對骰子分數的貢獻并不都一樣）。

AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？

所以前兩名之間的差值是 0.0014… 讓我們把它扔進一個樣本量計算器。

AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？

好的，為了顯示這兩個結果之間的顯著差異，您需要 92 萬個病例。

但為什么停在那里？我們甚至還沒有討論多重假設檢驗。即便只有一個假設，只有兩個參與者，就需要這么多的案例。

如果我們看看排行榜，有 351 支隊伍提交了意見。規則規定他們可以提交兩個模型，所以我們不妨假設至少有 500 個測試。這肯定會產生一些異常值，就像 500 人擲硬幣一樣。

Epi101 就像緊急救護一樣。多重假設檢驗在醫學上非常普遍，特別是在基因組學等「大數據」領域。在過去的幾十年里，我們一直在學習如何處理這個問題。處理這個問題最簡單可靠的方法叫做 Bonferroni 校正。

Bonferroni 校正非常簡單：將 p 值除以測試次數，以找到一個「統計顯著性閾值」，該閾值已針對所有這些額外的硬幣翻轉進行了調整。在這種情況下，我們做 0.05/500。我們的新 p 值目標是 0.0001，任何比這更差的結果都將被視為支持零假設（即競爭對手在測試集上的表現同樣出色）。我們把它插到我們的功率計算器上。

AI 競賽沒有意義，模型實際不可用，冠軍全憑運氣？