2
| 本文作者: 朱赟 | 2016-06-15 11:32 |
雷鋒網按:本文作者朱赟,Airbnb資深美女程序媛一枚(友情提示:頭像即真人)。

(圖:Emily Cheng 手繪,Airbnb 程序媛,我的鄰座)
硅谷的大部分公司,都有很多的Data Scientist,簡稱 DS,不知道國內是不是叫數據科學家。
前幾天 InfoQ 的網站上發布了一篇文章《Airbnb支付平臺如何進行異常檢測》,翻譯的是 Airbnb 公司博客上的一篇英文原文。
這篇文章講的是 Airbnb 的一個異常探測系統:
Airbnb為全球190個國家提供服務,支持多種貨幣類型。大部分情況下,支付系統會成功支付,但有時會出現暫歇性故障,比如,某些貨幣不能處理或者支付渠道不可訪問。為了能夠盡可能快的捕捉到這些故障信息,公司的數據團隊開發了一個實時的異常檢測系統來甄別這些問題。這個異常檢測系統可以很好的幫助產品團隊定位問題,也讓數據分析師能騰出更多的時間來做其它工作,比如,新的付費方式或者產品上線的A/B 測試、定價或者價格預測和構建機器學習模型來做個性化推薦。
注:InfoQ 作為 IT 媒體界的翹首,在規范翻譯英文博客的流程上起了一個很好的表率。首先就翻譯的準確性來說,InfoQ 網站上的翻譯總的來說質量是很高的,也有專人校對。此外,我知道他們翻譯的文章是聯系授權的,就說這一篇,也是得到了 Aribnb 的 eng 部門和 PR 部門首肯的。在此對 InfoQ 對知識產權的尊重表示一下個人小小的敬意。
這個異常檢測系統我們現在仍然是在使用的,不過略有進一步的改進和完善。英文原文是我們組的一位 Data Scientist 陸競驍寫的。發布之后,也有幾個朋友私下問了一些細節問題,比如:“這樣的系統是怎么從無到有做出來的?” “需要什么樣的人來做?” 等等。所以今天就大概聊聊公司對 Data Scientist 的技能要求以及平時工作的一些大概內容吧。
順便提一句,Twitter 其實也有一個類似的異常檢測系統的基于R語言的開源包 。和我們的主要區別在于對于 seasonality 的處理。Airbnb 使用 FFT 模型來模擬 seasonality 的方式可能使用起來更加靈活一些。有興趣的可以下載 Twitter 的開源包,然后根據自己的需求做類似的系統。我們的系統目前還沒有開源。
在一般的互聯網公司,DS 的工作可能包括(卻不止于)下面四類:
構建 Dashboard。這在有些公司是由 Business Intelligence(BI)來做的。主要是使用一些統計工具和畫圖工具來用創建 Dashboard,使得關鍵的 metrics 和信息可以一目了然的表示出來。并將一些數據之間錯綜復雜的聯系用最直觀的方式,為公司別的員工展示。讓包括 PM、經理等人員對于公司各個層次、各個方向的信息有更準確的了解。
和數據工程師一起采集和清理數據,構建數據管道。這包括使用各種腳本語言(如 Python),寫一些程序,獲取需要的數據,并對數據進行一定的處理。
機器學習方向的數據科學家和機器學習方向的軟件工程師一起構建機器學習模型。并一起對學習的結果進行分析,和參與到參數和模型的調整中。
各種數據分析。包括對 A/B 測試的結果的統計分析。A/B 測試可能在很多公司的使用和機器學習差不多的廣泛了。簡單有效,尤其適合面向用戶的產品特性或者 UI 方面的決策選取。方法很簡單,將一個產品的兩種/多種設計隨機均等地推送給不同的用戶組,根據用戶的使用反饋回來的數據的分析,快速有效地決定哪一種設計更優?;蛘哒f哪一種設計針對不同的人群和場景更優。這些結果有時甚至會與設計時的直覺判斷相悖。但是當采樣范圍和數據累積均達到一定的程度時,提供的結果還是相當有說服力的。
大都 DS 都是來自于數學和統計專業。然而也有很多來自物理、機械工程、金融等專業。相對而言,DS 比碼工的平均學歷要高,也就是碩士博士的比例更大一些。
知乎日報上《如何成為一名數據科學家?》一文中提到:
數據科學(Data Science)是從數據中提取知識的研究,關鍵是科學。數據科學集成了多種領域的不同元素,包括信號處理,數學,概率模型技術和理論,機器學習,計算機編程,統計學,數據工程,模式識別和學習,可視化,不確定性建模,數據倉庫,以及從數據中析取規律和產品的高性能計算。數據科學并不局限于大數據,但是數據量的擴大誠然使得數據科學的地位越發重要。
數據科學的從業者被稱為數據科學家。數據科學家通過精深的專業知識在某些科學學科解決復雜的數據問題。不遠的將來,數據科學家們需要精通一門、兩門甚至多門學科,同時使用數學,統計學和計算機科學的生產要素展開工作。所以數據科學家就如同一個team。
曾經投資過 Facebook,LinkedIn 的格雷洛克風險投資公司把數據科學家描述成“能夠管理和洞察數據的人”。在 IBM 的網站上,數據科學家的角色被形容成“一半分析師,一半藝術家”。他們代表了商業或數據分析這個角色的一個進化。
其實除了金融等領域對 DS 的技術背景有著上面的嚴格的要求,很多互聯網公司如 Square、Airbnb、Facebook 等對于技術背景達到一定的水準后,更看重的其實是另外一些軟技能,如:
對數據的敏感性。能不能將數據里隱藏的信息通過建模等的方式找到并加以驗證。
和各種非 DS 的溝通能力。Data Scientest 通常都是分配到組里的,需要和產品經理、工程師等很緊密的合作。協調組員之間的信息傳遞,將一個數據驅動的測試方案執行出來,都是一個優秀的 DS 應該具備的素質。
數據的可視化表示。知道怎樣選取最有效的方式,將數據中的信息準確明了的表示出來。
對數據和公司核心 Metrics 之間的依賴性、相關性能做出準確的分析。這樣才能有助于提出更有利于提高公司 Metrics 的方案。
這也是為什么很多硅谷的公司在招 DS 的時候,更愿意招有工作經驗的 DS,很多中小公司甚至干脆不招畢業生。而因為各種數據生成的 dashboard, 更是公司高層做決定的一些主要依據。
這個問題我的數據不夠,不好以偏概全的來誤導。不過倒是讓我想起來另外一件事。
大家經??吹?LinkedIn、GlassDoor 等網站對各個職業的平均水平進行統計。我和我的一些朋友覺得,這些數據其實是很 bias 的,而且基本可以說是偏低的。為什么這么說呢?我猜有兩個原因。第一,剛入職場的人更喜歡參與這樣的統計調查。而比較 Senior 的人,其實幾乎沒有人或者很少有人去參與這樣的調查。第二,很多高工資的公司參與這樣的統計調查的人要相對較少。我為什么這么猜?只是從我認識的人提起這樣的一些統計數據都覺得比實際情況偏低推測的。不用跟我爭辯,我只是說出我的觀點,信不信由你。
沒啥可說的了:可信的數據、靠譜的解讀,是做出正確判斷的重要基礎。
所以對于很多公司而言,招到優秀的 Data Scientest,其實和招到優秀的軟件工程師一樣重要。
而一個公司在多大程度上由數據驅動,看看他們 Data Scientist 與工程師的比例,也就大概有個譜了。
雷鋒網注:題圖來自ju.outofmemory.cn。轉載本文請聯系授權并保留完整信息,注明出處和作者,不得修改文章。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。