騰訊的大數據方法論：修煉十五年，一身煙火氣

本文作者：周蕾

2023-03-27 11:35

導語：為何“吃自己狗糧”，能讓騰訊離To B的真實更近一步？

在與騰訊云大數據團隊見面前五分鐘，我們來到團隊所在的辦公室，這里有一扇朝南的落地窗，正好將騰訊大廈的全貌和周邊的車水馬龍盡收眼底。

這副畫面，某種程度上暗合了我們對騰訊云大數據的定位：一個巧妙的觀察窗。

從這個窗口望出去，我們可以覺察到，騰訊云大數據的“三級跳”式發展：

第一級，是騰訊十余年海量業務的錘煉下，騰訊云大數據不斷自我進化，成為保障集團在大江大河中穩步前行的“大心臟”。

第二級，是騰訊開源協同戰略過程中，通過Oteam等組織和流程的設計，大數據完成技術層的穿透對齊。散落在集團內部的各種大數據相關的工作，自此歸整合一，成功轉化為對外賦能的底氣和實力。

第三級，是騰訊云大數據在前兩級的基礎上，逐漸打磨出了自己的完善產品矩陣和成熟標桿案例，一定程度上將騰訊助力數實融合的能力具象化，更清晰呈現于世人面前。

騰訊云大數據這個觀察窗，可以觀照騰訊內部技術和組織層面的革新，更能清晰看到騰訊如何由內向外地延伸自己的能力邊界，幫助企業在數據的無邊之海中，建起一座通往創新彼岸的橋。

它也由此成為了一個樣本，在討論企業數字化和賦能產業互聯網的當下，頗具參考意義。

一顆已經跳動十五年的“大心臟”

事實上，騰訊大數據的十五年演進道路，沒有刻意的提前規劃、頂層設計。始終遵循的原則，就是貼著業務而行。

大數據雛形漸顯的時間點，可以追溯到2006-2007年間的騰訊。

“當時已經有數據分析報表給到Pony（馬化騰）、Martin（劉熾平）這一層，每天都會發封郵件告訴他們業務關鍵指標如何?！彬v訊云副總裁劉煜宏回憶道。

第一階段：離線計算時代

劉煜宏2005年加盟騰訊，是現在的騰訊大數據平臺負責人，親歷了騰訊的大數據成長全過程。他回憶稱，騰訊的大數據在2008年左右，突然遭遇了業務膨脹的巨大挑戰，QQ、游戲、財付通等業務多頭并進。

特別是QQ農場異軍突起，業務爆發式增長，把傳統的數倉體系壓垮，“經常要做交叉分析，業務量一大，系統就出現瓶頸了?！?/p>

自建大數據平臺，并且把業務從Oracle平滑遷移到新平臺上，成為當時大數據團隊的頭號任務。

盡管當時還是PC互聯網，各種數據指標和維度不如現在精細，但要知道，那時候騰訊已經有好些上十億、上百億量級的業務了，例如大家所熟知的QZone（QQ空間），遷移難度可想而知。

劉煜宏還記得，QQ藍鉆是第一個遷移到新平臺上的重量級業務，大數據團隊心理壓力不小，派了不少人陪著藍鉆業務的數據分析師，兩撥人排排坐，一起目睹業務腳本一個個遷到“新家”——所幸一切順利，任務順利完成。

可以說，2009-2011年是騰訊大數據的起步期。在這一階段，騰訊開始轉向構建以Hadoop為核心的離線計算體系，第一代大數據平臺由此誕生，完成了從關系型數據庫到自建大數據平臺的全面遷移。

第二階段：實時計算時代

但團隊很快發現，剛降生不久的第一代平臺，又趕不上騰訊高歌猛進的業務增速了。

管理層已經不再滿足于之前按天匯報經營數據的模式：“比如一個游戲上線新版本，才發布一個小時，老板們就會問到最新的運營數據?！?/p>

但那時候的騰訊，數據統計基本都是T+1的，得等到晚上12點自動生成文件，再從業務組、業務部門、事業群一層層向上匯總，再規整到TEG的數據平臺部。這種按天的集中式數據傳輸，占用了不少帶寬資源，成本和時效性都成問題。

與此同時，移動互聯網逐漸接棒PC互聯網，騰訊面臨的內部需求和外部趨勢，都說明了這一階段的大數據任務關鍵詞已經變成了“實時”。

因此，在2011-2012年左右，騰訊的大數據從離線計算逐漸切換至實時計算階段，從Hadoop轉向以Spark、Storm為核心進行流式計算，從之前的天、小時、分鐘邁進到秒級、毫秒級的時代，開始支持在線分析和實時計算場景。

第三階段：智能化時代

騰訊的發展之快，很快讓業務部門在統計、監控和簡單的模型計算之外，又有了新的想法：看數據不僅要“快速”，還得“非常聰明”。

“各個業務對數據的挖掘越來越深入，比如內部的廣告、推薦業務，做用戶畫像、特征分析的需求，已經得不到滿足了?！?/p>

因此這一階段的騰訊大數據，主要完成了從數據分析到數據挖掘的轉變，也就是「智能化」。

分布式機器學習引擎 Angel 和一站式 AI 開發平臺智能鈦 TI，都是在這一階段被自主研發出來，專攻復雜計算場景，可進行大規模的數據訓練，支撐內容推薦、廣告推薦等 AI 應用場景。

劉煜宏透露，事實上他們并沒有刻意設計過每一代的目標和路徑，但他們回顧總結后注意到，離線計算、實時計算、機器學習+深度學習，可以看做是騰訊云大數據的三個階段性特征，而第四代大數據平臺，已經在向一體化、智能、安全、云原生的方向演進。

這時，命運的時針正好來到2018年。

從大數據出發：騰訊的內部融合之道

2018這一年，在不同層面上來說，都是騰訊的分水嶺。

這一年，第四代大數據平臺逐漸成形，新的發展方向已經呈現在大數據團隊眼前。

也是在這一年，930變革橫空出世，開源協同和自研上云兩大戰略，吹響推進的號角。一場集騰訊全公司之力的世紀工程就此開始。

開源協同很多時候被描述為代碼協同，但其實遠不至于此。據騰訊云CTO王慧星回憶，TEG（技術工程事業群）總裁盧山建議，大數據、存儲、計算等方面的PaaS服務也應當以統一的公有云形式建設，而非業務團隊自行建設和管理。盧山認為，這樣的技術能力應該以產品化形式在云上對所有事業群提供服務。

PaaS協同工作里，大數據是非常重要的一個賽道。劉煜宏告訴我們，在推進大數據協同過程中，有十幾個相關Oteam（騰訊內部公司級跨團隊協同小組）在齊頭并進。

這十幾個Oteam做的事情，跟騰訊云大數據后來的日子有何關系？

我們都知道，互聯網巨頭的To B路徑通常是這樣的：早年間自身業務錘煉，沉淀眾多經驗，隨后對外賦能。

騰訊云大數據確實也是如此，但其特別之處就在于這一步協同工作，對“沉淀”這個步驟意義非凡：散落在騰訊內部的各種大數據相關工作，順利通過PaaS協同工程而歸整起來。

這意味著，大數據團隊可以最大程度地“利用”好騰訊自身的條件，穿透式體會到自家業務場景之復雜，需求之艱難，因此積攢下來的解決方案和服務經驗，是相當豐富的。

一般企業構建大數據體系時，會遭遇眾多問題，例如組件繁多、選型困難，或者自建大數據后運維成本巨大，又或者是有安全方面的考慮——但這些問題，很多已經在Oteam里被集中討論和解決過了。

換言之，騰訊云大數據對外提供的不少能力，是真正在騰訊內部，被各式各樣業務反復“敲打”過的。

究竟Oteam是怎么幫忙，將散落集團各個角落的大數據工作給規整起來的？

例如在集團內部，不同事業群的各個部門都有使用Spark的需求，他們就會各自派出一名代表，組建Oteam。Oteam內部運作類似開源社區，公司內部所有開發同學都可自愿加入，各部門會提出自己需要的特性，匯總在一起，再循序漸進地整合開發。

參與者可主動擔任Oteam的leader，但這里的leader不光是字面意義上的領導，更是這一項目的牽頭者和兜底者，要負責把集團內部有關Spark的需求全都實現，也要做到競賽中業內數一數二的水平。

騰訊云大數據基礎中心副總經理張昆也告訴我們，公有云上不少成熟的大數據產品，就是開源協同的直接受益者，例如數據治理開發平臺WeData，數據集成服務InLong等等。

從大數據身上，我們可以看到騰訊To B產品的一種輸出范式：內部較成熟的代碼通過Oteam沉淀，或者服務也通過協同工作沉淀下來，做到產品化，內部業務先上線使用，錘煉好產品再給到外部客戶。

互聯網大廠在服務B端客戶時，通常會被問到自家的核心業務是否已經采用相關產品，倘若不能給出肯定的答案，產品的說服力立馬就會大打折扣。而新產品讓內部業務先試用，這一步在騰訊內部，被稱為“吃自己狗糧”。

在“吃狗糧”的過程中，往往會遇到各種各樣的bug，有一些甚至對業務的收入和用戶體驗有影響，但是業務同事在這個過程中，對底層平臺給出的不僅有高要求、高標準，也有高度的善意和信任。

劉煜宏回憶道，此前一次項目中，騰訊內部支付要選用騰訊云大數據的數據倉庫，但他和團隊都心里打鼓：支付這類業務屬于金融級，要求之高不言而喻?！疤拱字v，當時做了一段時間，壓力實在很大，我們都不太敢保證能一定做好?！?/p>

但支付的兄弟們卻反過來寬慰他們：“沒關系，可以用，我們在業務層給你們打配合?！?/p>

甚至還有一次，在騰訊云大數據還沒有開發出成形產品的時候，支付部門主動拉著劉煜宏不撒手：“Ehome（劉的英文名），你們一定要支持我們這個需求，要多少人手一起開發、需要業務怎么配合，盡管說，我們一起來做到五個九的標準?！?/p>

類似這樣的，來自業務部門身體力行的支持，不止一次地出現在大數據團隊的周圍。他感慨，這與騰訊歷來的開放、創新文化有關，“做互聯網業務出身的，都是久經考驗，從一次次不穩定的年代走過來，身經百戰之后，也自然對新事物有著更高的包容和更踴躍的嘗試?！?/p>

在騰訊內部，由此逐漸形成有關大數據的成熟案例和最佳實踐。

那么，對于騰訊云大數據而言，究竟什么時候這些經驗才適合正式開放，才算是迎來商業化輸出的黎明？

數實融合路上的“雙向奔赴”

一款產品什么時候會推出市場，喊出那聲“Ready——Go”？

騰訊云大數據告訴我們，這些產品正式面世的唯一標準，始終是：在騰訊內部已經投入使用，受過騰訊自身海量業務驗證，有過成熟案例或最佳實踐。

張昆補充道，有時他們在競品分析，或者外部簽單調研的過程中，會察覺到市場有相關訴求，又或者會收到客戶的主動聯系和問詢，這也會推動他們考慮產品商業化的進度。

值得一提的是，眼下千行百業的數字化轉型需求，和對大數據的理解，早已不是從前那樣一片荒蕪一字不識、還需要從零開始市場教育的階段了。

不少客戶已經有了一定的判斷和選型能力，主動選擇與優秀的大數據廠商合作。騰訊云大數據也因此與不少行業頭部企業形成了一場場“雙向奔赴”。

百果園，便是其中的一個典型例子。

“那時候我們也比較主動，直接就選擇了騰訊云開展合作。”百果園集團副總裁、負責科技版塊的徐永劍回憶道。

而騰訊云大數據在當時，也同步注意到了百果園在數字化轉型中，對大數據的場景需求，兩家同樣誕生于深圳這座城市的企業，一拍即合。

2016年正式推出電商平臺的百果園，其實不只是一家連鎖生鮮零售企業，在五千多家門店背后，百果園走的是一條“全產業鏈經營”的道路，即從種植前端一直覆蓋到零售終端。

雷峰網(公眾號：雷峰網)從徐永劍處了解到，百果園為此陸陸續續上線了一百多個系統，完成了初步的信息化覆蓋之后，從2018年開始做數字化升級，著重于數據資產的實際應用和價值挖掘。

也是在這一階段，百果園進入到自己的數據中臺綜合化改造，騰訊云大數據也在此時正式切入，在經歷兩三個月的前期調研需求、討論方案以及任務拆解之后，啟動建設百果園的全域數據中心。

一顆果子，從發芽開花，到成熟摘下，一路顛簸登上門店的貨架，再踏進萬戶千家，這當中要歷經多少顛沛流離，這個數據中心的“全域”二字就有多少廣闊和復雜。

騰訊云架構師楊志偉分析稱，將這個全域數據中心的需求進一步拆解、落到實處，可以理解為多業務、多形態、多場景的數據整合，并同時服務差異化較大的各條業務線。

基于此，他們為百果園搭建了一套包含彈性計算MapReduce（EMR）、云數據倉庫CDW、數據治理平臺WeData和可視化BI（商業智能）在內的體系化解決方案，覆蓋了從數據采集、存儲、計算、分析、可視化等數據處理全鏈路解決方案，在經營決策、門店管理、店鋪選址和供應鏈管理4個重點環節，幫助百果園實現了全鏈路數據化運營與決策。

百果園集團旗下數聯科技的技術專家付春告訴我們，“零售企業的特點之一就是規模大，意味著人流量大、交易頻繁，這個時候的數據處理能力，要能應對海量和強時效兩大要求。EMR和流計算服務Oceanus，可以說是相當鋒利的工具，與我們的業務經驗相結合后，能減輕我們在數據成本方面的負擔?！?/p>

這兩把“鋒利的工具”是怎么解決百果園的問題的？這里做個簡單解釋：

我們可以把數據看成水果，如果按“批處理”的邏輯做數據的加工分析，就相當于水果裝貨車被運走，每天一次，今天沒趕上就等明天的車。但水果求的就是一個新鮮，數據也一樣，EMR和Oceanus的辦法，就相當于安排許多載著箱子的騎手，讓水果剛摘下來就可以被運走。

EMR還提供了豐富的計算組件，和分鐘級集群構建與平行擴展能力，提高業務響應效率，也同時搭建了批、流處理系統，實現批流一體，降低資源投入，這就好比是將騎手們靈活調度，既能迅速接單執行，又能保證沒有太多閑置人手。

除此以外，騰訊云大數據基于自身的技術積累，開放了一批高并發、高流量的中間件，幫助百果園在一些全民消費、零售大促的特殊節點，保護系統運行質量、建立個性化營銷訴求。

數聯科技的研發部總監李俐學透露，目前雙方的合作中，EMR和CDW已經全面介入；整個數據底座的第一層已經更換完成，上游的數據資產管理體系和數字化展現體系也逐步切換應用當中。未來，希望借助騰訊云大數據的數據算法能力，向精準營銷和經營繼續邁進。

雷峰網了解到，在許多企業內部，其數據處理能力仍然很難支持實時查詢，一些App會標注稱“該統計數據截至某日某時”，這背后就是數據處理能力的缺失。而百果園在采用CDW之后，就能將億級數據做到實時累計查詢、與歷史數據同步對比。

在零售電商領域與百果園的合作，只是騰訊云大數據對外輸出的冰山一角，其技術觸角已經伸向金融、政務、文娛、游戲、教育等多個領域，騰訊內部關于大數據的最佳實踐，正源源不斷地輸送至各行各業。

這個過程也說明了另一個事實：中國的實體經濟正在自發地、主動地走向數字化，其轉型升級的需求是由內而外地成長出來的，所謂的互聯網行業的邊界，已經日漸模糊了。

“互聯網+”“+互聯網”的說辭，已經不再新鮮?；ヂ摼W如今更傾向于一種渠道，一種實現手段，應該貼著業務而生、朝著企業的核心產品競爭力而行，而不是借著前沿技術的虛名，淪為企業周身一圈虛無的光環。

而騰訊云大數據正是將這套貼著業務而進化的打法，從集團內部延伸到了外部的廣闊天地?？梢哉f，大數據與千行百業的聯結，某種程度上也讓騰訊助力數實融合的路途，有了更具象化的路徑。

未來去向：繼續相融，再攀高峰

不過，騰訊云大數據的演進之路，還遠沒有到可以放慢腳步的時候。

騰訊云副總裁黃世飛透露，未來他們會進一步打磨基礎產品的性能、穩定性、可靠性、易用性和使用體驗等方面，做好共性部分，結合騰訊云的行業know-how，以及合作伙伴生態，共同適配更多行業。

在前不久的騰訊全球生態大會上，騰訊云大數據也推出了智能推薦平臺、商業智能兩大產品體系，進一步幫助企業釋放數據價值，實現業務的增長轉型、精細化運營與快速商業決策。

2023年剛剛開始，他們對新一年的工作也已經有了頗為明確的規劃，例如全托管方案中的產品聯動，一站式產品體驗的優化，半托管產品的云原生容器化和共同部署等能力的深化。

同時，云端全托管服務Elasticsesarch Service（ES）的存算分離版本，數據治理開發平臺WeData聯動其他引擎的一站式解決方案，以及成熟形態的隱私計算方案，都已提上日程。

他們告訴雷峰網，一體化、智能、安全、云原生，是騰訊眼中的下一代大數據核心關鍵詞。

智能和安全，不難理解。前者注意著眼于提升大數據平臺的智能化運營支撐水平，后者則是通過隱私計算，保證大數據開源項目之間形成安全的聯動，讓數據收集、計算過程存儲和合作都符合更高的合規要求。

大數據與云原生的擁抱，則體現在了純容器化和存算分離兩個特性上，讓大數據更易于部署，通過云計算快速可彈性的計算資源來處理數據；同時，底層存儲資源打通，上層計算引擎可以針對客戶內部不同業務做針對性計算。

傳統的馮諾依曼架構下，計算和存儲是緊密耦合的。早期騰訊自身采用的，也是存算一體的架構，這種架構可以實現就近計算，優化數據的親和性，簡單來說計算不必“舍近求遠”，性能自然有所提高。

但隨著技術發展，存儲與計算各自的增長并不會按比例同步增加，這時必然造成資源的浪費，因此存算分離正式面世，計算資源可以彈性伸縮，這種架構的使用也被認為是云原生的特性之一。

眼下，騰訊的大數據最佳實踐采用了混合架構，既兼容以往的存算一體、高性能優先的架構，也兼顧存算分離、方便資源擴展的架構。當中會有統一的元數據管控與調度，也會在計算引擎和語法上使用自適應的部署方式，形成整體大數據平臺的云原生化。

這是一個有著頂層設計的云原生大數據平臺，有自適配的SQL語法，有智能選擇計算引擎的自適應計算架構，有統一的數據編排與存儲加速并能適配不同的存儲引擎。

同時底層的云原生大數據底座統一調度及適配各種底層算力資源，另外還有統一的調度系統和元數據管理系統，以及統一的開放接口，最后還有像自動駕駛系統一樣的智能運維系統。

從另一個維度來看，騰訊也同時在進行人工智能（A）、大數據（B）、云計算（C）三者的一體化。

事實上A、B、C三個概念都已提出多時，并各自有著長期發展，如今行業的關注點已經來到了三者的融合應用。外界在關注科技巨頭們的最佳技術實踐時，也會將目光放在巨頭們對A、B、C三者合流的解讀和實現上。

騰訊云大數據的發展，在技術實力和組織保障之下，不斷攀上更高的山峰。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

周蕾

編輯

云計算/To B/金融科技丨微信：LorraineSummer

掃描關注作者微信

發私信

當月熱門文章

騰訊的大數據方法論：修煉十五年，一身煙火氣

一顆已經跳動十五年的“大心臟”

從大數據出發：騰訊的內部融合之道

數實融合路上的“雙向奔赴”

未來去向：繼續相融，再攀高峰

騰訊的大數據方法論：修煉十五年，一身煙火氣

未來去向：繼續相融，再攀高峰