0
數據是大模型“智能涌現”不可或缺的原材料,它在今天展現出強大的能力,得益于背后的海量數據、蘊含了豐富的“人類”知識和智能,通過大模型技術將其提煉出來,用神經網絡去表達復雜數據的背后規律。
當前,大模型正處在產業落地前期,高質量的數據,是大模型實現產業化的關鍵要素。多位業內人士都曾向雷峰網表達了類似的觀點,認為模型性能所取得的階段性突破,最重要的離不開數據質量的提升,模型的訓練語料在一定程度上會影響 AIGC 應用、微調后模型等內容生成的合規、安全以及價值觀等問題。
對于以 ChatGPT、文心一言為代表的生成式 AI,海量的數據訓練、人工標注、指令微調、基于人類反饋的強化學習(RLHF),可以讓大模型與人類價值觀、思維方式不斷對齊,使大模型更加可用。
為此,百度智能云升級了大模型數據服務能力,與海口市政府合作共建的國內首個大模型數據標注中心,該基地已于近日正式啟動運營,未來會為各行各業提供大模型數據服務。
這是百度智能云推動大模型產業落地的又一重要布局。
百度智能云方面表示,目前已經在全國與各地政府合作,共建了十多個數據標注基地,累計為當地提供超過 1.1 萬個穩定就業崗位,間接帶動 5 萬人就業。

百度智能云海口人工智能基礎數據產業基地
國內首個大模型數據標注基地
走進海口數據標注基地,數百名大模型標注師正全神貫注地盯著電腦屏幕,使用數據標注平臺熟練地對大模型生成的內容數據進行打分、排序。
一個客觀事實是,大模型當前在內容生成的穩定性方面還存在難點,例如嘗試使用 AI 寫稿的用戶就遇到過類似的問題——如果 AI 在某些關鍵信息點“一本正經地胡說八道”,而自己沒有發現,最后就會造成嚴重的事故。
數據標注正是為了解決這些問題。
通過對大模型生成的內容進行評價、反饋給到模型,這些人工標注的數據可以讓更好地學習人類的思維方式,從而變得更加聰明。

百度智能云海口人工智能基礎數據產業基地 作業區
百度智能云數據標注基地業務產品負責人胡馳表示,為提高數據標注的質量和效率,百度智能云自主研發了業內領先的大模型數據標注平臺,支持從大模型微調、強化學習到模型評估的數據生產閉環。
在百度智能云數據標注平臺上,經過前兩至三輪的大模型生成內容篩選,得出 5 個更符合人類邏輯、貼近人類需求的答案,數據標注師會根據一套特定的評分規則,對這 5 個問題進行判斷和評分,再返回給到模型對優質回答進行再次學習。
通過結合平臺獨有的人機協同標注、多輪智能審核等智能化工具,可大幅提升數據標注的產能和質量,同時幫助企業實現降本增效。

拍攝于百度智能云海口基地
隨著 AI 商業化落地進程加快以及應用場景不斷拓展,市場對海量、優質數據的需求持續增加。但在這些數據中,80% 都是以文件形式存在的非結構化或半結構化數據,必須經過清洗與標注處理才能被機器識別和學習,才能真正喚醒其價值。
數據標注服務是人工智能基礎數據服務的核心環節,是機器感知現實世界的起點。
借助特定軟件工具,數據標注師將未經處理的語音、圖片、文本、視頻等數據打上特征標簽,轉變成機器可識別的信息,使機器通過大量學習這些數據具備自主識別的能力,從而化“人工”為“智能”。數據標注服務是算法模型正常運行的重要保障,其精度更是決定人工智能產業發展速度的關鍵因素,對人工智能產業技術層和應用層起到了牢基固本的支撐作用。
數百名標注師、100%本科學歷
為保障數據標注質量,百度智能云搭建了全流程數據服務人才梯隊。海口數據標注基地現擁有數百名專職大模型數據標注師,標注師的本科率達到100%。
百度智能云大模型數據標注師王潔玉介紹,“和傳統的數據標注師要求不同,大模型標注師都需要本科以上學歷,我覺得主要是因為大模型數據涉及的知識面很廣,評判標準復雜,非常考驗標注師的語言理解能力和邏輯推理能力。在入職的前兩個月,公司會對我們進行集體培訓和考核,通過考核后才能正式上崗。”
據了解,百度智能云沉淀了多領域專家資源,針對來自不同行業的數據服務需求,百度智能云可快速搭建專家團隊,對特定領域的任務提供監督微調和強化訓練數據,保證數據交付質量,目前已覆蓋計算機、法律、醫療等領域。
此外,百度智能云還組建了專業的數據咨詢團隊,從前期的數據收集、數據清洗,再到數據管理、數據回流,可為企業提供全流程的咨詢服務,幫助企業在智能化轉型過程中少走彎路。
數據安全始終是重中之重。胡馳表示,百度智能云不僅可提供高安全性的端到端數據服務,標注平臺還支持私有部署,通過與基地資源聯動,為客戶提供多樣化的數據安全方案。
“大模型標注基地重點要評估三大指標:高效標注工具、高端人才梯隊、高級別數據安全,只有三管齊下,才能為大模型提供好的數據。”胡馳說。
值得一提的是,隨著百度智能云海口數據標注基地在海口的正式落成,既為企業擁抱大模型提供領先的數據服務,同時也為區域帶來社會效益、經濟效益的雙重助力。
胡馳表示,一方面,百度智能云通過完善的數據標注師培訓體系,助力區域培育一批大模型領域人才,推動區域高質量人才留存的同時更保障高質量就業,激發區域人才活力;另一方面,基于百度智能云的技術和生態優勢,基地為入駐企業提供一站式創業扶持,助力海口培育孵化本地專業數據標注企業,為當地的數字化轉型和智能化升級持續造血。
海口市秀英區委常委、常務副區長石晟屹表示,穩就業是政府的重要工作方向,基地在未來三到五年,新增就業有望突破 5000 人規模,這是非常好的就業契機。不僅如此,建成海口數據標注基地,只是和百度合作的開端,后續還要共同打造數字經濟產業集群,將海口市秀英區的數字經濟規模、數字經濟層級帶來更高的提升。
目前,百度智能云在全國已與各地政府合作共建十余個數據標注基地,累計為各區域提供穩定就業崗位超過 11000 個,間接帶動 5 萬人就業,培育數萬名 AI 數據人才,吸引孵化優質企業超 200 家,為推動人工智能產業發展和促進區域經濟提升做出了積極貢獻。
大模型時代的“智能新基建”
想要做出好的大模型并不容易,需要具備三大要素:大數據、大算力、好的學習機制。算力是大模型的動力來源,更大參數規模意味著更大的算力消耗;數據相當于大模型學習的知識,大模型想要有更好的性能,就需要大量高質量的標注數據;而好的訓練方法就像是一位懂得因材施教的老師,讓大模型的性能表現更上一層樓。
據了解,為了進一步推動大模型的產業化落地,百度智能云和各地政府已經建成了多個“智能新基建”項目。除了落地十余個數據標注基地,解決大數據問題之外,百度智能云在陽泉、福州、天津、濟南、沈陽等地建設了多個智算中心,解決大算力問題。

百度陽泉智算中心
百度智能云方面表示,這些分布在全國各地的“智能新基建”,已經將強大的AI能力凝聚在“千帆大模型平臺”上,目的就是幫助企業一站式的解決大模型開發和應用過程中面臨的所有問題。
據悉,百度智能云將在9月全面升級大模型服務。8月,百度智能云宣布,千帆大模型平臺升級,接入包括文心一言、Llama 2全系列、ChatGLM2-6B等在內的33個國內外最主流的大模型,成為國內擁有大模型最多的平臺。

百度智能云千帆大模型平臺功能全景圖
(雷峰網(公眾號:雷峰網)雷峰網)
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。