0
近幾年,隨著國家頻繁出臺教育信息化相關政策,信息化產品及服務在教育領域落地步伐逐漸加快,各大科技公司也在相關領域大力布局,圍繞教育信息化的各項創業項目也勢頭強勁,根據IT桔子公布的數據顯示,今年上半年,教育信息化賽道共發生了七起投資事件。
此外,隨著最新中高考改革政策的發布,英語口語機考正在全國各地普及。這給專門提供英語口語測評服務的教育機構帶來了機會。
成立于2016年4月的先聲教育,將公司定位為一家“目前落地在教育領域的人工智能技術服務商”,從AI技術切入,瞄準B端,賦能行業與場景,致力于成為教育行業的“DeepMind”,為教育機構提供AI技術解決方案。
先聲教育CTO秦龍博士畢業于卡內基梅隆大學,于2014年加入著名語言學習平臺Duolingo,負責平臺上的多語種語音識別技術,是 Duolingo 第一位中國工程師。
近期,雷鋒網來到先聲教育辦公室,對先聲教育CTO秦龍博士進行了專訪。

據介紹,先聲教育基于語音識別、自然語言處理等核心技術,自主研發了智能口語測評、智能寫作批改、自適應學習、智能對話以及情感識別技術解決方案。
當雷鋒網問到先聲教育為什么沒有考慮C端業務,而是聚焦于B端,秦龍答到:”我們是一家技術驅動型公司,所以為B端的教育機構提供技術服務可以充分發揮我們的技術優勢,而像英語流利說那樣的產品驅動型公司,會更適合C端場景。我們也會像IBM一樣,不僅向客戶提供技術,同時也提供技術咨詢服務,針對不同企業的技術使用場景做調試,并協助培訓企業內部工作人員,使得我們提供的技術解決方案能夠契合他們的不同產品和應用場景。”
目前,先聲教育自主研發的五大AI技術模塊中,成熟應用的有智能口語測評技術和智能寫作批改技術。

其中,英文智能語音測評技術在2年內已建立成熟的跨平臺跨終端體系,除判斷英語發音的對錯外,還可以精細化到音素、重音、語調、斷句及韻律等多個維度。可為K12領域學生提供實時糾錯,多維度學習結果反饋功能,幫助學生有效提高英語聽說能力,應對英語聽說考試。
據介紹,智能寫作批改技術也已于今年6月正式對外開放,同時與百度、京東建立了合作。業務方面,先聲已服務數百家行業頭部企業,如百度、新東方、好未來,海云天科技等。
秦龍詳細介紹了先聲教育自主研發的寫作批改系統:
“我們的寫作批改系統面向K12領域初高中學生,基于國內中高考英語考試評分標準,提供打分和改錯兩大基本功能,貼近真實考試環境,同時從詞匯、語法、內容和可讀性等多維度給出全面反饋,幫助學生提高自身英語寫作能力。”

Singsound 自動作文評分系統(AES)從單詞拼寫、用詞、語法、句子結構的復雜度、切題程度、可讀性等維度綜合評價作文在相應學段中的水平。采用語言學特征提取與深度學習相結合的方法,主要采用了詞嵌入、詞法分析、詞性標注、句法分析、主題模型等自然語言處理技術,同時結合了遷移學習、模型融合等技術。
Singsound 語法改錯系統(GEC)采用了統計翻譯技術(Phrase-based model):該系統先利用 IBM translation model 提取訓練數據中的詞組信息,根據具體語境將錯誤的詞組映射到語法正確的詞組。并對統計翻譯模型得到的初步改錯結果進行句法解析、詞法解析,分析具體錯誤類型,并對修改結果進行校正,從而進一步地提高改錯的效果。
據雷鋒網了解,英語流利說、科大訊飛等公司也有語音測評的產品推出,秦龍認為先聲教育的優勢在于,只服務于垂直的教育機構,技術研發更有針對性,其他公司是“大而廣”,先聲教育要做到“小而精”。
由于人工智能技術的快速發展,主打個性化教育的AI自適應學習成為當下產學研三界關注度最高的熱點話題之一。雷鋒網曾報道過AI自適應學習火熱的原因。
在國外,自適應學習已經有20多年的歷史,從最早規則化的自適應發展到現在基于人工智能的自適應。并且早已開始應用,覆蓋了不同國家、不同年齡層,從小學、初中、高中到職業教育的幾百個學科。其效果得到了很好的驗證,無論對小學生還是初中生,文科生還是理科生,都可以帶來成績的提升。
在人工智能的加持下,個性化教育的步伐在不斷加快,為了與傳統的自適應教育區分,目前做人工智能自適應教育的公司都傾向于稱自己為“智適應教育”,人工智能自適應學習是對傳統自適應學習的升級,也是對新型的學習方式的探索。
自適應學習可以分為兩個階段:
(1)以推薦系統為基礎的淺層自適應階段;
(2)以學習行為建模為基礎的深度自適應階段。
目前國內大多數企業仍處于淺層自適應階段,據介紹,先聲教育自適應系統已率先步入自適應學習的核心深度階段。
秦龍解釋道:“我們先聲團隊使用的 CLUF 是一種基于深度學習的 Encoder-Decoder 模型,它由四個 encoder 構成,分別是語境編碼器 Context Encoder、語言學特征編碼器 Linguistic Encoder、用戶信息編碼器 User Encoder、題型信息編碼器 Format Encoder,最后由解碼器利用編碼器輸出的高維特征作出預測。”
“語境編碼器用來編碼句子的語言環境,它由一個字母級別的編碼器與一個單詞級別的編碼器構成。字母級別編碼器是一個層級式的循環神經網絡結構,單詞級別編碼器則是一個雙向長短期記憶神經網絡 LSTM;語言學特征編碼器也是一個 LSTM 結構,主要用于編碼提取的語言學特征,為語境編碼器提供額外的信息;用戶編碼器是一個全連接的結構,用于記錄用戶的第二語言能力與學習歷史;題型編碼器則是用來編碼題型、答題方式等信息。”
秦龍認為,自適應學習其實并不是某項單一技術,而是涵蓋教育學、心理學、認知科學、計算機科學等多學科知識在內的一個龐大的概念。
“現在絕大多數中國公司做的自適應學習,其實是題庫+推薦,首先建一個非常大的題庫,然后題庫里的每道題會標注一定的信息,即所謂的打標簽、知識圖譜,就是用人工去標注一些知識點上去(labor intensive work),然后讓學生做題,如果題做錯了,下一步就是推薦類似習題。”
“目前絕大多數公司做的推薦題的系統和今日頭條推薦新聞的系統沒有本質的區別, 甚至用的是一樣的技術,你這個題錯了,我就去題庫里找和這個題接近的題,然后把這個題推薦給你讓你做。這套東西覆蓋了國內95%以上所謂做自適應學習的公司。”
據秦龍介紹,自適應學習最大的難點在于 knowledge tracing,它需要判斷一個人學習了一段時間以后,對于過去的知識點的掌握程度,目標就是在最短的時間內判斷的越準確越好。
“這個事其實蠻難的。最終只能通過做題、考試,根據學生做題的正確率來判斷。”
“包括現在大家都在說的 DKT(Deep Knowledge Tracing ),其實,學術圈對DKT并沒有定論,并沒有說 DKT 會比傳統的 KT 的效果要好,還存在爭議。實際上 DKT 是在2015年發表出來的論文,2016年,有幾個不同的機構發表了兩三篇論文,從理論上分析是否 DKT 比傳統的 KT 方法要好,另外也去按照作者開放的代碼復現實驗結果,但是在有一些數據集上復現出來的結果并不是很好,學術圈當時對此有一些質疑。2017年以后至今,又有一些論文發表,主要研究怎么才能把 DKT 做的更好,并且借鑒了傳統的 Knowledge Tracing 的一些方法,所以其實整個DKT還是 ongoing research,不能說正在研究的方法一定就好,這是一個誤解。”
據秦龍介紹,目前大部分公司其實做的還是推薦,真正涉及到 Knowledge Tracing 的可能不到5家。
秦龍認為,自適應學習替代老師基本不可能,但有一定價值,比如可以給學生一定的指導,并且可以提高刷題效率。
最后,秦龍用兩個詞總結了先聲教育的核心優勢,即“準確”和“專業”,準確是指技術層面針對不同公司的需求做到精度最高,專業是指先聲教育更懂教育。真實情況的教育場景千差萬別,不能一概而論,先聲教育會對每一個具體場景深入調研,未來,先聲教育也會在技術方面做進一步深入研究,同時,除了技術服務,也會做內容上的研發,打造整體的教育解決方案。
相關文章:
CNNIC最新報告:K12英語在線教育火爆,AI+教育驅動產業升級
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。