自然語言處理(NLP)被譽為人工智能皇冠上的“明珠”。近年來,人工智能(AI)取得了長足的發(fā)展,其中最重要的技術(shù)進步之一發(fā)生在NLP領域。NLP技術(shù)的進步使得機器翻譯質(zhì)量大幅提高,也催生了更多數(shù)字化場景應用,隨之國內(nèi)NLP產(chǎn)業(yè)也迎來快速發(fā)展。據(jù)艾瑞咨詢預測,2022年NLP相關產(chǎn)業(yè)規(guī)模將達到1500億元,到2025年達到2400億元。微軟亞洲研究院認為未來十年是NLP發(fā)展的黃金時期。
浪潮之下,創(chuàng)新企業(yè)正在成為NLP創(chuàng)新突破的重要力量,中科凡語就是其中的典型代表。中科凡語是中國科學院自動化研究所孵化、專注于NLP服務的創(chuàng)新型企業(yè),已發(fā)展成為業(yè)內(nèi)領先的多語言跨領域多模態(tài)自然語言處理方案商、服務商、運營商。恰逢中科凡語成立4周年之際,中國科學院自動化研究所研究員、博士生導師、中科凡語董事長周玉博士分享了NLP的發(fā)展趨勢和中科凡語的工作成果。
中國科學院自動化研究所研究員、
博士生導師、中科凡語董事長周玉博士
從通用到定制形成動態(tài)閉環(huán)
搭建NLP底層技術(shù)平臺
目前NLP產(chǎn)品的應用落地任重道遠,面臨的問題主要有兩個,一是高定制化場景帶來的高溝通門檻,使得溝通效率較低;二是要開發(fā)通用性較強的產(chǎn)品,需要不同的業(yè)務數(shù)據(jù)支撐,適配過程較為漫長。面對NLP產(chǎn)品的定制化和通用性難題,中科凡語獨辟蹊徑。
周玉研究員表示,“早期可以面對不同行業(yè)領域客戶先提煉出共性需求,搭建一個通用的技術(shù)框架,滿足基礎的模塊功能;然后再構(gòu)建通用場景的通用產(chǎn)品;之后再遷移到特定場景進行定制化開發(fā);最后在定制化過程中再衍生出面向特定場景的產(chǎn)品??偟膩砜?,其實是在動態(tài)演化過程中不斷完善迭代,從通用到定制形成動態(tài)閉環(huán)?!?/span>
NLP產(chǎn)品開發(fā)的底層邏輯是技術(shù)儲備,技術(shù)儲備越豐富,通用技術(shù)模塊越成熟,遷移成本就會越低,在特定行業(yè)的產(chǎn)品化效率也就越高,行業(yè)壁壘也就隨之建立起來。
基于深厚的技術(shù)積淀,目前中科凡語推出了“信譯”、“信推”、“信析”、“信服”和“信取”五大NLP技術(shù)產(chǎn)品?!靶抛g”是基于為用戶提供優(yōu)質(zhì)、專業(yè)、準確、高效的機器翻譯服務;“信推”是針對長文本完成多模態(tài)自動摘要生成和關鍵詞提取及內(nèi)容推送;“信取”則提供跨場景、多語言、多粒度的數(shù)據(jù)爬取、融合、分類及管理,等等。目前中科凡語所推出的“五信”,“飛譯”或是“洞知”產(chǎn)品,都是基于客戶普遍的共性需求所建立的。未來的產(chǎn)品開發(fā),還將繼續(xù)朝著系統(tǒng)化、模塊化、工具化的方向出發(fā),為客戶提供更易組裝、更加靈活、適用性更強的智能服務產(chǎn)品,構(gòu)建多模塊、廣適用、高精度的底層NLP技術(shù)平臺。
專業(yè)領域億級語料數(shù)據(jù)
為行業(yè)發(fā)展提供動力
高質(zhì)量標注數(shù)據(jù)是AI時代NLP技術(shù)的關鍵因素。NLP技術(shù)本質(zhì)上是基于深度學習的,相比于視覺或音頻信息,自然語言更加抽象,蘊含了更加豐富的人類定義的知識。因此,NLP的技術(shù)效果很大程度上取決于標注數(shù)據(jù)的質(zhì)量和規(guī)模。
中科凡語作了大量的基礎工作。在標注人員方面,以翻譯樣本標注為例,中科凡語同全國100多所高校外國語學院達成了合作,并建立了與之相對應的人物畫像,豐富語種人才庫的同時,進一步提升適配效率;在標注數(shù)據(jù)方面,分層分級,重點篩選種子樣本;再通過不斷優(yōu)化迭代算法方面的優(yōu)勢,來最大化的降低標注成本,篩選出有價值的數(shù)據(jù)。同時,通過前臺數(shù)據(jù)與后臺算法的深度綁定,中科凡語進一步提升了數(shù)據(jù)儲備的質(zhì)量和規(guī)模,形成一個良性的閉環(huán)。
基于中國科學院自動化研究所相關團隊20余年的積累,中科凡語目前已經(jīng)建立了涵蓋特定行業(yè)、教育、醫(yī)療、航空等多個領域的億級雙語平行語料,及大規(guī)模涵蓋多語言、多領域、多場景、多任務、多層次的高精準標注語料,NLP語料數(shù)據(jù)方面行業(yè)領先。同時,通過創(chuàng)新迭代的智能化標注算法,中科凡語也在不斷充實NLP語料池,著力挖掘大規(guī)模、高質(zhì)量的標注數(shù)據(jù)。這不僅帶來效率提升、技術(shù)升級,更是NLP發(fā)展的必然趨勢。
深耕行業(yè)夯實優(yōu)勢
NLP下一個十年中文論劍
縱觀國內(nèi)外NLP產(chǎn)業(yè)發(fā)展現(xiàn)狀,國外NLP技術(shù)由于起步早、技術(shù)領先,而國內(nèi)目前則處于奮起直追階段。隨著中國企業(yè)逐漸從“輔助角色”進化為中堅力量,“學術(shù)界+工業(yè)界”的雙輪驅(qū)動推動中國AI力量悄然變化。
中科凡語作為國產(chǎn)NLP領域先行者,承接了中科院自動化所過去20多年在NLP領域技術(shù)積累,在技術(shù)、數(shù)據(jù)乃至人才方面都有著天然優(yōu)勢。成立四年來,中科凡語已成功落地了100多家G端客戶、50余家B端客戶,同時還承擔了多項國家和政府重大需求項目,例如為“一帶一路”沿線國家提供翻譯、信息整合及分析服務等,未來還將持續(xù)深耕認知智能、通用智能、因果推斷等技術(shù)領域,進一步推動NLP成果產(chǎn)業(yè)化。中科凡語還于2020年11月成立了凡語AI研究院,已吸引60多名高級人才加入,共同進行前沿研究,探索新的基礎模型與技術(shù)路線,建立競合協(xié)同的行業(yè)生態(tài)。
在政策紅利和藍海市場的雙重利好下,NLP 已步入發(fā)展快車道,并涌現(xiàn)了許多商業(yè)化應用,如機器翻譯、輿情監(jiān)測、自動摘要、問答機器人、客服機器人、電銷機器人、智能推薦等。隨著AI技術(shù)不斷走向“深水區(qū)”,作為AI最高層次的NLP也將伴隨著數(shù)智化的產(chǎn)業(yè)趨勢快速迭代更新。中科凡語致力于通過本身在NLP領域積累的人才、算法、數(shù)據(jù)等優(yōu)勢,聯(lián)合業(yè)界的專家學者、行業(yè)精英,共同推動NLP最前沿技術(shù)和應用,在國產(chǎn)NLP的發(fā)展中貢獻力量。
金科君創(chuàng)已投部分TMT企業(yè)
(以投資先后順序排列)