百度大腦語言與知識技術峰會今日舉行,百度CTO王海峰在峰會上解讀了百度語言與知識技術的發展歷程與最新成果,同時,百度語言與知識技術系列產品和數據集共建計劃也一起發布,全面加速AI技術大規模應用。
布局始終把握技術及產業兩大趨勢
語言與知識技術被看作是人工智能認知能力的核心。早在2010年,百度就成立自然語言處理部,據王海峰回顧,“在百度語言與知識技術的布局和發展中,始終在注意把握兩個趨勢,即技術發展趨勢和產業發展趨勢,并力爭引領趨勢。”
知識圖譜是機器認知世界的重要基礎。目前,百度打造了世界上最大規模知識圖譜,擁有超過50億實體和5500億事實,并在不斷演進和更新。百度知識圖譜應用于各行各業,每天的調用次數超過400億次。
其次,在融入知識的基礎上,語言理解能力不斷增強。2019年3月,百度提出知識增強的語義理解框架ERNIE,在深度學習的基礎上融入知識,同時具備持續學習能力,曾一舉登頂全球權威數據集GLUE榜單,首次突破90分大關,刷新榜單歷史?;谥R圖譜和語義表示,突破了閱讀理解、對話理解以及跨模態深度語義理解等技術。
第三,語言生成是語言與知識技術中的重要組成部分?;陬A訓練技術的成功經驗,百度提出基于多流機制的語言生成預訓練技術,兼顧詞、短語等不同粒度的語義信息,顯著提升生成效果。百度也探索了多文檔摘要生成,通過圖結構語義表示引入篇章知識,在單文檔和多文檔摘要生成效果都有提升。
應用系統層面,對話系統和機器翻譯等成績卓著。百度提出了知識圖譜驅動的對話控制技術,以及首個基于隱空間的大規模開放域對話模型PLATO等,并推出智能對話定制和服務平臺UNIT,幫助開發者高效構建智能對話系統,實現規模化應用。百度翻譯支持200多種語言,每天響應超過千億字符的翻譯請求,支持超過40多萬家第三方應用,技術上,提出了多智能體聯合學習、基于語義單元的同傳模型、稀缺語種分組混合訓練算法等。
據了解,十年來,百度大腦語言與知識技術成果豐碩,獲得包括國家科技進步獎在內的20多個獎項,30多項國際競賽冠軍,發表學術論文超過300篇,申請專利2000多項。百度大腦語言與知識技術的持續探索和創新取得了令業界矚目的成績,同時這些技術以平臺化的方式輸出,賦能千行萬業,持續提升產業智能化水平。
多款新產品及共建和共享計劃亮相
在王海峰首次發布了百度大腦語言與知識產品全景圖之后,百度集團副總裁吳甜接續發布語義理解技術與平臺文心、智能文檔分析平臺TextMind和AI同傳會議解決方案3大新產品,同時發布了6項升級,包括智能創作平臺的3個場景方案、以及智能對話定制與服務平臺UNIT的3項全新升級。
吳甜表示,“我們一直致力于將語言與知識技術凝聚成一系列技術平臺和產品,在應用中產生大量價值,為廣大開發者和產業實踐者提供以語言與知識技術為核心驅動的系列產品。”
其中,全新發布的AI同傳會議解決方案,覆蓋會議全場景、全流程,旨在打造用戶隨身的“會議同傳專家”。吳甜現場展示了如何只用一臺電腦和一部手機快速搭建一套同傳服務,只需點點鼠標、打幾個字,就能快速獲得專業的同傳服務。
數據匱乏、算力不足歷來是語言與知識技術研發中面臨的瓶頸。為突破瓶頸,百度聯合中國計算機學會、中國中文信息學會發起中文自然語言處理數據共建計劃——千言,解決數據稀缺問題。千言一期由來自國內11家高校和企業的數據資源研發者共同建設,已涵蓋開放域對話、閱讀理解等7大任務,20余個中文開源數據集。
百度技術委員會主席吳華表示,“未來,我們希望有更多的數據集作者能夠參與共建千言,共同推動中文信息處理技術的進步,建設世界范圍的中文信息處理影響力。我們計劃在未來3年,面向20多個任務,收集和建設不少于100個中文自然語言處理數據集,覆蓋語言與知識技術全部領域。”
吳華還發布了百度語言與知識技術算力共享計劃,通過百度AI STUDIO平臺提供算力支持,讓廣大開發者破除算力桎梏,專注于技術創新。
責任編輯:Rex_07