中國周刊

京東AI研究院獲QuAC機器閱讀理解競賽冠軍,EL-QA模型能力業(yè)界領(lǐng)先

2020-09-11 15:19:05 來源:新浪

近日,在斯坦福大學(xué)、華盛頓大學(xué)、Allen AI 和 UMass 聯(lián)合發(fā)起的機器閱讀理解(QuAC[1] (Choi et al., 2018))比賽上,京東 AI 研究院語音語言實驗室提出的 EL-QA 模型(Single Model)登頂 QuAC Leaderboard,全部三項指標(biāo)均獲得第一名。

其中,在 F1-Measure(又稱為 F1-Score) 指標(biāo)上達到 74.6,大幅拉近了機器與人類在該任務(wù)上的水平差距。這也意味著以零售、物流、金融、客服等優(yōu)質(zhì)場景為依托的京東 AI 研究院,在機器閱讀理解能力上取得了突飛猛進的成果。

http://img.danews.cc/upload/ajax/20200911/3dcd6c3b574d314649b60063b3342ce0.png

圖 1QuAC 挑戰(zhàn)賽官方成績榜單(https://quac.ai)

目前,QuAC 是人機多輪對話交互領(lǐng)域復(fù)雜度最高的數(shù)據(jù)集,要求模型具備強大的上下文語義理解、指代推理、省略語義恢復(fù)和知識推理等能力,這也吸引了全球頂級科研院所和企業(yè)研究機構(gòu)參加。從結(jié)果來看,QuAC 具有較高的難度,在這個數(shù)據(jù)集上目前的最佳 AI 模型的性能距離人類表現(xiàn)仍有一定差距,表明在這個問題上技術(shù)還有進步的空間。

QuAC 新挑戰(zhàn):更復(fù)雜的數(shù)據(jù)集、更開放的問題、更貼近真實場景

機器閱讀理解能力已成為判斷機器是否具有自然語言理解(語義理解、閱讀、問答等)能力的重要標(biāo)準(zhǔn)。SQuAD[2] (Rajpurkar et al., 2016) 數(shù)據(jù)集的提出極大地推動了機器閱讀理解的研究與發(fā)展。隨著模型在上述單輪問答場景超越人類,更有挑戰(zhàn)的交互式閱讀理解數(shù)據(jù)集,如 CoQA[3] (Reddy et al., 2018) 等,被相繼提出。

相比于眾多交互式閱讀理解數(shù)據(jù)集,QuAC 具有更鮮明的特點,也更進一步反映了復(fù)雜人機對話交互應(yīng)用場景的難度。比如(1)基于答案對提問者不可見的方式構(gòu)造開放式問題,增大回答難度;(2)增加對話引導(dǎo)行為(Action)輔助提問者調(diào)整提問話題,以便高效獲取信息;(3)模擬真實場景引入不可回答問題,增加對模型理解與判斷能力的要求。

具體而言,該數(shù)據(jù)集是由提問者(Student)和回答者(Teacher)針對某一主題展開對話而構(gòu)建的,提問者在只能看見給定主題而不可見主題具體信息的條件下進行開放式的提問,回答者針對問題不僅要給出具體回復(fù)(response),并且需反饋對話引導(dǎo)行為和問題是否可回答等信息。

http://img.danews.cc/upload/ajax/20200911/ca1744104e2c3649c7ea00d786a50e69.png

圖 2:QuAC 數(shù)據(jù)集示例

例如,圖 2 展示了提問者首先根據(jù)主題 Daffy Duck 進行提問?;卮鹫邥鶕?jù)給定主題相關(guān)信息和交互歷史來判斷當(dāng)前問題所討論的話題是否可繼續(xù)提問,繼而反饋給提問者相應(yīng)的對話引導(dǎo)行為,包括繼續(xù)當(dāng)前話題(Follow-Up),終止當(dāng)前話題(Don’t Follow-Up)或無法判斷是否繼續(xù)(Maybe Follow-Up),并最后給出相應(yīng)的答案。

該競賽的數(shù)據(jù)構(gòu)造過程更貼合人們通過對話進行信息獲取(Conversational Information-Seeking)的真實場景。例如在零售領(lǐng)域,用戶對某一商品進行開放式咨詢,智能客服根據(jù)具體的商品信息對用戶的提問進行可回復(fù)性判斷,并給出用戶是否繼續(xù)或改變當(dāng)前咨詢話題的引導(dǎo)行為,最終給出自然語言回復(fù)。相對于傳統(tǒng)的智能客服,這種新的交互方式可以極大地提升用戶的對話體驗和效率。

http://img.danews.cc/upload/ajax/20200911/79444e4d5c6205a39364a9a4d87e4795.png

圖 3:QuAC 與其他機器閱讀理解數(shù)據(jù)集的多維度對比

圖 3 給出了 QuAC 與時下多個熱門機器閱讀理解數(shù)據(jù)集的詳細對比,可看出 QuAC 具有最豐富的數(shù)據(jù)特性,要求模型具有更強的上下文語義理解和對話邏輯推理能力。

京東 AI 研究院 EL-QA 模型斬獲新 SOTA

京東 AI 研究院語音語言實驗室提出的 EL-QA 模型(Single Model)登頂 QuAC Leaderboard,全部三項指標(biāo)均獲得第一名,其中特別是 HEQD(對話 Session 層面對比人類平均水平的指標(biāo))顯著領(lǐng)先之前最好表現(xiàn)。該結(jié)果的取得主要得益于我們在關(guān)鍵技術(shù)上的創(chuàng)新,包括大規(guī)模預(yù)訓(xùn)練語言模型、知識遷移、多任務(wù)學(xué)習(xí)、數(shù)據(jù)增強、Beam-Search 解碼答案和 Deep Ranking 等。

擁有優(yōu)質(zhì)場景和廣闊應(yīng)用價值的企業(yè)或機構(gòu)在本次競賽中占據(jù)優(yōu)勢。本次競賽從參賽隊伍到榜單分布,大多是在智能人機交互服務(wù)領(lǐng)域有重要相關(guān)業(yè)務(wù)的企業(yè)的實驗室。這也體現(xiàn)出,一方面,科技企業(yè)基于資源優(yōu)勢正在核心技術(shù)研發(fā)方面走到前沿,而大學(xué)則聚焦于新問題新思想新方向的提出和中立的技術(shù)評價,學(xué)術(shù)界和企業(yè)界形成了良性的緊密合作。另一方面,這也表明,智能人機對話交互技術(shù)不僅具有重要的研究價值,也有重大的產(chǎn)業(yè)價值。

企業(yè)的全力加入使得此領(lǐng)域的技術(shù)競爭日益激烈,是兵家必爭之地。這次評測的對話式機器閱讀理解相關(guān)技術(shù)可廣泛應(yīng)用于智能客服、營銷導(dǎo)購、人機協(xié)同、AI + 教育等產(chǎn)品中,帶來效率和體驗的直接提升。

據(jù)悉,京東 AI 研究院語音語言實驗室圍繞自然語言處理、語音與聲學(xué)、知識圖譜、人機對話與交互、多模態(tài)信息處理等前沿領(lǐng)域開展人工智能技術(shù)研究,近兩年已經(jīng)在國際頂級學(xué)術(shù)會議和期刊上發(fā)表論文 50 多篇,獲得 IEEE Signal Processing Society 等最佳論文獎,在多個有影響力的國際競賽中獲得冠軍,同時也承擔(dān)了多項國家重點研發(fā)計劃。其研發(fā)的多項前沿技術(shù)也成功轉(zhuǎn)化落地,支撐了京東智聯(lián)云多個重要產(chǎn)品。此次研發(fā)的對話式機器閱讀理解相關(guān)技術(shù)部分已落地到了京東智聯(lián)云智能人機交互部的商城智能客服、商家智能客服、客戶服務(wù)數(shù)據(jù)分析平臺、智能寫作以及商品知識圖譜驅(qū)動的采購大腦等核心產(chǎn)品當(dāng)中。



來源:https://tech.sina.cn/2020-09-11/detail-iivhuipp3748847.d.html?vt=4&pos=18


編輯:海洋

已經(jīng)到底部