本發(fā)明涉及計(jì)算機(jī)科學(xué)中的意圖識(shí)別技術(shù)領(lǐng)域,更具體地,涉及一種基于言語(yǔ)行為理論的用戶(hù)交互意圖識(shí)別方法及系統(tǒng)。
背景技術(shù):
對(duì)用戶(hù)交互行為的意圖進(jìn)行挖掘和分析在社會(huì)公共安全、商務(wù)智能、社情輿情等領(lǐng)域具有十分重要的應(yīng)用價(jià)值。隨著社交媒體(微博、twitter、facebook等)不斷發(fā)展和壯大,人們?cè)絹?lái)越傾向于通過(guò)社交媒體分享個(gè)人經(jīng)歷、發(fā)表觀點(diǎn)、表達(dá)意愿,并由此產(chǎn)生了海量用戶(hù)生成內(nèi)容。這些內(nèi)容中蘊(yùn)含著豐富多樣的有價(jià)值信息,其中,交互意圖廣泛存在于社交媒體的用戶(hù)討論中,對(duì)用戶(hù)的交互意圖進(jìn)行分析和識(shí)別,能夠?yàn)樯鐣?huì)、經(jīng)濟(jì)、政治、文化相關(guān)的多個(gè)領(lǐng)域應(yīng)用提供關(guān)鍵信息和決策支持。
傳統(tǒng)的意圖識(shí)別在人工智能領(lǐng)域有廣泛的研究,其研究的重點(diǎn)是基于離線(xiàn)信息檢測(cè)智能體行為,并與預(yù)定義庫(kù)中的行為模式進(jìn)行匹配,從而識(shí)別智能體的意圖。隨著社會(huì)媒體平臺(tái)和網(wǎng)絡(luò)通信的飛速發(fā)展,對(duì)用戶(hù)的在線(xiàn)交互進(jìn)行意圖識(shí)別已經(jīng)成為網(wǎng)絡(luò)大數(shù)據(jù)應(yīng)用中的重要研究問(wèn)題。以往的社交媒體中的意圖分析工作主要集中在查詢(xún)意圖和消費(fèi)意圖兩個(gè)領(lǐng)域。
用戶(hù)查詢(xún)意圖識(shí)別是從搜索引擎日志數(shù)據(jù)(包括點(diǎn)擊、點(diǎn)擊序列和查詢(xún)條件等)中挖掘用戶(hù)的查詢(xún)意圖,并按照預(yù)定義的意圖類(lèi)別分類(lèi)識(shí)別?,F(xiàn)有的查詢(xún)意圖分類(lèi)方法主要包括兩種:1)根據(jù)查詢(xún)功能分類(lèi),kang等(sigir,2003)將查詢(xún)意圖分類(lèi)為信息、導(dǎo)航、翻譯;2)根據(jù)用戶(hù)行為分類(lèi),hu等(www,2009)提出了旅行和工作兩種行為相關(guān)意圖。由于搜索引擎中的查詢(xún)由詞項(xiàng)組成且長(zhǎng)度受限,現(xiàn)有的查詢(xún)意圖識(shí)別致力于擴(kuò)展查詢(xún)特征,恢復(fù)完整查詢(xún)語(yǔ)義,hu等(www,2009)利用維基百科作為外部知識(shí)源擴(kuò)展查詢(xún)?cè)~項(xiàng),yang等(wsdm,2015)提出自動(dòng)生成交互問(wèn)題,根據(jù)用戶(hù)反饋修正意圖。
消費(fèi)意圖識(shí)別著重從在線(xiàn)文本數(shù)據(jù)(微博、論壇、查詢(xún)等)中挖掘用戶(hù)是否具有購(gòu)買(mǎi)意愿。長(zhǎng)文本數(shù)據(jù)主要利用nlp技術(shù)進(jìn)行消費(fèi)意圖識(shí)別,chen等(hlt-naacl,2013)研究了在特定領(lǐng)域論壇中的購(gòu)買(mǎi)意圖表達(dá)模式;短文本數(shù)據(jù)由于語(yǔ)義的不規(guī)范致力于消費(fèi)對(duì)象實(shí)體的識(shí)別,fu等(計(jì)算機(jī)科學(xué)與探索,2015)提出了一種跨媒體的偽反饋方法,借助外部搜索引擎對(duì)微博中的商品名詞進(jìn)行識(shí)別。
目前,用戶(hù)意圖識(shí)別發(fā)展到更一般的社交媒體平臺(tái)中。wang等(aaai,2015)提出了一種基于用戶(hù)日常行為的twitter分類(lèi)方案,包括食品、旅游、教育等,但他們的方法僅限于顯式的意圖表達(dá),如“我想要…”、“我計(jì)劃…”;purohit等(socialcom,2015)設(shè)計(jì)了一種基于特征的方法識(shí)別“尋求幫助”和“提供幫助”兩種twitter意圖,應(yīng)用的背景限定在危機(jī)事件中,而不考慮更一般的用戶(hù)意圖識(shí)別。相比之下,我們的工作重點(diǎn)是定義更為通用的意圖分類(lèi)體系,并在海量在線(xiàn)文本數(shù)據(jù)中識(shí)別用戶(hù)的交互意圖。
以往的意圖識(shí)別方法主要存在以下不足:(1)意圖類(lèi)型主要集中在特定領(lǐng)域,無(wú)法對(duì)其他交互意圖類(lèi)型進(jìn)行識(shí)別,適用范圍比較窄;(2)意圖識(shí)別的對(duì)象主要集中在固定領(lǐng)域的文本中,或帶有明顯意圖的規(guī)則表達(dá)中,無(wú)法對(duì)不規(guī)則表達(dá)中的隱式交互意圖進(jìn)行識(shí)別,可用性比較差;(3)現(xiàn)有方法大多利用人工標(biāo)注數(shù)據(jù)進(jìn)行有監(jiān)督學(xué)習(xí)或半監(jiān)督學(xué)習(xí),在人工標(biāo)注語(yǔ)料缺失時(shí)無(wú)法對(duì)大規(guī)模數(shù)據(jù)進(jìn)行有效交互意圖識(shí)別。
技術(shù)實(shí)現(xiàn)要素:
為了解決現(xiàn)有技術(shù)中的上述問(wèn)題,即為了解決識(shí)別各種交互意圖類(lèi)型的問(wèn)題,本發(fā)明提供了一種基于言語(yǔ)行為理論的用戶(hù)交互意圖識(shí)別方法。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:
一種基于言語(yǔ)行為理論的用戶(hù)交互意圖識(shí)別方法,所述用戶(hù)交互意圖識(shí)別方法包括:
基于外部知識(shí)源構(gòu)建行為標(biāo)記語(yǔ)詞典,各意圖類(lèi)別分別對(duì)應(yīng)一個(gè)行為標(biāo)記語(yǔ)詞典,每個(gè)所述行為標(biāo)記語(yǔ)詞典中包含有多個(gè)行為標(biāo)記語(yǔ);
根據(jù)所述行為標(biāo)記語(yǔ)詞典,自動(dòng)標(biāo)注用戶(hù)在社交媒體平臺(tái)上輸入的在線(xiàn)文本的意圖;
利用自動(dòng)標(biāo)注語(yǔ)料訓(xùn)練基于特征的分類(lèi)器對(duì)所述在線(xiàn)文本的意圖進(jìn)行分類(lèi)識(shí)別,確定用戶(hù)的交互意圖類(lèi)別。
可選的,所述基于外部知識(shí)源構(gòu)建行為標(biāo)記語(yǔ)詞典包括:
針對(duì)每一意圖類(lèi)別選擇設(shè)定數(shù)量的種子詞,構(gòu)造初始行為標(biāo)記語(yǔ)詞典;
選取待加入到所述初始行為標(biāo)記語(yǔ)詞典中的擴(kuò)充詞;
計(jì)算所述擴(kuò)充詞與種子詞的語(yǔ)義相似度;
篩選出語(yǔ)義相似度大于相似度閾值的擴(kuò)充詞,并添加到對(duì)應(yīng)的所述初始行為標(biāo)記語(yǔ)詞典中,形成對(duì)應(yīng)各所述意圖類(lèi)別的行為標(biāo)記語(yǔ)詞典。
可選的,所述擴(kuò)充詞分為記載在知網(wǎng)hownet中的擴(kuò)充詞和未記載在hownet中的擴(kuò)充詞。
可選的,對(duì)于記載在hownet中的擴(kuò)充詞,根據(jù)以下公式確定所述擴(kuò)充詞與種子詞的語(yǔ)義相似度:
其中,w1為種子詞,w2為記載在hownet中的擴(kuò)充詞,sim(w1,w2)為w2與w1的語(yǔ)義相似度,
可選的,對(duì)于未記載在hownet中的擴(kuò)充詞,所述計(jì)算所述擴(kuò)充詞與種子詞的語(yǔ)義相似度具體包括:
利用中文維基百科語(yǔ)料和開(kāi)源詞向量工具,獲得維基百科的詞向量模型;
找到與種子詞具有類(lèi)似用法的詞匯作為擴(kuò)充詞;
根據(jù)以下公式確定所述擴(kuò)充詞與種子詞的語(yǔ)義相似度:
其中,w1為種子詞,p2為未記載在hownet中的擴(kuò)充詞,sim(w1,p2)為p2與w1的語(yǔ)義相似度,
可選的,所述行為標(biāo)記語(yǔ)詞典包括代表意圖的動(dòng)詞、形容詞、副詞、代詞及語(yǔ)氣詞中至少一者。
可選的,所述自動(dòng)標(biāo)注用戶(hù)在社交媒體平臺(tái)上輸入的在線(xiàn)文本的意圖具體包括:
對(duì)所述用戶(hù)在社交媒體平臺(tái)上輸入的在線(xiàn)文本進(jìn)行預(yù)處理;
將預(yù)處理后的在線(xiàn)文本切分為在線(xiàn)句子;
分析句法依存關(guān)系,從所述在線(xiàn)句子中確定核心動(dòng)詞及關(guān)聯(lián)詞,形成關(guān)鍵詞組;
根據(jù)所述行為標(biāo)記語(yǔ)詞典對(duì)所述關(guān)鍵詞組進(jìn)行行為標(biāo)記語(yǔ)匹配;
根據(jù)匹配的行為標(biāo)記語(yǔ)所屬的意圖類(lèi)別將所述在線(xiàn)文本標(biāo)注為對(duì)應(yīng)的意圖。
可選的,從所述在線(xiàn)句子中確定關(guān)聯(lián)詞具體包括:根據(jù)句法依存關(guān)系選取與所述核心動(dòng)詞距離小于距離閾值的語(yǔ)詞。
可選的,所述特征包括常規(guī)特征、語(yǔ)義特征及語(yǔ)法特征;其中,
所述常規(guī)特征包括社交媒體平臺(tái)的類(lèi)型、作者身份、提及類(lèi)型、提及位置、主題標(biāo)簽數(shù)量和鏈接類(lèi)型;
所述語(yǔ)義特征包括表情符、顏文字符、hownet情感詞典特征、liwc詞典特征、行為標(biāo)記語(yǔ)和文本詞匯;
所述句法特征包括標(biāo)點(diǎn)符號(hào)和句法依存關(guān)系。
根據(jù)本發(fā)明的實(shí)施例,本發(fā)明公開(kāi)了以下技術(shù)效果:
本發(fā)明基于言語(yǔ)行為理論的用戶(hù)交互意圖識(shí)別方法通過(guò)基于外部知識(shí)源構(gòu)建對(duì)應(yīng)不同意圖類(lèi)別的行為標(biāo)記語(yǔ)詞典,并基于行為標(biāo)記語(yǔ)詞典,自動(dòng)標(biāo)注擴(kuò)充語(yǔ)料和基于特征分類(lèi)識(shí)別,能夠有效識(shí)別社交媒體中的用戶(hù)交互意圖,識(shí)別準(zhǔn)確度高,可用于商務(wù)智能、社情輿情、決策評(píng)估等領(lǐng)域的意圖分析與識(shí)別,應(yīng)用范圍廣。
為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下方案:
一種基于言語(yǔ)行為理論的用戶(hù)交互意圖識(shí)別系統(tǒng),所述用戶(hù)交互意圖識(shí)別系統(tǒng)包括:
構(gòu)建模塊,用于基于外部知識(shí)源構(gòu)建行為標(biāo)記語(yǔ)詞典,各意圖類(lèi)別分別對(duì)應(yīng)一個(gè)行為標(biāo)記語(yǔ)詞典,每個(gè)所述行為標(biāo)記語(yǔ)詞典中包含有多個(gè)行為標(biāo)記語(yǔ);
自動(dòng)標(biāo)注模塊,用于根據(jù)所述行為標(biāo)記語(yǔ)詞典,自動(dòng)標(biāo)注用戶(hù)在社交媒體平臺(tái)上輸入的在線(xiàn)文本的意圖;
識(shí)別模塊,用于利用自動(dòng)標(biāo)注語(yǔ)料訓(xùn)練基于特征的分類(lèi)器對(duì)所述在線(xiàn)文本的意圖進(jìn)行分類(lèi)識(shí)別,確定用戶(hù)的交互意圖類(lèi)別。
根據(jù)本發(fā)明的實(shí)施例,本發(fā)明公開(kāi)了以下技術(shù)效果:
本發(fā)明基于言語(yǔ)行為理論的用戶(hù)交互意圖識(shí)別系統(tǒng)通過(guò)設(shè)置構(gòu)建模塊,以基于外部知識(shí)源構(gòu)建對(duì)應(yīng)不同意圖類(lèi)別的行為標(biāo)記語(yǔ)詞典;并通過(guò)設(shè)置自動(dòng)標(biāo)注模塊和識(shí)別模塊,實(shí)現(xiàn)自動(dòng)標(biāo)注擴(kuò)充語(yǔ)料和基于特征的分類(lèi)識(shí)別,能夠有效識(shí)別社交媒體中的用戶(hù)交互意圖,識(shí)別準(zhǔn)確度高,可用于商務(wù)智能、社情輿情、決策評(píng)估等領(lǐng)域的意圖分析與識(shí)別,應(yīng)用范圍廣。
附圖說(shuō)明
圖1是本發(fā)明基于言語(yǔ)行為理論的用戶(hù)交互意圖識(shí)別方法的流程圖;
圖2為在線(xiàn)句子s1的句法依存關(guān)系的結(jié)構(gòu)圖;
圖3為本發(fā)明基于言語(yǔ)行為理論的用戶(hù)交互意圖識(shí)別系統(tǒng)的模塊結(jié)構(gòu)示意圖。
符號(hào)說(shuō)明:
構(gòu)建模塊—1,自動(dòng)標(biāo)注模塊—2,識(shí)別模塊—3。
具體實(shí)施方式
下面參照附圖來(lái)描述本發(fā)明的優(yōu)選實(shí)施方式。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,這些實(shí)施方式僅僅用于解釋本發(fā)明的技術(shù)原理,并非旨在限制本發(fā)明的保護(hù)范圍。
本發(fā)明提出一種基于言語(yǔ)行為理論的交互意圖識(shí)別方法,將社交媒體中的用戶(hù)意圖識(shí)別問(wèn)題定義為多分類(lèi)問(wèn)題,將用戶(hù)的表達(dá)看作一種意圖行為,并根據(jù)其語(yǔ)用功能進(jìn)行分類(lèi)。
言語(yǔ)行為理論是語(yǔ)用學(xué)的一個(gè)重要分支,所述言語(yǔ)行為理論最早由austin(howtodothingswithwords,1962)建立,提出話(huà)語(yǔ)不僅可以傳遞信息,同時(shí)也在實(shí)施行為。searle(expressionandmeaning:studiesinthetheoryofspeechacts,1976)進(jìn)一步發(fā)展了言語(yǔ)行為理論,并根據(jù)語(yǔ)言的言外之意將言語(yǔ)行為劃分為五大類(lèi):指示類(lèi)、承諾類(lèi)、表達(dá)類(lèi)、斷言類(lèi)和陳述類(lèi),這種分類(lèi)方案可以幫助識(shí)別話(huà)語(yǔ)中說(shuō)話(huà)人的意圖。根據(jù)行為標(biāo)記語(yǔ)相關(guān)研究(meaningandspeechacts,1990),每個(gè)句子都由包含行為標(biāo)記語(yǔ)動(dòng)詞的深層結(jié)構(gòu)產(chǎn)生,而行為標(biāo)記語(yǔ)本身便具有言外之意來(lái)區(qū)分言語(yǔ)行為。
如圖1所示,本發(fā)明基于言語(yǔ)行為理論的用戶(hù)交互意圖識(shí)別方法包括:
步驟100:基于外部知識(shí)源構(gòu)建行為標(biāo)記語(yǔ)詞典,各意圖類(lèi)別分別對(duì)應(yīng)一個(gè)行為標(biāo)記語(yǔ)詞典,每個(gè)所述行為標(biāo)記語(yǔ)詞典中包含有多個(gè)行為標(biāo)記語(yǔ);
步驟200:根據(jù)所述行為標(biāo)記語(yǔ)詞典,自動(dòng)標(biāo)注用戶(hù)在社交媒體平臺(tái)上輸入的在線(xiàn)文本的意圖;
步驟300:利用自動(dòng)標(biāo)注語(yǔ)料訓(xùn)練基于特征的分類(lèi)器對(duì)所述在線(xiàn)文本的意圖進(jìn)行分類(lèi)識(shí)別,確定用戶(hù)的交互意圖類(lèi)別。
其中,每一種意圖是一類(lèi)根據(jù)交互意圖區(qū)分的典型言語(yǔ)行為,而每一個(gè)意圖類(lèi)別包含相同語(yǔ)用功能的意圖,意圖分類(lèi)體系是用戶(hù)交互意圖分類(lèi)識(shí)別的基礎(chǔ)和依據(jù)。在本實(shí)施例中,將社交媒體平臺(tái)中用戶(hù)的交互意圖分成:指令類(lèi)、疑問(wèn)類(lèi)、承諾類(lèi)、愿望類(lèi)、表意類(lèi)、情感類(lèi)、斷言類(lèi)、立場(chǎng)類(lèi)、陳述類(lèi)和聲明類(lèi)等。以表1所示內(nèi)容為例,各個(gè)意圖的具體內(nèi)容可為:
指令類(lèi):用戶(hù)希望聽(tīng)話(huà)人(包括其他用戶(hù)或機(jī)構(gòu))做或不做某事,包括:命令,請(qǐng)求、建議、倡導(dǎo)和警告等。
疑問(wèn)類(lèi):用戶(hù)要求聽(tīng)話(huà)人提供信息。
承諾類(lèi):用戶(hù)承諾自己或其所屬的機(jī)構(gòu)會(huì)在未來(lái)做某事。
愿望類(lèi):用戶(hù)描述自己做某事的計(jì)劃或當(dāng)前狀態(tài),如“我想…”、“我計(jì)劃…”。
表意類(lèi):用戶(hù)表達(dá)自己的禮節(jié)和禮貌性態(tài)度,包括:祝福、道歉、鼓勵(lì)、安慰、贊賞和祝賀等。
情感類(lèi):用戶(hù)表達(dá)自己的感受或情緒反應(yīng),包括:開(kāi)心、傷心、贊美、責(zé)備、同情和惋惜等。
斷言類(lèi):用戶(hù)以很確定的語(yǔ)氣描述某物,話(huà)語(yǔ)中包含了自身的信仰或思想,包括:斷言、評(píng)價(jià)、預(yù)測(cè)、判斷和猜測(cè)等。
立場(chǎng)類(lèi):用戶(hù)表達(dá)自身對(duì)于某事的立場(chǎng),包括:支持、反對(duì)、同意、不同意等。
陳述類(lèi):用戶(hù)描述或解釋的某事物,包括:描述、解釋、舉例等。
聲明類(lèi):用戶(hù)發(fā)布客觀的信息,如新聞,用戶(hù)通常是官方機(jī)構(gòu)。
表1交互意圖類(lèi)別的示例
在步驟100中,所述基于外部知識(shí)源構(gòu)建行為標(biāo)記語(yǔ)詞典包括:
步驟101:針對(duì)每一意圖類(lèi)別選擇設(shè)定數(shù)量的種子詞,構(gòu)造初始行為標(biāo)記語(yǔ)詞典;
步驟102:選取待加入到所述初始行為標(biāo)記語(yǔ)詞典中的擴(kuò)充詞;
步驟103:計(jì)算所述擴(kuò)充詞與種子詞的語(yǔ)義相似度;
步驟104:篩選出語(yǔ)義相似度大于相似度閾值的擴(kuò)充詞,并添加到對(duì)應(yīng)的所述初始行為標(biāo)記語(yǔ)詞典中,形成對(duì)應(yīng)各所述意圖類(lèi)別的行為標(biāo)記語(yǔ)詞典。
其中,所述行為標(biāo)記語(yǔ)詞典包括代表意圖的動(dòng)詞、形容詞、副詞、代詞及語(yǔ)氣詞中至少一者。構(gòu)成行為標(biāo)記語(yǔ)詞典的詞有兩類(lèi)來(lái)源:一是現(xiàn)有的顯式行為標(biāo)記語(yǔ)詞;二是帶有明顯語(yǔ)用功能的詞,包括未登錄在詞典中的顯式行為標(biāo)記語(yǔ)詞,隱式行為標(biāo)記語(yǔ)詞。對(duì)應(yīng)的,所述擴(kuò)充詞分為記載在知網(wǎng)hownet中的擴(kuò)充詞和未記載在hownet中的擴(kuò)充詞。
對(duì)于記載在hownet中的擴(kuò)充詞,基于中文概念樹(shù)hownet,計(jì)算擴(kuò)充詞與種子詞間的語(yǔ)義相似度,篩選出種子詞的同義詞和近義詞,將它們放入種子詞所在意圖類(lèi)別的行為標(biāo)記語(yǔ)詞典中。具體的,根據(jù)公式(1)確定:
其中,w1為種子詞,w2為記載在hownet中的擴(kuò)充詞,sim(w1,w2)為w2與w1的語(yǔ)義相似度,
由于hownet中包含的詞的數(shù)量有限,社交媒體中更多的行為標(biāo)記語(yǔ)是hownet上查找不到(即未記載在hownet中的擴(kuò)充詞),無(wú)法通過(guò)公式(1)確定該類(lèi)詞。為了進(jìn)一步擴(kuò)充詞匯數(shù)量,利用中文維基百科語(yǔ)料訓(xùn)練wordembedding模型,找出與種子詞具有類(lèi)似用法的詞匯,具體的,對(duì)于未記載在hownet中的擴(kuò)充詞,所述計(jì)算所述擴(kuò)充詞與種子詞的語(yǔ)義相似度具體包括:
利用中文維基百科語(yǔ)料和開(kāi)源詞向量工具(例如google開(kāi)源的wordembedding工具),獲得維基百科的詞向量(wordembedding)模型。wordembedding模型能夠?qū)⒃~匯表示成基于文檔的分布式表示向量,詞匯間的向量距離一定程度上體現(xiàn)了詞匯使用場(chǎng)景的相似性。
找到與種子詞具有類(lèi)似用法的詞匯作為擴(kuò)充詞。也就是說(shuō),在wordembedding模型中找出與種子詞的向量距離最近的詞,在本實(shí)施例中,一般選取前40個(gè)詞。
根據(jù)公式(2)確定所述擴(kuò)充詞與種子詞的語(yǔ)義相似度:
其中,w1為種子詞,p2為未記載在hownet中的擴(kuò)充詞,sim(w1,w2)為p2與w1的語(yǔ)義相似度,
下面以一個(gè)與種子詞“請(qǐng)求”相關(guān)的指令類(lèi)行為標(biāo)記語(yǔ)詞典構(gòu)建過(guò)程示例(海量微博文本作為外部知識(shí)源的輸入):
(1)以手工挑選的種子詞“請(qǐng)求”為例,將“請(qǐng)求”加入指令類(lèi)行為標(biāo)記語(yǔ)詞典,并作為行為標(biāo)記語(yǔ)詞典構(gòu)建過(guò)程的種子詞。
(2)基于hownet,找到“請(qǐng)求”的近義詞為“要求”、“哀求”、“央求”、“呼吁”、“懇求”、“命令”等,將這些同義詞或近義詞作為擴(kuò)充詞放到指令類(lèi)行為標(biāo)記語(yǔ)詞典中。
(3)利用利用中文維基百科語(yǔ)料和word2vector開(kāi)源工具(google開(kāi)源的wordembedding工具),得到維基百科的wordembedding模型。并找出與輸入單詞(或短語(yǔ))具有類(lèi)似用法的詞匯,即在wordembedding模型中找出單詞向量距離最近的前40個(gè)詞作為擴(kuò)充詞。
以輸入文本“不要在患者心上插刀”為例,其核心詞“不要”在wordembedding模型中的相似用法詞和短語(yǔ)如表2所示:
表2利用wordembedding模型擴(kuò)充詞的示例
(4)利用語(yǔ)義相似度函數(shù)對(duì)所述擴(kuò)充詞進(jìn)行評(píng)價(jià)與過(guò)濾,選取其中相似度大于相似度閾值的詞,放入相應(yīng)意圖類(lèi)別的行為標(biāo)記語(yǔ)詞典中。
以“不想”為例,由于hownet中沒(méi)有記載“不想”這個(gè)詞,所以將“不想”分解為“不”和“想”兩個(gè)詞,在hownet中“不”的義原為:否,而“想”具有:思念、認(rèn)為、思考、愿意4個(gè)義原;通過(guò)對(duì)比義原在hownet樹(shù)上的編碼,發(fā)現(xiàn)“思考”與“要求”的距離最小,
其中,編碼距離的計(jì)算以如下示例給出:以“思考”和“要求”為例,兩者的編碼分別為:“1-2-2-2-2-3-3-1-2-1-7”和“1-2-2-2-2-2-1-1”,編碼代表根節(jié)點(diǎn)到義原節(jié)點(diǎn)的最短路徑,由左至右每個(gè)用“-”分隔開(kāi)的數(shù)字表示路徑的一個(gè)中間節(jié)點(diǎn),故“思考”和“要求”的距離為9。
由于“不想”和“請(qǐng)求”詞性模式為“dv”和“v”,故二者的編輯距離dpos=1,lmax=2。在λ1=0.8,α=1.6時(shí),根據(jù)語(yǔ)義相似度得到二者的語(yǔ)義相似度值:
故“不想”低于相似度閾值0.75,不能被加入到指令類(lèi)行為標(biāo)記語(yǔ)詞典中。
類(lèi)似地,經(jīng)過(guò)相似度評(píng)分函數(shù)篩選,將閾值高的“請(qǐng)”、“提醒”、“警告”、“請(qǐng)你”、“所以請(qǐng)”加入到指令類(lèi)行為標(biāo)記語(yǔ)詞典中。根據(jù)上述計(jì)算過(guò)程,利用不同類(lèi)別下的種子詞可以得到全部交互意圖類(lèi)別的行為標(biāo)記語(yǔ)詞典。
在步驟200中,所述自動(dòng)標(biāo)注用戶(hù)在社交媒體平臺(tái)上輸入的在線(xiàn)文本的意圖具體包括:
步驟201:對(duì)所述用戶(hù)在社交媒體平臺(tái)上輸入的在線(xiàn)文本進(jìn)行預(yù)處理。其中,預(yù)處理包括去除在線(xiàn)文本中的話(huà)題標(biāo)簽、表情符號(hào)等文本噪聲。
步驟202:將預(yù)處理后的在線(xiàn)文本切分為在線(xiàn)句子。
步驟203:分析句法依存關(guān)系,從所述在線(xiàn)句子中確定核心動(dòng)詞及關(guān)聯(lián)詞,形成關(guān)鍵詞組。
其中,從所述在線(xiàn)句子中確定關(guān)聯(lián)詞具體包括:根據(jù)句法依存關(guān)系選取與所述核心動(dòng)詞距離小于距離閾值的語(yǔ)詞。在本實(shí)施例中,所述距離閾值為2。
步驟204:根據(jù)所述行為標(biāo)記語(yǔ)詞典對(duì)所述關(guān)鍵詞組進(jìn)行行為標(biāo)記語(yǔ)匹配。
步驟205:根據(jù)匹配的行為標(biāo)記語(yǔ)所屬的意圖類(lèi)別將所述在線(xiàn)文本標(biāo)注為對(duì)應(yīng)的意圖,可為一種或多種。對(duì)于不能被標(biāo)注為任何一種意圖的在線(xiàn)句子標(biāo)注為“無(wú)”。
下面以一具體實(shí)施例介紹本發(fā)明中自動(dòng)標(biāo)注的過(guò)程:
用戶(hù)輸入微博:回復(fù)@買(mǎi)半票的飯團(tuán):我支持醫(yī)院維護(hù)自己的權(quán)益;我覺(jué)得在醫(yī)院特別是手術(shù)室里的醫(yī)生很辛苦;我就在這生的孩子,醫(yī)生都很好!請(qǐng)大家多體諒醫(yī)生的不易。
(1)對(duì)輸入微博進(jìn)行預(yù)處理,除去回復(fù)字段的文本噪聲。
(2)將處理后的在線(xiàn)文本切分為在線(xiàn)句子,得到4個(gè)在線(xiàn)句子:
s1:我支持醫(yī)院維護(hù)自己的權(quán)益;
s2:我覺(jué)得在醫(yī)院特別是手術(shù)室里的醫(yī)生很辛苦;
s3:我就在這生的孩子,醫(yī)生都很好!
s4:請(qǐng)大家多體諒醫(yī)生的不易。
(3)分析句法依存關(guān)系,從所述在線(xiàn)句子中確定核心動(dòng)詞及關(guān)聯(lián)詞,形成關(guān)鍵詞組。以s1為例,其句法依存關(guān)系的結(jié)構(gòu)如圖2所示,例如,“我”與“支持”為主謂關(guān)系、“支持”與“維護(hù)”為動(dòng)賓關(guān)系、“支持”與“;”為標(biāo)點(diǎn)關(guān)系,“醫(yī)院”與“維護(hù)”為狀中關(guān)系、“維護(hù)”與“權(quán)益”為動(dòng)賓關(guān)系,“自己”與“權(quán)益”為定中關(guān)系。其核心動(dòng)詞為“支持”,保留與核心動(dòng)詞距離小于2的形容詞、副詞、代詞、語(yǔ)氣詞,得到[我,支持,維護(hù)],作為s1的關(guān)鍵詞組。
類(lèi)似地,得到s1~s4的關(guān)鍵詞組如表3所示:
表3:關(guān)鍵詞組與行為標(biāo)記語(yǔ)匹配的示例
(4)基于構(gòu)建的行為標(biāo)記語(yǔ)詞典,對(duì)s1~s4中包含的關(guān)鍵詞組進(jìn)行行為標(biāo)記語(yǔ)匹配。
根據(jù)匹配的行為標(biāo)記語(yǔ)所屬的意圖類(lèi)別將所述在線(xiàn)文本標(biāo)注為對(duì)應(yīng)的意圖。如表3所示,在微博中輸入的在線(xiàn)文本標(biāo)注類(lèi)別為:立場(chǎng)和指令。
在步驟300中,為了更好地刻畫(huà)用戶(hù)交互意圖的特點(diǎn),本發(fā)明設(shè)計(jì)了三類(lèi)特征:常規(guī)特征、語(yǔ)義特征和句法特征。常規(guī)特征指能夠幫助識(shí)別用戶(hù)交互意圖的社交媒體平臺(tái)特征,語(yǔ)義特征和句法特征是不同用戶(hù)交互意圖表現(xiàn)出的具有區(qū)分性的某些語(yǔ)義和句法方面的特征。此外,某些語(yǔ)義特征是通過(guò)已有資源幫助指導(dǎo)下得到的,如:huang等(中華心理學(xué)刊,2012)修訂的liwc(linguisticinquiryandwordcount)詞典和hownet情感詞典。
其中,所述常規(guī)特征包括社交媒體平臺(tái)的類(lèi)型、作者身份、提及類(lèi)型、提及位置、主題標(biāo)簽數(shù)量和鏈接類(lèi)型;所述語(yǔ)義特征包括表情符、顏文字符、hownet情感詞典特征、liwc詞典特征、行為標(biāo)記語(yǔ)和文本詞匯;所述句法特征包括標(biāo)點(diǎn)符號(hào)和句法依存關(guān)系。
以微博為例,本發(fā)明選擇了共1310個(gè)特征,包括13個(gè)常規(guī)特征,1266個(gè)語(yǔ)義特征和31個(gè)句法特征。具體如下:
(1)常規(guī)特征:
微博類(lèi)型:區(qū)分原創(chuàng)和轉(zhuǎn)發(fā)/回復(fù)類(lèi)型,表達(dá)和聲明類(lèi)型的微博更多地來(lái)自原創(chuàng)類(lèi)型的微博。
作者身份:區(qū)分官方和個(gè)人賬號(hào),與個(gè)人賬號(hào)相比,官方賬號(hào)通常會(huì)發(fā)布更多的聲明類(lèi)型微博。
提及類(lèi)型:用戶(hù)提及(@)到的其他用戶(hù)的用戶(hù)類(lèi)型能夠幫助區(qū)分交互意圖,如:用戶(hù)在社交媒體上發(fā)出請(qǐng)求或建議時(shí),可能會(huì)提及某些官方賬號(hào),來(lái)滿(mǎn)足其請(qǐng)求或接受其建議。
提及位置:位于微博開(kāi)篇的@更傾向于起提醒、告知(某人)的作用;位于微博結(jié)尾的@則可能是信息的來(lái)源;位于微博中間的@則是文本內(nèi)容的一部分。
主題標(biāo)簽數(shù)量:垃圾微博通常包含許多不相關(guān)的熱門(mén)標(biāo)簽,主題標(biāo)簽數(shù)量可以幫助區(qū)分無(wú)關(guān)的垃圾信息。
鏈接類(lèi)型:某些鏈接類(lèi)型,如新聞、文章、圖片、視頻和發(fā)布地點(diǎn),與微博文本內(nèi)容相關(guān),可以幫助識(shí)別微博中的用戶(hù)交互意圖。
(2)語(yǔ)義特征:
表情符和顏文字符:社交媒體中隨處可見(jiàn)表情符和顏文字符。用戶(hù)通常用它們來(lái)表達(dá)感情或禮儀。
hownet情感詞典特征:hownet情感詞典提供了一組用于情感分析的詞庫(kù),包括程度副詞詞典、觀點(diǎn)詞詞典、情感詞詞典和評(píng)價(jià)詞詞典,可以幫助識(shí)別用戶(hù)交互意圖。
liwc詞典特征:liwc詞典將詞劃分為描述性特點(diǎn)、心理特點(diǎn)、語(yǔ)文特點(diǎn)和個(gè)人化特點(diǎn)等類(lèi)別,可以輔助發(fā)現(xiàn)用戶(hù)的心理狀態(tài)、思考類(lèi)型甚至人格特征,幫助識(shí)別用戶(hù)交互意圖。
行為標(biāo)記語(yǔ)特征:行為標(biāo)記語(yǔ)本身就具有言外之意,能有效幫助識(shí)別用戶(hù)交互意圖。
文本詞匯特征:通過(guò)匹配兩個(gè)不同事件的語(yǔ)料,得到與事件話(huà)題無(wú)關(guān)的文本詞語(yǔ);然后利用textrank算法生成微博的主題詞,移除這些主題詞,得到話(huà)題無(wú)關(guān)詞語(yǔ);最后按照tf-idf評(píng)分進(jìn)行特征選擇。
(3)句法特征:
標(biāo)點(diǎn)符號(hào):標(biāo)點(diǎn)符號(hào)是識(shí)別用戶(hù)意圖類(lèi)別的重要特征。問(wèn)號(hào)(?)通常引起問(wèn)題、要求或負(fù)面情感。感嘆號(hào)(!)經(jīng)常用在表意或情感中。
句法依存關(guān)系:依存樹(shù)能夠表示句子中單詞之間的關(guān)系,本發(fā)明用依存句法分析子樹(shù)表示句法特征。利用hanlp開(kāi)源工具提取樹(shù)中的關(guān)系類(lèi)型作為句法特征。
最后建立模型,通過(guò)訓(xùn)練多個(gè)一對(duì)多的二分類(lèi)器對(duì)每個(gè)意圖進(jìn)行類(lèi)別識(shí)別。對(duì)于每個(gè)類(lèi)別,本發(fā)明選擇包含當(dāng)前類(lèi)別標(biāo)簽的文本作為正樣例,帶有其他9個(gè)類(lèi)別標(biāo)簽的文本作為負(fù)樣例。本發(fā)明選擇決策樹(shù)(dt)作為分類(lèi)算法。
下面以一具體實(shí)施例介紹本發(fā)明基于言語(yǔ)行為理論的用戶(hù)交互意圖識(shí)別方法:
從新浪微博中采集了50,298條用戶(hù)討論數(shù)據(jù),涵蓋了2015年到2016年熱門(mén)話(huà)題,主要是關(guān)于2015年“天津?yàn)I海新區(qū)救災(zāi)事件”和2016年“醫(yī)患關(guān)系的改善”兩個(gè)話(huà)題的數(shù)據(jù)。經(jīng)過(guò)垃圾過(guò)濾和預(yù)處理,我們得到5,733條“天津?yàn)I海新區(qū)救災(zāi)事件”和35,128條“醫(yī)患關(guān)系的改善”微博。
按照“全部一致”準(zhǔn)則,兩位標(biāo)注者分別獨(dú)立地對(duì)“天津?yàn)I海新區(qū)救災(zāi)事件”語(yǔ)料的意圖類(lèi)別進(jìn)行標(biāo)注。得到意圖類(lèi)別分布為:指令類(lèi)1,108條、疑問(wèn)類(lèi)579條、承諾類(lèi)53條、愿望類(lèi)111條、表意類(lèi)1,553條、情感類(lèi)1,816條、斷言類(lèi)996條、立場(chǎng)類(lèi)420條、陳述類(lèi)432條和聲明類(lèi)439條。
為每個(gè)意圖類(lèi)別手工選擇幾個(gè)種子詞,如下表4所示?;诒景l(fā)明步驟100中的方法,自動(dòng)構(gòu)建行為標(biāo)記語(yǔ)詞典。擴(kuò)充詞典的參數(shù)設(shè)定為α和λ1分別為1.6和0.8。最后,得到10個(gè)類(lèi)別下共計(jì)892個(gè)詞匯的行為標(biāo)記語(yǔ)詞典。
表4:種子詞選取的示例
基于構(gòu)建的行為標(biāo)記語(yǔ)詞典,自動(dòng)標(biāo)注“醫(yī)患關(guān)系的改善”語(yǔ)料數(shù)據(jù)。得到的意圖類(lèi)別分布為:指令類(lèi)4,110條、疑問(wèn)類(lèi)1,791條、承諾類(lèi)1,686條、愿望類(lèi)351條、表意類(lèi)1,616條、情感類(lèi)1,124條、斷言類(lèi)4,226條、立場(chǎng)類(lèi)3,056條、陳述類(lèi)4,215條和聲明類(lèi)2,670條。
本發(fā)明選擇自動(dòng)標(biāo)注語(yǔ)料作訓(xùn)練數(shù)據(jù)集、人工標(biāo)注語(yǔ)料作測(cè)試數(shù)據(jù)集的方法進(jìn)行實(shí)驗(yàn)。具體地:
選擇用本發(fā)明方法自動(dòng)標(biāo)注的“醫(yī)患關(guān)系的改善”語(yǔ)料作為訓(xùn)練數(shù)據(jù)集,選擇人工標(biāo)注的“天津?yàn)I海新區(qū)救災(zāi)事件”語(yǔ)料作為測(cè)試數(shù)據(jù)集;
基于本發(fā)明中的特征分類(lèi)器,驗(yàn)證交互意圖識(shí)別效果。本發(fā)明方法對(duì)用戶(hù)交互意圖的識(shí)別性能如表5所示:
表5:交互意圖識(shí)別的實(shí)驗(yàn)效果
從表5中,可以看到,本發(fā)明提出的方法雖然使用完全無(wú)監(jiān)督的自動(dòng)標(biāo)注數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),但本發(fā)明的方法在多數(shù)情況下取得良好的性能。
本發(fā)明的方法的優(yōu)點(diǎn)如下:
本發(fā)明提出的基于言語(yǔ)行為理論進(jìn)行用戶(hù)交互意圖識(shí)別方法,借助了言語(yǔ)行為理論的分類(lèi)方案,提出了更為通用的用戶(hù)交互意圖分類(lèi)體系;已有的意圖識(shí)別工作中,意圖類(lèi)型集中在特定領(lǐng)域,無(wú)法對(duì)其他交互意圖類(lèi)型進(jìn)行識(shí)別。
本發(fā)明提出了利用外部知識(shí)源構(gòu)建行為標(biāo)記語(yǔ)詞典的方法,并基于詞典自動(dòng)標(biāo)注數(shù)據(jù),解決了意圖語(yǔ)料不足的問(wèn)題;通過(guò)上述行為標(biāo)記語(yǔ)構(gòu)建示例可以發(fā)現(xiàn),本發(fā)明提出的方法在輸入文本較少的情況下,利用外部知識(shí)源和相似度比較,依然可以有效擴(kuò)充并發(fā)現(xiàn)行為標(biāo)記語(yǔ)單詞(或短語(yǔ))。
本發(fā)明利用自動(dòng)標(biāo)注語(yǔ)料,基于特征對(duì)用戶(hù)交互意圖分類(lèi)識(shí)別,驗(yàn)證了本方法不但可以識(shí)別用戶(hù)的交互意圖類(lèi)型,而且在大規(guī)模數(shù)據(jù)下效果良好。因此,在輸出結(jié)果的可解釋性、使用靈活性及有效性方面較已有方法具有明顯的優(yōu)勢(shì)。
此外,本發(fā)明還提供一種基于言語(yǔ)行為理論的用戶(hù)交互意圖識(shí)別系統(tǒng)。如圖3所示,本發(fā)明基于言語(yǔ)行為理論的用戶(hù)交互意圖識(shí)別系統(tǒng)包括構(gòu)建模塊1、自動(dòng)標(biāo)注模塊2及識(shí)別模塊3。其中,所述構(gòu)建模塊1基于外部知識(shí)源構(gòu)建行為標(biāo)記語(yǔ)詞典,各意圖類(lèi)別分別對(duì)應(yīng)一個(gè)行為標(biāo)記語(yǔ)詞典,每個(gè)所述行為標(biāo)記語(yǔ)詞典中包含有多個(gè)行為標(biāo)記語(yǔ);所述自動(dòng)標(biāo)注模塊2根據(jù)所述行為標(biāo)記語(yǔ)詞典,自動(dòng)標(biāo)注用戶(hù)在社交媒體平臺(tái)上輸入的在線(xiàn)文本的意圖;所述識(shí)別模塊3利用自動(dòng)標(biāo)注語(yǔ)料訓(xùn)練基于特征的分類(lèi)器對(duì)所述在線(xiàn)文本的意圖進(jìn)行分類(lèi)識(shí)別,確定用戶(hù)的交互意圖類(lèi)別。
相對(duì)于現(xiàn)有技術(shù),本發(fā)明基于言語(yǔ)行為理論的用戶(hù)交互意圖識(shí)別系統(tǒng)與基于言語(yǔ)行為理論的用戶(hù)交互意圖識(shí)別方法的有益效果相同,在此不再贅述。
本領(lǐng)域技術(shù)人員應(yīng)該能夠意識(shí)到,結(jié)合本文中所公開(kāi)的實(shí)施例描述的各示例的模塊及方法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來(lái)實(shí)現(xiàn),為了清楚地說(shuō)明電子硬件和軟件的可互換性,在上述說(shuō)明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以電子硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。本領(lǐng)域技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來(lái)使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
至此,已經(jīng)結(jié)合附圖所示的優(yōu)選實(shí)施方式描述了本發(fā)明的技術(shù)方案,但是,本領(lǐng)域技術(shù)人員容易理解的是,本發(fā)明的保護(hù)范圍顯然不局限于這些具體實(shí)施方式。在不偏離本發(fā)明的原理的前提下,本領(lǐng)域技術(shù)人員可以對(duì)相關(guān)技術(shù)特征作出等同的更改或替換,這些更改或替換之后的技術(shù)方案都將落入本發(fā)明的保護(hù)范圍之內(nèi)。