本發(fā)明涉及人機交互技術領域,尤其涉及一種用于智能問答的信息處理系統及方法。
背景技術:
人機交互是研究系統與用戶之間的交互關系的科學。系統可以是各種各樣的機器,也可以是計算機化的系統和軟件。例如,通過人機交互可以實現各種人工智能系統,例如,智能客服系統、語音控制系統等等。
智能問答系統是人機交互的一種典型應用,其中當用戶提出問題后,智能問答系統給出該問題的答案。為此,智能問答系統中有一套知識庫,里面有大量的問題和與每個問題相對應的答案。智能問答系統首先需要識別用戶所提出的問題,即從知識庫中找到與該用戶問題所對應的問題,然后找出與該問題相匹配的答案。
知識庫的配置至關重要。針對不同項目的智能問答系統需要配置不同的知識庫,例如針對醫(yī)療行業(yè)和金融行業(yè)兩個完全不同的項目需要配置不同的知識庫?,F有技術中都是采用人工的方式向該項目知識庫中添加知識分類,即部署單獨環(huán)境,在各個環(huán)境中分別錄入所有所需的知識的方式來實現知識與所屬項目的對應,這種人工實現成本高,效率低,最終減慢整個項目的進度。
技術實現要素:
以下給出一個或多個方面的簡要概述以提供對這些方面的基本理解。此概述不是所有構想到的方面的詳盡綜覽,并且既非旨在指認出所有方面的關鍵性或決定性要素亦非試圖界定任何或所有方面的范圍。其唯一的目的是要以簡化形式給出一個或多個方面的一些概念以為稍后給出的更加詳細的描述之序。
本發(fā)明提供了一種信息處理系統及方法,以解決不同項目知識庫錄入知識人工實現成本高,效率低的問題。
一方面,本發(fā)明提供了一種信息處理方法,包括:
將知識庫中的知識分組,以獲得多個知識集,每個知識集與一知識類別相關聯,每個知識集的知識點包括問句和相關聯的答案,其中所述問句包括標準問及其擴展問;以及
依據賬戶所需的知識類別為賬戶指派所述多個知識集中的至少一個知識集,以用于來自該賬戶的用戶問句的問句應答。
另一方面,本發(fā)明提供了一種信息處理系統,包括:
知識庫,所述知識庫中的知識用于為用戶問句提供應答;
分組模塊,用于將所述知識庫中的知識分組,以獲得多個知識集,每個知識集與一知識類別相關聯,每個知識集的知識點包括問句和相關聯的答案,其中所述問句包括標準問及其擴展問;以及
指派模塊,用于為賬戶指派所述多個知識集中的至少一個知識集,以用于來自該賬戶的用戶問句的問句應答。
與現有技術相比,本發(fā)明的有益技術效果為:通過將知識分為不同的知識類別的知識集,不同的項目可以使用公共的知識庫,只需要按需為之指派知識集即可,大大提高了效率。通過自定義知識集,改善了識別準確率,因為用戶自己提供的知識點往往具有較高的準確性和針對性,同時可以不斷完善智能問答系統。
附圖說明
在結合以下附圖閱讀本公開的實施例的詳細描述之后,能夠更好地理解本發(fā)明的上述特征和優(yōu)點。在附圖中,各組件不一定是按比例繪制,并且具有類似的相關特性或特征的組件可能具有相同或相近的附圖標記。
圖1是示出了根據本發(fā)明的一方面的信息處理方法的流程圖;
圖2是示出了根據本發(fā)明的一方面的智能問答流程的流程圖;以及
圖3是示出了根據本發(fā)明的一方面的信息處理系統的框圖。
具體實施方式
以下結合附圖和具體實施例對本發(fā)明作詳細描述。注意,以下結合附圖和具體實施例描述的諸方面僅是示例性的,而不應被理解為對本發(fā)明的保護范圍進行任何限制。
知識庫中的基本知識點最原始和最簡單的形式就是平時常用的FAQ,一般的形式是“問-答”對。在本發(fā)明中,“標準問”是用來表示某個知識點的文字,主要目標是表達清晰,便于維護。例如,“彩鈴的資費”就是表達清晰的標準問描述。這里的“問”不應被狹義地理解為“詢問”,而應廣義地來理解一“輸入”,該“輸入”具有對應的“輸出”。例如,對于用于控制系統的語義識別而言,用戶的一個指令,例如“打開收音機”也應可以被理解為是一個“問”,此時對應的“答”可以是用于執(zhí)行相應控制的控制程序的調用。
用戶在向機器輸入時,最理想的情況是使用標準問,則機器的智能語義識別系統馬上能夠理解用戶的意思。然而,用戶往往并非使用的是標準問,而是標準問的一些變形的形式。例如,若對于收音機的電臺切換的標準問形式是“換一個電臺”,那么用戶可能使用的命令是“切換一個電臺”,機器也需要能夠識別用戶表達的是同一個意思。
因此,對于智能語義識別而言,知識庫里需要有標準問的擴展問,該擴展問與標準問表達形式有略微差異,但是表達相同的含義。
進一步,為了更準確、高效地識別用戶問題,智能問答系統還發(fā)展出了抽象語義的概念。抽象語義是對本體類屬性的進一步抽象。一個類別的抽象語義通過一組抽象語義表達式的集合來描述一類抽象語義的不同表達,為表達更為抽象的語義,這些抽象語義表達式在組成元素上進行了擴充。當這些擴充的元素一旦被賦予了相應的值就可以表達各種各樣的具體語義。
每一個抽象語義表達式主要可包括缺失語義成分和語義規(guī)則詞。缺失語義成分由語義成分符表示,當這些缺失的語義成分被填充了相應的值(即內容)后可以表達各式各樣的具體語義。
抽象語義的語義成分符可包括:
[concept]:表示主體或客體成份的詞或短語。
比如:“彩鈴如何開通”中的“彩鈴”
[action]:表示動作成分的詞或短語。
比如:“信用卡如何辦理”中的“辦理”
[attribute]:表示屬性成份的詞或短語。
比如:“iphone有哪些顏色”中的“顏色”
[adjective]:表示修飾成分的詞或短語。
比如:“冰箱哪個品牌便宜”中的“便宜”
一些主要的抽象語義類別示例有:
概念說明[concept]是什么
屬性構成[concept]有哪些[attribute]
行為方式[concept]如何[action]
行為地點[concept]在什么地方[action]
行為原因[concept]為什么會[action]
行為預測[concept]會不會[action]
行為判斷[concept]有沒有[attribute]
屬性狀況[concept]的[attribute]是不是[adjective]
屬性判斷[concept]是不是有[attribute]
屬性原因[concept]的[attribute]為什么這么[adjective]
概念比較[concept1]和[concept2]的區(qū)別在哪里
屬性比較[concept1]和[concept2]的[attribute]有什么不同之處
問句在抽象語義層面的成份判斷可以通過詞性標注來做一般的評判,concept對應的詞性為名詞,action對應的詞性為動詞、attribute對應的詞性為名詞、adjective對應的是形容詞。
以類別為“行為方式”的抽象語義[concept]如何[action]為例,該類別的抽象語義集合下可包括多條抽象語義表達式:
抽象語義類別:行為方式
抽象語義表達式:
a.[concept][需要|應該?][如何]<才[可以]?><進行?>[action]
b.{[concept]~[action]}
c.[concept]<的?>[action]<方法|方式|步驟?>
d.<有哪些|有什么|有沒有><通過|用|在>[concept][action]<的?>[方法]
e.[如何][action]~[concept]
上述a、b、c、d四個抽象語義表達式都是用來描述“行為方式”這一抽象語義類別的。符號“|”表示“或”關系,符號“?”表示該成分可有可無。以上述抽象語義表達式c為例,可展開為以下的抽象語義表達:
c1.[concept]<的>[action]<方法>
c2.[concept]<的>[action]<方式>
c3.[concept]<的>[action]<步驟>
c4.[concept]<的>[action]
c5.[concept][action]<方法>
c6.[concept][action]<方式>
c7.[concept][action]<步驟>
c8.[concept][action]
在上述抽象語義表達式中,除了作為缺失語義成分的抽象的語義成分符之外,其他出現的具體的詞如“如何”、“應該”、“方法”等等,這些詞需要在抽象語義規(guī)則中被使用,所以可統稱為語義規(guī)則詞。
以上介紹了智能問答系統中的一些基本概念。
本發(fā)明中,在一個公共的知識庫中對知識進行分類,使得不同應用場景的項目按需調用相應類別的知識,從而實現不同應用場景的項目之間對一個公共知識庫的共用。以此方式,運營人員只需要對一個知識庫進行部署和維護,而不需要分別針對不同的項目單獨部署和維護不同的知識庫,大大節(jié)省了人力物力。另外,本發(fā)明還允許用戶自己定義知識點以制備專用于該用戶自己的自定義知識集,從而提升問答準確率。
圖1是示出了根據本發(fā)明的一方面的信息處理方法100的流程圖。該信息處理方法100可用于智能問答系統的知識庫的部署和維護。
如圖1所示,信息處理方法100可包括以下步驟:
步驟102:將知識庫中的知識分組,以獲得多個知識集,每個知識集與一知識類別相關聯。每個知識集的知識點包括問句和相關聯的答案,其中問句包括標準問及其擴展問。
知識的分組以知識的類別為基礎,不同知識類別的知識點被分為不同的知識集。這里的“知識類別”可以是管理員希望用來對知識進行區(qū)分的任何類別。作為示例,知識類別可以包括景點知識類、酒店知識類、公交線路知識類等等。
步驟104:依據賬戶所需的知識類別為賬戶指派這多個知識集中的至少一個知識集,以用于來自該賬戶的用戶問句的問句應答。
這里的“賬戶”與不同的應用領域的應用相對應,為每個應用指派一個賬戶。例如針對為旅游局的項目開發(fā)的應用,為其指派一個賬戶,針對為民政局的項目開發(fā)的應用,為其指派一個賬戶。以此方式,可基于賬戶來管理不同應用所用到的知識。這里的“應用”可以是智能問答系統的具體應用程序,該應用可以是基于網頁版的網頁程序,也可以是用于移動操作系統的APP。
知識庫中按照知識類別具有許多的知識集,不同的賬戶,即與該賬戶所對應的應用(例如,智能問答系統)需要用到不同的知識。因此,基于該賬戶所需的知識類別為之指派知識庫中的至少一個知識集,以用于來自該賬戶的用戶問句的問句應答。
舉例而言,針對與旅游局項目相關聯的賬戶,為之指派與旅游相關的知識類別的知識集,例如知識集A、B、C、D。針對與民政局項目相關聯的賬戶,為之指派與民政設施相關的知識類別的知識集,例如知識集C、D、E、F。
這里,知識集A、B、C、D的知識類別可以是與旅游相關的,知識集C、D、E、F的知識類別可以是與民政設施相關的。
在本發(fā)明中,為不同賬戶所指派的知識集中可能有公共的知識集。例如,如前所述,為第一賬戶(旅游局項目)指派的知識集A、B、C、D與為第二賬戶(民政局項目)指派的知識集C、D、E、F之間存在公共的知識集C、D。
這是因為該公共的知識集C、D的知識類別可能同時與這兩個賬戶的應用領域相關。知識集C的知識類別可能為酒店知識類,知識集D的知識類別可能為公交線路類。這兩個知識類別的知識既屬于與旅游相關的信息,也屬于與地方政府的民政設施相關的信息。
往往不同的項目之間可能會用到相同的知識,按照傳統方式,需要為每個項目部署獨立的知識庫,其中涉及大量知識的重復部署。在本發(fā)明中,通過將知識分為不同的知識類別的知識集,不同的項目可以使用公共的知識庫,只需要按需為之指派知識集即可,大大提高了效率。
根據本發(fā)明的另一方面,可基于由用戶針對一賬戶提供的知識點制備用于該賬戶的自定義知識集,以用于來自該賬戶的用戶問句的問句應答。這提供了知識點的用戶自定義功能。
這里的“用戶”可以是該賬戶所對應的應用的權利所有人,也可以是該賬戶的直接使用者。例如,對于為旅游局開發(fā)的應用(例如,一款與旅游相關的智能問答系統的APP),該“用戶”可以是這款應用的權利所有人,即旅游局,也可以是這款應用的使用者,即游客。無論是旅游局還是游客都可以自行提供知識點,以不斷完善這款應用。
可通過向用戶提供接口來接收用戶提供的知識點,例如在應用中提供一個專用于輸入知識點的用戶界面。用戶輸入的知識點可以是問句+答案的形式。
然而,用戶提供的知識點往往并不能直接被用于智能問答系統。標準的用于智能問答系統的知識點包括標準問及其擴展問,如上所述的。因此,首先需要為用戶提供的每一知識點建立該知識點的標準問。標準問的建立可以通過對用戶提供的知識點中的問句進行編輯而成。
制備自定義知識集的關鍵在于為建立的標準問擴展出若干擴展問。
在本發(fā)明中,擴展問的生成借用了抽象語義表達式。為此,首先需要提供一個抽象語義數據庫,其中包括多個抽象語義表達式,抽象語義表達式包括缺失語義成份。
圖2示出了對標準問進行擴展的方法200的流程圖。如圖2所示,方法200可包括如下步驟。
步驟202,根據抽象語義數據庫對該標準問進行抽象語義推薦處理,以獲得與該標準問對應的一個或多個抽象語義表達式。
例如,一個標準問為:“怎么查違章”。
首先,需要找到抽象語義數據庫中與該標準問相對應的抽象語義表達式。在一實例中,該抽象語義推薦首先對該標準問進行分詞處理,得到若干單詞,該單詞為語義規(guī)則詞或非語義規(guī)則詞。
例如,“怎么查違章”可分為單詞“怎么”、“查”、“違章”。這些單詞中,“怎么”為語義規(guī)則詞,“查”和“違章”是非語義規(guī)則詞。
然后,分別對每個非語義規(guī)則詞進行詞性標注處理,例如“查”被標注為動詞,“違章”被標注為名詞。
之后,對每個語義規(guī)則詞進行詞類判斷處理,得到每個語義規(guī)則詞的詞類信息。詞類簡單的理解即為一組有共性的詞,這些詞在語義上可以相似也可以不相似。
最后,根據這些詞性信息和詞類信息對抽象語義數據庫進行搜索處理,得到與標準問“怎么查違章”匹配的抽象語義表達式。
實踐中,與用戶匹配的抽象語義表達式滿足以下條件:
1)抽象語義表達式的缺失語義成分對應的詞性包括標準問對應的填充內容的詞性;
2)抽象語義表達式和標準問中對應的語義規(guī)則詞相同或屬于同一詞類;
3)抽象語義表達式的順序與標準問的表達順序相同。
在上述抽象語義類別“行為方式”中,抽象語義表達式e的缺失語義成分action的詞性為動詞,標準問“怎么查違章”對應的填充內容“查”也為動詞,缺失語義成分concept的詞性為名詞,標準問“怎么查違章”對應的填充內容“違章”也為名詞,因此符合上述條件1)。
其次,抽象語義表達式e中的語義規(guī)則詞“如何”與標準問“怎么查違章”中對應的語義規(guī)則詞“怎么”屬于同一詞類,因此符合上述條件2)。
最后,抽象語義表達式e的順序也與標準問的表達順序相同,符合上述條件3)。
因此,在抽象語義數據庫中,找到與標準問“怎么查違章”匹配的抽象語義表達式e,即[如何][action]~[concept]。該抽象語義表達式屬于“行為方式”類別,由于一個類別中的抽象語義表達式具有相同的表達含義,因此在本發(fā)明中,為上述標準問推薦“行為方式”這一類別的抽象語義表達式的集合。換言之,所匹配的抽象語義表達式所屬的類別中的所有抽象語義表達式皆被推薦為與該標準問相對應的抽象語義表達式。
步驟204,從該標準問中提取與一個或多個抽象語義表達式的缺失語義成分對應的內容,并將提取的內容填充到對應的缺失語義成分中以得到與該標準問對應的一個或多個具體語義表達式。這些具體語義表達式作為該標準問的擴展問。
以上述標準問“怎么查違章”為例,推薦如下的抽象語義表達式:
a.[concept][需要|應該?][如何]<才[可以]?><進行?>[action]
b.{[concept]~[action]}
c.[concept]<的?>[action]<方法|方式|步驟?>
d.<有哪些|有什么|有沒有><通過|用|在>[concept][action]<的?>[方法]
e.[如何][action]~[concept]
用上述抽象語義表達式對標準問“怎么查違章”進行擴充處理。
在一實例中,從標準問中提取與每一抽象語義表達式的缺失語義成分對應的內容,并將提取的內容填充至每一抽象語義表達式對應的缺失語義成分中以得到與該標準問對應的具體語義表達式。
以抽象語義表達式a:[concept][需要|應該?][如何]<才[可以]?><進行?>[action]為例,從“怎么”、“查”、“違章”中提取與該表達式的缺失語義成分對應的內容:
concept對應的內容:“違章”
action對應的內容:“查”
因此,將“查”和“違章”違章填充至對應的缺失語義成分得到一具體語義表達式:[違章][需要|應該?][如何]<才[可以]?><進行?>[查詢]。
以抽象語義表達式b.{[concept]~[action]}為例,從“怎么”、“查”、“違章”中提取與該表達式的缺失語義成分對應的內容:
concept對應的內容:“違章”
action對應的內容:“查”
因此,將“查”和“違章”違章填充至對應的缺失語義成分得到一具體語義表達式:[違章][查詢]。
以抽象語義表達式c.[concept]<的?>[action]<方法|方式|步驟?>為例,從“怎么”、“查”、“違章”中提取與該表達式的缺失語義成分對應的內容:
concept對應的內容:“違章”
action對應的內容:“查”
因此,將“查”和“違章”違章填充至對應的缺失語義成分得到一具體語義表達式:[違章]<的?>[查詢]<方法|方式|步驟?>。
以抽象語義表達式d.<有哪些|有什么|有沒有><通過|用|在>[concept][action]<的?>[方法]為例,從“怎么”、“查”、“違章”中提取與該表達式的缺失語義成分對應的內容:
concept對應的內容:“違章”
action對應的內容:“查”
因此,將“查”和“違章”違章填充至對應的缺失語義成分得到一具體語義表達式:<有哪些|有什么|有沒有><通過|用|在>[違章][查詢]<的?>[方法]。
上述描述了如何利用抽象語義數據庫對標準問進行擴展的過程。
在針對某一賬戶建立了自定義知識集后,針對來自該賬戶的用戶問句,當首先利用該自定義知識集為其用戶問句執(zhí)行知識匹配以提供答案,若匹配失敗,再利用該用戶的所指派知識集為其用戶問句執(zhí)行知識匹配以提供答案。如果再次匹配失敗,則系統可以輸出預設的答案,例如“對不起,請重新輸入”。
通過自定義知識集,改善了識別準確率,因為用戶自己提供的知識點往往具有較高的準確性和針對性,同時可以不斷完善智能問答系統。
盡管為使解釋簡單化將上述方法圖示并描述為一系列動作,但是應理解并領會,這些方法不受動作的次序所限,因為根據一個或多個實施例,一些動作可按不同次序發(fā)生和/或與來自本文中圖示和描述或本文中未圖示和描述但本領域技術人員可以理解的其他動作并發(fā)地發(fā)生。
圖3是示出了根據本發(fā)明的一方面的信息處理系統300的框圖。
如圖3所示,信息處理系統300可包括知識庫301、分組模塊302、指派模塊303、知識制備模塊304、抽象語義數據庫305、匹配模塊306、以及輸出模塊307。
知識庫301中的知識可用于為用戶問句提供應答。在本發(fā)明中,分組模塊302將知識庫301中的知識分組,以獲得多個知識集,每個知識集與一知識類別相關聯。指派模塊303為賬戶指派所述多個知識集中的至少一個知識集,以用于來自該賬戶的用戶問句的問句應答。
在一實例中,分組模塊302可為第一賬戶指派多個知識集中的第一預定數目個知識集,以及為第二賬戶指派多個知識集中的第二預定數目個知識集,該第一預定數目個知識集與該第二預定數目個知識集之間可具有公共的知識集。
在一實例中,知識制備模塊304可基于由用戶針對一賬戶提供的知識點制備用于該賬戶的自定義知識集,以用于來自該賬戶的用戶問句的問句應答。
往往不同的項目之間可能會用到相同的知識,按照傳統方式,需要為每個項目部署獨立的知識庫,其中涉及大量知識的重復部署。在本發(fā)明中,通過將知識分為不同的知識類別的知識集,不同的項目可以使用公共的知識庫,只需要按需為之指派知識集即可,大大提高了效率。
具體而言,知識制備模塊304可為用戶提供的每一知識點建立該知識點的標準問,并進一步為建立的標準問擴展出若干擴展問。擴展問的生成可利用抽象語義數據庫305來完成。具體而言,知識制備模塊304可根據抽象語義數據庫305對標準問進行抽象語義推薦處理,當獲得與該標準問對應的一個或多個抽象語義表達式時,從該標準問中提取與一個或多個抽象語義表達式的缺失語義成分對應的內容,并將提取的內容填充到對應的缺失語義成分中以得到與該標準問對應的一個或多個具體語義表達式。
針對來自預定賬戶的用戶問句,當該預定賬戶有相關聯的自定義知識集時,匹配模塊306首先利用其自定義知識集為該用戶問句執(zhí)行知識匹配以提供答案,若匹配失敗,則利用該用戶的所指派知識集為該用戶問句執(zhí)行知識匹配以提供答案。
在一實例中,匹配模塊306可包括語義相似度計算單元(圖中未示出),用于將該用戶問句與用于知識匹配的知識集中的問句執(zhí)行語義相似度計算,語義相似度高于閾值的問句中具有最高語義相似度的問句被確定為匹配問句。輸出模塊307將與該匹配問句相關聯的答案提供給用戶。
通過自定義知識集,改善了識別準確率,因為用戶自己提供的知識點往往具有較高的準確性和針對性,同時可以不斷完善智能問答系統。
本發(fā)明中信息處理系統的具體實現方式可參見信息處理方法實施例,在此不再贅述。
提供對本公開的先前描述是為使得本領域任何技術人員皆能夠制作或使用本公開。對本公開的各種修改對本領域技術人員來說都將是顯而易見的,且本文中所定義的普適原理可被應用到其他變體而不會脫離本公開的精神或范圍。由此,本公開并非旨在被限定于本文中所描述的示例和設計,而是應被授予與本文中所公開的原理和新穎性特征相一致的最廣范圍。