欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種回答自然語言問題的方法與裝置的制作方法

文檔序號:6365002閱讀:157來源:國知局
專利名稱:一種回答自然語言問題的方法與裝置的制作方法
技術領域
本發(fā)明涉及搜索引擎的技術領域,具體地涉及一種回答自然語言問題的方法,該提供了使用該方法的裝置。
背景技術
伴隨互聯(lián)網(wǎng)上的信息資源的多樣化趨勢,網(wǎng)絡上不斷涌現(xiàn)出大量的具有一定組織結構的信息資源載體。當前主要基于關鍵字匹配的搜索引擎技術雖然在文檔檢索中有著較好的搜索效果,然而卻并不能滿足結構化信息源對檢索精確性的要求。另一方面,雖然現(xiàn)有的數(shù)據(jù)庫檢索技術能夠?qū)崿F(xiàn)精確檢索,然而由于它完全基于特定的數(shù)據(jù)庫查詢語言,因此無法實現(xiàn)面向廣大普通用戶的商用服務。

發(fā)明內(nèi)容
為克服現(xiàn)有技術的缺陷,本發(fā)明要解決的技術問題是提供了一種滿足結構化信息源對檢索精確性的要求、滿足廣大普通互聯(lián)網(wǎng)用戶日益增長的信息獲取方面的需求的回答自然語言問題的方法。本發(fā)明的技術方案是這種回答自然語言問題的方法,包括以下步驟(I)生成實體-屬性模型,進行實體-屬性對集合的收集及特征提??;(2)執(zhí)行用戶查詢分析,當用戶輸入查詢內(nèi)容時,將該查詢內(nèi)容映射到它對應的用戶需求的實體-屬性對,其中查詢內(nèi)容即自然語言問題。還提供了一種回答自然語言問題的裝置,包括(I)實體-屬性模型,其進行實體-屬性對集合的收集及特征提??;(2)用戶查詢分析模型,當用戶輸入查詢內(nèi)容時,利用用戶查詢分析模型將該查詢內(nèi)容映射到它對應的用戶需求的實體-屬性對,其中查詢內(nèi)容即自然語言問題。由于采用了實體-屬性對的模式對用戶查詢的需求進行建模,經(jīng)過建模,每一個用戶查詢將對應于一個實體-屬性對,而該實體-屬性對可以對大部分現(xiàn)有的結構化或半結構化信息資源進行索引,所以滿足結構化信息源對檢索精確性的要求、滿足廣大普通互聯(lián)網(wǎng)用戶日益增長的信息獲取方面的需求。


圖I是根據(jù)本發(fā)明的回答自然語言問題的方法的流程圖;圖2是步驟(I)的流程圖;圖3是步驟(I. 3)的流程圖;圖4是步驟⑵的流程圖;圖5是步驟(2. 4)的流程圖;圖6是步驟(2. 4. 2)的流程圖。
具體實施例方式下面對本發(fā)明的技術方案做進一步的詳細描述。如圖I所示,這種回答自然語言問題的方法,包括以下步驟(1)生成實體-屬性模型,進行實體-屬性對集合的收集及特征提??;(2)執(zhí)行用戶查詢分析,當用戶輸入查詢內(nèi)容時,將該查詢內(nèi)容映射到它對應的用戶需求的實體-屬性對,其中查詢內(nèi)容即自然語言問題。由于采用了實體-屬性對的模式對用戶查詢的需求進行建模,經(jīng)過建模,每一個用戶查詢將對應于一個實體-屬性對,而該實體-屬性對可以對大部分現(xiàn)有的結構化或半結構化信息資源進行索引,所以滿足結構化信息源對檢索精確性的要求、滿足廣大普通互聯(lián)網(wǎng)用戶日益增長的信息獲取方面的需求。優(yōu)選地,如圖2所示,步驟(1)包括以下分步驟(1. 1)實體抽取從在線的開放百科檔案中獲取實體名;(1. 2)屬性抽取從用戶的查詢內(nèi)容中抽取出每一類實體的屬性名;(1. 3)屬性特征生成從用戶的查詢內(nèi)容中抽取每一屬性相關的問題的最佳答案文本作為該屬性的特征;(I. 4)實體-屬性對模型生成將每一個實體名和該實體所具有的屬性名組成實體-屬性對,并結合該實體-屬性對的屬性特征生成實體-屬性模型。更進一步地,如圖3所示,步驟(1. 3)包括以下分步驟(1. 3. I)檢索出問題文本中包含該屬性名的所有問答數(shù)據(jù);(1.3.2)過濾掉問題文本中不包含與用戶關注的實體名同類的實體名的問答數(shù)據(jù);(1. 3. 3)以BM25算法對檢索出的問題依據(jù)它與屬性名的相似程度排序;(1.3.4)將排序結果中的前k個問題的最佳答案的文本集合作為該屬性的特征,k為正整數(shù)。優(yōu)選地,如圖4所示,步驟(2)包括以下分步驟(2. 1)查詢預處理檢測并回退無法從結構化或半結構化信息源中檢索出答案的用戶的查詢;(2.2)用戶查詢分析將用戶的查詢內(nèi)容分拆為實體相關和屬性相關兩部分內(nèi)容;(2. 3)用戶查詢所關注的實體的提取使用關鍵詞匹配技術從實體相關的查詢內(nèi)容中提取出用戶關注的實體名;(2. 4)用戶查詢所關注的屬性的提取使用基于語言模型和作者-話題模型的混合模型根據(jù)屬性相關的查詢內(nèi)容預測用戶關注的屬性名;(2. 5)分析結果后處理將所提取的用戶關注的實體名和屬性名組合成實體-屬性對,輸出該實體-屬性對。更進一步地,如圖5所示,步驟(2. 4)包括以下分步驟(2.4. 1)生成候選屬性名列表根據(jù)已經(jīng)提取出的實體名,得到它所具有的全部屬性作為候選屬性;(2. 4. 2)屬性相關的查詢內(nèi)容的特征生成從問答數(shù)據(jù)中抽取該內(nèi)容文本相關的問題的最佳答案文本作為該查詢內(nèi)容的特征;(2. 4. 3)計算屬性相關的查詢內(nèi)容的特征與各候選屬性特征的語義關聯(lián)使用如下公式計算該語義關聯(lián)的數(shù)值rel(phr,att) = μ · relsim(phr, att) + (l~u ) · relint (phr, att)其中,phr表示查詢內(nèi)容,att表示候選屬性,且有,relsim (phr, att) = sim(F , Fatt) = K:
I Fphr Il Ku I reIint (phr, att) = p (a = att | Fphr)其中,F(xiàn)*表示提取出的特征文檔,sim(·,·)為文檔間的相似度計算,在實際應用中可以采用余弦距離(如上式)或其他具體的度量方法;p(a = · I ·)表示作者-話題模型中的作者對給定文本的后驗概率;(2.4.4)結果輸出選擇與查詢的語義關聯(lián)數(shù)值最大的一個或多個屬性名,輸出該一個或多個屬性名。更進一步地,如圖6所示,步驟(2. 4. 2)包括以下分步驟(2. 4. 2. I)檢索出問題文本中匹配該內(nèi)容文本的所有問答數(shù)據(jù);(2. 4. 2. 2)過濾掉問題文本中不包含與用戶關注的實體名同類的實體名的問答數(shù)據(jù);(2. 4. 2. 3)以BM25算法對檢索出的問題依據(jù)它與屬性名的相似程度排序;(2.4.2.4)將排序結果中的前k個問題的最佳答案的文本集合作為該屬性的特征,k為正整數(shù)。還提供了一種回答自然語言問題的裝置,包括(I)實體-屬性模型,其進行實體-屬性對集合的收集及特征提取;(2)用戶查詢分析模型,當用戶輸入查詢內(nèi)容時,利用用戶查詢分析模型將該查詢內(nèi)容映射到它對應的用戶需求的實體-屬性對,其中查詢內(nèi)容即自然語言問題。以上所述,僅是本發(fā)明的較佳實施例,并非對本發(fā)明作任何形式上的限制,凡是依據(jù)本發(fā)明的技術實質(zhì)對以上實施例所作的任何簡單修改、等同變化與修飾,均仍屬本發(fā)明技術方案的保護范圍。
權利要求
1.一種回答自然語言問題的方法,其特征在于包括以下步驟 (1)生成實體-屬性模型,進行實體-屬性對集合的收集及特征提?。? (2)執(zhí)行用戶查詢分析,當用戶輸入查詢內(nèi)容時,將該查詢內(nèi)容映射到它對應的用戶需求的實體-屬性對,其中查詢內(nèi)容即自然語言問題。
2.根據(jù)權利要求I所述的回答自然語言問題的方法,其特征在于步驟(I)包括以下分步驟 (I. D實體抽取從在線的開放百科檔案中獲取實體名; (1.2)屬性抽取從用戶的查詢內(nèi)容中抽取出每一類實體的屬性名; (1.3)屬性特征生成從用戶的查詢內(nèi)容中抽取每一屬性相關的問題的最佳答案文本作為該屬性的特征; (1. 4)實體-屬性對模型生成將每一個實體名和該實體所具有的屬性名組成實體-屬性對,并結合該實體-屬性對的屬性特征生成實體-屬性模型。
3.根據(jù)權利要求2所述的回答自然語言問題的方法,其特征在于步驟(1.3)包括以下分步驟 (I. 3. I)檢索出問題文本中包含該屬性名的所有問答數(shù)據(jù); (1.3. 2)過濾掉問題文本中不包含與用戶關注的實體名同類的實體名的問答數(shù)據(jù); (I. 3. 3)以BM25算法對檢索出的問題依據(jù)它與屬性名的相似程度排序; (1.3. 4)將排序結果中的前k個問題的最佳答案的文本集合作為該屬性的特征,k為正整數(shù)。
4.根據(jù)權利要求I所述的回答自然語言問題的方法,其特征在于步驟(2)包括以下分步驟 (2. I)查詢預處理檢測并回退無法從結構化或半結構化信息源中檢索出答案的用戶的查詢; (2. 2)用戶查詢分析將用戶的查詢內(nèi)容分拆為實體相關和屬性相關兩部分內(nèi)容; (2. 3)用戶查詢所關注的實體的提取使用關鍵詞匹配技術從實體相關的查詢內(nèi)容中提取出用戶關注的實體名; (2. 4)用戶查詢所關注的屬性的提取使用基于語言模型和作者-話題模型的混合模型根據(jù)屬性相關的查詢內(nèi)容預測用戶關注的屬性名; (2. 5)分析結果后處理將所提取的用戶關注的實體名和屬性名組合成實體-屬性對,輸出該實體-屬性對。
5.根據(jù)權利要求4所述的回答自然語言問題的方法,其特征在于步驟(2.4)包括以下分步驟 (2. 4. I)生成候選屬性名列表根據(jù)已經(jīng)提取出的實體名,得到它所具有的全部屬性作為候選屬性; (2.4. 2)屬性相關的查詢內(nèi)容的特征生成從問答數(shù)據(jù)中抽取該內(nèi)容文本相關的問題的最佳答案文本作為該查詢內(nèi)容的特征; (2. 4. 3)計算屬性相關的查詢內(nèi)容的特征與各候選屬性特征的語義關聯(lián)使用如下公式計算該語義關聯(lián)的數(shù)值 rel(phr,att) = μ · relsim(phr, att) + (l~u ) · reIint(phr, att)其中,phr表示查詢內(nèi)容,att表示候選屬性,且有,
6.根據(jù)權利要求5所述的回答自然語言問題的方法,其特征在于步驟(2.4.2)包括以下分步驟(2. 4. 2. I)檢索出問題文本中匹配該內(nèi)容文本的所有問答數(shù)據(jù);(2. 4. 2. 2)過濾掉問題文本中不包含與用戶關注的實體名同類的實體名的問答數(shù)據(jù); (2. 4. 2. 3)以BM25算法對檢索出的問題依據(jù)它與屬性名的相似程度排序;(2. 4. 2. 4)將排序結果中的前k個問題的最佳答案的文本集合作為該屬性的特征,k為正整數(shù)。
7.一種回答自然語言問題的裝置,其特征在于包括(1)實體-屬性模型,其進行實體-屬性對集合的收集及特征提?。?2)用戶查詢分析模型,當用戶輸入查詢內(nèi)容時,利用用戶查詢分析模型將該查詢內(nèi)容映射到它對應的用戶需求的實體-屬性對,其中查詢內(nèi)容即自然語言問題。
全文摘要
公開了一種滿足結構化信息源對檢索精確性的要求、滿足廣大普通互聯(lián)網(wǎng)用戶日益增長的信息獲取方面的需求的回答自然語言問題的方法,包括以下步驟(1)生成實體-屬性模型,進行實體-屬性對集合的收集及特征提取;(2)執(zhí)行用戶查詢分析,當用戶輸入查詢內(nèi)容時,將該查詢內(nèi)容映射到它對應的用戶需求的實體-屬性對,其中查詢內(nèi)容即自然語言問題。還提供了一種回答自然語言問題的裝置。
文檔編號G06F17/30GK102622413SQ201210038078
公開日2012年8月1日 申請日期2012年2月17日 優(yōu)先權日2012年2月17日
發(fā)明者朱小燕, 郝宇, 黃民烈 申請人:清華大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
桓仁| 曲水县| 广宁县| 吉安市| 隆林| 衡水市| 甘德县| 综艺| 日喀则市| 克什克腾旗| 丰顺县| 华安县| 霸州市| 弥渡县| 来安县| 香格里拉县| 富锦市| 三台县| 张家港市| 兴业县| 逊克县| 务川| 南召县| 开封市| 永福县| 南昌县| 长岛县| 抚远县| 广西| 博罗县| 黄大仙区| 桃园市| 黄骅市| 隆化县| 明溪县| 德庆县| 略阳县| 广元市| 临西县| 嵊泗县| 江源县|