使用假設(shè)剪枝提供問題答案的制作方法

文檔序號：6362374閱讀：223來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：使用假設(shè)剪枝提供問題答案的制作方法
技術(shù)領(lǐng)域：
本發(fā)明一般地涉及信息檢索，具體地說，涉及問答。再具體地說，本發(fā)明的各實施例涉及通過生成和評估多個候選答案來實現(xiàn)并行分析以提供問題答案的問/答系統(tǒng)以及方法。
背景技術(shù)：
一般而言，QA是一種類型的信息檢索。如果給出文檔集合(例如萬維網(wǎng)或本地集合)，則系統(tǒng)應(yīng)能夠檢索以自然語言提出的問題的答案。QA被視為比其它類型信息檢索(例如文檔檢索)需要更復(fù)雜的自然語言處理(NLP)技術(shù)，并且有時被視為超越搜索引擎的后續(xù)步驟。QA研究嘗試處理各種問題類型，包括:事實、列表、定義、方式、原因、假設(shè)、語義約束和跨語言問題。·搜索集合有所不同，從小型本地文檔集合到內(nèi)部組織文檔，到編譯后的新聞專線報道，再到萬維網(wǎng)。閉域問答在特定領(lǐng)域(例如，醫(yī)學(xué)或汽車維修)下處理問題，并且可被視為較輕松的任務(wù)，因為NLP系統(tǒng)可利用經(jīng)常以本體形式化的領(lǐng)域特定的知識。備選地，閉域可能指這樣一種情況:其中僅接受受限類型的問題，例如詢問描述性信息而不是過程信息的問題。開域問答處理有關(guān)幾乎任何事情的問題，并且可以僅依賴于通用本體和世界知識。但是開域Q/A系統(tǒng)通常具有更多可從中提取答案的可用數(shù)據(jù)。對信息的訪問目前由兩種范式控制:數(shù)據(jù)庫查詢，其回答有關(guān)結(jié)構(gòu)化記錄集合中的內(nèi)容的問題；以及搜索，其響應(yīng)于針對非結(jié)構(gòu)化數(shù)據(jù)(例如，文本或html)集合的查詢而提供文檔鏈接集合。此類信息查詢范式的主要挑戰(zhàn)在于提供能夠根據(jù)大型文檔集合(所有種類的文檔，包括結(jié)構(gòu)化文檔和非結(jié)構(gòu)化文檔)中包括的信息回答實際問題的計算機程序。這種實際問題可以是寬泛的(例如“what are the risks of vitamin K deficiency (維生素K缺乏的危害是什么？)”)，或者是狹窄的(例如“when and where was Hillary Clinton’sfather born (希拉里.克林頓的父親出生在何時何地？)”)。用戶與此類計算機程序的交互可以是單次用戶-計算機交換，也可以是用戶與計算機系統(tǒng)之間的多輪對話。此類對話可以涉及一種或多種形式(文本、語音、觸覺、手勢等)。此類交互的實例包括這樣一種情形:其中電話用戶使用語音提問，接收語音、文本和圖像(例如，帶有文本注釋的圖)及語音(計算機生成的)解釋組合而成的答案。另一實例是用戶與視頻游戲進行交互，并使用機器可識別的手勢拒絕或接受答案，或者是計算機生成指引用戶的觸覺輸出。
構(gòu)建此類計算機系統(tǒng)的挑戰(zhàn)在于理解查詢，查找可能包含答案的適合文檔，以及提取要提供給用戶的正確答案。目前，理解查詢是一個公開的難題，因為計算機不具備人類理解自然語言的能力，也沒有從當前(非常初級的)自然語言理解系統(tǒng)可生成的許多可能解釋中做出選擇的常識。通過一輪或多輪對話回答實際查詢的能力具有巨大的潛在價值，因為它允許實時存取準確的信息。例如，提高現(xiàn)有問答技術(shù)水平具有巨大商業(yè)價值，因為這樣可以實時了解業(yè)務(wù)狀況、競爭對手、經(jīng)濟條件等。即使QA采取最初級的形式，也可以將信息工作者的生產(chǎn)力提高好幾個量級。公開內(nèi)容在此全部納入作為參考的第12/152,441號美國專利描述了一種QA系統(tǒng)，其針對查詢生成一組候選答案，然后處理(即，檢索支持證據(jù)、評分和排序)所有候選答案。并非始終必須對所有候選答案執(zhí)行該處理。在至少某些情況下，有些候選答案不可能為正確答案，對于這些低質(zhì)量候選答案，不值得付出計算成本來搜索支持證據(jù)。

發(fā)明內(nèi)容
本發(fā)明的各實施例提供一種用于生成問題答案的方法、系統(tǒng)和計算機程序產(chǎn)品。在一個實施例中，所述方法包括接收輸入查詢，在一個或多個數(shù)據(jù)源中執(zhí)行搜索以識別所述輸入查詢的多個候選答案，以及根據(jù)一個或多個定義的條件為每個所述候選答案提供初步得分。所述方法還包括篩選出所述候選答案中任何初步得分不符合定義的條件的候選答案。作為此篩選的結(jié)果，初步得分符合所述定義的條件的候選答案形成所述候選答案的子集。處理該子集中的每個候選答案以針對這些候選答案中的每個候選答案生成多個進一步得分。將候選排序功能應(yīng)用于這些進一步得分以確定所述候選答案的子集中的每個候選答案的排序；以及在應(yīng)用該候選排序功能之后，選擇一個或多個所述候選答案作為所述輸入查詢的一個或多個最終答案。在一個實施例中，使用支持段落檢索過程處理所述候選答案的子集中的每個候選答案以識別其中出現(xiàn)所述每個候選答案的段落。將所述候選答案的子集從所述支持段落檢索過程發(fā)送到候選排序功能模塊，并且該模塊用于將所述候選排序功能應(yīng)用于所述候選答案的子集中的候選答案。在一個實施例中，任何篩選出的候選答案可被發(fā)送到所述候選排序功能，并且該模塊還可用于將所述候選排序功能應(yīng)用于任何篩選出的候選答案。在該實施例中，可從所述候選答案的子集中的候選答案以及任何篩選出的候選答案中選擇被選為一個或多個最終答案的候選答案。在一個實施例中，篩選模塊用于篩選出任何初步得分不符合所述定義的標準的候選答案，其中包括使所述候選答案經(jīng)過篩選模型以執(zhí)行所述篩選。以繞過所述支持段落檢索過程的方式，將任何此類篩選出的候選答案發(fā)送到所述候選排序功能模塊。在一個實施例中，使用上下文無關(guān)的候選答案過程處理所述候選答案的子集中的每個候選答案，以獲得所述每個候選答案的一個或多個篩選后得分。在一個實施例中，根據(jù)所述每個候選答案的篩選后得分對所述候選答案的子集中的每個候選答案進行排序。在一個實施例中，使用邏輯回歸模型為每個候選答案提供所述初步得分以對所述每個候選答案進行評分。
在一個實施例中，篩選出任何初步得分低于定義的閾值的候選答案。在一個實施例中，確定該定義的閾值以獲得計算成本與所述最終答案的質(zhì)量度量之間的期望權(quán)衡。在一個實施例中，通過針對給定數(shù)據(jù)集運行測試來確定所述定義的閾值以便獲得此期望權(quán)衡。在本發(fā)明的一個實施例中，僅將所述候選答案的子集用于查找支持證據(jù)。該子集可能不包括所有所述候選答案。用于支持段落檢索的候選答案的子集通過以下過程來識別:I)針對所述候選答案運行上下文無關(guān)的評分器(因為這些評分器不需要支持段落)。2)使用評分功能(例如，邏輯回歸模型)對每個候選答案進行評分。3)得分極低的候選答案被從支持段落檢索中忽略；即，它們被視為不值得付出計算成本來搜索支持證據(jù)。可獲得用于識別低評分答案的閾值，方式為:優(yōu)化所提供的(held-out)數(shù)據(jù)集，例如執(zhí)行參數(shù)掃描以選擇計算成本與最終答案質(zhì)量度量之間的最佳權(quán)衡。

4)將剩余的候選答案視為值得進一步調(diào)查。

在下面給出的具體實施方式
的上下文中理解本發(fā)明的目標、特性和優(yōu)點。在附圖的上下文中理解具體實施方式
，所述附圖形成本公開的重要部分，其中:圖1是示出本發(fā)明的一個實施例的高級邏輯架構(gòu)和問答方法的系統(tǒng)示意圖；圖2示出圖1中的架構(gòu)的變型，其中證據(jù)收集模塊包括兩個子模塊:支持段落檢索模塊和候選答案評分模塊；圖3示出圖1中的查詢分析模塊和候選答案生成模塊的更詳細的示意圖；圖4示出圖1和2中的候選答案評分模塊和答案排序模塊的更詳細的示意圖；圖5是示出根據(jù)本發(fā)明的一個實施例的處理問題并提供答案的方法步驟的實例流程圖；圖6示出了用于提供處理CAS數(shù)據(jù)結(jié)構(gòu)的一種類型的分析引擎的ΠΜΑ框架實現(xiàn)的一個方面。
具體實施例方式如在此使用的那樣，單詞“問題”和“查詢”及其擴展詞可以互換地使用并指示同一概念，即，信息請求。此類請求通常以疑問句表達，但是也可通過其他形式表達，例如采取提供感興趣實體的描述的陳述句形式(其中可通過上下文推斷出實體識別請求)。“結(jié)構(gòu)化信息”(來自“結(jié)構(gòu)化信息源”)在此被定義為其表達的含義很明確，并通過數(shù)據(jù)結(jié)構(gòu)或格式(例如，數(shù)據(jù)庫表)顯式表示的信息?！胺墙Y(jié)構(gòu)化信息”(來自“非結(jié)構(gòu)化信息源”)在此被定義為其表達的含義僅通過其內(nèi)容(例如，自然語言文檔)暗示的信息?！鞍虢Y(jié)構(gòu)化信息”指其某些含義在數(shù)據(jù)格式中明確表示的數(shù)據(jù)，例如文檔的一部分可被標記為“標題”。圖1示出本發(fā)明的一個實施例的高級邏輯架構(gòu)10和方法的系統(tǒng)示意圖。如圖1所示，架構(gòu)10包括查詢分析模塊20，該模塊實現(xiàn)接收和分析用戶查詢或問題的功能。根據(jù)本發(fā)明的一個實施例，“用戶”指與系統(tǒng)交互的一個或多個人，術(shù)語“用戶查詢”指用戶提出的查詢(及其上下文)19。但是將理解，可以構(gòu)建其他實施例，其中術(shù)語“用戶”指通過機械手段生成查詢的計算機系統(tǒng)22，其中術(shù)語“用戶查詢”指此類以機械方式生成的查詢及其上下文19’。候選答案生成模塊30用于實現(xiàn)通過遍歷主源模塊11和答案源知識庫模塊21(包含從主源提取的關(guān)系和列表的集合)中包含的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化源來搜索候選答案。所有信息源均可存儲在本地或分布在包括因特網(wǎng)的網(wǎng)絡(luò)上。候選答案生成模塊30根據(jù)已檢索數(shù)據(jù)的分析，生成多個包含候選答案的輸出數(shù)據(jù)結(jié)構(gòu)。在圖1中，所示的一個實施例包括與主源11和知識庫21通過接口連接的證據(jù)收集模塊50，其作為并行處理操作而同時根據(jù)包含候選答案的段落分析證據(jù)，以及對每個候選答案進行評分。在一個實施例中，可以采用利用通用分析系統(tǒng)(CAS)候選答案結(jié)構(gòu)，以及實現(xiàn)支持段落檢索的架構(gòu)，本文下面將更具體地進行描述。該處理在圖2中示出，其中證據(jù)收集模塊50包括支持段落檢索40A和候選答案評分40B，它們作為獨立的處理模塊同時分析段落，以及對某些或每個候選答案進行評分以作為并行處理操作。答案源知識庫21可以包括一個或多個包括關(guān)系集合(例如，類型化列表)的結(jié)構(gòu)化或半結(jié)構(gòu)化源(預(yù)計算的或以其他方式)數(shù)據(jù)庫。在一個實例實施方式中，答案源知識庫可以包括存儲在存儲系統(tǒng)(例如，硬盤)中的數(shù)據(jù)庫。答案排序模塊60提供對候選答案進行排序以及確定響應(yīng)99的功能，所述響應(yīng)經(jīng)由用戶的計算機顯示界面(未示出)返回給用戶或返回給計算機系統(tǒng)22。所述響應(yīng)可以是響應(yīng)于問題的答案，或先前答案的詳細描述，或澄清的請求一當未找到高質(zhì)量的問題答案時。將理解，本領(lǐng)域的技術(shù)人員可以實現(xiàn)對圖1所示系統(tǒng)的進一步擴展以根據(jù)但不限于文本、音頻、視頻、手勢、觸覺輸入和輸出等形式采用一個或多個模塊實現(xiàn)用戶或計算機系統(tǒng)與系統(tǒng)10之間的I/O通信。因此，在一個實施例中，輸入查詢和所生成的查詢響應(yīng)均可根據(jù)包括文本、語音、圖像、視頻、觸覺或手勢的多種形式中的一種或多種來提供。圖1和2中所示的處理可以在本地、在服務(wù)器或服務(wù)器群集上、在企業(yè)中，或者備選地，可以是分布式或整體式，或以其它方式與公用或私用搜索引擎結(jié)合運行，以便以所描述的方式增強問答功能。因此，本發(fā)明的各實施例可以作為計算機程序產(chǎn)品(包括可由處理設(shè)備執(zhí)行的指令)提供，或者作為部署`所述計算機程序產(chǎn)品的服務(wù)提供。所述架構(gòu)采用搜索引擎(例如，文檔檢索系統(tǒng))作為候選答案生成模塊30的一部分，所述搜索引擎可以專用于搜索因特網(wǎng)、公用數(shù)據(jù)庫、網(wǎng)站(例如，IMDB.com)或私用數(shù)據(jù)庫。數(shù)據(jù)庫可以存儲在任何存儲系統(tǒng)(例如，硬盤驅(qū)動器或閃存)中，并且可以通過網(wǎng)絡(luò)分發(fā)或不分發(fā)。如上所述，本發(fā)明的實施例利用通用分析系統(tǒng)(CAS)，其為非結(jié)構(gòu)化信息管理架構(gòu)(UIMA)的子系統(tǒng)，可處理各種ΠΜΑ組件(例如分析引擎和非結(jié)構(gòu)化信息管理應(yīng)用)之間的數(shù)據(jù)交換。CAS通過獨立于程序設(shè)計語言的類型系統(tǒng)支持數(shù)據(jù)建模，通過強大的索引機制提供數(shù)據(jù)訪問，并支持針對文本數(shù)據(jù)創(chuàng)建注釋，例如在http://www.research, ibm.com/journal/s j/433/gotz.html中描述的(在此引入作為參考)。CAS還允許針對文檔及其注釋之間的鏈接進行多個定義，因為對分析圖像、視頻或其它非文本形式有用。在一個實施例中，ΠΜΑ可以作為中間件提供，以便對各種信息源中的非結(jié)構(gòu)化信息進行有效管理和交換。所述架構(gòu)通常包括搜索引擎、數(shù)據(jù)存儲、包含流水線文檔注釋器和各種適配器的分析引擎?？梢允褂忙唉∠到y(tǒng)、方法和計算機程序生成輸入查詢的答案。所述方法包括輸入文檔并運行至少一個文本分析引擎，所述文本分析引擎包括多個耦合的注釋器以便標記文檔數(shù)據(jù)以及識別并注釋特定類型的語義內(nèi)容。因此，它可以用于分析問題，并從文檔集合提取實體作為問題的可能答案。在一個非限制性實施例中，通用分析系統(tǒng)(CAS)數(shù)據(jù)結(jié)構(gòu)形式根據(jù)第7，139，752號美國專利中的描述實現(xiàn)，該專利的全部內(nèi)容及其公開在此納入作為參考，就像完全在本文中列出一樣。如圖3中更詳細的邏輯架構(gòu)示意圖中更詳細地所示，“查詢分析”模塊20接收包括查詢19的輸入，該查詢例如由用戶通過其基于Web的瀏覽設(shè)備輸入。輸入查詢19可以包括諸如“Who was the tallest American president (誰是最高的美國總統(tǒng))？”之類的字符串。備選地，問題可以包括字符串和隱含上下文(例如，“Who was the shortest (誰是最矮的美國總統(tǒng))？”)。在該實例中，上下文的范圍可以從另一簡單字符串(例如，“Americanpresidents (美國總統(tǒng))”或“Who was the tallest Americanpresident (誰是最高的美國總統(tǒng))”)到任何數(shù)據(jù)結(jié)構(gòu)，例如處理上一字符串的所有中間結(jié)果(例如，在多輪對話中發(fā)生的情況)。輸入查詢由查詢分析模塊20接收，該模塊包括但不限于下面的一個或多個子過程:解析和謂詞論元結(jié)構(gòu)方塊202 ;重點段、重點和修改符方塊204 ;詞法答案類型方塊206 ;問題分解方塊208 ;詞法和語義關(guān)系模塊210 ;問題分類器方塊212 ;以及問題難度模塊 214。解析和謂詞論元結(jié)構(gòu)方塊202實現(xiàn)功能和程序設(shè)計接口以將輸入查詢分解為語法和語義分量，例如名詞短語、動詞短語和謂詞/論元結(jié)構(gòu)?？墒褂?English SlotGrammar) ESG型解析器實現(xiàn)方塊202。重點段、重點和修改符方塊204用于計算問題的重點和重點修改符，其將在下面進一步描述。詞法答案類型(LAT)方塊206實現(xiàn)功能和程序設(shè)計接口以提供對答案類型(詞法)的額外約束，本文下面將更詳細地進行描述。問題分解方塊208實現(xiàn)功能和程序設(shè)計接口以分析輸入問題來確定有關(guān)目標答案的問題所指定的約束集。這些約束有多種相互關(guān)聯(lián)的方法:1)嵌套式約束；2)冗余約束；以及3)推論(triangulation)。對于嵌套式約束，“內(nèi)部”問題的答案實例化“外部”問題。例如，“WhichFlorida city was named for the general who led the fight to take Florida fromthe Spanish (佛羅里達的哪個城市以從西班牙手里奪取佛羅里達的將軍名字命名)？”。對于冗余約束，一個約束唯一地識別答案。例如，“This tallest mammal can run at30milesper hour.Which is it (最高的哺乳動物每小時奔跑30英里,這是什么動物)？”對于推論，每個約束生成一組答案并且正確的答案是兩個(或更多個)集合中的一個公共答案。例如，在“猜鏈式”問題 “What is a group of things of the same kind, or sceneryconstructed for a theatrical performance (針對戲劇表演構(gòu)建的一組同類物件或場景是什么)”中。詞法和語義關(guān)系模塊210用于檢測查詢中的詞法和語義關(guān)系(例如，謂詞-論元關(guān)系)，問題分類模塊212也具有此功能，該模塊采用提供信息尋址的主題分類器，例如問題涉及哪個方面？問題難度模塊214執(zhí)行方法以提供確定問題難度的方式，例如，向問題應(yīng)用可讀性矩陣。將理解，可以針對特定實施方式選擇圖3所示的一個或多個查詢/問題分析處理方塊。解析和謂詞論元結(jié)構(gòu)方塊202實現(xiàn)功能和程序設(shè)計接口以通過執(zhí)行本領(lǐng)域公知的詞法處理和句法與謂詞論元結(jié)構(gòu)分析而將輸入查詢分解為其語法分量。對于查詢實例:
“In thel960s this largest Kansas city became the world’s largestproducer of general aviation aircraft (在1960年代，這個最大的堪薩斯城市成為世界最大的通用航空飛機生產(chǎn)基地)”。解析和謂詞論元方塊202將生成下面的實例分析搜索結(jié)果樹結(jié)構(gòu)，其中畦提供樹中的索引，例如單詞“become”為e8 (結(jié)果樹的第8個結(jié)構(gòu)，e7索引結(jié)果樹結(jié)構(gòu)的第7個單詞)，其中7表示單詞“city”，它是“become”的第一論元，el3 (索引結(jié)果樹結(jié)構(gòu)的第13個單詞)是“producer”，它是“become”在語義結(jié)構(gòu)中的第二論元，如下所示:in (el, e3，e8)the (e2，e3)1960s (e3，u)this (e4，e7)large (e5，el)Kansas (e6，e7)city (e7, u)become (e8，e7，el3)the(e9，elO)world (elO ，u，el3)aposts (ell, elO)large (el2，el3)producer (el3，of: el7)general (el5，el7)aviation (el6，u，el7)aircraft (el7)重點段、重點和修改符方塊204檢測重點段，該段是問題中被正確答案替換的文本跨度。例如，在下面的查詢中，斜體字表示查詢中的重點段:“In thel960s this largestKansas city became the world’s largest producer of general aviation aircraft(在1960年代，這個最大的堪薩斯城市成為世界最大的通用航空飛機生產(chǎn)基地)”。為了檢測重點段，實現(xiàn)一組作用于謂詞-論元結(jié)構(gòu)和ESG分析的規(guī)則，該組規(guī)則與謂詞-論元結(jié)構(gòu)(PAS)中的模式匹配。實例模式包括例如名詞短語“what/which/this/these X (什么/哪個/這個/這些X)”，其中X是另一對象；“who/what/when/where/why/this/these (誰/什么/何時/何地/為何/這個/這些)”；無指示的代詞。下面是代詞模式的實例，其中代詞以斜體表不:As a boy he built a model windmill ;his calculusfoe Gottfried Leibniz designed them as an adult(作為一個男孩，他創(chuàng)建了模型風車;他的微積分對手戈特弗里德.萊布尼茲成年之后才設(shè)計出這樣的模型風車)?，F(xiàn)在參考詞法答案類型(LAT)方塊206，LAT是識別正確答案的語義類型的問題術(shù)語。下面段落中的斜體單詞表不以下查詢中的LAT:“What Kansas city is the world’slargest producer of general aviation aircraft (哪個堪薩斯城市是世界最大的通用航空飛機生產(chǎn)基地)”。LAT可在更改含義時包括修改符。例如，斜體單詞表示以下查詢中的LAT Jolietand Co found that the Mississippi emptied into what body of water (喬利埃特和科發(fā)現(xiàn)密西西比河注入什么水體)？現(xiàn)在參考圖3，問題/查詢分析方塊20的輸出29包括查詢分析結(jié)果數(shù)據(jù)結(jié)構(gòu)(CAS結(jié)構(gòu))。在該實施例中，可以實現(xiàn)輸出數(shù)據(jù)結(jié)構(gòu)問題/查詢分析方塊20和候選答案生成方塊30以根據(jù)ΠΜΑ開源平臺在模塊之間傳遞數(shù)據(jù)?！昂蜻x答案生成”模塊30接收來自問題/查詢分析方塊20的CAS型查詢結(jié)果數(shù)據(jù)結(jié)構(gòu)29輸出，并且根據(jù)主源11和答案源KB21中存儲的文檔生成一組候選答案?！昂蜻x答案生成”模塊30包括但不限于以下一個或多個功能性子處理模塊:術(shù)語加權(quán)和查詢擴展模塊302 ;文檔標題(標題源中的文檔檢索)模塊304 ;來自段落檢索的實體模塊308 ；以及來自結(jié)構(gòu)化源知識庫的實體模塊310。術(shù)語加權(quán)和查詢擴展模塊302實現(xiàn)根據(jù)模塊11和21創(chuàng)建查詢的功能(部分查詢生成)，其中包括實現(xiàn)查詢擴展的實施例(參閱例如:http://en.wikipedia.0rg/wiki/Query_expansion)。文檔標題(標題源中的文檔檢索)模塊304實現(xiàn)(從源11和21)檢測候選答案的功能。來自段落檢索的實體模塊308實現(xiàn)例如根據(jù)段落和查詢的語法和語義結(jié)構(gòu)而在文本段落中檢測候選答案的功能。來自結(jié)構(gòu)化源知識庫的實體模塊310實現(xiàn)根據(jù)查詢中的實體與答案源知識庫21中的實體之間的關(guān)系之間的匹配來檢索候選答案的功能(例如實現(xiàn)為SQL查詢)。作為實現(xiàn)候選答案生成方塊30的功能模塊的結(jié)果，創(chuàng)建查詢并針對(本地或分布式)源數(shù)據(jù)庫或類似的存儲設(shè)備( 多個)中的所有結(jié)構(gòu)化和非結(jié)構(gòu)化主數(shù)據(jù)源11運行查詢?？舍槍Y(jié)構(gòu)化(KB)、半結(jié)構(gòu)化(例如，維基百科、MDB數(shù)據(jù)庫、XBRL中的SEC filings集合等)或非結(jié)構(gòu)化數(shù)據(jù)(文本庫)運行查詢以生成候選答案列表39 (也作為CAS，或現(xiàn)有CAS的擴展)。應(yīng)該理解，在一個實施例中，針對列出的主源數(shù)據(jù)庫的本地副本運行查詢，也可訪問公用的公共數(shù)據(jù)庫源。此外，可以理解，在一個實施例中，并非查詢中的所有術(shù)語均需要用于搜索答案一因此需要根據(jù)查詢分析的結(jié)果創(chuàng)建查詢。例如，在回答問題“five letterprevious capital of Poland (波蘭首都名稱中的前五個字母)”時,查詢中不應(yīng)包含“fiveletter (五個字母)”。如圖3進一步所示，答案源知識庫21被示為與來自結(jié)構(gòu)化源的實體模塊310對接，模塊310包括類型化列表(例如，世界上所有國家的列表)、所提取的精確一元(例如，國家)、二元(例如，國家+國家元首)、三元(例如，國家+國家元首+元首夫人)、n元關(guān)系等。現(xiàn)在參考圖2和4，“候選答案評分”模塊40B從例如證據(jù)收集方塊50的支持段落檢索(SPR)方塊40A接收CAS型數(shù)據(jù)結(jié)構(gòu)49 (B卩，一個或多個CAS)輸出?！昂蜻x答案評分”模塊40B包括但不限于以下一個或多個功能性子處理模塊:段落中的詞法與語義關(guān)系模塊402 ;文本對齊模塊405 ;段落中的查詢術(shù)語匹配模塊407 ;語法關(guān)系方塊410 ;知識庫中的答案查找模塊413 ;以及候選答案類型分析模塊415。段落中的詞法與語義關(guān)系模塊402實現(xiàn)計算候選答案段落中的語義(謂詞/論元)關(guān)系滿足程度(答案評分的一部分)的功能。文本對齊模塊405實現(xiàn)對齊查詢(或其中的某些部分)與答案段落以及計算描述對齊程度的評分(例如，當對齊引用的答案時)的功能。段落中查詢術(shù)語匹配模塊407實現(xiàn)將查詢段落的匹配程度與候選答案段落中的術(shù)語進行關(guān)聯(lián)的功能(答案評分的一部分)。語法關(guān)系方塊410實現(xiàn)檢測候選答案之間的語法關(guān)系(可歸入段落中的詞法與語義關(guān)系模塊402之下)的功能。知識庫中的答案查找模塊413實現(xiàn)根據(jù)評分排序檢測候選答案的功能。候選答案類型分析模塊415例如根據(jù)對出現(xiàn)候選答案的文檔執(zhí)行語法和語義分析而生成候選答案為正確類型的概率測量。“候選答案評分”模塊40B的輸出為CAS結(jié)構(gòu)，此結(jié)構(gòu)包含一系列評分由所述模塊給出的答案。如此出描述的那樣，可實現(xiàn)多個并行操作模塊以計算候選答案的評分，其中根據(jù)上述條件在CAS型數(shù)據(jù)結(jié)構(gòu)59中提供所述評分。例如，答案是否滿足類似的詞法和語義關(guān)系(例如，對于有關(guān)電影女明星的查詢，答案是否為女性，候選是否滿足電影演員關(guān)系？)，答案與查詢的對齊程度；術(shù)語的匹配程度以及術(shù)語是否以類似的順序存在。因此，將理解，多個模塊用于處理不同的候選答案，因此，可能根據(jù)可能的評分模塊數(shù)量提供許多評分。參考圖2和4，“答案排序”模塊60從證據(jù)收集方塊50 (包括實現(xiàn)SPR40A和候選答案評分40B)接收多個CAS型數(shù)據(jù)結(jié)構(gòu)59輸出，并針對每個接收的候選答案生成評分。圖4示出機器學(xué)習(xí)實施方式，其中“答案排序”模塊60包括使用機器學(xué)習(xí)技術(shù)，從現(xiàn)有數(shù)據(jù)生成的訓(xùn)練后的模型組件71?，F(xiàn)有數(shù)據(jù)可以編碼有關(guān)候選答案的特性、候選答案所在段落的特性、候選答案評分模塊40B賦予候選答案的評分，以及候選答案是否正確的信息。機器學(xué)習(xí)算法可與有關(guān)候選答案正確性的信息一起應(yīng)用于CAS的全部內(nèi)容。此類現(xiàn)有數(shù)據(jù)例如可容易地在技術(shù)服務(wù)支持功能中獲得，或在更一般的設(shè)置中，在因特網(wǎng)(其中許多網(wǎng)站列出帶有正確答案的問題)上獲得。所述模型編碼有預(yù)測功能，此功能被輸入到“學(xué)習(xí)的特性組合”模塊73。因此，在圖4所示的實施例中，將作為CAS的一系列候選答案以及存儲在訓(xùn)練后的模型子模塊71中并且其參數(shù)依賴于查詢類型的訓(xùn)練后的模型輸入到答案排序模塊60。答案排序模塊60包括學(xué)習(xí)的特性組合子方塊73，方塊73實現(xiàn)生成答案排序列表75的功能。答案排序模塊60的輸出包括查詢答案(一個或一系列)，并且可選地包括澄清問題(如果系統(tǒng)參與對話或者如果所生成的答案均沒有高排序)。學(xué)習(xí)的特性組合子方塊73應(yīng)用訓(xùn)練后的模型71生成的預(yù)測功能，例如實現(xiàn)根據(jù)訓(xùn)練后的模型對候選答案評分進行加權(quán)的方法。訓(xùn)練方塊71和學(xué)習(xí)的特性組合73的一個實例實施方式可以參考Ittycheriah，A等人在2001年的文本檢索會議上發(fā)表的標題為“ {IBM}’s Statistical Question AnsweringSystem-{TREC} ” 的文章，地址位于:http://citeseer.1st.psu.edu/cache/papers/cs2/7/http:zSzzSztrec.nist.govzSzpu bszSztreclOzSz.zSzpaperszSztrec2001, pdf/ittycheriahOlibms.pdf。機器學(xué)習(xí)訓(xùn)練后的模型71以及學(xué)習(xí)的特性組合73的應(yīng)用將在下面更詳細地進行描述。在一個實施例中，實現(xiàn)由兩部分構(gòu)成的任務(wù)以:(I)識別候選答案中的最佳答案，以及(2)確定最佳答案的置信度。根據(jù)該處理，每個問題-候選答案對包括一個實例，從廣泛的特性獲得評分，例如，答案與查詢術(shù)語的共現(xiàn)、候選答案是否匹配問題類型，以及搜索引擎排名。因此，對于實例問題:“What liquid remains after sugar crystals areremovedfrom concentrated cane juice(從濃縮鹿汁中去除糖晶體之后,還剩什么液體)？ ”諸如下面的表I所示的實例評分根據(jù)但不限于以下項生成:類型分析、對齊、搜索引擎排名等。TypeAgreement是表示段落中候選答案的詞法形式是否對應(yīng)于問題中感興趣實體的詞法類型的評分。TextualAlignment對問題與答案段落之間的對齊進行評分。
權(quán)利要求
1.一種生成問題答案的方法，所述方法包括: 接收輸入查詢；在一個或多個數(shù)據(jù)源中執(zhí)行搜索以識別所述輸入查詢的多個候選答案；根據(jù)一個或多個定義的條件為所述候選答案中的每個候選答案提供初步得分；篩選出所述候選答案中任何初步得分不符合定義的條件的候選答案，其中初步得分符合所述定義的條件的候選答案形成所述候選答案的子集；針對所述子集中的每個候選答案，處理所述每個候選答案以生成所述每個候選答案的多個進一步得分；將候選排序功能應(yīng) 用于所述多個進一步得分以確定所述子集中的所述每個候選答案的排序；以及在應(yīng)用所述候選排序功能之后，選擇所述候選答案中的一個或多個作為所述輸入查詢的一個或多個最終答案。
2.根據(jù)權(quán)利要求1的方法，其中: 處理所述候選答案的子集中的所述每個候選答案包括使用支持段落檢索過程識別其中出現(xiàn)所述每個候選答案的段落；以及應(yīng)用所述候選排序功能包括將所述候選答案的子集從所述支持段落檢索過程發(fā)送到候選排序功能模塊，并且使用所述候選排序功能模塊將所述候選排序功能應(yīng)用于所述候選答案的子集中的所述候選答案。
3.根據(jù)權(quán)利要求2的方法，還包括以下步驟: 將任何篩選出的候選答案發(fā)送到所述候選排序功能，并且使用所述候選排序功能模塊將所述候選排序功能應(yīng)用于所述任何篩選出的候選答案；并且其中: 選擇所述候選答案中的一個或多個作為一個或多個最終答案包括從所述候選答案的子集中的候選答案以及所述任何篩選出的候選答案中選擇所述一個或多個最終答案。
4.根據(jù)權(quán)利要求3的方法，其中: 篩選出所述候選答案中任何初步得分不符合定義的條件的候選答案包括使所述候選答案經(jīng)過篩選模型以執(zhí)行所述篩選；以及將任何篩選出的候選答案發(fā)送到所述候選排序功能模塊包括以繞過所述支持段落檢索過程的方式，將所述任何篩選出的候選答案從所述篩選模塊發(fā)送到所述候選排序模塊。
5.根據(jù)權(quán)利要求2的方法，其中處理所述候選答案的子集中的所述每個候選答案包括使用上下文無關(guān)的候選答案過程處理所述每個候選答案以獲得所述每個候選答案的一個或多個篩選后得分。
6.根據(jù)權(quán)利要求5的方法，其中應(yīng)用候選排序功能包括根據(jù)所述每個候選答案的所述篩選后得分對所述候選答案的子集中的每個候選答案進行排序。
7.根據(jù)權(quán)利要求1的方法，其中為每個候選答案提供初步得分包括使用邏輯回歸模型對每個候選答案進行評分。
8.根據(jù)權(quán)利要求1的方法，其中所述篩選包括篩選出所述候選答案中任何初步得分低于定義的閾值的候選答案。
9.根據(jù)權(quán)利要求8的方法，其中確定所述定義的閾值以獲得計算成本與所述最終答案的質(zhì)量度量之間的期望權(quán)衡。
10.根據(jù)權(quán)利要求9的方法，其中通過針對給定數(shù)據(jù)集運行測試來確定所述定義的閾值以便獲得所述期望權(quán)衡。
11.一種用于生成問題答案的系統(tǒng)，所述系統(tǒng)包括: 計算機設(shè)備，其包括至少一個不同軟件模塊，每個不同軟件模塊包含在有形的計算機可讀介質(zhì)中；存儲器；以及至少一個處理器，其與所述存儲器耦合并可操作以執(zhí)行以下步驟: 接收輸入查詢；在一個或多個數(shù)據(jù)源中執(zhí)行搜索以識別所述輸入查詢的多個候選答案；根據(jù)一個或多個定義的條件為所述候選答案中的每個候選答案提供初步得分；篩選出所述候選答案中任何初步得分不符合定義的條件的候選答案，其中初步得分符合所述定義的條件的候選答案形成所述候選答案的子集；針對所述子集中的每個候選答案，處理所述每個候選答案以生成所述每個候選答案的多個進一步得分；將候選排序功能應(yīng)用于所述多個進一步得分以確定所述子集中的所述每個候選答案的排序；以及在應(yīng)用所述候選排序功能之后，選擇所述候選答案中的一個或多個作為所述輸入查詢的一個或多個最終答案。
12.根據(jù)權(quán)利要求11的系統(tǒng)，其中: 處理所述候選答案的子集中的所述每個候選答案包括使用支持段落檢索過程識別其中出現(xiàn)所述每個候選答案的段落；以及應(yīng)用所述候選排序功能包括將所述候選答案的子集從所述支持段落檢索過程發(fā)送到候選排序功能模塊，并且使用所述候選排序功能模塊將所述候選排序功能應(yīng)用于所述候選答案的子集中的所述候選答案。
13.根據(jù)權(quán)利要求12的系統(tǒng)，其中: 所述至少一個處理器還可操作以將任何篩選出的候選答案發(fā)送到所述候選排序功能，并且使用所述候選排序功能模塊將所述候選排序功能應(yīng)用于所述任何篩選出的候選答案；以及選擇所述候選答案中的一個或多個作為一個或多個最終答案包括從所述候選答案的子集中的候選答案以及所述任何篩選出的候選答案中選擇所述一個或多個最終答案。
14.根據(jù)權(quán)利要求13的系統(tǒng)，其中: 篩選出所述候選答案中任何初步得分不符合定義的條件的候選答案包括使所述候選答案經(jīng)過篩選模型以執(zhí)行所述篩選；以及將任何篩選出的候選答案發(fā)送到所述候選排序功能模塊包括以繞過所述支持段落檢索過程的方式，將所述任何篩選出的候選答案從所述篩選模塊發(fā)送到所述候選排序模塊。
15.根據(jù)權(quán)利要求11的系統(tǒng),其中: 所述篩選包括篩選出所述候選答案中任何初步得分低于定義的閾值的候選答案；以及通過針對給定數(shù)據(jù)集運行測試來確定所述定義的閾值以便獲得計算成本與所述最終答案的質(zhì)量度量之間的期望權(quán)衡。
16.一種制品，包括:至少一個有形的計算機可讀介質(zhì)，所述介質(zhì)包括生成問題答案的計算機可讀程序代碼邏輯，所述計算機可讀程序代碼邏輯當被執(zhí)行時，執(zhí)行以下步驟: 接收輸入查詢；在一個或多個數(shù)據(jù)源中執(zhí)行搜索以識別所述輸入查詢的多個候選答案；根據(jù)一個或多個定義的條件為所述候選答案中的每個候選答案提供初步得分；篩選出所述候選答案中任何初步得分不符合定義的條件的候選答案，其中初步得分符合所述定義的條件的候選答案形成所述候選答案的子集；針對所述子集中的每個候選答案，處理所述每個候選答案以生成所述每個候選答案的多個進一步得分；將候選排序功能應(yīng)用于所述多個進一步得分以確定所述子集中的所述每個候選答案的排序；以及在應(yīng)用所述候選排序功能之后，選擇所述候選答案中的一個或多個作為所述輸入查詢的一個或多個最終答案。
17.根據(jù)權(quán)利要求16的制品，其中: 處理所述候選答案的子集中的所述每個候選答案包括使用支持段落檢索過程識別其中出現(xiàn)所述每個候選答案的段落；以及應(yīng)用所述候選排序功能包括將所述候選答案的子集從所述支持段落檢索過程發(fā)送到候選排序功能模塊，并且使用所述候選排序功能模塊將所述候選排序功能應(yīng)用于所述候選答案的子集中的所述候選答案。
18.根據(jù)權(quán)利要求17的制品，其中: 所述計算機可讀程序代碼邏輯當被執(zhí)行時，還執(zhí)行將任何篩選出的候選答案發(fā)送到所述候選排序功能，并且使用所述候選排序功能模塊將所述候選排序功能應(yīng)用于所述任何篩選出的候選答案；以及選擇所述候選答案中的一個或多個作為一個或多個最終答案包括從所述候選答案的子集中的候選答案以及所述任何篩選出的候選答案中選擇所述一個或多個最終答案。
19.根據(jù)權(quán)利要求18的制品，其中: 篩選出所述候選答案中任何初步得分不符合定義的條件的候選答案包括使所述候選答案經(jīng)過篩選模型以執(zhí)行所述篩選；以及將任何篩選出的候選答案發(fā)送到所述候選排序功能模塊包括以繞過所述支持段落檢索過程的方式，將所述任何篩選出的候選答案從所述篩選模塊發(fā)送到所述候選排序模塊。
20.根據(jù)權(quán)利要求19的制品，其中: 所述篩選包括篩選出所述候選答案中任何初步得分低于定義的閾值的候選答案；以及通過針對給定數(shù)據(jù)集運行測試來確定所述定義的閾值以便獲得計算成本與所述最終答案的質(zhì)量度量之間的期望權(quán)衡。
21.一種生成問題答案的方法，所述方法包括: 接收輸入查詢；在一個或多個數(shù)據(jù)源中執(zhí)行搜索以識別所述輸入查詢的多個候選答案；根據(jù)一個或多個定義的條件為所述候選答案中的每個候選答案提供初步得分；篩選出所述候選答案中任何初步得分不符合定義的條件的候選答案，其中初步得分符合所述定義的條件的候選答案形成所述候選答案的子集；針對所述子集中的每個候選答案，處理所述每個候選答案以生成所述每個候選答案的多個進一步得分；將所述子集中的每個候選答案發(fā)送到候選排序模塊；使用所述候選排序模塊將候選排序功能應(yīng)用于所述多個進一步得分以確定所述子集中的所述每個候選答案的排序；將任何篩選出的候選答案發(fā)送到所述候選排序模塊；使用所述候選排序模塊確定所述任何篩選出的候選答案的排序；以及根據(jù)所述候選答案的排序，選擇一個或多個所述候選答案作為所述輸入查詢的一個或多個最終答案。
22.根據(jù)權(quán)利要求21的方法，其中: 處理所述候選答案的子集中的所述每個候選答案包括使用支持段落檢索過程識別其中出現(xiàn)所述每個候選答案的段落；以及將所述候選答案的子集中的每個候選答案發(fā)送到所述排序模塊包括將所述候選答案的子集從所述支持段落檢索過程發(fā)送到所述候選排序功能模塊；以及將任何篩選出的候選答案發(fā)送到所述候選排序功能包括以繞過所述支持段落檢索過程的方式，將所述任何篩選出的候選答案發(fā)送到所述候選排序模塊。
23.根據(jù)權(quán)利要求22的方法，其中: 處理所述候選答案的子集中的所述每個候選答案包括使用上下文無關(guān)的候選答案過程處理所述每個候選答案以獲得所述每個候選答案的一個或多個篩選后得分；以及使用所述候選排序模塊確定所述每個候選答案的排序包括根據(jù)所述每個候選答案的所述篩選后得分對所述每個候選答案進行排序。
24.一種生成問題答案的系統(tǒng)，所述系統(tǒng)包括: 計算機設(shè)備，其包括至少一個不同軟件模塊，每個不同軟件模塊包含在有形的計算機可讀介質(zhì)中；存儲器；以及至少一個處理器，其與所述存儲器耦合并可操作以執(zhí)行以下步驟: 接收輸入查詢；在一個或多個數(shù)據(jù)源中執(zhí)行搜索以識別所述輸入查詢的多個候選答案；根據(jù)一個或多個定義的條件為所述候選答案中的每個候選答案提供初步得分；篩選出所述候選答案中任何初步得分不符合定義的條件的候選答案，其中初步得分符合所述定義的條件的候選答案形成所述候選答案的子集；針對所述子集中的每個候選答案，處理所述每個候選答案以生成所述每個候選答案的多個進一步得分；將所述子集中的每個候選答案發(fā)送到候選排序模塊；使用所述候選排序模塊將候選排序功能應(yīng)用于所述多個進一步得分以確定所述子集中的所述每個候選答案的排序；將任何篩選出的候選答案發(fā)送到所述候選排序模塊；` 使用所述候選排序模塊確定所述任何篩選出的候選答案的排序；以及根據(jù)所述候選答案的排序，選擇一個或多個所述候選答案作為所述輸入查詢的一個或多個最終答案。
25.根據(jù)權(quán)利要求24的系統(tǒng)，其中: 處理所述候選答案的子集中的所述每個候選答案包括使用支持段落檢索過程識別其中出現(xiàn)所述每個候選答案的段落；以及將所述候選答案的子集中的每個候選答案發(fā)送到所述排序模塊包括將所述候選答案的子集從所述支持段落檢索過程發(fā)送到所述候選排序功能模塊；以及將任何篩選出的候選答案發(fā)送到所述候選排序功能包括以繞過所述支持段落檢索過程的方式，將所述任何篩選出的候選答案發(fā)送到所述候選排序模塊；以及其中所述篩選包括篩選出所述候選答案中任何初步得分低于定義的閾值的候選答案；以及通過針對給定數(shù)據(jù)集運行測試來確定所述定義的閾值以便獲得計算成本與所述最終答案的質(zhì)量度量之間的期望權(quán)衡。
全文摘要
一種用于生成問題答案的方法、系統(tǒng)和計算機程序產(chǎn)品。在一個實施例中，所述方法包括接收查詢，在一個或多個數(shù)據(jù)源中執(zhí)行搜索以識別所述查詢的候選答案，以及為每個所述候選答案提供初步得分。所述方法還包括篩選出所述候選答案中任何初步得分不符合定義的條件的候選答案。初步得分符合此條件的候選答案形成所述候選答案的子集。處理該子集中的每個候選答案以生成進一步得分。將排序功能應(yīng)用于這些進一步得分以確定所述子集中的所述每個候選答案的排序；以及在應(yīng)用該排序功能之后，選擇一個或多個所述候選答案作為所述查詢的一個或多個最終答案。
文檔編號G06F15/18GK103229120SQ201180056990
公開日2013年7月31日申請日期2011年9月22日優(yōu)先權(quán)日2010年9月28日
發(fā)明者J·舒-卡羅爾, D·A·弗魯茨, D·C·貢德克, A·P·拉利, J·W·默多克四世申請人:國際商業(yè)機器公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：J·舒-卡羅爾;D·A·弗魯茨;D·C·貢德克;A·P·拉利;J·W·默多克四世
技術(shù)所有人：國際商業(yè)機器公司
我是此專利的發(fā)明人

上一篇：內(nèi)容提供方法和系統(tǒng)的制作方法
上一篇：劃分用于多客戶端計算系統(tǒng)的存儲設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用假設(shè)剪枝提供問題答案的制作方法