專利名稱:搜索引擎方法及裝置的制作方法
技術(shù)領(lǐng)域:
及背景本發(fā)明涉及搜索引擎,更具體、但非排他地涉及與包括連網(wǎng)數(shù)據(jù)庫在內(nèi)的數(shù)據(jù)庫和信息存儲(chǔ)器結(jié)合使用的搜索引擎。
信息檢索(IR)系統(tǒng)以及與其關(guān)聯(lián)的搜索引擎(SE)自六十年代初期已經(jīng)開始研究和開發(fā)。但是,隨著因特網(wǎng)和內(nèi)聯(lián)網(wǎng)世界的出現(xiàn)以及通過這些途徑可得到的巨大數(shù)量的信息和服務(wù),它們所起的作用、它們的重要性以及它們對(duì)計(jì)算機(jī)化信息系統(tǒng)的有效性的重要影響顯著增加。搜索引擎如何在因特網(wǎng)上使用的典型實(shí)例包括以下方面-研究者采用諸如Google、AltaVista、Lycos等常見SE搜索在因特網(wǎng)上某個(gè)位置估計(jì)可獲得的關(guān)于非常具體的主題、例如太陽能或英國民歌的信息。
-消費(fèi)者希望通過諸如Yahoo之類的電子經(jīng)銷商的門戶站點(diǎn)或者通過特定經(jīng)銷商網(wǎng)站購買諸如襯衣、數(shù)字照相機(jī)或書籍之類的具體產(chǎn)品。消費(fèi)者依靠門戶站點(diǎn)或網(wǎng)站SE準(zhǔn)確查找所請(qǐng)求的產(chǎn)品。
-大企業(yè)中的雇員尋找大企業(yè)文本倉庫中的特定數(shù)據(jù),依靠企業(yè)特定的搜索引擎,立刻為他帶來正是他所想的內(nèi)容。
-顯然,這些完全不同的需求由于各種程度的用戶復(fù)雜性而混合。另一方面,尋找預(yù)期信息時(shí)的用戶堅(jiān)持以及對(duì)接收不完整或錯(cuò)誤結(jié)果的反應(yīng)只能猜測(cè)??墒?,很有可能在上述實(shí)例中,由于當(dāng)今SE固有的不足,用戶往往變得很喪氣并最終對(duì)信息檢索能力產(chǎn)生否定態(tài)度,甚至可能完全停止使用信息檢索,隨之而產(chǎn)生的缺少使用可能間接造成數(shù)據(jù)庫的衰退或萎縮,使它不再值得進(jìn)行維護(hù)。
作為它們支持上述成功操作的關(guān)鍵,當(dāng)前大部分可用SE遭遇到精確度或準(zhǔn)確度、覆蓋率和焦點(diǎn)的尖銳問題,這些問題嚴(yán)重妨礙它們的性能以及設(shè)計(jì)它們支持的操作的充分起作用。搜索一般把輸入查詢當(dāng)作關(guān)鍵字列表來處理,并搜索與關(guān)鍵字列表的最佳匹配,而沒有明顯地考慮預(yù)期意義或者意義之間的關(guān)系。因此,眾所周知的搜索引擎將識(shí)別諸如“San Francisco”和“New York”之類的某些眾所周知的單詞對(duì)應(yīng)當(dāng)作為單個(gè)檢索詞來處理的能力視為其最先進(jìn)功能之一。
在IR系統(tǒng)的數(shù)據(jù)庫或數(shù)據(jù)存儲(chǔ)器或者信息庫(IS)組件中表示的、作為搜索的可能對(duì)象的條目往往采取自由文本文檔的形式。文檔可能很短(只有一行,如電子經(jīng)銷商網(wǎng)站中的產(chǎn)品名稱)、中等長度(幾行,如新聞簡(jiǎn)訊中)或者相當(dāng)長(數(shù)頁,如財(cái)經(jīng)報(bào)導(dǎo)、科學(xué)論文或百科全書條目中)。仍然要突出強(qiáng)調(diào)的是,文本媒體雖然無疑是當(dāng)今最常見的,但絕不是數(shù)據(jù)庫條目的唯一適用媒體。IS可由作為圖片、視頻、聲音剪輯、電子轉(zhuǎn)錄樂譜或者包含信息的其它任何資源的條目組成。查詢則可包括描述所需圖片(顏色、形狀等)或聲音、短音樂或節(jié)奏模式等的部分或特征。
作為所述具體實(shí)施例的背景,在電子商務(wù)領(lǐng)域、以下稱作電子商務(wù)上下文(ECC)中提供一些解說。在當(dāng)前上下文中,IS是產(chǎn)品名稱、圖片以及描述的巨大存儲(chǔ)庫,查詢是用戶以描述(可能不完全地)其需求的文本字符串形式提交的請(qǐng)求。
選取EC上下文的原因有三個(gè)a)電子商務(wù)以指數(shù)增長,并顯示巨大潛力,b)根據(jù)用戶不會(huì)購買無法找到的物品,優(yōu)秀的SE是成功操作必不可少的。特別是,如果用戶只能找到接近他所想的內(nèi)容,則他在這時(shí)不太可能進(jìn)行購買,并且對(duì)于將來的購買也不太可能嘗試電子商務(wù),以及c)可用的SE未能滿足為了允許根據(jù)不熟練的典型用戶輸入來準(zhǔn)確查找所需產(chǎn)品所需要的功能。
以下引述其中還支持上述觀察a)關(guān)于電子零售領(lǐng)域的潛力
-“到2002年底,全球有超過6億人將訪問萬維網(wǎng),并且他們將花費(fèi)超過1萬億美元在線購物”(13/2/2001,Newsfactor.com,“E-commerce to top $1 trillion shopping online”)。
-“電子零售業(yè)有前途嗎?在Booz-Allen,我們的答案是響亮的“是”!這個(gè)部分的增長潛力是巨大的”(3/2001,ebusinessforum,Booz-Allen&Hamilton)。
b)關(guān)于優(yōu)秀SE對(duì)這種應(yīng)用的重要性-“一半以上的在線購買者利用搜索來查找產(chǎn)品-搜索工具越好,他們購買越多”,...,“每當(dāng)我們對(duì)搜索增加新功能,出價(jià)會(huì)更高”,...,“忽視搜索的重要性的網(wǎng)站在不知不覺中損失銷售額”(24/9/2001,Businessweek.com,“Desperately seeking searchtechnology”)。
-“如果搜索功能沒有正常工作,則80%的在線用戶將放棄網(wǎng)站”(28/11/2001,webmastrcase.com,“Secrets to site search success”)。
c)關(guān)于目前情況-“可證明電子商務(wù)不獲利的主要原因在于忽略了搜索能力...優(yōu)秀的搜索能力能夠幫助扭轉(zhuǎn)那種局面”(24/9/2001,Seybold Group,Businessweek.com,“Desperately seeking Search technology”)。
-“阻止用戶在網(wǎng)站上購買的最常見因素是他們沒有找到正尋找的商品。在我們的研究中,這種情況占所有損失銷售額的27%。而且當(dāng)他們使用網(wǎng)站的搜索功能嘗試查找商品時(shí),失效率甚至更高-足有36%的用戶無法找到他們所需的”(02/2001,webtechniques.com,“Building web sites with depth”)。
-“購物者有時(shí)只是想搜索該商品,迅速找到它并付款離開。然而,大部分電子零售網(wǎng)站采用不一定有效的較舊的搜索技術(shù),往往阻礙使用”(28/3/2001,professionaljeweler.com)。
-“去年春天由Forrester Research測(cè)試的在線零售網(wǎng)站超過三分之二無法在搜索結(jié)果的首頁列示最相關(guān)內(nèi)容。難怪網(wǎng)站遭遇到無能力使瀏覽者轉(zhuǎn)化為購買者的情況。顧客簡(jiǎn)直就是被無力的搜索技術(shù)趕走?!?28/2/2001,nytimes.com,Lisa Guernsey的“Revving-up the searchengines to keep the E-Aisles clear”)。
信息檢索系統(tǒng)在其最一般和基本的形式中,IR系統(tǒng)由兩個(gè)組件組成-a)數(shù)千到數(shù)百萬(有時(shí)甚至是數(shù)千萬)條目的信息庫;以及-b)搜索引擎,它可處理給定查詢-以自由流自然語言或者以某種預(yù)定形式語言來表達(dá),或者甚至作為從菜單、地圖或給定目錄中的選擇-以及從IS返回系統(tǒng)判定與用戶查詢相關(guān)的條目組。檢索條目可作為未組織的集合或作為有序列表來呈現(xiàn),按諸如日期、作者或價(jià)格之類的某種元數(shù)據(jù)標(biāo)準(zhǔn),或者更貼切地按假定測(cè)量它與用戶請(qǐng)求的接近程度的條目的評(píng)分(從最好到最差)來排序。結(jié)果則可作為到相干條目的指針(或引用)來呈現(xiàn),或者通過完整地顯示這些條目來呈現(xiàn),或者最終通過僅顯示由系統(tǒng)判定為用戶最感興趣的這些條目的所選部分來呈現(xiàn)。
已經(jīng)提出這種基本范例的若干增強(qiáng),在某種程度上,還通過后代SE來實(shí)現(xiàn)。因此,可通過采用可能增強(qiáng)查詢/條目匹配成功率的有用數(shù)據(jù)、如關(guān)鍵字或描述符對(duì)IS中的條目注釋來對(duì)其預(yù)處理。此外,查詢本身可經(jīng)過澄清過程,其中拼寫錯(cuò)誤被識(shí)別及糾正,以及同義詞被識(shí)別并附加到查詢的某些部分。用戶可通過根據(jù)他的原始查詢結(jié)果進(jìn)行第二次搜索來提煉其搜索。最后,結(jié)果可通過更相干的結(jié)構(gòu)來呈現(xiàn),即作為樹或分層結(jié)構(gòu),或者以預(yù)定義的方式,或者通過頂部結(jié)果的“即時(shí)”聚類來呈現(xiàn)。
在檢索上下文中,上述方案仍然有多個(gè)問題未得到解決;其中幾個(gè)如下所示。
1.IS中的特定條目可能匹配查詢指定的需求而仍未被檢索,因?yàn)橄嚓P(guān)條目的描述不包含用戶在查詢中指定的準(zhǔn)確檢索詞,而只包含其它一些相關(guān)檢索詞;它們可能是同義詞或近義詞(短褲/褲子)、首字母縮寫詞和縮略語(tv/電視)、更一般的檢索詞(玫瑰/花)、更具體的檢索詞(襯衣/T恤衫)等;覆蓋率因而受到影響。
2.該過程可能錯(cuò)誤地檢索包含查詢檢索詞(的一部分)、但仍然不滿足查詢條件的條目。因此,對(duì)于“tv天線”可能檢索“電視”產(chǎn)品,或者反之,對(duì)于“桌布”請(qǐng)求可能顯示“桌布夾”,從而影響系統(tǒng)的準(zhǔn)確度。
3.出現(xiàn)在查詢中的介詞,例如“對(duì)于”、“從”、“由”,甚至更多可解釋為運(yùn)算符的諸如“非”、“與”、“或”之類的檢索詞,有時(shí)甚至是具體的標(biāo)點(diǎn)-如果沒有正確分析和說明-可能完全顛倒查詢解釋。
4.在系統(tǒng)標(biāo)識(shí)為查詢的可能適當(dāng)結(jié)果的條目中,必須仔細(xì)檢查和匹配查詢中明確提到的適當(dāng)屬性的值,例如用于顏色的“紅”或“藍(lán)”(或者“紅和藍(lán)”)、用于材料的“絲綢”或“羊毛”等。這可能是相當(dāng)復(fù)雜的過程,因?yàn)闂l目中的對(duì)應(yīng)屬性值在IS中關(guān)于這個(gè)特定條目可得到的信息中可能只是含蓄地暗示。
5.需要解決多義查詢,以便支持不檢索完全多余資料的合理搜索。查詢中的單詞“records”指的是音樂的錄制品還是Guinness類型的記錄?單詞“glasses”指的是杯子還是眼鏡?消除多義性可能是復(fù)雜的問題,特別是當(dāng)多義性跨越不同范圍時(shí),例如在可能指定顏色、產(chǎn)品(例如手表)屬性或者材料本身的“gold”的情況下。多義性也可能是語法而不是詞匯方面的,例如在“紅色襯衣和短褲”中。
6.在沒有條目滿足用戶請(qǐng)求的所有方面而只是滿足其中一部分時(shí)情況是怎樣的?系統(tǒng)如何確定哪些條件比其它條件更重要?在查詢只是部分被表達(dá)、例如只給出品名時(shí),情況是怎樣的?SE是否能夠智能地處理空查詢?7.SE的一個(gè)常見問題在于,極大數(shù)量的信息可作為單一查詢的結(jié)果被返回。這種數(shù)量往往是僅瀏覽前面幾頁結(jié)果的人類用戶難以處理的。極相關(guān)的結(jié)果往往可能被遺漏,只是因?yàn)樗鼈冊(cè)诘谑摶虻谖迨撋铣霈F(xiàn)。例如,利用Google對(duì)“原子能”的搜索返回一百萬條以上的結(jié)果。較為適當(dāng)?shù)噪y以處理的是在Yahoo中對(duì)于“襯衣”的搜索!購物,返回70000種以上的產(chǎn)品!理智的用戶期望如何處置這些結(jié)果?因此,廣泛認(rèn)識(shí)到需要一種沒有上述局限的搜索引擎,而且具有這種搜索引擎將是很有利的。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個(gè)方面,提供一種用于搜索數(shù)據(jù)庫以產(chǎn)生提煉結(jié)果空間的交互方法,該方法包括為搜索標(biāo)準(zhǔn)進(jìn)行分析,使用搜索標(biāo)準(zhǔn)來搜索數(shù)據(jù)庫,從而得到初始結(jié)果空間,以及獲取用戶輸入以限定初始結(jié)果空間,從而得到提煉結(jié)果空間。
搜索最好是包括瀏覽。
分析最好是在搜索之前對(duì)數(shù)據(jù)庫執(zhí)行,從而為搜索優(yōu)化數(shù)據(jù)庫。
作為補(bǔ)充或替代,分析對(duì)用戶輸入的搜索標(biāo)準(zhǔn)來執(zhí)行。
分析最好是包括使用語言分析。
該方法最好是包括對(duì)初始搜索標(biāo)準(zhǔn)進(jìn)行分析,以便得到附加搜索標(biāo)準(zhǔn)。
在一個(gè)實(shí)施例中,無效標(biāo)準(zhǔn)可接受為搜索標(biāo)準(zhǔn),在這種情況中,該方法繼續(xù)進(jìn)行,其方式是產(chǎn)生一系列問題,以便從用戶獲取搜索標(biāo)準(zhǔn)。
為附加搜索標(biāo)準(zhǔn)進(jìn)行的分析最好是采用初始搜索標(biāo)準(zhǔn)的語言分析來進(jìn)行。
分析最好是通過選擇相關(guān)概念來進(jìn)行。
分析最好是采用從方法的過去操作得到的數(shù)據(jù)來進(jìn)行。
該方法最好是包括通過產(chǎn)生具有至少兩個(gè)答案的至少一個(gè)提示,來產(chǎn)生用于獲取用戶輸入的提示,所述答案被選取以劃分初始結(jié)果空間。
產(chǎn)生提示最好是包括產(chǎn)生具有多個(gè)可能答案的至少一個(gè)分段提示,每個(gè)答案對(duì)應(yīng)于結(jié)果空間的一部分。
對(duì)提示的可能答案所定義的結(jié)果空間的各部分最好是包括結(jié)果空間的實(shí)質(zhì)上成比例的份額。
該方法最好是包括產(chǎn)生多個(gè)分段提示,以及從其中選擇其答案最均勻地劃分結(jié)果空間的提示。
限定結(jié)果空間最好是包括從結(jié)果空間中排除不對(duì)應(yīng)于用戶輸入中給出的答案的任何結(jié)果。
該方法最好是包括允許用戶插入附加文本,文本可用作限定中用戶輸入的一部分。
該方法最好是允許通過產(chǎn)生具有至少兩個(gè)答案的至少一個(gè)進(jìn)一步提示來重復(fù)用戶輸入獲取的階段,所述答案被選取以劃分提煉結(jié)果空間。
一個(gè)優(yōu)選實(shí)施例允許限定繼續(xù)進(jìn)行,直至提煉結(jié)果空間收縮到預(yù)定大小。
作為補(bǔ)充或替代,該方法可允許限定的這種繼續(xù),直至沒有發(fā)現(xiàn)進(jìn)一步提示。
作為補(bǔ)充或替代,該方法可允許繼續(xù)限定,直至接收到用戶輸入,從而停止進(jìn)一步限定并提交現(xiàn)有結(jié)果空間。
該方法可包括確定已提交結(jié)果空間不包括預(yù)期條目;以及在確定之后,可向用戶提交已經(jīng)通過限定排除的初始檢索條目。
該方法最好是包括執(zhí)行以下階段從用戶獲取關(guān)于所提交結(jié)果空間不包括預(yù)期條目的確定,以及向用戶提交通過限定排除的初始檢索條目。
該方法最好是包括接收初始搜索標(biāo)準(zhǔn)作為用戶輸入。
獲取用戶輸入最好是包括為用戶提供對(duì)提示不選擇答案的可能性。
該方法可包括在用戶不選擇答案之后提供附加提示。例如,相同的問題可能以不同方式來詢問,或者可由備選問題替代。
該方法最好是包括根據(jù)用戶在查詢之后對(duì)條目的最終選擇來執(zhí)行系統(tǒng)內(nèi)部搜索支持信息的更新。
更新可包括修改所選條目與所得到的用戶輸入之間的相關(guān)性。
根據(jù)本發(fā)明的第二方面,提供一種用于交互地搜索數(shù)據(jù)庫以產(chǎn)生提煉結(jié)果空間的裝置,包括搜索標(biāo)準(zhǔn)分析器,用于分析以獲得搜索標(biāo)準(zhǔn),數(shù)據(jù)庫搜索器,與搜索標(biāo)準(zhǔn)分析器關(guān)聯(lián),用于采用搜索標(biāo)準(zhǔn)來搜索數(shù)據(jù)庫,從而得到初始結(jié)果空間,以及限定器,用于獲取用戶輸入以限定結(jié)果空間,并采用用戶輸入來限定結(jié)果空間,從而制訂提煉結(jié)果空間。
搜索標(biāo)準(zhǔn)分析器最好是包括數(shù)據(jù)庫數(shù)據(jù)條目分析器,它能夠產(chǎn)生數(shù)據(jù)條目的分類,以便與所分析的搜索標(biāo)準(zhǔn)對(duì)應(yīng)。
搜索標(biāo)準(zhǔn)分析器最好是包括數(shù)據(jù)庫數(shù)據(jù)條目分析器,它能夠利用數(shù)據(jù)條目的分類,以便與所分析的搜索標(biāo)準(zhǔn)對(duì)應(yīng)。
搜索標(biāo)準(zhǔn)分析器最好還能夠利用數(shù)據(jù)條目的分類,以便與所分析的搜索標(biāo)準(zhǔn)對(duì)應(yīng)。
數(shù)據(jù)庫數(shù)據(jù)條目分析器最好是可用于在搜索之前分析數(shù)據(jù)庫的至少一部分。
數(shù)據(jù)庫數(shù)據(jù)條目分析器最好是可用于在搜索期間分析數(shù)據(jù)庫的至少一部分。
分析最好是包括語言分析。
分析最好是包括統(tǒng)計(jì)分析。
統(tǒng)計(jì)分析最好是包括統(tǒng)計(jì)語言分析。
搜索標(biāo)準(zhǔn)分析器最好是配置成接收來自用戶的初始搜索標(biāo)準(zhǔn)供分析。
初始搜索標(biāo)準(zhǔn)最好是無效標(biāo)準(zhǔn)。
分析器最好是配置成執(zhí)行初始搜索標(biāo)準(zhǔn)的語言分析。
分析器最好是配置成根據(jù)相關(guān)概念的選擇來執(zhí)行分析。
分析器最好是配置成根據(jù)先前搜索中得到的歷史知識(shí)來執(zhí)行分析。
限定器最好是可用于產(chǎn)生用于獲取用戶輸入的提示,該提示包括至少兩個(gè)可選響應(yīng),響應(yīng)可用于劃分初始結(jié)果空間。
提示最好是包括具有多個(gè)可能答案的分段提示,每個(gè)答案對(duì)應(yīng)于結(jié)果空間的一部分,以及每個(gè)部分包含結(jié)果空間的實(shí)質(zhì)上成比例的份額。
產(chǎn)生提示最好是包括產(chǎn)生各具有多個(gè)可能答案的多個(gè)分段提示,每個(gè)答案對(duì)應(yīng)于結(jié)果空間的一部分,以及每個(gè)部分包含結(jié)果空間的實(shí)質(zhì)上成比例的份額,以及選擇其答案最均勻地劃分結(jié)果空間的提示之一。
該裝置可配置成允許用戶插入附加文本,文本可由限定器用作用戶輸入的一部分。
限定結(jié)果空間最好是包括從其中排除不對(duì)應(yīng)于用戶輸入中給出的答案的任何結(jié)果,從而產(chǎn)生修訂結(jié)果空間。
限定器最好是可用于產(chǎn)生具有至少兩個(gè)答案的至少一個(gè)進(jìn)一步提示,答案被選取以劃分修訂結(jié)果空間。
限定器最好是配置成繼續(xù)限定,直至提煉結(jié)果空間收縮到預(yù)定大小。
作為補(bǔ)充或替代,限定器配置成繼續(xù)限定,直至沒有發(fā)現(xiàn)進(jìn)一步提示。
作為補(bǔ)充或替代,限定器配置成繼續(xù)限定,直至接收到用戶輸入,從而停止進(jìn)一步限定并提交現(xiàn)有結(jié)果空間。
最好使用戶能夠響應(yīng)所提交結(jié)果空間不包括預(yù)期條目,該裝置配置成在接收到這種響應(yīng)時(shí),向用戶提交已經(jīng)通過限定排除的初始檢索條目。
裝置可配置成確定所提交結(jié)果空間不包括預(yù)期條目,該裝置在這種確定之后配置成在接收到這種響應(yīng)時(shí)向用戶提交已經(jīng)通過限定排除的初始檢索條目。
分析器最好是配置成接收初始搜索標(biāo)準(zhǔn)作為用戶輸入。
限定器最好是配置成通過提示來為用戶提供對(duì)提示不選擇答案的可能性。
限定器最好是可用于在用戶不選擇答案之后提供進(jìn)一步提示。
裝置可配備更新單元,用于根據(jù)用戶在查詢之后對(duì)條目的最終選擇來更新系統(tǒng)內(nèi)部搜索支持信息。
更新最好是包括修改所選條目與所得到的用戶輸入之間的相關(guān)性。
作為補(bǔ)充或替代,更新包括修改所選條目的分類與所得到的用戶輸入之間的相關(guān)性。
根據(jù)本發(fā)明的第三方面,提供一種數(shù)據(jù)庫,其中具有用于對(duì)其進(jìn)行交互式搜索以產(chǎn)生提煉結(jié)果空間的裝置,該裝置包括搜索標(biāo)準(zhǔn)分析器,用于為搜索標(biāo)準(zhǔn)進(jìn)行分析,數(shù)據(jù)庫搜索器,與搜索標(biāo)準(zhǔn)分析器關(guān)聯(lián),用于采用搜索標(biāo)準(zhǔn)來搜索數(shù)據(jù)庫,從而得到初始結(jié)果空間,以及限定器,用于獲取用戶輸入以限定結(jié)果空間,并采用用戶輸入來限定結(jié)果空間,從而提供提煉結(jié)果空間。
搜索標(biāo)準(zhǔn)分析器最好是包括數(shù)據(jù)庫數(shù)據(jù)條目分析器,它能夠產(chǎn)生數(shù)據(jù)條目的分類,以便與所分析的搜索標(biāo)準(zhǔn)對(duì)應(yīng)。
搜索標(biāo)準(zhǔn)分析器最好是包括數(shù)據(jù)庫數(shù)據(jù)條目分析器,它能夠利用數(shù)據(jù)條目的分類,以便與所分析的搜索標(biāo)準(zhǔn)對(duì)應(yīng)。
數(shù)據(jù)庫數(shù)據(jù)條目分析器最好還能夠利用數(shù)據(jù)條目的分類,以便與所分析的搜索標(biāo)準(zhǔn)對(duì)應(yīng)。
搜索標(biāo)準(zhǔn)分析器最好是包括能夠按照數(shù)據(jù)庫中的條目的分類結(jié)構(gòu)來分析用戶提供的搜索標(biāo)準(zhǔn)的搜索標(biāo)準(zhǔn)分析器。
數(shù)據(jù)庫包括數(shù)據(jù)條目,并且各數(shù)據(jù)條目最好被分析為可能的搜索標(biāo)準(zhǔn),從而優(yōu)化與用戶輸入搜索標(biāo)準(zhǔn)的匹配。
數(shù)據(jù)庫數(shù)據(jù)條目分析器最好是可用于執(zhí)行語言分析。
數(shù)據(jù)庫數(shù)據(jù)條目分析器最好是可用于執(zhí)行統(tǒng)計(jì)分析,統(tǒng)計(jì)分析是統(tǒng)計(jì)語言分析。
搜索標(biāo)準(zhǔn)分析器最好是配置成接收來自用戶的初始搜索標(biāo)準(zhǔn)供分析。
如上所述,初始搜索標(biāo)準(zhǔn)可以是無效標(biāo)準(zhǔn)。
分析器最好是配置成執(zhí)行初始搜索標(biāo)準(zhǔn)的語言分析。
分析器最好是配置成根據(jù)相關(guān)概念的選擇來執(zhí)行分析。
分析器最好是配置成根據(jù)先前搜索中得到的歷史知識(shí)來執(zhí)行分析。
限定器最好是可用于產(chǎn)生用于獲取用戶輸入的提示,該提示包括具有至少兩個(gè)答案的提示,答案被選取以劃分初始結(jié)果空間。
提示最好是具有多個(gè)可能答案的分段提示,每個(gè)答案對(duì)應(yīng)于結(jié)果空間的一部分,以及每個(gè)部分包含結(jié)果空間的實(shí)質(zhì)上成比例的份額。
數(shù)據(jù)庫和搜索裝置可允許用戶插入附加文本,文本可由限定器用作用戶輸入的一部分。
限定結(jié)果空間最好是包括從其中排除不對(duì)應(yīng)于用戶輸入的答案之一的任何結(jié)果,從而產(chǎn)生修訂結(jié)果空間。
限定器最好是可用于產(chǎn)生具有至少兩個(gè)答案的至少一個(gè)進(jìn)一步提示,答案被選取以劃分修訂結(jié)果空間。
限定器最好是配置成繼續(xù)限定,直至提煉結(jié)果空間收縮到預(yù)定大小。
作為補(bǔ)充或替代,限定器配置成繼續(xù)限定,直至沒有發(fā)現(xiàn)進(jìn)一步提示。
作為補(bǔ)充或替代,限定器配置成繼續(xù)限定,直至接收到用戶輸入,從而停止進(jìn)一步限定并提交現(xiàn)有結(jié)果空間。
最好使用戶能夠響應(yīng)所提交結(jié)果空間不包括預(yù)期條目,在這種情況中,數(shù)據(jù)庫和搜索裝置配置成向用戶提交已經(jīng)通過限定排除的初始檢索條目。
數(shù)據(jù)庫和搜索裝置可配置成確定所提交結(jié)果空間不包括預(yù)期條目,數(shù)據(jù)庫在這種確定之后可用于向用戶提交已經(jīng)通過限定排除的初始檢索條目。
分析器最好是配置成接收初始搜索標(biāo)準(zhǔn)作為用戶輸入。
限定器最好是配置成通過提示來為用戶提供對(duì)提示不選擇答案的可能性。
限定器最好是還配置成在用戶不選擇答案之后提供附加提示。
數(shù)據(jù)庫和搜索裝置可配備更新單元,用于根據(jù)用戶在查詢之后對(duì)條目的最終選擇來更新系統(tǒng)內(nèi)部搜索支持信息。
更新最好是包括修改所選條目與所得到的用戶輸入之間的相關(guān)性。
更新最好是包括修改所選條目的分類與所得到的用戶輸入之間的相關(guān)性。
根據(jù)本發(fā)明的第四方面,提供一種用于搜索所存儲(chǔ)數(shù)據(jù)條目的查詢方法,該方法包括i)接收包含至少第一搜索檢索詞的查詢,ii)通過向查詢添加與至少第一搜索檢索詞相關(guān)的檢索詞來擴(kuò)充查詢,iii)檢索與檢索詞中的至少一個(gè)對(duì)應(yīng)的數(shù)據(jù)條目,iv)采用應(yīng)用于所檢索數(shù)據(jù)條目的屬性值制訂對(duì)用戶的提示,v)向用戶詢問制訂的提示中的至少一個(gè),作為用于聚焦查詢的提示,vi)接收對(duì)它的響應(yīng),以及vii)采用所接收響應(yīng)來與屬性的值進(jìn)行比較,以便排除所檢索條目中的一些,從而提供所檢索數(shù)據(jù)條目的子集作為查詢結(jié)果。
查詢最好是包括多個(gè)檢索詞,以及擴(kuò)充查詢還包括分析這些檢索詞以確定這些檢索詞中的一些之間的語法上的相互關(guān)系。
查詢方法可包括采用語法上的相互關(guān)系來標(biāo)識(shí)搜索查詢的主檢索詞和輔助檢索詞。
擴(kuò)充最好是包括分別向查詢添加下列各項(xiàng)的三階段過程a)與搜索檢索詞密切相關(guān)的條目,b)在較小程度上與搜索檢索詞相關(guān)的條目,以及c)因搜索檢索詞中固有的多義性而得到的備選解釋。
條目最好是包括詞匯術(shù)語和概念表示的組中的一個(gè)。
查詢方法可包括重復(fù)階段iii)至vi)的至少一個(gè)附加聚焦過程,從而提供所檢索數(shù)據(jù)條目的提煉子集作為查詢結(jié)果。
查詢方法可包括根據(jù)基于概率值的熵權(quán)重對(duì)制訂的提示排序,并詢問具有更極端的熵權(quán)重的提示中的一些。
查詢方法可包括在接收到對(duì)于先前提示的響應(yīng)之后重新計(jì)算概率值,從而重新計(jì)算熵權(quán)重。
查詢方法可包括采用各提示的動(dòng)態(tài)答案集,動(dòng)態(tài)答案集包含與分類值關(guān)聯(lián)的答案,分類值對(duì)于一些所接收條目為真以及對(duì)于另一些所接收條目為假,從而區(qū)別所檢索條目。
查詢方法可包括根據(jù)區(qū)別所檢索條目的相應(yīng)能力對(duì)動(dòng)態(tài)答案集中的各個(gè)答案分級(jí)。
查詢方法可包括根據(jù)用戶搜索行為來修改概率值。
用戶搜索行為最好是包括當(dāng)前用戶的過往行為。
作為補(bǔ)充或替代,用戶搜索行為包括在一組用戶上聚集的過往行為。
修改最好是包括采用用戶搜索行為來獲得各個(gè)數(shù)據(jù)條目的先驗(yàn)選擇概率,以及修改權(quán)重以反映概率。
熵權(quán)重最好是與包括條目的條目分類和相應(yīng)分類值的組中的至少一個(gè)關(guān)聯(lián)。
查詢方法可包括在接收查詢之前對(duì)所存儲(chǔ)數(shù)據(jù)條目進(jìn)行語義分析。
查詢方法可包括在搜索會(huì)話期間對(duì)所存儲(chǔ)數(shù)據(jù)條目進(jìn)行語義分析。
語義分析最好是包括把數(shù)據(jù)條目分為若干類。
查詢方法可包括把屬性分為屬性類。
分類最好是包括在對(duì)象類或主類之中以及在屬性類之中進(jìn)行區(qū)分。
分類最好是包括提供對(duì)單個(gè)數(shù)據(jù)條目的多個(gè)分類。
最好是對(duì)于相應(yīng)數(shù)據(jù)庫的主題的內(nèi)在意義預(yù)先選擇各個(gè)類的分類排列。
查詢方法可包括分級(jí)排列類中的主類。
查詢方法可包括分級(jí)排列屬性類。
查詢方法可包括從檢索詞的分級(jí)排列確定數(shù)據(jù)條目中檢索詞的語義意義。
類最好是還用于分析查詢。
最好是根據(jù)相應(yīng)數(shù)據(jù)庫的主題對(duì)屬性值分配權(quán)重。
最好是根據(jù)相應(yīng)數(shù)據(jù)庫的主題對(duì)屬性值和類中的至少一個(gè)分配角色。例如,角色可能是數(shù)據(jù)條目的狀態(tài)或者數(shù)據(jù)條目的屬性。
角色最好是還用于剖析查詢。
查詢方法可包括根據(jù)按照數(shù)據(jù)庫的主題所分配的角色來分配重要性權(quán)重。
查詢方法可包括采用重要性權(quán)重來區(qū)別部分滿足的查詢。
分析最好是包括名詞短語類型剖析。
分析最好是包括采用與所存儲(chǔ)數(shù)據(jù)條目的主題相關(guān)的知識(shí)庫所支持的語言技術(shù)。
分析最好是包括采用統(tǒng)計(jì)分類技術(shù)。
分析最好是包括采用以下各項(xiàng)的組合i)與所存儲(chǔ)數(shù)據(jù)條目的主題相關(guān)的知識(shí)庫所支持的語言技術(shù),以及ii)統(tǒng)計(jì)技術(shù)。
統(tǒng)計(jì)技術(shù)最好是在語言技術(shù)之后對(duì)數(shù)據(jù)條目執(zhí)行。
語言技術(shù)最好是包括以下各項(xiàng)中的至少一個(gè)分割,標(biāo)記化,詞形歸類,標(biāo)記,詞性標(biāo)記,以及數(shù)據(jù)條目的至少部分命名實(shí)體識(shí)別。
查詢方法可包括采用概率以及排列為權(quán)重的概率中的至少一種來區(qū)別來自各個(gè)技術(shù)的不同結(jié)果。
查詢方法可包括根據(jù)用戶搜索行為來修改權(quán)重。
用戶搜索行為最好是包括當(dāng)前用戶的過往行為。
作為補(bǔ)充或替代,用戶搜索行為包括在一組用戶上聚集的過往行為。
語言技術(shù)的輸出最好是用作至少一個(gè)統(tǒng)計(jì)技術(shù)的輸入。
至少一個(gè)統(tǒng)計(jì)技術(shù)最好是用于語言技術(shù)中。
查詢方法可包括采用兩種統(tǒng)計(jì)技術(shù)。
查詢方法可包括分配表明與所存儲(chǔ)數(shù)據(jù)條目中的至少一個(gè)關(guān)聯(lián)的意義的至少一個(gè)代碼,分配是對(duì)很可能見于針對(duì)至少一個(gè)所存儲(chǔ)數(shù)據(jù)條目的查詢中的檢索詞。
與所存儲(chǔ)數(shù)據(jù)條目中的至少一個(gè)關(guān)聯(lián)的意義最好是條目、條目的屬性類以及條目的屬性值中的至少一個(gè)。
查詢方法可包括通過把新檢索詞分配給至少一個(gè)代碼,來擴(kuò)充很可能見于查詢中的檢索詞的范圍。
查詢方法可包括提供類檢索詞的分組以及屬性值檢索詞的分組。
最好是,如果分析標(biāo)識(shí)多義性,則對(duì)于多義性中的各意義的語義有效性執(zhí)行測(cè)試查詢的階段,以及對(duì)于被認(rèn)為在語義上有效的各意義,向用戶提供解決有效性的提示。
最好是,如果分析標(biāo)識(shí)多義性,則對(duì)于多義性中的各意義的語義有效性執(zhí)行測(cè)試查詢的階段,以及對(duì)于被認(rèn)為在語義上有效的各意義,則根據(jù)它來檢索數(shù)據(jù)條目并根據(jù)相應(yīng)數(shù)據(jù)條目檢索來區(qū)別這些意義。
最好是,如果分析標(biāo)識(shí)多義性,則對(duì)于多義性中的各意義的語義有效性執(zhí)行測(cè)試查詢的階段,以及對(duì)于被認(rèn)為在語義上有效的各意義,采用與所存儲(chǔ)數(shù)據(jù)條目的主題關(guān)聯(lián)的知識(shí)庫來區(qū)別在語義上有效的意義。
查詢方法可包括對(duì)各數(shù)據(jù)條目預(yù)先定義概率矩陣,把數(shù)據(jù)條目與屬性值集合關(guān)聯(lián)。
查詢方法可包括采用概率來解決查詢中的多義性。
查詢方法可包括處理包含與預(yù)定概念集相關(guān)的多個(gè)檢索詞的輸入文本的階段,以便就概念而論對(duì)檢索詞分類,該階段包括把預(yù)定概念集排列為概念分級(jí)結(jié)構(gòu),把檢索詞與相應(yīng)概念匹配,以及把與匹配概念分級(jí)相關(guān)的其它概念應(yīng)用于相應(yīng)檢索詞。
概念分級(jí)結(jié)構(gòu)最好是包括以下關(guān)系中的至少一個(gè)(a)上位詞-下位詞關(guān)系,(b)部分-整體關(guān)系,(c)屬性值維-屬性值關(guān)系,(d)相鄰概念子層次之間的相互關(guān)系。
對(duì)檢索詞分類最好是還包括應(yīng)用置信度,以便根據(jù)為匹配各個(gè)概念進(jìn)行的判定的類型對(duì)匹配概念分級(jí)。
查詢方法可包括標(biāo)識(shí)文本中的介詞,利用介詞與檢索詞的關(guān)系把檢索詞標(biāo)識(shí)為焦點(diǎn)檢索詞,以及把與焦點(diǎn)檢索詞匹配的概念設(shè)置為焦點(diǎn)概念。
排列概念最好是包括把同義概念分組在一起。
同義概念的分組最好是包括作為相互形態(tài)變異的概念檢索詞的分組。
檢索詞中的至少一個(gè)最好是具有多個(gè)意義,該方法包括區(qū)別多個(gè)意義以選擇最可能意義的消除多義性階段。
消除多義性階段最好是包括比較屬性值、屬性維、輸入文本與多個(gè)意義的相應(yīng)概念之間的商標(biāo)關(guān)聯(lián)和型號(hào)關(guān)聯(lián)中的至少一個(gè)。
比較最好是包括確定統(tǒng)計(jì)概率。
消除多義性階段最好是包括把多個(gè)意義中的第一意義標(biāo)識(shí)為與文本中的檢索詞中的另一個(gè)分級(jí)相關(guān),以及選擇第一意義作為最可能意義。
查詢方法可包括保留多個(gè)意義中的至少兩個(gè)。
查詢方法可包括把概率等級(jí)應(yīng)用于所保留意義中的每個(gè),從而確定最可能的意義。
查詢方法可包括查找檢索詞中的至少一個(gè)的備選拼寫,并把各備選拼寫作為備選意義來應(yīng)用。
查詢方法可包括采用相應(yīng)概念關(guān)系來確定備選拼寫中最可能的一個(gè)。
輸入文本最好是要添加到數(shù)據(jù)庫中的條目。
輸入文本最好是用于搜索數(shù)據(jù)庫的查詢。
根據(jù)本發(fā)明的第五方面,提供一種用于搜索所存儲(chǔ)數(shù)據(jù)條目的查詢方法,該方法包括從用戶接收包含至少第一搜索檢索詞的查詢,通過向查詢添加與至少第一搜索檢索詞相關(guān)的檢索詞來擴(kuò)充查詢,就多義性分析查詢,為用戶制訂至少一個(gè)多義性解決提示,使得對(duì)提示的答案解決多義性,考慮到對(duì)多義性解決提示所接收的答案來修改查詢,檢索與已修改查詢對(duì)應(yīng)的數(shù)據(jù)條目,為用戶制訂結(jié)果限定提示,選擇結(jié)果限定提示中的至少一個(gè)來詢問用戶,并接收其響應(yīng),采用所接收響應(yīng)來排除所檢索條目中的一些,從而向用戶提供所檢索數(shù)據(jù)條目的子集作為查詢結(jié)果。
查詢最好是包括多個(gè)檢索詞,以及擴(kuò)充查詢還包括分析這些檢索詞以確定這些檢索詞中的一些之間的語法上的相互關(guān)系。
擴(kuò)充最好是包括分別向查詢添加下列各項(xiàng)的三階段過程a)與搜索檢索詞密切相關(guān)的條目,b)在較小程度上與搜索檢索詞相關(guān)的條目,以及c)因搜索檢索詞中固有的任何多義性而得到的備選解釋。
查詢可包括重復(fù)階段iii)至vi)的至少一個(gè)附加聚焦過程,從而提供所檢索數(shù)據(jù)條目的提煉子集作為查詢結(jié)果。
查詢方法可包括根據(jù)基于概率值的熵權(quán)重對(duì)制訂的提示排序,并詢問具有更極端的熵權(quán)重的提示中的一些。
查詢方法可包括在接收到對(duì)于先前提示的響應(yīng)之后重新計(jì)算概率值,從而重新計(jì)算熵權(quán)重。
查詢方法可包括采用各提示的動(dòng)態(tài)答案集,動(dòng)態(tài)答案集包含與屬性值關(guān)聯(lián)的答案,屬性值對(duì)于一些所接收條目為真,對(duì)于另一些所接收條目為假,從而區(qū)別所檢索條目。
查詢方法可包括根據(jù)區(qū)別所檢索條目的相應(yīng)能力對(duì)動(dòng)態(tài)答案集中的各個(gè)答案分級(jí)。
查詢方法可包括根據(jù)用戶搜索行為來修改概率值。
用戶搜索行為最好是包括當(dāng)前用戶的過去行為。
作為補(bǔ)充或替代,用戶搜索行為包括在一組用戶上聚集的過去行為。
修改最好是包括采用用戶搜索行為來獲得各個(gè)數(shù)據(jù)條目的先驗(yàn)選擇概率,以及修改權(quán)重以反映概率。
熵權(quán)重最好是與包括條目、相應(yīng)屬性的分類和分類值的組中的至少一個(gè)關(guān)聯(lián)。
查詢方法可包括在接收查詢之前對(duì)所存儲(chǔ)數(shù)據(jù)條目進(jìn)行語義剖析。
查詢之前的語義分析最好是包括把數(shù)據(jù)條目預(yù)先排列為類,每個(gè)類具有已分配的屬性值,預(yù)先排列包括剖析數(shù)據(jù)條目以便從其中標(biāo)識(shí)數(shù)據(jù)條目類,并在存在時(shí)標(biāo)識(shí)類的屬性值。
查詢方法可包括把屬性值排列為類。
最好是對(duì)于相應(yīng)數(shù)據(jù)庫的主題的內(nèi)在意義預(yù)先選擇類。
最好是分級(jí)排列類中的主類。
最好是分級(jí)排列屬性類。
查詢方法可包括從檢索詞的分級(jí)排列確定數(shù)據(jù)條目中的檢索詞的語義意義。
類最好是還用于分析查詢。
最好是根據(jù)相應(yīng)數(shù)據(jù)庫的主題對(duì)屬性值分配權(quán)重。
最好是根據(jù)相應(yīng)數(shù)據(jù)庫的主題對(duì)屬性值和類中的至少一個(gè)分配角色。
角色最好是還用于剖析查詢。
查詢方法可包括按照根據(jù)主題所分配的角色來分配重要性權(quán)重。
查詢方法可包括采用重要性權(quán)重來區(qū)別部分滿足的查詢。
分析最好是包括名詞短語類型剖析。
分析最好是包括采用與所存儲(chǔ)數(shù)據(jù)條目的主題相關(guān)的知識(shí)庫所支持的語言技術(shù)。
分析最好是包括統(tǒng)計(jì)分類技術(shù)。
分析最好是包括采用以下各項(xiàng)的組合i)與所存儲(chǔ)數(shù)據(jù)條目的主題相關(guān)的知識(shí)庫所支持的語言技術(shù),以及ii)統(tǒng)計(jì)技術(shù)。
統(tǒng)計(jì)技術(shù)最好是在語言技術(shù)之后對(duì)數(shù)據(jù)條目執(zhí)行。
語言技術(shù)最好是包括以下各項(xiàng)中的至少一個(gè)分割,標(biāo)記化,詞形歸類,標(biāo)記,詞性標(biāo)記,以及數(shù)據(jù)條目的至少部分命名實(shí)體識(shí)別。
查詢方法可包括采用概率以及排列為權(quán)重的概率中的至少一個(gè)來區(qū)別來自各個(gè)技術(shù)的不同結(jié)果。
查詢方法可包括根據(jù)用戶搜索行為來修改權(quán)重。
用戶搜索行為最好是包括當(dāng)前用戶的過去行為。
用戶搜索行為最好是包括在一組用戶上聚集的過去行為。
語言技術(shù)的輸出最好是用作至少一個(gè)統(tǒng)計(jì)技術(shù)的輸入。
至少一個(gè)統(tǒng)計(jì)技術(shù)最好是用于語言技術(shù)中。
查詢方法可包括采用兩種統(tǒng)計(jì)技術(shù)。
查詢方法可包括分配表明與所存儲(chǔ)數(shù)據(jù)條目中的至少一個(gè)關(guān)聯(lián)的意義的至少一個(gè)代碼,分配是對(duì)很可能見于針對(duì)至少一個(gè)所存儲(chǔ)數(shù)據(jù)條目的查詢中的檢索詞。
與所存儲(chǔ)數(shù)據(jù)條目中的至少一個(gè)關(guān)聯(lián)的意義最好是條目、條目的分類以及條目的分類值中的至少一個(gè)。
查詢方法可包括通過把新檢索詞分配給至少一個(gè)代碼,來擴(kuò)充很可能見于查詢中的檢索詞的范圍。
查詢方法可包括提供類檢索詞的分組以及屬性值檢索詞的分組。
最好是,如果分析標(biāo)識(shí)多義性,則對(duì)于多義性中的各意義的語義有效性執(zhí)行測(cè)試查詢的階段,以及對(duì)于被認(rèn)為在語義上有效的各意義,向用戶提供解決有效性的提示。
最好是,如果分析標(biāo)識(shí)多義性,則對(duì)于多義性中的各意義的語義有效性執(zhí)行測(cè)試查詢的階段,以及對(duì)于被認(rèn)為在語義上有效的各意義,則根據(jù)它來檢索數(shù)據(jù)條目并根據(jù)相應(yīng)數(shù)據(jù)條目檢索來區(qū)別這些意義。
最好是,如果分析標(biāo)識(shí)多義性,則對(duì)于多義性中的各意義的語義有效性執(zhí)行測(cè)試查詢的階段,以及對(duì)于被認(rèn)為在語義上有效的各意義,采用與所存儲(chǔ)數(shù)據(jù)條目的主題關(guān)聯(lián)的知識(shí)庫來區(qū)別在語義上有效的意義。
查詢方法可包括為各數(shù)據(jù)條目預(yù)先定義概率矩陣,把數(shù)據(jù)條目與屬性值集合關(guān)聯(lián)。
查詢方法可包括采用概率來解決查詢中的多義性。
根據(jù)本發(fā)明的第六方面,提供一種用于搜索所存儲(chǔ)數(shù)據(jù)條目的查詢方法,該方法包括從用戶接收包含至少兩個(gè)搜索檢索詞的查詢,通過確定搜索檢索詞之間的語義關(guān)系來分析查詢,從而區(qū)分定義條目的檢索詞與定義其屬性值的檢索詞,檢索與所標(biāo)識(shí)條目中的至少一個(gè)對(duì)應(yīng)的數(shù)據(jù)條目,采用應(yīng)用于所檢索數(shù)據(jù)條目的屬性值制訂對(duì)用戶的提示,向用戶詢問制訂的提示中的至少一個(gè),并接收其響應(yīng),采用所接收響應(yīng)來與屬性的值進(jìn)行比較,以便排除所檢索條目中的一些,從而向用戶提供所檢索數(shù)據(jù)條目的子集作為查詢結(jié)果。
分析查詢最好是包括應(yīng)用置信度,以便根據(jù)對(duì)達(dá)到這些檢索詞進(jìn)行的判定的類型對(duì)檢索詞分級(jí)。
根據(jù)本發(fā)明的第七方面,提供一種用于搜索所存儲(chǔ)數(shù)據(jù)條目的查詢方法,該方法包括從用戶接收包含至少第一搜索檢索詞的查詢,剖析查詢以檢測(cè)名詞短語,檢索與所剖析查詢對(duì)應(yīng)的數(shù)據(jù)條目,為用戶制訂結(jié)果限定提示,選擇結(jié)果限定提示中的至少一個(gè)來詢問用戶,并接收其響應(yīng),采用所接收響應(yīng)來排除所檢索條目中的一些,從而向用戶提供所檢索數(shù)據(jù)條目的子集作為查詢結(jié)果。
剖析最好是包括標(biāo)識(shí)i)對(duì)查詢中的所存儲(chǔ)數(shù)據(jù)條目的引用,以及ii)對(duì)屬性類及其關(guān)聯(lián)的屬性值中的至少一個(gè)的引用。
查詢方法可包括把重要性權(quán)重分配給相應(yīng)屬性值,重要性權(quán)重可用于測(cè)量與檢索中的數(shù)據(jù)條目的對(duì)應(yīng)等級(jí)。
查詢方法可包括對(duì)結(jié)果限定提示分級(jí),并且僅向用戶詢問提示中的最高級(jí)別的提示。
分級(jí)最好是根據(jù)修改所檢索條目的總數(shù)的相應(yīng)提示的能力來進(jìn)行。
分級(jí)最好是根據(jù)應(yīng)用于相應(yīng)提示相關(guān)的屬性值的權(quán)重來進(jìn)行。
分級(jí)最好是根據(jù)在該方法的先前操作中收集的經(jīng)驗(yàn)來進(jìn)行。
經(jīng)驗(yàn)最好是包括所有用戶的經(jīng)驗(yàn)、一組所選用戶的經(jīng)驗(yàn)、來自類似查詢的組的經(jīng)驗(yàn)以及從當(dāng)前用戶收集的經(jīng)驗(yàn)的組中的至少一種。
制訂最好是包括根據(jù)所檢索條目的總數(shù)的有效性等級(jí)來制定提示。
制訂最好是包括對(duì)于與查詢的數(shù)據(jù)條目關(guān)聯(lián)的屬性值加權(quán),并制定與加權(quán)屬性值中的最高值相關(guān)的提示。
制訂最好是根據(jù)在該方法的先前操作中收集的經(jīng)驗(yàn)來制定提示。
制訂最好是包括根據(jù)所檢索結(jié)果包含至少兩個(gè)答案的集合,每個(gè)答案映射到至少一個(gè)所檢索結(jié)果。
根據(jù)本發(fā)明的第八方面,提供一種對(duì)于與數(shù)據(jù)檢索系統(tǒng)的對(duì)象集合相關(guān)的所存儲(chǔ)數(shù)據(jù)分類的自動(dòng)方法,該方法包括定義至少兩個(gè)對(duì)象類,對(duì)每個(gè)類分配至少一個(gè)屬性值,對(duì)于分配給每個(gè)類的各屬性值,分配重要性權(quán)重,把集合中的對(duì)象分配給至少一個(gè)類,以及為對(duì)象分配類的至少一個(gè)屬性的屬性值。
對(duì)象最好是由文本數(shù)據(jù)來表示,以及其中,對(duì)象的分配和屬性值的分配包括采用語言算法和知識(shí)庫。
對(duì)象最好是由文本數(shù)據(jù)來表示,以及對(duì)象的分配和屬性值的分配包括采用語言算法、知識(shí)庫和統(tǒng)計(jì)算法的組合。
對(duì)象最好是由文本數(shù)據(jù)來表示,以及其中,對(duì)象的分配和屬性值的分配包括采用受監(jiān)督的聚類技術(shù)。
受監(jiān)督的聚類最好是包括首先采用語言算法和知識(shí)庫進(jìn)行分配,然后再添加統(tǒng)計(jì)技術(shù)。
查詢方法可包括提供至少一個(gè)類中的對(duì)象分類法。
查詢方法可包括提供至少一個(gè)屬性中的屬性值分類法。
查詢方法可包括對(duì)于就單一標(biāo)簽下的對(duì)象類而言具有相似意義的查詢檢索詞進(jìn)行分組。
查詢方法可包括對(duì)屬性值分組以形成分類法。
分類法對(duì)于多個(gè)對(duì)象類是全局的。
對(duì)象最好是由其中包含與預(yù)定概念集相關(guān)的多個(gè)檢索詞的文本描述來表示,該方法包括分析文本描述的階段,以便就概念而言對(duì)檢索詞分類,該階段包括把預(yù)定概念集排列為概念分級(jí)結(jié)構(gòu),
把檢索詞與相應(yīng)概念匹配,以及把與匹配概念分級(jí)相關(guān)的其它概念應(yīng)用于相應(yīng)檢索詞。
概念分級(jí)結(jié)構(gòu)最好是包括以下關(guān)系中的至少一個(gè)(a)上位詞-下位詞關(guān)系,(b)部分-整體關(guān)系,(c)屬性維-屬性值關(guān)系,(d)相鄰概念子層次之間的相互關(guān)系。
對(duì)檢索詞分類最好是還包括應(yīng)用置信度,以便根據(jù)為匹配各個(gè)概念進(jìn)行的判定的類型對(duì)匹配的概念分級(jí)。
查詢方法可包括標(biāo)識(shí)介詞,采用介詞與檢索詞的關(guān)系把檢索詞標(biāo)識(shí)為焦點(diǎn)檢索詞,以及把與焦點(diǎn)檢索詞匹配的概念設(shè)置為焦點(diǎn)概念。
排列概念最好是包括把同義概念分組在一起。
同義概念的分組最好是包括作為相互形態(tài)變異的概念檢索詞的分組。
檢索詞中的至少一個(gè)最好是具有多個(gè)意義,該方法包括區(qū)別多個(gè)意義以選擇最可能意義的消除多義性階段。
消除多義性階段最好是包括比較屬性值、屬性維、檢索詞與多個(gè)意義的相應(yīng)概念之間的商標(biāo)關(guān)聯(lián)和型號(hào)關(guān)聯(lián)中的至少一個(gè)。
比較最好是包括確定統(tǒng)計(jì)概率。
消除多義性階段最好是包括把多個(gè)意義中的第一意義標(biāo)識(shí)為與檢索詞中的另一個(gè)分級(jí)相關(guān),以及選擇第一意義作為最可能意義。
查詢方法包括保留多個(gè)意義中的至少兩個(gè)。
查詢方法可包括把概率等級(jí)應(yīng)用于所保留意義中的每個(gè),從而確定最可能意義。
查詢方法可包括查找檢索詞中的至少一個(gè)的備選拼寫,并把各備選拼寫作為備選意義來應(yīng)用。
查詢方法可包括采用相應(yīng)概念關(guān)系來確定備選拼寫中最可能的一個(gè)。
根據(jù)本發(fā)明的第九方面,提供一種處理包含與預(yù)定概念集相關(guān)的多個(gè)檢索詞的輸入文本、以便就概念而言對(duì)檢索詞分類的方法,該方法包括把預(yù)定概念集排列為概念分級(jí)結(jié)構(gòu),把檢索詞與相應(yīng)概念匹配,以及把與匹配概念分級(jí)相關(guān)的其它概念應(yīng)用于相應(yīng)檢索詞。
概念分級(jí)結(jié)構(gòu)最好是包括以下關(guān)系中的至少一個(gè)(a)上位詞-下位詞關(guān)系,(b)部分-整體關(guān)系,(c)屬性維-屬性值關(guān)系,(d)相鄰概念子層次之間的相互關(guān)系。
對(duì)檢索詞分類最好是還包括應(yīng)用置信度,以便根據(jù)為匹配各個(gè)概念進(jìn)行的判定的類型對(duì)匹配概念分級(jí)。
查詢方法可包括標(biāo)識(shí)文本中的介詞,采用介詞與檢索詞的關(guān)系把檢索詞標(biāo)識(shí)為焦點(diǎn)檢索詞,以及把與焦點(diǎn)檢索詞匹配的概念設(shè)置為焦點(diǎn)概念。
排列概念最好是包括把同義概念分組在一起。
同義概念的分組最好是包括作為相互形態(tài)變異的概念檢索詞的分組。
檢索詞中的至少一個(gè)最好是包括多個(gè)意義,該方法包括區(qū)別多個(gè)意義以選擇最可能意義的消除多義性階段。
消除多義性階段最好是包括比較屬性值、屬性維、輸入文本與多個(gè)意義的相應(yīng)概念之間的商標(biāo)關(guān)聯(lián)和型號(hào)關(guān)聯(lián)中的至少一個(gè)。
比較最好是包括確定統(tǒng)計(jì)概率。
消除多義性階段最好是包括把多個(gè)意義中的第一意義標(biāo)識(shí)為與文本中的檢索詞中另一個(gè)分級(jí)相關(guān),以及選擇第一意義作為最可能意義。
查詢方法可包括保留多個(gè)意義中的至少兩個(gè)。
查詢方法可包括把概率等級(jí)應(yīng)用于所保留意義中的每個(gè),從而確定最可能意義。
查詢方法可包括查找檢索詞中的至少一個(gè)的備選拼寫,并把各備選拼寫作為備選意義來應(yīng)用。
查詢方法可包括采用相應(yīng)概念關(guān)系來確定備選拼寫中最可能的一個(gè)。
輸入文本最好是要添加到數(shù)據(jù)庫中的條目,或者是用于搜索數(shù)據(jù)庫的查詢。也就是說,本發(fā)明的方法適用于搜索引擎的后端和前端,其中,后端是處理供將來搜索的數(shù)據(jù)庫信息的單元,而前端則處理當(dāng)前查詢。
除另有定義之外,本文所使用的所有科技術(shù)語具有與本發(fā)明所屬領(lǐng)域的技術(shù)人員普遍理解的同樣的意義。本文所提供的資料、方法和實(shí)例只是說明性的,而不是意在限制。
本發(fā)明的方法及系統(tǒng)的實(shí)現(xiàn)涉及以手動(dòng)、自動(dòng)或者它們的組合來執(zhí)行或完成所選任務(wù)或步驟。此外,根據(jù)本發(fā)明的方法及系統(tǒng)的優(yōu)選實(shí)施例的實(shí)際儀器和裝置,若干所選步驟可通過硬件或通過任何固件的任何操作系統(tǒng)上的軟件或者它們的組合來實(shí)現(xiàn)。例如,作為硬件,本發(fā)明的所選步驟可實(shí)現(xiàn)為芯片或電路。作為軟件,本發(fā)明的所選步驟可實(shí)現(xiàn)為由采用任何適當(dāng)操作系統(tǒng)的計(jì)算機(jī)執(zhí)行的多個(gè)軟件指令。在任一情況中,本發(fā)明的方法及系統(tǒng)的所選步驟可描述為通過數(shù)據(jù)處理器、例如用于執(zhí)行多個(gè)指令的計(jì)算平臺(tái)來執(zhí)行。
附圖簡(jiǎn)介本文中參照附圖、僅通過舉例來描述本發(fā)明?,F(xiàn)在具體參照詳細(xì)附圖,要強(qiáng)調(diào)的是,所示詳細(xì)情況作為實(shí)例,僅用于對(duì)本發(fā)明的優(yōu)選實(shí)施例的說明性論述,并且提出的目的是為了提供被認(rèn)為是對(duì)本發(fā)明的原理及概念方面的最有用且易于理解的描述。在這方面,無意更詳細(xì)地說明基本了解本發(fā)明所需的內(nèi)容之外的結(jié)構(gòu)細(xì)節(jié),結(jié)合附圖的說明使本領(lǐng)域的技術(shù)人員清楚如何實(shí)際上實(shí)施本發(fā)明的若干形式。
附圖中
圖1是簡(jiǎn)化框圖,說明根據(jù)本發(fā)明的第一實(shí)施例、與待搜索的數(shù)據(jù)存儲(chǔ)器關(guān)聯(lián)的搜索引擎;圖2是簡(jiǎn)化框圖,更詳細(xì)地說明圖1的搜索引擎;圖3是簡(jiǎn)化流程圖,說明根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例對(duì)數(shù)據(jù)編索引的過程;以及圖4是簡(jiǎn)化示意圖,更詳細(xì)地說明圖3的過程。
優(yōu)選實(shí)施例的描述當(dāng)前實(shí)施例提供用于處理與數(shù)據(jù)的存儲(chǔ)器相關(guān)的用戶查詢的增強(qiáng)功能搜索引擎。搜索引擎包括前端,用于處理用戶查詢;后端,用于處理存儲(chǔ)器中的數(shù)據(jù),以便增強(qiáng)它的可搜索性;以及學(xué)習(xí)單元,根據(jù)用戶行為的累積經(jīng)驗(yàn)改進(jìn)處理搜索查詢的方式。注意,盡管所述實(shí)施例重點(diǎn)放在包含語言描述的數(shù)據(jù)條目,但本發(fā)明決不受此限制,并且搜索引擎可用于其本身可按照分級(jí)結(jié)構(gòu)(包括平面分級(jí)結(jié)構(gòu))排列的、或者可分類為可按照分級(jí)結(jié)構(gòu)排列的屬性或值的、任何種類的條目。搜索例如可包括音樂。
搜索引擎的前端采用數(shù)據(jù)的一般和特定知識(shí)來拓寬查詢的范圍,執(zhí)行匹配操作,然后采用數(shù)據(jù)的特定知識(shí)對(duì)匹配進(jìn)行排序和排除。數(shù)據(jù)的特定知識(shí)可用于詢問用戶的聚焦階段,以便把搜索縮窄到用戶一般所關(guān)注的范圍。另外,它能夠向用戶提問,采取提示的形式,其答案可用于對(duì)匹配進(jìn)一步排序和排除??梢岳斫猓崾究赡懿扇〔煌谖淖謫栴}的形式。
搜索引擎的后端部分能夠處理數(shù)據(jù)存儲(chǔ)器中的數(shù)據(jù),以便把數(shù)據(jù)對(duì)象分組為類,并把屬性分配給類以及把值分配給類中的各個(gè)對(duì)象的屬性。然后,權(quán)重可分配給屬性。已經(jīng)以這種方式組織數(shù)據(jù)后,前端則能夠標(biāo)識(shí)類、屬性以及來自各個(gè)用戶查詢的對(duì)象和屬性值,并采用權(quán)重來進(jìn)行查詢與數(shù)據(jù)庫中對(duì)象之間的匹配以及對(duì)其排序。然后,可向用戶提出關(guān)于對(duì)象和屬性的問題,使得所檢索對(duì)象集可減小(或者重新排序)。與各種屬性相關(guān)的問題則可根據(jù)屬性權(quán)重重新排序,使得只向用戶提出最重要的問題。
前端在剖析文本查詢時(shí)以及后端在剖析文本數(shù)據(jù)條目時(shí)都可采用語言或者統(tǒng)計(jì)NLP技術(shù)或其組合,以便剖析文本并導(dǎo)出類和屬性信息。一個(gè)優(yōu)選實(shí)施例采用淺層剖析,然后采用兩個(gè)統(tǒng)計(jì)分類器以及一個(gè)基于語言推動(dòng)規(guī)則的分類器。優(yōu)選實(shí)施例采用受監(jiān)督的統(tǒng)計(jì)分類技術(shù)。
學(xué)習(xí)單元最好是遵循查詢行為,并修改所存儲(chǔ)權(quán)重以反映實(shí)際用戶行為。
參照附圖及所附說明,可以更好地理解根據(jù)本發(fā)明的搜索引擎的原理和操作。
在詳細(xì)說明本發(fā)明的至少一個(gè)實(shí)施例之前,要理解,本發(fā)明不限于它在以下描述中闡述或者在附圖中所示的組件的構(gòu)造及配置的詳細(xì)情況的應(yīng)用。本發(fā)明能夠用于其它實(shí)施例或者以各種方式來實(shí)施或執(zhí)行。另外,要理解,本文所采用的用語和術(shù)語是為了便于描述而不應(yīng)當(dāng)被視作限制。
現(xiàn)在參照?qǐng)D1,它是一個(gè)簡(jiǎn)化框圖,說明根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施例的搜索引擎。搜索引擎10與數(shù)據(jù)存儲(chǔ)器12關(guān)聯(lián),數(shù)據(jù)存儲(chǔ)器12可以是本地?cái)?shù)據(jù)庫、公司的產(chǎn)品目錄、公司的知識(shí)庫、給定內(nèi)聯(lián)網(wǎng)上的所有數(shù)據(jù)、或者甚至大體上是這類未定義數(shù)據(jù)庫、如萬維網(wǎng)。一般來說,本文所述的實(shí)施例對(duì)于某種所定義的數(shù)據(jù)存儲(chǔ)器最佳地工作,在這種數(shù)據(jù)存儲(chǔ)器中,可能無限數(shù)量的數(shù)據(jù)對(duì)象映射到有限數(shù)量的條目類。
搜索引擎10包括前端14,它的任務(wù)是解釋用戶查詢,拓寬搜索空間,搜索數(shù)據(jù)存儲(chǔ)器12以便匹配條目,然后采用多種技術(shù)的任一種對(duì)結(jié)果排序,并從結(jié)果中排除匹配條目,使得最終僅向用戶呈現(xiàn)完全對(duì)準(zhǔn)目標(biāo)的列表。下面更詳細(xì)地描述前端單元的操作。
后端單元16與前端單元14關(guān)聯(lián)以及與數(shù)據(jù)存儲(chǔ)器12關(guān)聯(lián),并對(duì)數(shù)據(jù)存儲(chǔ)器12中的數(shù)據(jù)條目進(jìn)行操作,以便對(duì)它們分類,從而在前端單元14進(jìn)行有效處理。后端單元最好是把數(shù)據(jù)條目分類為各類。通常,對(duì)于每個(gè)數(shù)據(jù)條目提供多個(gè)分類,并將其存儲(chǔ)為元數(shù)據(jù)注釋。為各分類提供置信度權(quán)重。置信度權(quán)重最好是表示給定類值真正適用于條目的系統(tǒng)的置信度。
由后端單元執(zhí)行的分類過程以及由前端單元執(zhí)行的查詢分析過程利用知識(shí)庫19中存儲(chǔ)的數(shù)據(jù)。
學(xué)習(xí)單元18最好是遵循所接收查詢中的實(shí)際用戶行為,以及修改知識(shí)庫19中存儲(chǔ)的知識(shí)的各個(gè)方面。學(xué)習(xí)的范圍可從頻率數(shù)據(jù)的簡(jiǎn)單累積到復(fù)雜的機(jī)器學(xué)習(xí)任務(wù)。
現(xiàn)在參照?qǐng)D2,它是簡(jiǎn)化示意圖,更詳細(xì)地說明圖1的搜索引擎10。
查詢輸入單元20接收來自用戶的查詢。查詢可能詳細(xì)到任何程度,通常取決于用戶對(duì)于他正查詢的內(nèi)容的了解程度。解釋器22連接到輸入端,并接收查詢供初始分析。解釋器分析、解釋和增強(qiáng)請(qǐng)求,并且將它再制訂為正式請(qǐng)求。正式請(qǐng)求是符合數(shù)據(jù)庫條目的模型描述的請(qǐng)求。正式請(qǐng)求能夠?yàn)樵撜?qǐng)求的可能變量讀數(shù)提供置信度的量度。為了構(gòu)成正式請(qǐng)求,以及為了規(guī)定變量,解釋器22一方面利用包含詞典和百科全書的一般知識(shí)庫24,另一方面利用從數(shù)據(jù)存儲(chǔ)器中的條目所儲(chǔ)備的領(lǐng)域特定語義數(shù)據(jù)26。領(lǐng)域特定數(shù)據(jù)可采用機(jī)器學(xué)習(xí)單元18從已經(jīng)提交類似查詢的先前用戶的行為中得到增強(qiáng),如上所述。另外,解釋器把請(qǐng)求剖析為一系列名詞和形容詞,并且嘗試確定查詢中的哪些檢索詞涉及哪些已知類(在分類方案中),考慮某些類值被看作其它類值的屬性。因此,在查詢“紅色長袖襯衣”中,檢索詞“襯衣”被解釋為涉及類“襯衣”,“紅色”被解釋為對(duì)襯衣定義的屬性類“顏色”的值,以及“長袖”被解釋為對(duì)襯衣的類定義的屬性類“衣袖長度”的值。采用上述解釋,搜索過程因而將集中于襯衣的類,并尋找為紅色且?guī)чL袖的個(gè)別襯衣。
匹配器28的任務(wù)則是搜索可包括一個(gè)或多個(gè)分開的數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)器(可能利用各種索引),以便查找匹配正式請(qǐng)求的成分的條目。分級(jí)器30提供數(shù)值來描述查詢與各數(shù)據(jù)條目之間匹配的整體等級(jí),即,它評(píng)定數(shù)據(jù)條目與查詢的相關(guān)性。這種相關(guān)性分級(jí)受到正式請(qǐng)求的成分的匹配質(zhì)量、查詢的變量讀數(shù)的置信度以及通過索引器附加到條目的數(shù)據(jù)分類(如果可用的話)的置信量度的影響。
然后可把數(shù)值與門限相比,以便判定是否把數(shù)據(jù)條目添加到結(jié)果空間。結(jié)果空間中的所檢索數(shù)據(jù)條目還可根據(jù)分級(jí)器計(jì)算的得分以降序相關(guān)性來排序。因此,在上述實(shí)例中,條目“帶長袖的普通紅色棉襯衣”將以高置信度被添加到結(jié)果空間,“帶長袖的普通紅色尼龍襯衣”也是一樣。條目“帶長袖的有花紋棉襯衣”可能以較低置信度被添加到結(jié)果中,以及條目“有領(lǐng)普通T恤”以更低置信度被添加。
分級(jí)器進(jìn)行的計(jì)分由根據(jù)需要與用戶進(jìn)行澄清對(duì)話的提示器32來支持。也就是說,提示器為用戶提供指定可用來修改和壓縮結(jié)果空間的附加信息的可能性。
我們認(rèn)為,區(qū)分兩種類型的提示是有用的。一種類型是消除多義性提示,通常在查詢采取文本形式時(shí)被指定以便消除查詢解釋中的多義性。例如,如果查詢解釋過程遇到查詢中的多義檢索詞,則系統(tǒng)可產(chǎn)生提示,請(qǐng)求關(guān)于要用檢索詞的什么意義的指示。另一個(gè)實(shí)例-如果查詢解釋過程發(fā)現(xiàn)查詢中的拼寫錯(cuò)誤,則系統(tǒng)可產(chǎn)生提示,請(qǐng)求關(guān)于應(yīng)當(dāng)采用哪種拼寫校正的指示。另一種類型的提示是縮減提示,它被直接指定以獲得可用來修改和壓縮結(jié)果空間的信息,而與查詢中可能出現(xiàn)的多義性無關(guān)。作為縮減提示的一個(gè)實(shí)例,在上述情況中,提示器可能詢問用戶他(她)更喜歡有花紋的還是普通的襯衣,還是沒有偏好,以及他(她)對(duì)常規(guī)襯衣、運(yùn)動(dòng)衫還是T恤有興趣。
采用每一種提示進(jìn)行提示可在從數(shù)據(jù)庫檢索條目之前或之后執(zhí)行??梢岳斫?,在條目檢索之后的提示最好是僅執(zhí)行到有效地區(qū)分條目的程度。因此,不會(huì)提出諸如“您想要常規(guī)襯衣還是T恤?”之類的問題,除非當(dāng)前結(jié)果空間包括兩種類型的襯衣。一般來說,旨在修改和壓縮結(jié)果空間的提示在條目檢索之后進(jìn)行,因?yàn)樘崾镜慕M成取決于檢索的結(jié)果。但是,固定提示甚至在條目檢索之前也可使用,僅由查詢的解釋來觸發(fā)。
提示器32產(chǎn)生可能的提示。提示可采取具體問題的形式,或者選擇陣列的形式,或者它們的組合以及引發(fā)用戶響應(yīng)的其它方式。提示器包括用于評(píng)估每個(gè)特定提示對(duì)于提煉結(jié)果集的適用性的功能,以及選擇最有用提示的短列表以便呈現(xiàn)給用戶。如果感覺在此階段是適合的,則可通過條目的分級(jí)列表的代表部分或者條目標(biāo)題/描述符來提交提示。
縮減提示通常隱式或顯式地要求用戶指明可用來修改和縮減相關(guān)結(jié)果集的某種分類信息。因此,可能的縮減提示的集合從可用的或者可立即變?yōu)榭捎糜谛畔}庫(例如數(shù)據(jù)庫)中的數(shù)據(jù)條目的分類集中動(dòng)態(tài)提取。根據(jù)查詢解釋以及根據(jù)當(dāng)前相關(guān)結(jié)果集的組成,動(dòng)態(tài)產(chǎn)生提示。因此,如果初始查詢針對(duì)襯衣,則具有對(duì)于顏色、材料、尺寸、袖長和價(jià)格等的提示是有意義的,以及相關(guān)提示可從直接與“襯衣”類相關(guān)的分類中獲得。提示器評(píng)估可用提示,以便判定哪個(gè)對(duì)結(jié)果集最有影響,以及哪個(gè)最可能被搜索引擎用戶看作是重要的。因此,如果用戶已經(jīng)請(qǐng)求紅色棉襯衣,并且所檢索的所有紅色襯衣都是長袖的,詢問用戶關(guān)于袖長的情況則沒有意義。如果在所接收的一百種襯衣中,只有一種是短袖,詢問長袖或短袖則對(duì)結(jié)果集有極小的影響。結(jié)果集將減少一,或者另一方面,用戶根本沒有選擇。另一方面,如果相關(guān)集合中大約一半襯衣為長袖,一半為短袖,詢問袖長則大有意義,因?yàn)槌墙邮盏健半S意”答案,否則結(jié)果集可顯著縮減。
可用的或者可立即變?yōu)榭捎糜跀?shù)據(jù)條目的分類集由為數(shù)據(jù)庫設(shè)置的導(dǎo)航方針來定義。一般來說,方針最好是包含用于領(lǐng)域特定瀏覽的分級(jí)結(jié)構(gòu)概念分類法的集合。分級(jí)結(jié)構(gòu)中的各節(jié)點(diǎn)表示可能的類,它可讓查詢檢索詞與其關(guān)聯(lián),并且可鏈接到可采用加權(quán)值分級(jí)的領(lǐng)域數(shù)據(jù)條目集。附加導(dǎo)航信息包括關(guān)于哪些類被看作哪些其它類的屬性的說明、概念之間的附加關(guān)系、不同屬性的相關(guān)性以及可能的屬性值,下面會(huì)更詳細(xì)地說明。
為分級(jí)器30提供對(duì)提示的響應(yīng)時(shí),響應(yīng)經(jīng)過評(píng)估,以及正式請(qǐng)求可采用附加限定說明來更新。分級(jí)器把相關(guān)性級(jí)別重新分配給各條目,并且可能修改和壓縮相關(guān)結(jié)果集。再次對(duì)于可能的提示來檢查新分級(jí)的列表,以及整個(gè)循環(huán)重復(fù)進(jìn)行,直到用戶發(fā)信號(hào)通知已經(jīng)取得滿意的結(jié)果集或者系統(tǒng)判定沒有進(jìn)一步提煉可以或應(yīng)當(dāng)進(jìn)行。在該循環(huán)的任何階段,所取得的結(jié)果集可按照任何適當(dāng)形式(例如文本、圖像、鏈接等)經(jīng)由輸出端34輸出給用戶。
學(xué)習(xí)單元18的職責(zé)是在使用過程中采用機(jī)器學(xué)習(xí)技術(shù)來增強(qiáng)整個(gè)搜索引擎性能。通過收集用戶的響應(yīng)并跟蹤特征之間以及對(duì)象與特征之間的相關(guān)性來積累用于學(xué)習(xí)過程的數(shù)據(jù)。學(xué)習(xí)過程的輸出實(shí)現(xiàn)為諸如分級(jí)器30、解釋器22和提示器32之類的系統(tǒng)其它組件使用的表中的修改。
學(xué)習(xí)過程由脫機(jī)準(zhǔn)備的兩個(gè)相對(duì)靜態(tài)的基礎(chǔ)設(shè)施支持并涉及其中的數(shù)據(jù)的修改領(lǐng)域特定知識(shí)庫26和索引器36,其操作在下面論述。
如上所述,當(dāng)前實(shí)施例以二階段方式進(jìn)行查詢解釋。第一階段解釋各查詢,并產(chǎn)生正式請(qǐng)求,用于以盡可能廣泛的檢索詞從數(shù)據(jù)存儲(chǔ)器中檢索條目,以便確保良好的查全率以及良好的覆蓋。在第二階段,提示和響應(yīng)的交互循環(huán)用于對(duì)結(jié)果的工作集重新分級(jí)和進(jìn)一步提煉,以便確保良好的準(zhǔn)確度。
數(shù)據(jù)檢索的過程由來自用戶的初始請(qǐng)求來觸發(fā)。該過程從上述兩個(gè)階段中的第一個(gè)開始,即,增強(qiáng)和擴(kuò)展請(qǐng)求以覆蓋與查詢密切相關(guān)的條目以及與多義查詢的競(jìng)爭(zhēng)解釋有關(guān)的條目。查詢中的多義性可能具有詞匯、語法、語義的起因,甚至因備選拼寫校正而引起。多義性也可能由于可能與請(qǐng)求相關(guān)、但相關(guān)程度較低的數(shù)據(jù)存儲(chǔ)器條目而引起。
在一個(gè)實(shí)施例中,在這個(gè)第一階段準(zhǔn)許多義查詢中的所有可能的意義。在其它實(shí)施例中,進(jìn)行判定以便優(yōu)選某些意義。在又一些實(shí)施例中,向用戶發(fā)送提示,要求他解決多義性。在一個(gè)特別優(yōu)選的實(shí)施例中,在不同的情況中應(yīng)用以上三種策略中的不同策略。例如,某種多義性可通過簡(jiǎn)單語法檢查以揭示拼寫修正產(chǎn)生正確語法結(jié)構(gòu)來解決。然后優(yōu)選具有正確語法結(jié)構(gòu)的形式的修正查詢。語義處理可用來確定在其中可選取優(yōu)選意義的上下文。
在查詢中的多義性解決之后,所產(chǎn)生的正式請(qǐng)求用來搜索數(shù)據(jù)庫。把分級(jí)結(jié)果或其概要與問題和/或適合分級(jí)結(jié)果的當(dāng)前組以及適合用戶的預(yù)期響應(yīng)的其它提示一起返回給用戶。用戶對(duì)這些提示的響應(yīng)則用于對(duì)結(jié)果集進(jìn)行提煉、重新分級(jí)以及進(jìn)一步提煉。提煉繼續(xù)進(jìn)行,直到用戶發(fā)信號(hào)通知結(jié)果令人滿意。在一個(gè)備選實(shí)施例中,最初僅向用戶發(fā)送查詢,以及提煉過程繼續(xù)進(jìn)行,直到搜索引擎10確信已經(jīng)把結(jié)果減少到有用數(shù)量或者直到滿足用于最后確定結(jié)果的另外某個(gè)標(biāo)準(zhǔn)。
本領(lǐng)域的技術(shù)人員清楚,在許多情況中,可以明確地分析初始查詢以便僅檢索小的條目集。在這種情況中,可顯示小的相關(guān)條目集,而無需進(jìn)行前面所述的對(duì)話過程。壓縮之前的查詢的擴(kuò)充的二階段過程的使用允許從寬解釋請(qǐng)求,從而增加查全率,同時(shí),通過重復(fù)提示和結(jié)果空間的壓縮得到準(zhǔn)確度。在過度廣泛的初始請(qǐng)求-所謂的“幾乎為空”請(qǐng)求的處理中,二階段過程特別有利,提示階段則可通過與用戶的交互變換為反映用戶思想的精確請(qǐng)求。實(shí)際上,一個(gè)優(yōu)選實(shí)施例包括適當(dāng)提示集來根據(jù)相關(guān)數(shù)據(jù)存儲(chǔ)器中的資料處理甚至實(shí)際為空白或空的查詢,從而引發(fā)用戶的想法。此外,兩個(gè)階段之間可進(jìn)行修改,以便支持以不同于存儲(chǔ)資料時(shí)所用語言的語言進(jìn)行的查詢。也就是說,查詢解釋階段包括把表示產(chǎn)品及其屬性的外語單詞以與那些單詞的其它任何同義詞相同的方式處理的能力。外語查詢翻譯不可避免地受到翻譯的固有多義性的影響,但是,二階段過程最好是能夠以與它處理其它任何多義性相同的方式,通過提問來消除這種多義性。
一般來說,請(qǐng)求和/或查詢可采取正式或非正式的多種形式,通常取決于用戶的專業(yè)水平和他正尋找的資料種類。當(dāng)查詢?yōu)槲谋静⑶乙苑钦阶匀徽Z言制訂時(shí),初始擴(kuò)充階段包括解釋分析階段。分析階段最好是用來轉(zhuǎn)換非正式查詢以便具有正式請(qǐng)求模型或格式。借助于包含通用自然語言處理的數(shù)據(jù)的一般知識(shí)庫24,通過語法和語義方法的組合系統(tǒng)地剖析查詢。與數(shù)據(jù)庫(數(shù)據(jù)存儲(chǔ)器)的主題領(lǐng)域相關(guān)的概念知識(shí)(本體論和分類學(xué))和詞匯知識(shí)(用來表達(dá)概念的單詞、短語以及措辭)是知識(shí)庫中使用的數(shù)據(jù)的種類的實(shí)例,并且可存儲(chǔ)在特定知識(shí)庫26中。另外,特定數(shù)據(jù)庫26包括從數(shù)據(jù)存儲(chǔ)器或數(shù)據(jù)集中的條目儲(chǔ)存的統(tǒng)計(jì)數(shù)據(jù)。下面論述一般和特定知識(shí)庫對(duì)24和26。
對(duì)所接收文本查詢(或者從其它任何形式、如語音轉(zhuǎn)換為文本的查詢)使用剖析,以便(1)檢測(cè)單詞、短語和措辭(以下統(tǒng)稱為‘詞匯檢索詞’)的存在,它們?cè)谔囟ㄖR(shí)庫中可能表示重要概念,因而表示數(shù)據(jù)條目的重要分類;(2)檢測(cè)其它任何詞匯檢索詞;(3)可能采用語法和語義分析來確定所檢測(cè)詞匯檢索詞之間的語義/概念關(guān)系。所檢測(cè)的重要詞匯檢索詞的分析包括判斷它們是否表示對(duì)象類(例如襯衣、電視機(jī)等)或者屬性類(例如顏色、材料、價(jià)格等)的值,它們是否具有備選解釋,以及檢索詞的任何解釋是受到查詢的其它部分(如果有的話)的解釋的支持還是被削弱。已標(biāo)識(shí)值則用于把查詢轉(zhuǎn)換為機(jī)器可讀正式請(qǐng)求的形式,以便在數(shù)據(jù)庫中進(jìn)行實(shí)際搜索。另外,解釋分析過程還對(duì)每個(gè)解釋分配置信等級(jí)。
以電子商務(wù)門戶站點(diǎn)的數(shù)據(jù)集作為實(shí)例,查詢分析最好是最初以這種方式檢測(cè)指定商品(襯衣、鞋、書籍等)-有時(shí)指一組可能的競(jìng)爭(zhēng)商品(例如‘pump’-一種鞋或抽運(yùn)裝置)-以及指可能在查詢中指定的各種屬性值,例如顏色、材料、樣式、價(jià)格范圍等。
例如,成功的剖析采用語法結(jié)構(gòu)來區(qū)別其中所指對(duì)象為衣架的查詢“外套衣架”與其中對(duì)象是外套且“防水”為屬性的“防水外套”。
再來看后端單元16,為了幫助匹配過程,條目可預(yù)先編索引,其中的索引包含指定數(shù)據(jù)條目的分類值的注釋。在這種方法中,索引器36一般脫機(jī)用于采用關(guān)于各種概念維(例如對(duì)象和屬性)的分類值和/或表達(dá)這些分類的、可能出現(xiàn)在對(duì)相關(guān)主題域的搜索請(qǐng)求中的類型的關(guān)鍵字來注釋數(shù)據(jù)條目。在上述電子商務(wù)門戶站點(diǎn)的實(shí)例中,這些可能是商品說明和產(chǎn)品屬性值。條目也可采用同義詞來增強(qiáng),即等效檢索詞,包括首字母縮寫詞和縮略詞、上位詞(為更一般檢索詞)、下位詞(為更多限制的檢索詞)以及其它可能相關(guān)的搜索檢索詞。分配給數(shù)據(jù)條目的各分類值采用置信等級(jí)進(jìn)行補(bǔ)充,它反映系統(tǒng)在那個(gè)分類中的置信度,和/或表示那種分配的正確性的估算概率。
脫機(jī)索引器不是必要的,在沒有脫機(jī)索引器的情況下,針對(duì)上下文、分類值和關(guān)鍵字的條目分析可在匹配階段聯(lián)機(jī)執(zhí)行,下面會(huì)更詳細(xì)地說明。
除其它因素之外,通過分配給成功匹配的查詢的各個(gè)成分的重要性,確定正式請(qǐng)求與任何數(shù)據(jù)條目之間的匹配強(qiáng)度。一些特征設(shè)置為比其它的更重要-例如,表示商品類的特征(值)設(shè)置成認(rèn)為遠(yuǎn)比產(chǎn)品的屬性值重要。因此,在對(duì)綠色外套的搜索中,把比僅為屬性的“綠色”更大的重要性附加到作為商品的檢索詞“外套”。雖然藍(lán)色外套是綠色外套的適當(dāng)替代品,但綠色襯衣則遠(yuǎn)非綠色外套的適當(dāng)替代品。還可使用關(guān)系的強(qiáng)度。同義詞最好是提供比上位詞更好的概念匹配,以及系統(tǒng)在各種已提取及分析的特征中具有的置信度反映這個(gè)重要性等級(jí)。查詢解釋和數(shù)據(jù)條目分類的置信度等級(jí)還用來影響結(jié)果的分級(jí)。系統(tǒng)在查詢的特定解釋中的置信度越高,則相應(yīng)匹配數(shù)據(jù)條目的排名越高。類似地,系統(tǒng)在數(shù)據(jù)條目的特定分類中的置信度越高,則在那個(gè)分類值以相關(guān)方式匹配搜索標(biāo)準(zhǔn)時(shí)可能排名越高。
最后,通過學(xué)習(xí)哪些詞匯檢索詞是指條目的哪些類以及哪些響應(yīng)可能用于不同的預(yù)計(jì)條目,采用學(xué)習(xí)單元18,機(jī)器學(xué)習(xí)技術(shù)可用來改進(jìn)性能。學(xué)習(xí)單元最好是采用正發(fā)生的搜索結(jié)果來更新上述概率矩陣。學(xué)習(xí)數(shù)據(jù)可能是普通或者個(gè)人化的,下面更詳細(xì)地進(jìn)行論述。在個(gè)人化的情況中,各用戶具有個(gè)人化的概率矩陣。
過程流概述下面是對(duì)處理輸入查詢的整個(gè)過程流的一般概述。如以上針對(duì)圖1所述,優(yōu)選實(shí)施例的過程包括對(duì)數(shù)據(jù)聯(lián)合處理的前端以及后端的操作,后端首先采用各種分類技術(shù)把數(shù)據(jù)分類為預(yù)定類,并向可搜索索引添加分類信息,以及前端處理查詢,然后搜索已編索引數(shù)據(jù)。但是,該過程可以僅采用前端單元或者僅采用后端單元來實(shí)現(xiàn),取決于實(shí)際實(shí)現(xiàn)要求和上下文,下面將進(jìn)行描述。也就是說,前端單元14和后端單元16在某些有關(guān)應(yīng)用中可獨(dú)立運(yùn)用?,F(xiàn)在參照?qǐng)D2,前端單元14包括解釋器22、匹配器28、分級(jí)器30以及提示器32等組件,而后端單元16包括索引器36。一般知識(shí)24和領(lǐng)域特定知識(shí)26由前端以及后端使用。
前端組件14負(fù)責(zé)分析用戶查詢和響應(yīng)。具體來說,解釋器組件分析用戶查詢。匹配器單元?jiǎng)t從數(shù)據(jù)庫(DB)中檢索匹配所解釋需求的數(shù)據(jù)條目。所檢索條目的分級(jí)由分級(jí)器執(zhí)行。
后端組件16負(fù)責(zé)對(duì)數(shù)據(jù)庫條目預(yù)先分類,以便將其連接到可能的查詢成分(因?yàn)轭A(yù)計(jì)查詢成分表示類)。分類過程具有兩個(gè)主要方面特征提取和條目關(guān)鍵字強(qiáng)化,它們兩者均增強(qiáng)前端執(zhí)行可能的未來查詢/條目匹配的能力。特征提取把條目分類為特征分級(jí)結(jié)構(gòu),例如沿著商品、材料、顏色的維等。所提取特征在采用關(guān)鍵字和查詢短語的普通搜索環(huán)境中以及在設(shè)置用于采用預(yù)定義類別瀏覽的搜索環(huán)境中有用。關(guān)鍵字強(qiáng)化在任何搜索環(huán)境中都有價(jià)值。
當(dāng)后端與前端結(jié)合使用時(shí),后端所提取的分類特征可用來形成動(dòng)態(tài)提示,以及后端所應(yīng)用的強(qiáng)化降低前端匹配過程的負(fù)擔(dān)。
后端索引過程可以是手動(dòng)或者自動(dòng)的,或者它們的組合。從前端來看,對(duì)于操作的能力沒有影響,無論數(shù)據(jù)庫是經(jīng)過手動(dòng)還是自動(dòng)索引。但是,會(huì)理解,索引的等級(jí)可能影響前端操作的結(jié)果的質(zhì)量。即使數(shù)據(jù)條目沒有由后端預(yù)先分類,前端也可操作。沒有由后端執(zhí)行的數(shù)據(jù)庫條目分析可在對(duì)條目進(jìn)行匹配和分級(jí)時(shí)由前端執(zhí)行。
下面是只采用前端而沒有同時(shí)使用后端的兩種應(yīng)用1.電子零售-結(jié)構(gòu)化數(shù)據(jù)庫。前端單元14與聯(lián)機(jī)客戶機(jī)配合使用,客戶機(jī)的數(shù)據(jù)庫包含已結(jié)構(gòu)化的商品信息,其結(jié)構(gòu)包括商品的分類特征。商品條目可包括商品名稱、類別、價(jià)格、廠商、型號(hào)、尺寸、顏色、材料等。例如,這種結(jié)構(gòu)化信息特別可用于零售電子業(yè)中,其中,類似描述的消費(fèi)者電子商品具有比較一致對(duì)應(yīng)的特征。因此,前端能夠相當(dāng)輕松地將所請(qǐng)求特征與商品特征進(jìn)行匹配,然后制訂提示以縮小結(jié)果列表,最后顯示最適合用戶請(qǐng)求的結(jié)果。當(dāng)信息最初適當(dāng)結(jié)構(gòu)化時(shí),可預(yù)計(jì)后端預(yù)處理只是或多或少地增加搜索有效性。
2.即時(shí)編索引-非結(jié)構(gòu)化數(shù)據(jù)庫。作為第二實(shí)例,前端單元14可與完全未分類數(shù)據(jù)庫、即具有特征但不是一致提供的條目的數(shù)據(jù)庫配合使用。前端以匹配增強(qiáng)查詢的那些條目開始,然后分析所檢索條目的相關(guān)特征,采用它們制訂提示以縮小結(jié)果列表。
還能夠單獨(dú)使用后端單元16而無需前端單元。隨后存在兩種情況,其中,單獨(dú)使用后端單元可能是有用的。
1.瀏覽樹。許多信息站點(diǎn)提供瀏覽樹?;蛘呤謩?dòng)(通常的情況)或者采用固定搜索向樹添加條目。樹的葉可基于對(duì)象與特征類的任何組合(例如“女士的高跟鞋”)。后端單元16的索引器36的使用首先可創(chuàng)建這種瀏覽樹,其次使新條目的編索引自動(dòng)進(jìn)行以及得到改進(jìn),使得它們放置在瀏覽樹上的適當(dāng)位置。
2.基于特征的瀏覽。許多站點(diǎn)要求用戶標(biāo)識(shí)預(yù)期特征,然后為數(shù)據(jù)庫條目提供那些特征。后端單元16的索引器36可使條目編索引自動(dòng)進(jìn)行以及得到改進(jìn),使得檢索更全面且更準(zhǔn)確。
雖然前端和后端組件彼此獨(dú)立,但是要指出,它們每個(gè)所執(zhí)行的過程是相似的,以及它們之間的工作分配是靈活的。它們兩者的合作使用存在顯著優(yōu)點(diǎn)。前端和后端單元的配合的一個(gè)優(yōu)點(diǎn)是學(xué)習(xí)單元18的增強(qiáng)有效性。學(xué)習(xí)單元18其中還從用戶響應(yīng)學(xué)習(xí)關(guān)于用戶在其查詢中使用的檢索詞與最終檢索條目之間存在的關(guān)系。為了采用例如可通過上述方式收集的這種關(guān)系信息來注釋相關(guān)數(shù)據(jù)庫條目,學(xué)習(xí)單元在完整系統(tǒng)中最佳地實(shí)現(xiàn)。然而,學(xué)習(xí)單元可成功地結(jié)合為只包含前端單元的系統(tǒng)的一部分,在這種情況中,它記錄上述關(guān)系以便用于后續(xù)查詢的分析中。
知識(shí)庫為了順利進(jìn)行1)數(shù)據(jù)條目的分類以及2)查詢的解釋,使用知識(shí)庫(KB)。下面給出與這種KB的一般結(jié)構(gòu)以及可支持當(dāng)前實(shí)施例的搜索引擎的各種組件的方式有關(guān)的詳細(xì)情況。知識(shí)庫支持前端以及后端操作。
如上所述,KB由兩個(gè)部分組成,即一般詞匯知識(shí)部分24和領(lǐng)域特定知識(shí)部分26。一般詞匯知識(shí)部分24是一般語言部分,它包含具有形態(tài)、語法和語義注釋的詞典、各種單詞關(guān)系的百科全書以及類似一般信息的其它來源。領(lǐng)域特定部分26包括詞匯概念本體論,它設(shè)計(jì)成支持搜索引擎的上下文中的信息分析,以及在一個(gè)優(yōu)選實(shí)施例中,還可采用特定數(shù)據(jù)庫中的條目種類的知識(shí)來定制。
再次重點(diǎn)放在電子商務(wù)環(huán)境中搜索產(chǎn)品,商品/屬性知識(shí)庫(CAKB)是詞匯概念本體論方案的一種可能實(shí)現(xiàn),被特別定制為對(duì)于在產(chǎn)品搜索上下文中的文本數(shù)據(jù)的分析過程中出現(xiàn)的分類任務(wù)的幫助。明確地說,對(duì)于電子商務(wù)領(lǐng)域,最重要的分類任務(wù)是a)正確識(shí)別商品檢索詞,例如襯衣、CD播放機(jī)。
b)正確識(shí)別作為性質(zhì)或特征的屬性值檢索詞,例如藍(lán)色。
c}識(shí)別其它各種檢索詞,它們可能幫助或阻止前兩種任務(wù)。例如,單詞‘顏色’涉及屬性維,但它在文本中的出現(xiàn)可幫助屬性值檢索詞的解釋,例如在“顏色藍(lán)色”中。表示測(cè)量單位、地理位置、常見的名和姓等的檢索詞的識(shí)別可幫助來自文本描述的分類過程。作為另一個(gè)實(shí)例單詞‘仿造’不表示任何商品或?qū)傩?,但關(guān)鍵性地影響表達(dá)‘仿造鉆石’的解釋。
為了執(zhí)行以上分類任務(wù),CAKB包括商品統(tǒng)一網(wǎng)絡(luò)(UNC)和一般屬性本體論(GAO)兩個(gè)主要組件以及導(dǎo)航方針(NG)和商品屬性相關(guān)矩陣(CARMA)兩個(gè)支持組件,現(xiàn)在進(jìn)行簡(jiǎn)要說明。
商品統(tǒng)一網(wǎng)絡(luò)商品統(tǒng)一網(wǎng)絡(luò)(UNC)包含有關(guān)商品的詞匯以及概念信息。在詞匯方面,UNC包括作為商品名稱(主要是名詞和名詞短語)的檢索詞的大列表(單詞和多詞表達(dá)),每一個(gè)例如非限制性地采用唯一意義標(biāo)識(shí)符(USID)、如GUID來標(biāo)記其意義。因此,諸如“外套”、“大衣”、“防水衣”、“防風(fēng)衣”、“斗篷”、“雨衣”、“長雨衣”之類的共用單一商品意義的檢索詞可分組在一起,并給予單個(gè)唯一意義標(biāo)識(shí)符。
在UNC中支持兩種主要的詞匯關(guān)系同義關(guān)系-同義檢索詞,被標(biāo)記為具有相同USID,以及一詞多義-多義檢索詞,具有一種以上意義(即可能表示不同類型的商品),它們采用多個(gè)USID來標(biāo)記,每個(gè)意義用一個(gè)。以這種風(fēng)格,UNC還包含可幫助在上下文中給出的一詞多義商品檢索詞的各種意義之間消除多義的數(shù)據(jù)。因此,對(duì)于前一個(gè)實(shí)例的檢索詞“coat”在短語中的出現(xiàn)、如“a coat of paint”,可被給予第二意義標(biāo)識(shí)號(hào)。雖然單詞“coat”是表示外套或涂層的相同字符串,但是只要搜索上下文被涉及,則兩個(gè)完全不同的產(chǎn)品被涉及,因此,兩種不同的意義被標(biāo)識(shí),并且在它們之間出現(xiàn)多義性的可能性。在任何給定情況中應(yīng)用于“coat”的正確標(biāo)識(shí)號(hào)可從上下文中確定。因此,涂漆和外套具有顏色屬性,但是其中只有一個(gè)具有容易有羊毛或棉布的值的材料屬性,其中只有一個(gè)容易具有“快干”屬性。為了找出多義性,處理算法要求足夠詳細(xì)的知識(shí)庫。然后,可通過把可用數(shù)據(jù)與知識(shí)庫進(jìn)行比較來查找解決多義性的屬性,或者通過向用戶發(fā)出適當(dāng)提示,來解決多義性。
在概念上,UNC本體論支持兩種關(guān)系上位關(guān)系和部分-整體關(guān)系。UNC中的商品排列為經(jīng)由ISA鏈接構(gòu)成的分級(jí)分類法,例如T恤是一種襯衣(襯衣是T恤的上位詞),而反之,一種襯衣是T恤。ISA鏈接是表達(dá)‘...是一種...’的概念對(duì)應(yīng)物,并且是AI、NLP、語言學(xué)等領(lǐng)域的技術(shù)人員眾所周知的。此外,UNC還包括部分-整體關(guān)系,即,該對(duì)象類的說明是其它對(duì)象類的一部分或成分。由于任何商品可能屬于一種以上的高級(jí)類別(例如,曲棍球褲既是一種褲子又是一種運(yùn)動(dòng)器材),在技術(shù)上,商品的UNC分級(jí)結(jié)構(gòu)不是樹,而是有向非循環(huán)圖-它是一種圖,其中作為商品的任何節(jié)點(diǎn)可能具有多個(gè)父節(jié)點(diǎn),但不允許循環(huán)鏈接。
UNC的詞匯方面的基本目的是允許在文本分析過程中識(shí)別商品檢索詞。UNC的概念(分類法的和部分-整體關(guān)系的)部分的基本目的是指定概念關(guān)系,它們可能并且往往的確幫助(產(chǎn)品的或者對(duì)產(chǎn)品的請(qǐng)求的)文本描述的概念分類,并且還有助于多義檢索詞的消除多義性。
一般屬性本體論一般屬性本體論(GAO)以類似于UNC的方式包含關(guān)于商品屬性的信息。在詞匯上,GAO包括作為商品屬性的名稱的檢索詞的大列表,每一個(gè)通過相應(yīng)的USID、即如上所述的唯一意義標(biāo)識(shí)符來標(biāo)記其意義。如同UNC中那樣,屬性檢索詞的同義關(guān)系和一詞多義在GAO中通過USID機(jī)制來反映。因此,從詞匯角度來看,UNC和GAO極為相似,并且組成注釋本體論的互補(bǔ)部分。此外,存在單詞具有商品意義和屬性意義時(shí)的情況(例如,‘denim’表示牛仔褲或者表示作為許多外衣屬性的牛仔布),這種單詞因而在UNC中具有一種意義而在GAO中具有另一個(gè)意義。
在概念上,GAO是分級(jí)結(jié)構(gòu)的集合。對(duì)于UNC,在技術(shù)意義上,各分級(jí)結(jié)構(gòu)是有向非循環(huán)圖。各屬性維、如顏色、布匹等是屬性值的自含分類法分級(jí)結(jié)構(gòu)。要注意,分級(jí)結(jié)構(gòu)在一些情況中可能相當(dāng)平面。這類分級(jí)分類法也經(jīng)由ISA鏈接構(gòu)成(例如藍(lán)色是一種顏色,深藍(lán)是一種藍(lán)色,反之,一種藍(lán)色是深藍(lán))。屬性維可包括屬性值,并且還可包括其它屬性域作為子域-例如,物理材料的域可包括布匹的域。
單詞的不同意義可包含在不同域中-例如,‘gold’的一種意義可包含在顏色的域中,表示金色。另一種意義可包含在材料的域中,是作為材料的黃金。另一方面,單詞的相同意義可包含在不同的域中-例如,‘cotton’可包含在布匹的域中以及材料的域中,或者數(shù)據(jù)庫可經(jīng)過構(gòu)造,使得材料包括布匹。
UNC和GAO最好是密切結(jié)合在CAKB中。對(duì)于UNC中的各商品,提供詳細(xì)說明與那種商品相關(guān)的屬性和/或?qū)傩灾档恼f明。此外,UNC-GAO中的信息最好是包含關(guān)于特定商品是否僅針對(duì)相關(guān)屬性的值的有限集合來分析的指示。
此外,分級(jí)結(jié)構(gòu)之間的結(jié)合可允許各屬性檢索詞可追溯到它相關(guān)的商品。諸如價(jià)格、商標(biāo)、豪華狀態(tài)、關(guān)聯(lián)主題/人物之類的某些屬性具有極廣泛的適用性,在許多情況中,可能與任何或全部商品關(guān)聯(lián)。這種情況最好是在分級(jí)結(jié)構(gòu)之間的結(jié)合中以及在分級(jí)結(jié)構(gòu)內(nèi)得到反映。這類分類學(xué)關(guān)系可例如指定“Darth Vader”與“星球大戰(zhàn)”而不是與“哈利波特”相關(guān),從而影響查詢的解釋和數(shù)據(jù)條目的檢索。
GAO的詞匯方面的目的是允許在文本分析過程中識(shí)別屬性檢索詞。GAO的概念分類法方面的目的是指定概念關(guān)系,它們可能且往往確實(shí)幫助基于產(chǎn)品的文本描述的概念分類。這類文本描述可能是產(chǎn)品本身的描述,對(duì)于后端單元來說,從其中可導(dǎo)出屬性和屬性值,或者,在前端單元的情況中,文本描述可能是用戶輸入的查詢本身,即對(duì)于具有給定屬性的產(chǎn)品的請(qǐng)求。例如,已知深藍(lán)色是一種藍(lán)色可幫助為了對(duì)于藍(lán)色商品的請(qǐng)求檢索深藍(lán)色商品。
提供商品與屬性之間的密切結(jié)合的目的是幫助分類過程,其方式是,首先為各商品提供限制,當(dāng)指定商品時(shí)可根據(jù)它適當(dāng)預(yù)計(jì)屬性,其次允許一詞多義商品和屬性檢索詞的消除多義性。例如,在手表的上下文中,‘gold’可能表示一種金屬,而在T恤的上下文中,該詞可能表示顏色。類似地,在后跟高度的上下文中,“pump”可能表示一種鞋,而在水力學(xué)的上下文中,則很可能表示液體循環(huán)驅(qū)動(dòng)部件。
導(dǎo)航方針(NG)KB的導(dǎo)航方針組件提供兩種功能性,因此最好是由兩個(gè)部分組成搜索導(dǎo)航樹(SNT)和提示清單(PR)。
SNT是一種組件,它允許定義給定數(shù)據(jù)庫的導(dǎo)航方案,以便允許以類似于瀏覽目錄樹的過程的方式在數(shù)據(jù)庫(例如電子商務(wù)目錄)中導(dǎo)航。SNT采用UNC作為商品的分級(jí)結(jié)構(gòu)以及采種GAO作為屬性和屬性值的KB,并使所得結(jié)構(gòu)可作為統(tǒng)一導(dǎo)航樹、通常作為有向非循環(huán)圖供搜索和導(dǎo)航算法使用。也就是說,它允許基于商品和屬性檢索詞以及兩者之間的相互關(guān)系的同時(shí)導(dǎo)航。另外,SNT允許這些知識(shí)庫的靈活性和定制(通過編輯功能),而沒有實(shí)際上改變UNC和GAO中的數(shù)據(jù)。靈活性和定制是需要的,因?yàn)楹诵脑~匯概念本體論適合分類任務(wù),而搜索和導(dǎo)航任務(wù)則可能需要本體論的稍有不同的視圖。例如,SNT允許引入新的類,例如表示各種商品的主題分組的節(jié)點(diǎn);整個(gè)分支到單節(jié)點(diǎn)的折疊;以及把特定商品與特定屬性值結(jié)合為新種類的實(shí)體的節(jié)點(diǎn)的創(chuàng)建,等等。明確地說,它允許定義新的主題節(jié)點(diǎn),它們可能不是實(shí)際的商品或?qū)傩灾?,而是反映特定的語義類別,例如“銷售”、“拍賣”、“季節(jié)禮品”或類似檢索詞。SNT節(jié)點(diǎn)被構(gòu)建為識(shí)別匹配用戶請(qǐng)求的產(chǎn)品的相關(guān)類別。
NG的第二部分、即提示清單(PR)組織搜索引擎前端的提示器組件所需的數(shù)據(jù)和定義。PR定義集合“縮減提示”,可把這些提示提供給用戶以幫助在搜索會(huì)話期間提煉相關(guān)的所檢索數(shù)據(jù)條目集。一般來說,縮減提示的集合取決于可用于(或者經(jīng)由即時(shí)編索引可能變?yōu)榭捎糜?給定數(shù)據(jù)庫的數(shù)據(jù)條目的分類維和值。NG允許定義實(shí)際的可用縮減提示集,以便適應(yīng)數(shù)據(jù)庫管理人員的具體需要、偏好和策略。例如,NG可定義哪些分類維不應(yīng)當(dāng)用作提示,哪些提示應(yīng)當(dāng)優(yōu)先于其它哪些提示,等等。各提示反映給定分類維,例如商品類型、顏色等。NG組件允許指定對(duì)于提示的答案集的限制-例如,指定提示可提供多少不同的答案選項(xiàng),甚至指定允許哪些特定值(SNT節(jié)點(diǎn))作為給定提示的答案選項(xiàng)。大家注意,清單中對(duì)于提示的每個(gè)答案選項(xiàng)僅被映射到一個(gè)SNT節(jié)點(diǎn),以及最好是存在沒有包含在映射范圍內(nèi)的許多節(jié)點(diǎn)。未包含的節(jié)點(diǎn)主要反映很具體的數(shù)據(jù),它們可在用戶明確請(qǐng)求它們時(shí)被標(biāo)識(shí),但沒有作為那個(gè)特定問題的可能選擇常規(guī)提供。例如,如果初始查詢只是“襯衣”,以及搜索引擎決定向用戶提示優(yōu)選顏色,則通常只向用戶呈現(xiàn)基本顏色的小集合、如紅色、藍(lán)色、黃色等,作為答案選項(xiàng)(除非用戶界面考慮到自由文本答案)。但是,如果用戶最初尋找“淡紫色襯衣”,則重要的是標(biāo)識(shí)那個(gè)具體顏色,它最好是已被定義為SNT中的節(jié)點(diǎn),但沒有由任何答案映射到顏色問題。
提示清單的另一個(gè)重要方面是它確定任何給定查詢的上下文中的不同提示的相對(duì)重要性的能力。例如,當(dāng)用戶所尋找的商品為T恤時(shí),與顏色有關(guān)的縮減提示可能被認(rèn)為比商標(biāo)提示更為重要。但是,當(dāng)商品是電視時(shí),商標(biāo)提示可被認(rèn)為比顏色提示更為重要。相對(duì)重要性值可用于對(duì)提示進(jìn)行排序,以及原始或全局重要性值可通過考慮用戶在回答問題時(shí)的偏好和/或電子商店自己對(duì)要詢問其潛在顧客的問題的偏好來提煉。
最后,對(duì)于各提示和可能的答案選項(xiàng),NG可存儲(chǔ)呈現(xiàn)給用戶的實(shí)際提示標(biāo)簽。標(biāo)簽可采取文本問題(例如“您更喜歡什么顏色?”)、文本標(biāo)記(例如‘黑色’、‘白色’等)、圖像等的形式。
商品-屬性相關(guān)性矩陣電子商務(wù)目錄搜索引擎的一個(gè)優(yōu)選實(shí)施例采用商品-屬性相關(guān)性矩陣(CARMA)。CARMA是一種最好采取表格或矩陣形式的知識(shí)結(jié)構(gòu),它包含概率相關(guān)值,每個(gè)值測(cè)量諸如顏色、長度、尺寸等的屬性類型/維或者諸如藍(lán)色、綠色、小等的屬性值以及給定商品或商品類的關(guān)聯(lián)的可能性。在一般情況中,對(duì)于給定數(shù)據(jù)庫,可建立類似的矩陣來測(cè)量類維之中、類維與類值之間以及類值之中的關(guān)聯(lián)。如果數(shù)據(jù)存儲(chǔ)器條目已經(jīng)采用適當(dāng)?shù)纳唐泛蛯傩苑诸悂碜⑨專瑒t商品c和屬性a的表格條目包含兩個(gè)數(shù)字具有商品c的所有條目中以及具有屬性a的所有條目中具有這個(gè)商品和那個(gè)屬性的條目的百分比。
來自CARMA的數(shù)據(jù)可通過許多方式來使用;這里將說明查詢分析中的單詞意義消除多義性的一個(gè)優(yōu)選使用。
1.通過同時(shí)出現(xiàn)的屬性值對(duì)多義商品檢索詞消除多義性。例如,查詢可能包含檢索詞“cotton bra”。在零售上下文中,檢索詞“bra”具有兩個(gè)意義,一個(gè)表示女性的內(nèi)衣,另一個(gè)則為汽車配件,即車輛前端外罩或延伸部分。但是,cotton(棉布)是相應(yīng)屬性為布匹的屬性值,以及在CARMA中,棉布布匹的值僅對(duì)于“bra”的意義1才是相關(guān)的。汽車零件一般預(yù)計(jì)取塑料或金屬的值。
2.通過同時(shí)出現(xiàn)的商品檢索詞對(duì)多義屬性檢索詞消除多義性。例如,在“emerald necklace(翡翠項(xiàng)鏈)”中,“emerald”是多義的(寶石或顏色),CARMA可能指定顏色維對(duì)于項(xiàng)鏈不相關(guān),因此優(yōu)選寶石的意義。在“emerald t-shirt(翡翠色T恤)”的情況中,優(yōu)選顏色意義。
3.商品檢索詞和屬性檢索詞的相互消除多義性例如,在“goldring(金戒指)”中,“gold”具有商品意義(一塊金)和屬性(材料)意義,以及“ring”具有若干商品意義。但是,CARMA可能指定屬性-材料意義中的“gold”對(duì)于珠寶物品意義中的“ring”極相關(guān),因此,優(yōu)選意義的這種組合。
4.提示清單也可受益于CARMA矩陣,下面在提示器描述中進(jìn)行詳細(xì)說明。
索引器索引器36是受關(guān)注數(shù)據(jù)庫中的條目的自動(dòng)注釋的過程的一般集合,其中對(duì)于各條目,導(dǎo)出稍后可由各種系統(tǒng)組件、如匹配器組件28考慮的分類信息。如上所述,數(shù)據(jù)條目通常在數(shù)據(jù)庫中伴隨稱作自由文本的文本描述,以及索引器的目的是從自由文本中導(dǎo)出所需維數(shù)上的數(shù)據(jù)條目的分類;分類通常與條目的對(duì)象類型和條目的特征/屬性有關(guān)。索引器算法直接從自由文本描述中提取這種信息,并且還間接通過把新條目的描述與先前分析和檢查的條目的那些描述進(jìn)行比較來提取。索引過程可包括自由文本到機(jī)器可讀注釋的轉(zhuǎn)換,機(jī)器可讀注釋則可被添加到條目記錄的電子形式中。從功能角度來看,索引器36包括有限范圍、但仍然是有用的文本理解的功能。
在電子商務(wù)的上下文中,包含在數(shù)據(jù)庫中的條目通常是由產(chǎn)品記錄表示的商品。產(chǎn)品記錄是文本條目,通常由銷售和市場(chǎng)人員編寫,并且可包含被寫為標(biāo)題的產(chǎn)品名稱(PN)以及作為跟隨標(biāo)題的文本塊呈現(xiàn)的產(chǎn)品描述(PD),采取句子樣式或者作為列表中的一系列記錄。諸如一個(gè)或多個(gè)圖像、價(jià)格、供應(yīng)商名稱以及目錄號(hào)之類的附加格式化信息成分也可在自由文本中呈現(xiàn)。在這種情況中,索引器最好是嘗試從自由文本記錄中提取產(chǎn)品的商品分類(CC)及其屬性、性質(zhì)和特征。第一個(gè)任務(wù)通過自動(dòng)CC索引(ACCI)組件來實(shí)現(xiàn),以及第二個(gè)通過一般屬性算法(GAA)來實(shí)現(xiàn),它們兩者均在以下進(jìn)行描述。
自動(dòng)CC索引(ACCI)當(dāng)前用于把產(chǎn)品分類為商品類的ACCI過程包括CC提取或推導(dǎo)的兩種方式文本分析方式(TAA)和相似性方式(SA),在其實(shí)現(xiàn)中最好是包含若干算法。從文本分類和IR向量空間模型中提取,ACCI過程采用語言推動(dòng)自然語言處理(NLP)方法和統(tǒng)計(jì)分類方法來實(shí)現(xiàn)其目的。各方法具有其優(yōu)點(diǎn)以及局限,并且兩種方法的組合用于一個(gè)優(yōu)選實(shí)施例中,以便成功地覆蓋最廣泛的可能情況。
這些方法、即統(tǒng)計(jì)和語言方法的每個(gè)開始進(jìn)行并達(dá)到其結(jié)論,而與所使用的其它任何方法無關(guān)。當(dāng)每個(gè)算法對(duì)產(chǎn)品進(jìn)行表決或者進(jìn)行其分類時(shí),下面要描述的仲裁過程解決沖突,并對(duì)各產(chǎn)品分配最終分類。
文本分析方法文本分析方法的起始點(diǎn)如下所述。雖然制造商和供應(yīng)商傾向于采用模糊目錄號(hào)和參考ID來標(biāo)記產(chǎn)品,但人們一般通過采用指定產(chǎn)品的商品類的單詞或短語來表示產(chǎn)品。這類單詞和表達(dá)一般還見于產(chǎn)品的文本描述中,它們由銷售和市場(chǎng)人員編寫以便傳遞給可能的購買者。簡(jiǎn)單地說,單詞‘襯衣’將可能出現(xiàn)在襯衣產(chǎn)品的PN或PD中。
文本分析過程用來健壯地標(biāo)識(shí)和提取這類標(biāo)識(shí)檢索詞,并使用它們來提供相應(yīng)產(chǎn)品的商品分類。應(yīng)當(dāng)指出,任務(wù)不是這么簡(jiǎn)單的,因?yàn)槌俗鳛楫a(chǎn)品的CC名稱的檢索詞之外,文本還可包括大量附加單詞、其它CC名稱、具有多義意義的單詞、同義表達(dá)等。因此,文本分析特征要求語言處理能力、推導(dǎo)功能以及豐富的相關(guān)知識(shí)庫、CAKB,以便健壯且有效地實(shí)現(xiàn)其目標(biāo)。
文本分析過程最好是最初對(duì)文本執(zhí)行淺層剖析,提取關(guān)鍵字,并將其匹配CAKB中的檢索詞的受控詞匯表,然后再進(jìn)行一些推導(dǎo)以便解決有問題事項(xiàng)(該過程自動(dòng)定義和檢測(cè)有問題的情況)。它不僅產(chǎn)生商品分類,而且還對(duì)各產(chǎn)品產(chǎn)生產(chǎn)品檢索詞列表(PTL)-表示產(chǎn)品的關(guān)鍵方面的檢索詞表。一旦產(chǎn)生,該列表隨后可被用作條目索引的起始點(diǎn)。
現(xiàn)在參照?qǐng)D3以及參照?qǐng)D4,它們是詳細(xì)說明文本分析特征的主要步驟的簡(jiǎn)化流程圖。該過程最好是支持以下步驟的執(zhí)行1.預(yù)處理。文本的預(yù)處理包括文本的標(biāo)記化、淺層剖析以及詞性(POS)分析。
2.標(biāo)題識(shí)別。在這個(gè)階段,嘗試從自由文本以及從數(shù)據(jù)庫中可用的其它數(shù)據(jù)來確定產(chǎn)品是否為內(nèi)容攜帶實(shí)體(CBE-例如書籍、音頻CD、電影等)。這類產(chǎn)品以不同方式來處理,因?yàn)槠渥杂晌谋局幸姷降臋z索詞對(duì)于分類目的可能誤導(dǎo)。例如,單詞“白襯衣”通??赡鼙硎井a(chǎn)品商品為‘襯衣’并且顏色為白色,但如果該產(chǎn)品是標(biāo)題為“喬的白襯衣”的書,則分類過程必須不同。
3.數(shù)據(jù)提取與分類。在文本分析的數(shù)據(jù)提取階段,通過從文本的PN以及PD部分提取文本數(shù)據(jù)(關(guān)鍵字和短語),系統(tǒng)產(chǎn)生產(chǎn)品的初始PTL,并把所提取文本數(shù)據(jù)分類為相關(guān)術(shù)語分類組、如商品名稱或?qū)傩浴R话銇碚f,檢索詞的分類涉及例如通過CAKB查找表來查找所提取檢索詞所屬的一般類。當(dāng)所提取檢索詞實(shí)際上在CAKB中找到時(shí),重要信息、如檢索詞的一般類(其“角色”)-是否為商品(CC)、商標(biāo)名稱、屬性名稱/值等-從KB中被檢索并添加到PTL。在這個(gè)階段,多義性和矛盾沒有被解決,它們僅被聚集。
4.數(shù)據(jù)推導(dǎo)。在數(shù)據(jù)推導(dǎo)階段,可推導(dǎo)文本中沒有給出的附加數(shù)據(jù)。所推導(dǎo)數(shù)據(jù)則被添加到PTL。數(shù)據(jù)推導(dǎo)的一種方法稱作商標(biāo)型號(hào)商品[BMC]聯(lián)屬關(guān)系。BMC描述商標(biāo)、商品和型號(hào)之間的已知聯(lián)屬關(guān)系,并且如果商標(biāo)和型號(hào)名稱見于文本中,則允許例如產(chǎn)品CC的推導(dǎo)(當(dāng)沒有明確指出時(shí))。
5.商品分類。商品分類階段涉及一組過程,它們?cè)跀?shù)據(jù)收集階段把聚集的各種數(shù)據(jù)結(jié)合到PTL中。各種過程檢查不一致性,解決多義性,采用來自詞匯知識(shí)庫(例如UNC)的分級(jí)信息,并通過使用來自各種來源的支持證據(jù)來判定產(chǎn)品的最終商品分配,以便促進(jìn)最合理的分配。另外,該過程還自動(dòng)計(jì)算成功分類的可能性的置信等級(jí)。
6.PTL的提煉和增強(qiáng)。提煉階段提供提煉PTL數(shù)據(jù)的詞匯擴(kuò)充(添加同義詞、下位詞等)以及PTL條目的最終加權(quán)。加權(quán)PTL條目則可用于把適當(dāng)?shù)淖⑨屘砑拥綏l目索引記錄。
圖3的方法的優(yōu)點(diǎn)在于,即使在苛刻條件下,即關(guān)于所索引的特定數(shù)據(jù)庫了解極少以及不存在先前分類產(chǎn)品的庫存時(shí),也能夠產(chǎn)生有效注釋。本領(lǐng)域的技術(shù)人員通過閱讀上述說明會(huì)理解,在這類苛刻條件中采用該方法的一個(gè)缺點(diǎn)在于,成功分類的程度取決于大知識(shí)庫,它包含與可能遇到的商品種類的可能主題域及子域的各個(gè)區(qū)域有關(guān)的大量信息。
B-相似性方法相似性方法與文本分析方法完全不同。相似性方法基于新條目的文本描述與先前分類條目的描述的比較。相似性方法基于以下假設(shè)條目的真正商品類與具有最相似描述的先前分類的其它產(chǎn)品相同??赏ㄟ^IR和統(tǒng)計(jì)分類中眾所周知的方法,即通過把條目(產(chǎn)品)表示為檢索詞向量,由所謂的余弦測(cè)量或其變體之一測(cè)量這類向量的相似性,來計(jì)算產(chǎn)品描述之間的相似性。所謂的余弦測(cè)量基于余弦值,它是兩個(gè)向量共有的檢索詞數(shù)量為了歸一化而除以兩個(gè)向量長度之積。
技術(shù)人員會(huì)理解,直接實(shí)現(xiàn)相似性方法可能因大處理負(fù)荷而加重系統(tǒng)負(fù)擔(dān),因?yàn)橐笙到y(tǒng)計(jì)算給定向量的余弦以及所有可能的成千上萬可用且已經(jīng)分類的數(shù)據(jù)條目的余弦。因此,在一個(gè)優(yōu)選實(shí)施例中,在給定向量與來自數(shù)據(jù)庫的較小數(shù)量的所選及典型數(shù)據(jù)條目之間進(jìn)行比較。
計(jì)算哪些向量實(shí)際上與當(dāng)前數(shù)據(jù)條目最相似的方法可采用許多標(biāo)準(zhǔn)中的任一個(gè)。在一個(gè)優(yōu)選實(shí)施例中,兩個(gè)算法用于計(jì)算中來實(shí)現(xiàn)相似性方法。這些算法稱作聚類算法和鄰域算法。
在聚類算法中,先前分類產(chǎn)品的數(shù)據(jù)庫用來產(chǎn)生屬于相同CC(商品類)的產(chǎn)品聚類。對(duì)于各CC,來自那個(gè)CC中包含的所有產(chǎn)品的文本的單詞的出現(xiàn)頻率被制表,以及典型向量(CC聚類的質(zhì)心)被構(gòu)造。新產(chǎn)品的分類涉及那個(gè)產(chǎn)品的檢索詞向量與IS中的每個(gè)這種CC聚類的質(zhì)心的比較。最近的向量的CC則被分配給新產(chǎn)品。
采用聚類算法方法的分類比較快,因?yàn)榕c質(zhì)心而不是實(shí)際產(chǎn)品向量進(jìn)行比較。如果各質(zhì)心表示十個(gè)產(chǎn)品,則實(shí)現(xiàn)計(jì)算復(fù)雜度的數(shù)量級(jí)減小。
鄰域算法基于統(tǒng)計(jì)分類的K個(gè)最近鄰域(KNN)方法。大體上,新產(chǎn)品的分類首先要求那個(gè)產(chǎn)品的檢索詞向量與IS中的每個(gè)先前分類產(chǎn)品的檢索詞向量的比較。取最接近新產(chǎn)品向量的K個(gè)向量,算法向新產(chǎn)品分配與K個(gè)最相似產(chǎn)品的大多數(shù)關(guān)聯(lián)的CC。作為一個(gè)變體,除大多數(shù)之外的不同標(biāo)準(zhǔn)也可用于這個(gè)上下文中。
一個(gè)優(yōu)選實(shí)施例包括在檢索詞向量中出現(xiàn)的檢索詞的高級(jí)差異處理。與候選產(chǎn)品或產(chǎn)品類具有語義相關(guān)性的這類檢索詞可接收向量中的更高權(quán)重。語義相關(guān)性可從知識(shí)庫中獲得。另外,一個(gè)優(yōu)選實(shí)施例包括若干方法,它們把向量空間縮減到最相關(guān)向量,以免原本可能導(dǎo)致的計(jì)算開銷。
利用如上所述的聚類和鄰域算法的相似性方法需要一組先前分類產(chǎn)品以便工作。其次,即使采用一組先前分類的產(chǎn)品,在處理與先前分類集中不同的商品或商品類型時(shí)仍可能不成功。第三,沒有實(shí)際保證描述的相似性暗示商品類的相似性。然而,在有利條件下,相似性方法可產(chǎn)生有用結(jié)果,特別是當(dāng)適當(dāng)復(fù)雜的使用由知識(shí)庫信息組成時(shí)。
技術(shù)人員會(huì)理解,可最佳地對(duì)不同索引任務(wù)選擇上述各種方法的不同組合,具體取決于了解或理解數(shù)據(jù)庫的程度以及可用知識(shí)庫的性質(zhì)或類型。
仲裁過程如上所示,可采用若干方法來實(shí)現(xiàn)至少到商品類、即CC等級(jí)的產(chǎn)品分類。各方法可提供一種或多種CC,最好是伴隨適當(dāng)?shù)闹眯诺燃?jí),它們是其最終分類候選者。仲裁過程的作用則是解決分類方法之間的分類不一致,以及還提供最終分配分類的單一最終置信等級(jí)。即使在各方法只提供一種CC候選者并且所有方法同意的情況中,仍然需要該過程來把最終置信等級(jí)分配給所采用的分類。
設(shè)EM,CC為分類方法M附加到它把給定產(chǎn)品到某個(gè)CC的分配的證據(jù)/置信度值(在0-1范圍中);顯然,M對(duì)于那個(gè)產(chǎn)品提出的CC(或多個(gè)CC)候選者將是使EM,CC為最大的那些。在M提出的多個(gè)候選者的情況中,分級(jí)可看作概率分布,使得在這種情況中可假定ΣCCECC=1.]]>在當(dāng)前實(shí)施例中,允許各分類方法根據(jù)需要提供一定數(shù)量的最佳候選者。然后,仲裁過程在所使用的各種方法提供的所有候選者中選擇那個(gè)產(chǎn)品(數(shù)據(jù)條目)的最終分類。
設(shè)WM,CC為把產(chǎn)品分類為特定CC時(shí)M的平均過去成功率。平均過去成功率可能只是查準(zhǔn)率,或者更恰當(dāng)?shù)卣f是眾所周知的信息理論F量度 其中,β是相對(duì)于查全率給予查準(zhǔn)率的重要性。
用于由分類方法M把產(chǎn)品分類為商品類CC的所調(diào)整置信等級(jí)現(xiàn)在可表示為CRM,CC=(EM,CC*WM,CC)。
當(dāng)選擇給定產(chǎn)品的最終分類選擇時(shí),仲裁過程可實(shí)現(xiàn)多個(gè)判定表決策略。多個(gè)這類策略是本領(lǐng)域的技術(shù)人員已知的,并且包括稱作獨(dú)立策略的那些策略以及相互一致性策略。上述策略的多個(gè)混合也是本領(lǐng)域的技術(shù)人員已知的。
獨(dú)立策略假定各分類方法的分類作用與其它策略無關(guān)。獨(dú)立策略的最簡(jiǎn)單實(shí)現(xiàn)是采用多數(shù)表決產(chǎn)品的最終CC是大多數(shù)方法同意的一個(gè)。一個(gè)優(yōu)選實(shí)施例采用加權(quán)表決,使得各方法對(duì)其最終候選者的任一個(gè)進(jìn)行的表決通過一組參數(shù)被加權(quán),這些參數(shù)反映歸因于那種方法的重要性和/或在對(duì)產(chǎn)品分類中的平均過去成功率。因此,最終(勝出)分類是使按M重要性參數(shù)I加權(quán)后所有方法M的所有候選者調(diào)整等級(jí)之和最大的一個(gè),即TotalCRCC=[ΣMCRM,CC*IM]]]>
I的值可反映方法M在所有類上的總過去成功率,例如,IM.=平均WM(值得注意,當(dāng)類的總數(shù)很大時(shí),任何特定CC的WM,CC只對(duì)平均W造成可忽略的影響)。如果所有方法被認(rèn)為相等,對(duì)于每個(gè)M,IM=1。
會(huì)理解,如上所述的方法的權(quán)重(IM)可能是方法選擇的權(quán)重的補(bǔ)充或替代(WM,CC)。
本領(lǐng)域的技術(shù)人員會(huì)理解,可采用遵循上述路線的更復(fù)雜的表決策略。此外,可允許仲裁過程選擇一個(gè)以上CC作為最終分類;例如,它可選擇TotalCRCC超過某個(gè)門限等級(jí)的所有CC,等等。
相互一致性(MC)策略基于以下觀察與只考慮各方法的獨(dú)立成功率相比,考慮方法的部分集合的成員同意的平均過去成功率在整體上提供對(duì)于成功分類的概率的更好估算。
更詳細(xì)地考慮基于MC的策略,假定使用三種分類方法M1、M2、M3。方法M1提出CCI和CCJ,M2提出CCI,以及M3提出CCJ。MC方法采用先前聚集的數(shù)據(jù)來檢查當(dāng)這個(gè)類由方法1和2商定時(shí)到類CCI的成功分類的概率以及當(dāng)方法1和3商定時(shí)到類CCJ的成功分類的概率。具有更好成功率的協(xié)商最好是作為最終分類。
分類方法的子集的成員之間的相互協(xié)商的過去成功率可像前面那樣只當(dāng)作查準(zhǔn)率,或者作為考慮查準(zhǔn)率和查全率的F量度??蓪?duì)于任何特定CC計(jì)算這種參數(shù)的值,通常當(dāng)存在足夠數(shù)據(jù)時(shí),或者作為所有CC類之上的平均值,這后一種例如當(dāng)對(duì)于特定CC類不存在足夠數(shù)據(jù)時(shí)。
另外,MC策略還可考慮類別的分級(jí)性質(zhì)(CC)。例如不僅在兩種分類方法都提出相同CC時(shí),而且在所提出的CC是同級(jí)、即它們?cè)诜旨?jí)結(jié)構(gòu)中具有同一個(gè)直接父時(shí),可考慮兩個(gè)分類方法之間的協(xié)商。相同情況可適用于其它分級(jí)安排、如父和子。
可使用獨(dú)立和相互策略的組合。如一個(gè)優(yōu)選實(shí)施例中使用的獨(dú)立和相互一致性方法的組合如下所述
對(duì)于存在分類方法當(dāng)中的部分商定的各CC候選者,那個(gè)CC的總置信等級(jí)TotalCRCC計(jì)算為TotalCRCC=[ΣMCRM,CC*IM]*[logWMAΣM∈MAlogWM]]]>其中WMA為相互協(xié)商的成功率,以及WM為單個(gè)方法M的成功率。
最終(勝出)分類是使如上所述的累積等級(jí)最大的一個(gè)。
仲裁過程在其判定中指定作為置信度的量度(以及表示為概率)的最終置信等級(jí)(FCR)考慮勝出CC的TCRCC與其它全部候選者的TCRCC之間的差值,并由下式表示 一般屬性算法(GAA)一般屬性算法(GAA)是設(shè)計(jì)成提供數(shù)據(jù)庫(DB)或信息存儲(chǔ)器(IS)中的條目的屬性分類的一般設(shè)施。不同種類的屬性需要不同種類的數(shù)據(jù)和不同算法來取得成功分類。分類可有效地利用不同種類的信息,但其質(zhì)量仍然關(guān)鍵性地取決于基礎(chǔ)語義信息的質(zhì)量和范圍。例如,如果人們僅了解數(shù)十種顏色名稱中的七種,則顏色屬性索引具有低覆蓋率是不奇怪的。此外,如果沒有嘗試預(yù)先標(biāo)識(shí)提及但沒有標(biāo)識(shí)顏色的誤導(dǎo)表達(dá),則屬性索引可能具有低精度。例如,如“green with envy(非常忌妒)”之類的短語實(shí)際上并未指明綠色。“Snow white(雪白)”可能指明純白色形式,但“pure as the driven snow”則根本沒有涉及顏色。
三種補(bǔ)充方法由GAA用于從產(chǎn)品文本描述中推導(dǎo)屬性值關(guān)鍵字提取、推導(dǎo)和相似性(聚類)分析。
各方法可能潛在地建議某個(gè)屬性值,并且可允許那個(gè)值伴隨置信等級(jí)。在沖突建議的情況中,可應(yīng)用上述種類的仲裁過程。最簡(jiǎn)單的仲裁過程是僅保留具有最高等級(jí)的值,以及丟棄其它所有所提出的值。
GAA提供的三種補(bǔ)充方法如下所述A-關(guān)鍵字提取在關(guān)鍵字提取方法中,采用其中最好是存儲(chǔ)了所有這類關(guān)鍵字及其相關(guān)上下文信息的GAO知識(shí)庫中的查找表來標(biāo)識(shí)和提取給定屬性維的可能值的關(guān)鍵字。例如,如果單詞“紅色”出現(xiàn)在產(chǎn)品描述中,并且存儲(chǔ)在GAO中作為顏色值,則存在適當(dāng)證據(jù)來推論該產(chǎn)品的顏色實(shí)際上為紅色。但是,應(yīng)當(dāng)意識(shí)到以下事實(shí)產(chǎn)品的文本中特定單詞的出現(xiàn)可能不足以從其中推導(dǎo)那個(gè)產(chǎn)品的屬性值。必須考慮其它文本條件,例如在其中出現(xiàn)關(guān)鍵字的上下文。如果顏色關(guān)鍵字出現(xiàn)在短語“available in colors”之后,則它實(shí)際上表示顏色值的概率很高,但在表達(dá)“Levi’sred label jeans”中,關(guān)鍵字“red”表示顏色“紅色”的概率極低。GAO中的各屬性值關(guān)鍵字可具有支持和誤導(dǎo)上下文的關(guān)聯(lián)說明。上下文例如可采用常規(guī)表達(dá)來定義。一般來說,在遇到數(shù)據(jù)條目的文本中的屬性值關(guān)鍵字時(shí),GAA分析上下文信息,以便確定在其上下文中那個(gè)關(guān)鍵字的可信性。
B-推導(dǎo)關(guān)于屬性值的某些判定可從其它已經(jīng)可得到及可信的分類信息中推導(dǎo)。各種推導(dǎo)表、如上述CARMA包含在CAKB中用于那個(gè)目的。
GAA中可用的最一般推導(dǎo)規(guī)則具有以下格式“如果產(chǎn)品滿足條件Ci的給定連接詞,則把可能的值V1、...、Vn的每個(gè)分配給其分類類型T”,其中C是“類型T具有值V1、...、Vn中的一個(gè)”的形式的,以及類型是分類維(例如商品、商標(biāo)、型號(hào)、顏色等)。
推導(dǎo)規(guī)則還可通過給定分類的置信等級(jí)的值來調(diào)節(jié)。當(dāng)根據(jù)規(guī)則C從數(shù)據(jù)B中推導(dǎo)值A(chǔ)時(shí),則A的置信等級(jí)將為B的置信等級(jí)乘以C的置信等級(jí)(規(guī)則C為正確規(guī)則的概率)之積。因此,如果性別“女性”從CC“裙子”中推導(dǎo),則“女性”的置信等級(jí)將是“裙子”的等級(jí)乘以裙子實(shí)際上用于女性的概率(極高但不是絕對(duì)的,因?yàn)榭赡艽嬖谟糜谀行缘奶K格蘭裙子)。
這里是這類規(guī)則的一些實(shí)例1.屬性適當(dāng)性從已標(biāo)識(shí)CC值推論某個(gè)屬性維、甚至某個(gè)屬性值是否與所考慮的CC有關(guān)。因此,長度的屬性對(duì)于計(jì)算機(jī)不太可能是適當(dāng)?shù)摹?br>
2.IS-A推導(dǎo)應(yīng)用CAKB中出現(xiàn)的所有IS-A關(guān)系,例如“深藍(lán)色是藍(lán)色”。這種推導(dǎo)也可能在不同類型之間進(jìn)行,例如“從CC‘女裝’推導(dǎo)性別‘女性’”。否定推導(dǎo)(“IS-NOT-A”)也包含在這個(gè)標(biāo)題下。
3.消除多義性推導(dǎo)先前記錄數(shù)據(jù)可用于給定關(guān)鍵字的若干沖突值或不同解釋之間消除多義。因此,必須在“denim”的兩個(gè)不同解釋(作為顏色或者作為布匹)之間選擇,我們選擇具有最高預(yù)先記錄置信等級(jí)的一個(gè)。
C-相似性(聚類)分析相似性或聚類分析基于統(tǒng)計(jì)分類算法,例如支持向量機(jī)器(SVM)。給定屬性維,產(chǎn)品由檢索詞向量表示,檢索詞為關(guān)鍵字、上下文中的短語或其它結(jié)構(gòu)數(shù)據(jù)的形式的屬性值。先前分類產(chǎn)品(數(shù)據(jù)條目)根據(jù)相似屬性值來聚類,并計(jì)算聚類質(zhì)心。然后,例如采用“余弦”測(cè)量或其變體之一把新產(chǎn)品檢索詞向量與不同質(zhì)心進(jìn)行比較,最終向其分配最接近質(zhì)心的屬性值。
聚類方法對(duì)某些屬性提供令人滿意的結(jié)果,但對(duì)于另一些則不行。當(dāng)應(yīng)用于服裝數(shù)據(jù)庫時(shí),根據(jù)聚類進(jìn)行索引在應(yīng)用于性別屬性時(shí)取得90%以上的查準(zhǔn)率,但是對(duì)于布匹屬性,結(jié)果則不會(huì)優(yōu)于隨機(jī)估算。
用于這種比較的KNN方法也是可行的,如前一小節(jié)對(duì)于商品類索引中詳細(xì)說明的那樣。
解釋器給定用戶請(qǐng)求,從數(shù)據(jù)庫中對(duì)相關(guān)條目的檢索通過把從查詢中導(dǎo)出的信息與可用于數(shù)據(jù)庫中各條目的信息進(jìn)行匹配來實(shí)現(xiàn)。當(dāng)考慮查詢的一些成分、如商品名稱比其它成分、如屬性值更為重要的事實(shí)時(shí),匹配過程最佳地工作。
多個(gè)匹配方法是技術(shù)人員已知的。一些匹配方法、如檢索詞頻率/逆文檔頻率-TF/IDF可嘗試通過統(tǒng)計(jì)方式來推導(dǎo)查詢成分的相對(duì)重要性。但是,對(duì)于自然語言查詢,可通過經(jīng)由語法和語義線索對(duì)查詢的成分進(jìn)行分類,同時(shí)采用一些領(lǐng)域特定概念見識(shí),來獲得更好的結(jié)果。因此,解釋器的主要目標(biāo)之一是檢測(cè)查詢的哪些部分?jǐn)y帶什么類型的重要信息。
把這個(gè)概念應(yīng)用于電子商務(wù)的情況,解釋器的第一個(gè)目標(biāo)是檢測(cè)用戶在其查詢中請(qǐng)求的商品(襯衣、數(shù)字相機(jī)、鮮花、椅子...),是否明確描述或者只是暗示。隨后,解釋器應(yīng)當(dāng)能夠檢測(cè)精確指定商品的預(yù)期屬性的檢索詞,從而限定可滿足查詢的條目的范圍。屬性可能是外衣的顏色和布料、電視機(jī)的屏幕大小等。
應(yīng)當(dāng)注意,在這個(gè)上下文中,雖然許多屬性可在邏輯上僅應(yīng)用于一定數(shù)量的商品類(例如屏幕大小不是外衣的相關(guān)屬性),但其它許多屬性、如價(jià)格、豪華狀態(tài)和商標(biāo)適用于幾乎任何商品的產(chǎn)品。類似地,查詢可以僅由流行人物/主題組成,無論是小說、如Pokemon、HarryPotter還是Jedi,或者是現(xiàn)實(shí)、如Chicago Bulls或The Beatles,而沒有商品說明。在存在以及不存在商品說明時(shí),解釋器應(yīng)當(dāng)能夠檢測(cè)這些一般種類的屬性。在相同方面,應(yīng)當(dāng)能夠識(shí)別型號(hào)名稱或目錄編號(hào),例如DCR-PC115(Sony便攜攝像機(jī))。
為了充分處理這些種類的信息,解釋器最好是執(zhí)行以下功能-標(biāo)識(shí)查詢文本中的重要檢索詞,-識(shí)別它們的概念狀態(tài),-處理拼寫錯(cuò)誤,
-處理自然語言中普遍存在的詞匯(單詞意義)或語法多義性,-把同義或密切相關(guān)表達(dá)識(shí)別為與相同概念有關(guān),-檢測(cè)不相關(guān)條件,-能夠維持多義查詢的多個(gè)適當(dāng)解釋,以及-在高級(jí)分析不成功的情況下,提供性能質(zhì)量的適度降低。
用于實(shí)現(xiàn)這類功能的方法的一部分如下所述。
A-查詢標(biāo)記化,包括標(biāo)點(diǎn)符號(hào)和特殊字符的適當(dāng)處理B-詞形歸類,即各種查詢檢索詞簡(jiǎn)化到其標(biāo)準(zhǔn)語言正確基本形式(“詞形”),以便克服咨詢包括CAKB在內(nèi)的各種外部源時(shí)的形態(tài)變異的問題。
C-拼寫錯(cuò)誤校正。拼寫錯(cuò)誤校正比它看起來更復(fù)雜,因?yàn)閍)特別是在零售業(yè),許多“拼寫錯(cuò)誤”字符串正好是各種實(shí)體名稱。例如,Kwik-Fit是汽車維修連鎖店的名稱,而不是Quick-Fit的拼寫錯(cuò)誤;b)拼寫錯(cuò)誤也可能出現(xiàn)在數(shù)據(jù)庫中,因此,校正一些拼寫錯(cuò)誤可能導(dǎo)致相關(guān)條目的不匹配;c)往往存在爭(zhēng)用預(yù)計(jì)拼寫的許多可能的校正,以及計(jì)算機(jī)化系統(tǒng)可能在選擇最適當(dāng)結(jié)果時(shí)有困難;d)咨詢拼寫程序獲取每個(gè)字符串,同時(shí)分析錯(cuò)誤拼寫的所建議校正的操作對(duì)于系統(tǒng)資源可能是很重的負(fù)擔(dān)。
廣泛知識(shí)庫的復(fù)雜使用一般能夠克服上述問題,并提供有用的拼寫校正。
D-檢索詞的概念狀態(tài)(“角色”)的識(shí)別-主要為商品和屬性-其方式是咨詢?cè)诟拍钌项A(yù)先分類的知識(shí)庫的CAKB成分。輔助說明,例如檢索詞所涉及的屬性種類,可作為角色的子類提供-例如在屬性=顏色、布料等中。
重要檢索詞往往是多詞表達(dá),為了正確識(shí)別它們,算法應(yīng)當(dāng)嘗試在CAKB中不僅定位單一單詞,而且還定位多詞序列。這再次可能加重系統(tǒng)資源的負(fù)擔(dān),因?yàn)閷?duì)于n個(gè)單詞的查詢,多達(dá)n個(gè)單詞的結(jié)果的任一個(gè)可能是重要檢索詞,因而需要在CAKB中查找。但是,許多見識(shí)可在這里用來簡(jiǎn)化搜索,在它們之間,例如根據(jù)標(biāo)點(diǎn)、介詞和連詞把查詢分割為子序列,以及僅在查詢段中查找可能的多詞序列。
E-區(qū)別主要的焦點(diǎn)特征和支持或次要特征。在諸如“電視機(jī)架”或“50”電視機(jī)架”之類的查詢中,檢索詞“電視機(jī)”不應(yīng)當(dāng)識(shí)別為商品。檢索詞“電視機(jī)”不是查詢的焦點(diǎn)商品。但概念“電視機(jī)”又不是不相干的,它對(duì)于指定所需架子的類型是重要的。因此,它具有支持狀態(tài)。一般來說,解釋器能夠檢測(cè)概念識(shí)別檢索詞如何與查詢的主題相關(guān)。通過考慮文本查詢的語法和語義結(jié)構(gòu)-非限制性地具體來說,考慮查詢中的介詞和單詞順序,來實(shí)現(xiàn)這種檢測(cè)。例如,出現(xiàn)在介詞“for”或“by”之后的商品檢索詞可能不是查詢的焦點(diǎn)商品。在查詢分析期間編碼的這類差別對(duì)于符合要求的條目匹配和分級(jí)是關(guān)鍵的。
F-識(shí)別同義詞。同義詞識(shí)別例如通過上述USID機(jī)制來提供,因而對(duì)于CAKB中存在的所有同義檢索詞有效。在CAKB中識(shí)別的任何查詢檢索詞最好是返回適當(dāng)?shù)腢SID,它把檢索詞轉(zhuǎn)換為可用于所有后續(xù)匹配及其它處理步驟的概念,作為查詢檢索詞代表。查詢檢索詞到概念的轉(zhuǎn)換意味著,實(shí)際上依照概念而不是僅根據(jù)關(guān)鍵字來搜索數(shù)據(jù)存儲(chǔ)器。
G-查詢中誤導(dǎo)或不相關(guān)數(shù)據(jù)的識(shí)別。例如,如果查詢作為整體來看涉及諸如書籍、CD、電影、圖片、海報(bào)、印刷品等的標(biāo)題(在一般意義上)之類的實(shí)體名稱,則出現(xiàn)在查詢中的明顯的商品和屬性檢索詞可能不相關(guān)。例如,在查詢?yōu)椤癟he Lord of the Rings”的情況中,“rings”不應(yīng)當(dāng)被解釋為商品名稱。因此,解釋器應(yīng)當(dāng)配備允許定義和檢測(cè)標(biāo)準(zhǔn)分析不相關(guān)所處的條件的過程。在相同方面,諸如手表的“Rolex-type”、“faux-fur”、“White Linen”之類的誤導(dǎo)屬性值應(yīng)當(dāng)被檢測(cè)及適當(dāng)處理。這類過程最好是基于適當(dāng)知識(shí)庫。
H-多義性解決。自然語言固有地是多義的。處理自然語言中的多義性以及形成查詢的若干不同和競(jìng)爭(zhēng)解釋的能力在面臨自然語言查詢時(shí)對(duì)于搜索引擎的成功性能是優(yōu)選的。在當(dāng)前實(shí)施例中,多義性按照如下方式來處理多義檢索詞在CAKB中具有多個(gè)條目,各具有適當(dāng)?shù)囊饬x標(biāo)識(shí)符。當(dāng)多義檢索詞出現(xiàn)在查詢中時(shí),它的所有CAKB列示意義標(biāo)識(shí)符被返回給解釋器。解釋器則采用查詢檢索詞的不同意義來構(gòu)建查詢的多個(gè)解釋版本。然后可使用單詞意義消除多義性的各種方法,以便確定哪些解釋版本完全無意義、哪些是有意義的以及達(dá)到的程度。顯然,僅有意義的解釋版本才保留作為查詢的最終分析。
具有所有解釋版本、角色、置信等級(jí)等的解釋器的輸出是以上所述的正式請(qǐng)求。
匹配器分級(jí)器分級(jí)器負(fù)責(zé)根據(jù)匹配用戶需要(即相關(guān)性)的估算概率對(duì)條目分級(jí)。對(duì)分級(jí)模塊的輸入包含正式請(qǐng)求以及用戶對(duì)先前提示(如果有的話)的響應(yīng)的序列,以及數(shù)據(jù)庫或IS條目和與其關(guān)聯(lián)的任何注釋。
分級(jí)階段最好是包括以下階段1.從數(shù)據(jù)庫檢索的條目的分級(jí)。根據(jù)明顯不匹配的所選門限,一些條目可從分級(jí)中排除。
2.相關(guān)集合的構(gòu)建。這種相關(guān)集合最好是包括IS中在產(chǎn)生下一個(gè)提示時(shí)要考慮的那些條目。
3.結(jié)果集的構(gòu)建,可能或者應(yīng)當(dāng)向用戶顯示的那些條目。結(jié)果集通常包含從數(shù)據(jù)庫檢索的、在提示過程中保留的并超過門限相關(guān)性分級(jí)的條目。
相關(guān)性分級(jí)可考慮正式請(qǐng)求以及先前用戶響應(yīng)(如果有的話)的不同成分的相對(duì)重要性。通過測(cè)量請(qǐng)求與那個(gè)特定條目之間的匹配的強(qiáng)度,等級(jí)應(yīng)當(dāng)反映所分級(jí)條目可滿足用戶的似然性。分級(jí)可分解成以下成分-正式請(qǐng)求反映用戶需要的似然性-條目的特征和屬性(由索引器提取)的分析為正確的似然性-附加關(guān)鍵字實(shí)際上應(yīng)用于具體條目的(先驗(yàn)或?qū)W習(xí))概率-請(qǐng)求的各成分的角色對(duì)用戶的(估算或?qū)W習(xí))相對(duì)重要性-分配給條目的特征可能滿足請(qǐng)求具有那個(gè)特征的條目的用戶的概率。這些特征之間的完全匹配將返回概率1;低于完全匹配,例如當(dāng)條目商品為所請(qǐng)求商品的上位詞時(shí),最好是相應(yīng)地減小概率,如上所述;-具體條目將被請(qǐng)求的(先驗(yàn)或?qū)W習(xí))概率(又稱作流行度量度);-數(shù)據(jù)庫(推廣、限定等)偏差或限制;-條目檢索的成本。成本可能對(duì)于用戶或者對(duì)于系統(tǒng)而言。
各產(chǎn)品的特征等級(jí)是來自以上詳細(xì)說明的列表、通過在所有已標(biāo)識(shí)查詢特征上相加-帶有適當(dāng)權(quán)重-條目特征與查詢特征之間的匹配值所計(jì)算的適當(dāng)數(shù)的組合。因此,如果顏色的匹配被認(rèn)為沒有性別匹配重要,則性別匹配權(quán)重將具有比顏色匹配權(quán)重更大的值。分配給產(chǎn)品的最終分級(jí)最好是由相等加權(quán)數(shù)的三元組構(gòu)成商品分級(jí)、屬性(特征)分級(jí)以及其它檢索詞的分級(jí)號(hào)。相等且固定權(quán)重方案目的在于確保許多分析屬性的良好匹配例如不會(huì)被不良商品匹配抑制。搜索羊毛制的藍(lán)外套的用戶可能對(duì)于看到非藍(lán)色的羊毛外套是可接受的,并且可能對(duì)于非羊毛材料制的藍(lán)色外套也可接受,但對(duì)于看到藍(lán)色羊毛衫可能很驚訝,以及商品和屬性的分開匹配考慮的使用允許與屬性無關(guān)地獨(dú)立強(qiáng)調(diào)商品匹配。
當(dāng)查詢的若干解釋版本(表示用戶意圖的若干可能解釋)由解釋器返回時(shí),條目與所有各個(gè)解釋版本之間的匹配值被計(jì)算,以及最終分級(jí)是所有版本上的加權(quán)平均值(考慮各種版本的權(quán)重)。
在得到對(duì)于提示的答案時(shí),條目的分級(jí)被相應(yīng)更新(后驗(yàn))。
條目的相關(guān)集的目的是通過忽略具有滿足用戶的低概率的條目,從而降低用戶當(dāng)作噪聲的內(nèi)容,來改進(jìn)提示器的性能。在一個(gè)可能的實(shí)現(xiàn)中,只有完全匹配包含在相關(guān)集中,表示解釋器所標(biāo)識(shí)的、無論是商品特征、屬性特征還是其它檢索詞特征的每個(gè)特征必須向被考慮用于檢索的條目提供有效匹配值,才能包含在相關(guān)集中。如果沒有發(fā)現(xiàn)這種完全匹配,則相關(guān)集被擴(kuò)大到包括低于完全匹配,這樣,例如只有完全無法找到紅色襯衣時(shí)才會(huì)提示系統(tǒng)考慮返回橙色襯衣。
結(jié)果集是相關(guān)集的一小部分,其中包含具有高相關(guān)等級(jí)的那些條目。它們是要向用戶顯示的條目。兩種情況中的截止可能是絕對(duì)的、相對(duì)的或其組合。
提示器提示器的任務(wù)是向用戶提供一個(gè)或多個(gè)刺激,使得對(duì)刺激的用戶響應(yīng)可用于對(duì)結(jié)果集中的條目重新分級(jí)(以及過濾)。提示器可被認(rèn)為由兩個(gè)組件組成提示發(fā)生器和提示選擇器。采用導(dǎo)航方針,提示發(fā)生器根據(jù)相關(guān)分級(jí)條目及其性質(zhì)動(dòng)態(tài)構(gòu)造可能的縮減提示的集合。(提示-縮減提示,目的在于豐富關(guān)于所請(qǐng)求的具體產(chǎn)品的信息,以便縮小可能的相關(guān)集。)提示可能是可視或者發(fā)聲的,并且可采取許多形式,通常包括提示澄清數(shù)據(jù)和一系列響應(yīng)選項(xiàng)。
提示澄清數(shù)據(jù)可能是問題(例如“哪個(gè)商標(biāo)?”)或者命令語句(例如“選擇顏色”),或者向用戶表明請(qǐng)求哪種信息的其它任何方法。提示澄清數(shù)據(jù)的參數(shù)和詳細(xì)信息(例如問題的確切措辭)被定義,并存儲(chǔ)在上述導(dǎo)航方針組件中。提示澄清數(shù)據(jù)可用于縮減提示(如上舉例說明的)以及消除多義性提示(例如“您指哪個(gè)意義?”或“選擇適當(dāng)?shù)钠磳懶U?。提示澄清數(shù)據(jù)的使用不是必須的,因?yàn)楫?dāng)響應(yīng)/答案選項(xiàng)是直觀明顯的時(shí),它可被省略。
提示可允許自由文本響應(yīng),但通常提供小的預(yù)定義響應(yīng)選項(xiàng)集合。響應(yīng)選項(xiàng)可表示為-由例如“美國;歐洲;亞洲...”等分類法、例如“顏色紅色;藍(lán)色;...”等屬性值列表、或者諸如“作者;日期;商人...”之類的方面的值的請(qǐng)求等組成的菜單,或者提示可請(qǐng)求成本/價(jià)格范圍等。
-瀏覽圖,例如導(dǎo)航圖、語義網(wǎng)絡(luò)等。
菜單選擇可以可選地采用圖片來說明,特別是采用從與那個(gè)選擇相關(guān)的主(高等級(jí))條目導(dǎo)出的圖片。
在任何給定搜索情況中,提示選擇器可根據(jù)給定的所檢索數(shù)據(jù)集來選擇大量提示。但是,可能不希望或者甚至根本不需要向用戶提供所有提示。實(shí)際上,信息理論方法可由提示選擇器用來估算不同建議提示的實(shí)用性。如上所述,所接收的任何答案都能夠明顯影響結(jié)果集的提示優(yōu)于大部分答案僅排除少數(shù)幾個(gè)條目的提示。這種方法可與可在導(dǎo)航方針中定義的不同提示的成本函數(shù)結(jié)合。
在任何給定搜索情況中,提示生成器的主要任務(wù)是動(dòng)態(tài)選擇最適合提示/和答案選項(xiàng)的列表。提示生成器檢查查詢解釋中是否存在任何多義性。消除多義性提示從解釋器提供的不同解釋中構(gòu)造,以及該過程不必引用相關(guān)集中的具體條目,但算法還考慮這類多義性的解決是否顯著縮減所檢索數(shù)據(jù)條目的相關(guān)集。
作為其動(dòng)作的主要過程,提示生成器考慮哪些縮減提示在搜索會(huì)話的給定狀態(tài)是相關(guān)的。這通過考慮哪些不同的分類維和值由相關(guān)集中的數(shù)據(jù)條目‘保持’以及它們?cè)谙嚓P(guān)集中的頻率分布是什么來實(shí)現(xiàn)。如果實(shí)際上選取了那個(gè)答案,則呈現(xiàn)給用戶的所有答案選項(xiàng)必須具有要呈現(xiàn)的至少一個(gè)適當(dāng)條目。注意,呈現(xiàn)給用戶的每個(gè)提示顯然必須具有問題的至少兩個(gè)可能答案,以便對(duì)搜索過程有任何輔助。回想一下,分類維(例如顏色、價(jià)格)定義提示,以及值或值范圍(例如紅色、藍(lán)色;或者$50-99、$99-200等)定義答案選項(xiàng)。在任何給定搜索情況中,可能的提示只在相關(guān)集中的不同數(shù)據(jù)條目對(duì)于提示的分類維具有至少兩個(gè)不同值時(shí)才有效。因此,例如,如果初始查詢針對(duì)襯衣,以及相關(guān)集中的所有襯衣為相同顏色的,則提示“什么顏色?”顯然不是有效的。應(yīng)當(dāng)強(qiáng)調(diào),任何分類維上的類值可具有復(fù)雜組織(例如分級(jí)結(jié)構(gòu)),導(dǎo)航方針可包括用于縮減提示的具體約束,因而動(dòng)態(tài)計(jì)算相關(guān)縮減提示和答案選項(xiàng)通常是相當(dāng)復(fù)雜的任務(wù)。
在構(gòu)建適合給定搜索情況的提示集之后,集合中的提示經(jīng)過分級(jí),以便向用戶呈現(xiàn)最相關(guān)的提示。提示的數(shù)量可根據(jù)諸如數(shù)據(jù)庫的性質(zhì)和初始查詢的查準(zhǔn)度、用戶界面的策略等環(huán)境來變化。提示的分級(jí)反映對(duì)特定提示的答案可能使相關(guān)集更接近包含用戶正尋求的數(shù)據(jù)條目(例如產(chǎn)品)并且排除了盡可能多的不相關(guān)條目的程度。為此,最好是對(duì)每個(gè)數(shù)據(jù)條目進(jìn)行若干計(jì)算。一種計(jì)算是熵計(jì)算,它計(jì)算在接收到對(duì)這個(gè)提示的響應(yīng)之后標(biāo)識(shí)符合要求的條目所需的附加提示的預(yù)計(jì)數(shù)量。熵計(jì)算最好是提供對(duì)相應(yīng)答案的分級(jí)值。正確的熵評(píng)估將把較高分級(jí)以及較低熵值提供給具有匹配各答案的條目之間較少重疊的提示。另外,其答案覆蓋更多條目的提示最好是還得到較高分級(jí)以及較低熵。應(yīng)用于問題的最終分級(jí)值則通過把熵與問題的重要性值相乘來計(jì)算。
學(xué)習(xí)器如上所述,機(jī)器學(xué)習(xí)技術(shù)可用作增強(qiáng)搜索引擎性能的選項(xiàng)。機(jī)器學(xué)習(xí)可應(yīng)用于若干領(lǐng)域中的一個(gè)或多個(gè),特別是包括以下各項(xiàng)1.通過跟蹤條目的用戶選擇來更新條目流行度,2.具體請(qǐng)求檢索詞樣式或成分與實(shí)際所選的各個(gè)條目之間的相關(guān)統(tǒng)計(jì)的跟蹤,3.屬性之間的相關(guān)統(tǒng)計(jì)的跟蹤,以及4.通過跟蹤最終選擇的各條目的響應(yīng)頻率來改進(jìn)提示選擇。
為了在這類環(huán)境中實(shí)現(xiàn)機(jī)器學(xué)習(xí),其中最好是還收集以下數(shù)據(jù)1.條目流行度各條目被選取的頻度,2.屬性頻率各屬性值出現(xiàn)在請(qǐng)求中或者對(duì)提示的響應(yīng)中的頻度,
3.響應(yīng)性各提示被響應(yīng)的頻度,決不強(qiáng)迫用戶回答每個(gè)問題,4.屬性-條目相關(guān)性對(duì)于各條目,在屬性被請(qǐng)求之后選擇條目的頻度,5.響應(yīng)頻率對(duì)于提示的每個(gè)可能響應(yīng),選擇該響應(yīng)的頻度,6.響應(yīng)分布對(duì)于各條目,在接收給定響應(yīng)之后被選取的頻度7.交叉屬性統(tǒng)計(jì)所選屬性值對(duì)之間的相關(guān)矩陣所收集數(shù)據(jù)用來改進(jìn)解釋器、分級(jí)器以及提示器所用的適合給定數(shù)據(jù)類型的表。解釋器得益于更新的語義信息,例如屬性頻率和交叉屬性統(tǒng)計(jì)。分級(jí)器得益于更新的流行指數(shù)、改進(jìn)的注釋,最好是基于屬性條目相關(guān)性,以及更新的響應(yīng)期望。提示器還得益于后者。
結(jié)論綜上所述,當(dāng)前實(shí)施例的方面包括以下各項(xiàng)1.整體a.通過首先解釋查詢,然后擴(kuò)充查詢以包括相關(guān)檢索詞和條目,執(zhí)行匹配,然后根據(jù)在所說的聚焦循環(huán)中與用戶的對(duì)話壓縮結(jié)果集,優(yōu)選實(shí)施例對(duì)所接收查詢進(jìn)行操作。擴(kuò)充包括同義詞以及分級(jí)和以其它方式相關(guān)的檢索詞的添加。擴(kuò)充基于解釋(查詢分析),它還可包括執(zhí)行查詢的語法處理,以便確定哪些檢索詞是焦點(diǎn)檢索詞(即描述所需對(duì)象)以及哪些條目是描述性或?qū)傩詸z索詞,b.一個(gè)優(yōu)選實(shí)施例在數(shù)據(jù)集已經(jīng)預(yù)先索引之后對(duì)查詢進(jìn)行上述操作,以便組織數(shù)據(jù)集中的條目以及概念標(biāo)記、同義詞、屬性、關(guān)聯(lián)等。
2.前端查詢處理a.優(yōu)選實(shí)施例解釋任何給定查詢,特別是尋找名詞短語,與“關(guān)鍵字”或“全英文”系統(tǒng)、如Ask Jeeves并列的一種方法。
b.解釋最好是包括把查詢剖析為所搜索的名詞或?qū)ο笠约皩傩裕员銕椭阉饕约胺峙錂?quán)重。
3.前端設(shè)施-聚焦循環(huán)。
a.前端可參與和用戶的交互循環(huán),目的在于縮小可能的相關(guān)數(shù)據(jù)條目的數(shù)量。在這種循環(huán)中,系統(tǒng)向用戶呈現(xiàn)最好是動(dòng)態(tài)制訂為帶有用戶可選擇的響應(yīng)選項(xiàng)的問題的提示。提示的選擇包括考慮當(dāng)前‘會(huì)談’、過去全局經(jīng)驗(yàn)以及具體用戶偏好。主要考慮可能的答案如何有效地分割所檢索條目。因此,具有兩個(gè)答案的問題,其中一個(gè)答案排除數(shù)據(jù)集的98%以及另一個(gè)排除數(shù)據(jù)集的另外2%,被看作較低效的問題。也具有兩個(gè)答案的另一個(gè)問題,其中每個(gè)答案排除數(shù)據(jù)集的大約50%但所排除部分重疊,也將被看作較低效的問題。另一方面,具有兩個(gè)答案的一個(gè)問題,其中的每個(gè)排除數(shù)據(jù)集的大約50%而且兩個(gè)答案是相互排他的,會(huì)被看作極有效的問題。
在一個(gè)優(yōu)選實(shí)施例中,如上所述,系統(tǒng)可產(chǎn)生若干提示以及使用效率和其它考慮,以便判定哪些提示應(yīng)當(dāng)呈現(xiàn)給用戶。
還可在聚焦循環(huán)的任何階段形成提示,以便獲取信息,從而解決多義性、拼寫錯(cuò)誤等。
b.前端采用分級(jí)技術(shù),以便對(duì)搜索結(jié)果分級(jí)以及用于選擇提示。在優(yōu)選實(shí)施例中,縮減提示的產(chǎn)生動(dòng)態(tài)基于可用于信息存儲(chǔ)器中的數(shù)據(jù)條目的分類(而不是具有給定主題的預(yù)先編程的固定問題)。
c.動(dòng)態(tài)產(chǎn)生對(duì)于提示的答案/響應(yīng)選項(xiàng)。只在映射到相關(guān)集中的至少一個(gè)當(dāng)前數(shù)據(jù)條目時(shí),才提供可能的答案。最好是還為用戶提供不響應(yīng)任何給定提示的選項(xiàng),在這種情況中,系統(tǒng)可選擇呈現(xiàn)另一個(gè)提示。一次可為用戶呈現(xiàn)若干提示,或者系統(tǒng)可在詢問下一個(gè)之前等待接收這一個(gè)的答案。
d.在聚焦循環(huán)的任何階段,系統(tǒng)允許用戶表明當(dāng)前結(jié)果不符合要求。在一個(gè)實(shí)施例中,可為用戶呈現(xiàn)包含最初檢索的、但在聚焦循環(huán)中被排除的那些內(nèi)容的結(jié)果。
4.后端-數(shù)據(jù)分類和索引a.索引最好是涉及向信息存儲(chǔ)器中的數(shù)據(jù)條目提供分類注釋。
b.為了具體實(shí)施例,某些種類的類可具有特許狀態(tài)。例如,對(duì)于電子商務(wù)目錄,區(qū)分商品類與屬性類之間的差異,后者對(duì)前者具有某種從屬性。
c.自動(dòng)分類最好是采用基于規(guī)則的以及統(tǒng)計(jì)的方法的組合,兩者均使用數(shù)據(jù)條目文本的某種語言分析。如果使用不同的方法,則仲裁可用來選擇最佳結(jié)果。
d.
5.學(xué)習(xí)單元的使用機(jī)器學(xué)習(xí)單元可用于從‘經(jīng)驗(yàn)’收集數(shù)據(jù),以便改進(jìn)搜索過程和/或分類過程。為搜索過程的改進(jìn)而學(xué)習(xí)可涉及在(用戶作為整體或者用戶的任何子集的)搜索會(huì)話期間從與系統(tǒng)的用戶交互中收集數(shù)據(jù)。
6.面向文本的處理。
無論處理查詢還是處理初始數(shù)據(jù)庫或者處理添加到數(shù)據(jù)庫的新條目,當(dāng)前實(shí)施例利用面向文本的方法,包括以下各項(xiàng)語言預(yù)處理-包括分割、標(biāo)記化以及剖析,-處理同義關(guān)系和意義標(biāo)識(shí),處理變形形態(tài)、統(tǒng)計(jì)分類,推導(dǎo)利用基于規(guī)則的分類的語義信息,基于語言規(guī)則的分類以及統(tǒng)計(jì)分類的概率置信度分級(jí),結(jié)合多個(gè)分類算法,結(jié)合對(duì)不同方面或條目的分類,等等。處理多義性包括處理拼寫錯(cuò)誤、詞匯/語義多義性和語法多義性。一般來說,多義性經(jīng)由稱作‘解釋版本轉(zhuǎn)換’的方法來處理。在解釋版本轉(zhuǎn)換中,在不同解釋可用的任何情況下,創(chuàng)建多個(gè)解釋版本。各版本則提交給解釋/分類過程的所有其它階段,其中,某些階段涉及隱含或明確消除多義性。不斷地計(jì)算置信度和/或似然性等級(jí),以便在過程中監(jiān)測(cè)不同解釋版本的似真性狀態(tài)。
拼寫校正以上下文敏感方式對(duì)于查詢以及對(duì)于數(shù)據(jù)條目本身來處理。具體來說,拼寫校正建議作為多義性采用其解決方案的上下文信息來處理。
整體結(jié)論大家知道,為了清楚起見,本發(fā)明的某些特征是在分開的實(shí)施例的上下文中描述的,但它們也可結(jié)合在單個(gè)實(shí)施例中提供。相反,為了簡(jiǎn)潔起見,本發(fā)明的許多特征是在單個(gè)實(shí)施例的上下文中描述的,但它們也可分開或者在任何適當(dāng)?shù)脑俳M合中提供。
雖然結(jié)合若干具體實(shí)施例描述了本發(fā)明,但是顯然本領(lǐng)域的技術(shù)人員會(huì)非常清楚許多備選方案、修改及變更。因此,意在包含屬于所附權(quán)利要求的精神及廣義范圍之內(nèi)的所有這類備選方案、修改及變更。本說明中提到的所有發(fā)行物、專利和專利申請(qǐng)通過引用完整地結(jié)合于本文中,好像各個(gè)發(fā)行物、專利或?qū)@暾?qǐng)被明確及單獨(dú)表示通過引用結(jié)合于此一樣。另外,本申請(qǐng)中的任何引用的引述或標(biāo)識(shí)不應(yīng)當(dāng)視為這種引用可作為先有技術(shù)用于本發(fā)明的許可。
權(quán)利要求
1.一種用于搜索數(shù)據(jù)庫以產(chǎn)生提煉結(jié)果空間的交互方法,所述方法包括為搜索標(biāo)準(zhǔn)進(jìn)行分析,使用所述搜索標(biāo)準(zhǔn)來搜索所述數(shù)據(jù)庫,從而得到初始結(jié)果空間,以及獲取用戶輸入以限定所述初始結(jié)果空間,從而得到所述提煉結(jié)果空間。
2.如權(quán)利要求1所述的方法,其特征在于,所述搜索包括瀏覽。
3.如權(quán)利要求1所述的方法,其特征在于,在搜索之前對(duì)所述數(shù)據(jù)庫執(zhí)行所述分析,從而為所述搜索優(yōu)化所述數(shù)據(jù)庫。
4.如權(quán)利要求1所述的方法,其特征在于,所述分析對(duì)用戶輸入的搜索標(biāo)準(zhǔn)來執(zhí)行。
5.如權(quán)利要求1所述的方法,其特征在于,所述分析包括采用語言分析。
6.如權(quán)利要求4所述的方法,其特征在于,包括對(duì)初始搜索標(biāo)準(zhǔn)執(zhí)行所述分析,以便得到附加搜索標(biāo)準(zhǔn)。
7.如權(quán)利要求6所述的方法,其特征在于,所述搜索標(biāo)準(zhǔn)是無效標(biāo)準(zhǔn)。
8.如權(quán)利要求6所述的方法,其特征在于,為附加搜索標(biāo)準(zhǔn)進(jìn)行的所述分析采用所述初始搜索標(biāo)準(zhǔn)的語言分析來執(zhí)行。
9.如權(quán)利要求1所述的方法,其特征在于,所述分析通過選擇相關(guān)概念來執(zhí)行。
10.如權(quán)利要求1所述的方法,其特征在于,所述分析采用從所述方法的過去操作得到的數(shù)據(jù)來執(zhí)行。
11.如權(quán)利要求1所述的方法,其特征在于,包括通過產(chǎn)生具有至少兩個(gè)答案的至少一個(gè)提示,來產(chǎn)生用于所述獲取用戶輸入的提示,所述答案被選取以劃分所述初始結(jié)果空間。
12.如權(quán)利要求11所述的方法,其特征在于,所述產(chǎn)生提示包括產(chǎn)生具有多個(gè)可能答案的至少一個(gè)分段提示,每個(gè)答案對(duì)應(yīng)于所述結(jié)果空間的一部分。
13.如權(quán)利要求12所述的方法,其特征在于,所述結(jié)果空間的各部分包括所述結(jié)果空間的實(shí)質(zhì)上成比例的份額。
14.如權(quán)利要求12所述的方法,其特征在于,包括產(chǎn)生多個(gè)分段提示,以及從其中選擇其答案最均勻地劃分所述結(jié)果空間的提示。
15.如權(quán)利要求11所述的方法,其特征在于,所述限定所述結(jié)果空間包括從所述結(jié)果空間中排除不對(duì)應(yīng)于所述用戶輸入中給出的答案的任何結(jié)果。
16.如權(quán)利要求15所述的方法,其特征在于,還包括允許用戶插入附加文本,所述文本可用作所述限定中所述用戶輸入的一部分。
17.如權(quán)利要求11所述的方法,其特征在于,還包括通過產(chǎn)生具有至少兩個(gè)答案的至少一個(gè)進(jìn)一步提示,重復(fù)所述獲取用戶輸入,所述答案被選取以劃分所述提煉結(jié)果空間。
18.如權(quán)利要求17所述的方法,其特征在于,包括繼續(xù)所述限定,直至所述提煉結(jié)果空間收縮到預(yù)定大小。
19.如權(quán)利要求17所述的方法,其特征在于,包括繼續(xù)所述限定,直至沒有發(fā)現(xiàn)進(jìn)一步提示。
20.如權(quán)利要求17所述的方法,其特征在于,包括繼續(xù)所述限定,直至接收到用戶輸入,從而停止進(jìn)一步限定并提交現(xiàn)有結(jié)果空間。
21.如權(quán)利要求17所述的方法,其特征在于,還包括確定所提交結(jié)果空間不包括預(yù)期條目,以及在所述確定之后,向所述用戶提交已經(jīng)通過所述限定排除的初始檢索條目。
22.如權(quán)利要求20所述的方法,其特征在于,還包括從用戶獲取所提交結(jié)果空間不包括預(yù)期條目的確定,以及向所述用戶提交通過所述限定排除的初始檢索條目。
23.如權(quán)利要求1所述的方法,其特征在于,包括作為用戶輸入接收所述初始搜索標(biāo)準(zhǔn)。
24.如權(quán)利要求11所述的方法,其特征在于,所述獲取所述用戶輸入包括為用戶提供對(duì)所述提示不選擇答案的可能性。
25.如權(quán)利要求24所述的方法,其特征在于,還包括在所述用戶不選擇答案之后詢問附加提示。
26.如權(quán)利要求1所述的方法,其特征在于,還包括根據(jù)用戶在查詢之后對(duì)條目的最終選擇來更新系統(tǒng)內(nèi)部搜索支持信息。
27.如權(quán)利要求26所述的方法,其特征在于,所述更新包括修改所述選擇的條目與所述獲取的用戶輸入之間的相關(guān)性。
28.用于交互地搜索數(shù)據(jù)庫以產(chǎn)生提煉結(jié)果空間的裝置,包括搜索標(biāo)準(zhǔn)分析器,用于分析以獲得搜索標(biāo)準(zhǔn),數(shù)據(jù)庫搜索器,與所述搜索標(biāo)準(zhǔn)分析器關(guān)聯(lián),用于利用所述搜索標(biāo)準(zhǔn)來搜索所述數(shù)據(jù)庫,從而得到初始結(jié)果空間,以及限定器,用于獲取用戶輸入以限定所述結(jié)果空間,并利用所述用戶輸入來限定所述結(jié)果空間,從而制訂提煉結(jié)果空間。
29.如權(quán)利要求28所述的裝置,其特征在于,所述搜索標(biāo)準(zhǔn)分析器包括數(shù)據(jù)庫數(shù)據(jù)條目分析器,它能夠產(chǎn)生數(shù)據(jù)條目的分類,以便與所分析的搜索標(biāo)準(zhǔn)對(duì)應(yīng)。
30.如權(quán)利要求28所述的裝置,其特征在于,所述搜索標(biāo)準(zhǔn)分析器包括數(shù)據(jù)庫數(shù)據(jù)條目分析器,它能夠利用數(shù)據(jù)條目的分類,以便與所分析的搜索標(biāo)準(zhǔn)對(duì)應(yīng)。
31.如權(quán)利要求29所述的裝置,其特征在于,所述搜索標(biāo)準(zhǔn)分析器還能夠利用數(shù)據(jù)條目的分類,以便與所分析的搜索標(biāo)準(zhǔn)對(duì)應(yīng)。
32.如權(quán)利要求29所述的裝置,其特征在于,所述數(shù)據(jù)庫數(shù)據(jù)條目分析器可用于在所述搜索之前分析所述數(shù)據(jù)庫的至少一部分。
33.如權(quán)利要求29所述的裝置,其特征在于,所述數(shù)據(jù)庫數(shù)據(jù)條目分析器可用于在所述搜索期間分析所述數(shù)據(jù)庫的至少一部分。
34.如權(quán)利要求28所述的裝置,其特征在于,所述分析包括語言分析。
35.如權(quán)利要求28所述的裝置,其特征在于,所述分析包括統(tǒng)計(jì)分析。
36.如權(quán)利要求34所述的裝置,其特征在于,所述分析包括統(tǒng)計(jì)語言分析。
37.如權(quán)利要求28所述的裝置,其特征在于,所述搜索標(biāo)準(zhǔn)分析器配置成接收來自用戶的初始搜索標(biāo)準(zhǔn)用于所述分析。
38.如權(quán)利要求37所述的裝置,其特征在于,所述初始搜索標(biāo)準(zhǔn)是無效標(biāo)準(zhǔn)。
39.如權(quán)利要求37所述的裝置,其特征在于,所述分析器配置成執(zhí)行所述初始搜索標(biāo)準(zhǔn)的語言分析。
40.如權(quán)利要求28所述的裝置,其特征在于,所述分析器配置成根據(jù)相關(guān)概念的選擇來執(zhí)行分析。
41.如權(quán)利要求28所述的裝置,其特征在于,所述分析器配置成根據(jù)先前搜索中得到的歷史知識(shí)來執(zhí)行分析。
42.如權(quán)利要求28所述的裝置,其特征在于,所述限定器可用于產(chǎn)生用于所述獲取用戶輸入的提示,所述提示包括至少兩個(gè)可選響應(yīng),所述響應(yīng)可用于劃分所述初始結(jié)果空間。
43.如權(quán)利要求42所述的裝置,其特征在于,所述提示包括具有多個(gè)可能答案的分段提示,每個(gè)答案對(duì)應(yīng)于所述結(jié)果空間的一部分,以及每個(gè)部分包含所述結(jié)果空間的實(shí)質(zhì)上成比例的份額。
44.如權(quán)利要求42所述的裝置,其特征在于,產(chǎn)生所述提示包括產(chǎn)生各具有多個(gè)可能答案的多個(gè)分段提示,每個(gè)答案對(duì)應(yīng)于所述結(jié)果空間的一部分,以及每個(gè)部分包含所述結(jié)果空間的實(shí)質(zhì)上成比例的份額,以及選擇其答案最均勻地劃分所述結(jié)果空間的所述提示之一。
45.如權(quán)利要求42所述的裝置,其特征在于,還包括允許用戶插入附加文本,所述文本可由所述限定器用作所述用戶輸入的一部分。
46.如權(quán)利要求42所述的裝置,其特征在于,所述限定所述結(jié)果空間包括從其中排除不對(duì)應(yīng)于所述用戶輸入中給出的答案的任何結(jié)果,從而產(chǎn)生修訂結(jié)果空間。
47.如權(quán)利要求46所述的裝置,其特征在于,所述限定器可用于產(chǎn)生具有至少兩個(gè)答案的至少一個(gè)進(jìn)一步提示,所述答案被選取以劃分所述修訂結(jié)果空間。
48.如權(quán)利要求47所述的裝置,其特征在于,所述限定器配置成繼續(xù)所述限定,直至所述提煉結(jié)果空間收縮到預(yù)定大小。
49.如權(quán)利要求47所述的裝置,其特征在于,所述限定器配置成繼續(xù)所述限定,直至沒有發(fā)現(xiàn)進(jìn)一步提示。
50.如權(quán)利要求47所述的裝置,其特征在于,所述限定器配置成繼續(xù)所述限定,直至接收到用戶輸入,從而停止進(jìn)一步限定并提交現(xiàn)有結(jié)果空間。
51.如權(quán)利要求50所述的裝置,其特征在于,使用戶能夠響應(yīng)所提交結(jié)果空間不包括預(yù)期條目,所述裝置配置成在接收到這種響應(yīng)時(shí)向所述用戶提交已經(jīng)通過所述限定排除的初始檢索條目。
52.如權(quán)利要求47所述的裝置,其特征在于,包括確定所提交結(jié)果空間不包括預(yù)期條目的可操作性,所述裝置在這種確定之后配置成在接收到這種響應(yīng)時(shí)向所述用戶提交已經(jīng)通過所述限定排除的初始檢索條目。
53.如權(quán)利要求28所述的裝置,其特征在于,所述分析器配置成作為用戶輸入接收所述初始搜索標(biāo)準(zhǔn)。
54.如權(quán)利要求42所述的裝置,其特征在于,所述限定器配置成通過所述提示為用戶提供對(duì)所述提示不選擇答案的可能性。
55.如權(quán)利要求54所述的裝置,其特征在于,所述限定器可用于在所述用戶不選擇答案之后提供進(jìn)一步提示。
56.如權(quán)利要求28所述的裝置,其特征在于,還包括更新單元,用于根據(jù)用戶在查詢之后對(duì)條目的最終選擇來更新系統(tǒng)內(nèi)部搜索支持信息。
57.如權(quán)利要求56所述的裝置,其特征在于,所述更新包括修改所述選擇的條目與所述獲取的用戶輸入之間的相關(guān)性。
58.如權(quán)利要求56所述的裝置,其特征在于,所述更新包括修改所述選擇的條目的分類與所述獲取的用戶輸入之間的相關(guān)性。
59.一種數(shù)據(jù)庫,具有用于交互式搜索數(shù)據(jù)庫以產(chǎn)生提煉結(jié)果空間的裝置,所述裝置包括搜索標(biāo)準(zhǔn)分析器,用于為搜索標(biāo)準(zhǔn)而分析,數(shù)據(jù)庫搜索器,與所述搜索標(biāo)準(zhǔn)分析器關(guān)聯(lián),用于利用搜索標(biāo)準(zhǔn)來搜索所述數(shù)據(jù)庫,從而得到初始結(jié)果空間,以及限定器,用于獲取用戶輸入以限定所述結(jié)果空間,并利用所述用戶輸入來限定所述結(jié)果空間,從而提供所述提煉結(jié)果空間。
60.如權(quán)利要求59所述的裝置,其特征在于,所述搜索標(biāo)準(zhǔn)分析器包括數(shù)據(jù)庫數(shù)據(jù)條目分析器,它能夠產(chǎn)生數(shù)據(jù)條目的分類,以便與所分析的搜索標(biāo)準(zhǔn)對(duì)應(yīng)。
61.如權(quán)利要求59所述的數(shù)據(jù)庫,其特征在于,所述搜索標(biāo)準(zhǔn)分析器包括數(shù)據(jù)庫數(shù)據(jù)條目分析器,它能夠利用數(shù)據(jù)條目的分類,以便與所分析的搜索標(biāo)準(zhǔn)對(duì)應(yīng)。
62.如權(quán)利要求60所述的數(shù)據(jù)庫,其特征在于,所述數(shù)據(jù)庫數(shù)據(jù)條目分析器還能夠利用數(shù)據(jù)條目的分類,以便與所分析的搜索標(biāo)準(zhǔn)對(duì)應(yīng)。
63.如權(quán)利要求59所述的數(shù)據(jù)庫,其特征在于,所述搜索標(biāo)準(zhǔn)分析器包括能夠按照所述數(shù)據(jù)庫中條目的分類結(jié)構(gòu)來分析用戶提供的搜索標(biāo)準(zhǔn)的搜索標(biāo)準(zhǔn)分析器。
64.如權(quán)利要求59所述的數(shù)據(jù)庫,其特征在于,包括數(shù)據(jù)條目,以及其中各數(shù)據(jù)條目被分析為可能的搜索標(biāo)準(zhǔn),從而優(yōu)化與用戶輸入搜索標(biāo)準(zhǔn)的匹配。
65.如權(quán)利要求60所述的數(shù)據(jù)庫,其特征在于,所述數(shù)據(jù)庫數(shù)據(jù)條目分析器可用于執(zhí)行語言分析。
66.如權(quán)利要求60所述的數(shù)據(jù)庫,其特征在于,所述數(shù)據(jù)庫數(shù)據(jù)條目分析器可用于執(zhí)行統(tǒng)計(jì)分析。
67.如權(quán)利要求65所述的數(shù)據(jù)庫,其特征在于,所述數(shù)據(jù)庫數(shù)據(jù)條目分析器可用于執(zhí)行統(tǒng)計(jì)分析。
68.如權(quán)利要求59所述的數(shù)據(jù)庫,其特征在于,所述搜索標(biāo)準(zhǔn)分析器配置成接收來自用戶的初始搜索標(biāo)準(zhǔn)用于所述分析。
69.如權(quán)利要求68所述的數(shù)據(jù)庫,其特征在于,所述初始搜索標(biāo)準(zhǔn)是無效標(biāo)準(zhǔn)。
70.如權(quán)利要求68所述的數(shù)據(jù)庫,其特征在于,所述分析器配置成執(zhí)行所述初始搜索標(biāo)準(zhǔn)的語言分析。
71.如權(quán)利要求59所述的數(shù)據(jù)庫,其特征在于,所述分析器配置成根據(jù)相關(guān)概念的選擇來執(zhí)行分析。
72.如權(quán)利要求59所述的數(shù)據(jù)庫,其特征在于,所述分析器配置成根據(jù)先前搜索中得到的歷史知識(shí)來執(zhí)行分析。
73.如權(quán)利要求59所述的數(shù)據(jù)庫,其特征在于,所述限定器可用于產(chǎn)生用于所述獲取用戶輸入的提示,所述提示包括具有至少兩個(gè)答案的提示,所述答案被選取以劃分所述初始結(jié)果空間。
74.如權(quán)利要求73所述的數(shù)據(jù)庫,其特征在于,所述提示是具有多個(gè)可能答案的分段提示,每個(gè)答案對(duì)應(yīng)于所述結(jié)果空間的一部分,以及每個(gè)部分包含所述結(jié)果空間的實(shí)質(zhì)上成比例的份額。
75.如權(quán)利要求59所述的數(shù)據(jù)庫,其特征在于,還包括允許用戶插入附加文本,所述文本可由所述限定器用作所述用戶輸入的一部分。
76.如權(quán)利要求73所述的數(shù)據(jù)庫,其特征在于,所述限定所述結(jié)果空間包括從其中排除不對(duì)應(yīng)于所述用戶輸入的所述答案之一的任何結(jié)果,從而產(chǎn)生修訂結(jié)果空間。
77.如權(quán)利要求76所述的數(shù)據(jù)庫,其特征在于,所述限定器可用于產(chǎn)生具有至少兩個(gè)答案的至少一個(gè)進(jìn)一步提示,所述答案被選取以劃分所述修訂結(jié)果空間。
78.如權(quán)利要求77所述的數(shù)據(jù)庫,其特征在于,所述限定器配置成繼續(xù)所述限定,直至所述提煉結(jié)果空間收縮到預(yù)定大小。
79.如權(quán)利要求77所述的數(shù)據(jù)庫,其特征在于,所述限定器配置成繼續(xù)所述限定,直至沒有發(fā)現(xiàn)進(jìn)一步提示。
80.如權(quán)利要求77所述的數(shù)據(jù)庫,其特征在于,所述限定器配置成繼續(xù)所述限定,直至接收到用戶輸入,從而停止進(jìn)一步限定并提交現(xiàn)有結(jié)果空間。
81.如權(quán)利要求80所述的數(shù)據(jù)庫,其特征在于,使所述用戶能夠響應(yīng)所提交結(jié)果空間不包括預(yù)期條目,所述數(shù)據(jù)庫可用于在接收到這種響應(yīng)時(shí)向所述用戶提交已經(jīng)通過所述限定排除的初始檢索條目。
82.如權(quán)利要求77所述的數(shù)據(jù)庫,其特征在于,還可用于確定所提交結(jié)果空間不包括預(yù)期條目,所述數(shù)據(jù)庫可用于在這種確定之后向所述用戶提交已經(jīng)通過所述限定排除的初始檢索條目。
83.如權(quán)利要求59所述的數(shù)據(jù)庫,其特征在于,所述分析器配置成作為用戶輸入接收所述初始搜索標(biāo)準(zhǔn)。
84.如權(quán)利要求73所述的數(shù)據(jù)庫,其特征在于,所述限定器配置成通過所述提示為用戶提供對(duì)所述提示不選擇答案的可能性。
85.如權(quán)利要求84所述的數(shù)據(jù)庫,其特征在于,所述限定器還配置成在所述用戶不選擇答案之后提供附加提示。
86.如權(quán)利要求59所述的數(shù)據(jù)庫,其特征在于,還包括更新單元,用于根據(jù)用戶在查詢之后對(duì)條目的最終選擇來更新系統(tǒng)內(nèi)部搜索支持信息。
87.如權(quán)利要求86所述的數(shù)據(jù)庫,其特征在于,所述更新包括修改所述選擇的條目與所述獲取的用戶輸入之間的相關(guān)性。
88.如權(quán)利要求86所述的數(shù)據(jù)庫,其特征在于,所述更新包括修改所述選擇的條目的分類與所述獲取的用戶輸入之間的相關(guān)性。
89.一種用于搜索所存儲(chǔ)數(shù)據(jù)條目的查詢方法,所述方法包括i)接收包含至少第一搜索檢索詞的查詢,ii)通過向所述查詢添加與所述至少第一搜索檢索詞相關(guān)的檢索詞來擴(kuò)充所述查詢,iii)檢索與所述檢索詞中的至少一個(gè)對(duì)應(yīng)的數(shù)據(jù)條目,iv)使用應(yīng)用于所述所檢索數(shù)據(jù)條目的屬性值來制訂對(duì)所述用戶的提示,v)向所述用戶詢問所述制訂的提示中的至少一個(gè),作為用于聚焦所述查詢的提示,vi)接收對(duì)其的響應(yīng),以及vii)使用所述接收的響應(yīng)與所述屬性的值進(jìn)行比較,以便排除所述所檢索條目中的一些,從而提供所述所檢索數(shù)據(jù)條目的子集作為查詢結(jié)果。
90.如權(quán)利要求89所述的方法,其特征在于,所述查詢包括多個(gè)檢索詞,以及所述擴(kuò)充所述查詢還包括分析所述檢索詞以便確定所述檢索詞中的一些之間的語法上的相互關(guān)系。
91.如權(quán)利要求90所述的方法,其特征在于,還包括使用所述語法上的相互關(guān)系來標(biāo)識(shí)所述搜索查詢的主檢索詞和輔助檢索詞。
92.如權(quán)利要求89所述的方法,其特征在于,所述擴(kuò)充包括分別向所述查詢添加下列各項(xiàng)的三階段過程a)與所述搜索檢索詞密切相關(guān)的條目,b)在較小程度上與所述搜索檢索詞相關(guān)的條目,以及c)因所述搜索檢索詞中固有的任何多義性而得到的備選解釋。
93.如權(quán)利要求92所述的方法,其特征在于,所述條目是包括詞匯術(shù)語和概念表示的組中的一個(gè)。
94.如權(quán)利要求89所述的方法,其特征在于,還包括重復(fù)階段iii)至vi)的至少一個(gè)附加聚焦過程,從而提供所述所檢索數(shù)據(jù)條目的提煉子集作為所述查詢結(jié)果。
95.如權(quán)利要求89所述的方法,其特征在于,還包括按照基于概率值的熵權(quán)重對(duì)所述制訂的提示排序,并詢問具有更極端的熵權(quán)重的所述提示中的一些。
96.如權(quán)利要求95所述的方法,其特征在于,還包括在接收到對(duì)于先前提示的響應(yīng)之后重新計(jì)算所述概率值,從而重新計(jì)算所述熵權(quán)重。
97.如權(quán)利要求95所述的方法,其特征在于,還包括采用各提示的動(dòng)態(tài)答案集,所述動(dòng)態(tài)答案集包含與分類值關(guān)聯(lián)的答案,所述分類值對(duì)于一些所接收條目為真,對(duì)于另一些所接收條目為假,從而區(qū)別所述所檢索條目。
98.如權(quán)利要求97所述的方法,其特征在于,還包括根據(jù)區(qū)別所述所檢索條目的相應(yīng)能力對(duì)所述動(dòng)態(tài)答案集內(nèi)的各個(gè)答案分級(jí)。
99.如權(quán)利要求95所述的方法,其特征在于,還包括根據(jù)用戶搜索行為來修改所述概率值。
100.如權(quán)利要求99所述的方法,其特征在于,所述用戶搜索行為包括當(dāng)前用戶的過去行為。
101.如權(quán)利要求99所述的方法,其特征在于,所述用戶搜索行為包括在一組用戶上聚集的過去行為。
102.如權(quán)利要求99所述的方法,其特征在于,所述修改包括采用所述用戶搜索行為來獲得各個(gè)數(shù)據(jù)條目的先驗(yàn)選擇概率,以及修改所述權(quán)重以反映所述概率。
103.如權(quán)利要求95所述的方法,其特征在于,所述熵權(quán)重與包括所述條目的所述條目分類和相應(yīng)分類值的組中的至少一個(gè)關(guān)聯(lián)。
104.如權(quán)利要求89所述的方法,其特征在于,包括在所述接收查詢之前對(duì)所述所存儲(chǔ)數(shù)據(jù)條目進(jìn)行語義分析。
105.如權(quán)利要求89所述的方法,其特征在于,包括在搜索會(huì)話期間對(duì)所述所存儲(chǔ)數(shù)據(jù)條目進(jìn)行語義分析。
106.如權(quán)利要求104所述的方法,其特征在于,所述語義分析包括把所述數(shù)據(jù)條目分為若干類。
107.如權(quán)利要求106所述的方法,其特征在于,還包括把屬性分為屬性類。
108.如權(quán)利要求106所述的方法,其特征在于,所述分類包括在對(duì)象類或主類之中以及在屬性類之中都進(jìn)行區(qū)分。
109.如權(quán)利要求108所述的方法,其特征在于,所述分類包括提供對(duì)單個(gè)數(shù)據(jù)條目的多個(gè)分類。
110.如權(quán)利要求106所述的方法,其特征在于,對(duì)于相應(yīng)數(shù)據(jù)庫的主題的內(nèi)在意義預(yù)先選擇各個(gè)類的分類排列。
111.如權(quán)利要求110所述的方法,其特征在于,包括分級(jí)排列所述類中的主類。
112.如權(quán)利要求107所述的方法,其特征在于,包括分級(jí)排列屬性類。
113.如權(quán)利要求112所述的方法,其特征在于,還包括從所述檢索詞的分級(jí)排列確定所述數(shù)據(jù)條目中的檢索詞的語義意義。
114.如權(quán)利要求111所述的方法,其特征在于,所述類還用于分析所述查詢。
115.如權(quán)利要求110所述的方法,其特征在于,根據(jù)相應(yīng)數(shù)據(jù)庫的主題對(duì)屬性值分配權(quán)重。
116.如權(quán)利要求110所述的方法,其特征在于,根據(jù)相應(yīng)數(shù)據(jù)庫的主題對(duì)所述屬性值和所述類中的至少一個(gè)分配角色。
117.如權(quán)利要求116所述的方法,其特征在于,所述角色還用于剖析所述查詢。
118.如權(quán)利要求117所述的方法,其特征在于,還包括按照所述根據(jù)所述數(shù)據(jù)庫的所述主題所分配的角色來分配重要性權(quán)重。
119.如權(quán)利要求118所述的方法,其特征在于,包括采用所述重要性權(quán)重來區(qū)別部分滿足的查詢。
120.如權(quán)利要求106所述的方法,其特征在于,所述分析包括名詞短語類型剖析。
121.如權(quán)利要求106所述的方法,其特征在于,所述分析包括采用與所述所存儲(chǔ)數(shù)據(jù)條目的主題相關(guān)的知識(shí)庫所支持的語言技術(shù)。
122.如權(quán)利要求106所述的方法,其特征在于,所述分析包括采用統(tǒng)計(jì)分類技術(shù)。
123.如權(quán)利要求106所述的方法,其特征在于,所述分析包括采用以下各項(xiàng)的組合i)與所述所存儲(chǔ)數(shù)據(jù)條目的主題相關(guān)的知識(shí)庫所支持的語言技術(shù),以及ii)統(tǒng)計(jì)技術(shù)。
124.如權(quán)利要求123所述的方法,其特征在于,所述統(tǒng)計(jì)技術(shù)在所述語言技術(shù)之后對(duì)數(shù)據(jù)條目執(zhí)行。
125.如權(quán)利要求123所述的方法,其特征在于,所述語言技術(shù)包括以下各項(xiàng)中的至少一個(gè)分割,標(biāo)記化,詞形歸類,標(biāo)記,詞性標(biāo)記,以及所述數(shù)據(jù)條目的至少部分命名實(shí)體識(shí)別。
126.如權(quán)利要求123所述的方法,其特征在于,還包括采用概率以及排列為權(quán)重的概率中的至少一個(gè)來區(qū)別來自所述各個(gè)技術(shù)的不同結(jié)果。
127.如權(quán)利要求126所述的方法,其特征在于,還包括根據(jù)用戶搜索行為來修改所述權(quán)重。
128.如權(quán)利要求127所述的方法,其特征在于,所述用戶搜索行為包括當(dāng)前用戶的過去行為。
129.如權(quán)利要求127所述的方法,其特征在于,所述用戶搜索行為包括在一組用戶上聚集的過去行為。
130.如權(quán)利要求123所述的方法,其特征在于,所述語言技術(shù)的輸出用作所述至少一種統(tǒng)計(jì)技術(shù)的輸入。
131.如權(quán)利要求123所述的方法,其特征在于,所述至少一種統(tǒng)計(jì)技術(shù)用于所述語言技術(shù)中。
132.如權(quán)利要求123所述的方法,其特征在于,包括采用兩種統(tǒng)計(jì)技術(shù)。
133.如權(quán)利要求89所述的方法,其特征在于,還包括分配表明與所述所存儲(chǔ)數(shù)據(jù)條目中的至少一個(gè)關(guān)聯(lián)的意義的至少一個(gè)代碼,所述分配是對(duì)很可能見于針對(duì)所述至少一個(gè)所存儲(chǔ)數(shù)據(jù)條目的查詢中的檢索詞。
134.如權(quán)利要求133所述的方法,其特征在于,與所述所存儲(chǔ)數(shù)據(jù)條目中的至少一個(gè)關(guān)聯(lián)的所述意義是所述條目、所述條目的屬性類以及所述條目的屬性值中的至少一個(gè)。
135.如權(quán)利要求133所述的方法,其特征在于,還包括通過把新檢索詞分配給所述至少一個(gè)代碼,來擴(kuò)充很可能見于查詢中的所述檢索詞的范圍。
136.如權(quán)利要求133所述的方法,其特征在于,包括提供類檢索詞的分組以及屬性值檢索詞的分組。
137.如權(quán)利要求106所述的方法,其特征在于,如果所述分析標(biāo)識(shí)多義性,則對(duì)于所述多義性中的各意義的語義有效性執(zhí)行測(cè)試所述查詢的階段,以及對(duì)于被認(rèn)為在語義上有效的各意義,向所述用戶提供解決所述有效性的提示。
138.如權(quán)利要求106所述的方法,其特征在于,如果所述分析標(biāo)識(shí)多義性,則對(duì)于所述多義性中的各意義的語義有效性執(zhí)行測(cè)試所述查詢的階段,以及對(duì)于被認(rèn)為在語義上有效的各意義,則根據(jù)它來檢索數(shù)據(jù)條目并根據(jù)相應(yīng)數(shù)據(jù)條目檢索來區(qū)別所述意義。
139.如權(quán)利要求106所述的方法,其特征在于,如果所述分析標(biāo)識(shí)多義性,則對(duì)于所述多義性中的各意義的語義有效性執(zhí)行測(cè)試所述查詢的階段,以及對(duì)于被認(rèn)為在語義上有效的各意義,采用與所述所存儲(chǔ)數(shù)據(jù)條目的主題關(guān)聯(lián)的知識(shí)庫來區(qū)別所述在語義上有效的意義。
140.如權(quán)利要求89所述的方法,其特征在于,還包括對(duì)各數(shù)據(jù)條目預(yù)先定義概率矩陣,把所述數(shù)據(jù)條目與屬性值集合關(guān)聯(lián)。
141.如權(quán)利要求140所述的方法,其特征在于,還包括采用所述概率來解決所述查詢中的多義性。
142.如權(quán)利要求89所述的方法,其特征在于,還包括處理包含與預(yù)定概念集相關(guān)的多個(gè)檢索詞的輸入文本的階段,以便就所述概念而論對(duì)所述檢索詞分類,所述階段包括把所述預(yù)定概念集排列為概念分級(jí)結(jié)構(gòu),把所述檢索詞與相應(yīng)概念匹配,以及把與所述匹配概念分級(jí)相關(guān)的其它概念應(yīng)用于所述相應(yīng)檢索詞。
143.如權(quán)利要求142所述的方法,其特征在于,所述概念分級(jí)結(jié)構(gòu)包括以下關(guān)系中的至少一個(gè)(a)上位詞-下位詞關(guān)系,(b)部分-整體關(guān)系,(c)屬性值維-屬性值關(guān)系,(d)相鄰概念子層次之間的相互關(guān)系。
144.如權(quán)利要求142所述的方法,其特征在于,所述對(duì)所述檢索詞分類還包括應(yīng)用置信度,以便根據(jù)為匹配各個(gè)概念進(jìn)行的判定的類型對(duì)所述匹配概念分級(jí)。
145.如權(quán)利要求142所述的方法,其特征在于,還包括標(biāo)識(shí)所述文本中的介詞,利用所述介詞與所述檢索詞的關(guān)系把檢索詞標(biāo)識(shí)為焦點(diǎn)檢索詞,以及把與所述焦點(diǎn)檢索詞匹配的概念設(shè)置為焦點(diǎn)概念。
146.如權(quán)利要求142所述的方法,其特征在于,所述排列所述概念包括把同義概念分組在一起。
147.如權(quán)利要求146所述的方法,其特征在于,所述同義概念的分組包括作為相互形態(tài)變異的概念檢索詞的分組。
148.如權(quán)利要求142所述的方法,其特征在于,所述檢索詞中的至少一個(gè)具有多個(gè)意義,所述方法包括區(qū)別所述多個(gè)意義以選擇最可能意義的消除多義性階段。
149.如權(quán)利要求148所述的方法,其特征在于,所述消除多義性階段包括比較屬性值、屬性維、所述輸入文本與所述多個(gè)意義的相應(yīng)概念之間的商標(biāo)關(guān)聯(lián)和型號(hào)關(guān)聯(lián)中的至少一個(gè)。
150.如權(quán)利要求149所述的方法,其特征在于,所述比較包括確定統(tǒng)計(jì)概率。
151.如權(quán)利要求148所述的方法,其特征在于,所述消除多義性階段包括把所述多個(gè)意義中的第一意義標(biāo)識(shí)為與所述文本中的所述檢索詞中的另一個(gè)分級(jí)相關(guān),以及選擇所述第一意義作為所述最可能意義。
152.如權(quán)利要求148所述的方法,其特征在于,包括保留所述多個(gè)意義中的至少兩個(gè)。
153.如權(quán)利要求152所述的方法,其特征在于,還包括把概率等級(jí)應(yīng)用于所述保留意義中的每個(gè),從而確定最可能的意義。
154.如權(quán)利要求148所述的方法,其特征在于,還包括查找所述檢索詞中至少一個(gè)的備選拼寫,并把各備選拼寫作為備選意義來應(yīng)用。
155.如權(quán)利要求154所述的方法,其特征在于,還包括采用相應(yīng)概念關(guān)系來確定所述備選拼寫中最可能的一個(gè)。
156.如權(quán)利要求142所述的方法,其特征在于,所述輸入文本是要添加到數(shù)據(jù)庫中的條目。
157.如權(quán)利要求142所述的方法,其特征在于,所述輸入文本是用于搜索數(shù)據(jù)庫的查詢。
158.一種用于搜索所存儲(chǔ)數(shù)據(jù)條目的查詢方法,所述方法包括從用戶接收包含至少第一搜索檢索詞的查詢,通過向所述查詢添加與所述至少第一搜索檢索詞相關(guān)的檢索詞來擴(kuò)充所述查詢,就多義性分析所述查詢,為所述用戶制訂至少一個(gè)多義性解決提示,使得對(duì)所述提示的答案解決所述多義性,考慮到對(duì)所述多義性解決提示所接收的答案來修改所述查詢,檢索與所述已修改查詢對(duì)應(yīng)的數(shù)據(jù)條目,為所述用戶制訂結(jié)果限定提示,選擇所述結(jié)果限定提示中的至少一個(gè)來詢問所述用戶,并接收其響應(yīng),采用所述接收的響應(yīng)來排除所述所檢索條目中的一些,從而向所述用戶提供所述所檢索數(shù)據(jù)條目的子集作為查詢結(jié)果。
159.如權(quán)利要求158所述的方法,其特征在于,所述查詢包括多個(gè)檢索詞,以及所述擴(kuò)充所述查詢還包括分析所述檢索詞以確定所述檢索詞中的一些之間的語法上的相互關(guān)系。
160.如權(quán)利要求158所述的方法,其特征在于,所述擴(kuò)充包括分別向所述查詢添加下列各項(xiàng)的三階段過程a)與所述搜索檢索詞密切相關(guān)的條目,b)在較小程度上與所述搜索檢索詞相關(guān)的條目,以及c)因所述搜索檢索詞中固有的任何多義性而得到的備選解釋。
161.如權(quán)利要求158所述的方法,其特征在于,還包括重復(fù)階段iii)至vi)的至少一個(gè)附加聚焦過程,從而提供所述所檢索數(shù)據(jù)條目的提煉子集作為所述查詢結(jié)果。
162.如權(quán)利要求158所述的方法,其特征在于,還包括根據(jù)基于概率值的熵權(quán)重對(duì)所述制訂的提示排序,并詢問具有更極端的熵權(quán)重的所述提示中的一些。
163.如權(quán)利要求162所述的方法,其特征在于,還包括在接收到對(duì)于先前提示的響應(yīng)之后重新計(jì)算所述概率值,從而重新計(jì)算所述熵權(quán)重。
164.如權(quán)利要求162所述的方法,其特征在于,還包括采用各提示的動(dòng)態(tài)答案集,所述動(dòng)態(tài)答案集包含與屬性值關(guān)聯(lián)的答案,所述屬性值對(duì)于一些所接收條目為真,對(duì)于另一些所接收條目為假,從而區(qū)別所述所檢索條目。
165.如權(quán)利要求164所述的方法,其特征在于,還包括根據(jù)區(qū)別所述所檢索條目的相應(yīng)能力對(duì)所述動(dòng)態(tài)答案集中的各個(gè)答案分級(jí)。
166.如權(quán)利要求162所述的方法,其特征在于,還包括根據(jù)用戶搜索行為來修改所述概率值。
167.如權(quán)利要求166所述的方法,其特征在于,所述用戶搜索行為包括當(dāng)前用戶的過去行為。
168.如權(quán)利要求166所述的方法,其特征在于,所述用戶搜索行為包括在一組用戶上聚集的過去行為。
169.如權(quán)利要求166所述的方法,其特征在于,所述修改包括采用所述用戶搜索行為來獲得各個(gè)數(shù)據(jù)條目的先驗(yàn)選擇概率,以及修改所述權(quán)重以反映所述概率。
170.如權(quán)利要求162所述的方法,其特征在于,所述熵權(quán)重與包括所述條目、相應(yīng)屬性的分類和分類值的組中的至少一個(gè)關(guān)聯(lián)。
171.如權(quán)利要求158所述的方法,其特征在于,包括在所述接收查詢之前對(duì)所述所存儲(chǔ)數(shù)據(jù)條目進(jìn)行語義剖析。
172.如權(quán)利要求171所述的方法,其特征在于,查詢之前的所述語義分析包括把所述數(shù)據(jù)條目預(yù)先排列為類,每個(gè)類具有已分配的屬性值,所述預(yù)先排列包括分析所述數(shù)據(jù)條目以便從其中標(biāo)識(shí)數(shù)據(jù)條目類,并在存在時(shí)標(biāo)識(shí)所述類的屬性值。
173.如權(quán)利要求172所述的方法,其特征在于,包括把所述屬性值排列為類。
174.如權(quán)利要求172所述的方法,其特征在于,對(duì)于相應(yīng)數(shù)據(jù)庫的主題的內(nèi)在意義預(yù)先選擇所述類。
175.如權(quán)利要求174所述的方法,其特征在于,分級(jí)排列所述類中的主類。
176.如權(quán)利要求173所述的方法,其特征在于,分級(jí)排列所述屬性類。
177.如權(quán)利要求176所述的方法,其特征在于,還包括從所述檢索詞的分級(jí)排列確定所述數(shù)據(jù)條目中的檢索詞的語義意義。
178.如權(quán)利要求175所述的方法,其特征在于,所述類還用于分析所述查詢。
179.如權(quán)利要求174所述的方法,其特征在于,根據(jù)相應(yīng)數(shù)據(jù)庫的主題對(duì)屬性值分配權(quán)重。
180.如權(quán)利要求174所述的方法,其特征在于,根據(jù)相應(yīng)數(shù)據(jù)庫的主題對(duì)所述屬性值和所述類中的至少一個(gè)分配角色。
181.如權(quán)利要求180所述的方法,其特征在于,所述角色還用于剖析所述查詢。
182.如權(quán)利要求181所述的方法,其特征在于,還包括按照所述根據(jù)所述主題所分配的角色來分配重要性權(quán)重。
183.如權(quán)利要求182所述的方法,其特征在于,包括采用所述重要性權(quán)重來區(qū)別部分滿足的查詢。
184.如權(quán)利要求172所述的方法,其特征在于,所述分析包括名詞短語類型剖析。
185.如權(quán)利要求172所述的方法,其特征在于,所述分析包括采用與所述所存儲(chǔ)數(shù)據(jù)條目的主題相關(guān)的知識(shí)庫所支持的語言技術(shù)。
186.如權(quán)利要求172所述的方法,其特征在于,所述分析包括統(tǒng)計(jì)分類技術(shù)。
187.如權(quán)利要求172所述的方法,其特征在于,所述分析包括采用以下各項(xiàng)的組合i)與所述所存儲(chǔ)數(shù)據(jù)條目的主題相關(guān)的知識(shí)庫所支持的語言技術(shù),以及ii)統(tǒng)計(jì)技術(shù)。
188.如權(quán)利要求187所述的方法,其特征在于,所述統(tǒng)計(jì)技術(shù)在所述語言技術(shù)之后對(duì)數(shù)據(jù)條目執(zhí)行。
189.如權(quán)利要求187所述的方法,其特征在于,所述語言技術(shù)包括以下各項(xiàng)中的至少一個(gè)分割,標(biāo)記化,詞形歸類,標(biāo)記,詞性標(biāo)記,以及所述數(shù)據(jù)條目的至少部分命名實(shí)體識(shí)別。
190.如權(quán)利要求187所述的方法,其特征在于,還包括采用概率以及排列為權(quán)重的概率中的至少一個(gè)來區(qū)別來自所述各個(gè)技術(shù)的不同結(jié)果。
191.如權(quán)利要求190所述的方法,其特征在于,還包括根據(jù)用戶搜索行為來修改所述權(quán)重。
192.如權(quán)利要求191所述的方法,其特征在于,所述用戶搜索行為包括當(dāng)前用戶的過去行為。
193.如權(quán)利要求191所述的方法,其特征在于,所述用戶搜索行為包括在一組用戶上聚集的過去行為。
194.如權(quán)利要求187所述的方法,其特征在于,所述語言技術(shù)的輸出用作所述至少一種統(tǒng)計(jì)技術(shù)的輸入。
195.如權(quán)利要求187所述的方法,其特征在于,所述至少一種統(tǒng)計(jì)技術(shù)用于所述語言技術(shù)中。
196.如權(quán)利要求187所述的方法,其特征在于,包括采用兩種統(tǒng)計(jì)技術(shù)。
197.如權(quán)利要求158所述的方法,其特征在于,還包括分配表明與所述所存儲(chǔ)數(shù)據(jù)條目中的至少一個(gè)關(guān)聯(lián)的意義的至少一個(gè)代碼,所述分配是對(duì)很可能見于針對(duì)所述至少一個(gè)所存儲(chǔ)數(shù)據(jù)條目的查詢中的檢索詞。
198.如權(quán)利要求197所述的方法,其特征在于,與所述所存儲(chǔ)數(shù)據(jù)條目中的至少一個(gè)關(guān)聯(lián)的所述意義是所述條目、所述條目的分類以及所述條目的分類值中的至少一個(gè)。
199.如權(quán)利要求197所述的方法,其特征在于,還包括通過把新檢索詞分配給所述至少一個(gè)代碼,來擴(kuò)充很可能見于查詢中的所述檢索詞的范圍。
200.如權(quán)利要求197所述的方法,其特征在于,包括提供類檢索詞的分組以及屬性值檢索詞的分組。
201.如權(quán)利要求172所述的方法,其特征在于,如果所述分析標(biāo)識(shí)多義性,則對(duì)于所述多義性中的各意義的語義有效性執(zhí)行測(cè)試所述查詢的階段,以及對(duì)于被認(rèn)為在語義上有效的各意義,向所述用戶提供解決所述有效性的提示。
202.如權(quán)利要求172所述的方法,其特征在于,如果所述分析標(biāo)識(shí)多義性,則對(duì)于所述多義性中的各意義的語義有效性執(zhí)行測(cè)試所述查詢的階段,以及對(duì)于被認(rèn)為在語義上有效的各意義,則根據(jù)它來檢索數(shù)據(jù)條目并根據(jù)相應(yīng)數(shù)據(jù)條目檢索來區(qū)別所述意義。
203.如權(quán)利要求172所述的方法,其特征在于,如果所述分析標(biāo)識(shí)多義性,則對(duì)于所述多義性中的各意義的語義有效性執(zhí)行測(cè)試所述查詢的階段,以及對(duì)于被認(rèn)為在語義上有效的各意義,采用與所述所存儲(chǔ)數(shù)據(jù)條目的主題關(guān)聯(lián)的知識(shí)庫來區(qū)別所述在語義上有效的意義。
204.如權(quán)利要求158所述的方法,其特征在于,還包括對(duì)各數(shù)據(jù)條目預(yù)先定義概率矩陣以把所述數(shù)據(jù)條目與屬性值集合關(guān)聯(lián)。
205.如權(quán)利要求204所述的方法,其特征在于,還包括采用所述概率來解決所述查詢中的多義性。
206.一種用于搜索所存儲(chǔ)數(shù)據(jù)條目的查詢方法,所述方法包括從用戶接收包含至少兩個(gè)搜索檢索詞的查詢,通過確定搜索檢索詞之間的語義關(guān)系來分析查詢,從而區(qū)分定義條目的檢索詞與定義其屬性值的檢索詞,檢索與已標(biāo)識(shí)條目中的至少一個(gè)對(duì)應(yīng)的數(shù)據(jù)條目,采用應(yīng)用于所述所檢索數(shù)據(jù)條目的屬性值來制訂對(duì)所述用戶的提示,向所述用戶詢問所述制訂的提示中的至少一個(gè),并接收其響應(yīng),采用所述接收的響應(yīng)與所述屬性的值進(jìn)行比較,以便排除所述所檢索條目中的一些,從而向所述用戶提供所述所檢索數(shù)據(jù)條目的子集作為查詢結(jié)果。
207.如權(quán)利要求206所述的方法,其特征在于,所述分析查詢包括應(yīng)用置信度,以便根據(jù)為達(dá)到所述檢索詞進(jìn)行的判定的類型對(duì)所述檢索詞分級(jí)。
208.一種用于搜索所存儲(chǔ)數(shù)據(jù)條目的查詢方法,所述方法包括從用戶接收包含至少第一搜索檢索詞的查詢,剖析所述查詢以檢測(cè)名詞短語,檢索與所述剖析的查詢對(duì)應(yīng)的數(shù)據(jù)條目,為所述用戶制訂結(jié)果限定提示,選擇所述結(jié)果限定提示中的至少一個(gè)來詢問用戶,并接收其響應(yīng),采用所述接收的響應(yīng)來排除所述所檢索條目中的一些,從而向所述用戶提供所述所檢索數(shù)據(jù)條目的子集作為查詢結(jié)果。
209.如權(quán)利要求208所述的查詢方法,其特征在于,所述剖析包括標(biāo)識(shí)i)所述查詢中對(duì)所存儲(chǔ)數(shù)據(jù)條目的引用,以及ii)對(duì)屬性類及其關(guān)聯(lián)的屬性值中的至少一個(gè)的引用。
210.如權(quán)利要求209所述的查詢方法,其特征在于,還包括把重要性權(quán)重分配給相應(yīng)屬性值,所述重要性權(quán)重可用于測(cè)量與所述檢索中的數(shù)據(jù)條目的對(duì)應(yīng)等級(jí)。
211.如權(quán)利要求208所述的查詢方法,其特征在于,還包括對(duì)所述結(jié)果限定提示分級(jí),并且僅向所述用戶詢問所述提示中的最高級(jí)別的提示。
212.如權(quán)利要求211所述的查詢方法,其特征在于,所述分級(jí)根據(jù)各個(gè)提示修改所述所檢索條目的總數(shù)的能力來進(jìn)行。
213.如權(quán)利要求211所述的查詢方法,其特征在于,所述分級(jí)根據(jù)應(yīng)用于各個(gè)提示相關(guān)的屬性值的權(quán)重來進(jìn)行。
214.如權(quán)利要求211所述的查詢方法,其特征在于,所述分級(jí)根據(jù)在所述方法的先前操作中收集的經(jīng)驗(yàn)來進(jìn)行。
215.如權(quán)利要求214所述的查詢方法,其特征在于,所述經(jīng)驗(yàn)是包括所有用戶的經(jīng)驗(yàn)、一組所選用戶的經(jīng)驗(yàn)、來自類似查詢的分組的經(jīng)驗(yàn)以及從當(dāng)前用戶收集的經(jīng)驗(yàn)的組中的至少一種。
216.如權(quán)利要求211所述的查詢方法,其特征在于,所述制訂包括根據(jù)修改所述所檢索條目的總數(shù)的有效性等級(jí)來制定提示。
217.如權(quán)利要求211所述的查詢方法,其特征在于,所述制訂包括對(duì)于與所述查詢的數(shù)據(jù)條目關(guān)聯(lián)的屬性值加權(quán),并制定與所述加權(quán)屬性值中的最高值相關(guān)的提示。
218.如權(quán)利要求211所述的查詢方法,其特征在于,所述制訂包括根據(jù)在所述方法的先前操作中收集的經(jīng)驗(yàn)來制定提示。
219.如權(quán)利要求218所述的查詢方法,其特征在于,所述經(jīng)驗(yàn)是包括所有用戶的經(jīng)驗(yàn)、從預(yù)定的用戶組收集的經(jīng)驗(yàn)、從類似查詢的組收集的經(jīng)驗(yàn)以及從當(dāng)前用戶收集的經(jīng)驗(yàn)的組中的至少一種。
220.如權(quán)利要求211所述的查詢方法,其特征在于,所述制訂包括根據(jù)所述所檢索結(jié)果包含至少兩個(gè)答案的集合,每個(gè)答案映射到至少一個(gè)所檢索結(jié)果。
221.一種對(duì)于與數(shù)據(jù)檢索系統(tǒng)的對(duì)象集合相關(guān)的所存儲(chǔ)數(shù)據(jù)分類的自動(dòng)方法,所述方法包括定義至少兩個(gè)對(duì)象類,對(duì)每個(gè)類分配至少一個(gè)屬性值,對(duì)于分配給每個(gè)類的各屬性值,分配重要性權(quán)重,把所述集合中的對(duì)象分配給至少一個(gè)類,以及為所述對(duì)象分配所述類的至少一個(gè)屬性的屬性值。
222.如權(quán)利要求221所述的方法,其特征在于,所述對(duì)象由文本數(shù)據(jù)來表示,以及對(duì)象的所述分配和所述屬性值的分配包括采用語言算法和知識(shí)庫。
223.如權(quán)利要求221所述的方法,其特征在于,所述對(duì)象由文本數(shù)據(jù)來表示,以及對(duì)象的所述分配和所述屬性值的分配包括采用語言算法、知識(shí)庫和統(tǒng)計(jì)算法的組合。
224.如權(quán)利要求221所述的方法,其特征在于,所述對(duì)象由文本數(shù)據(jù)來表示,以及對(duì)象的所述分配和所述屬性值的分配包括采用受監(jiān)督的聚類技術(shù)。
225.如權(quán)利要求224所述的方法,其特征在于,所述受監(jiān)督的聚類包括首先采用語言算法和知識(shí)庫進(jìn)行分配,然后再添加統(tǒng)計(jì)技術(shù)。
226.如權(quán)利要求221所述的方法,其特征在于,還包括提供至少一個(gè)類中的對(duì)象分類法。
227.如權(quán)利要求221所述的方法,其特征在于,還包括提供至少一個(gè)屬性中的屬性值分類法。
228.如權(quán)利要求221所述的方法,其特征在于,包括對(duì)于就單一標(biāo)簽下的所述對(duì)象類而言具有相似意義的查詢檢索詞進(jìn)行分組。
229.如權(quán)利要求221所述的方法,其特征在于,還包括對(duì)屬性值分組以形成分類法。
230.如權(quán)利要求229所述的方法,其特征在于,所述分類法對(duì)于多個(gè)對(duì)象類是全局的。
231.如權(quán)利要求221所述的方法,其特征在于,所述對(duì)象由其中包含與預(yù)定概念集相關(guān)的多個(gè)檢索詞的文本描述來表示,所述方法包括分析所述文本描述的階段,以便就所述概念而言對(duì)所述檢索詞分類,所述階段包括把所述預(yù)定概念集排列為概念分級(jí)結(jié)構(gòu),把所述檢索詞與相應(yīng)概念匹配,以及把與所述匹配概念分級(jí)相關(guān)的其它概念應(yīng)用于所述相應(yīng)檢索詞。
232.如權(quán)利要求231所述的方法,其特征在于,所述概念分級(jí)結(jié)構(gòu)包括以下關(guān)系中的至少一個(gè)(a)上位詞-下位詞關(guān)系,(b)部分-整體關(guān)系,(c)屬性維-屬性值關(guān)系,(d)相鄰概念子層次之間的相互關(guān)系。
233.如權(quán)利要求231所述的方法,其特征在于,所述對(duì)所述檢索詞分類還包括應(yīng)用置信度,以便根據(jù)為匹配各個(gè)概念進(jìn)行的判定的類型對(duì)所述匹配的概念分級(jí)。
234.如權(quán)利要求231所述的方法,其特征在于,還包括標(biāo)識(shí)介詞,采用所述介詞與所述檢索詞的關(guān)系把檢索詞標(biāo)識(shí)為焦點(diǎn)檢索詞,以及把與所述焦點(diǎn)檢索詞匹配的概念設(shè)置為焦點(diǎn)概念。
235.如權(quán)利要求231所述的方法,其特征在于,所述排列所述概念包括把同義概念分組在一起。
236.如權(quán)利要求235所述的方法,其特征在于,所述同義概念的分組包括作為相互形態(tài)變異的概念檢索詞的分組。
237.如權(quán)利要求231所述的方法,其特征在于,所述檢索詞中的至少一個(gè)具有多個(gè)意義,所述方法包括區(qū)別所述多個(gè)意義以選擇最可能意義的消除多義性階段。
238.如權(quán)利要求237所述的方法,其特征在于,所述消除多義性階段包括比較屬性值、屬性維、所述檢索詞與所述多個(gè)意義的相應(yīng)概念之間的商標(biāo)關(guān)聯(lián)和型號(hào)關(guān)聯(lián)中的至少一個(gè)。
239.如權(quán)利要求238所述的方法,其特征在于,所述比較包括確定統(tǒng)計(jì)概率。
240.如權(quán)利要求237所述的方法,其特征在于,所述消除多義性階段包括把所述多個(gè)意義中的第一意義標(biāo)識(shí)為與所述檢索詞中另一個(gè)分級(jí)相關(guān),以及選擇所述第一意義作為所述最可能意義。
241.如權(quán)利要求237所述的方法,其特征在于,包括保留所述多個(gè)意義中的至少兩個(gè)。
242.如權(quán)利要求241所述的方法,其特征在于,還包括把概率等級(jí)應(yīng)用于所述保留意義中的每個(gè),從而確定最可能意義。
243.如權(quán)利要求237所述的方法,其特征在于,還包括查找所述檢索詞中的至少一個(gè)的備選拼寫,并把各備選拼寫作為備選意義來應(yīng)用。
244.如權(quán)利要求243所述的方法,其特征在于,還包括采用相應(yīng)概念關(guān)系來確定所述備選拼寫中最可能的一個(gè)。
245.一種處理包含與預(yù)定概念集相關(guān)的多個(gè)檢索詞的輸入文本、以便就所述概念而言對(duì)所述檢索詞分類的方法,所述方法包括把所述預(yù)定概念集排列為概念分級(jí)結(jié)構(gòu),把所述檢索詞與相應(yīng)概念匹配,以及把與所述匹配概念分級(jí)相關(guān)的其它概念應(yīng)用于所述相應(yīng)檢索詞。
246.如權(quán)利要求245所述的方法,其特征在于,所述概念分級(jí)結(jié)構(gòu)包括以下關(guān)系中的至少一個(gè)(a)上位詞-下位詞關(guān)系,(b)部分-整體關(guān)系,(c)屬性維-屬性值關(guān)系,(d)相鄰概念子層次之間的相互關(guān)系。
247.如權(quán)利要求245所述的方法,其特征在于,所述對(duì)所述檢索詞分類還包括應(yīng)用置信度,以便根據(jù)為匹配各個(gè)概念進(jìn)行的判定的類型對(duì)所述匹配概念分級(jí)。
248.如權(quán)利要求245所述的方法,其特征在于,還包括標(biāo)識(shí)所述文本中的介詞,采用所述介詞與所述檢索詞的關(guān)系把檢索詞標(biāo)識(shí)為焦點(diǎn)檢索詞,以及把與所述焦點(diǎn)檢索詞匹配的概念設(shè)置為焦點(diǎn)概念。
249.如權(quán)利要求245所述的方法,其特征在于,所述排列所述概念包括把同義概念分組在一起。
250.如權(quán)利要求249所述的方法,其特征在于,所述同義概念的分組包括作為相互形態(tài)變異的概念檢索詞的分組。
251.如權(quán)利要求245所述的方法,其特征在于,所述檢索詞中的至少一個(gè)包括多個(gè)意義,所述方法包括區(qū)別所述多個(gè)意義以選擇最可能意義的消除多義性階段。
252.如權(quán)利要求251所述的方法,其特征在于,所述消除多義性階段包括比較屬性值、屬性維、所述輸入文本與所述多個(gè)意義的相應(yīng)概念之間的商標(biāo)關(guān)聯(lián)和型號(hào)關(guān)聯(lián)中的至少一個(gè)。
253.如權(quán)利要求252所述的方法,其特征在于,所述比較包括確定統(tǒng)計(jì)概率。
254.如權(quán)利要求251所述的方法,其特征在于,所述消除多義性階段包括把所述多個(gè)意義中的第一意義標(biāo)識(shí)為與所述文本中的所述檢索詞中另一個(gè)分級(jí)相關(guān),以及選擇所述第一意義作為所述最可能意義。
255.如權(quán)利要求251所述的方法,其特征在于,包括保留所述多個(gè)意義中的至少兩個(gè)。
256.如權(quán)利要求255所述的方法,其特征在于,還包括把概率等級(jí)應(yīng)用于所述保留意義中的每個(gè),從而確定最可能意義。
257.如權(quán)利要求251所述的方法,其特征在于,還包括查找所述檢索詞中的至少一個(gè)的備選拼寫,并把各備選拼寫作為備選意義來應(yīng)用。
258.如權(quán)利要求257所述的方法,其特征在于,還包括采用相應(yīng)概念關(guān)系來確定所述備選拼寫中最可能的一個(gè)。
259.如權(quán)利要求245所述的方法,其特征在于,所述輸入文本是要添加到數(shù)據(jù)庫中的條目。
260.如權(quán)利要求245所述的方法,其特征在于,所述輸入文本是用于搜索數(shù)據(jù)庫的查詢。
全文摘要
一種用于搜索數(shù)據(jù)庫(12)以產(chǎn)生提煉結(jié)果空間(34)的交互方法,該方法包括為搜索標(biāo)準(zhǔn)進(jìn)行分析(22),采用所述搜索標(biāo)準(zhǔn)(22)來搜索所述數(shù)據(jù)庫(12),以便得到初始結(jié)果空間(34),以及獲得用戶輸入(20)以限定所述初始結(jié)果空間(34),從而得到所述提煉結(jié)果空間(34)。提煉包括采用所檢索數(shù)據(jù)條目的分類來制訂對(duì)用戶的提示(32),向所述用戶詢問制訂的提示(32)中的至少一個(gè)并接收其響應(yīng);以及與分類值結(jié)合采用響應(yīng)來排除結(jié)果的一部分,從而向用戶提供所檢索數(shù)據(jù)條目的子集作為查詢結(jié)果(34)。
文檔編號(hào)G06F15/18GK1823334SQ200480019857
公開日2006年8月23日 申請(qǐng)日期2004年5月11日 優(yōu)先權(quán)日2003年5月14日
發(fā)明者T·魯本茨克, N·德肖維茨, Y·喬伊卡, M·弗洛, O·霍德, A·羅思 申請(qǐng)人:塞利布羅斯有限公司