專利名稱:利用子查詢自動生成查詢建議的制作方法
利用子查詢自動生成查詢建議
背景技術:
像可在網(wǎng)絡上獲得的文檔那樣的龐大文檔集合的關鍵詞或查詢搜索現(xiàn)在是常見的活動。隨著搜索引擎越來越唾手可得,使用搜索技術的用戶的數(shù)量增加了,并且這些用戶搜索越來越廣的主題。因此,許多用戶在用戶不熟悉的主題領域中進行許多搜索。這可能導致用戶難以構想搜索查詢。在努力幫助用戶的搜索技術中,有時提供查詢建議作為對搜索查詢的響應的一部分。查詢建議向用戶提供用戶可以選擇的可替代查詢。這可以幫助用戶識別可能更好地適用于找到感興趣信息的其他搜索查詢
發(fā)明內容
在各種實施例中,可以通過識別所希望的子查詢生成查詢建議??梢岳鄯e搜索引 擎數(shù)據(jù)來為各種查詢確定使用特征??梢愿鶕?jù)使用數(shù)據(jù)生成和排名潛在子查詢。在對潛在子查詢進行排名之后,當接收到搜索請求時,可以使用排名來選擇子查詢??梢詫⑺x的子查詢直接用作查詢建議,或可以將子查詢用作另一個查詢建議引擎的輸入。提供本發(fā)明內容來以簡化形式介紹下面在具體實施方式
中進一步描述的概念的選擇。本發(fā)明內容不旨在識別要求保護主題的關鍵特征或必要特征,也不是旨在用于孤立地幫助確定要求保護主題的范圍。
下面參考附圖詳細描述本發(fā)明,在附圖中
圖I是用在實現(xiàn)本發(fā)明的實施例中的示范性計算環(huán)境的框 圖2示意性地示出了適合執(zhí)行本發(fā)明的實施例的系統(tǒng);
圖3描繪了按照本發(fā)明的實施例的方法的流程 圖4描繪了按照本發(fā)明的實施例的方法的流程 圖5描繪了按照本發(fā)明的實施例的方法的流程圖;以及
圖6和7描繪了根據(jù)使用漢語書面語言查詢元素的本發(fā)明實施例的應用所得的結果。
具體實施方式
概況
在各種實施例中,提供了生成查詢建議的系統(tǒng)和方法。查詢建議的生成可以基于首先識別具有高排名的一個或多個子查詢??梢詫⒁粋€或多個高排名子查詢用作查詢建議,或可以將一個或多個子查詢用作傳統(tǒng)查詢建議方法的輸入。在一些實施例中,這些系統(tǒng)和方法可以用于基于像包含4到大約60個查詢元素的查詢那樣的較長查詢的查詢建議。在其他實施例中,可以使用不需要人為干預的系統(tǒng)和方法自動生成查詢建議。這些系統(tǒng)和方法也可以與用于語言的查詢元素的性質無關地應用于各種語言。因此,這些系統(tǒng)和方法可以有效地應用于查詢元素是單詞的查詢(像英語的查詢那樣),以及查詢元素是字的查詢(像漢語、日語或朝鮮語那樣的查詢)。盡管向用戶提供查詢建議是傳統(tǒng)做法,但提供高質量建議仍然存在許多障礙。一種這樣的障礙是提供基于含有大量查詢項的查詢的查詢建議。越來越多的搜索查詢是包括4個或更多個關鍵詞或查詢元素的查詢。項數(shù)增加的的一部分是使用“自然語言”查詢的增力口,其中查詢是部分或甚至整個句子而不是關鍵詞的集合。經(jīng)驗不足的用戶更易于構想這樣的長查詢。長查詢也可以用于進一步指定所希望搜索目標。當搜索龐大文檔集合時,較長的查詢可以有助于生成更相關排序的搜索結果。雖然較長查詢可以為搜索者帶來好處,但提供所建議查詢的傳統(tǒng)方法對于長查詢可能不那么有效。許多查詢建議方法基于流行項的附加或相關項的替代。對于只有兩個或三個查詢元素的搜索查詢,每個查詢元素可以用作改變查詢的基礎而無需生成從中選擇的選項的過大清單。但是,隨著一個查詢越來越長,變體的數(shù)量可以成指數(shù)增加,導致為了確定查詢建議而評估的大量排列。提供查詢建議的另一個難題可能與跨越各種語言地提供查詢建議有關。例如,查 詢建議算法使用自然語言查詢的語法以便把重點放在最相關查詢元素上。不幸的是,這種手段需要為使用的每種不同語言修改查詢建議算法。由于像漢語那樣的基于字書面語言的語法差異很大,所以這樣的修改可能相當大。另外,即使在像英語那樣的單一語言內,對于每個講英語區(qū)域,語法的變體也可能需要不同的算法。相關問題是對于查詢建議需要人為干預或訓練的任何搜索引擎所面臨的難題。人為訓練可以包括提供特殊方式對待的單詞的詞典,例如作出建議時可以忽略的單詞,或應該關聯(lián)的單詞。人為訓練還可以包括提供用于開發(fā)關聯(lián)性的一組訓練文檔。不管訓練的類型為何,對人為干預的需要將意味著對查詢建議系統(tǒng)的更新將是不頻繁和耗時的。這可能導致來自查詢建議系統(tǒng)的建議是過時的。在一些實施例中,提供了不依靠查詢建議系統(tǒng)的人為訓練地自動提供查詢建議的系統(tǒng)和方法。該系統(tǒng)和方法可以獨立于語言語法,使得該系統(tǒng)和方法稍作修改或不修改就可以用于各種語言。另外,該系統(tǒng)和方法可以有效地根據(jù)具有4個到大約60個查詢項的查詢作出查詢建議。另外,在一些實施例中,該系統(tǒng)和方法可以與現(xiàn)有查詢建議系統(tǒng)結合在一起使用。杳詢和子杳詢
查詢可以包括一個或多個查詢元素。查詢元素是查詢的獨立部分。對于英語的查詢,查詢項通常是單詞。注意,“單詞”在這里表示搜索者可以用作和理解為單個查詢項的一組字母、數(shù)字和/或其他符號。例如,尋找有關丙烷的附加信息的搜索者輸入“C3H8”作為查詢的一部分。在這種狀況下,應該理解為“C3H8”構成查詢項??蛇x地,對于允許搜索例如用引號或括號將一系列單詞放入查詢內的短語的搜索引擎,這樣的短語可以被認為是單個查詢項。相反,在有關chocolate cake的查詢中,不認為字母“ch”是查詢項,因為這不是所提交的查詢內的完整“單詞”。在像漢語、日語或朝鮮語那樣的基于字書面語言中,查詢元素可以是字。將查詢中的查詢長度定義成該查詢中的查詢元素的數(shù)量。在一些實施例中,可以為任何查詢長度的所有查詢提供查詢建議??商娲氖?,可以為查詢長度為至少4個查詢元素到大約60個查詢元素的查詢提供查詢建議。查詢長度可以是至少4個查詢元素,至少5個查詢元素,或至少6個查詢元素。查詢長度可以是大約75個或更少個查詢元素,大約60個或更少個查詢元素,大約50個或更少個查詢元素,或大約40個或更少個查詢元素。子查詢是由母查詢的一個或多個查詢元素形成的查詢。識別查詢的可能子查詢的一種方式是形成η元組(n-gram)。形成η元組的一種方式是在保留查詢元素的次序的同時形成導致較短查詢的查詢元素的任何可能組合。換句話說,可以不改變其余查詢元素的次序地從查詢的頭部、中部或尾部開始從查詢中移除查詢元素。這樣的η元組可以稱為位置相關η元組。對于四元素查詢,可能子查詢可以對應于四個I元素η元組、六個2-元素η元組、和四個3-元素η元組。可替代的是,可以形成允許查詢元素在子查詢中改變位置的位置無關子查詢,對于包含四個查詢元素的查詢,存在四個I元素位置無關子查詢、12個2元素位置無關子查詢、和24個3-元素位置無關子查詢。在又一個實施例中,可以從母查詢中使用查詢項的連續(xù)串形成子查詢。在這樣的實施例中,可以從母查詢的頭部或尾部開始舍棄查詢項,但如果查詢項在保留在子查詢中的其他查詢項之間,則不舍棄該查詢項。對于包含四個查詢元素的查詢,這種類型的實施例可以產(chǎn)生四個I元素子查詢、三個2元素子查詢、和兩個3元素子查詢。 在可選實施例中,查詢或子查詢可以包括查詢中的任何查詢元素的顯而易見變體。例如,一些文字處理程序現(xiàn)在都包括拼寫檢查功能,其中如果預定單詞應該是什么是比較明確的,則可以自動糾正未出現(xiàn)在拼寫檢查詞典中的單詞。在這樣的可選實施例中,可以在例如通過形成η元組來形成子查詢的過程之前糾正拼寫錯誤??商娲氖牵斣噲D匹配查詢時,可以顧及這樣的拼寫差異。在另一個可選實施例中,從母查詢中形成的η元組(或其他子查詢)可以局限于小于查詢項的閾數(shù)的η元組或子查詢。例如,根據(jù)母查詢構建的η元組可以局限于含有3個或更少個查詢項的η元組。在這樣的例子中,盡管含有5個查詢項的母查詢潛在地含有包含4個查詢項的子查詢,但4查詢項η元組可以因大于閾值3而被忽略掉。在實施例中,從母查詢中形成的子查詢可以局限于2個或更少個查詢項,3個或更少個查詢項,4個或更少個查詢項,5個或更少個查詢項,或任何其他方便閾數(shù)。因為子查詢小于相應母查詢,所以可以從不止一個母查詢中構建給定的子查詢。例如,2 兀素查詢“chocolate cake” 是 6 兀素查詢“how to make a chocolate cake” 和 3元素查詢“chocolate cake ingredients”兩者的子查詢。將子查詢的母計數(shù)定義成可以用于形成子查詢的母查詢的數(shù)量。在一些實施例中,母計數(shù)可以局限于只包括具有適當查詢長度的母查詢。例如,母計數(shù)可以基于具有4到大約60個查詢元素的查詢長度的母查詢。杳詢日志文件
查詢通常被提交給搜索引擎,搜索引擎根據(jù)相關性得分將該搜索查詢與文檔匹配。匹配文檔可以以任何方便方式提供給用戶。返回搜索結果的一種典型方式是提供搜索引擎認為與該查詢有關的相關性得分最高的10個文檔的清單。還可以與相關查詢的建議一起提供鏈接,以便查看相關性得分較低文檔的清單。搜索引擎可以通過任何方便方法確定與查詢有關的文檔的相關性得分。在初始結果頁面上返回的文檔的數(shù)量也可以是像1,2,5,10,20,50或其他數(shù)量那樣任何方便的數(shù)量。當用戶將搜索查詢提交給搜索引擎時,可以在日志文件中跟蹤和記錄各種類型的信息??梢杂涗浀囊环N信息是查詢本身。在日志文件中,可以記錄用戶提交的查詢。可選地,這可以包括記錄在查詢項中可能存在拼寫錯誤的查詢??蛇x地,也可以跟蹤查詢被提交的總次數(shù)。可以跟蹤的另一種信息是提交查詢的不同用戶的數(shù)量的計數(shù)。提交查詢的不同用戶的數(shù)量的計數(shù)可以提供查詢普及性的指示。如上所述,可以跟蹤查詢被提交的總次數(shù)。不幸的是,當用戶決定一個查詢有用時,該用戶可能多次提交該查詢。這可能是由于,例如,在第一瀏覽器仍然在顯示通過搜索識別的文檔之一時希望打開第二瀏覽器再次觀看查詢結果導致的。確定查詢普及性的一種潛在改進是跟蹤不同用戶的數(shù)量。不同用戶的數(shù)量可以以多種方式確定。計數(shù)不同用戶的一種方法是對于提交搜索查詢的每種身份只增加不同用戶計數(shù)一次。根據(jù)這種選項,一旦給定用戶身份提交了一個搜索查詢,則無論該用戶身份提交多少次該查詢,不同用戶計數(shù)再也不會增加。計數(shù)不同用戶的另一種方法是對于每種身份在給定時間段內只增加不同用戶計數(shù)一次。例如,如果用戶在20分鐘的時段內提交了一個查詢5次,則不同用戶計數(shù)只增加一次。但是,如果該用戶10天之后提交該查詢,則不同用戶計數(shù)將再次增加。任何方便時間段都可以用作允許另一次增加不同用戶計數(shù)的時間段。例如,該時間段可以是一個小時,24個小時,一個星期,一個月,或任何其他方便時間段。更一般地說,可以使用對提交了給定搜索查詢的不同用戶的數(shù)量進行計數(shù)的任何其他方便方法。 可以記錄的又一種信息是用戶從查詢結果中進入的文檔鏈接的數(shù)量。一個選項可以是對用戶基于搜索查詢選擇的文檔的總數(shù)進行計數(shù)。因此,對于用戶從查詢的結果頁面中選擇的每個文檔鏈接,都使計數(shù)增加。另一個選項可以是對用戶選擇的被認為是“高相關性”文檔的文檔的數(shù)量進行計數(shù)。認為文檔是“高相關性”的一種方便代理是文檔是否處在響應于搜索查詢所顯示的結果的第一頁上。可替代的是,高相關性得分文檔可以對應于與查詢有關的相關性得分最高的文檔的閾數(shù),例如前1,2,5,10,20,50個或其他方便的閾數(shù)。在實施例中,可以選擇對高相關性得分文檔的定義以幫助確定與查詢匹配的文檔是否是用戶感興趣的。例如,用戶可能提交了高分文檔不是用戶感興趣的查詢。相反,用戶只查看未顯示在第一頁上和/或相關性得分低于高相關性得分截止分數(shù)的文檔。在這種狀況下,盡管搜索查詢給出了用戶感興趣的文檔,但這些感興趣文檔未作為高相關性得分文檔出現(xiàn)。這往往指示該搜索查詢可能沒有其他一些搜索查詢那么有價值,因為用戶希望的結果未對應于高相關性得分結果。跟蹤頁面視圖的總數(shù)和高相關性得分頁面視圖的數(shù)量兩者可以有助于識別這樣可能不那么有價值的查詢。通過跟蹤例如在限定地理區(qū)域內使用特定搜索引擎的所有用戶的一群用戶的各種數(shù)量,可以形成提供有關搜索查詢的信息的查詢日志文件。該查詢日志文件可以包括查詢的清單,以及每個查詢的不同用戶的數(shù)量、高相關性得分頁面視圖的數(shù)量、和頁面視圖的總數(shù)。如果需要的話,該查詢日志文件還可以包括其他數(shù)據(jù)。該查詢日志文件可以代表在例如一天或多天、一個或多個星期、一個或多個月、或一年或多年的任何方便時間段內對一群用戶累積的數(shù)據(jù)。可選地,查詢日志文件的大小可以局限于大約6個或更少個月,大約10個或更少個月,大約12個或更少個月,大約18個或更少個月,或大約24個或更少個月。限制查詢日志文件的大小可以在處理查詢日志文件數(shù)據(jù)時使計算時間更短。確定高排名子杳詢的考虎
查詢日志文件中的數(shù)據(jù)可以用于幫助識別高排名子查詢。高排名子查詢可以通過多種方法確定。在一些實施例中,用于識別高排名子查詢的系統(tǒng)或方法可以基于一些或所有如下考慮。一種考慮可以是選擇頻繁使用的子查詢。例如,未出現(xiàn)在查詢日志文件中的子查詢是搜索用戶未提交過的子查詢。這樣的子查詢不可能是相關的。更一般地說,不同用戶的數(shù)量可以提供子查詢的普及性以及相關性的指示。另一種考慮可以是選擇盡可能多地保留包含在原始查詢中的信息的子查詢。一般說來,與母查詢共有較多查詢元素的子查詢可以保留更多母查詢的原始含義。因此,含有更多查詢元素的查詢和/或出現(xiàn)在母查詢的查詢元素的較高百分比可以是更相關查詢的指
/Jn ο又一種考慮可以是選擇大部分頁面視圖是高相關性得分文檔的子查詢。如上所述,像顯示在第一頁上的文檔那樣的由搜索引擎返回的最高相關性文檔可以提供給定搜索 查詢是否給出與用戶的意圖匹配的結果的指示。相對于頁面視圖的總數(shù)高相關性頁面視圖占大部分的搜索查詢可以被認為是有效的搜索查詢。再一種考慮可以是子查詢的母查詢的數(shù)量。生成查詢建議的目標之一是向用戶提供搜索相似主題的可替代方式。如果子查詢具有相對較少的母查詢,則子查詢有較大的可能保留原始查詢的本意。相反,如果子查詢具有過多的母查詢,則子查詢有一定可能包括更通用的項,降低了子查詢保留用戶原意的可能性。因此,具有較大量母查詢的子查詢可以被認為是不太有效的搜索查詢。處理杳詢日志文件
查詢日志文件可以通過任何方便方法獲得。可以如上所述生成查詢日志文件,可以從另一個實體接收查詢日志文件,或可以通過組合從兩個或更多個實體收集的信息組裝查詢日志文件。在各種實施例中,在獲得查詢日志文件之后,可以通過識別高排名的一個或多個子查詢發(fā)起生成查詢建議的方法。識別高排名子查詢的初步步驟是可以是生成潛在母查詢的清單。在實施例中,只有查詢元素的數(shù)量在最小值與最大值之間的查詢,例如只有長度從4個到大約60個查詢元素的查詢可以用作母查詢。可以抽取查詢日志文件中具有適當長度的查詢來形成母查詢清單或文件。母查詢清單提供可以用于生成排名子查詢的查詢。另一個可選初步步驟可以是過濾查詢日志文件以排除一個或多個查詢。由于多種原因,一些查詢可以被認為是非所希望的。例如,可能希望排除與搜索成人內容或暴力內容有關的任何查詢。另一個選項可以是排除普及性低的任何查詢。例如包含拼錯單詞的查詢那樣的普及性低的查詢可以代表查詢數(shù)據(jù)中的“噪聲”??紤]到這一點,可以排除不同用戶和/或總頁面視圖的數(shù)量低于閾值的查詢。在一些實施例中,可以排除少于大約10個不同用戶的查詢,少于大約25個不同用戶的查詢,或少于大約100個不同用戶的查詢。在其他實施例中,如果查詢導致大約10個或更少的頁面視圖,大約25個或更少的頁面視圖,或大約100個或更少的頁面視圖,則可以排除該查詢??梢酝ㄟ^任何方便方法排除查詢,例如通過創(chuàng)建不包含被排除的查詢的第二文件或清單,或通過在查詢日志文件中標記被排除的查詢??商娲氖牵慨斦J為要對查詢加以處理時,就可以進行查詢日志文件中查詢的過濾。注意,母查詢清單可以在過濾查詢日志之后,在過濾查詢日志之前,或在進行了一些過濾之后形成??蛇x地,也可以對母查詢文件或清單上進行過濾。如上所述的考慮可以用于確定查詢日志文件中的高排名子查詢。該方法可以從過濾查詢日志文件以移除非所希望的查詢開始。然后可以使這個經(jīng)過濾的查詢清單對應于查詢文件或查詢清單。然后可以通過抽取具有所希望長度的所有查詢構建母查詢文件或清單。查詢日志文件也可以用于確定每個查詢的“頻率”。在實施例中,可以根據(jù)查詢的不同用戶和頁面視圖的數(shù)量計算查詢的頻率,可能包括對頁面訪問的總數(shù)相對于高相關性頁面視圖的數(shù)量的單獨考慮。在另一個實施例中,可以根據(jù)具有與方程(I)相似的特征的方程計算頻率
(1)頻率=(#不同用戶)*(#高相關性頁面視圖)/ [1+ (#總頁面視圖)]
在方程(I)中,頻率與不同用戶的數(shù)量成正比。頻率也與高相關性頁面視圖與總頁面視圖的比率成正比。針對以上方程格式的變體是可能的。首先注意到,在方程中使用了 “1+#總頁面視圖”。包括“I”是為了防止該表達式變成未定義的。在那個位置中使用非零值對于避免計算錯誤是有價值的。但是,本領域的普通技術人員應該認識到,包括這個常數(shù)是為了便于計算。在其他實施例中,如果適當?shù)毓芾韺Σ樵內罩疚募奶幚?,則可以在計算頻率之前過濾掉查詢日志文件中在頻率計算時導致未定義值的任何查詢。這種便于計算的類型可以用在下面所示的其他方程中以避免未定義值的潛在性。 可以對方程(I)作出的另一種修改是包括像對數(shù)項那樣的一些項。在一些情況下,查詢日志文件可以代表若干個月或甚至幾年累積的數(shù)據(jù)。在這樣的情況下,查詢日志文件中的許多數(shù)值,例如頁面視圖的數(shù)量或不同用戶的數(shù)量從絕對意義上來講可能很大。為了便于管理大值,方程(I)中的一些或所有項可以作為對數(shù)值包含。例如,方程(I)中的不同用戶部分可以取而代之地表達成“l(fā)og[l+(#不同用戶)]”。例如底數(shù)2,底數(shù)10,或底數(shù)20的任何方便底數(shù)都可以用于對數(shù)。還要注意到,包括I作為非零值是為了便于避免導致未定義值的計算。也可以處理母查詢文件來識別要考慮的潛在子查詢。如上所述,潛在子查詢可以通過形成母查詢的η元組來形成??商娲氖?,可以將任何其他方便的方法用于形成子查詢,例如形成查詢元素比母查詢少的所有位置無關的變體。在一些實施例中,潛在子查詢可以局限于查詢項少于閾數(shù)的子查詢。在形成潛在子查詢之后,可以將潛在子查詢與查詢日志文件中的查詢匹配。在一個實施例中,可以將潛在子查詢只與查詢日志文件中的精確匹配進行匹配??梢陨釛壴诓樵內罩疚募袥]有匹配項的任何潛在子查詢。也可以為每個匹配子查詢計算母查詢的數(shù)量。母查詢數(shù)量的計算可以發(fā)生在匹配過程之前,期間或之后。可以將給定子查詢的母查詢的總數(shù)稱為那個子查詢的母計數(shù)。此刻,可以為每個查詢計算若干數(shù)值。首先,可以相對于子查詢的相應母查詢地為每個子查詢計算加權頻率。在一個實施例中,可以將加權頻率計算成
(2)加權頻率=(#子查詢中的元素)*頻率/(#母查詢中的元素)
加權頻率顧及了子查詢與母查詢相比的相對項數(shù)。這可以針對可以得出該子查詢的每個母查詢來計算,因此,取決于得到考慮的特定母查詢,具有不止一個母查詢的子查詢可以具有多個不同加權頻率值。接著,通過計及子查詢的母查詢的數(shù)量,可以將加權頻率值用于計算歸一化加權頻率值。一種歸一化方法可以使用過濾查詢文件(或如果未進行過濾,則為查詢日志文件)中的查詢的總數(shù)與可以產(chǎn)生子查詢的母查詢的數(shù)量,或母計數(shù)的比值。在搜索背景下,這種歸一化加權頻率類似于TFIDF (詞頻逆文檔頻率)值。歸一化加權頻率的一種可能格式是
(3)歸一化加權頻率=log[加權頻率]*(查詢清單的大小)/(母計數(shù))
方程(3)可以用于得出子查詢的歸一化加權頻率值。該對數(shù)(log)可以具有像底數(shù)2,底數(shù)10或底數(shù)20那樣的任何方便底數(shù)。對于具有不止一個母查詢的子查詢,可以存在多個歸一化加權頻率值。為了得出用作排名值的單個值,可以對歸一化加權頻率值求平均,例如通過簡單求和歸一化加權頻率值并除以求和項數(shù)??蛇x地,可以將這個平均頻率值用作排名值。在另一個實施例中,可以將平均頻率乘以子查詢中的元素數(shù)量來調整平均頻率值。這個調整頻率值也可以用作排名值。為了簡化下面的討論,將調整頻率值用作排名值。但是,此刻可以作出其他調整以便 進一步修改每個子查詢的排名值。在確定了子查詢的排名值之后,可以創(chuàng)建包含所有子查詢和相應排名值的排名清單。這個子查詢和排名值的清單可以用于生成查詢建議。這個清單可以稱為排名清單。牛成杳詢律議
當接收到查詢時,可以使用子查詢和排名值的清單生成查詢建議。當接收到查詢時,可以識別可能的子查詢??赡艿淖硬樵兛梢允褂蒙鲜龇椒ㄖ蛔R別,例如從查詢中創(chuàng)建η元組或通過創(chuàng)建查詢元素少于原始查詢的子查詢的所有可能位置無關的變體。一旦識別出可能的子查詢,就從排名清單中確定每個可能子查詢的排名??梢赃x擇最高排名子查詢,或可以選擇若干最高排名子查詢,例如前三個子查詢。一個或多個所選子查詢可以作為查詢建議直接提供。可替代的是,可以將一個或多個所選子查詢用作使用生成查詢建議的其他方法的基礎。例如,可以將一個或多個所選子查詢用作對一個查詢被補充附加項以形成所建議查詢的方法的輸入??商娲氖?,可以將一個或多個所選子查詢用作查詢建議引擎的輸入,并且可以將查詢建議引擎生成的一個或多個查詢作為查詢建議來提供。由于所選子查詢短于初始查詢,所以可以使用所選子查詢更好地執(zhí)行這樣生成查詢建議的傳統(tǒng)方法。例I一使用英語杳詢頂?shù)睦?br>
為了演示按照本發(fā)明實施例的操作,提供了如下預言性例子。下面提供的排名值旨在例示本發(fā)明的操作。在如下的例子中,考慮了可以向其提供查詢建議的兩個查詢。第一個查詢是“chocolate cake nutrition facts,,,而第二個查詢是 “recipe for baking chocolatecake)。在如下的例子中,例示了子查詢的查詢項數(shù)局限于兩個查詢項的本發(fā)明實施例。首先,查詢“chocolate cake nutrition facts”可以用于演不作為潛在子查詢的η元組的構建。對于這個查詢,存在包含I個查詢元素的四個η元組chocolate ;cake ;nutrition ;以及facts。存在包含2個查詢兀素的六個η兀組chocolate cake ;chocolatenutrition ;chocolate facts ;cake nutrition ;cake facts ;以及 nutrition facts。存在包含 3 個查詢兀素的四個 n 兀組chocolate cake nutrition ;chocolate cake facts ;chocolate nutrition facts;以及 cake nutrition facts。但是,因為這個實施例只使用含有2個或更少個查詢元素的子查詢,所以不再考慮具有3個查詢元素的四個3元組。因為在本例中使用η元組,所以查詢中的詞序在子查詢中未變更。在確定了潛在η元組(在這種情況下,I個查詢元素和2個查詢元素η元組)之后,可以將η元組與排名清單相比較,以確定最高排名子查詢。表I示出了幾個子查詢的排名值。表I中的排名值代表按照本發(fā)明實施例生成的排名值。表I
權利要求
1.一種生成查詢建議的方法,其包括 獲取查詢日志文件; 識別含有至少4個查詢元素的包含在查詢日志文件中的查詢; 為每個識別的查詢確定子查詢; 將確定的子查詢與查詢日志文件中的查詢匹配; 為每個匹配的子查詢計算排名,該排名基于不同用戶的數(shù)量、頁面視圖數(shù)據(jù)、子查詢中的查詢元素的數(shù)量和子查詢的母查詢的數(shù)量; 接收搜索查詢;· 為接收的搜索查詢確定搜索子查詢,所述搜索子查詢的至少一個對應于具有所計算排名的匹配子查詢; 根據(jù)所選一個或多個搜索子查詢的相應計算排名選擇一個或多個搜索子查詢;以及 根據(jù)所選一個或多個搜索子查詢提供一個或多個建議查詢。
2.如權利要求I所述的方法,其中為每個識別的查詢確定子查詢包括為每個識別的查詢確定η元組。
3.如上面權利要求的任何一項所述的方法,其中為每個識別的查詢確定子查詢包括為每個識別的查詢確定位置無關子查詢,每個位置無關子查詢含有比相應所識別的查詢更少的< 查詢元素。
4.如上面權利要求的任何一項所述的方法,其中所述識別包含在查詢日志文件中的查詢,所述為每個識別的查詢確定子查詢,所述匹配確定的子查詢,以及所述為每個匹配的子查詢計算排名都是自動進行的。
5.如上面權利要求的任何一項所述的方法,進一步包括過濾查詢日志文件以排除一個或多個查詢,其中識別包含在查詢日志文件中的查詢包括根據(jù)過濾的查詢識別查詢。
6.如上面權利要求的任何一項所述的方法,其中為每個識別的查詢確定子查詢包括確定具有查詢項的閾數(shù)或更少的子查詢。
7.如上面權利要求的任何一項所述的方法,其中根據(jù)所選一個或多個搜索子查詢提供一個或多個建議查詢包括將所選的一個或多個搜索子查詢用作查詢建議引擎的輸入并提供所述查詢建議引擎生成的至少一個查詢。
8.如上面權利要求的任何一項所述的方法,其中所識別的查詢包含4到大約60個查詢元素。
9.如上面權利要求的任何一項所述的方法,其中查詢元素對應于基于字的書面語言的字。
10.如權利要求9所述的方法,其中基于字的書面語言是漢語、日語或朝鮮語。
11.如上面權利要求的任何一項所述的方法,其中為每個匹配的子查詢計算排名包括 計算每個子查詢的母查詢的數(shù)量; 根據(jù)不同用戶的數(shù)量和頁面視圖信息為每個子查詢計算頻率; 根據(jù)子查詢中的查詢元素的數(shù)量、母查詢中的查詢元素的數(shù)量、查詢日志文件中的查詢的數(shù)量、以及子查詢的母查詢的數(shù)量為每個子查詢計算一個或多個歸一化加權頻率值,其中為子查詢計算的歸一化加權頻率值的數(shù)量對應于子查詢的母查詢的數(shù)量;以及根據(jù)子查詢的一個或多個歸一化加權頻率值和子查詢的母查詢的數(shù)量為所述子查詢計算平均歸一化加權頻率值。
12.如權利要求11所述的方法,其中平均歸一化加權頻率值進一步基于子查詢中的查詢項的數(shù)量。
13.如權利要求11或12所述的方法,其中該方法進一步包括將生成的排名清單提供給查詢建議引擎。
全文摘要
可以通過識別所希望的子查詢生成查詢建議??梢岳鄯e搜索引擎數(shù)據(jù)來為各種查詢確定使用特征??梢愿鶕?jù)使用數(shù)據(jù)生成和排名潛在子查詢。在對潛在子查詢進行排名之后,當接收到搜索請求時,可以使用排名來選擇子查詢??梢詫⑺x的子查詢直接用作查詢建議,或可以將子查詢用作另一個查詢建議引擎的輸入。
文檔編號G06F17/30GK102859523SQ201180018778
公開日2013年1月2日 申請日期2011年3月31日 優(yōu)先權日2010年4月14日
發(fā)明者陸建平, 張東暉, H.S.K.萬 申請人:微軟公司