專利名稱:檢驗關(guān)鍵字和Web站點內(nèi)容之間的相關(guān)性的制作方法
技術(shù)領域:
本發(fā)明的系統(tǒng)和方法是關(guān)于數(shù)據(jù)挖掘(data mining)的。
背景技術(shù):
關(guān)鍵字和關(guān)鍵字短語是當在萬維網(wǎng)(WWW)上搜索相關(guān)的Web網(wǎng)頁/站點時,由Web沖浪者提交給搜索引擎的詞或項的集合。搜索引擎基于出現(xiàn)在該網(wǎng)頁/站點上的關(guān)鍵字和關(guān)鍵字短語來判斷Web站點的相關(guān)性。由于Web站點相當百分比的業(yè)務量都是由使用搜索引擎而產(chǎn)生的,因此Web站點贊助商知道,合適的關(guān)鍵詞的選擇對于增加站點業(yè)務量以便獲得所希望的站點曝光度是至關(guān)重要的。用于搜索引擎結(jié)果優(yōu)化的識別與Web站點相關(guān)的關(guān)鍵詞的技術(shù)包括,例如,Web站點內(nèi)容的人為評估,目的在于識別相關(guān)的關(guān)鍵詞。這種評估可以包括關(guān)鍵詞普及工具的使用。這種工具確定有多少人向搜索引擎提交了特定的關(guān)鍵詞或包括了該關(guān)鍵詞的短語。與Web站點相關(guān)并被確定為更加經(jīng)常地用于產(chǎn)生搜索查詢的關(guān)鍵詞,通常被選擇來對該Web站點進行搜索引擎結(jié)果優(yōu)化。
在為該Web站點的搜索引擎結(jié)果優(yōu)化而識別一組關(guān)鍵詞之后,贊助商也許希望在搜索引擎的結(jié)果中將Web站點提高到一個更高的位置(與其它Web站點搜索引擎結(jié)果的顯示位置相比)。為此目的,贊助商對關(guān)鍵詞進行投標以使用具體的URL,其中投標指的是Web站點沖浪者每點擊一次與該關(guān)鍵詞關(guān)聯(lián)的該贊助商列表,該贊助商所要付多少錢。換句話說,關(guān)鍵詞投標是為具體的URL(Web站點)提升所進行的按點擊計費的投標。與同一關(guān)鍵詞的其它投標相比的該關(guān)鍵詞投標的數(shù)量越大,搜索引擎在基于該關(guān)鍵詞的搜索結(jié)果中顯示相關(guān)Web站點就越高(意義更顯著)。不幸的是,廣告投標項可能與Web站點內(nèi)容不相關(guān),結(jié)果,可能沒有匹配由最終用戶所使用的項或語言。
看起來,檢驗關(guān)鍵詞與Web站點(即Web站點內(nèi)容)相關(guān)的最簡單的方式就是使用傳統(tǒng)的檢索方法,即僅考慮關(guān)鍵詞與Web站點的相似性而不比較任何的額外的數(shù)據(jù)點。然而,這種技術(shù)實質(zhì)上是受限的。盡管關(guān)鍵詞可以與Web站點相關(guān),但Web站點自身可能不包括支持所希望的關(guān)鍵詞的閾值標準(例如直接匹配、出現(xiàn)次數(shù)等等),這將導致拒絕了潛在的有價值的投標項。例如,考慮一下具有相關(guān)Web站點的在線購物公司對短語“在線購物”進行投標。如果采用傳統(tǒng)的檢索方法,而在該Web站點中相對較少的關(guān)鍵詞“購物”的出現(xiàn)次數(shù)以及無關(guān)鍵詞“在線”的出現(xiàn)次數(shù)被查找到,潛在的有價值的關(guān)鍵詞短語“在線購物”就會錯誤地被取消作為投標項的資格。
另一種傳統(tǒng)的技術(shù)是對所提交的投標項/短語及Web站點進行分類,以獲得兩個類別可能性向量,這些向量然后被結(jié)合到最后的相關(guān)性得分中。這種傳統(tǒng)技術(shù)的問題是它不對其萬維站點的項/短語進行直接評估,這實際上是有問題的。例如,如果廣告商對項“意大利鞋”進行投標,而其萬維站點賣鞋而不是意大利鞋,那么傳統(tǒng)的分類技術(shù)將提示該廣告商,“意大利鞋”的投標短語與該Web站點不相關(guān)。
由上看來,更好地識別與Web站點相關(guān)的關(guān)鍵詞的系統(tǒng)和方法將受到Web站點贊助商的歡迎。這將使得贊助商能夠?qū)Ω赡鼙蛔罱K用戶使用的項進行投標。理想地,這些系統(tǒng)和方法將獨立于人們的需求來評估Web站點內(nèi)容,以便識別用于搜索引擎優(yōu)化和關(guān)鍵詞投標的相關(guān)關(guān)鍵詞。
發(fā)明概述本發(fā)明描述了用于檢驗項和Web站點內(nèi)容之間的相關(guān)性的系統(tǒng)和方法。在一個方面中,來自一個投標URL的站點內(nèi)容被檢索。計算與投標項在語義上和/或上下文上相關(guān)的擴展項。根據(jù)投標項、站點內(nèi)容和擴展項的各個組合計算內(nèi)容相似性和擴展相似性的度量。擴展項和站點內(nèi)容之間的類別相似性度量是考慮到經(jīng)訓練的相似性分類器來確定的。已根據(jù)所挖掘的萬維站點內(nèi)容來訓練了的該經(jīng)訓練的相似性分類器是與目錄數(shù)據(jù)相關(guān)的。提供了投標項和站點內(nèi)容之間的相關(guān)性的客觀度量的信用度值,是考慮到經(jīng)訓練的相關(guān)性分類器模型根據(jù)評估多個相似性得分的內(nèi)容、擴展和類別相似性度量而確定的。
在圖中,組件的附圖標記的最左邊的數(shù)字標識該組件首次出現(xiàn)的特定圖。
圖1示出了檢驗項和Web站點內(nèi)容之間的相關(guān)性的示意性系統(tǒng)。
圖2示出了檢驗項和Web站點內(nèi)容之間的相關(guān)性的示意性處理過程。
圖3示出了檢驗項和Web站點內(nèi)容之間的相關(guān)性的示意性處理過程。特別地,圖3是圖2的示意性操作的延續(xù)。
圖4示出了一個示意性的合適的計算環(huán)境,在該環(huán)境中可以完全或部分地實現(xiàn)隨后描述的檢驗項和Web站點內(nèi)容之間的相關(guān)性的系統(tǒng)、裝置和方法。
詳細說明概述下述系統(tǒng)和方法檢驗項和Web站點內(nèi)容之間的相關(guān)性,以便解決傳統(tǒng)的項資格鑒定技術(shù)的局限。為此目的,該系統(tǒng)和方法通過經(jīng)訓練的分類器模型將多個相似性度量結(jié)合起來,以便提供一個表示投標項是否與特定的Web站點內(nèi)容相關(guān)的信用度值。更特別地,在這種實現(xiàn)方式中,所述多個相似性度量包括內(nèi)容、類別和合適的名稱的相似性得分。
內(nèi)容的相似性得分包括直接和擴展的內(nèi)容相似性。直接內(nèi)容相似性是通過評估投標項的向量模型和所提交的Web站點的站點內(nèi)容來確定的。擴展相似性是通過評估擴展項的向量模型和站點內(nèi)容之間的相似性來確定的。擴展項是考慮到較高出現(xiàn)頻率歷史查詢項而由搜索引擎挖掘的,被確定為在語義上和/或上下文上與投標項相似。類別相似性是通過將經(jīng)訓練的相似性歸類(分類器)模型應用到擴展項和Web站點內(nèi)容上來確定的,以便確定這些輸入之間的類別相關(guān)度。合適的名稱相似性是通過考慮到合適的名稱的數(shù)據(jù)庫來評估投標項和Web站點內(nèi)容而確定的。這些多個相似性度量是采用組合的相關(guān)性分類器模型來組合的,其中該模型是經(jīng)訓練的以便考慮到接受/拒絕閾值地根據(jù)這些得分來產(chǎn)生一個相關(guān)性信用度值。該信用度值考慮到這些多個不同的相似性度量,提供了投標項與Web站點的相關(guān)性的客觀度量。
下面將詳細描述用于檢驗項和Web站點內(nèi)容的相關(guān)性的系統(tǒng)和方法的這些和其它方面。
編輯檢驗的示意性系統(tǒng)轉(zhuǎn)到附圖,用于檢驗項和Web站點內(nèi)容之間的相關(guān)性的系統(tǒng)和方法將像在一種合適的編輯檢驗計算環(huán)境中實現(xiàn)的那樣來加以描述和顯示,其中相同的附圖標記表示相同的組件。盡管不是必需的,但本發(fā)明仍以由個人計算機執(zhí)行的計算機可執(zhí)行指令(程序模塊)的一般上下文來描述。程序模塊通常包括完成特定的任務或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。盡管系統(tǒng)和方法是以上述上下文來描述的,但以下所描述的動作和操作也能以硬件來實現(xiàn)。
圖1示出了用于檢驗投標項和投標的Web站點內(nèi)容之間的相關(guān)性的系統(tǒng)100。在這種實現(xiàn)方式中,系統(tǒng)100包括通過網(wǎng)絡104耦合到搜索引擎106的編輯檢驗服務器102。網(wǎng)絡104可包括局域網(wǎng)(LAN)和通用廣域網(wǎng)(WAN)通信環(huán)境的任意組合,例如那些在辦公室、企業(yè)范圍的計算機網(wǎng)絡、企業(yè)內(nèi)部互聯(lián)網(wǎng)和因特網(wǎng)中常見的那些網(wǎng)絡。編輯檢驗服務器102包括許多程序模塊108,例如搜索項建議(STS)模塊110、相關(guān)性檢驗模塊112、分類模塊114、項匹配模塊116和其它程序模塊118,例如用于根據(jù)標識Web站點的投標統(tǒng)一資源定位符(URL),檢索站點內(nèi)容的Web網(wǎng)頁搜尋程序(crawler)。
一個最終用戶(例如廣告商、Web站點贊助商等等)向編輯檢驗服務器102提供投標輸入120,用于投標項與投標URL的站點內(nèi)容的相關(guān)性檢驗。投標輸入120包括投標項122和投標URL 124。在一種實現(xiàn)方式中,編輯檢驗服務器102包括一個或多個用戶輸入接口(例如,參見圖4的用戶輸入接口460),諸如鍵盤、鼠標、語音識別系統(tǒng)等等,用于該最終用戶將投標輸入120提供給編輯檢驗服務器102。在另一實現(xiàn)方式中,編輯檢驗服務器102通過網(wǎng)絡104而耦合到客戶計算設備(例如圖4的遠程計算機480),用于該最終用戶將投標輸入120提供給編輯檢驗服務器102。
示意性的搜索項建議響應于從一個最終用戶那里接收投標輸入120,搜索項建議模塊102產(chǎn)生搜索項建議列表126,以便用在語義上和/或上下文相關(guān)的項來擴展項122。如下所述,項122的多個含義或上下文可以提供額外的項意義。表1示出了被確定為與“mail”的項122相關(guān)的示意性建議項列表126。與項122相關(guān)的項在該表中在第1列中示出了,標題為“建議項”。
表1用于投標項“mail”的示意性建議項列表
參考表1,值得注意的是,對于每個建議項(第1列),搜索項建議列表126還包括各個相似性度量值(見第2列)以表示建議項和項122之間的相關(guān)度,以及相應的使用頻率的得分(見第3列)以表示第1列的建議項有多頻繁地提交給搜索引擎106。在該實例中,第2列的每個相似性值提供了在相應的建議項(第1列)和投標項122之間的相似性度量或得分,投標項122在該實例中是“mail”。每個頻率值或得分表示在一個最終用戶搜索查詢中該建議項被特定的搜索引擎106使用的次數(shù)。如果要向最終用戶顯示出來,建議項列表126按商業(yè)目的的功能來排序,例如按建議項、相似性和/或頻率得分。
任何給定的項122(例如mail等等)可以具有多于一個的上下文,其中在該上下文中可以使用該投標項。為了證明這一點,搜索項建議模塊110通過上下文分離建議項。例如,參考表1,“mail”的投標項122有兩個上下文(1)傳統(tǒng)的離線mail和(2)在線e-mail。值得注意的是,為這兩個投標項內(nèi)容的每一個來示出建議項的相應的(分離的或獨立的)列表。
建議項列表126的建議項可以多于項122的同義字。例如,參考表1,建議項“usps”是經(jīng)營郵政業(yè)務的組織的首字母縮略語,不是“mail”投標項的同義字。然而,“usps”也是在上下文上與“mail”投標項非常相關(guān)的項,因此也在建議項列表126中示出了。在一種實現(xiàn)方式中,搜索項建議模塊110將相關(guān)項R(例如“usps”)和目標項T(例如“mail”)之間的關(guān)系,確定為一個具有下述結(jié)合規(guī)則itr(T)→itr(R)的函數(shù),其中“itr”表示“interested in”(感興趣)。也就是,如果一個最終用戶(廣告商、Web站點贊助商等等)對R感興趣,那么該最終用戶也可能對T感興趣。
為了產(chǎn)生搜索項建議列表126,搜索項建議模塊110向搜索引擎106提交從查詢?nèi)罩?30中挖掘的精選的歷史查詢。該提交給搜索引擎106的精選的歷史查詢被搜索項建議模塊126識別為與從查詢?nèi)罩?30中挖掘的其它歷史查詢項相比實質(zhì)上具有較高出現(xiàn)頻率(FOO)。在這種實現(xiàn)方式中,可配置的閾值用于確定歷史查詢是具有相對較高還是較低的出現(xiàn)頻率。例如,出現(xiàn)的次數(shù)至少是閾值的歷史查詢項,被認為是具有較高的出現(xiàn)頻率。類似地,出現(xiàn)的次數(shù)少于閾值的歷史查詢項被認為是具有較低的出現(xiàn)頻率。為便于說明,這種閾值以“其它數(shù)據(jù)”132的一個相應的部分來示出。較高和較低的FOO查詢項被示為“其它數(shù)據(jù)”132的“較高/較低FOO查詢”部分。
搜索項建議模塊110從用于每個查詢項的精選的返回搜索結(jié)果(例如一個或多個排在頂層的搜索結(jié)果)中提取一組特征或片斷描述。搜索項建議模塊110在所提取的數(shù)據(jù)上執(zhí)行文本預處理操作,以產(chǎn)生單獨的項令牌。為了降低令牌的維數(shù),搜索項建議模塊110移走了任何無用詞(例如,“the”、“a”、“is”等等)并移走常見的后綴,從而例如使用公知的Porter詞干算法來標準化這些項。搜索項建議模塊110將結(jié)果項和其它所提取的特征安排到一個或多個搜索項建議(STS)向量中(如項向量134的相應部分所示)。每個STS向量134具有基于項頻率的量綱以及反向的文檔頻率(TFIDF)得分。
第i個向量的第j個項的加權(quán)按下式來計算Wij=TFij×log(N/DFj)其中TFij表示項頻率(在第i條記錄中出現(xiàn)項j的數(shù)目),N是查詢項的總數(shù)目,以及DFi是包含項j的記錄的數(shù)目。搜索項建議模塊110使用這些相應的加權(quán)對來自STS向量134的相似的項和上下文進行分組,以便產(chǎn)生項簇136。為此目的,在這種實現(xiàn)方式中,給出每個項的向量表示,余弦函數(shù)被用于度量一對項(回憶一下,項被標準化了)之間的相似性sim(qj,qk)=Σi=1dwij·wik]]>這樣,兩個項之間的距離(相似性度量)由下式來定義dist(qj,qk)=1-sim(qj,qk)這種搜索項建議(STS)相似性度量被作為“其它數(shù)據(jù)”132的相應部分來示出。這種示意性的相似性值在上面的示意性建議項列表126的表1中示出了。
搜索項建議模塊110使用經(jīng)計算的項相似性度量,基于項簇136的部分將STS向量134中的項分簇/分組為較高FOO的歷史查詢項。更特別地,在這種實現(xiàn)方式中,搜索項建議模塊110使用公知的基于密度的分簇算法(DBSCAN)來產(chǎn)生這些項簇136。DBSCAN使用兩個參數(shù)Eps和MinPts。Eps表示項簇136中的點之間的最大距離。點是項的一個特征向量。在較高維數(shù)空間中,向量等同于點。MinPts表示項簇136中的點的最小數(shù)目。為了產(chǎn)生簇136,DBSCAN從任意一點p開始,相對于Eps和MinPts從p檢索所有密度可達到的點。如果p是核點,那么這種操作相關(guān)于Eps和MinPts產(chǎn)生項簇136。如果p是邊界點,那么就沒有點可以是從p密度可達到的,DBSCAN訪問下一個點。
搜索項建議模塊110然后將項122與項簇136中的各個項進行比較。由于項簇包括在語義上和/或上下文上互相相關(guān)的特征,這就考慮到多個相關(guān)的上下文或“含義”來評估項122以便擴展項122,從而產(chǎn)生搜索項建議列表126。在一種實現(xiàn)方式中,如果搜索項建議模塊110確定項122與僅僅一個簇136的項匹配,那么搜索項建議模塊110就從所述一個簇136中產(chǎn)生建議項列表126。在這種實現(xiàn)方式中,匹配可以是精確的匹配,也可以是具有少量變化的匹配,例如單/復數(shù)形式、拼寫錯誤、標點符號等等。所產(chǎn)生的項列表按一定的標準來排列,例如可以是FOO以及項122和建議項之間的相似性的線性組合,如Score(qi)αFOO(qi)+βsim(qi,Q)其中α+β=1。
如果搜索項建議模塊110確定項122與多個項簇136中的項相匹配,那么搜索項建議模塊110就從所述多個項簇的項中產(chǎn)生建議項列表126。來自每個簇的建議項采用與在段落 中所描述的方法相同的方式來排列。
用于產(chǎn)生搜索項建議列表126的搜索項建議模塊110的示意性系統(tǒng)和方法已在04年4月15日提交的,序列號為10/825,894,題為“Related Term Suggestionfor Multi-sense Query”的美國專利申請中進行了描述。
示意性的相關(guān)性檢驗相關(guān)性檢驗模塊112使用搜索項建議列表126中的建議項(即擴展投標輸入120的項122的項)和投標輸入120(即項122和來自URL 124的站點內(nèi)容),來產(chǎn)生信用度值138,該值度量投標項122和投標URL 124的站點內(nèi)容之間的相關(guān)性。為此目的,相關(guān)度檢驗模塊112根據(jù)多個相似性度量計算信用度值138,為便于說明和討論,該值被表示為相關(guān)性檢驗(RV)相似性度量140。在這種實現(xiàn)方式中,RV相似性度量140例如包括,內(nèi)容相似性、分類相似性和合適的名稱相似性得分。現(xiàn)在將描述這些RV相似性度量140的每種類型。
RV相似性度量140的內(nèi)容相似性度量部分包括直接和擴展的相似性度量。為了計算直接相似性,相關(guān)性檢驗模塊112度量項122和URL 124的站點內(nèi)容之間的相似性/相關(guān)度,兩者都在向量空間中被模型化。為了計算擴展的相似性,URL 124的站點內(nèi)容,例如通過Web網(wǎng)頁搜尋模塊來檢索,其中該模塊是由“其它程序模塊”118的相應部分來表示的。相關(guān)性檢驗模塊112確定搜索項建議列表126的建議項和URL 124的站點內(nèi)容之間的相似性,這兩個輸入也已在向量空間中模型化。如上所述,搜索項建議列表126的建議項是(a)考慮到所提交的較高FOO歷史查詢項從搜索引擎106返回的結(jié)果中挖掘的。這樣,建議項被確定為在語義上和/或上下文上與投標項122相關(guān)。
RV相似性度量140的合適的名稱相似性度量部分表示在投標項122中檢測的任何合適的名稱與URL 124的站點內(nèi)容之間的相似性/相關(guān)度。為了便于討論,合適的名稱的數(shù)據(jù)庫用“其它數(shù)據(jù)”132的相應部分來表示。這種合適的名稱例如包括國家名、城市名以及著名的商標。更特別地,在投標輸入120中檢測任何合適的名稱時,相關(guān)性檢驗模塊112按下式計算合適的名稱相似性Prop_Sim(項,頁面)=1-如果項包括一個合適的名稱P,并且頁面包括相符的合適的名稱Q。
O-如果項包括一個合適的名稱P,并且頁畫只包括不相符的合適的名稱g。
0.5-其它。
合適的名稱是與其自身和其祖先相符的。例如,下位的地理位置與包括它的上位的地理位置相符,例如,米蘭與意大利相符。
RV相似性度量140的分類相似性度量部分度量搜索項建議列表126的建議項和URL 124的站點內(nèi)容之間的相關(guān)度。更特別地,通過將建議項和Web站點內(nèi)容提交給經(jīng)訓練的相似性分類器(歸類)142來產(chǎn)生分類相似性度量。相關(guān)性檢驗模塊122以多種不同的分類技術(shù)(例如, Bayesian定律(NB)、支持向量機(SVM)、基于統(tǒng)計n-gram的 Bayesian(N-Gram)、最近鄰域(KNN)、決策樹、聯(lián)合訓練、助推等等)中的任意一種來訓練相似性分類器142,下面將進行描述。
示意性的離線相似性分類器訓練相關(guān)性檢驗模塊112在目錄數(shù)據(jù)(參見,“其它數(shù)據(jù)”132)上以φX L來訓練相似性分類器142,其中X是輸入(具有從一個項到幾個網(wǎng)頁內(nèi)容的規(guī)模的串流),并且L是輸出(遍及類別的上兩層的可能性)。類別分類學是具有分級結(jié)構(gòu)。在這種實現(xiàn)方式中,至于分類,使用LookSmart目錄數(shù)據(jù)的第2層類別,這些類別的總和是某一數(shù)目(例如是74)。相關(guān)性檢驗模塊112在目錄數(shù)據(jù)上執(zhí)行特征提取和特征選擇操作。更特別地,相關(guān)性檢驗模塊112從由該目錄數(shù)據(jù)所識別的Web網(wǎng)頁中提取片斷描述(所提取的數(shù)據(jù))。該Web網(wǎng)頁例如通過由“其它程序模塊”118的相應部分所表示的Web網(wǎng)頁搜尋模塊來檢索。用于特定Web網(wǎng)頁的每個片斷描述例如包括,一個或多個標題、元數(shù)據(jù)、正文、錨文本、字體大小、超鏈接、圖像、原始的HTML(例如概要和網(wǎng)頁布局信息)等等。
相關(guān)性檢驗模塊112采用簡單文本預處理,來從所提取的特征/數(shù)據(jù)中產(chǎn)生語言令牌(即令牌化單個項)。為了降低令牌的維數(shù),相關(guān)性檢驗模塊112移走任何無用詞并移走常見的后綴,以便例如使用公知的Porter詞干算法來標準化項。相關(guān)性檢驗模塊112將作為結(jié)果的所提取的特征安排到一個或多個相關(guān)性檢驗(RV)項向量(即RV向量134)中。同樣地,每個Web網(wǎng)頁都被表示為一個特征向量,其組成部分是一個具有加權(quán)xi=<xi1,xi2...xin>的字。加權(quán)xij是通過長度標準化的log(tf).idf來計算,其具有下述形式idft×1+log(fd,t)1+log(avefd)×1avedlb+S×(dlbd-avedlb),]]>其中d表示原始文檔,t表示項,fxt表示x中項t的頻率,idft表示項t的反向文檔頻率,dlbx表示x中唯一的項的數(shù)目,avefx表示x中的項頻率的平均值,以及avedlb表示集合中的dlbx的平均值。
相關(guān)性檢驗模塊112的特征選擇操作還減少RV向量134的特征(太多的特征會降低分類系統(tǒng)的性能和準確性)。在這種實現(xiàn)方式中,信息增益(IG)選擇方法被用于特征選擇。項的信息增益按下式在文檔中,度量為了預計類別而通過項的出現(xiàn)或不出現(xiàn)獲得的信息的位數(shù)IG(t)=-Σi=1mp(ci)logp(ci)+p(t)Σi=1mp(ci|t)logp(ci|t)+p(t‾)Σi=1mp(ci|t‾)logp(ci|t‾),]]>其中,t表示項,c表示類別,m表示類別的總數(shù)。也可以使用其它的特征選擇方法,例如交互信息(MI)、文檔頻率(DF)和線性判別式分析(LDA)。
在這種實現(xiàn)方式中,盡管可以使用其它類型的分類器,但相關(guān)性檢驗模塊112的分類器訓練操作使用了基于統(tǒng)計n-gram的 Bayesian分類器(N-Gram)。特別地,與 Bayesian分類器不同的是,統(tǒng)計n-gram模型沒有假設字流的獨立。它假設Markov n-gram的獨立性,即一個字按下式與前面的n-1個字相關(guān)p(wi|w1,w2,...,wi-1)=P(wi|wi-n+l,...,wi-1)。
對來自訓練庫的這種可能性的直接評估是由下式所觀察到的頻率來給出的
p(wi|wi-n+1,...,wi-1)=#(wi-n+1,...,wi)#(wi-n+1,...,wi-1).]]>在訓練數(shù)據(jù)中(Wi-n+1,...wi),#(wi-n+1,...wi-1)的值中的大多數(shù)都是零。所以平滑技術(shù)就是要評估零的可能性以便處理任意的數(shù)據(jù)稀疏。后退n-gram模型是處理這種問題的一種方式,如下 其中,p^(wi|wi-n+1,...,wi-1)=discount#(wi-n+1,...,wi)#(wi-n+1,...,wi-1).]]>是打折扣的條件可能性,而β(wi-n+1,...,wi-1)是n-gram到(n-1)-gram的后退因子β(wi-n+1,...,wi-1)=1-Σx:#(wi-n+1,...,wi-1,x)>0p^(x|wi-n+1,...,wi-1)1-Σx:#(wi-n+1,...,wi-1,x)>0p^(x|wi-n+2,...,wi-1).]]>存在著幾種計算打折扣的可能性的算法。在這種實現(xiàn)方式中,“絕對平滑”按下式來使用p^(wi|wi-n+1,...,wi-1)=#(wi-n+1,...,wi)-b#(wi-n+1,...,wi-1)]]>其中b=n1n2+2n2,]]>ni是在訓練數(shù)據(jù)中正好出現(xiàn)i次的字的數(shù)目。這樣,我們可將NB分類器修改為n-gram分類器cn-gram=argmaxcj∈Vp(cj)Πipcj(wi|wi-n+1,...,wi-1)]]>在這種實現(xiàn)方式中,n=3,n-gram分類器被稱為3-gram分類器。
相似性度量的專家級組合相關(guān)性檢驗模塊112考慮到組合的相關(guān)性分類器144來評估多個RV相似性度量140,以便產(chǎn)生信用度值138,其中該信用度值138表示投標項122與投標URL 124的站點內(nèi)容的客觀相關(guān)性。組合的相關(guān)性分類器144以監(jiān)督學習來加以訓練,例如作為SVM分類器,以考慮到拒絕/接受項/短語閾值的<項,Web網(wǎng)頁(URL),接受/拒絕>格式的數(shù)據(jù)來加以訓練。為便于討論,拒絕/接受項閾值以“其它數(shù)據(jù)”132的相應部分來示出。
RV相似性度量140被視為用于投標輸入120的特征向量(即,<項,網(wǎng)頁>對)。為了便于說明和討論,作為特征向量的RV相似性度量(SM)被顯示為RVSM特征向量140。我們有下列投標輸入120和RV相似性度量140的計算、
·投標輸入120<項122,URL 124>;·基于內(nèi)容的項122,URL 124的RV相似性度量140,其被表示為Sim(項122,URL 124);·基于擴展內(nèi)容的RV相似性度量140-Ex_Sim(擴展項126,URL 124);·基于RV相似性度量140的相關(guān)性分類器142-Cate_Sim(擴展項126的類別,URL的類別);以及·基于RV相似性度量140的合適的名稱-Proper_Sim(合適的名稱,項122,URL 124)。
相關(guān)性檢驗模塊112將<項,查詢>的RVSM特征向量應用到組合的相關(guān)性分類器144中,以便考慮到拒絕/接受相關(guān)性閾值來映射多個RV相似性值140,以便計算各個RV相似性類型加權(quán)(即內(nèi)容,擴展的,類別和合適的相似性度量類型)和最終信用度值138。
低FOO項的分類考慮到可配置的閾值,如果信用度值138指出,在與URL 124的站點內(nèi)容不相關(guān)之時項122應該被拒絕,那么分類模塊114就基于對于最終用戶來說的較低出現(xiàn)頻率(FOO)的查詢項來產(chǎn)生建議項列表126,以便考慮到URL 124的站點內(nèi)容進行評估。在這種實現(xiàn)方式中,建議項列表126被顯示為被傳達到最終用戶以進行評估的消息146。特別地,分類模塊114使用來自項簇136的STS分類器148,如上所述,該分類器是從較高出現(xiàn)頻率(FOO)的查詢?nèi)罩卷椫挟a(chǎn)生的。分類模塊114使用STS分類器148來將基于高FOO的項簇136分組為一個或多個STS類別(見“其它數(shù)據(jù)”132),使其作為有關(guān)它們各自的項內(nèi)容的函數(shù)。項簇136已經(jīng)存在于適合于分類操作的向量空間模塊中。而且,無用詞的移除和詞干還原(后綴的移除)已經(jīng)降低了項簇136內(nèi)容的維數(shù)。在一種實現(xiàn)方式中,可以采用另外的維數(shù)降低技術(shù),例如特征選擇或者再參數(shù)化。
在這種實現(xiàn)方式中,為了對未知類的項簇136進行分類,分類模塊114使用k最近鄰域分類器算法,來在項向量中對未知類簇的鄰域進行排列,并使用k最相似鄰域的類標簽來預測未知類的項的類。這些鄰域的類采用每個鄰域與X相比的相似性來加權(quán),這里的相似性是由兩個文檔向量之間的歐幾里得距離或余弦值來度量的。該余弦相似性按下式計算
sim(X,Dj)=Σti∈(x∩Dj)xixdij||X||2x||Dj||2]]>這里X是測試文檔,以向量來表示;Di是第j個訓練文檔;ti是由X和Dj共享的字;xi是X中項ti的加權(quán);dij是文檔Dj中項ti的加權(quán);||X||2=x12+x22+x32...||X||2=x12+x22+x32...]]>是X的范數(shù),以及‖Dj‖2是Dj的范數(shù)。截止閾值用于將新文檔分配給已知類。
在另一種實現(xiàn)方式中,與最近鄰域分類技術(shù)不同的統(tǒng)計分類和機器學習技術(shù)(例如,包括回歸模型,Bayesian分類器,決策樹,神經(jīng)網(wǎng)絡以及支持向量機)被用于產(chǎn)生經(jīng)訓練的STS分類器。
分類模塊114向搜索引擎106一個接一個地提交較低出現(xiàn)頻率(FOO)的查詢項(見“其它數(shù)據(jù)”132的較高/較低查詢項部分)。響應于接收每一個提交給搜索引擎的查詢的相應搜索結(jié)果,并使用已描述過的技術(shù),分類模塊114從搜索結(jié)果中識別的一個或多個所檢索的Web網(wǎng)頁中的每一個中,提取諸如片斷描述的特征。在這種實現(xiàn)方式中,特征是從第一個排在頂層的Web網(wǎng)頁中提取的。這些提取的特征在“其它數(shù)據(jù)”132的相應部分中示出了。在另一種實現(xiàn)方式中,特征是從多個排在頂層的Web網(wǎng)頁中提取的。對于每個被檢索和分析的Web網(wǎng)頁,分類模塊114在所提取的特征的各個記錄中存儲下列信息片斷描述,用于獲得所檢索的Web網(wǎng)頁的搜索查詢,以及所檢索的Web網(wǎng)頁的通用資源標識符(URI)。接著,分類模塊114對從較低FOO查詢項中獲得的所提取的特征138令牌化,降低維數(shù)并標準化,以便產(chǎn)生另一組項向量(即,STS向量134)。
分類模塊114將STS向量134中的項分簇為項簇136的各個組,它們是基于較低FOO查詢項的簇。這種分簇操作是使用經(jīng)訓練的STS分類器148來執(zhí)行的,如上所述,是從較高FOO查詢項中產(chǎn)生的。分類模塊114考慮到這些項簇來評估項,以便識別并向最終用戶返回包括這些其它項的建議項列表126。
示意性的項匹配考慮到可配置的閾值,如果信用度值138指出,在與URL 124的站點內(nèi)容不相關(guān)之時應當接受項122,那么投標輸入120就被存儲在投標數(shù)據(jù)庫150中,用于解答從最終用戶接收的隨后的查詢152。例如,響應于從最終用戶搜索Web網(wǎng)頁接收查詢152,項匹配模塊116編輯查詢152中的項和來自投標數(shù)據(jù)庫150的項之間的距離,以便確定查詢152中的項與相比投標項122的相關(guān)度。特別地,項匹配模塊116按下式確定相關(guān)性relevance*=log(1+α(βxfCommon+(1-β)xfDistance))log(1+α),]]>其中fCommon表示常見項的數(shù)目,并且fDistance表示投標項122已經(jīng)與查詢152的項交換的次數(shù)。
示意性的處理過程圖2示出了一種用于檢驗項和Web站點內(nèi)容之間相關(guān)性的示意性處理過程200。為了便于討論,將討論與圖1的組件有關(guān)的該處理過程的操作(所有的附圖標記都是用首次出現(xiàn)該組件的圖號開始的)。在方塊202中,搜索項建議模塊110從搜索引擎106的搜索結(jié)果中產(chǎn)生第一組項簇136。為了便于討論,這種搜索結(jié)果被顯示為“其它數(shù)據(jù)”132的相應部分。為了獲得該搜索結(jié)果,搜索項建議模塊110發(fā)送從查詢?nèi)罩?30中挖掘的較高出現(xiàn)頻率的歷史查詢。項簇136包括片斷描述、相應的搜索查詢以及由搜索項建議模塊110確定為在語義上和/或上下文上與所提交的較高出現(xiàn)頻率的歷史查詢相關(guān)的Web網(wǎng)頁。
在方塊204中,響應于編輯檢驗服務器102接收包括項122和URL 124的投標輸入120,搜索項建議模塊110根據(jù)從較高出現(xiàn)頻率的歷史查詢項中產(chǎn)生的項簇136來識別擴展項。這種擴展項包括在語義上和/或上下文上與項122和/或投標URL 124的站點內(nèi)容相關(guān)的項。擴展項被顯示為圖1的建議項列表126。在方塊206中,相關(guān)性檢驗模塊112分別根據(jù)投標項122、投標URL 124、建議的項列表126的擴展項、經(jīng)訓練的相似性分類器142和/或合適的名稱數(shù)據(jù)庫的組合,來計算內(nèi)容、擴展的、分類的以及合適的名稱的相似性值(即,RV相似性度量140)。在方塊208中,相似性檢驗模塊112考慮到經(jīng)訓練的組合相關(guān)性分類器144和接受/拒絕閾值(見“其它數(shù)據(jù)”132),將RV相似性度量140進行組合,以便獲得信用度值138。信用度值138提供了投標項122和投標URL 124之間的相關(guān)性的客觀度量。
在方塊210中,相關(guān)性檢驗模塊112考慮到該接受/拒絕閾值,來確定信用度值138是否太低。如果太低,則處理過程在方塊212中繼續(xù)。在方塊212中,分類模塊114基于屬于較低FOO歷史查詢的搜索引擎106結(jié)果以及第一組項簇136上訓練的分類器,從基于對的第二組項簇136中產(chǎn)生建議項列表126。建議項列表126的項被分類模塊114確定為,在語義上和/或上下文上與相關(guān)于投標URL 124的站點內(nèi)容相似。為了便于說明,將分類器表示為STS分類器148。在該實例中,建議項列表126被顯示為被傳達到最終用戶以進行評估的消息146。
在方塊208中,如果相關(guān)性檢驗模塊112確定信用度值138是可接受的(在考慮到接受/拒絕閾值的情況下不太低),處理過程就在圖3的方塊302中繼續(xù),如頁面上的標記“A”所示。
圖3示出了用于檢驗項和Web站點內(nèi)容之間的相關(guān)性的示意性處理過程300。特別地,圖3是圖2的示意性操作的延續(xù)。在方塊302中,相關(guān)性檢驗模塊112將投標項122和投標URL 124存儲/緩存到投標數(shù)據(jù)庫150中。在方塊304中,響應于編輯檢驗服務器102接收任何最終用戶的查詢152,項匹配模塊116考慮到查詢項可能沒有與投標項122精確地匹配的可能性,確定搜索查詢152的項是否與存儲在投標數(shù)據(jù)庫150中的項122相關(guān)。在方塊306中,如果確定查詢152的項與投標項122相關(guān),編輯檢驗服務器102將相應的投標URL 124發(fā)送給最終用戶作為搜索結(jié)果。
示意性的操作環(huán)境圖4示出了合適的計算環(huán)境400的一個實例,在該環(huán)境下可以完全或部分地實現(xiàn)用于檢驗項和Web站點內(nèi)容之間的相關(guān)性的圖1的系統(tǒng)100和圖2和3的方法。示意性計算環(huán)境400只是合適的計算環(huán)境的一個實例,并不對這里描述的系統(tǒng)和方法的使用或功能性的范圍作出任何限制。也不該將計算環(huán)境400解釋為具有任何與在該計算環(huán)境400中示出的任一組件或其組合相關(guān)的依賴或需要。
這里描述的方法和系統(tǒng)可以用許多其它通用或?qū)S玫挠嬎阆到y(tǒng)環(huán)境或配置來操作。公知的適于使用的計算系統(tǒng)、環(huán)境和/或配置的實例包括,但不限制于,個人計算機、服務器計算機、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、網(wǎng)絡PC、小型機、大型機以及包括上述系統(tǒng)或設備的任一個的分布計算環(huán)境等等??蚣艿木o湊版或子集版也可以在有限資源的客戶機中實現(xiàn),例如手持式計算機或其它計算設備。本發(fā)明可在分布計算環(huán)境中實現(xiàn),其任務可由通過通信網(wǎng)絡鏈接的遠程處理設備來執(zhí)行。在分布計算環(huán)境中,程序模塊可以位于本地和遠程存儲設備中。
參考圖4,用于檢驗項和Web站點內(nèi)容之間的相關(guān)性的示意性系統(tǒng)包括以計算機410的形式出現(xiàn)的通用計算設備。計算機410的下述部分是客戶機計算設備PSS服務器102(圖1)和/或客戶機計算設備106的示意性實現(xiàn)設備。計算機410的組件可以包括,但不限制于,處理單元420、系統(tǒng)存儲器430和系統(tǒng)總線421,該總線將包括該系統(tǒng)存儲器在內(nèi)的各種系統(tǒng)組件耦合到該處理單元420上。系統(tǒng)總線421可以是幾種總線結(jié)構(gòu)中的任一種,包括存儲器總線或存儲器控制器、外圍總線和使用各種總線體系結(jié)構(gòu)中的任一種的本地總線。通過舉例但不是限制的方式,這種體系結(jié)構(gòu)可以包括工業(yè)標準體系結(jié)構(gòu)(ISA)總線、微通道體系結(jié)構(gòu)(MCA)總線、增強ISA(EISA)總線、視頻電子標準協(xié)會(VESA)本地總線以及也稱為小背板總線的周邊元件擴展接口(PCI)總線。
計算機410典型地包括各種計算機可讀介質(zhì)。計算機可讀介質(zhì)可以是任何可由計算機410訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動和非可移動的介質(zhì)。作為實例,但不是限制,計算機可讀介質(zhì)可包括計算機存儲介質(zhì)和通信介質(zhì)。計算機存儲介質(zhì)包括以任意方式或技術(shù)實現(xiàn)的,用于存儲諸如計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)的信息的易失性和非易失性,可移動和非可移動介質(zhì)。計算機存儲介質(zhì)包括,但不限制于,RAM、ROM、EEPROM、閃存或其它存儲技術(shù)、CD-ROM、數(shù)字化通用光盤(DVD)或其它光盤存儲器、磁帶盒、磁帶、磁盤存儲器或其它磁存儲設備,或者其它任何用于存儲所需信息并能被計算機410訪問的介質(zhì)。
通信介質(zhì)典型地包括有在諸如載波或其它傳輸機制的經(jīng)調(diào)制的數(shù)據(jù)信號中的計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù),并且包括任意一種信息傳遞介質(zhì)。術(shù)語“經(jīng)調(diào)制的數(shù)據(jù)信號”指的是一種信號,它的一個或多個特征被以如此方式來設定或改變,以便在該信號中編碼信息。作為實例但不是限制,通信介質(zhì)包括諸如有線網(wǎng)絡或直接線連接的有線介質(zhì),以及諸如聲波、RF、紅外和其它無線介質(zhì)的無線介質(zhì)。上述任何一種組合也應包括在計算機可讀介質(zhì)的范圍內(nèi)。
系統(tǒng)存儲器430包括易失性和/或非易失性存儲器形式的計算機存儲介質(zhì),例如只讀存儲器(ROM)431和隨機存取存儲器(RAM)432?;据斎?輸出系統(tǒng)433(BIOS)典型地存儲在ROM 431中,其中該基本輸入/輸出系統(tǒng)433包含幫助在計算機410的內(nèi)部各組件之間傳輸信息的基本例程,例如在啟動期間。RAM 432典型地包括可由處理單元420立即訪問以及/或者當前正在操作的數(shù)據(jù)和/或程序模塊。作為實例但不是限制,圖4示出了操作系統(tǒng)434、應用程序435、其它程序模塊436以及程序數(shù)據(jù)437。在一種實現(xiàn)方式中,應用程序435包括圖1的程序模塊108。在這種相同的方案中,程序數(shù)據(jù)437包括圖1的程序數(shù)據(jù)128。
計算機410也可以包括其它的可移動/非可移動、易失性/非易失性計算機存儲介質(zhì)。僅作為實例,圖4示出了讀寫非可移動、非易失性磁介質(zhì)的硬盤驅(qū)動器441,讀寫可移動、非易失性磁盤452的磁盤驅(qū)動器451,以及讀寫可移動、非易失性光盤456諸如CD ROM或其它光學介質(zhì)的光盤驅(qū)動器455。其它能夠用于該示意性操作環(huán)境中的可移動/非可移動、易失性/非易失性計算機存儲介質(zhì)包括,但不限制于,磁帶盒、閃存卡、數(shù)字化通用光盤、數(shù)字視頻帶,固態(tài)RAM、固態(tài)ROM等等。硬盤驅(qū)動器441典型地經(jīng)由諸如接口440的非可移動存儲接口連接到系統(tǒng)總線421,磁盤驅(qū)動器451和光盤驅(qū)動器455典型地由可移動存儲接口,例如接口450連接到系統(tǒng)總線421。
這些驅(qū)動器以及與它們關(guān)聯(lián)的在上面討論了并在圖4中示出了的計算機存儲介質(zhì)提供對計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和用于計算機410的其它數(shù)據(jù)的存儲。例如,在圖4中,硬盤驅(qū)動441被顯示為存儲操作系統(tǒng)444、應用程序445、其它程序模塊446和程序數(shù)據(jù)447。值得注意的是,這些部分可以與操作系統(tǒng)434、應用程序435、其它程序模塊436和程序數(shù)據(jù)437相同,也可以與它們不同。操作系統(tǒng)444、應用程序445、其它程序模塊446和程序數(shù)據(jù)447在這里具有不同的標記,以便表示它們至少是不同的拷貝。
用戶可通過諸如鍵盤462和定點設備461的輸入設備將命令或信息輸入到計算機410中,其中定點設備461通常指的是鼠標、軌跡球或觸摸墊。其它輸入設備(未示出)可包括話筒、操縱桿、游戲墊、圓盤式衛(wèi)星電視天線、掃描儀等等。這些和其它輸入設備通常通過耦合在系統(tǒng)總線421上的用戶輸入接口460連接到處理單元420上,但也可以通過其它接口或總線結(jié)構(gòu)進行連接,例如并行端口、游戲端口或通用串行總線(USB)。
監(jiān)視器491或其它類型的顯示設備也經(jīng)由接口,例如視頻接口490連接到系統(tǒng)總線421上。除了監(jiān)視器以外,計算機也可以包括其它外圍輸出設備,諸如揚聲器497和打印機496,它們可通過輸出外圍接口495進行連接。
計算機410在使用對一個或多個遠程計算機,例如遠程計算機480進行本地連接的聯(lián)網(wǎng)環(huán)境中操作。遠程計算機480可以是個人計算機、服務器、路由器、網(wǎng)絡PC、同級設備或其它常見網(wǎng)絡節(jié)點,作為其一種特定實現(xiàn)方式,盡管只有存儲設備481在圖4中示出,但該遠程計算機480可以包括多個或全部上述與計算機410相關(guān)的部分。在圖4中描述的本地連接包括局域網(wǎng)(LAN)471和廣域網(wǎng)(WAN)473,但也可以包括其它網(wǎng)絡。這種聯(lián)網(wǎng)環(huán)境在辦公室、企業(yè)范圍的計算機網(wǎng)絡、企業(yè)內(nèi)部互聯(lián)網(wǎng)和因特網(wǎng)中是常見的。
當用于LAN聯(lián)網(wǎng)環(huán)境中時,計算機410通過網(wǎng)絡接口或適配器470連接到LAN 471。當用于WAN聯(lián)網(wǎng)環(huán)境中時,計算機410典型地包括調(diào)制解調(diào)器472或用于在WAN 473上建立通信的其它裝置,例如因特網(wǎng)??梢允莾?nèi)置的或外置的調(diào)制解調(diào)器472,可以經(jīng)由用戶輸入接口460或其它合適的機制連接到系統(tǒng)總線421上。在聯(lián)網(wǎng)環(huán)境中,所描述的與計算機410相關(guān)的程序模塊,或其部分,可以存儲在遠程存儲設備中。作為實例但不是限制,圖4示出了駐留在存儲設備481中的遠程應用程序485。所示的網(wǎng)絡連接是示意性的,可以使用在計算機之間建立通信鏈路的其它裝置。
結(jié)論盡管已經(jīng)以具體于結(jié)構(gòu)特征和/或方法論的操作或動作的語言描述了用于在項和Web站點內(nèi)容之間檢驗相關(guān)性的系統(tǒng)和方法,但可以理解,在所附權(quán)利要求中所定義的實現(xiàn)方式不必限制于所描述的具體特征或動作。因此,具體特征和動作是以實現(xiàn)所要求的主題的示意性方式進行揭示的。
權(quán)利要求
1.一種用于檢驗項和Web站點內(nèi)容之間的相關(guān)性的方法,該方法包括根據(jù)投標URL檢索站點內(nèi)容;用公式表示在語義上和/或上下文上與投標項相關(guān)的擴展項;根據(jù)投標項、站點內(nèi)容和擴展項的各個組合,產(chǎn)生內(nèi)容相似性和擴展相似性度量,該相似性度量表示投標項、站點內(nèi)容和/或擴展項之間的相關(guān)度;考慮到相似性分類器,計算擴展項和站點內(nèi)容之間的類別相似性度量,該相似性分類器已根據(jù)挖掘的與目錄數(shù)據(jù)相關(guān)的萬維站點內(nèi)容進行了訓練;根據(jù)多個相似性度量的組合來計算信用度值,所述組合包括內(nèi)容、擴展和類別相似性度量,該信用度值提供了投標項和站點內(nèi)容之間的相關(guān)性的客觀度量。
2.如權(quán)利要求1所述的方法,其中相似性分類器是以基于統(tǒng)計n-gram的 Bayesian定律(N-Gram)、 Bayesian(NB)、支持向量機(SVM)、最近鄰域(KNN)、決策樹、聯(lián)合訓練、助推分類模型為基礎的。
3.如權(quán)利要求1所述的方法,其中用公式表示擴展項還包括基于所計算的項相似性從項向量中產(chǎn)生項簇,該項向量是從歷史查詢中產(chǎn)生的,每個歷史查詢具有較高的出現(xiàn)頻率,該項簇包括該擴展項。
4.如權(quán)利要求1所述的方法,其中產(chǎn)生內(nèi)容相似性度量還包括從投標項和站點內(nèi)容中產(chǎn)生各個項向量,并計算各個項向量之間的相似性,以便確定投標項和站點內(nèi)容之間的直接相似性。
5.如權(quán)利要求1所述的方法,其中產(chǎn)生擴展相似性度量還包括從投標項、站點內(nèi)容和擴展項中產(chǎn)生各個項向量;以及計算各個項向量之間的相似性,以便確定投標項和站點內(nèi)容之間的相似性度量。
6.如權(quán)利要求1所述的方法,其中產(chǎn)生類別相似性度量還包括從與目錄數(shù)據(jù)相關(guān)的Web站點內(nèi)容中提取特征,該特征包括標題、元數(shù)據(jù)、正文、超鏈接、可視特征以及/或網(wǎng)頁布局分析信息的概要;通過特征的選擇降低特征的維數(shù);通過分類器模型對特征分類,以便產(chǎn)生相似性分類器;從投標項、站點內(nèi)容和擴展項中產(chǎn)生各個項向量;以及計算各個項向量之間的相似性,來作為該相似性分類器的一個函數(shù)以便確定分類相似性度量。
7.如權(quán)利要求1所述的方法,其中計算信用度值還包括考慮到拒絕/接受閾值,以<項,Web網(wǎng)頁,接受/拒絕>格式的數(shù)據(jù)來訓練組合的相關(guān)性分類器;從內(nèi)容、擴展和類別相似性度量中產(chǎn)生相關(guān)性檢驗相似性度量(RSVM)特征向量;以及通過該組合的相關(guān)性分類器將來自RSVM特征向量中的多個得分映射到信用度值。
8.如權(quán)利要求1所述的方法,其中該方法還包括將投標項和投標URL緩存到投標數(shù)據(jù)庫中;響應于接收到搜索查詢,考慮到搜尋查詢的項可能沒有與投標項精確地匹配的可能性,確定該搜索查詢的項是否與投標項相關(guān);以及如果搜索查詢的項確定為與投標項相關(guān),那么就將投標URL發(fā)送給最終用戶。
9.如權(quán)利要求1所述的方法,其中該方法還包括根據(jù)投標項和站點內(nèi)容確定合適的名稱相似性度量,該合適的名稱相似性度量表示考慮到一組合適的名稱,在投標項中檢測到的任意合適的名稱和站點內(nèi)容之間的相關(guān)度;以及其中多個相似性度量的組合包括該合適的名稱相似性度量。
10.如權(quán)利要求9所述的方法,其中確定合適的名稱相似性度量還包括響應于在投標項和/或站點內(nèi)容中檢測合適的名稱,按下式計算合適的名稱相似性得分Proper_Sim(項,站點內(nèi)容),其中Proper_Sim(項,站點內(nèi)容)等于一(1)當項包括一個合適的名稱P,并且站點內(nèi)容包括一個相符的合適的名稱Q;零(0)當項包括一個合適的名稱P,并且站點內(nèi)容只包括不相符的合適的名稱;或者,零點五(0.5)。
11.如權(quán)利要求1所述的方法,其中該方法還包括確定信用度值是否相對較低;以及響應于確定的結(jié)果,識別一個或多個在語義上和/或上下文上與投標URL相關(guān)的其它項。
12.如權(quán)利要求11所述的方法,其中識別還包括基于所計算的項相似性從項向量中產(chǎn)生一組項簇,該項向量是從所提交的歷史查詢的搜索引擎結(jié)果中產(chǎn)生的,每個歷史查詢與在查詢?nèi)罩局械钠渌樵冺椣啾?,具有相對較低的出現(xiàn)頻率;以及考慮到由項簇指定的項,評估該站點內(nèi)容,以便識別一個或多個語義上和/或上下文上相關(guān)的項,該項是一個或多個其它項。
13.一種包括用于檢驗項和Web站點內(nèi)容之間的相關(guān)性的計算機可執(zhí)行指令的計算機可讀介質(zhì),該計算機可執(zhí)行指令包括用于如下處理的指令根據(jù)投標URL檢索站點內(nèi)容;用公式表示在語義上和/或上下文上與投標項相關(guān)的擴展項;根據(jù)投標項、站點內(nèi)容和擴展項的各個組合,產(chǎn)生內(nèi)容相似性和擴展相似性度量,該相似性度量表示投標項、站點內(nèi)容和/或擴展項之間的相關(guān)度;考慮到相似性分類器,計算擴展項和站點內(nèi)容之間的類別相似性度量,該相似性分類器已根據(jù)挖掘的與目錄數(shù)據(jù)相關(guān)的萬維站點內(nèi)容進行了訓練;根據(jù)多個相似性度量的組合來計算信用度值,所述組合包括內(nèi)容、擴展和類別相似性度量,該信用度值提供了投標項和站點內(nèi)容之間的相關(guān)性的客觀度量。
14.如權(quán)利要求13的計算機可讀介質(zhì),其中相似性分類器是以基于統(tǒng)計n-gram的 Bayesian定律(N-Gram)、 Bayesian(NB)、支持向量機(SVM)、最近鄰域(KNN)、決策樹、聯(lián)合訓練、助推分類模型為基礎的。
15.如權(quán)利要求13的計算機可讀介質(zhì),其中該用于用公式表示擴展項的計算機可執(zhí)行指令還包括基于所計算的項相似性從項向量中產(chǎn)生項簇的指令,其中該項向量是從歷史查詢中產(chǎn)生的,每個歷史查詢具有較高的出現(xiàn)頻率,該項簇包括該擴展項。
16.如權(quán)利要求13的計算機可讀介質(zhì),其中該用于產(chǎn)生內(nèi)容相似性度量的計算機可執(zhí)行指令還包括從投標項和站點內(nèi)容中產(chǎn)生各個項向量,并計算各個項向量之間的相似性,以便確定投標項和站點內(nèi)容之間的直接相似性的指令。
17.如權(quán)利要求13的計算機可讀介質(zhì),其中該用于產(chǎn)生擴展相似性度量的計算機可執(zhí)行指令還包括用于下列處理的指令從投標項、站點內(nèi)容和擴展項中產(chǎn)生各個項向量;以及計算各個項向量之間的相似性,以便確定投標項和站點內(nèi)容之間的相似性度量。
18.如權(quán)利要求13的計算機可讀介質(zhì),其中該用于產(chǎn)生類別相似性度量的計算機可執(zhí)行指令還包括用于下列處理的指令從與目錄數(shù)據(jù)相關(guān)的Web站點內(nèi)容中提取特征,該特征包括標題、元數(shù)據(jù)、正文、超鏈接、可視特征以及/或網(wǎng)頁布局分析信息的概要;通過特征的選擇降低特征的維數(shù);通過分類器模型對特征分類,以便產(chǎn)生相似性分類器;從投標項、站點內(nèi)容和擴展項中產(chǎn)生各個項向量;以及計算各個項向量之間的相似性,來作為該相似性分類器的一個函數(shù)以便確定分類相似性度量。
19.如權(quán)利要求13的計算機可讀介質(zhì),其中該用于計算信用度值的計算機可執(zhí)行指令還包括用于下列處理的指令考慮到拒絕/接受閾值,以<項,Web網(wǎng)頁,接受/拒絕>格式的數(shù)據(jù)來訓練組合的相關(guān)性分類器;從內(nèi)容、擴展和類別相似性度量中產(chǎn)生相關(guān)性檢驗相似性度量(RSVM)特征向量;以及通過該組合的相關(guān)性分類器將來自RSVM特征向量中的多個得分映射到信用度值。
20.如權(quán)利要求13的計算機可讀介質(zhì),其中該計算機可執(zhí)行指令還包括用于下列處理的指令將投標項和投標URL緩存到投標數(shù)據(jù)庫中;響應于接收到搜索查詢,考慮到搜尋查詢的項可能沒有與投標項精確地匹配的可能性,確定該搜索查詢的項是否與投標項相關(guān);以及如果搜索查詢的項被確定為與投標項相關(guān),那么就將投標URL發(fā)送給最終用戶。
21.如權(quán)利要求13的計算機可讀介質(zhì),其中該計算機可執(zhí)行指令還包括用于下列處理的指令根據(jù)投標項和站點內(nèi)容確定合適的名稱相似性度量,該合適的名稱相似性度量表示考慮到一組合適的名稱,在投標項中檢測到的任意合適的名稱和站點內(nèi)容之間的相關(guān)度;以及其中多個相似性度量的組合包括該合適的名稱相似性度量。
22.如權(quán)利要求21的計算機可讀介質(zhì),其中該用于確定合適的名稱相似性度量的計算機可執(zhí)行指令還包括用于下列處理的指令響應于在投標項和/或站點內(nèi)容檢測合適的名稱,按下式計算合適的名稱相似性得分Proper_Sim(項,站點內(nèi)容),以及其中Proper_Sim(項,站點內(nèi)容)等于一(1)當項包括一個合適的名稱P,并且站點內(nèi)容包括一個相符的合適的名稱Q;零(0)當項包括一個合適的名稱P,并且站點內(nèi)容只包括不相符的合適的名稱;或者,零點五(0.5)。
23.如權(quán)利要求13的計算機可讀介質(zhì),其中該計算機可執(zhí)行指令還包括用于下列處理的指令確定信用度值是否相對較低;以及響應于確定的結(jié)果,識別一個或多個在語義上和/或上下文上與投標URL相關(guān)的其它項。
24.如權(quán)利要求23的計算機可讀介質(zhì),其中該用于識別的計算機可執(zhí)行指令還包括用于下列處理的指令基于所計算的項相似性從項向量中產(chǎn)生一組項簇,該項向量是從所提交的歷史查詢的搜索引擎結(jié)果中產(chǎn)生的,每個歷史查詢與在查詢?nèi)罩局械钠渌樵冺椣啾?,具有相對較低的出現(xiàn)頻率;以及考慮到由項簇表示的項評估該站點內(nèi)容,以便識別一個或多個語義上和/或上下文上相關(guān)的項,該項是一個或多個其它項。
25.一種用于檢驗項和Web站點內(nèi)容之間的相關(guān)性的計算設備,該計算設備包括處理器;以及耦合到該處理器的存儲器,該存儲器包括可由該處理器執(zhí)行的計算機程序指令,用于根據(jù)投標URL檢索站點內(nèi)容;用公式表示在語義上和/或上下文上與投標項相關(guān)的擴展項;根據(jù)投標項、站點內(nèi)容和擴展項的各個組合,產(chǎn)生內(nèi)容相似性和擴展相似性度量,該相似性度量表示投標項、站點內(nèi)容和/或擴展項之間的相關(guān)度;考慮到相似性分類器,計算擴展項和站點內(nèi)容之間的類別相似性度量,所述相似性分類器已根據(jù)挖掘的與目錄數(shù)據(jù)相關(guān)的萬維站點內(nèi)容進行了訓練;根據(jù)多個相似性度量的組合來計算信用度值,該組合包括內(nèi)容、擴展和類別相似性度量,該信用度值提供了投標項和站點內(nèi)容之間的相關(guān)性的客觀度量。
26.如權(quán)利要求25所述的計算設備,其中相似性分類器是以基于統(tǒng)計n-gram的 Bayesian定律(N-Gram)、 Bayesian(NB)、支持向量機(SVM)、最近鄰域(KNN)、決策樹、聯(lián)合訓練、助推分類模型為基礎的。
27.如權(quán)利要求25所述的計算設備,其中該用于用公式表示擴展項的計算機可執(zhí)行指令還包括基于所計算的項相似性從項向量中產(chǎn)生項簇的指令,其中該項向量是從歷史查詢中產(chǎn)生的,每個歷史查詢具有較高的出現(xiàn)頻率,該項簇包括該擴展項。
28.如權(quán)利要求25所述的計算設備,其中該用于產(chǎn)生內(nèi)容相似性度量的計算機可執(zhí)行指令還包括從投標項和站點內(nèi)容中產(chǎn)生各個項向量,并計算各個項向量之間的相似性,以便確定投標項和站點內(nèi)容之間的直接相似性的指令。
29.如權(quán)利要求25所述的計算設備,該用于產(chǎn)生擴展相似性度量的計算機可執(zhí)行指令還包括用于下列處理的指令從投標項、站點內(nèi)容和擴展項中產(chǎn)生各個項向量;以及計算各個項向量之間的相似性,以便確定投標項和站點內(nèi)容之間的相似性度量。
30.如權(quán)利要求25所述的計算設備,其中該用于產(chǎn)生類別相似性度量的計算機可執(zhí)行指令還包括用于下列處理的指令從與目錄數(shù)據(jù)相關(guān)的Web站點內(nèi)容中提取特征,該特征包括標題、元數(shù)據(jù)、正文、超鏈接、可視特征以及/或網(wǎng)頁布局分析信息的概要;通過特征的選擇降低特征的維數(shù);通過分類器模型對特征分類,以便產(chǎn)生相似性分類器;從投標項、站點內(nèi)容和擴展項中產(chǎn)生各個項向量;以及計算各個項向量之間的相似性,來作為該相似性分類器的一個函數(shù)以便確定分類相似性度量。
31.如權(quán)利要求25所述的計算設備,其中該用于計算信用度值的計算機可執(zhí)行指令還包括用于下列處理的指令考慮到拒絕/接受閾值,以<項,Web網(wǎng)頁,接受/拒絕>格式的數(shù)據(jù)來訓練組合的相關(guān)性分類器;從內(nèi)容、擴展和類別相似性度量中產(chǎn)生相關(guān)性檢驗相似性度量(RSVM)特征向量;以及通過該組合的相關(guān)性分類器將來自RSVM特征向量中的多個得分映射到信用度值。
32.如權(quán)利要求25所述的計算設備,其中該計算機可執(zhí)行指令還包括用于下列處理的指令根據(jù)投標項和站點內(nèi)容確定合適的名稱相似性度量,該合適的名稱相似性度量表示考慮到一組合適的名稱,在投標項中檢測到的任意合適的名稱和站點內(nèi)容之間的相關(guān)度;以及其中多個相似性度量的組合包括該合適的名稱相似性度量。
33.如權(quán)利要求32所述的計算設備,其中該用于確定合適的名稱相似性度量的計算機可執(zhí)行指令還包括用于下列處理的指令響應于在投標項和/或站點內(nèi)容中檢測合適的名稱,按下式計算合適的名稱相似性得分Proper_Sim(項,站點內(nèi)容),以及其中Proper_Sim(項,站點內(nèi)容)等于一(1)當項包括一個合適的名稱P,并且站點內(nèi)容包括一個相符的合適的名稱Q;零(0)當項包括一個合適的名稱P,并且站點內(nèi)容只包括不相符的合適的名稱;或者,零點五(0.5)。
34.如權(quán)利要求25所述的計算設備,其中該計算機可執(zhí)行指令還包括用于下列處理的指令確定信用度值是否相對較低;以及響應于確定的結(jié)果,識別一個或多個在語義上和/或上下文上與投標URL相關(guān)的其它項。
35.如權(quán)利要求34所述的計算設備,其中該用于識別的計算機可執(zhí)行指令還包括用于下列處理的指令基于所計算的項相似性從項向量中產(chǎn)生一組項簇,該項向量是從所提交的歷史查詢的搜索引擎結(jié)果中產(chǎn)生的,每個歷史查詢與在查詢?nèi)罩局械钠渌樵冺椣啾龋哂邢鄬^低的出現(xiàn)頻率;以及考慮到由項簇表示的項評估該站點內(nèi)容,以便識別一個或多個語義上和/或上下文上相關(guān)的項,該項是一個或多個其它項。
36.一種用于檢驗項和Web站點內(nèi)容之間的相關(guān)性的計算設備,該計算設備包括根據(jù)投標URL獲得站點內(nèi)容的檢索裝置;公式化裝置,用于識別在語義上和/或上下文上與請求項相關(guān)的擴展項;根據(jù)投標項、站點內(nèi)容和擴展項的各個組合來建立內(nèi)容相似性和擴展相似性度量的產(chǎn)生裝置,該相似性度量表示投標項、站點內(nèi)容和/或擴展項之間的相關(guān)度;考慮到相似性分類器地確定擴展項和站點內(nèi)容之間的類別相似性度量的計算裝置,其中該相似性分類器已根據(jù)挖掘的與目錄數(shù)據(jù)相關(guān)的萬維站點內(nèi)容進行了訓練;從多個相似性度量的組合中產(chǎn)生信用度值的計算裝置,該組合包括內(nèi)容、擴展和類別相似性度量,該信用度值提供了投標項和站點內(nèi)容之間的相關(guān)性的客觀度量。
37.如權(quán)利要求36所述的計算設備,其中該計算機公式化裝置還包括基于所計算的項相似性從項向量中建立項簇的產(chǎn)生裝置,其中該項向量是從歷史查詢中產(chǎn)生的,每個歷史查詢具有較高的出現(xiàn)頻率,該項簇包括該擴展項。
38.如權(quán)利要求36所述的計算設備,其中該產(chǎn)生裝置還包括建立裝置,用于從投標項和站點內(nèi)容中產(chǎn)生各個項向量,并計算各個項向量之間的相似性,以便確定投標項和站點內(nèi)容之間的直接相似性。
39.如權(quán)利要求36所述的計算設備,其中該產(chǎn)生裝置還包括建立裝置,用于從投標項、站點內(nèi)容和擴展項中產(chǎn)生各個項向量;以及確定各個項向量之間的相似性,以便確定投標項和站點內(nèi)容之間的相似性度量的計算裝置。
40.如權(quán)利要求36所述的計算設備,其中該產(chǎn)生裝置還包括提取裝置,用于從與目錄數(shù)據(jù)相關(guān)的Web站點內(nèi)容中獲得特征,該特征包括標題、元數(shù)據(jù)、正文、超鏈接、可視特征以及/或網(wǎng)頁布局分析信息的概要;降低裝置,用于通過特征的選擇來減少特征的維數(shù);分類裝置,用于通過分類器模型對特征進行組織,以便產(chǎn)生相似性分類器;從投標項、站點內(nèi)容和擴展項中建立各個項向量產(chǎn)生裝置;以及識別各個項向量之間的相似性,來作為該相似性分類器的一個函數(shù)以便確定分類相似性度量的計算裝置。
41.如權(quán)利要求36所述的計算設備,其中該計算裝置還包括訓練裝置,用于考慮到拒絕/接受閾值,以<項,Web網(wǎng)頁,接受/拒絕>格式的數(shù)據(jù)來訓練組合的相關(guān)性分類器;從內(nèi)容、擴展和類別相似性度量中產(chǎn)生相關(guān)性檢驗相似性度量(RSVM)特征向量的產(chǎn)生裝置;以及映射裝置,用于通過該組合的相關(guān)性分類器使來自RSVM特征向量中的多個得分與信用度值相關(guān)聯(lián)。
42.如權(quán)利要求36所述的計算設備,其中該計算裝置還包括確定裝置,用于根據(jù)投標項和站點內(nèi)容確定合適的名稱相似性度量,該合適的名稱相似性度量表示考慮到一組合適的名稱,在投標項中檢測到的任意合適的名稱和站點內(nèi)容之間的相關(guān)度;以及其中多個相似性度量的組合包括該合適的名稱相似性度量。
43.如權(quán)利要求42所述的計算設備,其中該用于確定合適的名稱相似性度量的確定裝置還包括響應于在投標項和/或站點內(nèi)容中檢測合適的名稱,計算合適的名稱相似性得分。
44.如權(quán)利要求36所述的計算設備,其中該計算設備還包括確定裝置,用于確定信用度值是否相對較低;以及響應于確定的結(jié)果,識別裝置用于識別一個或多個在語義上和/或上下文上與投標URL相關(guān)的其它項。
45.如權(quán)利要求44所述的計算設備,其中該識別裝置還包括基于所計算的項相似性從項向量中產(chǎn)生一組項簇的產(chǎn)生裝置,其中該項向量是從所提交的歷史查詢的搜索引擎結(jié)果中產(chǎn)生的,每個歷史查詢與在查詢?nèi)罩局械钠渌樵冺椣啾?,具有相對較低的出現(xiàn)頻率;以及評估裝置,用于考慮到由項簇表示的項評估該站點內(nèi)容,以便識別一個或多個語義上和/或上下文上相關(guān)的項,該項是一個或多個其它項。
全文摘要
本發(fā)明描述了用于檢驗項和Web站點內(nèi)容之間的相關(guān)性的系統(tǒng)和方法。在一個方面中,檢索來自投標URL的站點內(nèi)容。計算在語義上和/或上下文上與投標項相關(guān)的擴展項。根據(jù)投標項、站點內(nèi)容和擴展項的各個組合計算內(nèi)容相似性和擴展相似性度量??紤]到經(jīng)訓練的相似性分類器來確定擴展項和站點內(nèi)容之間的類別相似性度量。該經(jīng)訓練的相似性分類器已根據(jù)挖掘的與目錄數(shù)據(jù)相關(guān)聯(lián)的萬維站點內(nèi)容加以訓練了。提供了投標項和站點內(nèi)容之間的相關(guān)性的客觀度量的信用度值,是考慮到經(jīng)訓練的相關(guān)性分類器模型,根據(jù)評估多個相似性得分的內(nèi)容、擴展和類別相似性度量而確定的。
文檔編號G06F17/30GK1691019SQ200510078308
公開日2005年11月2日 申請日期2005年4月13日 優(yōu)先權(quán)日2004年4月15日
發(fā)明者B·張, H-J·曾, L·李, T·納吉姆, 馬維英, Y·李, 陳正 申請人:微軟公司