欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

標(biāo)引關(guān)鍵詞提取/預(yù)測方法、在線廣告推薦方法和裝置的制作方法

文檔序號:6612509閱讀:205來源:國知局
專利名稱:標(biāo)引關(guān)鍵詞提取/預(yù)測方法、在線廣告推薦方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及搜索技術(shù),特別是指根據(jù)用戶的瀏覽行為捕捉用戶的搜索意 圖,預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的方法,以及推薦在線廣告的方法和裝置。
背景技術(shù)
隨著網(wǎng)絡(luò)與通信技術(shù)的迅速發(fā)展,Web信息爆炸性的增長,已經(jīng)成為一 個巨大的海量信息空間。如何快速、準(zhǔn)確、方便的從如此龐大的信息庫中獲 取自己需要的信息,是互聯(lián)網(wǎng)用戶面臨的一個重要問題?;ヂ?lián)網(wǎng)的媒體特性 促使在線廣告(Online Advertisement)的誕生和發(fā)展,在線廣告的形式已祐: 許多企業(yè)接受和采納,而且取得較好的廣告效果。如何快速、準(zhǔn)確、方便的 從在線廣告中獲取自己需要的在線廣告,同樣也是在線廣告所面臨的一個重 要問題。Web搜索引擎能為用戶提供一種查找所需資源的服務(wù),越來越多的搜索 引擎對人們獲取網(wǎng)絡(luò)資源提供了很大的方便。目前搜索引擎是根據(jù)網(wǎng)頁的靜 態(tài)內(nèi)容,按照用戶輸入的一個或多個搜索關(guān)鍵字進(jìn)行搜索并返回搜索結(jié)果。 因此,按照目前的搜索技術(shù),無法正確預(yù)測用戶的搜索意圖,更不能為用戶 推薦符合用戶搜索意圖的網(wǎng)頁和在線廣告。發(fā)明內(nèi)容有鑒于此,本發(fā)明的主要目的在于提供一種提取網(wǎng)頁的標(biāo)引關(guān)鍵詞的方 法,提取出指定網(wǎng)頁的標(biāo)引關(guān)鍵詞。本發(fā)明的另一主要目的在于,提供一種預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的方 法,根據(jù)用戶的瀏覽行為預(yù)測用戶的搜索意圖。本發(fā)明的另 一主要目的在于提供一種推薦在線廣告的方法,根據(jù)用戶的瀏覽行為向用戶推薦符合用戶搜索意圖的在線廣告。本發(fā)明的另 一主要目的在于提供一種推薦在線廣告的裝置,根據(jù)用戶的 瀏覽行為向用戶推薦符合用戶搜索意圖的在線廣告。為了達(dá)到上述目的,本發(fā)明提供一種提取網(wǎng)頁的標(biāo)引關(guān)鍵詞的方法,該方法包括獲取訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括多個樣本網(wǎng)頁以及相應(yīng)樣本網(wǎng)頁 的標(biāo)引關(guān)鍵詞;獲取所述樣本網(wǎng)頁的標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量,對該標(biāo)引關(guān)4建詞的網(wǎng) 頁特征向量進(jìn)行分類得到所屬的類別,并根據(jù)所述訓(xùn)練數(shù)據(jù)集中樣本網(wǎng)頁的 標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量和所屬的類別訓(xùn)練決策樹;利用訓(xùn)練得到的決策樹,生成標(biāo)引關(guān)鍵詞的過濾器,所述過濾器包括標(biāo) 引關(guān)鍵詞的網(wǎng)頁特征向量的判定條件;獲取網(wǎng)頁的部分或所有字/詞,獲取所述部分或所有字/詞的網(wǎng)頁特征向 量,并選擇網(wǎng)頁特征向量符合所述過濾器中判定條件的字/詞,從所選擇的 字/詞中提取網(wǎng)頁的標(biāo)引關(guān)鍵詞。為了達(dá)到上述另 一 目的,本發(fā)明提供一種預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的 方法,該方法包4舌獲取訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括多個瀏覽歷史樣本目標(biāo)網(wǎng)頁以及 相應(yīng)瀏覽歷史樣本目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞;獲取所述瀏覽歷史樣本目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的瀏覽特征向量,對該標(biāo) 引關(guān)鍵詞的瀏覽特征向量進(jìn)行分類得到所屬的類別,并根據(jù)所述訓(xùn)練數(shù)據(jù)集 中瀏覽歷史樣本目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的瀏覽特征向量和所屬的類別訓(xùn)練 決策樹;利用訓(xùn)練得到的決策樹,生成標(biāo)引關(guān)鍵詞的過濾器,所述過濾器包括標(biāo) 引關(guān)鍵詞的瀏覽特征向量的判定條件;獲取瀏覽歷史網(wǎng)頁,獲取所述瀏覽歷史網(wǎng)頁的部分或所有字/詞,獲取 所述部分或所有字/詞的瀏覽特征向量,并選擇瀏覽特征向量符合所述過濾器中判定條件的字/詞,從所選擇的字/詞中預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞。為了達(dá)到上述另一目的,本發(fā)明提供一種推薦在線廣告的方法,該方法包括獲取訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括多個瀏覽歷史樣本目標(biāo)在線廣告 以及相應(yīng)瀏覽歷史樣本目標(biāo)在線廣告的標(biāo)引關(guān)4定詞;獲取所述瀏覽歷史樣本目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞的瀏覽特征向量,對 該標(biāo)引關(guān)鍵詞的瀏覽特征向量進(jìn)行分類得到所屬的類別,并根據(jù)所述訓(xùn)練數(shù) 據(jù)集中瀏覽歷史樣本目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞的瀏覽特征向量和所屬的 類別訓(xùn)練決策樹;利用訓(xùn)練得到的決策樹,生成標(biāo)引關(guān)鍵詞的過濾器,所述過濾器包括標(biāo) 引關(guān)鍵詞的瀏覽特征向量的判定條件;獲取在線廣告的瀏覽歷史,獲取所述瀏覽歷史的部分或所有字/詞,獲 取所述部分或所有字/詞的瀏覽特征向量,并選擇瀏覽特征向量符合所述過 濾器中判定條件的字/詞,從所選擇的字/詞中預(yù)測目標(biāo)在線廣告的標(biāo)引關(guān)鍵 詞;將預(yù)測得到的目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞作為搜索關(guān)鍵詞發(fā)送給在線 廣告搜索引擎,并推薦該在線廣告搜索引擎返回的在線廣告。其中,所述在線廣告包括顯示廣告和引用廣告。為了達(dá)到上述另一目的,本發(fā)明提供一種推薦在線廣告的裝置,該裝置 包括決策樹訓(xùn)練單元,用于訓(xùn)練決策樹;過濾器生成單元,用于利用所述決 策樹訓(xùn)練單元所訓(xùn)練得到的決策樹生成過濾器;瀏覽歷史獲取單元,用于獲 取在線廣告的瀏覽歷史,并傳給標(biāo)引關(guān)鍵詞預(yù)測單元;標(biāo)引關(guān)鍵詞預(yù)測單元, 用于利用所述決策樹訓(xùn)練單元所訓(xùn)練得到的決策樹和所述過濾器生成單元 所生成的過濾器,根據(jù)瀏覽歷史預(yù)測目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞,并輸出給 在線廣告推薦單元;在線廣告推薦單元,用于將從所述標(biāo)引關(guān)鍵詞預(yù)測單元 收到的目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞發(fā)送給在線廣告搜索引擎,接收該在線廣告搜索引擎所返回的在線廣告并推薦。根據(jù)本發(fā)明提供的預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的方法,預(yù)先根據(jù)瀏覽歷 史樣本目標(biāo)網(wǎng)頁訓(xùn)練決策樹,利用訓(xùn)練得到的決策樹生成標(biāo)引關(guān)鍵詞的過濾器,之后,根據(jù)用戶瀏覽歷史記錄提取用戶瀏覽歷史網(wǎng)頁序列中所包含的字 /詞的瀏覽特征向量,調(diào)用決策樹和過濾器來預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞, 從而預(yù)測到了用戶的搜索意圖。其中,在訓(xùn)練決策樹時(shí)可以根據(jù)本發(fā)明提供 的提取網(wǎng)頁的標(biāo)引關(guān)鍵詞的方法提取出了瀏覽歷史樣本目標(biāo)網(wǎng)頁的標(biāo)引關(guān) 鍵詞。由此可以看出,本發(fā)明充分結(jié)合了靜態(tài)的網(wǎng)頁內(nèi)容和動態(tài)的用戶的瀏 覽行為,根據(jù)被動觀察到的用戶瀏覽的歷史紀(jì)錄來預(yù)測用戶的搜索意圖,無 需用戶的其他輸入,對用戶的瀏覽不做任何的干預(yù),為用戶提供更精確的搜 索服務(wù)。上述預(yù)測用戶搜索意圖的方法可以應(yīng)用于在線廣告的推薦,通過用 戶的廣告瀏覽歷史記錄來預(yù)測并推薦與用戶搜索意圖最相關(guān)的在線廣告。由 于在線廣告推薦中利用了用戶的瀏覽歷史記錄,因此,即便是采用引用方式 發(fā)布的在線廣告也對于在線廣告的推薦有貢獻(xiàn),所以廣告發(fā)布商采用顯示廣 告或引用廣告的方式發(fā)布廣告都能獲得收益。


圖1所示為用戶網(wǎng)上瀏覽過程示意圖;圖2所示為本發(fā)明中為提取網(wǎng)頁的標(biāo)引關(guān)鍵詞而訓(xùn)練決策樹的流程圖; 圖3所示為本發(fā)明中訓(xùn)練得到的決策樹的示意圖; 圖4所示為本發(fā)明中生成過濾器的流程圖; 圖5所示為本發(fā)明中從指定網(wǎng)頁中提取標(biāo)31關(guān)鍵詞的流程圖; 圖6所示為本發(fā)明中為了預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞而訓(xùn)練決策樹的 過程;圖7所示為本發(fā)明中預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的流程圖;圖8所示為本發(fā)明中用于提取網(wǎng)頁的標(biāo)引關(guān)鍵詞的裝置結(jié)構(gòu)圖;圖9所示為本發(fā)明中用于推薦在線廣告的裝置結(jié)構(gòu)圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面舉具體實(shí)施例, 對本發(fā)明作進(jìn)一步詳細(xì)的說明。設(shè)想這樣的一個用戶的網(wǎng)上瀏覽過程,如圖l所示。用戶在瀏覽器中打開網(wǎng)頁"P1",然后點(diǎn)擊網(wǎng)頁P(yáng)1中的一個超級鏈接,該鏈接的題頭(anchor text)中包含"Dolphins"。但是這個鏈接將用戶引到另外一個網(wǎng)頁"P2", 網(wǎng)頁P(yáng)2是關(guān)于NFL中的一個橄欖球隊(duì)的"Miami Dolphins"。當(dāng)用戶發(fā)現(xiàn) 這個網(wǎng)頁P(yáng)2并不是他想要的,就點(diǎn)擊"Back"按鈕返回到網(wǎng)頁P(yáng)1。在跳過 網(wǎng)頁P(yáng)1中的題頭是"free dolphin"第二個連接后,點(diǎn)擊第三個題頭中包含 "Whale"的超級鏈接。這個超級鏈接打開了網(wǎng)頁"P3",然后用戶點(diǎn)擊了 題頭包含"whale"和"Shamu,,的超級鏈接去繼續(xù)瀏覽其他網(wǎng)頁,直到打開 網(wǎng)頁"P5",其中包含了關(guān)于"whales"和"seaworld"信息?;谟脩艚刂沟侥壳暗臑g覽歷史,可以做出這樣的推斷,這個用戶希望 找到關(guān)于"whale"和"dolphin"的信息,而非"football"和"NFL",為 什么呢?因?yàn)橛脩酎c(diǎn)擊了關(guān)于"whale"或"dolphin"的超級鏈接,而從關(guān) 于"football"和"NFL"的網(wǎng)頁退回到前一網(wǎng)頁。我們做出的推斷所基于的 規(guī)則可以描述如下"whale"是用戶想找的信息,因?yàn)樗c(diǎn)擊了包含"whale"的超級鏈接 "football"并非用戶需要的信息,因?yàn)樗麖暮?football"相關(guān)的網(wǎng)頁 中退出更進(jìn)一步歸納上述的一些規(guī)則,可以得到下面更具一般性的規(guī)則(說明 實(shí)際使用的規(guī)則比這些例子描述的更復(fù)雜,使用的屬性也更多),其中W可 以是任何字/詞如果用戶頻繁點(diǎn)擊包含了 W的超級鏈接,則W是用戶想找的信息 如果用戶從和W相關(guān)的網(wǎng)頁退回,則W不是用戶想找的信息 上述的規(guī)則具有普遍的適用性,也就是說這些規(guī)則可以應(yīng)用于任何的信息資源環(huán)境中。因?yàn)檫@些MJ'J是完全基于用戶的瀏覽過程中的瀏覽行為,而 并不是基于用戶當(dāng)前所瀏覽的內(nèi)容。本發(fā)明獲取類似于上述一般性規(guī)則的用戶瀏覽行為模型,利用用戶瀏覽 行為模型預(yù)測用戶的搜索意圖,向用戶推薦符合用戶搜索意圖的搜索結(jié)果。首先,本發(fā)明提供一種提取網(wǎng)頁的標(biāo)引關(guān)鍵詞的方法。本發(fā)明所述的網(wǎng) 頁的標(biāo)引關(guān)鍵詞為,從網(wǎng)頁的正文中提取出的關(guān)鍵詞,以此標(biāo)引關(guān)鍵詞為搜 索關(guān)鍵詞,則對于特定的搜索引擎,該網(wǎng)頁是該搜索引擎返回的第一個搜索 結(jié)果或者在前幾個搜索結(jié)果之中。其中,標(biāo)引關(guān)鍵詞的長度為/ (/a),即 標(biāo)引關(guān)鍵詞包含/個字/詞。本發(fā)明在提取網(wǎng)頁的標(biāo)引關(guān)4走詞時(shí),利用機(jī)器學(xué)習(xí)(Machine Learning )究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組 織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。機(jī)器學(xué)習(xí) 一般可以分為有指導(dǎo) 的學(xué)習(xí)和無指導(dǎo)的學(xué)習(xí)。本發(fā)明使用有指導(dǎo)的學(xué)習(xí)方法中的決策樹學(xué)習(xí)。本發(fā)明提供的提取一個指定網(wǎng)頁的標(biāo)引關(guān)鍵詞的過程主要包括三大步 驟第一步,獲取訓(xùn)練數(shù)據(jù)集,根據(jù)所獲取的訓(xùn)練數(shù)據(jù)集訓(xùn)練決策樹;第二 步,利用訓(xùn)練得到的決策樹,生成標(biāo)引關(guān)鍵詞的過濾器;第三步,利用訓(xùn)練 得到的決策樹和所生成的過濾器,提取網(wǎng)頁的標(biāo)引關(guān)鍵詞。下面詳細(xì)介紹決 策樹訓(xùn)練過程以及過濾器生成過程,進(jìn)而詳細(xì)介紹利用決策樹和過濾器提取 網(wǎng)頁標(biāo)引關(guān)鍵詞的流程。圖2所示為訓(xùn)練決策樹的流程圖,如圖2所示,訓(xùn)練決策樹的過程包括 以下步驟步驟201:獲取用于訓(xùn)練決策樹的訓(xùn)練數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集中包括多個數(shù)據(jù)項(xiàng),每一個數(shù)據(jù)項(xiàng)包括一個樣本網(wǎng)頁以及該樣本網(wǎng)頁的標(biāo)引關(guān)4定詞。例如,訓(xùn)練數(shù)據(jù)集可以表示為如下形式<formula>formula see original document page 13</formula>其中A.為訓(xùn)練數(shù)據(jù)中的 一個樣本網(wǎng)頁,『''為該樣本網(wǎng)頁的標(biāo)引關(guān)鍵詞。其中,每一個標(biāo)引關(guān)鍵詞的長度為/,標(biāo)引關(guān)鍵詞r包含/個字/詞 ,.—。 訓(xùn)練數(shù)據(jù)可以以手工方式獲取,也可以由系統(tǒng)自動生成。訓(xùn)練數(shù)據(jù)集中 的數(shù)據(jù)項(xiàng)數(shù)目w可以根據(jù)決策樹訓(xùn)練需求而定。步驟202:對于訓(xùn)練數(shù)據(jù)集中的每一個樣本網(wǎng)頁,計(jì)算樣本網(wǎng)頁的標(biāo)引 關(guān)鍵詞中的每一個字/詞的網(wǎng)頁特征向量,然后將所得到的字/詞的網(wǎng)頁特征 向量按照字/詞在標(biāo)引關(guān)鍵詞中的順序排列成一個向量,作為整個標(biāo)引關(guān)鍵 詞的網(wǎng)頁特^正向量。本發(fā)明所述的網(wǎng)頁特征向量用于描述每一個字/詞在網(wǎng)頁中的特征屬 性,可以包含多個屬性分量。在本實(shí)施例中,字/詞w在網(wǎng)頁p內(nèi)的網(wǎng)頁特征 向量包含19個分量(h,h,…,^),分別對應(yīng)于字/詞w在網(wǎng)頁p內(nèi)不同HTML 標(biāo)簽上出現(xiàn)的次數(shù),這些標(biāo)簽分別為"alt" 、 "hi" 、 "h2" 、 "h3"、 "h4" 、 "h5" 、 "h6,, 、 "a" 、 "title" 、 "cite" 、 "strong"、 "big" 、 "em" 、 "i" 、 "b" 、 "u" 、 "blink" 、 "s",以及 在網(wǎng)頁P(yáng)中的總的出現(xiàn)次數(shù)。如步驟201所述,訓(xùn)練數(shù)據(jù)集中的樣本網(wǎng)頁A的標(biāo)引關(guān)鍵詞fT'包括/個字/詞w;,w;,…v^,…w,其中字/詞<的網(wǎng)頁特征向量為,上標(biāo)_/表示該字/詞在標(biāo)引關(guān)^t詞中的位置,下標(biāo)1,2,…,19表示網(wǎng)頁特征向量的分量。這 樣,本步驟得到的整個標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量可以表示為(V;,V;,…,V;9,V!V22,…,V!29,…,vX,…,V〖9)其中,標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量的長度為19x/。這里,標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量中不包含標(biāo)引關(guān)鍵詞中的字/詞,而 只包含這些字/詞的網(wǎng)頁特征向量。步驟203:對每一個樣本網(wǎng)頁的標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量進(jìn)行分類得 到所屬的類別。對標(biāo)?I關(guān)鍵詞的網(wǎng)頁特征向量進(jìn)行分類時(shí),可以根據(jù)樣本網(wǎng)頁在以該標(biāo)引關(guān)鍵詞為搜索關(guān)鍵詞進(jìn)行搜索而返回的搜索結(jié)果中的排名位置(rank)進(jìn)行分類,例如,如果nm;^5,則分類為"6fl,類別,否則分類為類別。標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量的19x/個分量的變量命名與其所屬的字/詞在標(biāo)引關(guān)鍵詞中的位置相對應(yīng),這樣,訓(xùn)練數(shù)據(jù)集中的每一個樣本網(wǎng)頁及其標(biāo)引關(guān)鍵詞可以表示為<formula>formula see original document page 15</formula>步驟204:利用訓(xùn)練數(shù)據(jù)集中的樣本網(wǎng)頁的標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量 及其所屬的類別,訓(xùn)練決策樹(Dr)。通過訓(xùn)練,在根節(jié)點(diǎn)中設(shè)置標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量中屬性分量的判 定條件,根據(jù)屬性分量的不同取值建立分支節(jié)點(diǎn),然后按照同樣方式在每個 分支節(jié)點(diǎn)中設(shè)置標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量中屬性分量的判定條件并根據(jù) 屬性分量的不同取值再建立下層分支節(jié)點(diǎn),直到建立葉節(jié)點(diǎn)為止,葉節(jié)點(diǎn)對應(yīng)"w,或>w的類別,以此訓(xùn)練得到?jīng)Q策樹。圖3所示為按照上述步驟201 204所訓(xùn)練得到的決策樹的示意圖,其 中,假設(shè)網(wǎng)頁的標(biāo)引關(guān)鍵詞的長度為3,網(wǎng)頁特征向量包括4個屬性分量, 那么標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量可以表示為圖4所示為生成過濾器的流程圖。本發(fā)明通過對訓(xùn)練得到的決策樹進(jìn)行 分析,生成標(biāo)引關(guān)鍵詞的過濾器。過濾器是由標(biāo)引關(guān)鍵詞各位置上的析取范 式構(gòu)成。其中,位置是指組成標(biāo)引關(guān)鍵詞的字/詞在該標(biāo)引關(guān)鍵詞中的排列 順序。通過該過濾器,可以找出組成標(biāo)引關(guān)#:詞的字/詞,并且返回這些字/ 詞的正確排列順序。如圖4所示,生成過濾器的步驟包括步驟401:通過對決策樹進(jìn)行分析,針對類別為"go^T的每一個葉節(jié) 點(diǎn),建立從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的規(guī)則,該規(guī)則是將從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的判定條 件用"與"的關(guān)系連接在一起得到。在此,結(jié)合圖3說明規(guī)則建立方法。圖3中,有4個類別為"good"的 葉節(jié)點(diǎn),因此需要建立4個規(guī)則,具體為,將從根節(jié)點(diǎn)到每一個類別為"gooJ"的葉節(jié)點(diǎn)的判定條件用"與"的關(guān)系連接在一起,得到如下所示的4個規(guī)則頭見則一巧1規(guī)則二 v; 頭見則三v; 夫見則四規(guī)則^ 2 0.5 AND v32 < 0.007 AND < 0.75 W 2 0.5 AND v32 < 0.007 AND 2 0.75 AND v23》0.005 、12 0.5 AND v32 2 0.007 AND 2 0.15 i;卜0.5 AND v23<0.25 AND v:2 0.15 AND v332 0.25 步驟402:對于每一條規(guī)則,將標(biāo)引關(guān)鍵字的相同位置的判定條件用 "與"的關(guān)系連接在一起,得到標(biāo)引關(guān)鍵詞的每一個位置的判定條件。在此,標(biāo)引關(guān)鍵詞的相同位置的判定條件是指標(biāo)$ 1關(guān)鍵詞中相同位置上 的字/詞的網(wǎng)頁特征向量的屬性分量的判定條件。按照上述例子,本步驟得 到的結(jié)果如下所示AND v32 < 0.007 AND < 0.75 v〖2 0.5 AND < 0.75 v32 < 0.007 無AND v32 〈0.007 AND 20.75 AND v23 20.005 v; 2 0.5 AND ^ 0.75 v32 < 0.007 v23 2 0.005AND v32 2 0.007 AND v!2 2 0.15 v; 2 0.5v32 2 0.007 AND《20.15 無AND v23<0.25 AND v^O.15 AND v33》0.25 <0.5 AND v; 2 0.15無規(guī)則二:v〖2 0.5 位置一 位置二 位置三v; ^ o.5位置一 位置二 位置三v;》o.5位置一 位置二位置三 頭見則四Vl' < 0.5位置一 位置二:規(guī)則三:4立置三v23<0.25 AND v332 0.25步驟403:將不同規(guī)則中標(biāo)引關(guān)鍵詞的相同位置的判定條件用"或"的 關(guān)系組合在一起,得到標(biāo)引關(guān)鍵詞的每一個位置上的析取范式,由此得到標(biāo) 引關(guān)鍵詞的過濾器。由于一個決策樹可能包括多個規(guī)則,而每個規(guī)則之間是"或"的關(guān)系, 因此,標(biāo)引關(guān)鍵詞的某一位置上的析取范式為,將不同規(guī)則中的相同位置上的判定條件按照"或"的關(guān)系建立的判斷條件。按照上述例子,標(biāo)引關(guān)鍵詞 的每一個位置上的析取范式如下所示位置一(v, 2 0.5 AND v3 <0.75 ) OR ( 、 2 0.5 AND v3》0.75 ) OR^》0.5 OR ( <0.5 AND v4 2 0.15 )^f立置二 v3 〈0.007 OR (v3 2 0.007 AND 1^2 0.15)4立置三v2 2 0.005 OR ( v2 <0.25 AND v3 2 0.25 )通過以上流程得到標(biāo)引關(guān)鍵詞的過濾器,具體得到標(biāo)引關(guān)鍵詞的每一個 位置上的過濾器。其中,標(biāo)引關(guān)鍵詞的每一個位置上的過濾器由上述的析取范式表示o本發(fā)明利用訓(xùn)練得到的決策樹和所生成的過濾器來提取指定網(wǎng)頁的標(biāo) 引關(guān)鍵詞,首先得到指定網(wǎng)頁的字/詞并獲取各字/詞的網(wǎng)頁特征向量,利用 標(biāo)引關(guān)鍵詞的過濾器對所獲取的字/詞進(jìn)行過濾得到滿足過濾器條件的字/詞,并從這些通過過濾器的字/詞中提取標(biāo)引關(guān)鍵詞。圖5所示為從指定網(wǎng) 頁P(yáng)中提取標(biāo)引關(guān)鍵詞的流程圖,如圖5所示,提取網(wǎng)頁的標(biāo)引關(guān)鍵詞的步 驟具體包括步驟501:獲取指定網(wǎng)頁^的所有字/詞,計(jì)算所有字/詞的網(wǎng)頁特征向量。在此,也可以獲取指定網(wǎng)頁/7中部分字/詞,例如,可以獲取指定網(wǎng)頁/7 中有效的字/詞。有效的字/詞是從網(wǎng)頁p所包含的所有字/詞中去除沒有實(shí)際 意義的例如"是"、"的"等字/詞之后得到的字/詞。步驟502:對于步驟501中所獲取的指定網(wǎng)頁^的每一個字/詞,判斷該 字/詞的網(wǎng)頁特征向量是否符合過濾器各位置上的析取范式,并記錄符合析 取范式的字/詞以及相應(yīng)的位置,得到標(biāo)引關(guān)鍵詞/個位置上可能包含的字/ 詞集(A,X2,...,X,.,..,A )。其中,每一個位置上所包含的字/詞數(shù)可能不同,包含的字/詞數(shù)用<formula>formula see original document page 18</formula>表示。其中,過濾器生成過程如圖4所示的步驟401 -403所述。 步驟503:從步驟502所得到的/個位置中各位置上所得到的字/詞集X,. 中分別提取一個字/詞組成一個長度為/的標(biāo)引關(guān)鍵詞,作為候選標(biāo)引關(guān)鍵詞。這種組合方式共有<formula>formula see original document page 18</formula>種,因此候選標(biāo)引關(guān)鍵詞的總數(shù)目為<formula>formula see original document page 18</formula>步驟504:針對每一個候選標(biāo)引關(guān)鍵詞,將組成該候選標(biāo)引關(guān)鍵詞的各 字/詞的網(wǎng)頁特征向量連在一起形成一個向量,作為該候選標(biāo)引關(guān)4建詞的網(wǎng) 頁特征向量。步驟505:調(diào)用訓(xùn)練得到的決策樹Dr,根據(jù)候選標(biāo)引關(guān)鍵詞的網(wǎng)頁特 征向量來預(yù)測該候選標(biāo)引關(guān)鍵詞的類別,如"good"或"bad",。其中,決策樹訓(xùn)練過程如圖2所示的步驟201 204所述。預(yù)測候選標(biāo)引關(guān)鍵詞的類別的方法具體為,從決策樹的根節(jié)點(diǎn)開始,根 據(jù)各節(jié)點(diǎn)上的判定條件來確定候選標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量中與該節(jié)點(diǎn) 的判定條件對應(yīng)的網(wǎng)頁特征向量的屬性分量來確定該節(jié)點(diǎn)的分支節(jié)點(diǎn),直到 確定葉節(jié)點(diǎn)為止,根據(jù)所確定的葉節(jié)點(diǎn)即可得到該候選標(biāo)引關(guān)鍵詞的類別。步驟506:對于類別為的候選標(biāo)引關(guān)鍵詞,記錄該候選標(biāo)引關(guān) 鍵詞的預(yù)測準(zhǔn)確度。在此,所述的預(yù)測準(zhǔn)確度是由決策樹給出的,簡單的實(shí)現(xiàn)方法為,將訓(xùn) 練數(shù)據(jù)集中的所有數(shù)據(jù)項(xiàng)都用該決策樹預(yù)測一遍,這樣每一個葉節(jié)點(diǎn)上都會 對應(yīng)一些訓(xùn)練數(shù)據(jù)項(xiàng),/人而可以統(tǒng)計(jì)各葉節(jié)點(diǎn)的預(yù)測準(zhǔn)確度,即該葉節(jié)點(diǎn)所對應(yīng)的訓(xùn)練數(shù)據(jù)項(xiàng)中類別和葉節(jié)點(diǎn)的類別相同的訓(xùn)練數(shù)據(jù)項(xiàng)的總數(shù)與該葉 節(jié)點(diǎn)所對應(yīng)的訓(xùn)練數(shù)據(jù)項(xiàng)的總數(shù)的比例。步驟507:將預(yù)測準(zhǔn)確度最高的候選標(biāo)引關(guān)鍵詞作為該指定網(wǎng)頁p的標(biāo) 引關(guān)鍵詞。在本步驟中,也可以選擇多個標(biāo)引關(guān)鍵詞,例如,將預(yù)測準(zhǔn)確度達(dá)到規(guī) 定標(biāo)準(zhǔn)的候選標(biāo)? 1關(guān)鍵詞作為該指定網(wǎng)頁的標(biāo)引關(guān)鍵詞。以上給出了提取一指定網(wǎng)頁的標(biāo)引關(guān)鍵詞的方法。其次,為了預(yù)測用戶的搜索意圖,本發(fā)明提供了一種預(yù)測目標(biāo)網(wǎng)頁的標(biāo) 引關(guān)鍵詞的方法,這里所述的目標(biāo)網(wǎng)頁是指含有用戶真正需要內(nèi)容的網(wǎng)頁。 在此,假設(shè)在整個互聯(lián)網(wǎng)中存在著滿足用戶搜索意圖的目標(biāo)網(wǎng)頁,如果預(yù)測 出這個目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞,那么就可以通過訪問相應(yīng)的搜索引擎得到該 目標(biāo)網(wǎng)頁,從而為用戶提供精確的搜索服務(wù)。因此,目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞 可以看作是用戶搜索意圖在相應(yīng)的搜索引擎上的表示,如果預(yù)測出目標(biāo)網(wǎng)頁 的標(biāo)引關(guān)鍵詞,則可以說預(yù)測到了用戶的搜索意圖。類似于提取指定網(wǎng)頁的標(biāo)引關(guān)鍵詞的方法,本發(fā)明提供的預(yù)測目標(biāo)網(wǎng)頁 的標(biāo)引關(guān)鍵詞的過程也主要包括三大步驟第一步,獲取訓(xùn)練數(shù)據(jù)集,根據(jù) 所獲取的訓(xùn)練數(shù)據(jù)集訓(xùn)練決策樹;第二步,利用訓(xùn)練得到的決策樹,生成標(biāo) 引關(guān)鍵詞的過濾器;第三步,利用訓(xùn)練得到的決策樹和所生成的過濾器,預(yù) 測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)4建詞。圖6所示為為了預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞而訓(xùn)練決策樹的過程,如圖 6所示,決策樹訓(xùn)練過程包括以下步驟步驟601:獲取用于訓(xùn)練決策樹的訓(xùn)練數(shù)據(jù)集,訓(xùn)練數(shù)據(jù)集中包括多個 數(shù)據(jù)項(xiàng),每一個數(shù)據(jù)項(xiàng)包括一個瀏覽歷史樣本目標(biāo)網(wǎng)頁以及該瀏覽歷史樣本 目標(biāo)網(wǎng)頁的標(biāo)引關(guān)考建詞。在此,瀏覽歷史樣本目標(biāo)網(wǎng)頁是指在瀏覽過程中被訪問過的網(wǎng)頁中滿足 搜索要求的目標(biāo)網(wǎng)頁,瀏覽歷史樣本目標(biāo)網(wǎng)頁可以由用戶指定,也可以由瀏覽器自動生成。瀏覽歷史樣本目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞可以是手工方式獲取。 較佳的,瀏覽歷史樣本目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞可以采用實(shí)施例 一 中給出的基于網(wǎng)頁特征向量的決策樹方式提取,如圖5所示的步驟501 步驟507。由 于按照圖5所示基于網(wǎng)頁特征向量的決策樹方式能夠準(zhǔn)確地提取出瀏覽歷 史樣本目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞,能夠提高訓(xùn)練數(shù)據(jù)的準(zhǔn)確度,從而提高決策樹的準(zhǔn)確度。步驟602:對于訓(xùn)練數(shù)據(jù)集中的每一個瀏覽歷史樣本目標(biāo)網(wǎng)頁i7,計(jì)算 出該瀏覽歷史樣本目標(biāo)網(wǎng)頁p的標(biāo)引關(guān)鍵詞中的每一個字/詞w的瀏覽特征 向量,然后將所得到的瀏覽特征向量按照字/詞在標(biāo)引關(guān)鍵詞中順序排列成 一個向量,作為整個標(biāo)引關(guān)鍵詞的瀏覽特征向量。本發(fā)明所述的瀏覽特征向量為字/詞在瀏覽歷史記錄中的一些表相的特 性和方式,例如,該字/詞有多少次出現(xiàn)在網(wǎng)頁的標(biāo)題等。其中,瀏覽歷史 記錄是用戶瀏覽的網(wǎng)頁的序列以及相應(yīng)的瀏覽動作,例如點(diǎn)擊某一超級鏈接 等。其中,瀏覽歷史包括互聯(lián)網(wǎng)的網(wǎng)頁瀏覽,還可以包括由Text Message 驅(qū)動的信息瀏覽以及各種信息系統(tǒng)之上的信息瀏覽。瀏覽特征向量可以包含 多個屬性分量。在本實(shí)施例中,字/詞w在瀏覽歷史記錄中的瀏覽特征向量包 含20個屬性分量(6;,《,…,Z4),分別對應(yīng)于在整個瀏覽過程中字/詞w在18個 HTML標(biāo)簽上出現(xiàn)的次數(shù)總和,這些標(biāo)簽分別<formula>formula see original document page 20</formula>該字/詞w在所有被點(diǎn)擊的超級鏈接上出現(xiàn)的次數(shù)總和,以及在整個網(wǎng)頁序列中最后出現(xiàn)的位置。在此,所有的屬性值經(jīng)過歸一化處理。如步驟601所述,訓(xùn)練數(shù)據(jù)集中的瀏覽歷史樣本目標(biāo)網(wǎng)頁p,的標(biāo)引關(guān)鍵詞包括z個字/詞<w;,...w),...vv;,其中字/詞".的瀏覽特征向量為(6/》/,…,《。),這樣,本步驟602得到的整個標(biāo)引關(guān)鍵詞的瀏覽特征向量可以表示為 (6;,^…,Z4A2,622,…A2。,…A',g,…,Z4)其中,標(biāo)引關(guān)鍵詞的瀏覽特征向量的長度為20x/。步驟603:對每一個瀏覽歷史樣本目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的瀏覽特征向 量進(jìn)行分類得到所屬的類別。對標(biāo)引關(guān)鍵詞的瀏覽特征向量進(jìn)行分類時(shí),可以根據(jù)瀏覽歷史樣本目標(biāo) 網(wǎng)頁p在以該標(biāo)引關(guān)鍵詞為搜索關(guān)鍵詞進(jìn)行搜索而返回的搜索結(jié)果中的排 名位置(rank)進(jìn)行分類,例如,如果rawA^5,則分類為"6fl,類別,否 則分類為類別。標(biāo)引關(guān)鍵詞特征向量的20x/個分量的變量命名與其 所屬的字/詞在標(biāo)引關(guān)鍵詞中的位置相對應(yīng),這樣,訓(xùn)練數(shù)據(jù)集中的每一個 瀏覽歷史樣本目標(biāo)網(wǎng)頁p及其標(biāo)引關(guān)^l建詞可以表示為步驟604:利用訓(xùn)練數(shù)據(jù)集中的瀏覽歷史樣本目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的 瀏覽特征向量及其類別,訓(xùn)練決策樹("r )。通過訓(xùn)練,在根節(jié)點(diǎn)中設(shè)置標(biāo)引關(guān)鍵詞的瀏覽特征向量中屬性分量的判 定條件,根據(jù)屬性分量的不同取值建立分支節(jié)點(diǎn),然后按照同樣方式在每個 分支節(jié)點(diǎn)中設(shè)置標(biāo)引關(guān)鍵詞的瀏覽特征向量中屬性分量的判定條件并根據(jù) 屬性分量的不同取值再建立下層分支節(jié)點(diǎn),直到建立葉節(jié)點(diǎn)為止,葉節(jié)點(diǎn)對 應(yīng)"W,或"goo,的類別,以此訓(xùn)練得到?jīng)Q策樹。預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的第二步中生成過濾器的步驟同圖4所示 流程,在此省略其描述。通過上述方法訓(xùn)練得到?jīng)Q策樹和生成過濾器之后,為了預(yù)測目標(biāo)網(wǎng)頁的征向量,利用標(biāo)引關(guān)鍵詞的過濾器對所獲取的字/詞進(jìn)行過濾得到滿足過濾 器條件的字/詞,并從這些通過過濾器的字/詞中提取標(biāo)引關(guān)鍵詞作為目標(biāo)網(wǎng) 頁的標(biāo)引關(guān)鍵詞。圖7所示為預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的流程圖,如圖7 所示,包括以下步驟步驟701:獲取瀏覽歷史網(wǎng)頁序列i^(A,/v.,A),對于每一個瀏覽歷史網(wǎng)頁A,提取瀏覽歷史網(wǎng)頁^內(nèi)的所有或部分字/詞,并計(jì)算所有或部分字/詞的瀏覽特征向量。在此,瀏覽歷史網(wǎng)頁序列可以在瀏覽器端得到,也可以在服務(wù)器端得到。步驟702:對于瀏覽歷史網(wǎng)頁A的每一個字/詞,判斷該字/詞的瀏覽特征向量是否符合過濾器各位置上的析取范式,并記錄符合析取范式的字/詞 以及相應(yīng)的位置,得到標(biāo)引關(guān)鍵詞/個位置上可能包含的字/詞集 (《,義2,..,《,...,義,)。其中,每一個位置上所包含的字/詞數(shù)可能不同,包含 的字/詞數(shù)用|《|,/ = (1,...,/)表示。其中,過濾器生成過程如圖4所示的步驟401~403所述。 步驟703:從步驟702所得到的/個位置中各位置上所得到的字/詞集《 中分別提取一個字/詞組成一個長度為/的標(biāo)引關(guān)鍵詞,作為候選標(biāo)引關(guān)鍵詞。這種組合方式共有K:]^lx」種,因此候選標(biāo)引關(guān)鍵詞的總數(shù)目為K =' =1,'=1步驟704:針對每一個候選標(biāo)引關(guān)鍵詞,將組成該候選標(biāo)引關(guān)鍵詞的各 字/詞的瀏覽特征向量連在一起形成一個向量,作為該候選標(biāo)引關(guān)鍵詞的瀏 覽特征向量。步驟705:調(diào)用訓(xùn)練得到的決策樹Dr,根據(jù)候選標(biāo)引關(guān)鍵詞的瀏覽特 征向量來預(yù)測該候選標(biāo)引關(guān)鍵詞的類別,如"good"或'W,。其中,決策樹訓(xùn)練方法如圖6所示的步驟601 ~ 604所述。預(yù)測候選標(biāo)引關(guān)鍵詞的類別的方法具體為,從決策樹的根節(jié)點(diǎn)開始,根 據(jù)各節(jié)點(diǎn)上的判定條件來確定候選標(biāo)引關(guān)鍵詞的瀏覽特征向量中與該節(jié)點(diǎn) 的判定條件對應(yīng)的瀏覽特征向量的屬性分量來確定該節(jié)點(diǎn)的分支節(jié)點(diǎn),直到 確定葉節(jié)點(diǎn)為止,根據(jù)所確定的葉節(jié)點(diǎn)即可得到該候選標(biāo)卩1關(guān)鍵詞的類別。步驟706:對于類別為的候選標(biāo)引關(guān)鍵詞,記錄該候選標(biāo)引關(guān) 鍵詞的預(yù)測準(zhǔn)確度。在此,所述的預(yù)測準(zhǔn)確度是由決策樹給出的。步驟707:將預(yù)測準(zhǔn)確度最高的候選標(biāo)引關(guān)鍵詞確定為目標(biāo)網(wǎng)頁的標(biāo)引 關(guān)鍵詞。在本步驟中,也可以選擇多個標(biāo)引關(guān)4定詞,例如,將預(yù)測準(zhǔn)確度達(dá)到頭見 定標(biāo)準(zhǔn)的候選標(biāo)引關(guān)^T建詞確定為目標(biāo)網(wǎng)頁的標(biāo)引關(guān)4建詞。瀏覽特征向量,調(diào)用決策樹和過濾器來預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞。由于目 標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞可以看作是用戶搜索意圖在相應(yīng)的搜索引擎上的表示, 所以,通過本實(shí)施例預(yù)測出目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞,則可以說預(yù)測到了用戶 的搜索意圖,因此可以向用戶推薦將所預(yù)測到的目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞為搜 索關(guān)鍵詞搜索得到的結(jié)果。按照上述圖7所示流程預(yù)測得到目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞之后,將該目標(biāo) 網(wǎng)頁的標(biāo)引關(guān)鍵詞作為搜索關(guān)鍵詞發(fā)送給搜索引擎,并向用戶推薦由該搜索 引擎返回的搜索結(jié)果。這樣,用戶可以得到符合自身搜索意圖的目標(biāo)網(wǎng)頁。 本發(fā)明所述的預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的方法可以作為瀏覽器的 一 個功 能模塊集成到瀏覽器內(nèi),或者也可以作為一個獨(dú)立的功能單元安裝到瀏覽器 內(nèi)。另外,也可以將本發(fā)明所述的預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)^^泉詞的方法作為計(jì) 算機(jī)可執(zhí)行的程序,安裝到瀏覽器上,使得該瀏覽器通過執(zhí)行該程序來預(yù)測 用戶的搜索意圖,以便向用戶推薦網(wǎng)頁。本發(fā)明提供的預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的方法可以應(yīng)用于在線廣告 推薦。在線廣告中可以包含文本、圖片、動畫、音頻等內(nèi)容。在線廣告需要 返回與用戶需求最相關(guān)的廣告,這樣可以鼓勵用戶點(diǎn)擊廣告項(xiàng)。推薦在線廣 告的具體方法為,廣告發(fā)布網(wǎng)站獲取用戶在同一網(wǎng)站或不同網(wǎng)站上的瀏覽歷 史記錄并向廣告服務(wù)器登記用戶的瀏覽歷史記錄,廣告服務(wù)器提取瀏覽歷史 記錄中所包含的字/詞的瀏覽特征向量,調(diào)用預(yù)先訓(xùn)練得到的決策樹和預(yù)先 生成的過濾器來預(yù)測目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞,將該目標(biāo)在線廣告的標(biāo)引 關(guān)鍵詞作為搜索關(guān)鍵詞發(fā)送給廣告服務(wù)器上的搜索引擎,并向用戶推薦由該 廣告服務(wù)器上的搜索引擎返回的在線廣告。這樣,用戶可以得到自身需要的在線廣告。其中,訓(xùn)練決策樹的流程,除了訓(xùn)練數(shù)據(jù)集不同之外,其他過程與圖6所示流程相同。為了推薦在線廣告而訓(xùn)練決策樹時(shí),訓(xùn)練數(shù)據(jù)集包括引關(guān)鍵詞。其中,瀏覽歷史樣本目標(biāo)在線廣告是指在瀏覽過程中被訪問過的 在線廣告,瀏覽歷史樣本目標(biāo)在線廣告可以由用戶指定,也可以由廣告服務(wù) 器自動生成。生成過濾器的方法與圖4所示流程相同,在此省略其描述。在此,廣告發(fā)布網(wǎng)站可以采用"顯示廣告"或"引用廣告"的方式發(fā)布 廣告。"引用廣告"是指不顯示任何廣告內(nèi)容,而只是作為其他網(wǎng)站的引用 者。假設(shè)在第一個網(wǎng)站中采用"引用廣告"的方式發(fā)布了廣告,在第二個網(wǎng) 站中采用"顯示廣告"的方式發(fā)布了廣告,第一個網(wǎng)站的"引用廣告"對于 用戶是不可見的,用戶從第一個網(wǎng)站轉(zhuǎn)到第二個網(wǎng)站點(diǎn)擊了 "顯示廣告", 這時(shí),由于瀏覽特征向量表示了用戶瀏覽歷史過程,所以,該第一個網(wǎng)站作 為瀏覽歷史對廣告的預(yù)測是有貢獻(xiàn)的。因此,采用"顯示廣告"的方式發(fā)布 廣告的網(wǎng)站在用戶點(diǎn)擊任一廣告而得到收益后,應(yīng)當(dāng)根據(jù)釆用"引用廣告" 的方式發(fā)布廣告的網(wǎng)站所記錄的用戶瀏覽歷史記錄對該廣告的貢獻(xiàn),與采用 "引用廣告"的方式發(fā)布廣告的網(wǎng)站分享部分收益。當(dāng)然,采用"顯示廣告" 的方式發(fā)布廣告的網(wǎng)站也可以作為一個引用者與其他網(wǎng)站分享廣告收益。充分結(jié)合了靜態(tài)的網(wǎng)頁內(nèi)容和動態(tài)的用戶的瀏覽行為,根據(jù)被動觀察到的用 戶瀏覽的歷史紀(jì)錄來預(yù)測用戶的搜索意圖,無需用戶的其他輸入,對用戶的 瀏覽不做任何的干預(yù),為用戶提供更精確的搜索服務(wù)。 下面給出用于實(shí)現(xiàn)上述方法的裝置結(jié)構(gòu)。圖8所示為用于提取網(wǎng)頁的標(biāo)引關(guān)鍵詞的裝置結(jié)構(gòu)圖,如圖8所示,該 裝置包括決策樹訓(xùn)練單元810,用于訓(xùn)練決策樹;過濾器生成單元820, 用于利用所述決策樹訓(xùn)練單元所訓(xùn)練得到的決策樹生成過濾器;標(biāo)引關(guān)鍵詞 提取單元830,用于利用所述決策樹訓(xùn)練單元所訓(xùn)練得到的決策樹和所述過 濾器生成單元所生成的過濾器,提取輸入網(wǎng)頁的標(biāo)引關(guān)鍵詞并輸出。所述決策樹訓(xùn)練單元810包括訓(xùn)練數(shù)據(jù)集獲取單元811,用于獲取多 個樣本網(wǎng)頁以及相應(yīng)樣本網(wǎng)頁的標(biāo)引關(guān)鍵詞;標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量計(jì) 算單元812,用于計(jì)算所述樣本網(wǎng)頁的標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量;分類單 元813,用于對所述樣本網(wǎng)頁的網(wǎng)頁特征向量進(jìn)行分類得到所屬的類別;訓(xùn) 練單元814,用于根據(jù)所述樣本網(wǎng)頁的標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量和所屬的 類別訓(xùn)練決策樹;決策樹保存單元815,用于保存所訓(xùn)練得到的決策樹。所述過濾器生成單元820包括規(guī)則建立單元821,用于從所述決策樹 保存單元中所保存的決策樹中,確定具有規(guī)定類別的葉節(jié)點(diǎn),并建立從根節(jié) 點(diǎn)到所述具有規(guī)定類別的葉節(jié)點(diǎn)的規(guī)則;判定條件提取單元822,用于從所 述規(guī)則建立單元所建立的每一個規(guī)則中,提取標(biāo)引關(guān)鍵詞的相同位置的判定 條件,并得到標(biāo)引關(guān)鍵詞的每一個位置的判定條件;析取范式獲取單元823, 用于提取所述判定條件提取單元所得到的不同規(guī)則中標(biāo)引關(guān)鍵詞的相同位 置的判定條件,得到標(biāo)引關(guān)鍵詞的每一個位置的析取范式;過濾器保存單元 824,用于將所述析取范式獲取單元所獲取的標(biāo)引關(guān)鍵詞的每一個位置的析 取范式作為相應(yīng)位置的過濾器保存。所述標(biāo)引關(guān)鍵詞提取單元830包括字/詞提取單元831,用于獲取輸入 網(wǎng)頁的部分或所有字/詞;網(wǎng)頁特征向量計(jì)算單元832,用于計(jì)算所述字/詞 提取單元所獲取的部分或所有字/詞的網(wǎng)頁特征向量;標(biāo)引關(guān)鍵詞各位置字/ 詞選擇單元833,用于按照所述過濾器保存單元所保存的標(biāo)引關(guān)鍵詞的每一 個位置的過濾器,判斷所述網(wǎng)頁特征向量計(jì)算單元所計(jì)算的字/詞的網(wǎng)頁特 征向量是否滿足標(biāo)引關(guān)鍵詞的每一個位置的過濾器條件,如果滿足,則在標(biāo) 引關(guān)鍵詞的相應(yīng)位置上選擇該字/詞;候選標(biāo)引關(guān)鍵詞生成單元834,用于從 所述標(biāo)引關(guān)鍵詞各位置字/詞選擇單元所選擇的標(biāo)引關(guān)鍵詞的各位置上的字/ 詞中分別提取字/詞并按照位置順序排列成候選標(biāo)引關(guān)鍵詞;類別預(yù)測單元 835,用于調(diào)用所述決策樹保存單元所保存的決策樹,根據(jù)所述候選標(biāo)引關(guān) 鍵詞生成單元所得到的各候選標(biāo)引關(guān)鍵詞所包含的字/詞的網(wǎng)頁特征向量來 預(yù)測該候選標(biāo)引關(guān)鍵詞的類別;預(yù)測準(zhǔn)確度記錄單元836,用于對于規(guī)定類別的候選標(biāo)引關(guān)鍵詞記錄預(yù)測準(zhǔn)確度;標(biāo)引關(guān)鍵詞確定單元837,用于將預(yù) 測準(zhǔn)確度達(dá)到規(guī)定標(biāo)準(zhǔn)或最高的候選標(biāo)引關(guān)鍵詞作為輸入網(wǎng)頁的標(biāo)引關(guān)4建 詞并輸出。下面給出用于推薦在線廣告的裝置。如圖9所示,推薦在線廣告的裝置 包括決策樹訓(xùn)練單元910,用于訓(xùn)練決策樹;過濾器生成單元920,用于 利用所述決策樹訓(xùn)練單元所訓(xùn)練得到的決策樹生成過濾器;瀏覽歷史獲取單 元940,用于獲取在線廣告的瀏覽歷史,并傳給標(biāo)引關(guān)鍵詞預(yù)測單元;標(biāo)引 關(guān)鍵詞預(yù)測單元930,用于利用所述決策樹訓(xùn)練單元所訓(xùn)練得到的決策樹和 所述過濾器生成單元所生成的過濾器,根據(jù)瀏覽歷史預(yù)測目標(biāo)在線廣告的標(biāo) 引關(guān)鍵詞,并輸出給在線廣告推薦單元950;在線廣告推薦單元950將從所 述標(biāo)引關(guān)鍵詞預(yù)測單元收到的目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞發(fā)送給在線廣告 搜索引擎,接收該在線廣告搜索引擎所返回的在線廣告并推薦。所述決策樹訓(xùn)練單元910包括訓(xùn)練數(shù)據(jù)集獲取單元911,用于獲取多關(guān)4建詞;標(biāo)引關(guān)鍵詞的瀏覽特征向量計(jì)算單元912,用于計(jì)算所述瀏覽歷史 樣本目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞的瀏覽特征向量;分類單元913,用于對所 述瀏覽歷史樣本目標(biāo)在線廣告的瀏覽特征向量進(jìn)行分類得到所屬的類別;訓(xùn) 練單元914,用于根據(jù)所述瀏覽歷史樣本目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞的瀏覽 特征向量和所屬的類別訓(xùn)練決策樹;決策樹保存單元915,用于保存所訓(xùn)練 得到的決策樹。在此,訓(xùn)練數(shù)據(jù)集獲取單元911在獲取瀏覽歷史樣本目標(biāo)在 線廣告的標(biāo)引關(guān)鍵詞時(shí),可以將瀏覽歷史樣本目標(biāo)在線廣告輸出給圖8所示 的用于提取網(wǎng)頁的標(biāo)引關(guān)鍵詞的裝置,由該用于提取網(wǎng)頁的標(biāo)引關(guān)鍵詞的裝 置提取出該瀏覽歷史樣本目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞之后返回給所述訓(xùn)練 數(shù)據(jù)集獲取單元911。所述過濾器生成單元920包括規(guī)則建立單元921,用于從所述決策樹 保存單元中所保存的決策樹中,確定具有規(guī)定類別的葉節(jié)點(diǎn),并建立從根節(jié) 點(diǎn)到所述具有規(guī)定類別的葉節(jié)點(diǎn)的規(guī)則;判定條件提取單元922,用于從所述規(guī)則建立單元所建立的每一個規(guī)則中,提取標(biāo)引關(guān)鍵詞的相同位置的判定條件,并得到標(biāo)引關(guān)鍵詞的每一個位置的判定條件;析取范式獲取單元933, 用于提取所述判定條件提取單元所得到的不同規(guī)則中標(biāo)引關(guān)鍵詞的相同位 置的判定條件,得到標(biāo)引關(guān)鍵詞的每一個位置的析取范式;過濾器保存單元 944,用于將所述析取范式獲取單元所獲取的標(biāo)引關(guān)鍵詞的每一個位置的析 取范式作為相應(yīng)位置的過濾器保存。所述標(biāo)引關(guān)鍵詞預(yù)測單元930包括字/詞提取單元931,用于提取所述 瀏覽歷史獲取單元940所獲取的瀏覽歷史中的部分或所有字/詞;瀏覽特征 向量計(jì)算單元932,用于計(jì)算所述字/詞提取單元所提取的部分或所有字/詞 的瀏覽特征向量;標(biāo)引關(guān)鍵詞各位置字/詞選擇單元933,用于按照所述過濾 器保存單元所保存的標(biāo)引關(guān)鍵詞的每一個位置的過濾器,判斷所述瀏覽特征 向量計(jì)算單元所計(jì)算的字/詞的瀏覽特征向量是否滿足標(biāo)引關(guān)鍵詞的每一個 位置的過濾器條件,如果滿足,則在標(biāo)引關(guān)鍵詞的相應(yīng)位置上選擇該字/詞; 候選標(biāo)引關(guān)鍵詞生成單元934,用于從所述標(biāo)引關(guān)鍵詞各位置字/詞選擇單元 所選擇的標(biāo)引關(guān)鍵詞的各位置上的字/詞中分別提取字/詞并按照位置順序排 列成候選標(biāo)引關(guān)鍵詞;類別預(yù)測單元935,用于調(diào)用所述決策樹保存單元所 保存的決策樹,根據(jù)所述候選標(biāo)引關(guān)鍵詞生成單元所得到的各候選標(biāo)引關(guān)鍵 詞所包含的字/詞的瀏覽特征向量來預(yù)測該候選標(biāo)引關(guān)4定詞的類別;預(yù)測準(zhǔn) 確度記錄單元936,用于對于規(guī)定類別的候選標(biāo)引關(guān)鍵詞記錄預(yù)測準(zhǔn)確度; 標(biāo)引關(guān)鍵詞確定單元937,用于將預(yù)測準(zhǔn)確度達(dá)到規(guī)定標(biāo)準(zhǔn)或最高的候選標(biāo) 引關(guān)鍵詞作為目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞并輸出給所述在線廣告推薦單元 950。本發(fā)明所述的用于推薦在線廣告的裝置可以作為廣告服務(wù)器的一個功 能模塊集成到廣告服務(wù)器內(nèi),或者也可以作為一個獨(dú)立的功能單元安裝到廣算機(jī)可執(zhí)行的程序,安裝到廣告服務(wù)器上,使得該廣告服務(wù)器通過執(zhí)行該程 序來進(jìn)行在線廣告推薦。以上所述的提取網(wǎng)頁的標(biāo)引關(guān)4建詞的方法和裝置、預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引 關(guān)鍵詞的方法和裝置、以及推薦在線廣告的方法和裝置不僅可以應(yīng)用于互聯(lián)網(wǎng)搜索、桌面搜索、企業(yè)信息搜索,還可以應(yīng)用于即時(shí)通訊(IM)設(shè)備、 手機(jī)移動設(shè)備以及手持設(shè)備上的搜索應(yīng)用系統(tǒng)。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本 發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在 本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1、一種提取網(wǎng)頁的標(biāo)引關(guān)鍵詞的方法,其特征在于,該方法包括獲取訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括多個樣本網(wǎng)頁以及相應(yīng)樣本網(wǎng)頁的標(biāo)引關(guān)鍵詞;獲取所述樣本網(wǎng)頁的標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量,對該標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量進(jìn)行分類得到所屬的類別,并根據(jù)所述訓(xùn)練數(shù)據(jù)集中樣本網(wǎng)頁的標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量和所屬的類別訓(xùn)練決策樹;利用訓(xùn)練得到的決策樹,生成標(biāo)引關(guān)鍵詞的過濾器,所述過濾器包括標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量的判定條件;獲取網(wǎng)頁的部分或所有字/詞,獲取所述部分或所有字/詞的網(wǎng)頁特征向量,并選擇網(wǎng)頁特征向量符合所述過濾器中判定條件的字/詞,從所選擇的字/詞中提取網(wǎng)頁的標(biāo)引關(guān)鍵詞。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述標(biāo)引關(guān)鍵詞包括/個字/詞,/為大于等于1的自然數(shù); 所述獲取所述樣本網(wǎng)頁的標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量為獲取所述樣本網(wǎng)頁的標(biāo)引關(guān)鍵詞中每一個字/詞的網(wǎng)頁特征向量,將該標(biāo)引關(guān)鍵詞中所有字/詞的 網(wǎng)頁特征向量列在一起得到該樣本網(wǎng)頁的標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量;所述訓(xùn)練決策樹為在根節(jié)點(diǎn)中設(shè)置標(biāo)引關(guān)鍵詞的網(wǎng)頁特征向量中分量的 判定條件,根據(jù)分量的不同取值建立分支節(jié)點(diǎn),然后在每個分支節(jié)點(diǎn)中設(shè)置標(biāo) S1關(guān)4建詞的網(wǎng)頁特征向量中分量的判定條件并才艮據(jù)分量的不同取值再建立下層 分支節(jié)點(diǎn),直到建立葉節(jié)點(diǎn)為止,葉節(jié)點(diǎn)對應(yīng)所述類別。
3、 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述生成標(biāo)引關(guān)4建詞的過濾 器的步驟包括針對具有規(guī)定類別的每一個葉節(jié)點(diǎn),將從根節(jié)點(diǎn)到所述葉節(jié)點(diǎn)的判定條件 用"與"的關(guān)系連接在一起得到從根節(jié)點(diǎn)到所述葉節(jié)點(diǎn)的規(guī)則;對于每一個規(guī)則,將標(biāo)引關(guān)4建詞的相同位置的判定條件用"與"的關(guān)系連接在一起得到標(biāo)引關(guān)鍵詞的每一個位置的判定條件;將不同規(guī)則中標(biāo)引關(guān)鍵詞的相同位置的判定條件用"或"的關(guān)系組合在一 起,得到標(biāo)引關(guān)鍵詞的每一個位置的析取范式,所述標(biāo)引關(guān)鍵詞的各位置的析 取范式構(gòu)成過濾器。
4、 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述選擇網(wǎng)頁特征向量符合所述過濾器中判定條件的字/詞為對于所述網(wǎng) 頁的部分或所有字/詞,判斷字/詞的網(wǎng)頁特征向量是否滿足標(biāo)引關(guān)4定詞的每一個 位置的析取范式,如果滿足,則在標(biāo)引關(guān)鍵詞的相應(yīng)位置上選擇該字/詞;所ii/人所選擇的字/詞中提取網(wǎng)頁的標(biāo)引關(guān)鍵詞為從標(biāo)引關(guān)鍵詞的各位置上所選擇的字/詞中分別提取字/詞并按照位置順序 排列成候選標(biāo)引關(guān)鍵詞;調(diào)用訓(xùn)練得到的決策樹,根據(jù)^f矣選標(biāo)引關(guān)鍵詞所包含的字/詞的網(wǎng)頁特征 向量預(yù)測該候選標(biāo)引關(guān)鍵詞的類別,對于規(guī)定類別的候選標(biāo)引關(guān)鍵詞記錄預(yù)測 準(zhǔn)確度,并將預(yù)測準(zhǔn)確度達(dá)到規(guī)定標(biāo)準(zhǔn)或最高的候選標(biāo)引關(guān)鍵詞作為該網(wǎng)頁的 標(biāo)引關(guān)鍵詞。
5、 一種預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的方法,其特征在于,該方法包括 獲取訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括多個瀏覽歷史樣本目標(biāo)網(wǎng)頁以及相應(yīng)瀏覽歷史樣本目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞;獲取所述瀏覽歷史樣本目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的瀏覽特征向量,對該標(biāo)引 關(guān)鍵詞的瀏覽特征向量進(jìn)行分類得到所屬的類別,并根據(jù)所述訓(xùn)練數(shù)據(jù)集中瀏 覽歷史樣本目標(biāo)網(wǎng)頁的標(biāo)引關(guān)4定詞的瀏覽特征向量和所屬的類別訓(xùn)練決策樹;利用訓(xùn)練得到的決策樹,生成標(biāo)引關(guān)4定詞的過濾器,所述過濾器包括標(biāo)引 關(guān)#:詞的瀏覽特征向量的判定條件;獲取瀏覽歷史網(wǎng)頁,獲取所述瀏覽歷史網(wǎng)頁的部分或所有字/詞,獲取所述 部分或所有字/詞的瀏覽特征向量,并選擇瀏覽特征向量符合所述過濾器中判定 條件的字/詞,從所選擇的字/詞中預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞。
6、 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述瀏覽歷史樣本目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞通過權(quán)利要求1所述的方法提取得到。
7、 根據(jù)權(quán)利要求5所述的方法,其特征在于, 所述標(biāo)引關(guān)鍵詞包括/個字/詞,/為大于等于1的自然數(shù); 所述獲取所述瀏覽歷史樣本目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的瀏覽特征向量為獲取所述瀏覽歷史樣本目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞中每一個字/詞的瀏覽特征向量,將 該標(biāo)引關(guān)鍵詞中所有字/詞的瀏覽特征向量列在一起得到該瀏覽歷史樣本目標(biāo) 網(wǎng)頁的標(biāo)引關(guān)4建詞的瀏覽特征向量;所述訓(xùn)練決策樹為在根節(jié)點(diǎn)中設(shè)置標(biāo)? I關(guān)鍵詞的瀏覽特征向量中分量的 判定條件,根據(jù)分量的不同取值建立分支節(jié)點(diǎn),然后在每個分支節(jié)點(diǎn)中設(shè)置標(biāo) 1關(guān)鍵詞的瀏覽特征向量中分量的判定條件并根據(jù)分量的不同取值再建立下層 分支節(jié)點(diǎn),直到建立葉節(jié)點(diǎn)為止,葉節(jié)點(diǎn)對應(yīng)所述類別。
8、 根據(jù)權(quán)利要求7所述的方法,其特征在于,所述生成標(biāo)引關(guān)鍵詞的過濾 器的步驟包括針對具有規(guī)定類別的每一個葉節(jié)點(diǎn),將從根節(jié)點(diǎn)到所述葉節(jié)點(diǎn)的判定條件 用"與"的關(guān)系連接在一起得到從根節(jié)點(diǎn)到所述葉節(jié)點(diǎn)的規(guī)則;對于每一個規(guī)則,將標(biāo)引關(guān)鍵詞的相同位置的判定條件用"與"的關(guān)系連 接在一起得到標(biāo)31關(guān)鍵詞的每一個位置的判定條件;將不同規(guī)則中標(biāo)引關(guān)鍵詞的相同位置的判定條件用"或"的關(guān)系組合在一 起,得到標(biāo)引關(guān)鍵詞的每一個位置的析取范式,所述標(biāo)引關(guān)鍵詞的各位置的析 取范式構(gòu)成過濾器。
9、 根據(jù)權(quán)利要求8所述的方法,其特征在于,所述選擇瀏覽特征向量符合所述過濾器中判定條件的字/詞為對于所述瀏 覽歷史網(wǎng)頁的部分或所有字/詞,判斷字/詞的瀏覽特征向量是否滿足標(biāo)引關(guān)鍵詞 的每一個位置的析取范式,如果滿足,則在標(biāo)引關(guān)鍵詞的相應(yīng)位置上選擇該字/詞;所述從所選擇的字/詞中預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞為從標(biāo)引關(guān)鍵詞的各位置上所選擇的字/詞中分別提取字/詞并按照位置順序排列成候選標(biāo)引關(guān)鍵詞;調(diào)用訓(xùn)練得到的決策樹,根據(jù)各候選標(biāo)引關(guān)鍵詞所包含的字/詞的瀏覽特征 向量預(yù)測該候選標(biāo)引關(guān)鍵詞的類別,對于規(guī)定類別的候選標(biāo)引關(guān)鍵詞記錄預(yù)測 準(zhǔn)確度,并將預(yù)測準(zhǔn)確度達(dá)到規(guī)定標(biāo)準(zhǔn)或最高的候選標(biāo)引關(guān)鍵詞作為目標(biāo)網(wǎng)頁 的標(biāo)引關(guān)鍵詞。
10、 一種推薦在線廣告的方法,其特征在于,該方法包括 獲取訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括多個瀏覽歷史樣本目標(biāo)在線廣告以及相應(yīng)瀏覽歷史樣本目標(biāo)在線廣告的標(biāo)引關(guān)4定詞;獲取所述瀏覽歷史樣本目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞的瀏覽特征向量,對該 標(biāo)引關(guān)鍵詞的瀏覽特征向量進(jìn)行分類得到所屬的類別,并根據(jù)所述訓(xùn)練數(shù)據(jù)集 中瀏覽歷史樣本目標(biāo)在線廣告的標(biāo)引關(guān)4建詞的瀏覽特征向量和所屬的類別訓(xùn)練 決策樹;利用訓(xùn)練得到的決策樹,生成標(biāo)引關(guān)鍵詞的過濾器,所述過濾器包括標(biāo)引 關(guān)4建詞的瀏覽特征向量的判定條件;獲取在線廣告的瀏覽歷史,獲取所述瀏覽歷史的部分或所有字/詞,獲取所 述部分或所有字/詞的瀏覽特征向量,并選擇瀏覽特征向量符合所述過濾器中判 定條件的字/詞,從所選擇的字/詞中預(yù)測目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞;將預(yù)測得到的目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞作為搜索關(guān)鍵詞發(fā)送給搜索引 擎,并推薦搜索引擎返回的在線廣告。
11、 根據(jù)權(quán)利要求IO所述的方法,其特征在于,所述在線廣告包括顯示 廣告和引用廣告。
12、 一種推薦在線廣告的裝置,其特征在于,該裝置包括 決策樹訓(xùn)練單元,用于訓(xùn)練決策樹;過濾器生成單元,用于利用所述決策樹訓(xùn)練單元所訓(xùn)練得到的決策樹生成 過濾器;瀏覽歷史獲取單元,用于獲取在線廣告的瀏覽歷史,并傳給標(biāo)引關(guān)鍵詞預(yù) 測單元;標(biāo)51關(guān)鍵詞預(yù)測單元,用于利用所述決策樹訓(xùn)練單元所訓(xùn)練得到的決策樹 和所述過濾器生成單元所生成的過濾器,根據(jù)瀏覽歷史預(yù)測目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞,并輸出給在線廣告推薦單元;在線廣告推薦單元,用于將從所述標(biāo)引關(guān)鍵詞預(yù)測單元收到的目標(biāo)在線廣 告的標(biāo)引關(guān)鍵詞發(fā)送給搜索引擎,接收該搜索引擎所返回的在線廣告并推薦。
13、根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述決策樹訓(xùn)練單元包括訓(xùn)練數(shù)據(jù)集獲取單元,用于獲取多個瀏覽歷史樣本目標(biāo)在線廣告以及相應(yīng) 瀏覽歷史樣本目標(biāo)在線廣告的標(biāo)引關(guān)4A詞;標(biāo)引關(guān)4建詞的瀏覽特征向量計(jì)算單元,用于計(jì)算所述瀏覽歷史樣本目標(biāo)在 線廣告的標(biāo)引關(guān)4建詞的瀏覽特征向量;分類單元,用于對所述瀏覽歷史樣本目標(biāo)在線廣告的瀏覽特征向量進(jìn)行分 類得到所屬的類別;訓(xùn)練單元,用于根據(jù)所述瀏覽歷史樣本目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞的瀏覽 特征向量和所屬的類別訓(xùn)練決策樹;決策樹保存單元,用于保存所訓(xùn)練得到的決策樹;所述過濾器生成單元包括規(guī)則建立單元,用于從所述決策樹保存單元中所保存的決策樹中,確定具 有規(guī)定類別的葉節(jié)點(diǎn),并建立從根節(jié)點(diǎn)到所述具有規(guī)定類別的葉節(jié)點(diǎn)的規(guī)則;判定條件提取單元,用于從所述規(guī)則建立單元所建立的每一個規(guī)則中,提 取標(biāo)引關(guān)鍵詞的相同位置的判定條件,并得到標(biāo)引關(guān)鍵詞的每一個位置的判定 條件;析取范式獲取單元,用于提取所述判定條件提取單元所得到的不同規(guī)則中 標(biāo)引關(guān)鍵詞的相同位置的判定條件,得到標(biāo)引關(guān)鍵詞的每一個位置的析取范式;過濾器保存單元,用于將所述析取范式獲取單元所獲取的標(biāo)引關(guān)鍵詞的每 一個位置的析取范式作為相應(yīng)位置的過濾器保存;所述標(biāo)引關(guān)鍵詞預(yù)測單元包括字/詞提取單元,用于提取所述瀏覽歷史獲取單元所獲取的瀏覽歷史中的部分或所有字/詞;瀏覽特征向量計(jì)算單元,用于計(jì)算所述字/詞提取單元所提取的部分或所有 字/詞的瀏覽特征向量;標(biāo)引關(guān)鍵詞各位置字/詞選擇單元,用于按照所述過濾器保存單元所保存的 標(biāo)引關(guān)鍵詞的每一個位置的過濾器,判斷所述瀏覽特征向量計(jì)算單元所計(jì)算的 字/詞的瀏覽特征向量是否滿足標(biāo)引關(guān)鍵詞的每一個位置的過濾器條件,如果滿 足,則在標(biāo)引關(guān)鍵詞的相應(yīng)位置上選擇該字/詞;候選標(biāo)引關(guān)鍵詞生成單元,用于從所述標(biāo)引關(guān)鍵詞各位置字/詞選擇單元所 選捧的標(biāo)引關(guān)鍵詞的各位置上的字/詞中分別提取字/詞并按照位置順序排列成候選標(biāo)引關(guān)鍵詞;類別預(yù)測單元,用于調(diào)用所述決策樹保存單元所保存的決策樹,根據(jù)所述 候選標(biāo)引關(guān)鍵詞生成單元所得到的各候選標(biāo)引關(guān)鍵詞所包含的字/詞的瀏覽特 征向量來預(yù)測該候選標(biāo)引關(guān)^定詞的類別;預(yù)測準(zhǔn)確度記錄單元,用于對于規(guī)定類別的候選標(biāo)引關(guān)鍵詞記錄預(yù)測準(zhǔn)確度;標(biāo)引關(guān)鍵詞確定單元,用于將預(yù)測準(zhǔn)確度達(dá)到規(guī)定標(biāo)準(zhǔn)或最高的候選標(biāo)引 關(guān)4建詞作為目標(biāo)在線廣告的標(biāo)引關(guān)4定詞并輸出給所述在線廣告推薦單元。
全文摘要
本發(fā)明公開了一種預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞的方法,該方法包括獲取訓(xùn)練數(shù)據(jù)集,根據(jù)所獲取的訓(xùn)練數(shù)據(jù)集訓(xùn)練決策樹;利用訓(xùn)練得到的決策樹生成標(biāo)引關(guān)鍵詞的過濾器;利用訓(xùn)練得到的決策樹和所生成的過濾器,預(yù)測目標(biāo)網(wǎng)頁的標(biāo)引關(guān)鍵詞。本發(fā)明還公開了一種推薦在線廣告的方法,根據(jù)用戶瀏覽歷史預(yù)測得到的目標(biāo)在線廣告的標(biāo)引關(guān)鍵詞發(fā)送給搜索引擎,并推薦搜索引擎返回的在線廣告。本發(fā)明還公開了一種提取網(wǎng)頁的標(biāo)引關(guān)鍵詞的方法以及推薦在線廣告的裝置。根據(jù)本發(fā)明公開的方法和裝置,能夠預(yù)測用戶的搜索意圖,為用戶提供精確的搜索服務(wù)。
文檔編號G06F17/30GK101216825SQ200710160700
公開日2008年7月9日 申請日期2007年12月29日 優(yōu)先權(quán)日2007年12月29日
發(fā)明者朱廷劭 申請人:朱廷劭
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
改则县| 文山县| 穆棱市| 谢通门县| 兴山县| 乐山市| 蕉岭县| 松滋市| 承德市| 奉节县| 新疆| 嘉善县| 南溪县| 汾阳市| 伊春市| 通化县| 邯郸县| 奉化市| 伊吾县| 甘德县| 高安市| 高邑县| 衡南县| 珠海市| 苗栗市| 靖宇县| 根河市| 景德镇市| 舒城县| 新乡县| 宜兴市| 淮南市| 石景山区| 广灵县| 合阳县| 子洲县| 新巴尔虎右旗| 泾源县| 前郭尔| 南宫市| 扎鲁特旗|