專利名稱:基于用戶反饋的贊助搜索廣告的建議關鍵詞生成方法
技術領域:
本發(fā)明涉及信息檢索,數據挖掘,贊助搜索和機器學習領域,特別是涉及 一種基于用戶反饋的贊助搜索廣告的建議關鍵詞生成方法。
背景技術:
近年來,贊助搜索作為一種成功的網絡廣告形式,商業(yè)價值突顯,每年的
利潤數以億計。 一些主流的搜索引擎,如Google, Yahoo!等都為廣告商提供了 贊助搜索的服務。在贊助搜索廣告中,廣告商首先創(chuàng)建網頁廣告,并對與他們 產品或服務相關的詞語進行競價。當網絡用戶搜索被競價的詞語時,搜索引擎 會把競價投標中獲勝的廣告商廣告以贊助商鏈接的形式呈現給用戶,其中贊助 商鏈接一般顯示在原始搜索結果的旁邊。依照贊助商鏈接的用戶點擊數,廣告 商支付相應的費用給搜索引擎提供商。在這個過程中,廣告商需要在預算范圍 內找到盡可能多的相關詞語來增加被檢索的數量,以增加相應的品牌曝光或產 品銷售。
贊助搜索廣告的建議關鍵詞生成技術,也叫做關鍵詞建議技術幫助廣告商 自動生成與其產品或服務相關的大部分建議關鍵詞。這里所生成的建議關鍵詞 與潛在客戶的用于搜索查詢的關鍵詞的相關性直接影響了廣告的效果。廣告商, 也就是建議關鍵詞生成系統的用戶,首先提供給系統描述產品或服務的概念詞 語,比如"鞋子(shoes)","旅游(travel)"等,我們稱這些概念詞語為種 子關鍵詞。 一些常見的廣告的建議關鍵詞生成工具(例如Google's Adwords Tool, WordTracker等)往往通過挖掘一些能夠代表或擴充種子詞語義的元素,例如 URL,頻繁的査詢和元標簽等,用來找到一些頻繁共現或與種子關鍵詞相似的 詞語,并作為建議關鍵詞推薦給用戶。它們往往只能生成一些包含種子關鍵詞 的建議關鍵詞,例如對應于"shoes",生成"basketball shoes" , "running shoes" 等關鍵詞,并且往往缺乏語義相關性。
基于挖掘詞語間的語義關系,提高生成廣告關鍵詞的語義相關性,成為當 前建議關鍵詞生成研究的趨勢。例如上述的例子中,對于種子詞"shoes", 一 些較相關的可以推薦給用戶的建議關鍵詞包括"socks" , "sandal"和"bootlace" 等。用戶相關性反饋作為連接低層特征和高層語義的重要技術,在這里引入, 用來決定詞語之間的相關性。通過監(jiān)督的機器學習的方法,根據詞語對之間一些代表性的低層特征,有效地對詞語對做出相關性值進行計算,并以此對詞語 做排序,可以選出一些相關性較高的詞語作為種子關鍵詞的建議關鍵詞呈現給 用戶。其中機器學習中主動學習的方法可以用來選取少量信息量最大的候選關
鍵詞和種子關鍵詞組成的詞語對樣本,給用戶作相關性判斷,減少了用戶精力
耗費,并提高生成的建議關鍵詞的相關性。
發(fā)明內容
本發(fā)明的目的在于提供一種基于用戶反饋的贊助搜索廣告的建議關鍵詞生 成方法。
本發(fā)明解決其技術問題所采用的技術方案的步驟如下
1) 對于用戶輸入的每個種子關鍵詞,用一個特征文檔代表種子關鍵詞的語 義,并選擇特征文檔中TFIDF值排在前面的詞語作為候選關鍵詞;
2) 采用機器學習中主動學習的方法,選取具有最大信息量的候選關鍵詞,
要求用戶提供反饋信息,判斷與種子關鍵詞是"相關"的還是"不相關"的;
3) 根據用戶的反饋信息,用機器學習方法對所有候選關鍵詞與種子關鍵詞
的相關性進行學習,最后計算得到每個候選關鍵詞與種子關鍵詞的相關性值, 根據相關性值對候選關鍵詞按相關性從高到低排序,排序在前面的候選關鍵詞 作為種子關鍵詞的建議關鍵詞推薦給用戶。
所述步驟l)中用戶一般指廣告商;在搜索引擎中,用戶輸入種子關鍵詞, 返回的每條結果包含網頁標題,URL和文本片段;其中文本片段包含種子關鍵 詞的句子,取前L條搜索結果的文本片段,以此組成種子關鍵詞的文檔稱為特 征文檔;L值根據用戶對生成建議關鍵詞的相關性的松緊程度進行選取,L為 50-1000條;給定不同種子關鍵詞的特征文檔的集合,每個種子關鍵詞的特征文 檔中出現的不包含停用詞在內的所有詞語,計算每個詞語的TFIDF值,并選取 TFIDF值排在前面的M個詞語,當作相應種子關鍵詞的候選關鍵詞;其中M為 勵 800個。
所述步驟2)中每個種子關鍵詞,記為S,和它的任意候選關鍵詞,記為C, 組成了詞語對P&KS,C),對每個詞語對提取代表性的特征,包括候選關鍵詞在 種子關鍵詞特征文檔中的TFIDF和TF特征、詞語對P。/r(S,C)在搜索結果的文本 片段中共現頻率特征、詞語對i^KS,C)在搜索結果的相同URL的頻率特征;針 對這些特征,用主動學習的方法選取信息量最大的K個詞語對P。/r(S,C),并呈 現給用戶,用戶做出"相關"或"不相關"的評判;其中K為2.5。/。 10。/。M。
所述步驟3)中用戶做了相關性反饋的候選關鍵詞作為機器學習的訓練樣本;用戶評判為"相關"的詞語對用作正例樣本,"不相關"的詞語對用作負 例樣本;對應樣本詞語對Pa/KS,C)的特征和用戶評判,訓練一個邏輯回歸的相 關性模型,用來預測每個候選關鍵詞與種子關鍵詞的相關性值,預測完成后, 按相關性值從大到小排列候選關鍵詞;排序在前面的V個候選關鍵詞作為建議 關鍵詞推薦給用戶,V為10y。 50e/。M。
本發(fā)明與背景技術相比,具有的有益的效果是
本發(fā)明是一種用于生成贊助搜索廣告的建議關鍵詞的方法。它適用于幫助 廣告商用戶生成與他們產品或服務相關的建議關鍵詞,對這些建議關鍵詞迸行 贊助搜索競價,廣告商可以獲得更好的廣告效益。本發(fā)明的方法是依照高效性 和提高用戶滿意度而設計的。它基于機器學習的方法挖掘詞語之間的語義相關 性,其中用主動學習方法選取少量信息量最大的候選關鍵詞和種子關鍵詞組成 的詞語對樣本,給用戶作相關性判斷,減少了用戶精力耗費,并顯著提高生成 的數以百計至千計的建議關鍵詞與種子關鍵詞的相關性。本發(fā)明的方法具有較 強的可擴展性,每個歩驟可以根據實際或用戶偏好進行適當的修改,不影響總 體的框架和方法效果。
附圖是基于用戶反饋的贊助搜索廣告的建議關鍵詞生成方法的框架圖。
具體實施例方式
本發(fā)明實施的關鍵有三點候選關鍵詞生成、訓練樣本選取和相關性學習 模型訓練,相關性值計算和排序。其中監(jiān)督的機器學習和主動學習方法是本發(fā) 明實施的基礎。本發(fā)明的具體實施流程圖參見附圖
1.候選關鍵詞生成
在搜索引擎中,例如Google搜索種子關鍵詞,返回的每條結果包含網頁的 標題,URL和文本片段(Snippet);其中文本片段包含搜索關鍵詞的句子,取 前L條搜索結果的文本片段組成種子關鍵詞的特征文檔;L值可以根據用戶對 生成關鍵詞的相關性的松緊程度進行選取,L一般為數百條,例如特定的可以取 400;給定一個不同種子關鍵詞的特征文檔集合,每個文檔中出現不包括停用詞 (Stop Words)的所有詞語A的TFIDF值,其詞頻TF (Term Frequency)和逆 文檔頻率IDF (Inverse Document Frequency)的乘積,計算如下 TFIDF(A) = TF(A) x IDF(A) ( 1 )
其中TF(A)表示詞語A在文檔中的詞頻,IDF(A)表示出現A的逆文檔頻率, 其計算如下IDF(A) = ln[N/DF(A)] (2) 其中N為文檔數,DF(A)表示出現A的文檔頻率,ki表示自然對數; 權重值最大的M個候選關鍵詞被選取,當作相應種子關鍵詞的候選關鍵詞; M值也可以根據用戶對生成關鍵詞的相關性的松緊程度進行選取,為了提高相 關關鍵詞的覆蓋率,M—般取數百,例如特定的可以取800。 2.訓練樣本選取和相關性學習模型訓練
每個種子關鍵詞^和它的任意候選關鍵詞C組成了詞語對/^/K&C),對每 個詞語對提取代表性特征,例如特定地可以包括候選關鍵詞在種子關鍵詞特征 文檔中的TFIDF、 TF、詞語對P&(&C)在搜索結果的文本片段(Snippet)中共 現頻率、詞語對P"/K&C)在搜索結果的相同URL的頻率。
針對選取的代表性特征,用主動學習的方法選取信息量最大的K個詞語對 尸《>05,0,并呈現給用戶,用戶做出"相關"或"不相關"的評判;評判為"相 關"的詞語對用作正例樣本,"不相關"的詞語對用作負例樣本;為了更好地 滿足用戶,減少用戶精力花費,K值應盡量小,例如特定地可以占M的2.5y。比 例;其中主動學習的方法特定可以選取效果較好的增益的實驗設計(Transductive Experimental Design),簡稱TED,原理如下
考慮一個線性回歸模型
(3)
其中y是觀察量(observation) ; x是預測變量(predictor variable) ; w是 權重向量(weightvector) ; cr是不確定的誤差,其平均值為零,方差為cr2。用 乂=",、,...,、}表示特征向量的全集,其中x,對應第/個樣本的特征向量,向量的每一 為表示某個代表性特征(候選關鍵詞在種子關鍵詞特征文檔中的TFIDF、 TF、詞語 對/^V(&C)在搜索結果的文本片段(Snippet)中共現頻率、詞語對尸^(S,C)在搜 索結果的相同URL的頻率),給定一個X的一個子集Z^z"z2,…,WcX("m)用 于學習機器訓練,讓y,(用戶標注)表示與z,相對應的相關性值(l代表相關, -l代表不相關)。那么權重向量w的最大似然估計A,滿足平方誤差和最小
定義子集4征向量矩陣2 = [^2:2,...,&],觀察量矩陣5^b,,沁,…,yJ和全集特 征向量矩陣義=[^、,...,^],那么^可以寫成
"(ZZr)-'Zry (5)
很容易檢驗得到E ^w,因此W是無偏的估計。對于每個x,下式;p = Wrx (6)
表示它的預測觀察量,那么期望平方預測誤差可以寫成
£(y-j))2-o^+o^x^ZZYx (7)
期望平方預測誤差依賴于獨立的變量x。因此,平均期望平方預測誤差為
丄t五O; -"、)2 =cr2 +io"27>(Zr(ZZr)-1X) (8) 附附
我們按照公式(8)找到一個子集Z使得平均期望平方預測誤最小,并用這 個子集用于用戶標注,用戶做出"相關"或"不相關"的評判;用戶評判為"相 關"的詞語對用作正例樣本,記對應的j,為1;"不相關"的詞語對用作負例樣
本,記對應的x為-l;用這些樣本訓練一個邏輯回歸的相關性模型,由公式(4) 得到權重向量i。
3.相關性值計算和排序
把得到的權重向量^代入公式(6)算出夕表示每個候選關鍵詞與種子關鍵 詞組成詞對(其特征向量集合為X)的預測相關性值,并據此按相關性值從大到 小排列候選關鍵詞。候選關鍵詞的排序是根據相關性值從大到小進行;排序在 前面的V個候選關鍵詞作為建議關鍵詞推薦給用戶;V可以根據實際的相關性 準確度或者用戶的偏好進行選??;例如特定地V可以取M/4。
出于示出本發(fā)明的功能和框架原理的目的示出和描述了這些實施例,并且 在不脫離這樣的原理的情況下,可以對其進行適當修改。因此,本發(fā)明包括涵 蓋在所附權利要求的精神和范圍內的所有修改。
權利要求
1、一種基于用戶反饋的贊助搜索廣告的建議關鍵詞生成方法,其特征在于該方法的步驟如下1)對于用戶輸入的每個種子關鍵詞,用一個特征文檔代表種子關鍵詞的語義,并選擇特征文檔中TFIDF值排在前面的詞語作為候選關鍵詞;2)采用機器學習中主動學習的方法,選取具有最大信息量的候選關鍵詞,要求用戶提供反饋信息,判斷與種子關鍵詞是“相關”的還是“不相關”的;3)根據用戶的反饋信息,用機器學習方法對所有候選關鍵詞與種子關鍵詞的相關性進行學習,最后計算得到每個候選關鍵詞與種子關鍵詞的相關性值,根據相關性值對候選關鍵詞按相關性從高到低排序,排序在前面的候選關鍵詞作為種子關鍵詞的建議關鍵詞推薦給用戶。
2. 根據權利要求1所述的一種基于用戶反饋的贊助搜索廣告的建議關鍵詞生成方法,其特征在于所述步驟l)中用戶一般指廣告商;在搜索引擎中,用戶輸入種子關鍵詞,返回的每條結果包含網頁標題,URL和文本片段;其中文本片段包含種子關鍵詞的句子,取前L條搜索結果的文本片段,以此組成種子關鍵詞的文檔稱為特征文檔;L值根據用戶對生成建議關鍵詞的相關性的松緊程度進行選取,L為50-1000條;給定不同種子關鍵詞的特征文檔的集合,每個種子關鍵詞的特征文檔中出現的不包含停用詞在內的所有詞語,計算每個詞語的TFIDF值,并選取TFIDF值排在前面的M個詞語,當作相應種子關鍵詞的候選關鍵詞;其中M為100-800個。
3. 根據權利要求1所述的一種基于用戶反饋的贊助搜索廣告的建議關鍵詞生成方法,其特征在于所述步驟2)中每個種子關鍵詞,記為S,和它的任意候選關鍵詞,記為C,組成了詞語對P"W&C),對每個詞語對提取代表性的特征,包括候選關鍵詞在種子關鍵詞特征文檔中的TFIDF和TF特征、詞語對Pa^(&C)在搜索結果的文本片段中共現頻率特征、詞語對P"fr(S,C)在搜索結果的相同URL的頻率特征;針對這些特征,用主動學習的方法選取信息量最大的K個詞語對/^HS,C),并呈現給用戶,用戶做出"相關"或"不相關"的評判;其中K為2.5%~10%M。
4. 根據權利要求1所述的一種基于用戶反饋的贊助搜索廣告的建議關鍵詞生成方法,其特征在于所述步驟3)中用戶做了相關性反饋的候選關鍵詞作為機器學習的訓練樣本;用戶評判為"相關"的詞語對用作正例樣本,"不相關"的詞語對用作負例樣本;對應樣本詞語對化!V(S,C)的特征和用戶評判,訓練一個邏輯回歸的相關性模型,用來預測每個候選關鍵詞與種子關鍵詞的相關性值,預測完成后,按相關性值從大到小排列候選關鍵詞;排序在前面的V個候選關鍵詞作為建議關鍵詞推薦給用戶,V為10。/。 50。/。M。
全文摘要
本發(fā)明公開了一種基于用戶反饋的贊助搜索廣告的建議關鍵詞生成方法。此方法挖掘了詞語與詞語之間的語義相關性,利用了用戶對少量詞語對的相關性反饋信息,以此建立學習機器對詞語對的相關性進行評測,進而選取與描述廣告商產品或服務概念的種子關鍵詞相關性高的詞語作為建議關鍵詞推薦給廣告商用戶。其中主動學習的方法用來選擇信息量最大的詞語對樣本用于用戶相關性評判,提高了效率和生成相關的建議關鍵詞的準確度。本發(fā)明對應每個種子關鍵詞,能有效地生成數以百計至千計的相關詞語作為建議關鍵詞推薦給廣告商用戶。廣告商用戶對這些建議關鍵詞進行贊助搜索競價,可以有效提高贊助廣告的相關點擊量,增加廣告效益。
文檔編號G06F17/30GK101650731SQ20091010188
公開日2010年2月17日 申請日期2009年8月31日 優(yōu)先權日2009年8月31日
發(fā)明者光 仇, 卜佳俊, 昊 吳, 峰 張, 純 陳 申請人:浙江大學