專利名稱:基于內容與關鍵詞相關度給其添加附加信息的方法和系統(tǒng)的制作方法
技術領域:
本發(fā)明涉及給關鍵詞添加附加信息,尤其涉及根據(jù)語義相關給文檔 中的關鍵詞提供附加信息。
背景技術:
隨著因特網(wǎng)被大量應用,出現(xiàn)了大量的很有價值的網(wǎng)頁信息,網(wǎng)頁 的提供方希望當用戶瀏覽網(wǎng)頁時可以提供與文檔中的關鍵詞相關的附加 信息。現(xiàn)有技術中主要有兩種給關鍵詞添加附加信息的方法。 一種是借 助人工,由編輯通過對文檔和附加信息的瀏覽來確定,其存在的問題是 效率很低,以及大量使用人工而帶來的高成本。另一種是現(xiàn)有附加信息 的權利人購買關鍵詞,當某個詞在文檔中被作為關鍵詞顯示時,擁有該 關鍵詞的權利人可以將相關的附加信息添加到該關鍵詞,其存在的問題 是只能給有限的關鍵詞添加附加信息,沒有被購買的詞則無法被添加關鍵詞。
本申請正是需要能夠解決這兩個問題,在不需要人工干預的情況 下,根據(jù)關鍵詞與權利人所擁有的詞條的相關性,而不是根據(jù)是否與權 利人所擁有的詞條匹配,來自動給關鍵詞添加最相關的附加信息。
從而,帶來的有益效果是由系統(tǒng)自動實現(xiàn)提高了效率,并且無需直 接匹配也可以給關鍵詞添加相關的附加信息,大大擴展了關鍵詞的附加 信息的范圍,使得更多的關鍵詞上具有了附加信息。
發(fā)明內容
本發(fā)明的一個目的是提供 一種基于描述內容與關鍵詞的相關度給 關鍵詞添加附加信息的方法,其中包括根據(jù)詞條向量表來計算附加信 息表中每個條目的描述內容的文檔向量;計算待處理的關鍵詞的向量與 附加信息表中每個條目的描述內容的文檔向量的相關度;將相關度最高 的附加信息表中的條目確定為待處理關鍵詞的附加信息;當該關鍵詞被 操作時,則所述附加信息的渲染內容被渲染。
本發(fā)明更進一步的目的是 一種計算機程序產(chǎn)品,存儲在計算機可 讀的介質上,該計算機程序產(chǎn)品具體地包括可讀的程序方法,從而觸發(fā) 計算機執(zhí)行上述的方法。
本發(fā)明更進一步的目的是 一種計算機程序,由計算機執(zhí)行而實現(xiàn) 上述方法。
本發(fā)明還有一個目的是提供 一種基于描述內容與關鍵詞的相關度
給關鍵詞添加附加信息的系統(tǒng),其中包括文檔向量計算裝置,用于根
據(jù)詞條向量表來計算附加信息表中每個條目的描述內容的文檔向量;向
量比較裝置,用于計算待處理的關鍵詞的向量與附加信息表中每個條目
的描述內容的文檔向量的相關度;附加信息確定裝置,用于將相關度最 高的附加信息表中的條目確定為待處理關鍵詞的附加信息;附加信息渲 染裝置,用于當該關鍵詞被操作時,則所述附加信息的渲染內容被渲染。
附圖描述
上述內容和其它方面的內容,以及本發(fā)明特定優(yōu)選實施例的特征和 優(yōu)勢將通過結合相應附圖的詳細說明更加清楚。其中
圖1是關于詞條的表現(xiàn)方法和組合方式; 圖2是詞條-文檔(term-document)矩陣; 圖3是高維(r維)詞條空間投影到低維(k維)詞條空間的公式;
圖4是詞條向量表;
圖5是描述了詞條和文檔在二維空間上的投影關系; 圖6如何獲得查詢請求的向量; 圖7是根據(jù)本發(fā)明實施例的附加信息表10; 圖8是根據(jù)本發(fā)明第一個實施例的流程圖20; 圖9是根據(jù)本發(fā)明的一個具體實例; 圖10是根據(jù)本發(fā)明第二個實施例的流程圖40; 圖11是實現(xiàn)本發(fā)明實施例的框圖50。 所有附圖中,同一附圖標記理解為同一單元、特征和結構。
優(yōu)選實施例描述
說明書中定義的內容如具體的結構和單元,是用于輔助全面理解本 發(fā)明的優(yōu)選實施例的。因此,根據(jù)本領域的普通技術對本申請描述的實 施例進行的各種改變和修改都被認為沒有脫離本發(fā)明的精神范圍。同 時,為了清楚和簡要,省略了對公知的功能和結構的說明。
在現(xiàn)有技術中有大量關于基于語義搜索的技術,本領域技術人員可 以利用這些技術很容易的構建詞條向量,以及文檔向量。其中有代表性 的是潛在語義索引模型等技術。下面介紹潛在語義索引的原理,但不代 表本發(fā)明一定要構建在潛在語義索引之上,本發(fā)明可以應用在所有的基 于語義的搜索技術上。
潛在語義索引的原理
為了能夠更加容易的解釋LSI原理,下面通過一個具體例子來描述。 設文檔由17本書的標題組成。
圖1中,有下劃線的詞表示詞條。當然,對于本領域技術人員,存 在很多其他選擇詞條的規(guī)則,可以增加或減少詞條的數(shù)量,也可以改變 詞條的組合方式等。
圖2是16x17詞條-文檔(term-document)矩陣,被稱作A。行代表詞 條(term),列代表文檔(document)。矩陣的值代表該詞條在該文檔中出現(xiàn) 的次數(shù)。
奇異值分解把詞條-文檔矩陣A分解為三個矩陣的乘積形式,即
<formula>formula see original document page 5</formula>公式1
其中,S是奇異值的對角矩陣。
圖3是潛在語義索引方法通過降維,將高維(r維)詞條空間投影到低 維(k維)詞條空間。
為方便圖示表示,在本例中選擇k為2,即表示將原詞條空間降維 到二維詞條空間上。矩陣U的前兩列表示了詞條在二維空間中的向量。 獲得的向量組即詞條向量表如附圖中圖4所示。
利用這些基本的詞條向量,可以根據(jù) v-qTUk》、 公式2 來合成新的向量。例如文檔向量Bp用戶輸入的査詢請求,都可通過分 析所引用的詞條按公式2相合成。本領域技術人員很容易明了,在合成 向量時可以考慮詞條向量的權重。
圖5描述了詞條和文檔在二維空間上的投影關系。詞條向量之間的 夾角越小或夾角的余弦值越大,代表詞條和和該文檔的相關性越大。例 如,以詞條"oscillation"為例,在所有詞條中"delay"與其夾角最小, 即"delay"與其最相關。
當用戶輸入一個查詢請求時,如"application theory",系統(tǒng)通過分 析該請求中包含的關鍵詞"applications "theory",將該兩關鍵詞相關 的詞條向量按公式2合成如圖6,從而獲得査詢請求的向量。
通過計算文檔向量與該查詢請求向量的夾角的余弦值,其值越大, 表示該文檔與査詢請求越相關。
詞條與文檔的相關度是計算詞條向量與文檔向量之間的夾角的余弦 值,其值越大,表示該文檔與査詢請求越相關。例如,"nonlinear"這個 詞條與B9的文檔向量間的夾角的余弦值最大,所以與"nonlinear"最 相關的文檔是B9。
本領域技術人員已知的實際應用中,通過上述原理,對現(xiàn)有的足夠 數(shù)量的文獻進行上述處理,即可獲得全面的詞條向量表。計算文檔向量
的方法是抽取文檔中的詞條,比對詞條向量表獲得相關詞條的向量,將
這些向量合成為文檔向量如公式2。為了簡化的目的,本申請不再詳細 描述如何獲得詞條向量表,因為本領域技術人員可以根據(jù)現(xiàn)有技術能夠 很容易地獲得詞條向量表。本發(fā)明是在現(xiàn)有的詞條向量表的基礎上描述 的。
相關的參考文獻如下
1. M.W.Beny.S.T.Dumaiis&GW.O'Brien. Using Linear Algebra Intelligent Information Retrieval. Computer Science Department CS-9^-270 1994-12。
2. 居斌.潛在語義標引在中文信息檢索中的研究與實現(xiàn).計算機工程 2007-03。
3. 陳越郭力.隱含語義檢索及其應用.信息檢索技術2001年第6期。
4. Michael W. Berry ,Paul G Young. Using latent semantic indexing for multilanguage information retrieval. Volume 29, Number 6 / 1995年12月
圖7是根據(jù)本發(fā)明實施例的附加信息表10。該表的每一個條目包括
以下字段描述內容、權利人、渲染內容和優(yōu)先權。描述內容是權利人 自己定義的描述,例如可以是對權利人的描述,或對渲染內容的描述, 或對其提供的產(chǎn)品或服務的描述。而渲染內容是權利人希望當某個關鍵 詞被用戶操作時,作為附加信息呈現(xiàn)給用戶的內容。渲染內容可以是文
字、圖片、音頻、視頻或FLASH動畫中的一種或它們的組合。并且渲 染內容上可以具有超鏈接。同一個權利人可以購買不同的描述內容,同 一個權利人也可以有不同的渲染內容。例如索意互動公司購買"你的本 本網(wǎng)筆記本及外設專業(yè)銷售商"作為描述內容,并將有關PC的內容作 為渲染內容;微軟公司購買"Office :它是微軟公司的辦公軟件套件" 作為描述內容,并將有關軟件的內容作為渲染內容。而優(yōu)先權表示權利 人獲得該描述內容所付出的代價。
根據(jù)詞條向量表來計算附加信息表中每個條目的描述內容的文檔向 量;計算待處理的關鍵詞的向量與附加信息表中每個條目的描述內容的 文檔向量的相關度;將相關度最高的附加信息表中的條目確定為待處理 關鍵詞的附加信息;
圖8是根據(jù)本發(fā)明第一個實施例的流程圖20。開始于步驟21,查 詢詞條向量表獲得待處理的關鍵詞的向量和根據(jù)詞條向量表來計算附加 信息表中每個條目的描述內容的文檔向量,詞條向量表是如前面所述的 通過現(xiàn)有的基于語義的搜索技術而獲得的。步驟22,計算待處理的關鍵 詞的向量與附加信息表中每個條目的描述內容的文檔向量的相關度。詞 條與描述內容的文檔向量之間的相關度指的是詞條向量與描述內容的文
檔向量的夾角或余弦值,夾角越小越相關或者余弦值越大越相關,反之
亦然。在步驟23,將相關度最高的附加信息表中的條目確定為待處理關 鍵詞的附加信息。因為語義最相關的附加信息是用戶最期望看到,也是 權利人最希望推送給用戶的。在步驟24,當該關鍵詞被操作時,則所述 附加信息的渲染內容被渲染。渲染指的是對需要呈現(xiàn)的內容進行處理并 將其呈現(xiàn)給用戶。例如渲染內容是音頻,則調用相關音頻處理程序來運 行該音頻文件來呈現(xiàn)給用戶。而操作的方式例如是點擊關鍵詞或將指點 設備移動到關鍵詞上。
圖9是根據(jù)本發(fā)明的一個具體實例。某個文檔中具有一個關鍵詞是
"筆記本",但是在附加信息表中,沒有權利人購買這個詞。如果是現(xiàn) 有的系統(tǒng)則將無法將其與附加信息對應起來。而根據(jù)本發(fā)明的實施例, 由于"筆記本"的詞條向量與"PC"的詞條向量最相關,所以系統(tǒng)會將
"PC"所對應的渲染內容,即索意互動公司的廣告進行相關。當用戶操 作該關鍵詞"筆記本"時,例如將鼠標放置到該關鍵詞的上方,就可以 看到索意互動公司的廣告了。
圖10是根據(jù)本發(fā)明第二個實施例的流程圖40。開始于步驟41,查 詢詞條向量表獲得待處理的關鍵詞的向量和根據(jù)詞條向量表來計算附加 信息表中每個條目的描述內容的文檔向量,詞條向量表是如前面所述的 通過現(xiàn)有的基于語義的搜索技術而獲得的。步驟42,計算待處理的關鍵 詞的向量與附加信息表中每個條目的描述內容的文檔向量的相關度。詞 條之間的相關度指的是詞條向量的夾角或余弦值,夾角越小越相關或者 余弦值越大越相關,反之亦然。在步驟43,判斷最高相關度是否超過預 先設置的門限,如果超過了則將相關度最高的附加信息表中的條目確定 為待處理關鍵詞的附加信息,否則不給該關鍵詞添加附加信息。因為語 義最相關的附加信息是用戶最期望看到,也是權利人最希望推送給用戶 的。但如果相關度過低則與用戶所期望的內容不相符合了。在步驟44, 如果該關鍵詞具有附加信息,當該關鍵詞被操作時,則所述附加信息的 渲染內容被渲染。渲染指的是對需要呈現(xiàn)的內容進行處理并將其呈現(xiàn)給 用戶。例如渲染內容是音頻,則調用相關音頻處理程序來運行該音頻文 件來呈現(xiàn)給用戶。而操作的方式例如是點擊關鍵詞或將指點設備移動到 關鍵詞上。
圖11是實現(xiàn)本發(fā)明實施例的框圖50。包括文檔向量計算裝置51, 向量比較裝置52,附加信息確定裝置53,附加信息渲染裝置54,詞條 向量表55和附加信息表56。
文檔向量計算裝置51,根據(jù)詞條向量表來計算附加信息表中每個條 目的描述內容的文檔向量。并將獲得向量發(fā)送給向量比較裝置52。向量 比較裝置52,用于計算待處理的關鍵詞的向量與附加信息表中的描述內 容的文檔向量的相關度。并將獲得相關度發(fā)送給附加信息確定裝置53。 附加信息確定裝置53,用于將相關度最高的附加信息表中的條目確定為 待處理關鍵詞的附加信息。附加信息渲染裝置54,用于當該關鍵詞被操 作時,貝U所述附加信息的渲染內容被渲染。
渲染內容包括文字、圖片、音頻、視頻或FALSH動畫中的一種 或多種。而且渲染內容可以具有超鏈接。附加信息確定裝置可以包括如 果最高相關度低于門限,則該待處理關鍵詞不添加附加信息。
盡管本發(fā)明通過一些特定的優(yōu)選實施例加以表述,但是本領域的技 術人員都應知道,可能的形式上的各種變化和具體化都沒有脫離本發(fā)明 的精神以及權利要求及其等價內容所定義的范圍。
權利要求
1. 一種基于描述內容與關鍵詞的相關度給關鍵詞添加附加信息的方法,其中包括步驟A根據(jù)詞條向量表來計算附加信息表中每個條目的描述內容的文檔向量;步驟B計算待處理的關鍵詞的向量與附加信息表中每個條目的描述內容的文檔向量的相關度;步驟C將相關度最高的附加信息表中的條目確定為待處理關鍵詞的附加信息;步驟D當該關鍵詞被操作時,則所述附加信息的渲染內容被渲染。
2. 權利要求l一中的方法,其中渲染內容包括文字、圖片、音頻、視頻 或FALSH動畫中的一種或多種。
3. 權利要求1-2中任意一個方法,其中渲染內容具有超鏈接。
4. 權利要求1-3中任意一個方法,歩驟C包括如果最高相關度低于門限, 則該待處理關鍵詞不添加附加信息。
5. —種基于描述內容與關鍵詞的相關度給關鍵詞添加附加信息的系統(tǒng), 其中包括文檔向量計算裝置,用于根據(jù)詞條向量表來計算附加信息表中每個條目 的描述內容的文檔向量;向量比較裝置,用于計算待處理的關鍵詞的向量與附加信息表中每個條 目的描述內容的文檔向量的相關度;附加信息確定裝置,用于將相關度最高的附加信息表中的條目確定為待 處理關鍵詞的附加信息;附加信息渲染裝置,用于當該關鍵詞被操作時,則所述附加信息的渲染 內容被渲染。
6. 權利要求5一中的系統(tǒng),其中渲染內容包括文字、圖片、音頻、視頻 或FALSH動畫中的一種或多種。
7. 權利要求5-6中任意一個系統(tǒng),其中渲染內容具有超鏈接。
8. 權利要求5-7中任意一個系統(tǒng),附加信息確定裝置包括如果最高相關 度低于門限,則該待處理關鍵詞不添加附加信息。
9. 一種計算機程序產(chǎn)品,存儲在計算機可讀的介質上,該計算機程序產(chǎn) 品具體地包括可讀的程序方法,從而觸發(fā)計算機執(zhí)行根據(jù)權利要求1到 4任意之一的方法。
10. —種計算機程序,由計算機執(zhí)行而實現(xiàn)根據(jù)權利要求1到4任意之一 的方法。
全文摘要
一種基于描述內容與關鍵詞的相關度給關鍵詞添加附加信息的方法,其中包括根據(jù)詞條向量表來計算附加信息表中每個條目的描述內容的文檔向量;計算待處理的關鍵詞的向量與附加信息表中每個條目的描述內容的文檔向量的相關度;將相關度最高的附加信息表中的條目確定為待處理關鍵詞的附加信息;當該關鍵詞被操作時,則所述附加信息的渲染內容被渲染。
文檔編號G06F17/30GK101388021SQ200810113828
公開日2009年3月18日 申請日期2008年5月30日 優(yōu)先權日2008年5月30日
發(fā)明者鋼 裘 申請人:索意互動(北京)信息技術有限公司