專利名稱:使冗余最小化的Web饋送聚合方法
技術(shù)領(lǐng)域:
本發(fā)明涉及Web饋送(feed)的聚合。
背景技術(shù):
自從開始于20世紀90年代早期起,萬維網(wǎng)(World Wide Web)已經(jīng)變得非常流行, 它現(xiàn)在包括數(shù)以億計的Web頁面,這些Web頁面包括諸如文本、圖像、視頻以及去往其他Web 頁面的鏈接(也稱為超鏈接)等各種內(nèi)容。數(shù)以億計的Web沖浪者每天在使用著萬維網(wǎng)。
現(xiàn)在,上線是非常簡單的,既不需要專門技藝也不需要國家或國際機構(gòu)前的專門 過程,事實上也不存在這樣的機構(gòu)。令人驚訝的是,盡管任何人都將受益于這種分類,但并 沒有嘗試對Web進行分類以便將Web站點按類分組(基于預定標準)。因此,Web沖浪者獲 取重要、可靠的更新信息變得越來越難。當然,Web瀏覽器是有幫助的,但是隨著Web頁面 的數(shù)目增加,大量語義搜索請求得到的是未加工的內(nèi)容,這些內(nèi)容大多數(shù)未經(jīng)分類,常常是 冗余的,不明確的,最后簡單來說,是沒有用的。
在21世紀的早些時候,提出了一種稱為聯(lián)合(syndication)的解決方案,以幫助 沖浪者在正確的時刻得到正確的信息。在聯(lián)合中,一個Web站點的部分可用于其他Web站 點。更具體地,在Web聯(lián)合中,內(nèi)容(通常稱為Web饋送)以特定格式——通常是基于XML 的格式(XML為可擴展標記語言),諸如RSS (真正簡易聯(lián)合)或Atom——被置于Web站點 上,并且與饋送鏈接相關(guān)聯(lián),另一用戶(客戶端)可以訂閱饋送鏈接,以借助于稱為饋送聚 合器(也稱為饋送閱讀器或新聞閱讀器)的、在客戶端的終端或服務(wù)器上本地運行的特定 應用來獲取相應的內(nèi)容。
在已經(jīng)訂閱饋送的情況下,饋送聚合器可以配置用于以預定的間隔(可以是 用戶定義的)檢查和獲取更新的內(nèi)容?,F(xiàn)代Web瀏覽器通常包括內(nèi)置的聚合器,諸如 iGoogleTM和My YahooTM。美國專利申請?zhí)朥S 2008/0034058 (已轉(zhuǎn)讓給Marchex公司) 和US2008/0046543 (已轉(zhuǎn)讓給RealNetworks)都示出了用于獲得Web饋送的方法。
盡管饋送聚合器是用于從萬維網(wǎng)獲取更新信息并通過用戶友好的圖形接口(⑶I) 使其可由最終用戶獲得的強大資源,但是文章的量有時可能是壓倒性的,特別是當用戶已 經(jīng)訂閱了很多Web饋送時。為了解決這一問題,某些饋送聚合器包括允許用戶利用關(guān)鍵詞 為饋送添加標簽的功能,以便將可用的文章分類和過濾到易于導航的類別中。然而,該方式 是耗時的,因為用戶必須對他希望從其獲得更新內(nèi)容的饋送進行預先分類。而且,當要獲取 的內(nèi)容隨著每次更新改變主題時(例如,在報紙網(wǎng)站中),為Web饋送添加標簽是完全無用 的。發(fā)明內(nèi)容
顯然,需要一種允許Web沖浪者以完全可行的方式自動地獲得從Web饋送獲取的 信息的方案。
本發(fā)明的目的是提供這樣的方案。
由此,根據(jù)一個方面,本發(fā)明提供一種用于聚合聯(lián)合Web內(nèi)容的方法,包括步驟
-從預定Web饋送獲取更新內(nèi)容;
-將所述更新內(nèi)容與先前獲取的已存儲內(nèi)容(例如,存儲為饋送歷史數(shù)據(jù)庫中的 條目)進行比較;
-如果認為更新內(nèi)容不同于已存儲內(nèi)容,則存儲更新內(nèi)容;
-如果認為更新內(nèi)容與已存儲內(nèi)容相同,則刪除更新內(nèi)容。
可以提供進一步的步驟,即如下步驟
-如果認為更新內(nèi)容是已存儲內(nèi)容的補充,則向該已存儲內(nèi)容添加該更新內(nèi)容;
-計算相似性索引5"/,其表示更新內(nèi)容與已存儲內(nèi)容之間的相似性程度;
-將所述相似性索引S/與一個或多個閾值進行比較。更具體地,將相似性索引5*/ 與兩個閾值^llin和Smax進行比較,由此
-如果相似性索引5/低于^llin,則認為更新內(nèi)容不同于已存儲內(nèi)容;
-如果相似性索引《S/大于Smax,則認為更新內(nèi)容與已存儲內(nèi)容相同,并可以因此向 已存儲內(nèi)容添加該更新內(nèi)容;
-如果相似性索引S/在^llin與Smax之間,則認為更新內(nèi)容是已存儲內(nèi)容的補充。
根據(jù)另一方面,本發(fā)明提供一種饋送聚合器,包括
-饋送閱讀器,配置用于檢查和獲取來自預定Web饋送的更新內(nèi)容;
-過濾模塊,配置用于管理所述更新內(nèi)容與先前獲取的已存儲內(nèi)容的比較;
-饋送歷史數(shù)據(jù)庫,用于存儲內(nèi)容。
饋送聚合器還可以包括一個或多個條目分析器,其鏈接至過濾模塊,配置用于將 所述更新內(nèi)容與已存儲內(nèi)容進行比較。更具體地,一個或多個條目分析器可以配置用于
-計算相似性索引&,其表示更新內(nèi)容與已存儲內(nèi)容之間的相似性程度;以及
-將所述相似性索引與一個或多個閾值進行比較,以確定更新內(nèi)容應被移除還是 被添加至饋送歷史數(shù)據(jù)庫。
通過結(jié)合附圖考慮對優(yōu)選實施方式的詳細描述,本發(fā)明的上述以及其他目的和優(yōu) 點將變得顯然。
圖1是示出根據(jù)本發(fā)明的饋送聚合器的結(jié)構(gòu)的圖示。
圖2是根據(jù)本發(fā)明的用于聚合聯(lián)合Web內(nèi)容的方法的流程圖。
具體實施方式
現(xiàn)在轉(zhuǎn)到附圖,在圖1中示出了一個饋送聚合器1,其實現(xiàn)為諸如個人計算機 (PC)、服務(wù)器、通信個人數(shù)字助理(PDA)、智能電話等計算機設(shè)備的處理單元上的計算機程序。
饋送聚合器1包括饋送讀取器模塊2,其配置用于檢查和獲取來自遠程Web站點 上提供的Web饋送3的更新聯(lián)合Web內(nèi)容。盡管饋送聚合器1優(yōu)選地配置用于處理RSS饋送,但是也可以使用任何其他格式(諸如,Atom)。在圖1中繪出了三個Web饋送3,這僅僅 是出于說明目的,饋送聚合器1可以鏈接至若干Web饋送,該Web饋送的數(shù)目可多達用戶可 配置的數(shù)目。
饋送聚合器1還包括過濾模塊4,其鏈接至饋送讀取器2,并且饋送讀取器2向過 濾模塊4傳送獲取到的更新內(nèi)容,以便進一步處理從而消除冗余,這將在此后公開。
饋送聚合器1還包括饋送歷史數(shù)據(jù)庫5,先前獲取的饋送內(nèi)容作為條目存儲在其 中。
饋送聚合器1還可以包括至少一個條目分析器6,其鏈接至過濾模塊4,配置用于 將更新內(nèi)容與先前獲取的內(nèi)容進行比較,并且將其作為條目存儲在饋送歷史數(shù)據(jù)庫5中, 以便確定更新內(nèi)容是否應當
-從饋送聚合器1被移除,
-作為新條目存儲在數(shù)據(jù)庫5中,
-或者被添加到數(shù)據(jù)庫5中的已有條目。
饋送聚合器1還包括歷史訪問模塊7,其插入在過濾模塊4與饋送歷史數(shù)據(jù)庫5之 間,并且配置用于訪問和管理饋送歷史數(shù)據(jù)庫5,以便存儲已由過濾模塊4確定為適于存儲 為新條目或者向已有條目添加的更新內(nèi)容。
現(xiàn)在將描述饋送聚合器1的精確操作。
每當用戶配置時,饋送讀取器2檢查和獲取來自用戶所訂閱的預定Web饋送3的 更新內(nèi)容(100)。在下文描述中,假設(shè)饋送讀取器2配置有P個訂閱,P是大于或等于1的 整數(shù)(P彡1)。。表示從第j個Web饋送3獲取的更新內(nèi)容,其中j是小于或等于P的整數(shù)j<P)。Fj可以包括完整的Web頁面或其部分文本、圖像、視頻、超鏈接,等等。還假 設(shè),饋送歷史數(shù)據(jù)庫5包括數(shù)目為N的條目,N是大于或等于1的整數(shù)(N彡1)。&表示饋 送歷史數(shù)據(jù)庫5中存儲的第k個條目,其中k是小于或等于N的整數(shù)(1彡k彡N)。
更新內(nèi)容?」由饋送讀取器2向過濾模塊4傳送,其臨時存儲于過濾模塊4中。過 濾模塊4通過歷史訪問模塊7獲取應當與更新內(nèi)容Fj進行比較的已存儲條目&的列表。 更準確地,過濾模塊4在已存儲條目&的列表上進行迭代,更新內(nèi)容Fj應當與這些已存儲 條目&進行比較,以便被分入以下類別將被移除(刪除);將被添加至已存儲條目Ek;將 被存儲為新條目En+1。
更準確地,通過將k初始設(shè)為1(110),更新內(nèi)容?」由至少一個條目分析器6與已 存儲條目&進行比較。比較可以通過各種方法來完成
-標題的基本字符串比較;
-語法分析,以確定所比較內(nèi)容之間的共同關(guān)鍵詞;
-基于語義的分析,以確定在所比較內(nèi)容中使用的共同本體概念。為了限制比較的 領(lǐng)域,可以通過與條目&相關(guān)聯(lián)的預定標簽來限制本體域。
這些比較方法可以單獨使用,或者可以相結(jié)合來作為整個比較過程的不同步驟。 比較方法的結(jié)合使用可以是層級式的。換言之,可以僅在標題的基本字符串比較步驟引起 斷言標題相同的情況下加載語法分析步驟,以便確定具有相同標題的內(nèi)容是否可能是不同 的。進而,可以僅在語法分析步驟已經(jīng)確定語法類似的情況下加載基于語義的分析步驟,以 便進一步增加比較的準確程度。比較的每個步驟可以在不同的條目分析器6上運行。
在實現(xiàn)了更新內(nèi)容Fj與已存儲條目&的比較之后,條目分析器6計算(130)相似 性索引5·/,其表示h與&之間的相似性程度。向過濾模塊4提供相似性索引5^,過濾模塊 4首先基于5/的值來確定應認為h與&相同還是不同,其次由此做出關(guān)于h的相應決策。 基本上,Si =0%表示Fj與&將被認為不同,而災_=100%表示Fj與&將被認為相同。Si 可以不同于0和100 二者,這表示不能認為h與&相同,但是也不能認為它們不同。為了 做出關(guān)于更新內(nèi)容Fj的適當決策,過濾模塊4可以實現(xiàn)有至少一閾值S,使得
-如果&‘< S ,認為Fj不同于& ;
-如果51/> S,認為Fj與&相同。
在一個優(yōu)選實施方式中,過濾模塊4實現(xiàn)有兩個閾值,Smin和Smax,其中^lin < Smax, 由此
-如果窮<Smin,認為Fj不同于& ;
-如果S/> Smax,認為Fj與&相同;
-如果Smin< Sjk < Smax ,認為 Fj 是 & 的補充。
閾值Smin和Smax可以根據(jù)隨用戶改變的所需準確程度來設(shè)置。默認值可以設(shè)為Smin =20% 以及 Smax = 80%。
過濾模塊將相似性索引S/與閾值^llin和Smax進行比較(140),并且在以下選項中計 算關(guān)于h的決策
-如果認SFj不同于Eyt( Sjk < Smin ),則應當將Fj與下一條目進行比較。更 具體地,k增1 (150),并且針對&和Ek+1重新迭代比較過程。如果條目&是最后一個(k = N),則由于。被認為不同于所有條目< k < N),其將由過濾模塊4提供給歷史訪問模 塊7,以便作為新條目Ek+1存儲在饋送歷史數(shù)據(jù)庫5中。
-如果認為?」與&相同(SjkIS麵),表示Fj對于&是冗余的(因此是無用 的),則由過濾模塊4移除Fj (也即,從饋送聚合器1刪除)(170);
-如果認為Fj是&的補充(Smin< S( < Smax ),則由過濾模塊4將Fj添加至 &或與其結(jié)合,其中過濾模塊4將修改已有條目Ek,并且將修改的條目Ek提供給歷史訪問 模塊7,以替換饋送歷史數(shù)據(jù)庫5中先前存儲的條目&。
對于所有更新內(nèi)容Fj,1 ^ j ^ P,重復此比較過程。
前文公開的方法避免了冗余,因為只有被認為不同于已存儲內(nèi)容的內(nèi)容被存儲為 新條目。公開的聚合器1實現(xiàn)了真正的饋送聚合,從而合并類似的內(nèi)容而不是簡單地將其并置。
權(quán)利要求
1.一種用于聚合聯(lián)合Web內(nèi)容的方法,包括步驟 -從預定Web饋送獲取(100)更新內(nèi)容;-將所述更新內(nèi)容與先前獲取的已存儲內(nèi)容進行比較(120); -如果認為所述更新內(nèi)容不同于所述已存儲內(nèi)容,則存儲(160)所述更新內(nèi)容; -如果認為所述更新內(nèi)容與所述已存儲內(nèi)容相同,則刪除(170)所述更新內(nèi)容。
2.根據(jù)權(quán)利要求1所述的方法,還包括步驟如果認為所述更新內(nèi)容是所述已存儲內(nèi) 容的補充,則向所述已存儲內(nèi)容添加(180)所述更新內(nèi)容。
3.根據(jù)權(quán)利要求1或2所述的方法,包括步驟計算(130)相似性索引S/,以表示所述 更新內(nèi)容與所述已存儲內(nèi)容之間的相似性程度。
4.根據(jù)權(quán)利要求3所述的方法,包括步驟將所述相似性索引S/與一個或多個閾值進 行比較。
5.根據(jù)權(quán)利要求4所述的方法,其中將所述相似性索引51/與兩個閾值^lin和Smax進行 比較,由此-如果所述相似性索引S/低于^lin,則認為所述更新內(nèi)容不同于所述已存儲內(nèi)容; -如果所述相似性索引S/大于^iax,則認為所述更新內(nèi)容與所述已存儲內(nèi)容相同; -如果所述相似性索引S/在^lin與Smax之間,則認為所述更新內(nèi)容是所述已存儲內(nèi)容的 補充。
6.根據(jù)權(quán)利要求1-5任一項所述的方法,其中被認為與已存儲內(nèi)容相同的更新內(nèi)容被 添加至所述已存儲內(nèi)容。
7.根據(jù)權(quán)利要求1-6任一項所述的方法,其中先前獲取的內(nèi)容作為條目存儲在饋送歷 史數(shù)據(jù)庫中。
8.—種饋送聚合器(1),包括-饋送閱讀器O),配置用于檢查和獲取來自預定Web饋送(3)的更新內(nèi)容; -過濾模塊G),配置用于管理所述更新內(nèi)容與先前獲取的已存儲內(nèi)容的比較; -饋送歷史數(shù)據(jù)庫(5),用于存儲內(nèi)容。
9.根據(jù)權(quán)利要求8所述的饋送聚合器(1),還包括一個或多個條目分析器(6),其鏈 接至所述過濾模塊(4),配置用于將所述更新內(nèi)容與已存儲內(nèi)容進行比較。
10.根據(jù)權(quán)利要求8或9任一項所述的饋送聚合器(1),其中所述一個或多個條目分 析器(6)配置用于計算相似性索引51/,其表示所述更新內(nèi)容與所述已存儲內(nèi)容之間的相似 性程度,并且其中所述過濾模塊(6)配置用于將所述相似性索引與一個或多個閾值進行比 較,以確定所述更新內(nèi)容將被移除還是被添加至所述饋送歷史數(shù)據(jù)庫(5)。
全文摘要
一種用于聚合聯(lián)合Web內(nèi)容的方法,包括步驟從預定Web饋送獲取(100)更新內(nèi)容;將所述更新內(nèi)容與先前獲取的已存儲內(nèi)容進行比較(120);如果認為該更新內(nèi)容不同于已存儲內(nèi)容,則存儲(160)該更新內(nèi)容;如果認為該更新內(nèi)容與已存儲內(nèi)容相同,則刪除(170)該更新內(nèi)容。
文檔編號G06F17/30GK102037465SQ200980118076
公開日2011年4月27日 申請日期2009年4月9日 優(yōu)先權(quán)日2008年4月14日
發(fā)明者G·比爾恩西德, P·雅博 申請人:阿爾卡特朗訊