使冗余最小化的Web饋送聚合方法

文檔序號：6593613閱讀：331來源：國知局

專利名稱：使冗余最小化的Web饋送聚合方法
技術(shù)領(lǐng)域：
本發(fā)明涉及Web饋送(feed)的聚合。
背景技術(shù)：
自從開始于20世紀90年代早期起，萬維網(wǎng)(World Wide Web)已經(jīng)變得非常流行，它現(xiàn)在包括數(shù)以億計的Web頁面，這些Web頁面包括諸如文本、圖像、視頻以及去往其他Web 頁面的鏈接(也稱為超鏈接)等各種內(nèi)容。數(shù)以億計的Web沖浪者每天在使用著萬維網(wǎng)。
現(xiàn)在，上線是非常簡單的，既不需要專門技藝也不需要國家或國際機構(gòu)前的專門過程，事實上也不存在這樣的機構(gòu)。令人驚訝的是，盡管任何人都將受益于這種分類，但并沒有嘗試對Web進行分類以便將Web站點按類分組(基于預定標準)。因此，Web沖浪者獲取重要、可靠的更新信息變得越來越難。當然，Web瀏覽器是有幫助的，但是隨著Web頁面的數(shù)目增加，大量語義搜索請求得到的是未加工的內(nèi)容，這些內(nèi)容大多數(shù)未經(jīng)分類，常常是冗余的，不明確的，最后簡單來說，是沒有用的。
在21世紀的早些時候，提出了一種稱為聯(lián)合(syndication)的解決方案，以幫助沖浪者在正確的時刻得到正確的信息。在聯(lián)合中，一個Web站點的部分可用于其他Web站點。更具體地，在Web聯(lián)合中，內(nèi)容(通常稱為Web饋送)以特定格式——通常是基于XML 的格式(XML為可擴展標記語言)，諸如RSS (真正簡易聯(lián)合)或Atom——被置于Web站點上，并且與饋送鏈接相關(guān)聯(lián)，另一用戶(客戶端)可以訂閱饋送鏈接，以借助于稱為饋送聚合器(也稱為饋送閱讀器或新聞閱讀器)的、在客戶端的終端或服務(wù)器上本地運行的特定應用來獲取相應的內(nèi)容。
在已經(jīng)訂閱饋送的情況下，饋送聚合器可以配置用于以預定的間隔(可以是用戶定義的)檢查和獲取更新的內(nèi)容?，F(xiàn)代Web瀏覽器通常包括內(nèi)置的聚合器，諸如 iGoogleTM和My YahooTM。美國專利申請?zhí)朥S 2008/0034058 (已轉(zhuǎn)讓給Marchex公司) 和US2008/0046543 (已轉(zhuǎn)讓給RealNetworks)都示出了用于獲得Web饋送的方法。
盡管饋送聚合器是用于從萬維網(wǎng)獲取更新信息并通過用戶友好的圖形接口(⑶I) 使其可由最終用戶獲得的強大資源，但是文章的量有時可能是壓倒性的，特別是當用戶已經(jīng)訂閱了很多Web饋送時。為了解決這一問題，某些饋送聚合器包括允許用戶利用關(guān)鍵詞為饋送添加標簽的功能，以便將可用的文章分類和過濾到易于導航的類別中。然而，該方式是耗時的，因為用戶必須對他希望從其獲得更新內(nèi)容的饋送進行預先分類。而且，當要獲取的內(nèi)容隨著每次更新改變主題時(例如，在報紙網(wǎng)站中)，為Web饋送添加標簽是完全無用的。發(fā)明內(nèi)容
顯然，需要一種允許Web沖浪者以完全可行的方式自動地獲得從Web饋送獲取的信息的方案。
本發(fā)明的目的是提供這樣的方案。
由此，根據(jù)一個方面，本發(fā)明提供一種用于聚合聯(lián)合Web內(nèi)容的方法，包括步驟
-從預定Web饋送獲取更新內(nèi)容；
-將所述更新內(nèi)容與先前獲取的已存儲內(nèi)容(例如，存儲為饋送歷史數(shù)據(jù)庫中的條目)進行比較；
-如果認為更新內(nèi)容不同于已存儲內(nèi)容，則存儲更新內(nèi)容；
-如果認為更新內(nèi)容與已存儲內(nèi)容相同，則刪除更新內(nèi)容。
可以提供進一步的步驟，即如下步驟
-如果認為更新內(nèi)容是已存儲內(nèi)容的補充，則向該已存儲內(nèi)容添加該更新內(nèi)容；
-計算相似性索引5"/，其表示更新內(nèi)容與已存儲內(nèi)容之間的相似性程度；
-將所述相似性索引S/與一個或多個閾值進行比較。更具體地，將相似性索引5*/ 與兩個閾值^llin和Smax進行比較，由此
-如果相似性索引5/低于^llin,則認為更新內(nèi)容不同于已存儲內(nèi)容；
-如果相似性索引《S/大于Smax，則認為更新內(nèi)容與已存儲內(nèi)容相同，并可以因此向已存儲內(nèi)容添加該更新內(nèi)容；
-如果相似性索引S/在^llin與Smax之間，則認為更新內(nèi)容是已存儲內(nèi)容的補充。
根據(jù)另一方面，本發(fā)明提供一種饋送聚合器，包括
-饋送閱讀器，配置用于檢查和獲取來自預定Web饋送的更新內(nèi)容；
-過濾模塊，配置用于管理所述更新內(nèi)容與先前獲取的已存儲內(nèi)容的比較；
-饋送歷史數(shù)據(jù)庫，用于存儲內(nèi)容。
饋送聚合器還可以包括一個或多個條目分析器，其鏈接至過濾模塊，配置用于將所述更新內(nèi)容與已存儲內(nèi)容進行比較。更具體地，一個或多個條目分析器可以配置用于
-計算相似性索引&,其表示更新內(nèi)容與已存儲內(nèi)容之間的相似性程度；以及
-將所述相似性索引與一個或多個閾值進行比較，以確定更新內(nèi)容應被移除還是被添加至饋送歷史數(shù)據(jù)庫。
通過結(jié)合附圖考慮對優(yōu)選實施方式的詳細描述，本發(fā)明的上述以及其他目的和優(yōu) 點將變得顯然。

圖1是示出根據(jù)本發(fā)明的饋送聚合器的結(jié)構(gòu)的圖示。
圖2是根據(jù)本發(fā)明的用于聚合聯(lián)合Web內(nèi)容的方法的流程圖。
具體實施方式
現(xiàn)在轉(zhuǎn)到附圖，在圖1中示出了一個饋送聚合器1，其實現(xiàn)為諸如個人計算機 (PC)、服務(wù)器、通信個人數(shù)字助理(PDA)、智能電話等計算機設(shè)備的處理單元上的計算機程序。
饋送聚合器1包括饋送讀取器模塊2，其配置用于檢查和獲取來自遠程Web站點上提供的Web饋送3的更新聯(lián)合Web內(nèi)容。盡管饋送聚合器1優(yōu)選地配置用于處理RSS饋送，但是也可以使用任何其他格式(諸如，Atom)。在圖1中繪出了三個Web饋送3，這僅僅是出于說明目的，饋送聚合器1可以鏈接至若干Web饋送，該Web饋送的數(shù)目可多達用戶可配置的數(shù)目。
饋送聚合器1還包括過濾模塊4，其鏈接至饋送讀取器2，并且饋送讀取器2向過濾模塊4傳送獲取到的更新內(nèi)容，以便進一步處理從而消除冗余，這將在此后公開。
饋送聚合器1還包括饋送歷史數(shù)據(jù)庫5，先前獲取的饋送內(nèi)容作為條目存儲在其中。
饋送聚合器1還可以包括至少一個條目分析器6，其鏈接至過濾模塊4，配置用于將更新內(nèi)容與先前獲取的內(nèi)容進行比較，并且將其作為條目存儲在饋送歷史數(shù)據(jù)庫5中，以便確定更新內(nèi)容是否應當
-從饋送聚合器1被移除，
-作為新條目存儲在數(shù)據(jù)庫5中，
-或者被添加到數(shù)據(jù)庫5中的已有條目。
饋送聚合器1還包括歷史訪問模塊7，其插入在過濾模塊4與饋送歷史數(shù)據(jù)庫5之間，并且配置用于訪問和管理饋送歷史數(shù)據(jù)庫5，以便存儲已由過濾模塊4確定為適于存儲為新條目或者向已有條目添加的更新內(nèi)容。
現(xiàn)在將描述饋送聚合器1的精確操作。
每當用戶配置時，饋送讀取器2檢查和獲取來自用戶所訂閱的預定Web饋送3的更新內(nèi)容(100)。在下文描述中，假設(shè)饋送讀取器2配置有P個訂閱，P是大于或等于1的整數(shù)(P彡1)。。表示從第j個Web饋送3獲取的更新內(nèi)容，其中j是小于或等于P的整數(shù)j<P)。Fj可以包括完整的Web頁面或其部分文本、圖像、視頻、超鏈接，等等。還假設(shè)，饋送歷史數(shù)據(jù)庫5包括數(shù)目為N的條目，N是大于或等于1的整數(shù)(N彡1)。&表示饋送歷史數(shù)據(jù)庫5中存儲的第k個條目，其中k是小于或等于N的整數(shù)(1彡k彡N)。
更新內(nèi)容？」由饋送讀取器2向過濾模塊4傳送，其臨時存儲于過濾模塊4中。過濾模塊4通過歷史訪問模塊7獲取應當與更新內(nèi)容Fj進行比較的已存儲條目&的列表。更準確地，過濾模塊4在已存儲條目&的列表上進行迭代，更新內(nèi)容Fj應當與這些已存儲條目&進行比較，以便被分入以下類別將被移除(刪除)；將被添加至已存儲條目Ek;將被存儲為新條目En+1。
更準確地，通過將k初始設(shè)為1(110)，更新內(nèi)容？」由至少一個條目分析器6與已存儲條目&進行比較。比較可以通過各種方法來完成
-標題的基本字符串比較；
-語法分析，以確定所比較內(nèi)容之間的共同關(guān)鍵詞；
-基于語義的分析，以確定在所比較內(nèi)容中使用的共同本體概念。為了限制比較的領(lǐng)域，可以通過與條目&相關(guān)聯(lián)的預定標簽來限制本體域。
這些比較方法可以單獨使用，或者可以相結(jié)合來作為整個比較過程的不同步驟。比較方法的結(jié)合使用可以是層級式的。換言之，可以僅在標題的基本字符串比較步驟引起斷言標題相同的情況下加載語法分析步驟，以便確定具有相同標題的內(nèi)容是否可能是不同的。進而，可以僅在語法分析步驟已經(jīng)確定語法類似的情況下加載基于語義的分析步驟，以便進一步增加比較的準確程度。比較的每個步驟可以在不同的條目分析器6上運行。
在實現(xiàn)了更新內(nèi)容Fj與已存儲條目&的比較之后，條目分析器6計算(130)相似性索引5·/,其表示h與&之間的相似性程度。向過濾模塊4提供相似性索引5^，過濾模塊 4首先基于5/的值來確定應認為h與&相同還是不同，其次由此做出關(guān)于h的相應決策。基本上，Si =0%表示Fj與&將被認為不同，而災_=100%表示Fj與&將被認為相同。Si 可以不同于0和100 二者，這表示不能認為h與&相同，但是也不能認為它們不同。為了做出關(guān)于更新內(nèi)容Fj的適當決策，過濾模塊4可以實現(xiàn)有至少一閾值S，使得
-如果&‘< S ,認為Fj不同于& ；
-如果51/> S，認為Fj與&相同。
在一個優(yōu)選實施方式中，過濾模塊4實現(xiàn)有兩個閾值，Smin和Smax，其中^lin < Smax，由此
-如果窮<Smin，認為Fj不同于& ；
-如果S/> Smax，認為Fj與&相同；
-如果Smin< Sjk < Smax ,認為 Fj 是 & 的補充。
閾值Smin和Smax可以根據(jù)隨用戶改變的所需準確程度來設(shè)置。默認值可以設(shè)為Smin =20% 以及 Smax = 80%。
過濾模塊將相似性索引S/與閾值^llin和Smax進行比較(140)，并且在以下選項中計算關(guān)于h的決策
-如果認SFj不同于Eyt( Sjk < Smin ),則應當將Fj與下一條目進行比較。更具體地，k增1 (150)，并且針對&和Ek+1重新迭代比較過程。如果條目&是最后一個(k = N)，則由于。被認為不同于所有條目< k < N)，其將由過濾模塊4提供給歷史訪問模塊7，以便作為新條目Ek+1存儲在饋送歷史數(shù)據(jù)庫5中。
-如果認為？」與&相同(SjkIS麵)，表示Fj對于&是冗余的(因此是無用的)，則由過濾模塊4移除Fj (也即，從饋送聚合器1刪除)(170)；
-如果認為Fj是&的補充(Smin< S( < Smax ),則由過濾模塊4將Fj添加至 &或與其結(jié)合，其中過濾模塊4將修改已有條目Ek，并且將修改的條目Ek提供給歷史訪問模塊7，以替換饋送歷史數(shù)據(jù)庫5中先前存儲的條目&。
對于所有更新內(nèi)容Fj，1 ^ j ^ P，重復此比較過程。
前文公開的方法避免了冗余，因為只有被認為不同于已存儲內(nèi)容的內(nèi)容被存儲為新條目。公開的聚合器1實現(xiàn)了真正的饋送聚合，從而合并類似的內(nèi)容而不是簡單地將其并置。
權(quán)利要求
1.一種用于聚合聯(lián)合Web內(nèi)容的方法，包括步驟 -從預定Web饋送獲取(100)更新內(nèi)容；-將所述更新內(nèi)容與先前獲取的已存儲內(nèi)容進行比較(120)； -如果認為所述更新內(nèi)容不同于所述已存儲內(nèi)容，則存儲(160)所述更新內(nèi)容； -如果認為所述更新內(nèi)容與所述已存儲內(nèi)容相同，則刪除(170)所述更新內(nèi)容。
2.根據(jù)權(quán)利要求1所述的方法，還包括步驟如果認為所述更新內(nèi)容是所述已存儲內(nèi) 容的補充，則向所述已存儲內(nèi)容添加(180)所述更新內(nèi)容。
3.根據(jù)權(quán)利要求1或2所述的方法，包括步驟計算(130)相似性索引S/,以表示所述更新內(nèi)容與所述已存儲內(nèi)容之間的相似性程度。
4.根據(jù)權(quán)利要求3所述的方法，包括步驟將所述相似性索引S/與一個或多個閾值進行比較。
5.根據(jù)權(quán)利要求4所述的方法，其中將所述相似性索引51/與兩個閾值^lin和Smax進行比較，由此-如果所述相似性索引S/低于^lin，則認為所述更新內(nèi)容不同于所述已存儲內(nèi)容； -如果所述相似性索引S/大于^iax，則認為所述更新內(nèi)容與所述已存儲內(nèi)容相同； -如果所述相似性索引S/在^lin與Smax之間，則認為所述更新內(nèi)容是所述已存儲內(nèi)容的補充。
6.根據(jù)權(quán)利要求1-5任一項所述的方法，其中被認為與已存儲內(nèi)容相同的更新內(nèi)容被添加至所述已存儲內(nèi)容。
7.根據(jù)權(quán)利要求1-6任一項所述的方法，其中先前獲取的內(nèi)容作為條目存儲在饋送歷史數(shù)據(jù)庫中。
8.—種饋送聚合器(1)，包括-饋送閱讀器O)，配置用于檢查和獲取來自預定Web饋送(3)的更新內(nèi)容； -過濾模塊G)，配置用于管理所述更新內(nèi)容與先前獲取的已存儲內(nèi)容的比較； -饋送歷史數(shù)據(jù)庫(5)，用于存儲內(nèi)容。
9.根據(jù)權(quán)利要求8所述的饋送聚合器(1)，還包括一個或多個條目分析器(6)，其鏈接至所述過濾模塊(4)，配置用于將所述更新內(nèi)容與已存儲內(nèi)容進行比較。
10.根據(jù)權(quán)利要求8或9任一項所述的饋送聚合器(1)，其中所述一個或多個條目分析器(6)配置用于計算相似性索引51/,其表示所述更新內(nèi)容與所述已存儲內(nèi)容之間的相似性程度，并且其中所述過濾模塊(6)配置用于將所述相似性索引與一個或多個閾值進行比較，以確定所述更新內(nèi)容將被移除還是被添加至所述饋送歷史數(shù)據(jù)庫(5)。
全文摘要
一種用于聚合聯(lián)合Web內(nèi)容的方法，包括步驟從預定Web饋送獲取(100)更新內(nèi)容；將所述更新內(nèi)容與先前獲取的已存儲內(nèi)容進行比較(120)；如果認為該更新內(nèi)容不同于已存儲內(nèi)容，則存儲(160)該更新內(nèi)容；如果認為該更新內(nèi)容與已存儲內(nèi)容相同，則刪除(170)該更新內(nèi)容。
文檔編號G06F17/30GK102037465SQ200980118076
公開日2011年4月27日申請日期2009年4月9日優(yōu)先權(quán)日2008年4月14日
發(fā)明者G·比爾恩西德, P·雅博申請人:阿爾卡特朗訊

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：Ｐ.雅博;Ｇ.比爾恩西德
技術(shù)所有人：阿爾卡特朗訊
我是此專利的發(fā)明人

上一篇：計算裝置中各種活動之間的導航的制作方法
上一篇：用于散射校正的方法和設(shè)備的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使冗余最小化的Web饋送聚合方法