一種用于確定頁面中的垃圾文本信息的方法與設(shè)備的制作方法
【專利摘要】本發(fā)明的目的是提供一種用于確定頁面中的垃圾文本信息的方法與設(shè)備。具體地,獲取待處理的初始頁面;確定初始頁面所對應(yīng)的一個或多個候選垃圾文本信息;確定候選垃圾文本信息所對應(yīng)的作弊度信息;根據(jù)作弊度信息,從一個或多個候選垃圾文本信息中確定初始頁面所對應(yīng)的一個或多個垃圾文本信息。其中,與現(xiàn)有技術(shù)相比,本發(fā)明通過確定初始頁面所對應(yīng)的候選垃圾文本信息的作弊度信息,以根據(jù)作弊度信息,從候選垃圾文本信息中確定初始頁面所對應(yīng)的垃圾文本信息,實(shí)現(xiàn)了根據(jù)作弊度信息對候選垃圾文本信息進(jìn)行篩選,有效地識別出初始頁面中的垃圾文本信息,不僅提高了用戶獲取信息的安全性及獲取信息的效率,相應(yīng)地,也提升了用戶搜索瀏覽體驗(yàn)。
【專利說明】一種用于確定頁面中的垃圾文本信息的方法與設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,尤其涉及一種用于確定頁面中的垃圾文本信息的技術(shù)。
【背景技術(shù)】
[0002]當(dāng)前,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展及互聯(lián)網(wǎng)應(yīng)用對用戶學(xué)習(xí)、工作與生活的滲透,人們越來越多地通過網(wǎng)絡(luò)獲取信息,如通過在搜索引擎搜索欄中輸入關(guān)鍵詞以表達(dá)其需求,進(jìn)而獲得相應(yīng)的搜索結(jié)果。對于搜索結(jié)果對應(yīng)的站點(diǎn)可能存在安全風(fēng)險時,搜索引擎/瀏覽器等會向用戶提示該站點(diǎn)的安全性,如將網(wǎng)站可能存在的安全風(fēng)險提示給用戶,然而,通常并不是網(wǎng)站中的所有頁面都有安全風(fēng)險,而是某些頁面中的某些信息存在安全風(fēng)險,如當(dāng)站點(diǎn)沒有安全風(fēng)險但其中的某些頁面存在垃圾文本信息時,以站點(diǎn)為粗粒度的安全風(fēng)險提示無法檢測出頁面中的垃圾文本信息,從而影響了用戶獲取信息的安全性及獲取信息的效率,降低了用戶搜索瀏覽體驗(yàn)。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是提供一種用于確定頁面中的垃圾文本信息的方法與設(shè)備。
[0004]根據(jù)本發(fā)明的一個方面,提供了一種用于確定頁面中的垃圾文本信息的方法,其中,該方法包括以下步驟:
[0005]a獲取待處理的初始頁面;
[0006]b確定所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息;
[0007]c確定所述候選垃圾文本信息所對應(yīng)的作弊度信息;
[0008]d根據(jù)所述作弊度信息,從所述一個或多個候選垃圾文本信息中確定所述初始頁面所對應(yīng)的一個或多個垃圾文本信息。
[0009]根據(jù)本發(fā)明的另一方面,還提供了一種用于確定頁面中的垃圾文本信息的垃圾文本確定設(shè)備,其中,該垃圾文本確定設(shè)備包括:
[0010]獲取裝置,用于獲取待處理的初始頁面;
[0011]候選確定裝置,用于確定所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息;
[0012]作弊度確定裝置,用于確定所述候選垃圾文本信息所對應(yīng)的作弊度信息;
[0013]垃圾確定裝置,用于根據(jù)所述作弊度信息,從所述一個或多個候選垃圾文本信息中確定所述初始頁面所對應(yīng)的一個或多個垃圾文本信息。
[0014]與現(xiàn)有技術(shù)相比,本發(fā)明通過確定初始頁面所對應(yīng)的一個或多個候選垃圾文本信息的作弊度信息,以根據(jù)所述作弊度信息,從所述一個或多個候選垃圾文本信息中確定所述初始頁面所對應(yīng)的一個或多個垃圾文本信息,實(shí)現(xiàn)了根據(jù)作弊度信息對所述候選垃圾文本信息進(jìn)行篩選,有效地識別出所述初始頁面中的垃圾文本信息,不僅提高了用戶獲取信息的安全性及獲取信息的效率,相應(yīng)地,也提升了用戶搜索瀏覽體驗(yàn)。而且,本發(fā)明還可生成與所述初始頁面相對應(yīng)的目標(biāo)頁面,其中,所述目標(biāo)頁面包含對所述一個或多個垃圾文本信息中至少一個的顯示標(biāo)識信息,以提供給用戶,將初始頁面中的垃圾文本信息進(jìn)行標(biāo)識,用于提示用戶,從而進(jìn)一步地提高了用戶獲取信息的安全性及獲取信息的效率,提升了用戶搜索瀏覽體驗(yàn)。此外,本發(fā)明還可在確定所述作弊度信息時,除根據(jù)所述候選垃圾文本信息所對應(yīng)的庫頻信息及用戶呈現(xiàn)比例信息之外,還可結(jié)合所述候選垃圾文本信息所對應(yīng)的呈現(xiàn)概率信息,使得得到的所述作弊度信息更加準(zhǔn)確,從而更進(jìn)一步地提高了用戶獲取信息的安全性及獲取信息的效率,提升了用戶搜索瀏覽體驗(yàn)。
【專利附圖】
【附圖說明】
[0015]通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯:
[0016]圖1示出根據(jù)本發(fā)明一個方面的用于確定頁面中的垃圾文本信息的設(shè)備示意圖;
[0017]圖2示出獲取的待處理的初始頁面示意圖;
[0018]圖3示出生成的與圖2所示的初始頁面相對應(yīng)的目標(biāo)頁面示意圖,其中,所述目標(biāo)頁面包含垃圾文本信息的顯示標(biāo)識信息;
[0019]圖4示出根據(jù)本發(fā)明一個優(yōu)選實(shí)施例的用于確定頁面中的垃圾文本信息的設(shè)備示意圖;
[0020]圖5示出根據(jù)本發(fā)明另一個方面的用于確定頁面中的垃圾文本信息的方法流程圖;
[0021]圖6示出根據(jù)本發(fā)明一個優(yōu)選實(shí)施例的用于確定頁面中的垃圾文本信息的方法流程圖。
[0022]附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
【具體實(shí)施方式】
[0023]下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述。
[0024]圖1示出根據(jù)本發(fā)明一個方面的用于確定頁面中的垃圾文本信息的垃圾文本確定設(shè)備1,其中,垃圾文本確定設(shè)備I包括獲取裝置11、候選確定裝置12、作弊度確定裝置13和垃圾確定裝置14。具體地,獲取裝置11獲取待處理的初始頁面;候選確定裝置12確定所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息;作弊度確定裝置13確定所述候選垃圾文本信息所對應(yīng)的作弊度信息;垃圾確定裝置14根據(jù)所述作弊度信息,從所述一個或多個候選垃圾文本信息中確定所述初始頁面所對應(yīng)的一個或多個垃圾文本信息。在此,垃圾文本確定設(shè)備I包括但不限于如用戶通過其可將自己原創(chuàng)的內(nèi)容展示或者提供給其他用戶的互聯(lián)網(wǎng)平臺,如i)用于為其登錄用戶提供信息存儲空間,以實(shí)現(xiàn)該用戶上傳以分享其內(nèi)容如文檔、視頻、圖片;還可用于為用戶提供在線閱讀、下載、交換其他用戶分享的內(nèi)容的網(wǎng)絡(luò)平臺或終端平臺,如百度文庫、豆丁、新浪愛問等,其中,所述終端平臺包括但不限于移動終端、PC等用戶設(shè)備;ii)用于實(shí)現(xiàn)為其登錄用戶提供信息訪問、信息共享、信息發(fā)布或同步的網(wǎng)絡(luò)平臺或終端平臺,如社交網(wǎng)站、貼吧、論壇、知識問答分享平臺、空間、博客、微博等第三方網(wǎng)站。在此,所述垃圾文本確定設(shè)備I可由網(wǎng)絡(luò)設(shè)備、用戶設(shè)備或網(wǎng)絡(luò)設(shè)備與用戶設(shè)備通過網(wǎng)絡(luò)相集成所構(gòu)成的設(shè)備實(shí)現(xiàn)。在此,所述網(wǎng)絡(luò)設(shè)備包括但不限于如網(wǎng)絡(luò)主機(jī)、單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集或基于云計(jì)算的計(jì)算機(jī)集合等實(shí)現(xiàn);或者由用戶設(shè)備實(shí)現(xiàn)。在此,云由基于云計(jì)算(Cloud Computing)的大量主機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中,云計(jì)算是分布式計(jì)算的一種,由一群松散耦合的計(jì)算機(jī)集組成的一個超級虛擬計(jì)算機(jī)。在此,所述用戶設(shè)備可以是任何一種可與用戶通過鍵盤、鼠標(biāo)、觸摸板、觸摸屏、或手寫設(shè)備等方式進(jìn)行人機(jī)交互的電子產(chǎn)品,例如計(jì)算機(jī)、手機(jī)、PDA、掌上電腦PPC或平板電腦等。所述網(wǎng)絡(luò)包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、VPN網(wǎng)絡(luò)、無線自組織網(wǎng)絡(luò)(Ad Hoc網(wǎng)絡(luò))等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述垃圾文本確定設(shè)備I僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的網(wǎng)絡(luò)設(shè)備或用戶設(shè)備如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。在此,網(wǎng)絡(luò)設(shè)備及用戶設(shè)備均包括一種能夠按照事先設(shè)定或存儲的指令,自動進(jìn)行數(shù)值計(jì)算和信息處理的電子設(shè)備,其硬件包括但不限于微處理器、專用集成電路(ASIC)、可編程門陣列(FPGA)、數(shù)字處理器(DSP )、嵌入式設(shè)備等。
[0025]例如,當(dāng)垃圾文本確定設(shè)備I由用戶設(shè)備實(shí)現(xiàn)時,其可通過用戶設(shè)備端的瀏覽器獲取用戶提交的頁面訪問請求,以獲取待處理的初始頁面;接著,確定所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息;然后,再確定所述候選垃圾文本信息所對應(yīng)的作弊度信息;根據(jù)所述作弊度信息,從所述一個或多個候選垃圾文本信息中確定所述初始頁面所對應(yīng)的一個或多個垃圾文本信息,以將該垃圾文本信息通過瀏覽器提供至用戶設(shè)備,進(jìn)而提供給用戶。
[0026]例如,當(dāng)垃圾文本確定設(shè)備I由網(wǎng)絡(luò)設(shè)備實(shí)現(xiàn)時,其可接收用戶通過用戶設(shè)備發(fā)送的頁面訪問請求,并將該頁面訪問請求發(fā)送至頁面服務(wù)器,接收頁面服務(wù)器返回的與該頁面訪問請求相對應(yīng)的頁面,以獲取待處理的初始頁面;接著,確定所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息;然后,再確定所述候選垃圾文本信息所對應(yīng)的作弊度信息;根據(jù)所述作弊度信息,從所述一個或多個候選垃圾文本信息中確定所述初始頁面所對應(yīng)的一個或多個垃圾文本信息,以將該垃圾文本信息發(fā)送至用戶設(shè)備,如通過用戶設(shè)備中的瀏覽器顯示該垃圾文本信息,進(jìn)而提供給用戶。
[0027]例如,當(dāng)垃圾文本確定設(shè)備I由用戶設(shè)備和網(wǎng)絡(luò)設(shè)備配合實(shí)現(xiàn)時,用戶設(shè)備可首先獲取待處理的初始頁面;然后,由用戶設(shè)備將該初始頁面發(fā)送至對應(yīng)的網(wǎng)絡(luò)設(shè)備,由網(wǎng)絡(luò)設(shè)備確定所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息;確定所述候選垃圾文本信息所對應(yīng)的作弊度信息;根據(jù)所述作弊度信息,從所述一個或多個候選垃圾文本信息中確定所述初始頁面所對應(yīng)的一個或多個垃圾文本信息;接著,網(wǎng)絡(luò)設(shè)備將該垃圾文本信息發(fā)送至用戶設(shè)備,以由用戶設(shè)備將該垃圾文本信息提供給用戶。還如,當(dāng)垃圾文本確定設(shè)備I由用戶設(shè)備和網(wǎng)絡(luò)設(shè)備配合實(shí)現(xiàn)時,還可由用戶設(shè)備首先獲取待處理的初始頁面并確定所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息;然后,由用戶設(shè)備將候選垃圾文本信息發(fā)送至網(wǎng)絡(luò)設(shè)備,由網(wǎng)絡(luò)設(shè)備確定所述候選垃圾文本信息所對應(yīng)的作弊度信息;根據(jù)所述作弊度信息,從所述一個或多個候選垃圾文本信息中確定所述初始頁面所對應(yīng)的一個或多個垃圾文本信息;接著,再由網(wǎng)絡(luò)設(shè)備將該垃圾文本信息發(fā)送至用戶設(shè)備,以由用戶設(shè)備將該垃圾文本信息提供給用戶。在此,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述用戶設(shè)備和網(wǎng)絡(luò)設(shè)備配合實(shí)現(xiàn)垃圾文本確定設(shè)備I時,本領(lǐng)域技術(shù)人員可對用戶設(shè)備和網(wǎng)絡(luò)設(shè)備的分工進(jìn)行任意的適當(dāng)變化,該變化均包含在本發(fā)明的保護(hù)范圍之內(nèi)。
[0028]具體地,獲取裝置11通過瀏覽器、搜索引擎等第三方設(shè)備提供的應(yīng)用程序接口(API),獲取待處理的初始頁面;或者,通過JSP、ASP等動態(tài)網(wǎng)頁技術(shù)獲取用戶通過用戶設(shè)備提交的查詢操作,如點(diǎn)擊頁面中鏈接,以通過瀏覽器提供的應(yīng)用程序接口,獲取該鏈接所指向的頁面,以獲取待處理的初始頁面;或者,通過JSP、ASP等動態(tài)網(wǎng)頁技術(shù),獲取用戶通過用戶設(shè)備輸入的查詢序列,再將該查詢序列提交給搜索引擎,并接收搜索引擎所反饋的與該查詢序列相對應(yīng)的搜索結(jié)果,以作為待處理的初始頁面;或者通過http、https等約定通信方式,獲取待處理的初始頁面。例如,用戶A通過其PC設(shè)備在搜索引擎如百度知道搜索的搜索欄中輸入關(guān)鍵詞“寶寶喝奶粉消化不好,怎么辦? ”,點(diǎn)擊搜索按鈕,則獲取裝置11通過ASP、JSP等動態(tài)網(wǎng)頁技術(shù),獲取到用戶A輸入的查詢序列,并基于將該查詢序列向搜索引擎提交搜索請求,通過搜索引擎提供的應(yīng)用程序接口(API)獲取搜索引擎根據(jù)該關(guān)鍵詞“寶寶喝奶粉消化不好,怎么辦? ”進(jìn)行匹配查詢得到的與該關(guān)鍵詞“寶寶喝奶粉消化不好,怎么辦? ”相匹配的一個或多個搜索結(jié)果如:search resultl寶寶喝奶粉消化不好,怎么辦? _育兒問答_寶寶樹”、search result2: “寶寶吃奶粉消化不好怎么辦?-育兒問答-育兒網(wǎng)”、search result3: “寶寶喝奶粉消化不好,怎么辦? _百度知道”、searchresult4: “吃奶寶寶消化不良是怎么回事? _百度知道”等,以作為待處理的初始頁面。
[0029]本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取待處理的初始頁面的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取待處理的初始頁面的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0030]候選確定裝置12確定所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息。在此,所述垃圾文本信息是指頁面中存在的非安全信息、風(fēng)險信息等,如用戶回答其他用戶的問題時均推薦某目標(biāo)對象,而該目標(biāo)對象并不一定能解答該問題,則該目標(biāo)對象即是垃圾文本信息。其中,所述目標(biāo)對象是指人們向市場提供的能滿足消費(fèi)者或用戶某種需求的任何物品或服務(wù)。在此,候選確定裝置12確定所述候選垃圾文本信息的方式包括但不限于以下至少任一項(xiàng):
[0031]I)根據(jù)所述初始頁面的頁面內(nèi)容信息中字符串所對應(yīng)的用戶操作特征信息,確定所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息。具體地,候選確定裝置12首先通過諸如對所述初始頁面進(jìn)行HTML標(biāo)簽分析,或者,通過基于包裝器wrapper的抽取方法,獲取所述初始頁面的頁面內(nèi)容信息;然后,對所述頁面內(nèi)容信息進(jìn)行語義分析處理,以獲得所述初始頁面的頁面內(nèi)容信息中所包含的文本串;接著,再根據(jù)該字符串所對應(yīng)的用戶操作特征信息,確定所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息,如哪個文本串屬于候選垃圾文本。在此,所述用戶操作特征信息包括但不限于如:i)所述字符串所對應(yīng)的用戶重復(fù)行為信息;ii)所述字符串所對應(yīng)的用戶刪除行為信息。
[0032]例如,假設(shè)獲取裝置11獲取的待處理的初始頁面為search result2: “寶寶吃奶粉消化不好怎么辦?-育兒問答-育兒網(wǎng)”,而候選確定裝置12首先對其進(jìn)行HTML標(biāo)簽分析,并對初始頁面search result2的頁面內(nèi)容信息進(jìn)行語義分析處理,得到其對應(yīng)的字符串包括如“給寶寶吃點(diǎn)益生菌”、“我家寶寶一直喝亨氏奶粉,未出現(xiàn)消化不良現(xiàn)象,親可試試”、“可試試瑞士思寶奶粉,很好吸收,不上火能夠強(qiáng)健寶寶腸道和增強(qiáng)免疫力”、“不是奶粉問題”、“寶寶出現(xiàn)這樣的情況證明不太適合這個奶粉,可以試著換換牌子”,假設(shè)回答包含文本串“亨氏奶粉”的內(nèi)容對應(yīng)于同一用戶,且該用戶多次回答包含文本串“亨氏奶粉”的內(nèi)容,說明該用戶惡意推薦“亨氏奶粉”的可能性較大,則候選確定裝置12可將“亨氏奶粉”作為所述候選垃圾文本信息;再如,假設(shè)回答包含文本串“瑞士思寶奶粉”內(nèi)容的用戶存在多次回答進(jìn)而又刪除的行為,說明文本串“瑞士思寶奶粉”的作弊嫌疑較大,則候選確定裝置12可將“瑞士思寶奶粉”作為所述候選垃圾文本信息。
[0033]再如,假設(shè)獲取裝置11獲取的待處理的初始頁面為如圖2所示的searchreSUlt3: “寶寶喝奶粉消化不好,怎么辦? _百度知道”,而該頁面中包括以下對該問題的回答I至IV:
[0034]1:寶寶消化不好,可能是因?yàn)槟谭鄣膯栴},試著用下佳貝艾特奶粉,以前見人用過還不錯;
[0035]I1:腸胃吸收的慢
[0036]解決寶寶消化不良問題,兒科專家常推薦的是乳佳貝益生菌,乳佳貝益生菌可使胃腸道產(chǎn)生多種有機(jī)酸和消化酶,幫助寶寶吸收食物,增進(jìn)食欲,產(chǎn)生的乳糖,醋酸等,可以增強(qiáng)寶寶的腸道蠕動,促進(jìn)消化。
[0037]II1:先換下奶粉試試,也可以給寶寶平時吃點(diǎn)益生菌改善腸胃的,助消化的;
[0038]IV:我家寶寶用佳貝艾特奶粉,沒有出現(xiàn)消化不良情況,親可試試。
[0039]候選確定裝置12首先對上述回答I至IV進(jìn)行語義分析處理,得到其對應(yīng)的字符串包括如“試著用下佳貝艾特奶粉”、“解決寶寶消化不良問題,兒科專家常推薦的是乳佳貝益生菌”、“先換下奶粉試試,也可以給寶寶平時吃點(diǎn)益生菌改善腸胃的,助消化的”、“我家寶寶用佳貝艾特奶粉,沒有出現(xiàn)消化不良情況,親可試試”,假設(shè)上述回答I和IV來自同一用戶,而該用戶在其他關(guān)于“寶寶吃奶粉消化不良”問題的回答時同樣推薦“佳貝艾特”奶粉,說明該用戶惡意推薦“佳貝艾特”奶粉的可能性較大,則候選確定裝置12可將“佳貝艾特”作為所述候選垃圾文本信息;再如,假設(shè)回答包含上述回答II中的文本“乳佳貝益生菌”內(nèi)容的用戶存在多次回答進(jìn)而又刪除的行為,說明文本串“瑞士思寶奶粉”的作弊嫌疑較大,則候選確定裝置12可將“乳佳貝益生菌”作為所述候選垃圾文本信息。
[0040]本領(lǐng)域技術(shù)人員應(yīng)能理解上述用戶操作特征信息僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的用戶操作特征信息如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0041]2)根據(jù)所述初始頁面的頁面內(nèi)容信息中的字符串,在垃圾文本信息庫中進(jìn)行匹配查詢,以獲得所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息。例如,接上例,候選確定裝置12可根據(jù)初始頁面search result2的頁面內(nèi)容信息中的字符串如“給寶寶吃點(diǎn)益生菌”、“我家寶寶一直喝亨氏奶粉,未出現(xiàn)消化不良現(xiàn)象,親可試試”、“可試試瑞士思寶奶粉,很好吸收,不上火能夠強(qiáng)健寶寶腸道和增強(qiáng)免疫力”、“不是奶粉問題”、“寶寶出現(xiàn)這樣的情況證明不太適合這個奶粉,可以試著換換牌子”,在垃圾文本信息庫中進(jìn)行匹配查詢,以獲得所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息如“亨氏奶粉”、“瑞士思寶奶粉”。在此,所述垃圾文本信息庫可位于垃圾文本確定設(shè)備I中,也可位于與垃圾文本設(shè)備I通過網(wǎng)絡(luò)相連的其他設(shè)備中,如服務(wù)器。
[0042]本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護(hù)范圍以內(nèi),并在此以引用方式包含于此。
[0043]作弊度確定裝置13確定所述候選垃圾文本信息所對應(yīng)的作弊度信息。在此,所述作弊度信息反映了所述候選垃圾文本信息屬于非安全信息的程度和/或具有風(fēng)險的程度,當(dāng)候選垃圾文本信息所對應(yīng)的作弊度信息越大時,說明其屬于非安全信息的程度越大和/或具有風(fēng)險的程度越高。在此,作弊度確定裝置13確定所述候選垃圾文本信息所對應(yīng)的作弊度信息的方式包括但不限于以下至少任一項(xiàng):
[0044]I)根據(jù)所述候選垃圾文本信息所對應(yīng)的庫頻信息及用戶呈現(xiàn)比例信息,確定所述作弊度信息。在此,作弊度確定裝置13根據(jù)所述候選垃圾文本信息所對應(yīng)的庫頻信息及用戶呈現(xiàn)比例信息確定所述作弊度信息的方式包括但不限于以下至少任一項(xiàng):
[0045]a)作弊度確定裝置13可根據(jù)如下公式(I)確定所述作弊度信息:
【權(quán)利要求】
1.一種用于確定頁面中的垃圾文本信息的方法,其中,該方法包括以下步驟: a獲取待處理的初始頁面; b確定所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息; c確定所述候選垃圾文本信息所對應(yīng)的作弊度信息; d根據(jù)所述作弊度信息,從所述一個或多個候選垃圾文本信息中確定所述初始頁面所對應(yīng)的一個或多個垃圾文本信息。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述步驟b包括: -在所述初始頁面中檢測符合預(yù)定垃圾特征的字符串,以將所述符合預(yù)定垃圾特征的字符串作為一個或多個候選垃圾文本信息。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述步驟b包括: -在所述初始頁面中檢測符合預(yù)定詞性組合的字符串,以將所述符合預(yù)定詞性的字符串作為一個或多個候選垃圾文本信息; 其中,該方法還包括: -根據(jù)所述候選垃圾文本信息所對應(yīng)的語法特征信息,對所述一個或多個候選垃圾文本信息進(jìn)行預(yù)處理,以獲得預(yù)處理后的一個或多個候選垃圾文本信息; 其中,所述步驟c包括: -確定預(yù)處理后的 所述候選垃圾文本所對應(yīng)的作弊度信息; 其中,所述步驟d包括: -根據(jù)預(yù)處理后的所述候選垃圾文本所對應(yīng)的作弊度信息,從預(yù)處理后的所述一個或多個候選垃圾文本信息中確定所述初始頁面所對應(yīng)的一個或多個垃圾文本信息。
4.根據(jù)權(quán)利要求1或2所述的方法,其中,所述步驟c包括: -根據(jù)所述候選垃圾文本信息所對應(yīng)的庫頻信息及用戶呈現(xiàn)比例信息,確定所述作弊度?目息。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述步驟c包括: -根據(jù)所述候選垃圾文本信息所對應(yīng)的庫頻信息及用戶呈現(xiàn)比例信息,并結(jié)合所述初始頁面的頁面主題信息,確定所述作弊度信息。
6.根據(jù)權(quán)利要求4所述的方法,其中,所述步驟c包括: -根據(jù)所述候選垃圾文本信息所對應(yīng)的庫頻信息及用戶呈現(xiàn)比例信息,結(jié)合所述候選垃圾文本信息所對應(yīng)的呈現(xiàn)概率信息,確定所述作弊度信息。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述步驟c包括: -通過以下方式,確定所述作弊度信息:
8.根據(jù)權(quán)利要求1或2所述的方法,其中,所述步驟c包括: -對所述候選垃圾文本信息分別進(jìn)行分詞處理,以獲得所述候選垃圾文本信息所對應(yīng)的一個或多個分詞信息; -根據(jù)所述候選垃圾文本信息所對應(yīng)的一個或多個分詞信息所對應(yīng)的作弊度信息,確定所述作弊度信息。
9.根據(jù)權(quán)利要求1至8中任一項(xiàng)所述的方法,其中,該方法還包括: m生成與所述初始頁面相對應(yīng)的目標(biāo)頁面,其中,所述目標(biāo)頁面包含對所述一個或多個垃圾文本信息中至少一個的顯示標(biāo)識信息; -將所述目標(biāo)頁面提供給對應(yīng)用戶。
10.根據(jù)權(quán)利要求9所述的方法,其中,所述步驟m包括: -根據(jù)所述一個或多個垃圾文本信息中至少一個所對應(yīng)的作弊度信息,確定所述一個或多個垃圾文本信息中至少一個所對應(yīng)的呈現(xiàn)模式; -根據(jù)所述呈現(xiàn)模式,生成與所述初始頁面相對應(yīng)的目標(biāo)頁面,其中,所述目標(biāo)頁面包含與所述呈現(xiàn)模式相對應(yīng)的、對所述一個或多個垃圾文本信息中至少一個的顯示標(biāo)識信息。
11.一種用于確定頁面中的垃圾文本信息的垃圾文本確定設(shè)備,其中,該垃圾文本確定設(shè)備包括: 獲取裝置,用于獲取待處理的初始頁面; 候選確定裝 置,用于確定所述初始頁面所對應(yīng)的一個或多個候選垃圾文本信息; 作弊度確定裝置,用于確定所述候選垃圾文本信息所對應(yīng)的作弊度信息; 垃圾確定裝置,用于根據(jù)所述作弊度信息,從所述一個或多個候選垃圾文本信息中確定所述初始頁面所對應(yīng)的一個或多個垃圾文本信息。
12.根據(jù)權(quán)利要求11所述的垃圾文本確定設(shè)備,其中,所述候選確定裝置用于: -在所述初始頁面中檢測符合預(yù)定垃圾特征的字符串,以將所述符合預(yù)定垃圾特征的字符串作為一個或多個候選垃圾文本信息。
13.根據(jù)權(quán)利要求12所述的垃圾文本確定設(shè)備,其中,所述候選確定裝置用于: -在所述初始頁面中檢測符合預(yù)定詞性組合的字符串,以將所述符合預(yù)定詞性的字符串作為一個或多個候選垃圾文本信息; 其中,該垃圾文本確定設(shè)備還包括: 預(yù)處理裝置,用于根據(jù)所述候選垃圾文本信息所對應(yīng)的語法特征信息,對所述一個或多個候選垃圾文本信息進(jìn)行預(yù)處理,以獲得預(yù)處理后的一個或多個候選垃圾文本信息;其中,所述作弊度確定裝置用于: -確定預(yù)處理后的所述候選垃圾文本所對應(yīng)的作弊度信息; 其中,所述垃圾文本確定裝置用于: -根據(jù)預(yù)處理后的所述候選垃圾文本所對應(yīng)的作弊度信息,從預(yù)處理后的所述一個或多個候選垃圾文本信息中確定所述初始頁面所對應(yīng)的一個或多個垃圾文本信息。
14.根據(jù)權(quán)利要求11或12所述的垃圾文本確定設(shè)備,其中,所述作弊度確定裝置用于: -根據(jù)所述候選垃圾文本信息所對應(yīng)的庫頻信息及用戶呈現(xiàn)比例信息,確定所述作弊度?目息。
15.根據(jù)權(quán)利要求14所述的垃圾文本確定設(shè)備,其中,所述作弊度確定裝置用于:-根據(jù)所述候選垃圾文本信息所對應(yīng)的庫頻信息及用戶呈現(xiàn)比例信息,并結(jié)合所述初始頁面的頁面主題信息,確定所述作弊度信息。
16.根據(jù)權(quán)利要求14所述的垃圾文本確定設(shè)備,其中,所述作弊度確定裝置用于: -根據(jù)所述候選垃圾文本信息所對應(yīng)的庫頻信息及用戶呈現(xiàn)比例信息,結(jié)合所述候選垃圾文本信息所對應(yīng)的呈現(xiàn)概率信息,確定所述作弊度信息。
17.根據(jù)權(quán)利要求16所述的垃圾文本確定設(shè)備,其中,所述作弊度確定裝置用于: -通過以下方式,確定所述作弊度信息:
18.根據(jù)權(quán)利要求11或12所述的垃圾文本確定設(shè)備,其中,所述作弊度確定裝置用于: -對所述候選垃圾文本信息分別進(jìn)行分詞處理,以獲得所述候選垃圾文本信息所對應(yīng)的一個或多個分詞信息; -根據(jù)所述候選垃圾文本信息所對應(yīng)的一個或多個分詞信息所對應(yīng)的作弊度信息,確定所述作弊度信息。
19.根據(jù)權(quán)利要求11至18中任一項(xiàng)所述的垃圾文本確定設(shè)備,其中,該垃圾文本確定設(shè)備還包括: 頁面生成裝置,用于生成與所述初始頁面相對應(yīng)的目標(biāo)頁面,其中,所述目標(biāo)頁面包含對所述一個或多個垃圾文本信息中至少一個的顯示標(biāo)識信息; 提供裝置,用于將所述目標(biāo)頁面提供給對應(yīng)用戶。
20.根據(jù)權(quán)利要求19所述的垃圾文本確定設(shè)備,其中,所述頁面生成裝置包括: 呈現(xiàn)模式確定單元,用于根據(jù)所述一個或多個垃圾文本信息中至少一個所對應(yīng)的作弊度信息,確定所述一個或多個垃圾文本信息中至少一個所對應(yīng)的呈現(xiàn)模式; 頁面生成單元,用于根據(jù)所述呈現(xiàn)模式,生成與所述初始頁面相對應(yīng)的目標(biāo)頁面,其中,所述目標(biāo)頁面包含與所述呈現(xiàn)模式相對應(yīng)的、對所述一個或多個垃圾文本信息中至少一個的顯示標(biāo)識信息。
【文檔編號】G06F17/30GK103886016SQ201410058591
【公開日】2014年6月25日 申請日期:2014年2月20日 優(yōu)先權(quán)日:2014年2月20日
【發(fā)明者】施鵬, 牛章鵬 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司