欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁分類方法和系統(tǒng)的制作方法

文檔序號:9396900閱讀:321來源:國知局
一種網(wǎng)頁分類方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)應用技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁分類方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)信息需求的擴大,信息定向投放成為一種趨勢。為了更有針對性地投放信息,需要對互聯(lián)網(wǎng)上的人群進行屬性分析或標簽界定,而這主要通過判斷用戶訪問的媒體網(wǎng)頁類型來進行分析。其中,常見的對媒體網(wǎng)頁進行分類的方法主要包括:
[0003]I)利用url (統(tǒng)一資源定位)的字符串進行分類,如利用sports, qq.com中的字符串“sports”將該網(wǎng)頁分類至體育類目;
[0004]2)人工識別,由有經(jīng)驗的人員根據(jù)網(wǎng)頁內(nèi)容進行網(wǎng)頁分類;
[0005]3)網(wǎng)頁內(nèi)容關(guān)鍵字頻次識別,主要通過解析url對應的html (超文本標記語言)內(nèi)容,根據(jù)其中的關(guān)鍵字頻次進行網(wǎng)頁分類。
[0006]上述各分類方法中,方法3)通過機器學習等算法予以實現(xiàn),準確度相對較低;方法2)雖然準確度較高,但是效率低;方法I)雖然效率和質(zhì)量都不錯,但是對于主要由日期或數(shù)據(jù)表示的url的網(wǎng)頁分類卻顯得無可奈何,而這類網(wǎng)頁的流量往往非常大,諸如視頻網(wǎng)站、電子商務網(wǎng)站以及博客網(wǎng)站中的網(wǎng)頁等。

【發(fā)明內(nèi)容】

[0007]本發(fā)明的目的是提供一種網(wǎng)頁分類方法和系統(tǒng),可以有效對媒體網(wǎng)頁類型進行分類。
[0008]根據(jù)本發(fā)明的一個方面,提供了一種網(wǎng)頁分類方法,該方法包括以下步驟:
[0009]接收用戶輸入的域名,基于所述域名得到需要爬取面包肩的網(wǎng)頁所對應的地址(url);
[0010]基于所述地址爬取所述網(wǎng)頁的面包肩;
[0011]基于所爬取的面包肩對所述網(wǎng)頁進行分類。
[0012]進一步地,所述基于所述域名得到需要爬取面包肩的網(wǎng)頁所對應的地址的步驟具體包括:
[0013]基于所述域名,得到包括所述域名在內(nèi)的至少部分網(wǎng)頁地址;
[0014]判斷所述網(wǎng)頁地址對應的網(wǎng)頁是否存在歷史被爬取面包肩的記錄或/和所述網(wǎng)頁是否活躍;
[0015]基于所述判斷,篩選出需要爬取面包肩的網(wǎng)頁所對應的地址。
[0016]其中,在篩選出需要爬取面包肩的網(wǎng)頁所對應的地址的步驟前,還包括:
[0017]對面包肩的有效性進行判斷,過濾無效面包肩對應的網(wǎng)頁地址。
[0018]進一步地,所述基于所述地址爬取所述網(wǎng)頁的面包肩的步驟包括:
[0019]基于面包肩的提取規(guī)則和所述地址,多線程地分別同時爬取并記錄所述網(wǎng)頁的面包肩。
[0020]其中,所述基于面包肩的提取規(guī)則爬取所述網(wǎng)頁的面包肩具體包括:
[0021]對所述網(wǎng)頁的html代碼進行解析;
[0022]設定所述面包肩的開始字段和結(jié)束字段,獲取所述面包肩的完整字段。
[0023]進一步地,所述基于所爬取的面包肩對所述網(wǎng)頁進行分類的步驟具體包括:
[0024]確定面包肩分類關(guān)鍵字/詞,基于所述關(guān)鍵字/詞篩選出所述域名下包含所述關(guān)鍵字/詞的所有面包肩對應的網(wǎng)頁地址;
[0025]將所述篩選的網(wǎng)頁地址所對應的網(wǎng)頁歸類于所述面包肩分類關(guān)鍵字/詞所確定的類別。
[0026]進一步地,所述網(wǎng)頁分類方法還包括:
[0027]基于所爬取的面包肩對網(wǎng)頁進行的分類,對訪問所述網(wǎng)頁的用戶進行屬性分類。
[0028]根據(jù)本發(fā)明的另一個方面,還提供了一種網(wǎng)頁分類系統(tǒng),包括:
[0029]待分類網(wǎng)頁獲取裝置,用于接收用戶輸入的域名,基于所述域名得到需要爬取面包肩的網(wǎng)頁所對應的地址(url);
[0030]面包肩爬取裝置,基于所述地址爬取所述網(wǎng)頁的面包肩;
[0031]網(wǎng)頁分類器,基于所爬取的面包肩對所述網(wǎng)頁進行分類。
[0032]進一步地,所述待分類網(wǎng)頁獲取裝置具體用于:
[0033]基于所述域名,得到包括所述域名在內(nèi)的至少部分網(wǎng)頁地址;
[0034]判斷所述網(wǎng)頁地址對應的網(wǎng)頁是否存在歷史被爬取面包肩的記錄或/和所述網(wǎng)頁是否活躍;
[0035]基于所述判斷,篩選出需要爬取面包肩的網(wǎng)頁所對應的地址。
[0036]其中,所述待分類網(wǎng)頁獲取裝置在篩選出需要爬取面包肩的網(wǎng)頁所對應的地址前,還用于:
[0037]對面包肩的有效性進行判斷,過濾無效面包肩對應的網(wǎng)頁地址。
[0038]進一步地,所述面包肩爬取裝置具體用于:
[0039]基于面包肩的提取規(guī)則和所述地址,多線程地分別同時爬取并記錄所述網(wǎng)頁的面包肩。
[0040]其中,所述面包肩爬取裝置基于面包肩的提取規(guī)則爬取所述網(wǎng)頁的面包肩中,具體用于:
[0041 ]對所述網(wǎng)頁的html代碼進行解析;
[0042]設定所述面包肩的開始字段和結(jié)束字段,獲取所述面包肩的完整字段。
[0043]進一步地,所述網(wǎng)頁分類器具體用于:
[0044]確定面包肩分類關(guān)鍵字/詞,基于所述關(guān)鍵字/詞篩選出所述域名下包含所述關(guān)鍵字/詞的所有面包肩對應的網(wǎng)頁地址;
[0045]將所述篩選的網(wǎng)頁地址所對應的網(wǎng)頁歸類于所述面包肩分類關(guān)鍵字/詞所確定的類別。
[0046]進一步地,所述網(wǎng)頁分類系統(tǒng)還包括:
[0047]用戶屬性分類裝置,基于所爬取的面包肩對網(wǎng)頁進行的分類,對訪問所述網(wǎng)頁的用戶進行屬性分類。
[0048]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點:本發(fā)明通過識別面包肩中的字段,基于面包肩進行網(wǎng)頁分類,提升了網(wǎng)頁分類的準確率和效率,并進一步提高了對網(wǎng)絡人群的屬性進行標記的準確性。
【附圖說明】
[0049]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:
[0050]圖1示出根據(jù)本發(fā)明一個方面的一種網(wǎng)頁分類系統(tǒng)的示意性框圖;
[0051]圖2示出某視頻類網(wǎng)頁中所展示的面包肩示意圖;
[0052]圖3(a)-圖3(b)示出所述待分類網(wǎng)頁獲取裝置的具體工作流程圖;
[0053]圖4示出根據(jù)本發(fā)明一個優(yōu)選實施例的基于面包肩對人群進行分類的界面圖;
[0054]圖5示出根據(jù)本發(fā)明另一個方面的一種網(wǎng)頁分類的方法流程圖;
[0055]附圖中相同或相似的附圖標記代表相同或相似的部件。
【具體實施方式】
[0056]下面結(jié)合附圖對本發(fā)明作進一步詳細描述。
[0057]圖1示出根據(jù)本發(fā)明一個方面的一種網(wǎng)頁分類系統(tǒng)的示意性框圖。其中,所述系統(tǒng)包括待分類網(wǎng)頁獲取裝置11、面包肩爬取裝置12以及網(wǎng)頁分類器13。優(yōu)選地,所述系統(tǒng)還包括用戶屬性分類裝置14。具體地,待分類網(wǎng)頁獲取裝置11接收用戶輸入的域名,基于所述域名得到需要爬取面包肩的網(wǎng)頁所對應的地址(url);面包肩爬取裝置12基于所述地址爬取所述網(wǎng)頁的面包肩;網(wǎng)頁分類器13基于所爬取的面包肩對所述網(wǎng)頁進行分類。進一步地,用戶屬性分類裝置14基于所爬取的面包肩對網(wǎng)頁進行的分類,對訪問所述網(wǎng)頁的用戶進行屬性分類。
[0058]上述各裝置之間是持續(xù)不斷工作的,在此,本領(lǐng)域技術(shù)人員應理解“持續(xù)”是指上述各裝置分別實時地,或者按照設定的或?qū)崟r調(diào)整的工作模式要求,進行工作。
[0059]其中,待分類網(wǎng)頁獲取裝置11接收用戶輸入的域名,基于所述域名得到需要爬取面包肩的網(wǎng)頁所對應的地址(url),而所得到的網(wǎng)頁為至少一個或多個,相應的網(wǎng)頁地址也為至少一個或多個。具體地,所述域名可以包括任意級別的域名,例如一級域名、二級域名或三級域名等等,在此不作限定,典型地,視頻類網(wǎng)址的域名例如為V.youku.com。通常,同一域名下,存在至少一個網(wǎng)頁或多個網(wǎng)頁對應的地址,仍以域名V.youku.com為例,其下存在的網(wǎng)址包括 http://v.youku.com/v_show/idj 或 http://v.youku.com/v_show/id_xnjqlb jtcw 等。
[0060]其中,所述面包肩是用于表達內(nèi)容歸屬關(guān)系的界面元素,面包肩導航一般表現(xiàn)為“主分類 > 一級分類> 二級分類 > 三級分類 >…… > 最終內(nèi)容頁面”或者“首頁 > 分類頁 > 次級分類頁”或者“首頁 >> 分類頁 >> 次級分類頁”等形式。請參考圖2示出的某視頻類網(wǎng)頁中所展示的面包肩示意圖,如圖2所示,該網(wǎng)頁展示的面包肩為:電視劇〉韓國〉劇情/家庭/偶像/言情/時裝。當然,不同網(wǎng)站的面包肩格式可以相同或不同,不同網(wǎng)站的面包肩對應的代碼也可以相同或不同。
[0061]待分類網(wǎng)頁獲取裝置11基于各種通信協(xié)議或/和網(wǎng)頁規(guī)則通過與用戶的用戶設備進行交互,例如,通過一次或多次調(diào)用該用戶設備提供的應用程序接口(API)或其他約定的通信方式,或者,通過ASP、JSP或PHP等頁面技術(shù),獲取用戶在搜索框、查詢框等接收用戶輸入的域名,又或者,通過與搜索引擎等第三方設備的交互,接收用戶
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
永昌县| 永宁县| 龙门县| 吉木乃县| 布尔津县| 营山县| 寿宁县| 白朗县| 承德市| 金溪县| 上蔡县| 兴城市| 新乐市| 阿合奇县| 常山县| 阜阳市| 来安县| 富裕县| 静宁县| 泰安市| 遵义市| 建水县| 山阴县| 高安市| 盱眙县| 杨浦区| 宁波市| 大厂| 师宗县| 荆州市| 松江区| 汕头市| 罗田县| 石景山区| 天祝| 阿鲁科尔沁旗| 常熟市| 蓬安县| 互助| 长岛县| 利津县|