技術編號:6433076
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術詳細信息。本發(fā)明總體地涉及新聞網(wǎng)頁內容提取領域,更具體地說,本發(fā)明涉及一種使用網(wǎng)頁標簽聚類提取新聞網(wǎng)頁內容的方法和系統(tǒng)。背景技術在新聞(或者資訊)搜索領域,新聞正文提取是必不可少的環(huán)節(jié),其正文提取的質量高低決定了新聞搜索的質量和用戶體驗。目前新聞正文提取方法各式各樣,按是否使用模板的方式分為兩大類基于模板 (或包裝器)方式提取和基于非模板方式提取。在基于模板方式提取中,首先定義模板,然后編寫程序解析執(zhí)行模板得到數(shù)據(jù)。根據(jù)模板生成方式又可分為人工模板提取和自動模板提取...
注意:該技術已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權人授權前,僅供技術研究參考不得用于商業(yè)用途。
該專利適合技術人員進行技術研發(fā)參考以及查看自身技術是否侵權,增加技術思路,做技術知識儲備,不適合論文引用。
請注意,此類技術沒有源代碼,用于學習研究技術思路。