技術編號:6536355
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術詳細信息。本發(fā)明涉及一種文本提取方法,所述方法包括步驟一、預處理給定的網(wǎng)頁的超文本傳輸協(xié)議html源碼,以獲取所述源碼中的文本的字符串序列,所述字符串序列包含N個文本行;步驟二、提取所述字符串序列中每個文本行的特征元素,所述特征元素包含M個屬性;步驟三、依據(jù)第一關聯(lián)規(guī)則,確定所述字符串序列中的潛在正文行組成的潛在正文塊,所示第一關聯(lián)規(guī)則由所述特征元素中的所述M個屬性確定。通過本發(fā)明實施例能夠提高網(wǎng)頁中文本塊提取的準確度,提高搜索引擎的搜索效率和準確度。專利說明一種文...
注意:該技術已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權人授權前,僅供技術研究參考不得用于商業(yè)用途。
該專利適合技術人員進行技術研發(fā)參考以及查看自身技術是否侵權,增加技術思路,做技術知識儲備,不適合論文引用。
請注意,此類技術沒有源代碼,用于學習研究技術思路。