專利名稱:獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的方法與設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)搜索技術(shù)領(lǐng)域,尤其涉及一種用于獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的技術(shù)。
背景技術(shù):
隨著網(wǎng)絡(luò)應(yīng)用的普及,越來越多的用戶依賴網(wǎng)絡(luò)進行網(wǎng)絡(luò)文檔的閱讀,譬如,用戶可通過網(wǎng)絡(luò)獲取《自然語言處理》中關(guān)于“隱馬爾科夫鏈模型”的相關(guān)章節(jié)。然而,實際網(wǎng)絡(luò)應(yīng)用中,由于網(wǎng)絡(luò)傳播的開放性特點,同一份網(wǎng)絡(luò)文檔的某個章節(jié)可能為多個站點所轉(zhuǎn)載,而且該章節(jié)在這些站點上的轉(zhuǎn)載質(zhì)量可能千差萬別。例如,有些站點在該章節(jié)中插入廣告性內(nèi)容,不僅增加了用戶的訪問流量,也影響了用戶的閱讀體驗;甚至在有些站點中,對應(yīng)該章節(jié)的頁面存在空章、圖片章或死鏈等問題,這都嚴重影響了用戶閱讀的連貫性,也降低了用戶的使用體驗。因此,如何為目標文檔章節(jié)匹配相對應(yīng)的候選文檔章節(jié),以提高用戶的文檔訪問效率,并提升用戶的使用體驗,成為本領(lǐng)域技術(shù)人員亟需解決的一個問題。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的方法與設(shè)備。根據(jù)本發(fā)明的一個方面,提供了一種由計算機實現(xiàn)的用于獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的方法,其中,該方法包括a獲取待匹配的目標文檔章節(jié);b根據(jù)所述目標文檔章節(jié)的章節(jié)標題信息,確定所述目標文檔章節(jié)的章節(jié)標識信息;c根據(jù)所述章節(jié)標識信息進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié)。根據(jù)本發(fā)明的另一方面,還提供了一種用于獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的章節(jié)匹配設(shè)備,其中,該設(shè)備包括章節(jié)獲取裝置,用于獲取待匹配的目標文檔章節(jié);標識確定裝置,用于根據(jù)所述目標文檔章節(jié)的章節(jié)標題信息,確定所述目標文檔章節(jié)的章節(jié)標識信息;章節(jié)匹配裝置,用于根據(jù)所述章節(jié)標識信息進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié)。與現(xiàn)有技術(shù)相比,本發(fā)明通過待匹配的目標文檔章節(jié)的章節(jié)標題信息,確定所述目標文檔章節(jié)的章節(jié)標識信息,并據(jù)此進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié),從而提高了用戶的文檔訪問效率,并提升了用戶的使用體驗。 進一步地,本發(fā)明還可以根據(jù)所獲得的候選文檔章節(jié)相對該目標文檔章節(jié)的匹配度,將候選文檔章節(jié)提供給用戶,從而進一步地提高用戶的文檔訪問效率,并提升了用戶的使用體驗。
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯圖1示出根據(jù)本發(fā)明一個方面的用于獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的設(shè)備示意圖;圖2示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的設(shè)備示意圖;圖3示出根據(jù)本發(fā)明另一個方面的用于獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的方法流程圖;圖4示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的方法流程圖。附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施例方式下面結(jié)合附圖對本發(fā)明作進一步詳細描述。圖1示出根據(jù)本發(fā)明一個方面的用于獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的設(shè)備示意圖;章節(jié)匹配設(shè)備1包括章節(jié)獲取裝置101、標識確定裝置102和章節(jié)匹配裝置 103。章節(jié)匹配設(shè)備1包括但不限于網(wǎng)絡(luò)主機、單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集或多個服務(wù)器構(gòu)成的云。在此,云由基于云計算(Cloud Computing)的大量計算機或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。本領(lǐng)域技術(shù)人員應(yīng)能理解上述章節(jié)匹配設(shè)備僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的章節(jié)匹配設(shè)備如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。章節(jié)獲取裝置101獲取待匹配的目標文檔章節(jié)。具體地,章節(jié)獲取裝置101例如通過在章節(jié)信息庫中隨機地或順序地獲取文檔章節(jié),以作為待匹配的目標文檔章節(jié);或者,通過與搜索引擎等第三方設(shè)備的交互,獲取所述搜索引擎等第三方設(shè)備所提供的文檔章節(jié), 以作為待匹配的目標文檔章節(jié);或者,通過頁面分析器等,檢測文檔的各個文檔章節(jié),從中檢測出有問題的章節(jié),例如空章、圖片章、所對應(yīng)的鏈接為死鏈的章節(jié)等,以作為待匹配的目標文檔章節(jié)。在此,空章例如章節(jié)內(nèi)容為空、或章節(jié)有效文字信息小于預(yù)定閾值的章節(jié); 圖片章例如章節(jié)內(nèi)容或章節(jié)主題內(nèi)容為圖片的章節(jié);死鏈例如點擊該死鏈后跳轉(zhuǎn)到目錄頁或其他不相關(guān)網(wǎng)頁的鏈接。在此,章節(jié)信息庫中存儲有大量文檔章節(jié)及其與文檔、章節(jié)標識信息等的映射關(guān)系,該章節(jié)信息庫既可以位于章節(jié)匹配設(shè)備1中,也可以位于與該章節(jié)匹配設(shè)備1相連接的第三方設(shè)備中。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取待匹配的目標文檔章節(jié)的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取待匹配的目標文檔章節(jié)的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
標識確定裝置102根據(jù)所述目標文檔章節(jié)的章節(jié)標題信息,確定所述目標文檔章節(jié)的章節(jié)標識信息。具體地,標識確定裝置102確定目標文檔章節(jié)的章節(jié)標識信息的方式包括但不限于1)根據(jù)章節(jié)獲取裝置101所獲取的待匹配的目標文檔章節(jié),從該目標文檔章節(jié)中提取出章節(jié)標題信息,將所述章節(jié)標題信息作為該目標文檔章節(jié)的章節(jié)標識信息。2)根據(jù)章節(jié)獲取裝置101所獲取的待匹配的目標文檔章節(jié),從該目標文檔章節(jié)中提取出章節(jié)標題信息,通過對該章節(jié)標題信息進行去除標題序號信息、去除標題后綴信息、 去除符號字符以及所述符號字符所涵括的文字信息等預(yù)處理操作,獲得預(yù)處理操作后的章節(jié)標題信息,并將該預(yù)處理后的章節(jié)標題信息作為該目標文檔章節(jié)的章節(jié)標識信息。本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定章節(jié)標識信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定章節(jié)標識信息的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。章節(jié)匹配裝置103根據(jù)所述章節(jié)標識信息進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié)。具體地,章節(jié)匹配裝置103通過匹配查詢,獲得所述一個或多個候選文檔章節(jié)的方式包括但不限于1)根據(jù)標識確定裝置102所確定的目標文檔章節(jié)的章節(jié)標識信息,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。例如,章節(jié)獲取裝置101獲取到待匹配的目標文檔章節(jié)為“明朝那些事兒一** 在線書庫”的第六章;標識確定裝置102將該目標文檔章節(jié)的章節(jié)標題信息“第六章霸業(yè)的開始”作為該目標文檔章節(jié)的章節(jié)標識信息;章節(jié)匹配裝置103根據(jù)該章節(jié)標識信息“第六章霸業(yè)的開始”,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢, 獲得與該目標文檔章節(jié)相對應(yīng)的多個候選文檔章節(jié)“明朝那些事兒連載讀書**網(wǎng)”的第六章、“明朝那些事」L歷史文化讀書頻道**網(wǎng)”的第六章等。2)根據(jù)標識確定裝置102所確定的目標文檔章節(jié)的章節(jié)標識信息,結(jié)合該目標文檔章節(jié)所對應(yīng)的目標文檔的文檔標識信息,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。該文檔標識信息諸如文檔名稱、作者名稱或文檔內(nèi)容標記等可用于標識文檔的信息。例如,假設(shè)章節(jié)獲取裝置101 所獲取到的待匹配的目標文檔章節(jié)的章節(jié)標題信息只包括了標題序號信息,如獲取到待匹配的目標文檔章節(jié)為“明朝那些事兒一**在線書庫”的第六章,該目標文檔章節(jié)的章節(jié)標題為“第六章”;標識確定裝置102將該章節(jié)標題信息“第六章”作為該目標文檔章節(jié)的章節(jié)標識信息;章節(jié)匹配裝置103根據(jù)該目標文檔章節(jié)所對應(yīng)的目標文檔“明朝那些事兒—— **在線書庫”的文檔標識信息,如文檔名稱“明朝那些事兒”、作者名稱“當年明月”等,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,獲得與該目標文檔相對應(yīng)的一個或多個候選文檔,如“明朝那些事兒連載讀書**網(wǎng)”、“明朝那些事兒歷史文化讀書頻道**網(wǎng),,等,接著,章節(jié)匹配裝置103再根據(jù)該章節(jié)標識信息“第六章”這一個或多個候選文檔中進行匹配查詢,以獲得與該目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié), 如“明朝那些事兒連載讀書**網(wǎng)”的第六章、“明朝那些事兒歷史文化讀書頻道**網(wǎng)”的第
女音絕 /、早寸。3)根據(jù)標識確定裝置102所確定的目標文檔章節(jié)的章節(jié)標識信息,并結(jié)合所述目標文檔章節(jié)的標題序號信息、標題后綴信息等章節(jié)輔助信息,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。4)根據(jù)標識確定裝置102所確定的目標文檔章節(jié)的章節(jié)標識信息,并結(jié)合所述目標文檔章節(jié)所對應(yīng)的目標文檔的文檔標識信息與所述目標文檔章節(jié)的章節(jié)輔助信息,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。本領(lǐng)域技術(shù)人員應(yīng)能理解上述匹配查詢獲得候選文檔章節(jié)的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的匹配查詢獲得候選文檔章節(jié)的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。在此,本發(fā)明通過待匹配的目標文檔章節(jié)的章節(jié)標題信息,確定所述目標文檔章節(jié)的章節(jié)標識信息,并據(jù)此進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié),從而提高了用戶的文檔訪問效率,并提升了用戶的使用體驗。優(yōu)選地,章節(jié)匹配設(shè)備1的各個裝置之間是持續(xù)不斷地工作的。具體地,章節(jié)獲取裝置101持續(xù)獲取待匹配的目標文檔章節(jié);標識確定裝置102持續(xù)根據(jù)所述目標文檔章節(jié)的章節(jié)標題信息,確定所述目標文檔章節(jié)的章節(jié)標識信息;章節(jié)匹配裝置103持續(xù)根據(jù)所述章節(jié)標識信息進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié)。在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指上述各個裝置分別不斷地進行目標文檔章節(jié)的獲取、章節(jié)標識信息的確定及候選文檔章節(jié)的匹配,直至該章節(jié)匹配設(shè)備1在較長時間內(nèi)停止獲取待匹配的目標文檔章節(jié)。優(yōu)選地,所述標識確定裝置102對所述章節(jié)標題信息進行預(yù)處理操作,以獲得所述章節(jié)標識信息,其中,所述章節(jié)標識信息包括預(yù)處理操作后的所述章節(jié)標題信息;其中, 所述預(yù)處理操作包括以下至少任一項-從所述章節(jié)標題信息中去除標題序號信息;-從所述章節(jié)標題信息中去除標題后綴信息;-從所述章節(jié)標題信息中去除符號字符以及所述符號字符所涵括的文字信息。具體地,標識確定裝置102根據(jù)章節(jié)獲取裝置101所獲取的待匹配的目標文檔章節(jié),從該目標文檔章節(jié)中提取出章節(jié)標題信息,通過語義分析、切詞或字符串匹配等技術(shù), 從該章節(jié)標題信息中識別并刪除標題序號信息、標題后綴信息、符號字符以及所述符號字符所涵括的文字信息等部分,對該章節(jié)標題信息進行預(yù)處理操作,以獲得預(yù)處理操作后的章節(jié)標題信息,并將該預(yù)處理操作后的章節(jié)標題信息作為章節(jié)標識信息。在此,標識確定裝置102通過識別章節(jié)標題信息中所包括的數(shù)字序號、或“第”、“章”、“篇”、“回”、“卷”、“節(jié)”、 “集”等關(guān)鍵詞,識別出所述章節(jié)標題信息中的標題序號信息;通過識別章節(jié)標題信息中所包括的“上”、“中”、“下”、“續(xù),,等關(guān)鍵詞,識別出所述章節(jié)標題信息中的標題后綴信息;通過識別章節(jié)標題信息中所述包括的“ 0 ”、“”、“ H ”、“ [],,等符號字符及上述符號字符中所涵括的諸如“圖”、“新”、“更新”等文字信息,識別出所述章節(jié)標題信息中的符號字符以及所述符號字符所涵括的文字信息。例如,章節(jié)獲取裝置101獲取到待匹配的目標文檔章節(jié)為“明朝那些事兒——**在線書庫”的第七章的上半章節(jié);標識確定裝置102通過語義分析、切詞或字符串匹配等技術(shù),從將該章節(jié)標題信息中識別并刪除標題序號信息“第七章”, 對該目標文檔章節(jié)的章節(jié)標題信息“第七章可怕的對手(上)”進行了預(yù)處理操作,得到了預(yù)處理后的章節(jié)標題信息“可怕的對手(上)”,并將之作為該目標文檔章節(jié)的章節(jié)標識信息;章節(jié)匹配裝置103根據(jù)該章節(jié)標識信息“可怕的對手(上)”,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,獲得與該目標文檔章節(jié)相對應(yīng)的多個候選文檔章節(jié)“明朝那些事兒連載讀書#網(wǎng)”的第七章的上半章節(jié)、“明朝那些事兒歷史文化讀書頻道**網(wǎng)”的第七章的上半章節(jié)等。優(yōu)選地,標識確定裝置102對所述章節(jié)標題信息進行上述全部三種預(yù)處理操作,并將去除標題序號信息、標題后綴信息、符號字符以及所述符號字符所涵括的文字信息等部分后所獲得的章節(jié)標題信息作為該章節(jié)標題信息的標題主干信息,并將該標題主干信息作為章節(jié)標識信息,以供后續(xù)裝置進行相應(yīng)的操作。接上例, 標識確定裝置102通過語義分析、切詞或字符串匹配等技術(shù),從該章節(jié)標題信息中識別并刪除標題序號信息“第七章”及標題后綴信息“(上)”,對該目標文檔章節(jié)的章節(jié)標題信息 “第七章可怕的對手(上)”進行了預(yù)處理操作,得到了預(yù)處理后的章節(jié)標題信息,如標題主干信息“對怕的對手”,并將之作為該目標文檔章節(jié)的章節(jié)標識信息;章節(jié)匹配裝置103根據(jù)該章節(jié)標識信息“可怕的對手”,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,獲得與該目標文檔章節(jié)相對應(yīng)的多個候選文檔章節(jié)“明朝那些事兒連載讀書**網(wǎng)”的第七章的上、下兩部分章節(jié)、“明朝那些事兒歷史文化讀書頻道**網(wǎng)”的第七章的上、下兩部分等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述對章節(jié)標題信息的預(yù)處理操作僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的對章節(jié)標題信息的預(yù)處理操作如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。在此,本發(fā)明首先對目標文檔章節(jié)的章節(jié)標題信息進行預(yù)處理,以獲得章節(jié)標識信息,并據(jù)此進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié),提高了匹配查詢的準確率,進一步地,提高了用戶的文檔訪問效率,并提升了用戶的使用體驗。優(yōu)選地,所述章節(jié)匹配裝置103根據(jù)所述章節(jié)標識信息,在章節(jié)信息庫中進行匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。具體地,章節(jié)匹配裝置103根據(jù)標識確定裝置102所確定的目標文檔章節(jié)的章節(jié)標識信息,通過數(shù)據(jù)庫匹配查詢的方式,在章節(jié)信息庫中進行匹配查詢,以獲得與該章節(jié)標識信息相對應(yīng)的一個或多個文檔章節(jié)記錄,作為與該目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié),其中,所述一個或多個文檔章節(jié)記錄的章節(jié)標題信息或章節(jié)標識信息與該目標文檔章節(jié)的章節(jié)標識信息全部或部分一致。在此,章節(jié)信息庫中存儲有大量文檔章節(jié)及其與文檔、章節(jié)標識信息等的映射關(guān)系,該章節(jié)信息庫既可以位于章節(jié)匹配設(shè)備1中,也可以位于與該章節(jié)匹配設(shè)備1相連接的第三方設(shè)備中。優(yōu)選地,所述章節(jié)匹配裝置103根據(jù)所述章節(jié)標識信息,在搜索索引庫中進行在線匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。具體地,章節(jié)匹配裝置103根據(jù)標識確定裝置102所確定的目標文檔章節(jié)的章節(jié)標識信息,在搜索索引庫中進行在線匹配查詢, 以獲得與該章節(jié)標識信息相對應(yīng)的一個或多個文檔章節(jié)頁面,以作為與該目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié),其中,所述一個或多個文檔章節(jié)頁面所對應(yīng)的索引關(guān)鍵詞,如章節(jié)標題信息或章節(jié)標識信息,與該目標文檔章節(jié)的章節(jié)標識信息全部或部分一致。 在此,搜索索引庫存儲經(jīng)索引處理的網(wǎng)絡(luò)頁面,搜索引擎通過持續(xù)爬取網(wǎng)絡(luò)中的頁面并進行索引處理,以不斷更新該搜索索引庫,該搜索索引庫中包括文檔章節(jié)所對應(yīng)的頁面,以及與該頁面對應(yīng)的索引關(guān)鍵詞。更優(yōu)選地,章節(jié)匹配設(shè)備1還包括更新裝置(未示出),該更新裝置根據(jù)在線匹配查詢所獲得的所述一個或多個候選文檔章節(jié),建立或更新所述章節(jié)信息庫。具體地,章節(jié)匹配裝置103根據(jù)目標文檔章節(jié)的章節(jié)標識信息,在搜索索引庫中進行在線匹配查詢,獲得一個或多個候選文檔章節(jié);隨后,更新裝置將該章節(jié)匹配裝置103在線匹配查詢所獲得的一個或多個候選文檔章節(jié)存入所述章節(jié)信息庫,以建立或更新所述章節(jié)信息庫。例如,章節(jié)匹配設(shè)備1首先嘗試在章節(jié)信息庫中進行匹配查詢以獲取所述一個或多個候選文檔章節(jié), 當在章節(jié)信息庫中未獲得候選文檔章節(jié)時,則通過在搜索索引庫中進行在線匹配查詢,以獲得所述一個或多個候選文檔章節(jié),并根據(jù)在線匹配查詢所獲得的所述一個或多個候選文檔章節(jié),建立或更新該章節(jié)信息庫。優(yōu)選地,更新裝置將所述一個或多個候選文檔章節(jié)及所述目標文檔章節(jié)的章節(jié)標識信息建立映射關(guān)系,或者,根據(jù)所述一個或多個候選文檔章節(jié)的章節(jié)標題信息確定所述候選文檔章節(jié)的章節(jié)標識信息,并一起存入所述章節(jié)信息庫, 以建立或更新所述章節(jié)信息庫。本領(lǐng)域技術(shù)人員應(yīng)能理解上述建立或更新章節(jié)信息庫的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的建立或更新章節(jié)信息庫的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。在一個優(yōu)選實施例中,章節(jié)匹配設(shè)備1還包括提取裝置(未示出)。以下參照圖 1對該優(yōu)選實施例進行描述,章節(jié)獲取裝置101獲取待匹配的目標文檔章節(jié);標識確定裝置 102根據(jù)所述目標文檔章節(jié)的章節(jié)標題信息,確定所述目標文檔章節(jié)的章節(jié)標識信息;提取裝置對所述目標文檔章節(jié)的章節(jié)標題信息進行輔助標識提取處理,以獲得所述目標文檔章節(jié)的章節(jié)輔助信息,其中,所述章節(jié)輔助信息包括但不限于所述章節(jié)標題信息所對應(yīng)的標題序號信息、標題后綴信息;章節(jié)匹配裝置103根據(jù)所述章節(jié)標識信息與所述章節(jié)輔助信息進行匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。其中,章節(jié)獲取裝置101和標識確定裝置102的具體過程與前述參照圖1所描述的實施例中章節(jié)獲取裝置101和標識確定裝置102所執(zhí)行的操作過程相同,為簡明起見,以引用方式包含于此,而不做贅述。具體地,提取裝置根據(jù)章節(jié)獲取裝置101所獲取待匹配的目標文檔章節(jié),通過對該目標文檔章節(jié)的章節(jié)標題信息進行語義分析或字符串匹配等,在所述章節(jié)標題信息中識別并提取出標題序號信息、標題后綴信息等,以實現(xiàn)對該章節(jié)標題信息進行輔助標識提取處理,并將提取出的標題序號信息、標題后綴信息等作為該目標文檔章節(jié)的章節(jié)輔助信息。在此,提取裝置通過識別章節(jié)標題信息中所包括的數(shù)字序號、或“第”、“章”、“篇”、“回”、 “卷”、“節(jié)”、“集”等關(guān)鍵詞,識別出所述章節(jié)標題信息中的標題序號信息;通過識別章節(jié)標題信息中所包括的“上”、“中”、“下”、“續(xù)”等關(guān)鍵詞,識別出所述章節(jié)標題信息中的標題后綴信息。隨后,章節(jié)匹配裝置103根據(jù)所述章節(jié)標識信息與所述章節(jié)輔助信息進行匹配查詢, 以獲得所述一個或多個候選文檔章節(jié)。在此,章節(jié)匹配裝置103匹配查詢獲得候選文檔章節(jié)的過程與圖1前述實施例中章節(jié)匹配裝置103的操作過程基本相同,為簡明起見,此處不再贅述,并通過引用的方式包含于此。例如,章節(jié)獲取裝置101獲取到待匹配的目標文檔章節(jié)為“明朝那些事兒——**在線書庫”的第九章,該目標文檔章節(jié)的章節(jié)標題信息為“第九章戰(zhàn)爭不可避免(圖)”,在此,符號字符以及所述符號字符所涵括的文字信息“(圖)”表示該章節(jié)為圖片章;隨后,標識確定裝置102對該章節(jié)標題信息進行了去除標題序號信息“第九章”、去除符號字符以及所述符號字符所涵括的文字信息“(圖)”的預(yù)處理操作,得到了預(yù)處理后的章節(jié)標題信息,如標題主干信息“戰(zhàn)爭不可避免”,并將之作為該目標文檔章節(jié)的章節(jié)標識信息;而提取裝置通過語義分析或字符串匹配技術(shù),從該章節(jié)標題信息中識別并提取出標題序號信息“第九章”,以作為該目標文檔章節(jié)的章節(jié)輔助信息;接著,章節(jié)匹配裝置103根據(jù)該章節(jié)標識信息“戰(zhàn)爭不可避免”及章節(jié)輔助信息“第九章”,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,獲得與該目標文檔章節(jié)相對應(yīng)的多個候選文檔章節(jié)“明朝那些事兒連載讀書**網(wǎng)”的第九章、“明朝那些事兒歷史文化讀書頻道**網(wǎng)”的第九章等。在此,本領(lǐng)域技術(shù)人員應(yīng)能理解,提取裝置和標識確定裝置所執(zhí)行的操作并無時間上的先后順序關(guān)系。本領(lǐng)域技術(shù)人員應(yīng)能理解,上述提取裝置和標識確定裝置僅為示例,在實踐中,它們可以是兩個獨立的模塊,也可集成在一個模塊中。本領(lǐng)域技術(shù)人員應(yīng)能理解上述對章節(jié)標題信息進行輔助標識提取處理的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的對章節(jié)標題信息進行輔助標識提取處理的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述章節(jié)輔助信息僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的章節(jié)輔助信息如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。在此,本發(fā)明通過提取目標文檔章節(jié)的章節(jié)輔助信息,根據(jù)該章節(jié)輔助信息與章節(jié)標識信息進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié),提高了匹配查詢的準確率,進一步地,提高了用戶的文檔訪問效率,并提升了用戶的使用體驗。圖2示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的設(shè)備示意圖;章節(jié)匹配設(shè)備1還包括提供裝置204,其中,標識確定裝置202和章節(jié)匹配裝置203分別與圖1所示對應(yīng)裝置相同或相似,故此處不再贅述,并通過引用的方式包含于此。其中,所述章節(jié)獲取裝置201獲取與用戶的頁面訪問請求相對應(yīng)的所述目標文檔章節(jié)。具體地,用戶通過與用戶設(shè)備的交互,在瀏覽器中輸入網(wǎng)址或點擊鏈接,以提交頁面訪問請求,章節(jié)獲取裝置201通過諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),或通過調(diào)用該用戶設(shè)備的應(yīng)用程序接口(API),獲取該頁面訪問請求,進而,通過向頁面服務(wù)器等第三方設(shè)備發(fā)送該頁面訪問請求,并接收自所述頁面服務(wù)器等第三方設(shè)備基于該頁面訪問請求匹配所獲得的文檔章節(jié)頁面,將該文檔章節(jié)頁面作為所述目標文檔章節(jié);或者,章節(jié)獲取裝置201 接收自其他裝置或第三方設(shè)備所獲取的用戶所提交的頁面訪問請求,將該頁面訪問請求轉(zhuǎn)發(fā)至頁面服務(wù)器等第三方設(shè)備,并接收自所述頁面服務(wù)器等第三方設(shè)備基于該頁面訪問請求匹配所獲得的文檔章節(jié)頁面,作為所述目標文檔章節(jié);又或者,章節(jié)獲取裝置201直接獲取頁面服務(wù)器等第三方設(shè)備基于用戶的頁面訪問請求匹配所獲得的與該頁面訪問請求相對應(yīng)的文檔章節(jié)頁面,作為所述目標文檔章節(jié)。提供裝置204將所述一個或多個候選文檔章節(jié)提供給所述用戶。具體地,提供裝置204通過諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將章節(jié)匹配裝置203匹配所獲得的一個或多個候選文檔章節(jié)隨機或按一定順序或規(guī)則提供給所述用戶。在此,該提供裝置204既可以將所述一個或多個候選文檔章節(jié)的章節(jié)內(nèi)容提供給所述用戶,也可以將所述一個或多個候選文檔章節(jié)所對應(yīng)摘要信息或URL提供給所述用戶。本領(lǐng)域技術(shù)人員應(yīng)能理解上述將候選文檔章節(jié)提供給用戶的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的將候選文檔章節(jié)提供給用戶的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。在此,本發(fā)明與應(yīng)用相結(jié)合,獲取用戶所請求的目標文檔章節(jié),通過該目標文檔章節(jié)的章節(jié)標題信息確定章節(jié)標識信息,并據(jù)此進行匹配查詢,以獲得與該目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié),并將這一個或多個候選文檔章節(jié)提供給用戶,提高了用戶的文檔訪問效率,并提升了用戶的使用體驗。優(yōu)選地,章節(jié)匹配設(shè)備1還包括匹配度獲取裝置(未示出),該匹配度獲取裝置獲取所述候選文檔章節(jié)相對所述目標文檔章節(jié)的匹配度;其中,所述提供裝置204根據(jù)所述匹配度,將所述一個或多個候選文檔章節(jié)提供給所述用戶。具體地,匹配度獲取裝置獲取所述匹配度的方式包括但不限于1)根據(jù)所述章節(jié)匹配裝置203匹配所獲得的所述一個或多個候選文檔章節(jié),直接從章節(jié)信息庫等第三方設(shè)備中獲取所述一個或多個候選文檔章節(jié)相對所述目標文檔章節(jié)的匹配度;2)根據(jù)所述章節(jié)匹配裝置203匹配所獲得的所述一個或多個候選文檔章節(jié),從所述一個或多個候選文檔章節(jié)中提取章節(jié)標題信息,通過例如語義分析等方式,對所述章節(jié)標題信息與所述目標文檔章節(jié)的章節(jié)標題信息進行比較,獲取所述候選文檔章節(jié)相對所述目標文檔章節(jié)的匹配度。例如,匹配度獲取裝置根據(jù)所述候選文檔章節(jié)與所述目標文檔章節(jié)的章節(jié)標題信息中相同的字數(shù)所占的比例確定所述匹配度,如章節(jié)標題信息全部相同則匹配度為100%、章節(jié)標題信息中相同的字數(shù)占所述目標文檔章節(jié)的章節(jié)標題信息的全部字數(shù)的比例為80%,則所述匹配度為80%;或者,匹配度獲取裝置根據(jù)所述候選文檔章節(jié)與所述目標文檔章節(jié)的章節(jié)標題信息中標題序號信息、標題主干信息及標題后綴信息確定所述匹配度,如標題序號信息、標題主干信息及標題后綴信息全部相同則匹配度為100%,只有標題主干信息相同則匹配度為80%。隨后,提供裝置204根據(jù)所述一個或多個候選文檔章節(jié)與所述目標文檔章節(jié)的匹配度,通過諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將所述一個或多個候選文檔章節(jié)按照所述匹配度提供給所述用戶,如將匹配度較高的候選文檔章節(jié)優(yōu)先提供給所述用戶,將匹配度大于預(yù)定匹配度閾值的候選文檔章節(jié)的章節(jié)內(nèi)容直接提供給所述用戶等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定候選文檔章節(jié)相對目標文檔章節(jié)的匹配度的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定候選文檔章節(jié)相對目標文檔章節(jié)的匹配度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。更優(yōu)選地,當所述一個或多個候選文檔章節(jié)中至少一個的匹配度大于預(yù)定匹配度閾值,所述提供裝置204將所述一個或多個候選文檔章節(jié)中至少一個所對應(yīng)的章節(jié)內(nèi)容提供給所述用戶;否則,所述提供裝置204將所述一個或多個候選文檔章節(jié)所對應(yīng)的摘要信息提供給所述用戶。例如,假設(shè)預(yù)定匹配度閾值為80 %,匹配度獲取裝置獲取到候選文檔章節(jié)“明朝那些事兒連載讀書**網(wǎng)”的第九章與目標文檔章節(jié)的匹配度為90%,大于所述匹配度閾值,候選文檔章節(jié)“明朝那些事兒歷史文化讀書頻道**網(wǎng)”的第九章與目標文檔章節(jié)的匹配度為70%,小于所述匹配度閾值,提供裝置204通過諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),僅將候選文檔章節(jié)“明朝那些事兒連載讀書**網(wǎng)”的第九章的章節(jié)內(nèi)容提供給所述用戶。又如,假設(shè)預(yù)定匹配度閾值為80%,匹配度獲取裝置獲取到候選文檔章節(jié)“明朝那些事兒連載讀書**網(wǎng)”的第九章與目標文檔章節(jié)的匹配度為60%,小于所述匹配度閾值, 候選文檔章節(jié)“明朝那些事兒歷史文化讀書頻道**網(wǎng)”的第九章與目標文檔章節(jié)的匹配度為70%,小于所述匹配度閾值,提供裝置204通過諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將候選文檔章節(jié)“明朝那些事兒連載讀書**網(wǎng)”的第九章、候選文檔章節(jié)“明朝那些事兒歷史文化讀書頻道**網(wǎng),,的第九章所對應(yīng)的摘要信息提供給所述用戶。在此,所述候選文檔章節(jié)所對應(yīng)的摘要信息可以是提供裝置204從搜索引擎等第三方設(shè)備中所獲取的,也可以是提供裝置204根據(jù)該候選文檔章節(jié)的章節(jié)內(nèi)容實時生成的。在此,所述預(yù)定匹配度閾值可以預(yù)設(shè)的候選文檔章節(jié)與目標文檔章節(jié)的匹配度閾值,其可以根據(jù)候選文檔章節(jié)的提供情況或用戶的設(shè)置進行調(diào)整。
在此,本發(fā)明根據(jù)所獲得的候選文檔章節(jié)相對目標文檔章節(jié)的匹配度,將候選文檔章節(jié)提供給用戶,使用戶獲得更直觀的瀏覽體驗,從而進一步地提高用戶的文檔訪問效率,并提升了用戶的使用體驗。優(yōu)選地,所述章節(jié)獲取裝置201根據(jù)預(yù)設(shè)觸發(fā)規(guī)則,獲取與用戶的頁面訪問請求相對應(yīng)的待訪問章節(jié),以作為所述目標文檔章節(jié);其中,所述預(yù)設(shè)觸發(fā)規(guī)則基于以下至少任一項獲取所述待訪問章節(jié),以作為所述目標文檔章節(jié)-所述待訪問章節(jié)為空章;-所述待訪問章節(jié)為圖片章;-所述待訪問章節(jié)所對應(yīng)的鏈接為死鏈。具體地,用戶通過與用戶設(shè)備的交互,在瀏覽器中輸入網(wǎng)址或點擊鏈接,以提交頁面訪問請求,章節(jié)獲取裝置201通過諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),或通過調(diào)用該用戶設(shè)備的應(yīng)用程序接口(API),獲取該頁面訪問請求,進而,通過向頁面服務(wù)器等第三方設(shè)備發(fā)送該頁面訪問請求,并接收自所述頁面服務(wù)器等第三方設(shè)備基于該頁面訪問請求匹配所獲得的文檔章節(jié)頁面,將該文檔章節(jié)頁面作為所述待訪問章節(jié);或者,章節(jié)獲取裝置201 接收自其他裝置或第三方設(shè)備所獲取的用戶所提交的頁面訪問請求,將該頁面訪問請求轉(zhuǎn)發(fā)至頁面服務(wù)器等第三方設(shè)備,并接收自所述頁面服務(wù)器等第三方設(shè)備基于該頁面訪問請求匹配所獲得的文檔章節(jié)頁面,作為所述待訪問章節(jié);又或者,章節(jié)獲取裝置201直接獲取頁面服務(wù)器等第三方設(shè)備基于用戶的頁面訪問請求匹配所獲得的與該頁面訪問請求相對應(yīng)的文檔章節(jié)頁面,作為所述待訪問章節(jié);當所述待訪問章節(jié)為空章、圖片章或該待訪問章節(jié)所對應(yīng)的鏈接為死鏈時,章節(jié)獲取裝置201將該待訪問章節(jié)作為目標文檔章節(jié)。在此,空章例如章節(jié)內(nèi)容為空、或章節(jié)有效文字信息小于預(yù)定閾值的章節(jié);圖片章例如章節(jié)內(nèi)容或章節(jié)主題內(nèi)容為圖片的章節(jié);死鏈例如點擊該死鏈后跳轉(zhuǎn)到目錄頁或其他不相關(guān)網(wǎng)頁的鏈接。本領(lǐng)域技術(shù)人員應(yīng)能理解上述預(yù)設(shè)觸發(fā)規(guī)則僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的預(yù)設(shè)觸發(fā)規(guī)則如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
圖3示出根據(jù)本發(fā)明另一個方面的用于獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的方法流程圖。章節(jié)匹配設(shè)備1包括但不限于網(wǎng)絡(luò)主機、單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集或多個服務(wù)器構(gòu)成的云。在此,云由基于云計算(Cloud Computing)的大量計算機或網(wǎng)絡(luò)服務(wù) 器構(gòu)成,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。本領(lǐng)域技術(shù)人員應(yīng)能理解上述章節(jié)匹配設(shè)備僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的章節(jié)匹配設(shè)備如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。在步驟S301中,章節(jié)匹配設(shè)備1獲取待匹配的目標文檔章節(jié)。具體地,在步驟S301 中,章節(jié)匹配設(shè)備1例如通過在章節(jié)信息庫中隨機地或順序地獲取文檔章節(jié),以作為待匹配的目標文檔章節(jié);或者,通過與搜索引擎等第三方設(shè)備的交互,獲取所述搜索引擎等第三方設(shè)備所提供的文檔章節(jié),以作為待匹配的目標文檔章節(jié);或者,通過頁面分析器等,檢測文檔的各個文檔章節(jié),從中檢測出有問題的章節(jié),例如空章、圖片章、所對應(yīng)的鏈接為死鏈的章節(jié)等,以作為待匹配的目標文檔章節(jié)。在此,空章例如章節(jié)內(nèi)容為空、或章節(jié)有效文字信息小于預(yù)定閾值的章節(jié);圖片章例如章節(jié)內(nèi)容或章節(jié)主題內(nèi)容為圖片的章節(jié);死鏈例如點擊該死鏈后跳轉(zhuǎn)到目錄頁或其他不相關(guān)網(wǎng)頁的鏈接。在此,章節(jié)信息庫中存儲有大量文檔章節(jié)及其與文檔、章節(jié)標識信息等的映射關(guān)系,該章節(jié)信息庫既可以位于章節(jié)匹配設(shè)備1 中,也可以位于與該章節(jié)匹配設(shè)備1相連接的第三方設(shè)備中。本領(lǐng)域技術(shù)人員應(yīng)能理解上述獲取待匹配的目標文檔章節(jié)的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的獲取待匹配的目標文檔章節(jié)的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以弓丨用方式包含于此。在步驟S302中,章節(jié)匹配設(shè)備1根據(jù)所述目標文檔章節(jié)的章節(jié)標題信息,確定所述目標文檔章節(jié)的章節(jié)標識信息。具體地,在步驟S302中,章節(jié)匹配設(shè)備1確定目標文檔章節(jié)的章節(jié)標識信息的方式包括但不限于1)根據(jù)在步驟S301中所獲取的待匹配的目標文檔章節(jié),從該目標文檔章節(jié)中提取出章節(jié)標題信息,將所述章節(jié)標題信息作為該目標文檔章節(jié)的章節(jié)標識信息。2)根據(jù)在步驟S301中所獲取的待匹配的目標文檔章節(jié),從該目標文檔章節(jié)中提取出章節(jié)標題信息,通過對該章節(jié)標題信息進行去除標題序號信息、去除標題后綴信息、去除符號字符以及所述符號字符所涵括的文字信息等預(yù)處理操作,獲得預(yù)處理操作后的章節(jié)標題信息,并將該預(yù)處理后的章節(jié)標題信息作為該目標文檔章節(jié)的章節(jié)標識信息。本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定章節(jié)標識信息的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定章節(jié)標識信息的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。在步驟S303中,章節(jié)匹配設(shè)備1根據(jù)所述章節(jié)標識信息進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié)。具體地,在步驟S303中,章節(jié)匹配設(shè)備1通過匹配查詢,獲得所述一個或多個候選文檔章節(jié)的方式包括但不限于1)根據(jù)在步驟S302中所確定的目標文檔章節(jié)的章節(jié)標識信息,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。例如,在步驟S301中,章節(jié)匹配設(shè)備1獲取到待匹配的目標文檔章節(jié)為“明朝那些事兒——**在線書庫”的第六章;在步驟S302中,章節(jié)匹配設(shè)備1將該目標文檔章節(jié)的章節(jié)標題信息“第六章霸業(yè)的開始”作為該目標文檔章節(jié)的章節(jié)標識信息;在步驟S303中,章節(jié)匹配設(shè)備1根據(jù)該章節(jié)標識信息“第六章霸業(yè)的開始”,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,獲得與該目標文檔章節(jié)相對應(yīng)的多個候選文檔章節(jié)“明朝那些事兒連載讀書**網(wǎng)”的第六章、“明朝那些事兒歷史文化讀書頻道**網(wǎng)”的第
六章等。
2)根據(jù)在步驟S302中所確定的目標文檔章節(jié)的章節(jié)標識信息,結(jié)合該目標文檔章節(jié)所對應(yīng)的目標文檔的文檔標識信息,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。該文檔標識信息諸如文檔名稱、作者名稱或文檔內(nèi)容標記等可用于標識文檔的信息。例如,假設(shè)在步驟S301中,章節(jié)匹配設(shè)備1所獲取到的待匹配的目標文檔章節(jié)的章節(jié)標題信息只包括了標題序號信息,如獲取到待匹配的目標文檔章節(jié)為“明朝那些事兒——**在線書庫”的第六章,該目標文檔章節(jié)的章節(jié)標題為“第六章”;在步驟S302中,章節(jié)匹配設(shè)備1將該章節(jié)標題信息“第六章” 作為該目標文檔章節(jié)的章節(jié)標識信息;在步驟S303中,章節(jié)匹配設(shè)備1根據(jù)該目標文檔章節(jié)所對應(yīng)的目標文檔“明朝那些事兒——**在線書庫”的文檔標識信息,如文檔名稱“明朝那些事兒”、作者名稱“當年明月”等,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,獲得與該目標文檔相對應(yīng)的一個或多個候選文檔,如“明朝那些事兒連載讀書**網(wǎng)”、“明朝那些事兒歷史文化讀書頻道**網(wǎng)”等,接著,章節(jié)匹配設(shè)備1再根據(jù)該章節(jié)標識信息“第六章”這一個或多個候選文檔中進行匹配查詢,以獲得與該目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié),如“明朝那些事兒連載讀書**網(wǎng)”的第六章、“明朝那些事兒歷史文化讀書頻道**網(wǎng)”的第六章等。3)根據(jù)在步驟S302中所確定的目標文檔章節(jié)的章節(jié)標識信息,并結(jié)合所述目標文檔章節(jié)的標題序號信息、標題后綴信息等章節(jié)輔助信息,在章節(jié)信息庫中進行匹配查詢, 或者,在搜索索引庫中進行在線匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。4)根據(jù)在步驟S302中所確定的目標文檔章節(jié)的章節(jié)標識信息,并結(jié)合所述目標文檔章節(jié)所對應(yīng)的目標文檔的文檔標識信息與所述目標文檔章節(jié)的章節(jié)輔助信息,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。本領(lǐng)域技術(shù)人員應(yīng)能理解上述匹配查詢獲得候選文檔章節(jié)的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的匹配查詢獲得候選文檔章節(jié)的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。在此,本發(fā)明通過待匹配的目標文檔章節(jié)的章節(jié)標題信息,確定所述目標文檔章節(jié)的章節(jié)標識信息,并據(jù)此進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié),從而提高了用戶的文檔訪問效率,并提升了用戶的使用體驗。優(yōu)選地,章節(jié)匹配設(shè)備1的各個步驟之間是持續(xù)不斷地工作的。具體地,在步驟 S301中,章節(jié)匹配設(shè)備1持續(xù)獲取待匹配的目標文檔章節(jié);在步驟S302中,章節(jié)匹配設(shè)備1 持續(xù)根據(jù)所述目標文檔章節(jié)的章節(jié)標題信息,確定所述目標文檔章節(jié)的章節(jié)標識信息;在步驟S303中,章節(jié)匹配設(shè)備1持續(xù)根據(jù)所述章節(jié)標識信息進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié)。在此,本領(lǐng)域技術(shù)人員應(yīng)理解“持續(xù)”是指上述各個步驟分別不斷地進行目標文檔章節(jié)的獲取、章節(jié)標識信息的確定及候選文檔章節(jié)的匹配,直至該章節(jié)匹配設(shè)備1在較長時間內(nèi)停止獲取待匹配的目標文檔章節(jié)。 優(yōu)選地,在步驟S302中,章節(jié)匹配設(shè)備1對所述章節(jié)標題信息進行預(yù)處理操作,以獲得所述章節(jié)標識信息,其中,所述章節(jié)標識信息包括預(yù)處理操作后的所述章節(jié)標題信息; 其中,所述預(yù)處理操作包括以下至少任一項-從所述章節(jié)標題信息中去除標題序號信息;-從所述章節(jié)標題信息中去除標題后綴信息;_從所述章節(jié)標題信息中去除符號字符以及所述符號字符所涵括的文字信息。具體地,在步驟S302中,章節(jié)匹配設(shè)備1根據(jù)在步驟S301中所獲取的待匹配的目標文檔章節(jié),從該目標文檔章節(jié)中提取出章節(jié)標題信息,通過語義分析、切詞或字符串匹配等技術(shù),從該章節(jié)標題信息中識別并刪除標題序號信息、標題后綴信息、符號字符以及所述符號字符所涵括的文字信息等部分,對該章節(jié)標題信息進行預(yù)處理操作,以獲得預(yù)處理操作后的章節(jié)標題信息,并將該預(yù)處理操作后的章節(jié)標題信息作為章節(jié)標識信息。在此,在步驟S302中,章節(jié)匹配設(shè)備1通過識別章節(jié)標題信息中所包括的數(shù)字序號、或“第”、“章”、 “篇”、“回”、“卷”、“節(jié)”、“集”等關(guān)鍵詞,識別出所述章節(jié)標題信息中的標題序號信息;通過識別章節(jié)標題信息中所包括的“上”、“中”、“下”、“續(xù),,等關(guān)鍵詞,識別出所述章節(jié)標題信息中的標題后綴信息;通過識別章節(jié)標題信息中所述包括的“ 0 ”、“”、“ H ”、“ [] ”等符號字符及上述符號字符中所涵括的諸如“圖”、“新”、“更新”等文字信息,識別出所述章節(jié)標題信息中的符號字符以及所述符號字符所涵括的文字信息。例如,在步驟S301中,章節(jié)匹配設(shè)備 1獲取到待匹配的目標文檔章節(jié)為“明朝那些事兒一**在線書庫”的第七章的上半章節(jié); 在步驟S302中,章節(jié)匹配設(shè)備1通過語義分析、切詞或字符串匹配等技術(shù),從該章節(jié)標題信息中識別并刪除標題序號信息“第七章”,對該目標文檔章節(jié)的章節(jié)標題信息“第七章可怕的對手(上)”進行了預(yù)處理操作,得到了預(yù)處理后的章節(jié)標題信息“可怕的對手(上)”, 并將之作為該目標文檔章節(jié)的章節(jié)標識信息;在步驟S303中,章節(jié)匹配設(shè)備1根據(jù)該章節(jié)標識信息“可怕的對手(上)”,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,獲得與該目標文檔章節(jié)相對應(yīng)的多個候選文檔章節(jié)“明朝那些事兒連載讀書**網(wǎng)”的第七章的上半章節(jié)、“明朝那些事兒歷史文化讀書頻道**網(wǎng)”的第七章的上半章節(jié)等。優(yōu)選地,在步驟S302中,章節(jié)匹配設(shè)備1對所述章節(jié)標題信息進行上述全部三種預(yù)處理操作,并將去除標題序號信息、標題后綴信息、符號字符以及所述符號字符所涵括的文字信息等部分后所獲得的章節(jié)標題信息作為該章節(jié)標題信息的標題主干信息,并將該標題主干信息作為章節(jié)標識信息,以供章節(jié)匹配設(shè)備1后續(xù)進行相應(yīng)的操作。接上例,在步驟 S302中,章節(jié)匹配設(shè)備1通過語義分析、切詞或字符串匹配等技術(shù),從將該章節(jié)標題信息中識別并刪除標題序號信息“第七章”及標題后綴信息“(上)”,對該目標文檔章節(jié)的章節(jié)標題信息“第七章可怕的對手(上)”進行了預(yù)處理操作,得到了預(yù)處理后的章節(jié)標題信息, 如標題主干信息“對怕的對手”,并將之作為該目標文檔章節(jié)的章節(jié)標識信息;在步驟S303 中,章節(jié)匹配設(shè)備1根據(jù)該章節(jié)標識信息“可怕的對手”,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,獲得與該目標文檔章節(jié)相對應(yīng)的多個候選文檔章節(jié)“明朝那些事兒連載讀書**網(wǎng)”的第七章的上、下兩部分章節(jié)、“明朝那些事兒歷史文化讀書頻道**網(wǎng)”的第七章的上、下兩部分等。
本領(lǐng)域技術(shù)人員應(yīng)能理解上述對章節(jié)標題信息的預(yù)處理操作僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的對章節(jié)標題信息的預(yù)處理操作如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。在此,本發(fā)明首先對目標文檔章節(jié)的章節(jié)標題信息進行預(yù)處理,以獲得章節(jié)標識信息,并據(jù)此進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié),提高了匹配查詢的準確率,進一步地,提高了用戶的文檔訪問效率,并提升了用戶的使用體驗。優(yōu)選地,在步驟S303中,章節(jié)匹配設(shè)備1根據(jù)所述章節(jié)標識信息,在章節(jié)信息庫中進行匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。具體地,在步驟S303中,章節(jié)匹配設(shè)備1根據(jù)在步驟S302中所確定的目標文檔章節(jié)的章節(jié)標識信息,通過數(shù)據(jù)庫匹配查詢的方式,在章節(jié)信息庫中進行匹配查詢,以獲得與該章節(jié)標識信息相對應(yīng)的一個或多個文檔章節(jié)記錄,作為與該目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié),其中,所述一個或多個文檔章節(jié)記錄的章節(jié)標題信息或章節(jié)標識信息與該目標文檔章節(jié)的章節(jié)標識信息全部或部分一致。在此,章節(jié)信息庫中存儲有大量文檔章節(jié)及其與文檔、章節(jié)標識信息等的映射關(guān)系,該章節(jié)信息庫既可以位于章節(jié)匹配設(shè)備1中,也可以位于與該章節(jié)匹配設(shè)備1相連接的第三方設(shè)備中。優(yōu)選地,在步驟S303中,章節(jié)匹配設(shè)備1根據(jù)所述章節(jié)標識信息,在搜索索引庫中進行在線匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。具體地,在步驟S303中,章節(jié)匹配設(shè)備1根據(jù)在步驟S302中所確定的目標文檔章節(jié)的章節(jié)標識信息,在搜索索引庫中進行在線匹配查詢,以獲得與該章節(jié)標識信息相對應(yīng)的一個或多個文檔章節(jié)頁面,以作為與該目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié),其中,所述一個或多個文檔章節(jié)頁面所對應(yīng)的索引關(guān)鍵詞,如章節(jié)標題信息或章節(jié)標識信息,與該目標文檔章節(jié)的章節(jié)標識信息全部或部分一致。在此,搜索索引庫存儲經(jīng)索引處理的網(wǎng)絡(luò)頁面,搜索引擎通過持續(xù)爬取網(wǎng)絡(luò)中的頁面并進行索引處理,以不斷更新該搜索索引庫,該搜索索引庫中包括文檔章節(jié)所對應(yīng)的頁面,以及與該頁面對應(yīng)的索引關(guān)鍵詞。 更優(yōu)選地,在步驟S305(未示出)中,章節(jié)匹配設(shè)備1根據(jù)在線匹配查詢所獲得的所述一個或多個候選文檔章節(jié),建立或更新所述章節(jié)信息庫。具體地,在步驟S303中,章節(jié)匹配設(shè)備1根據(jù)目標文檔章節(jié)的章節(jié)標識信息,在搜索索引庫中進行在線匹配查詢,獲得一個或多個候選文檔章節(jié);隨后,在步驟S305中,章節(jié)匹配設(shè)備1將在步驟S303中在線匹配查詢所獲得的一個或多個候選文檔章節(jié)存入所述章節(jié)信息庫,以建立或更新所述章節(jié)信息庫。例如,章節(jié)匹配設(shè)備1首先嘗試在章節(jié)信息庫中進行匹配查詢以獲取所述一個或多個候選文檔章節(jié),當在章節(jié)信息庫中未獲得候選文檔章節(jié)時,則通過在搜索索引庫中進行在線匹配查詢,以獲得所述一個或多個候選文檔章節(jié),并根據(jù)在線匹配查詢所獲得的所述一個或多個候選文檔章節(jié),建立或更新該章節(jié)信息庫。優(yōu)選地,在步驟S305中,章節(jié)匹配設(shè)備1將所述一個或多個候選文檔章節(jié)及所述目標文檔章節(jié)的章節(jié)標識信息建立映射關(guān)系, 或者,根據(jù)所述一個或多個候選文檔章節(jié)的章節(jié)標題信息確定所述候選文檔章節(jié)的章節(jié)標識信息,并一起存入所述章節(jié)信息庫,以建立或更新所述章節(jié)信息庫。本領(lǐng)域技術(shù)人員應(yīng)能理解上述建立或更新章節(jié)信息庫的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的建立或更新章節(jié)信息庫的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。
在一個優(yōu)選實施例中,還包括步驟S306(未示出)。以下參照圖3對該優(yōu)選實施例進行描述,在步驟S301中,章節(jié)匹配設(shè)備1獲取待匹配的目標文檔章節(jié);在步驟S302中,章節(jié)匹配設(shè)備1根據(jù)所述目標文檔章節(jié)的章節(jié)標題信息,確定所述目標文檔章節(jié)的章節(jié)標識信息;在步驟S306中,章節(jié)匹配設(shè)備1對所述目標文檔章節(jié)的章節(jié)標題信息進行輔助標識提取處理,以獲得所述目標文檔章節(jié)的章節(jié)輔助信息,其中,所述章節(jié)輔助信息包括但不限于所述章節(jié)標題信息所對應(yīng)的標題序號信息、標題后綴信息;在步驟S303中,章節(jié)匹配設(shè)備1根據(jù)所述章節(jié)標識信息與所述章節(jié)輔助信息進行匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。其中,章節(jié)匹配設(shè)備1在步驟S301和步驟S302中所執(zhí)行的具體過程與前述參照圖3所描述的實施例中步驟S301和步驟S302所執(zhí)行的操作過程相同,為簡明起見,以引用方式包含于此,而不做贅述。具體地,在步驟S306中,章節(jié)匹配設(shè)備1根據(jù)在步驟S301中所獲取待匹配的目標文檔章節(jié),通過對該目標文檔章節(jié)的章節(jié)標題信息進行語義分析或字符串匹配等,在所述章節(jié)標題信息中識別并提取出標題序號信息、標題后綴信息等,以實現(xiàn)對該章節(jié)標題信息進行輔助標識提取處理,并將提取出的標題序號信息、標題后綴信息等作為該目標文檔章節(jié)的章節(jié)輔助信息。在此,在步驟S306中,章節(jié)匹配設(shè)備1通過識別章節(jié)標題信息中所包括的數(shù)字序號、或“第”、“章”、“篇”、“回”、“卷”、“節(jié)”、“集”等關(guān)鍵詞,識別出所述章節(jié)標題信息中的標題序號信息;通過識別章節(jié)標題信息中所包括的“上”、“中”、“下”、“續(xù)”等關(guān)鍵詞,識別出所述章節(jié)標題信息中的標題后綴信息。隨后,在步驟S303中,章節(jié)匹配設(shè)備1根據(jù)所述章節(jié)標識信息與所述章節(jié)輔助信息進行匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。在此,章節(jié)匹配設(shè)備1在步驟S303中匹配查詢獲得候選文檔章節(jié)的過程與圖3前述實施例中章節(jié)匹配設(shè)備1在步驟S303中的操作過程基本相同,為簡明起見,此處不再贅述, 并通過引用的方式包含于此。例如,在步驟S301中,章節(jié)匹配設(shè)備1獲取到待匹配的目標文檔章節(jié)為“明朝那些事兒——**在線書庫”的第九章,該目標文檔章節(jié)的章節(jié)標題信息為 “第九章戰(zhàn)爭不可避免(圖)”,在此,符號字符以及所述符號字符所涵括的文字信息“(圖)” 表示該章節(jié)為圖片章;隨后,在步驟S302中,章節(jié)匹配設(shè)備1對該章節(jié)標題信息進行了去除標題序號信息“第九章”、去除符號字符以及所述符號字符所涵括的文字信息“(圖)”的預(yù)處理操作,得到了預(yù)處理后的章節(jié)標題信息,如標題主干信息“戰(zhàn)爭不可避免”,并將之作為該目標文檔章節(jié)的章節(jié)標識信息;而在步驟S306中,章節(jié)匹配設(shè)備1通過語義分析或字符串匹配技術(shù),從該章節(jié)標題信息中識別并提取出標題序號信息“第九章”,以作為該目標文檔章節(jié)的章節(jié)輔助信息;接著,在步驟S303中,章節(jié)匹配設(shè)備1根據(jù)該章節(jié)標識信息“戰(zhàn)爭不可避免”及章節(jié)輔助信息“第九章”,在章節(jié)信息庫中進行匹配查詢,或者,在搜索索引庫中進行在線匹配查詢,獲得與該目標文檔章節(jié)相對應(yīng)的多個候選文檔章節(jié)“明朝那些事兒連載讀書**網(wǎng)”的第九章、“明朝那些事兒歷史文化讀書頻道**網(wǎng)”的第九章等。在此,本領(lǐng)域技術(shù)人員應(yīng)能理解,章節(jié)匹配設(shè)備1在步驟S306和步驟S302中所執(zhí)行的操作并無時間上的先后順序關(guān)系。本領(lǐng)域技術(shù)人員應(yīng)能理解上述對章節(jié)標題信息進行輔助標識提取處理的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的對章節(jié)標題信息進行輔助標識提取處理的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。本領(lǐng)域技術(shù)人員還應(yīng)能理解上述章節(jié)輔助信息僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的章節(jié)輔助信息如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。在此,本發(fā)明通過提取目標文檔章節(jié)的章節(jié)輔助信息,根據(jù)該章節(jié)輔助信 息與章節(jié)標識信息進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié),提高了匹配查詢的準確率,進一步地,提高了用戶的文檔訪問效率,并提升了用戶的使用體驗。圖4示出根據(jù)本發(fā)明一個優(yōu)選實施例的用于獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的方法流程圖;其中,步驟S402和步驟S403分別與圖3所示對應(yīng)步驟相同或相似,故此處不再贅述,并通過引用的方式包含于此。其中,在步驟S401中,章節(jié)匹配設(shè)備1獲取與用戶的頁面訪問請求相對應(yīng)的所述目標文檔章節(jié)。具體地,用戶通過與用戶設(shè)備的交互,在瀏覽器中輸入網(wǎng)址或點擊鏈接,以提交頁面訪問請求,在步驟S401中,章節(jié)匹配設(shè)備1通過諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),或通過調(diào)用該用戶設(shè)備的應(yīng)用程序接口(API),獲取該頁面訪問請求,進而,通過向頁面服務(wù)器等第三方設(shè)備發(fā)送該頁面訪問請求,并接收自所述頁面服務(wù)器等第三方設(shè)備基于該頁面訪問請求匹配所獲得的文檔章節(jié)頁面,將該文檔章節(jié)頁面作為所述目標文檔章節(jié); 或者,在步驟S401中,章節(jié)匹配設(shè)備1接收自其他產(chǎn)品或第三方設(shè)備所獲取的用戶所提交的頁面訪問請求,將該頁面訪問請求轉(zhuǎn)發(fā)至頁面服務(wù)器等第三方設(shè)備,并接收自所述頁面服務(wù)器等第三方設(shè)備基于該頁面訪問請求匹配所獲得的文檔章節(jié)頁面,作為所述目標文檔章節(jié);又或者,在步驟S401中,章節(jié)匹配設(shè)備1直接獲取頁面服務(wù)器等第三方設(shè)備基于用戶的頁面訪問請求匹配所獲得的與該頁面訪問請求相對應(yīng)的文檔章節(jié)頁面,作為所述目標文檔章節(jié)。在步驟S404中,章節(jié)匹配設(shè)備1將所述一個或多個候選文檔章節(jié)提供給所述用戶。具體地,在步驟S404中,章節(jié)匹配設(shè)備1通過諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將在步驟S403中匹配所獲得的一個或多個候選文檔章節(jié)隨機或按一定順序或規(guī)則提供給所述用戶。在此,在步驟S404中,章節(jié)匹配設(shè)備1既可以將所述一個或多個候選文檔章節(jié)的章節(jié)內(nèi)容提供給所述用戶,也可以將所述一個或多個候選文檔章節(jié)所對應(yīng)摘要信息或URL 提供給所述用戶。本領(lǐng)域技術(shù)人員應(yīng)能理解上述將候選文檔章節(jié)提供給用戶的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的將候選文檔章節(jié)提供給用戶的方式如可適用于本發(fā)明, 也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。在此,本發(fā)明與應(yīng)用相結(jié)合,獲取用戶所請求的目標文檔章節(jié),通過該目標文檔章節(jié)的章節(jié)標題信息確定章節(jié)標識信息,并據(jù)此進行匹配查詢,以獲得與該目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié),并將這一個或多個候選文檔章節(jié)提供給用戶,提高了用戶的文檔訪問效率,并提升了用戶的使用體驗。優(yōu)選地,在步驟S407 (未示出)中,章節(jié)匹配設(shè)備1獲取所述候選文檔章節(jié)相對所述目標文檔章節(jié)的匹配度;其中,在步驟S404中,章節(jié)匹配設(shè)備1根據(jù)所述匹配度,將所述一個或多個候選文檔章節(jié)提供給所述用戶。具體地,在步驟S407中,章節(jié)匹配設(shè)備1獲取所述匹配度的方式包括但不限于1)根據(jù)在步驟S403中匹配所獲得的所述一個或多個候選文檔章節(jié),直接從章節(jié)信息庫等第三方設(shè)備中獲取所述一個或多個候選文檔章節(jié)相對所述目標文檔章節(jié)的匹配度;2)根據(jù)在步驟S403中匹配所獲得的所述一個或多個候選文檔章節(jié),從所述一個或多個候選文檔章節(jié)中提取章節(jié)標題信息,通過例如語義分析等方式,對所述章節(jié)標題信息與所述目標文檔章節(jié)的章節(jié)標題信息進行比較,獲取所述候選文檔章節(jié)相對所述目標文檔章節(jié)的匹配度。例如,在步驟S407中,章節(jié)匹配設(shè)備1根據(jù)所述候選文檔章節(jié)與所述目標文檔章節(jié)的章節(jié)標題信息中相同的字數(shù)所占的比例確定所述匹配度,如章節(jié)標題信息全部相同則匹配度為100%、章節(jié)標題信息中相同的字數(shù)占所述目標文檔章節(jié)的章節(jié)標題信息的全部字數(shù)的比例為80%,則所述匹配度為80% ;或者,在步驟S407中,章節(jié)匹配設(shè)備1 根據(jù)所述候選文檔章節(jié)與所述目標文檔章節(jié)的章節(jié)標題信息中標題序號信息、標題主干信息及標題后綴信息確定所述匹配度,如標題序號信息、標題主干信息及標題后綴信息全部相同則匹配度為100%,只有標題主干信息相同則匹配度為80%。隨后,在步驟S404中,章節(jié)匹配設(shè)備1根據(jù)所述一個或多個候選文檔章節(jié)與所述目標文檔章節(jié)的匹配度,通過諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將所述一個或多個候選文檔章節(jié)按照所述匹配度提供給所述用戶,如將匹配度較高的候選文檔章節(jié)優(yōu)先提供給所述用戶,將匹配度大于預(yù)定匹配度閾值的候選文檔章節(jié)的章節(jié)內(nèi)容直接提供給所述用戶等。本領(lǐng)域技術(shù)人員應(yīng)能理解上述確定候選文檔章節(jié)相對目標文檔章節(jié)的匹配度的方式僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的確定候選文檔章節(jié)相對目標文檔章節(jié)的匹配度的方式如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。更優(yōu)選地,當所述一個或多個候選文檔章節(jié)中至少一個的匹配度大于預(yù)定匹配度閾值,在步驟S404中,章節(jié)匹配設(shè)備1將所述一個或多個候選文檔章節(jié)中至少一個所對應(yīng)的章節(jié)內(nèi)容提供給所述用戶;否則,在步驟S404中,章節(jié)匹配設(shè)備1將所述一個或多個候選文檔章節(jié)所對應(yīng)的摘要信息提供給所述用戶。例如,假設(shè)預(yù)定匹配度閾值為80%,在步驟 S407中,章節(jié)匹配設(shè)備1獲取到候選文檔章節(jié)“明朝那些事兒連載讀書**網(wǎng)”的第九章與目標文檔章節(jié)的匹配度為90%,大于所述匹配度閾值,候選文檔章節(jié)“明朝那些事兒歷史文化讀書頻道**網(wǎng)”的第九章與目標文檔章節(jié)的匹配度為70%,小于所述匹配度閾值,在步驟S404中,章節(jié)匹配設(shè)備1通過諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),僅將候選文檔章節(jié) “明朝那些事兒連載讀書**網(wǎng)”的第九章的章節(jié)內(nèi)容提供給所述用戶。又如,假設(shè)預(yù)定匹配度閾值為80%,在步驟S407中,章節(jié)匹配設(shè)備1獲取到候選文檔章節(jié)“明朝那些事兒連載讀書**網(wǎng)”的第九章與目標文檔章節(jié)的匹配度為60%,小于所述匹配度閾值,候選文檔章節(jié)“明朝那些事兒歷史文化讀書頻道**網(wǎng)”的第九章與目標文檔章節(jié)的匹配度為70%,小于所述匹配度閾值,在步驟S404中,章節(jié)匹配設(shè)備1通過諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),將候選文檔章節(jié)“明朝那些事兒連載讀書**網(wǎng)”的第九章、候選文檔章節(jié)“明朝那些事兒歷史文化讀書頻道**網(wǎng)”的第九章所對應(yīng)的摘要信息提供給所述用戶。在此,所述候選文檔章節(jié)所對應(yīng)的摘要信息可以是章節(jié)匹配設(shè)備1在步驟S404中從搜索引擎等第三方設(shè)備中所獲取的,也可以是章節(jié)匹配設(shè)備1在步驟S404中根據(jù)該候選文檔章節(jié)的章節(jié)內(nèi)容實時生成的。在此,所述預(yù)定匹配度閾值可以預(yù)設(shè)的候選文檔章節(jié)與目標文檔章節(jié)的匹配度閾值,其可以根據(jù)候選文檔章節(jié)的提供情況或用戶的設(shè)置進行調(diào)整。
在此,本發(fā)明根據(jù)所獲得的候選文檔章節(jié)相對目標文檔章節(jié)的匹配度,將候選文檔章節(jié)提供給用戶,使用戶獲得更直觀的瀏覽體驗,從而進一步地提高用戶的文檔訪問效率,并提升了用戶的使用體驗。優(yōu)選地,在步驟S401中,章節(jié)匹配設(shè)備1根據(jù)預(yù)設(shè)觸發(fā)規(guī)則,獲取與用戶的頁面訪問請求相對應(yīng)的待訪問章節(jié),以作為所述目標文檔章節(jié);其中,所述預(yù)設(shè)觸發(fā)規(guī)則基于以下至少任一項獲取所述待訪問章節(jié),以作為所述目標文檔章節(jié)-所述待訪問章節(jié)為空章; -所述待訪問章節(jié)為圖片章;-所述待訪問章節(jié)所對應(yīng)的鏈接為死鏈。具體地,用戶通過與用戶設(shè)備的交互,在瀏覽器中輸入網(wǎng)址或點擊鏈接,以提交頁面訪問請求,在步驟S401中,章節(jié)匹配設(shè)備1通過諸如JSP、ASP或PHP等動態(tài)網(wǎng)頁技術(shù),或通過調(diào)用該用戶設(shè)備的應(yīng)用程序接口(API),獲取該頁面訪問請求,進而,通過向頁面服務(wù)器等第三方設(shè)備發(fā)送該頁面訪問請求,并接收自所述頁面服務(wù)器等第三方設(shè)備基于該頁面訪問請求匹配所獲得的文檔章節(jié)頁面,將該文檔章節(jié)頁面作為所述待訪問章節(jié);或者,在步驟S401中,章節(jié)匹配設(shè)備1接收自其他產(chǎn)品或第三方設(shè)備所獲取的用戶所提交的頁面訪問請求,將該頁面訪問請求轉(zhuǎn)發(fā)至頁面服務(wù)器等第三方設(shè)備,并接收自所述頁面服務(wù)器等第三方設(shè)備基于該頁面訪問請求匹配所獲得的文檔章節(jié)頁面,作為所述待訪問章節(jié);又或者, 在步驟S401中,章節(jié)匹配設(shè)備1直接獲取頁面服務(wù)器等第三方設(shè)備基于用戶的頁面訪問請求匹配所獲得的與該頁面訪問請求相對應(yīng)的文檔章節(jié)頁面,作為所述待訪問章節(jié);當所述待訪問章節(jié)為空章、圖片章或該待訪問章節(jié)所對應(yīng)的鏈接為死鏈時,在步驟S401中,章節(jié)匹配設(shè)備1將該待訪問章節(jié)作為目標文檔章節(jié)。在此,空章例如章節(jié)內(nèi)容為空、或章節(jié)有效文字信息小于預(yù)定閾值的章節(jié);圖片章例如章節(jié)內(nèi)容或章節(jié)主題內(nèi)容為圖片的章節(jié);死鏈例如點擊該死鏈后跳轉(zhuǎn)到目錄頁或其他不相關(guān)網(wǎng)頁的鏈接。本領(lǐng)域技術(shù)人員應(yīng)能理解上述預(yù)設(shè)觸發(fā)規(guī)則僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的預(yù)設(shè)觸發(fā)規(guī)則如可適用于本發(fā)明,也應(yīng)包含在本發(fā)明保護范圍以內(nèi),并在此以引用方式包含于此。對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實施例的細節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論從哪一點來看,均應(yīng)將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標記視為限制所涉及的權(quán)利要求。此夕卜,顯然“包括” 一詞不排除其他單元或步驟,單數(shù)不排除復數(shù)。裝置權(quán)利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。
權(quán)利要求
1.一種由計算機實現(xiàn)的用于獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的方法,其中,該方法包括a獲取待匹配的目標文檔章節(jié);b根據(jù)所述目標文檔章節(jié)的章節(jié)標題信息,確定所述目標文檔章節(jié)的章節(jié)標識信息; c根據(jù)所述章節(jié)標識信息進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié)。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述步驟b包括-對所述章節(jié)標題信息進行預(yù)處理操作,以獲得所述章節(jié)標識信息,其中,所述章節(jié)標識信息包括預(yù)處理操作后的所述章節(jié)標題信息; 其中,所述預(yù)處理操作包括以下至少任一項 -從所述章節(jié)標題信息中去除標題序號信息; -從所述章節(jié)標題信息中去除標題后綴信息;-從所述章節(jié)標題信息中去除符號字符以及所述符號字符所涵括的文字信息。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述步驟c包括-根據(jù)所述章節(jié)標識信息,在章節(jié)信息庫中進行匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。
4.根據(jù)權(quán)利要求1至3中任一項所述的方法,其中,所述步驟c包括-根據(jù)所述章節(jié)標識信息,在搜索索引庫中進行在線匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。
5.根據(jù)權(quán)利要求4所述的方法,其中,權(quán)利要求4包括根據(jù)權(quán)利要求3所述的方法,其中,該方法還包括-根據(jù)在線匹配查詢所獲得的所述一個或多個候選文檔章節(jié),建立或更新所述章節(jié)信息庫。
6.根據(jù)權(quán)利要求1至5中任一項所述的方法,其中,該方法還包括-對所述目標文檔章節(jié)的章節(jié)標題信息進行輔助標識提取處理,以獲得所述目標文檔章節(jié)的章節(jié)輔助信息;其中,所述步驟c包括-根據(jù)所述章節(jié)標識信息與所述章節(jié)輔助信息進行匹配查詢,以獲得所述一個或多個候選文檔章節(jié);其中,所述章節(jié)輔助信息包括以下至少任一項 -所述章節(jié)標題信息所對應(yīng)的標題序號信息; -所述章節(jié)標題信息所對應(yīng)的標題后綴信息。
7.根據(jù)權(quán)利要求1至6中任一項所述的方法,其中,所述步驟a包括 -獲取與用戶的頁面訪問請求相對應(yīng)的所述目標文檔章節(jié);其中,該方法還包括X將所述一個或多個候選文檔章節(jié)提供給所述用戶。
8.根據(jù)權(quán)利要求7所述的方法,其中,該方法還包括-獲取所述候選文檔章節(jié)相對所述目標文檔章節(jié)的匹配度; 其中,所述步驟χ包括-根據(jù)所述匹配度,將所述一個或多個候選文檔章節(jié)提供給所述用戶。
9.根據(jù)權(quán)利要求8所述的方法,其中,所述步驟χ包括-當所述一個或多個候選文檔章節(jié)中至少一個的匹配度大于預(yù)定匹配度閾值,將所述一個或多個候選文檔章節(jié)中至少一個所對應(yīng)的章節(jié)內(nèi)容提供給所述用戶;-否則,將所述一個或多個候選文檔章節(jié)所對應(yīng)的摘要信息提供給所述用戶。
10.根據(jù)權(quán)利要求7至9中任一項所述的方法,其中,所述步驟a包括-根據(jù)預(yù)設(shè)觸發(fā)規(guī)則,獲取與用戶的頁面訪問請求相對應(yīng)的待訪問章節(jié),以作為所述目標文檔章節(jié);其中,所述預(yù)設(shè)觸發(fā)規(guī)則基于以下至少任一項獲取所述待訪問章節(jié),以作為所述目標文檔章節(jié)-所述待訪問章節(jié)為空章;-所述待訪問章節(jié)為圖片章;-所述待訪問章節(jié)所對應(yīng)的鏈接為死鏈。
11.一種用于獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的章節(jié)匹配設(shè)備,其中,該設(shè)備包括章節(jié)獲取裝置,用于獲取待匹配的目標文檔章節(jié);標識確定裝置,用于根據(jù)所述目標文檔章節(jié)的章節(jié)標題信息,確定所述目標文檔章節(jié)的章節(jié)標識信息;章節(jié)匹配裝置,用于根據(jù)所述章節(jié)標識信息進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié)。
12.根據(jù)權(quán)利要求11所述的章節(jié)匹配設(shè)備,其中,所述標識確定裝置用于-對所述章節(jié)標題信息進行預(yù)處理操作,以獲得所述章節(jié)標識信息,其中,所述章節(jié)標識信息包括預(yù)處理操作后的所述章節(jié)標題信息; 其中,所述預(yù)處理操作包括以下至少任一項 -從所述章節(jié)標題信息中去除標題序號信息; -從所述章節(jié)標題信息中去除標題后綴信息;-從所述章節(jié)標題信息中去除符號字符以及所述符號字符所涵括的文字信息。
13.根據(jù)權(quán)利要求11或12所述的章節(jié)匹配設(shè)備,其中,所述章節(jié)匹配裝置用于-根據(jù)所述章節(jié)標識信息,在章節(jié)信息庫中進行匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。
14.根據(jù)權(quán)利要求11至13中任一項所述的章節(jié)匹配設(shè)備,其中,所述章節(jié)匹配裝置用于-根據(jù)所述章節(jié)標識信息,在搜索索引庫中進行在線匹配查詢,以獲得所述一個或多個候選文檔章節(jié)。
15.根據(jù)權(quán)利要求14所述的章節(jié)匹配設(shè)備,其中,權(quán)利要求14包括根據(jù)權(quán)利要求13所述的章節(jié)匹配設(shè)備,其中,該設(shè)備還包括更新裝置,用于根據(jù)在線匹配查詢所獲得的所述一個或多個候選文檔章節(jié),建立或更新所述章節(jié)信息庫。
16.根據(jù)權(quán)利要求11至15中任一項所述的章節(jié)匹配設(shè)備,其中,該設(shè)備還包括提取裝置,用于對所述目標文檔章節(jié)的章節(jié)標題信息進行輔助標識提取處理,以獲得所述目標文檔章節(jié)的章節(jié)輔助信息; 其中,所述章節(jié)匹配裝置用于-根據(jù)所述章節(jié)標識信息與所述章節(jié)輔助信息進行匹配查詢,以獲得所述一個或多個候選文檔章節(jié);其中,所述章節(jié)輔助信息包括以下至少任一項 -所述章節(jié)標題信息所對應(yīng)的標題序號信息; -所述章節(jié)標題信息所對應(yīng)的標題后綴信息。
17.根據(jù)權(quán)利要求11至16中任一項所述的章節(jié)匹配設(shè)備,其中,所述章節(jié)獲取裝置用于-獲取與用戶的頁面訪問請求相對應(yīng)的所述目標文檔章節(jié); 其中,該設(shè)備還包括提供裝置,用于將所述一個或多個候選文檔章節(jié)提供給所述用戶。
18.根據(jù)權(quán)利要求17所述的章節(jié)匹配設(shè)備,其中,該設(shè)備還包括匹配度獲取裝置,用于獲取所述候選文檔章節(jié)相對所述目標文檔章節(jié)的匹配度; 其中,所述提供裝置用于-根據(jù)所述匹配度,將所述一個或多個候選文檔章節(jié)提供給所述用戶。
19.根據(jù)權(quán)利要求18所述的章節(jié)匹配設(shè)備,其中,所述提供裝置用于-當所述一個或多個候選文檔章節(jié)中至少一個的匹配度大于預(yù)定匹配度閾值,將所述一個或多個候選文檔章節(jié)中至少一個所對應(yīng)的章節(jié)內(nèi)容提供給所述用戶;-否則,將所述一個或多個候選文檔章節(jié)所對應(yīng)的摘要信息提供給所述用戶。
20.根據(jù)權(quán)利要求17至19中任一項所述的章節(jié)匹配設(shè)備,其中,所述章節(jié)獲取裝置用于-根據(jù)預(yù)設(shè)觸發(fā)規(guī)則,獲取與用戶的頁面訪問請求相對應(yīng)的待訪問章節(jié),以作為所述目標文檔章節(jié);其中,所述預(yù)設(shè)觸發(fā)規(guī)則基于以下至少任一項獲取所述待訪問章節(jié),以作為所述目標文檔章節(jié)-所述待訪問章節(jié)為空章;-所述待訪問章節(jié)為圖片章;-所述待訪問章節(jié)所對應(yīng)的鏈接為死鏈。
全文摘要
本發(fā)明的目的是提供一種用于獲取與目標文檔章節(jié)相匹配的候選文檔章節(jié)的方法與設(shè)備,通過獲取待匹配的目標文檔章節(jié);根據(jù)所述目標文檔章節(jié)的章節(jié)標題信息,確定所述目標文檔章節(jié)的章節(jié)標識信息;根據(jù)所述章節(jié)標識信息進行匹配查詢,以獲得與所述目標文檔章節(jié)相對應(yīng)的一個或多個候選文檔章節(jié)。與現(xiàn)有技術(shù)相比,本發(fā)明提高了用戶的文檔訪問效率,并提升了用戶的使用體驗。進一步地,本發(fā)明還可以根據(jù)所獲得的候選文檔章節(jié)相對該目標文檔章節(jié)的匹配度,將候選文檔章節(jié)提供給用戶,從而進一步地提高用戶的文檔訪問效率,并提升了用戶的使用體驗。
文檔編號G06F17/30GK102314492SQ20111024348
公開日2012年1月11日 申請日期2011年8月22日 優(yōu)先權(quán)日2011年8月22日
發(fā)明者林帆, 洪庚偉 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司