欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種保持語(yǔ)義完整性的引文自動(dòng)提取方法和裝置與流程

文檔序號(hào):11868333閱讀:288來(lái)源:國(guó)知局
一種保持語(yǔ)義完整性的引文自動(dòng)提取方法和裝置與流程
本申請(qǐng)涉及文本分析和提取技術(shù),更具體地,涉及一種保持語(yǔ)義完整性的引文自動(dòng)提取方法和裝置。

背景技術(shù):
在電子結(jié)構(gòu)化文檔中,以由用戶手工選擇或者基于預(yù)定規(guī)則(如匹配規(guī)則等)自動(dòng)選擇的一些關(guān)鍵詞、短語(yǔ)、句子等閱讀焦點(diǎn)為中心,提取引文文本,是在很多應(yīng)用場(chǎng)景中非常需要的功能。例如,用戶在閱讀網(wǎng)頁(yè)等文檔過(guò)程中,可以利用標(biāo)記工具等對(duì)自己感興趣的閱讀焦點(diǎn)進(jìn)行選擇,以便在另外的閱讀中參考;當(dāng)用戶希望通過(guò)微博等社交網(wǎng)絡(luò)分享這些閱讀焦點(diǎn)的時(shí)候,僅依靠被標(biāo)記的關(guān)鍵詞、短語(yǔ)和句子不足以讓讀者還原閱讀焦點(diǎn)所在的上下文場(chǎng)景,無(wú)法理解閱讀焦點(diǎn)的用意,因此就需要提取閱讀焦點(diǎn)的上下文形成一段完整的引文。類似的情況還有當(dāng)用戶希望基于對(duì)閱讀焦點(diǎn)的標(biāo)記保存讀書摘錄時(shí),需要提取形成引文等等??梢?,對(duì)于很多基于電子結(jié)構(gòu)化文檔的產(chǎn)品和應(yīng)用來(lái)說(shuō),引文提取都是實(shí)現(xiàn)其功能必不可少的基礎(chǔ)技術(shù)。例如,公開號(hào)為CN102955820A的中國(guó)專利申請(qǐng)文獻(xiàn)公開了一種外語(yǔ)詞匯積累的系統(tǒng)及其方法,其中使用者可以一邊閱讀外語(yǔ)電子讀物一邊對(duì)其中的詞匯進(jìn)行標(biāo)記;而系統(tǒng)會(huì)將包含了詞匯標(biāo)記信息的上下文段落提交和保存至服務(wù)后臺(tái)子系統(tǒng)。然而,該專利文獻(xiàn)公開的技術(shù)方案是以標(biāo)記所在的上下文段落作為引文加以提取的,而標(biāo)記所在的上下文段落可能會(huì)比較長(zhǎng)。在大多數(shù)的應(yīng)用環(huán)境下,引文的文本長(zhǎng)度是有限制的,以段落為單位提取引文就有可能造成引文長(zhǎng)度超過(guò)所述限制的情況,顯然該專利文獻(xiàn)的技術(shù)不能夠廣泛適用于限制引文長(zhǎng)度的應(yīng)用環(huán)境。而且,如果提取的引文段落過(guò)長(zhǎng),會(huì)使原本作為閱讀焦點(diǎn)的標(biāo)記在引文中的位置不夠突出,影響閱讀效果。公開號(hào)為CN101192231B的中國(guó)專利文獻(xiàn)公開了在數(shù)據(jù)處理系統(tǒng)中對(duì)資源的特定部分設(shè)置書簽的方法,在該方法中,響應(yīng)對(duì)資源的當(dāng)前屏幕設(shè)置書簽的請(qǐng)求,對(duì)資源的當(dāng)前屏幕的實(shí)際文本采集屏幕上下文信息,并且存儲(chǔ)所述資源的地址信息和屏幕上下文信息作為用于返回所述資源特定部分的書簽。該專利文獻(xiàn)的技術(shù)方案是以屏幕為單位進(jìn)行上下文提取的,同樣有可能存在引文文本過(guò)長(zhǎng)而不適于某些應(yīng)用環(huán)境的問(wèn)題。而且,以屏幕為單位的上下文提取相對(duì)于以段落為單位的提取來(lái)說(shuō),更不容易保證引文在語(yǔ)義上的完整性,因?yàn)楹苡锌赡芪挥谄聊蛔钌戏揭恍谢蜃钕路揭恍械奈淖制瑪嗖⒉皇峭暾囊粋€(gè)整句,而只是整句的一部分,該整句的另一部分則位于屏幕以外。這樣獲得的引文中就會(huì)存在不完整的語(yǔ)句甚至是不完整的詞語(yǔ),嚴(yán)重影響引文的閱讀效果?,F(xiàn)有技術(shù)中還包括提取被標(biāo)注的對(duì)象及當(dāng)前網(wǎng)頁(yè)中緊鄰被標(biāo)注的對(duì)象之前和之后的上下方網(wǎng)頁(yè)元素的內(nèi)容以形成引文的技術(shù)方案,如公開號(hào)為CN101866342的中國(guó)專利文獻(xiàn)等。顯然,以網(wǎng)頁(yè)元素為單位的提取也存在引文長(zhǎng)度可能過(guò)長(zhǎng)或者引文語(yǔ)義不完整的問(wèn)題。現(xiàn)有的引文提取方法和裝置還包括為了適應(yīng)對(duì)引文長(zhǎng)度的要求而單純依據(jù)字符數(shù)來(lái)進(jìn)行截取的方案,例如以閱讀焦點(diǎn)為中心,向前和向后從文本中各提取出幾十個(gè)字符,即形成引文。這種方法所具有的明顯缺陷是所生成的引文往往不具有語(yǔ)義完整性,常常出現(xiàn)將某一句話的一半內(nèi)容納入引文而另一半內(nèi)容不納入引文,甚至將一個(gè)詞語(yǔ)截?cái)嗟那闆r,令讀者閱讀后不明所以。而且,有些情況下,這種破壞完整性截?cái)嗟囊臅?huì)影響用戶對(duì)其進(jìn)行使用,例如,如果文本中包括電子郵件地址、URL網(wǎng)頁(yè)地址、電話號(hào)碼等信息,而引文將這些信息截?cái)啵敲此峁┑囊膶⒉痪哂腥魏螌?shí)際價(jià)值。可見,現(xiàn)有的引文提取技術(shù)均不能在使引文長(zhǎng)度保持在門限值以內(nèi)的前提下保持引文語(yǔ)義完整,避免切斷完整語(yǔ)句、詞匯和電子郵件地址等整體性字符串,其引文提取的效果不能滿足人們的需要。

技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)的上述狀況及缺陷,本發(fā)明提供了一種引文自動(dòng)提取方法和裝置。本發(fā)明能夠以文本中作為閱讀焦點(diǎn)的字符或字符串為中心自動(dòng)提取上下文,所提取的引文長(zhǎng)度處于預(yù)定的長(zhǎng)度范圍以內(nèi),并且保持所提取的引文具有語(yǔ)義完整性,這樣能夠從文本中抽取形成以字符或字符串作為閱讀焦點(diǎn)并且長(zhǎng)度合適、意思完整的一段語(yǔ)義場(chǎng)景,方便用戶還原閱讀焦點(diǎn)在上下文中的正確含義。根據(jù)本發(fā)明所述的引文自動(dòng)提取方法,其特征在于,包括:焦點(diǎn)設(shè)定步驟,從文本中選擇作為閱讀焦點(diǎn)的字符或字符串;上下文提取步驟,通過(guò)以完整語(yǔ)義單元為單位進(jìn)行的文本擴(kuò)展和/或截取,提取以所述閱讀焦點(diǎn)為中心的上下文,從而獲得文本長(zhǎng)度處于預(yù)定長(zhǎng)度區(qū)間內(nèi)的引文文本。作為本發(fā)明的第一方面,優(yōu)選的是,所述完整語(yǔ)義單元包括:由文本中包含的不同類型的邊界符號(hào)所限定的具有多種尺度的文本片斷,以及由文本中具有獨(dú)立語(yǔ)義的字符或字符串組成的最小語(yǔ)義單元。其中,通過(guò)符號(hào)表預(yù)定義所述邊界符號(hào)的類型,以及最小語(yǔ)義單元的集合。進(jìn)一步優(yōu)選的是,所述最小語(yǔ)義單元包括:英文單詞、中文字符、URL地址、電子郵箱地址、時(shí)間格式、位于成對(duì)使用的標(biāo)點(diǎn)符號(hào)之間的文本片斷、具有特定字體格式的文本片斷。在上述步驟中,所述上下文提取步驟包括:以所述作為閱讀焦點(diǎn)的字符或字符串為起點(diǎn)并沿?cái)U(kuò)展方向,以由某些特定類型的邊界符號(hào)所限定的具有較大尺度的完整語(yǔ)義單元為單位選取備選文本的擴(kuò)展步驟;針對(duì)所述備選文本,沿截取方向,以由其它特定類型的邊界符號(hào)所限定的具有較小尺度的完整語(yǔ)義單元為單位截取備選文本的截取步驟;以及針對(duì)經(jīng)擴(kuò)展步驟和截取步驟處理后的備選文本,以所述最小語(yǔ)義單元為單位沿?cái)U(kuò)展方向擴(kuò)展和/或沿截取方向截取所述備選文本的最小語(yǔ)義單元擴(kuò)展截取步驟。在擴(kuò)展步驟、截取步驟以及最小語(yǔ)義單元擴(kuò)展截取步驟中,根據(jù)備選文本中位于所述作為閱讀焦點(diǎn)的字符或字符串之前和之后的文本長(zhǎng)度的比值是否達(dá)到預(yù)定的方向改變閾值,決定是否改變所述擴(kuò)展方向和截取方向。優(yōu)選的是,所述引文自動(dòng)提取方法在進(jìn)行上下文提取步驟之前還包括步驟:預(yù)定義針對(duì)引文文本的所述預(yù)定長(zhǎng)度區(qū)間。優(yōu)選的是,所述引文自動(dòng)提取方法在上下文提取步驟之前還包括:初始提取步驟,提取位于文本的有效結(jié)構(gòu)化節(jié)點(diǎn)之間且包含所述作為閱讀焦點(diǎn)的字符或字符串的初始備選文本;文本分析步驟,通過(guò)分析所述初始備選文本來(lái)決定用于劃分所述完整語(yǔ)義單元的邊界符號(hào)類型和最小語(yǔ)義單元集合。其中,在所述文本分析步驟中,根據(jù)所述初始備選文本的語(yǔ)言類型,決定所述邊界符號(hào)類型和最小語(yǔ)義單元集合。本步驟可以根據(jù)所述初始備選文本內(nèi)中、英文字符的比例判斷其語(yǔ)言類型。進(jìn)一步優(yōu)選的是,所述初始提取步驟提取的初始備選文本的長(zhǎng)度處于備選引文允許長(zhǎng)度區(qū)間以內(nèi),并且根據(jù)所述預(yù)定長(zhǎng)度區(qū)間計(jì)算所述備選引文允許長(zhǎng)度區(qū)間。進(jìn)一步優(yōu)選的是,所述初始提取步驟具體包括以下步驟:以與所述作為閱讀焦點(diǎn)的字符或字符串對(duì)應(yīng)的結(jié)構(gòu)化節(jié)點(diǎn)為起點(diǎn),遍歷該起點(diǎn)前、后的結(jié)構(gòu)化節(jié)點(diǎn)并排除其中的無(wú)效結(jié)構(gòu)化節(jié)點(diǎn)及其包含的文本后,選擇位于有效結(jié)構(gòu)化節(jié)點(diǎn)之間且長(zhǎng)度處于備選引文允許長(zhǎng)度區(qū)間內(nèi)的文本作為所述初始備選文本。其中,通過(guò)有效節(jié)點(diǎn)表預(yù)定義所述有效結(jié)構(gòu)化節(jié)點(diǎn)的類型。作為本發(fā)明的第二方面,優(yōu)選的是,所述完整語(yǔ)義單元可分為:擴(kuò)展單元,由文本中包含的擴(kuò)展型邊界符號(hào)所限定的文本片斷;截取單元,由文本中包含的截取型邊界符號(hào)所限定的文本片斷;最小語(yǔ)義單元,由文本中具有獨(dú)立語(yǔ)義的字符或字符串組成的最小單元;并且所述擴(kuò)展型邊界符號(hào)所限定的文本片斷的尺度大于所述截取型邊界符號(hào)所限定的文本片斷的尺度。進(jìn)一步優(yōu)選的是,通過(guò)擴(kuò)展邊界符號(hào)表預(yù)定義所述擴(kuò)展型邊界符號(hào)的類型,通過(guò)截取邊界符號(hào)表預(yù)定義所述截取型邊界符號(hào)的類型,通過(guò)最小語(yǔ)義單元集合預(yù)定義所述最小語(yǔ)義單元。所述上下文提取步驟具體包括:擴(kuò)展操作,以所述作為閱讀焦點(diǎn)的字符或字符串為原始起點(diǎn),沿?cái)U(kuò)展方向以所述擴(kuò)展單元為單位提取文本并加入備選文本,直至所述備選文本長(zhǎng)度大于所述預(yù)定長(zhǎng)度區(qū)間的下限;判斷所述備選文本的長(zhǎng)度是否大于所述預(yù)定長(zhǎng)度區(qū)間的上限,如果不大于上限,則將該備選文本作為所提取的引文文本;截取操作,如果擴(kuò)展操作獲得的備選文本大于所述預(yù)定長(zhǎng)度區(qū)間的上限,以位于備選文本的首、尾部并且非邊界符號(hào)的字符為起點(diǎn),沿截取方向以截取單元為單位對(duì)所述備選文本進(jìn)行截取,直至所述備選文本長(zhǎng)度小于所述預(yù)定長(zhǎng)度區(qū)間的上限;最小語(yǔ)義單元擴(kuò)展截取操作,如果在所述截取操作之后所述備選文本長(zhǎng)度小于所述預(yù)定長(zhǎng)度區(qū)間的下限,則以位于備選文本的首、尾部并且非邊界符號(hào)的字符為起點(diǎn),沿?cái)U(kuò)展方向以所述最小語(yǔ)義單元為單位對(duì)所述備選文本進(jìn)行擴(kuò)展,直至所述備選文本長(zhǎng)度大于所述預(yù)定長(zhǎng)度區(qū)間的下限;如果經(jīng)所述最小語(yǔ)義單元擴(kuò)展之后,所述備選引文長(zhǎng)度大于所述預(yù)定長(zhǎng)度區(qū)間的上限,則以位于備選文本的首、尾部并且非邊界符號(hào)的字符為起點(diǎn),沿截取方向以所述最小語(yǔ)義單元為單位對(duì)所述備選引文進(jìn)行截取;通過(guò)最小語(yǔ)義單元擴(kuò)展和截取的多次迭代獲得長(zhǎng)度處于預(yù)定長(zhǎng)度區(qū)間內(nèi)備選文本作為所述引文文本。在上述擴(kuò)展操作、截取操作及最小語(yǔ)義單元擴(kuò)展截取操作當(dāng)中,通過(guò)擴(kuò)展方向標(biāo)志位標(biāo)識(shí)所述擴(kuò)展方向?yàn)槭撞繑U(kuò)展或尾部擴(kuò)展;通過(guò)截取方向標(biāo)志位標(biāo)識(shí)所述截取方向?yàn)槭撞拷厝』蛭膊拷厝?。進(jìn)一步優(yōu)選的是,上下文提取步驟還包括:在上述擴(kuò)展操作、截取操作及最小語(yǔ)義單元擴(kuò)展截取操作中,每當(dāng)擴(kuò)展一個(gè)擴(kuò)展單元或最小語(yǔ)義單元之后,以及每當(dāng)截取一個(gè)截取單元或最小語(yǔ)義單元之后,都根據(jù)所述備選文本中位于所述作為閱讀焦點(diǎn)的字符或字符串之前和之后的文本長(zhǎng)度的比值是否達(dá)到預(yù)定的方向改變閾值,來(lái)決定是否改變所述擴(kuò)展方向或者截取方向。本發(fā)明提供了一種引文自動(dòng)提取裝置,其特征在于,包括:焦點(diǎn)設(shè)定模塊,用于從文本中選擇作為閱讀焦點(diǎn)的字符或字符串;內(nèi)容提取模塊,用于通過(guò)以多種尺度的完整語(yǔ)義單元為單位進(jìn)行的文本擴(kuò)展和/或截取,提取以所述閱讀焦點(diǎn)為中心的上下文,從而獲得文本長(zhǎng)度處于預(yù)定長(zhǎng)度區(qū)間內(nèi)的引文文本。作為本發(fā)明的第一方面,優(yōu)選的是,所述完整語(yǔ)義單元包括:由文本中包含的不同類型的邊界符號(hào)所限定的具有多種尺度的文本片斷,以及由文本中具有獨(dú)立語(yǔ)義的字符或字符串組成的最小語(yǔ)義單元。進(jìn)一步優(yōu)選的是,所述引文自動(dòng)提取裝置還包括符號(hào)表,所述符號(hào)表用于保存預(yù)定義的所述邊界符號(hào)的類型以及最小語(yǔ)義單元的集合。進(jìn)一步優(yōu)選的是,所述最小語(yǔ)義單元包括:英文單詞、中文字符、URL地址、電子郵箱地址、時(shí)間格式、位于成對(duì)使用的標(biāo)點(diǎn)符號(hào)之間的文本片斷、具有特定字體格式的文本片斷。優(yōu)選的是,所述內(nèi)容提取模塊用于執(zhí)行以下操作:以所述作為閱讀焦點(diǎn)的字符或字符串為起點(diǎn)并沿?cái)U(kuò)展方向,以由某些特定類型的邊界符號(hào)所限定的具有較大尺度的完整語(yǔ)義單元為單位選取備選文本的擴(kuò)展操作,針對(duì)所述備選文本,沿截取方向,以由其它特定類型的邊界符號(hào)所限定的具有較小尺度的完整語(yǔ)義單元為單位截取備選文本的截取操作,針對(duì)經(jīng)擴(kuò)展步驟和截取步驟處理后的備選文本,以所述最小語(yǔ)義單元為單位沿?cái)U(kuò)展方向擴(kuò)展和/或沿截取方向截取所述備選文本的最小語(yǔ)義單元擴(kuò)展截取操作。優(yōu)選的是,所述引文自動(dòng)提取裝置還包括方向檢測(cè)模塊,用于根據(jù)備選文本中位于所述作為閱讀焦點(diǎn)的字符或字符串之前和之后的文本長(zhǎng)度的比值是否達(dá)到預(yù)定的方向改變閾值,決定是否改變所述擴(kuò)展方向和截取方向。優(yōu)選的是,所述引文自動(dòng)提取裝置還包括引文長(zhǎng)度設(shè)定模塊,用于預(yù)定義針對(duì)引文文本的所述預(yù)定長(zhǎng)度區(qū)間。優(yōu)選的是,所述內(nèi)容提取模塊還用于執(zhí)行以下操作:提取位于文本的有效結(jié)構(gòu)化節(jié)點(diǎn)之間且包含所述作為閱讀焦點(diǎn)的字符或字符串的初始備選文本;并且,所述引文自動(dòng)提取裝置還包括文本分析模塊,通過(guò)分析所述初始備選文本來(lái)決定用于劃分所述完整語(yǔ)義單元的邊界符號(hào)類型和最小語(yǔ)義單元集合。進(jìn)一步優(yōu)選的是,所述文本分析模塊根據(jù)所述初始備選文本的語(yǔ)言類型,決定所述邊界符號(hào)類型和最小語(yǔ)義單元集合。本模塊可以根據(jù)所述初始備選文本內(nèi)中、英文字符的比例判斷其語(yǔ)言類型。進(jìn)一步優(yōu)選的是,所述內(nèi)容提取模塊提取的初始備選文本的長(zhǎng)度處于備選引文允許長(zhǎng)度區(qū)間以內(nèi),并且所述引文自動(dòng)提取裝置的引文長(zhǎng)度設(shè)定模塊,用于根據(jù)所述預(yù)定長(zhǎng)度區(qū)間計(jì)算所述備選引文允許長(zhǎng)度區(qū)間。進(jìn)一步優(yōu)選的是,所述內(nèi)容提取模塊以與所述作為閱讀焦點(diǎn)的字符或字符串對(duì)應(yīng)的結(jié)構(gòu)化節(jié)點(diǎn)為起點(diǎn),遍歷該起點(diǎn)前、后的結(jié)構(gòu)化節(jié)點(diǎn)并排除其中的無(wú)效結(jié)構(gòu)化節(jié)點(diǎn)及其包含的文本后,選擇位于有效結(jié)構(gòu)化節(jié)點(diǎn)之間且長(zhǎng)度處于備選引文允許長(zhǎng)度區(qū)間內(nèi)的文本作為所述初始備選文本。進(jìn)一步優(yōu)選的是,所述引文自動(dòng)提取裝置還包括有效節(jié)點(diǎn)表,所述有效節(jié)點(diǎn)表用于保存預(yù)定義的所述有效結(jié)構(gòu)化節(jié)點(diǎn)的類型。作為本發(fā)明的第二方面,優(yōu)選的是,所述完整語(yǔ)義單元可分為:擴(kuò)展單元,由文本中包含的擴(kuò)展型邊界符號(hào)所限定的文本片斷;截取單元,由文本中包含的截取型邊界符號(hào)所限定的文本片斷;最小語(yǔ)義單元,由文本中具有獨(dú)立語(yǔ)義的字符或字符串組成的最小單元;并且所述擴(kuò)展型邊界符號(hào)所限定的文本片斷的尺度大于所述截取型邊界符號(hào)所限定的文本片斷的尺度。進(jìn)一步優(yōu)選的是,所述引文自動(dòng)提取裝置通過(guò)擴(kuò)展邊界符號(hào)表保存預(yù)定義的所述擴(kuò)展型邊界符號(hào)的類型,通過(guò)截取邊界符號(hào)表保存預(yù)定義的所述截取型邊界符號(hào)的類型,通過(guò)最小語(yǔ)義單元集合保存預(yù)定義的所述最小語(yǔ)義單元。進(jìn)一步優(yōu)選的是,所述內(nèi)容提取模塊用于執(zhí)行以下操作:擴(kuò)展操作,以所述作為閱讀焦點(diǎn)的字符或字符串為原始起點(diǎn),沿?cái)U(kuò)展方向以所述擴(kuò)展單元為單位提取文本并加入備選文本,直至所述備選文本長(zhǎng)度大于所述預(yù)定長(zhǎng)度區(qū)間的下限;判斷所述備選文本的長(zhǎng)度是否大于所述預(yù)定長(zhǎng)度區(qū)間的上限,如果不大于上限,則將該備選文本作為所提取的引文文本;截取操作,如果擴(kuò)展操作獲得的備選文本大于所述預(yù)定長(zhǎng)度區(qū)間的上限,以位于備選文本的首、尾部并且非邊界符號(hào)的字符為起點(diǎn),沿截取方向以截取單元為單位對(duì)所述備選文本進(jìn)行截取,直至所述備選文本長(zhǎng)度小于所述預(yù)定長(zhǎng)度區(qū)間的上限;最小語(yǔ)義單元擴(kuò)展截取操作,如果在所述截取操作之后所述備選文本長(zhǎng)度小于所述預(yù)定長(zhǎng)度區(qū)間的下限,則以位于備選文本的首、尾部并且非邊界符號(hào)的字符為起點(diǎn),沿?cái)U(kuò)展方向以所述最小語(yǔ)義單元為單位對(duì)所述備選文本進(jìn)行擴(kuò)展,直至所述備選文本長(zhǎng)度大于所述預(yù)定長(zhǎng)度區(qū)間的下限;如果經(jīng)所述最小語(yǔ)義單元擴(kuò)展之后,所述備選引文長(zhǎng)度大于所述預(yù)定長(zhǎng)度區(qū)間的上限,則以位于備選文本的首、尾部并且非邊界符號(hào)的字符為起點(diǎn),沿截取方向以所述最小語(yǔ)義單元為單位對(duì)所述備選引文進(jìn)行截取;通過(guò)最小語(yǔ)義單元擴(kuò)展和截取的多次迭代獲得長(zhǎng)度處于預(yù)定長(zhǎng)度區(qū)間內(nèi)備選文本作為所述引文文本。進(jìn)一步優(yōu)選的是,所述引文自動(dòng)提取裝置包括的方向檢測(cè)模塊通過(guò)擴(kuò)展方向標(biāo)志位標(biāo)識(shí)所述擴(kuò)展方向?yàn)槭撞繑U(kuò)展或尾部擴(kuò)展;通過(guò)截取方向標(biāo)志位標(biāo)識(shí)所述截取方向?yàn)槭撞拷厝』蛭膊拷厝?。進(jìn)一步優(yōu)選的是,每當(dāng)所述內(nèi)容提取模塊擴(kuò)展一個(gè)擴(kuò)展單元或最小語(yǔ)義單元之后,以及每當(dāng)所述內(nèi)容提取模塊截取一個(gè)截取單元或最小語(yǔ)義單元之后,所述引文自動(dòng)提取裝置的方向檢測(cè)模塊都根據(jù)所述備選文本中位于所述作為閱讀焦點(diǎn)的字符或字符串之前和之后的文本長(zhǎng)度的比值是否達(dá)到預(yù)定的方向改變閾值,來(lái)決定是否改變所述擴(kuò)展方向或者截取方向。本發(fā)明的有益效果包括:能夠從用戶在文本中選擇的閱讀焦點(diǎn)出發(fā),自動(dòng)提取出閱讀焦點(diǎn)為中心的上下文形成引文片段,并且引文片段具有完整的語(yǔ)義,提高了引文的可讀性,使閱讀者能夠從中正確還原出完整的語(yǔ)義場(chǎng)景,克服了現(xiàn)有技術(shù)中由于將具有完整語(yǔ)義的文本片斷中途截?cái)喽绊憣?duì)引文的閱讀和使用的缺陷;所提取的引文片斷長(zhǎng)度符合預(yù)定長(zhǎng)度區(qū)間的要求,提高了引文對(duì)各種應(yīng)用環(huán)境的適用性。附圖說(shuō)明圖1示出了本發(fā)明所述引文自動(dòng)提取方法的流程示意圖;圖2示出了準(zhǔn)備進(jìn)行引文自動(dòng)提取的標(biāo)的文本的示意圖;圖3示出了針對(duì)所述標(biāo)的文本所選擇的閱讀焦點(diǎn)及設(shè)置的預(yù)定長(zhǎng)度區(qū)間的示意圖;圖4是本發(fā)明實(shí)施例中所述標(biāo)的文本的結(jié)構(gòu)化文檔示意圖;圖5是上下文提取步驟的細(xì)化流程圖;圖6是經(jīng)擴(kuò)展操作之后的備選文本示意圖;圖7示出了最終獲得的引文文本的頁(yè)面示意圖;圖8示出了本發(fā)明所述引文自動(dòng)提取裝置的結(jié)構(gòu)示意圖。具體實(shí)施方式下面結(jié)合附圖對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)闡述。需要指出,對(duì)優(yōu)選實(shí)施例闡述的目的是為了更加充分地展示本發(fā)明的各方面的特點(diǎn)和有益效果。因此,優(yōu)選實(shí)施例是作為示例性的,不應(yīng)理解為是對(duì)本發(fā)明保護(hù)范圍的限制。本發(fā)明的保護(hù)范圍應(yīng)當(dāng)以權(quán)利要求書所請(qǐng)求的內(nèi)容為準(zhǔn)。本發(fā)明是一種以完整語(yǔ)義單元作為單位實(shí)現(xiàn)上下文提取的方法和裝置。首先介紹一下完整語(yǔ)義單元的含義。完整語(yǔ)義單元是具有獨(dú)立和完整語(yǔ)義的文本片斷。完整語(yǔ)義單元是自然語(yǔ)言中固有的表意單位,舉例來(lái)說(shuō),在中文當(dāng)中,以句號(hào)(“。”)、問(wèn)號(hào)(“?”)、感嘆號(hào)(“!”)等標(biāo)點(diǎn)作為邊界可以從文本中劃分出一個(gè)整句,該整句作為整段文本的文本片斷,表達(dá)了完整的語(yǔ)義場(chǎng)景,構(gòu)成了一個(gè)完整語(yǔ)義單元;而以逗號(hào)(“,”)或分號(hào)(“;”)為邊界可以從整句中劃分中一個(gè)分句,該分句作為文本片斷,亦表達(dá)了相對(duì)完整的語(yǔ)義場(chǎng)景,同樣構(gòu)成了一個(gè)完整語(yǔ)義單元;相類似地,在英文中以點(diǎn)號(hào)(“.”)或逗號(hào)(“,”)為邊界也可以劃分出完整語(yǔ)義單元??梢姡谖谋局刑烊坏鼐哂幸陨鲜鰳?biāo)點(diǎn)符號(hào)為例的各種邊界符號(hào),邊界符號(hào)之間所限定的文本片斷即作為所述完整語(yǔ)義單元,這些文本片斷天然地具有相對(duì)完整的語(yǔ)義。當(dāng)然,也并非所有的標(biāo)點(diǎn)符號(hào)都可以作為所述邊界符號(hào),例如上下引號(hào)、上下括號(hào)、上下書名號(hào)、頓號(hào)的目的并非劃分整句或分句,因此通常不能作為所述邊界符號(hào)。為了正確識(shí)別所述邊界符號(hào),本發(fā)明設(shè)置符號(hào)表來(lái)保存預(yù)定義的可作為邊界符號(hào)的符號(hào)類型,在下面介紹的上下文提取步驟中可以通過(guò)與符號(hào)表對(duì)比來(lái)判斷文本中的哪些符號(hào)構(gòu)成邊界符號(hào),從而將這些符號(hào)所限定的文本片斷作為完整語(yǔ)義單元。由不同類型的邊界符號(hào)所限定的完整語(yǔ)義單元可能具有不同的尺度。例如,在上面的例子中,以句號(hào)(“。”)、問(wèn)號(hào)(“?”)、感嘆號(hào)(“!”)等類型的邊界符號(hào)所限定的文本片斷屬于整句,具有較大尺度;而以逗號(hào)(“,”)或分號(hào)(“;”)為邊界符號(hào)限定的文本片斷屬于分句,具有較小尺度。這里“尺度”的含義是指語(yǔ)義劃分層面的尺度,而非文本長(zhǎng)度等。一個(gè)由逗號(hào)限定的分句所包含的字符數(shù)可能遠(yuǎn)多于一個(gè)由句號(hào)限定的整句的字符數(shù),但從尺度上看,后者的尺度仍然大于前者。對(duì)于由沒有被所述邊界符號(hào)分隔開的一段連續(xù)字符組成的文本片斷來(lái)說(shuō),仍然可以將其拆分為若干的完整語(yǔ)義單元,這些完整語(yǔ)義單元是由具有獨(dú)立語(yǔ)義的字符或字符串組成的最小語(yǔ)義單元。例如,一個(gè)英文單詞或一個(gè)中文字符即可構(gòu)成最小語(yǔ)義單元。另外,URL地址、電子郵箱地址、時(shí)間格式等字符串顯然不可再拆分,否則就會(huì)破壞其完整性,因此此類字符串也構(gòu)成最小語(yǔ)義單元。位于成對(duì)使用的標(biāo)點(diǎn)符號(hào)之間的文本片斷(例如位于上下括號(hào)之間的文本片斷、位于上下引號(hào)之間的文本片斷、位于上下書名號(hào)之間的文本片斷等)具有整體性,也不應(yīng)再拆分,因此構(gòu)成最小語(yǔ)義單元。在某些情況下,具有特定字體格式的文本片斷也構(gòu)成最小語(yǔ)義單元,例如,在英語(yǔ)表達(dá)中,人名、地名等專屬名詞通常采用與文本的其它部分不同的英文字體,因此可以將具有不同于文本其它部分字體的特定字體的文本片斷定義為最小語(yǔ)義單元;再比如,帶有下劃線、加粗、斜體、加黑、標(biāo)紅等特定字體格式的文本片斷也可以定義為最小語(yǔ)義單元。為了在文本提取中確定最小語(yǔ)義單元,本發(fā)明通過(guò)最小語(yǔ)義單元集合保存預(yù)定義的最小語(yǔ)義單元,從而將文本中與最小語(yǔ)義單元相匹配的字符或字符串作為完整語(yǔ)義單元。顯然,從尺度上看,最小語(yǔ)義單元的尺度是最小的。圖1是本發(fā)明實(shí)施例中引文自動(dòng)提取方法的流程示意圖。該方法首先包括焦點(diǎn)設(shè)定步驟101,在該步驟中,針對(duì)圖2所示的標(biāo)的文本,可選擇其中的單個(gè)字符或一連續(xù)的字符串作為閱讀焦點(diǎn)。例如,用戶可以選擇標(biāo)的文本中的單個(gè)字符,或者由字符串構(gòu)成的關(guān)鍵詞、短語(yǔ)或短句作為該閱讀焦點(diǎn),所選擇的字符串長(zhǎng)度應(yīng)不超過(guò)預(yù)定閾值,例如最長(zhǎng)不超過(guò)八個(gè)字符等。如圖3所示,在上述標(biāo)的文本中,用戶選擇“信息之間結(jié)構(gòu)化”這一字符串作為所述閱讀焦點(diǎn)。用戶可在閱讀網(wǎng)頁(yè)、電子書等文本的過(guò)程中直接執(zhí)行對(duì)閱讀焦點(diǎn)選擇動(dòng)作,也可以通過(guò)其它方式選擇閱讀焦點(diǎn);例如,用戶在搜索引擎中可輸入作為閱讀焦點(diǎn)的字符或字符串作為檢索詞,搜索引擎然后自動(dòng)匹配獲得包含該檢索詞閱讀焦點(diǎn)的文本并向用戶提供以閱讀焦點(diǎn)為中心的引文。在選定作為閱讀焦點(diǎn)的字符或字符串的同時(shí),在步驟102中,用戶可以預(yù)定義通過(guò)本發(fā)明的方法提取獲得的最終引文文本的長(zhǎng)度范圍的上限值和下限值,所述上限值和下限值構(gòu)成預(yù)定長(zhǎng)度區(qū)間。圖3中的方框示出了圍繞閱讀焦點(diǎn)形成的最終引文文本的長(zhǎng)度范圍上限,在本例中引文文本長(zhǎng)度范圍的下限即閱讀焦點(diǎn)自身的文本長(zhǎng)度。該預(yù)定長(zhǎng)度區(qū)間也可以是預(yù)設(shè)定的。在步驟103的初始提取步驟中,提取位于文本的有效結(jié)構(gòu)化節(jié)點(diǎn)之間且包含所述作為閱讀焦點(diǎn)的字符或字符串的初始備選文本。經(jīng)數(shù)字化的文本大多為結(jié)構(gòu)化文檔,結(jié)構(gòu)化文檔包括文本內(nèi)容本身以及標(biāo)簽等結(jié)構(gòu)化節(jié)點(diǎn),如圖4示出了所述標(biāo)的文本的結(jié)構(gòu)化文檔示意圖,該結(jié)構(gòu)化文檔為網(wǎng)頁(yè)的源文件,其中<p>,<a>,<img>等網(wǎng)頁(yè)標(biāo)簽作為所述結(jié)構(gòu)化節(jié)點(diǎn)。在本步驟中,首先根據(jù)閱讀焦點(diǎn)所在的文本在結(jié)構(gòu)化文檔中所處的位置,獲取與該閱讀焦點(diǎn)相對(duì)應(yīng)的結(jié)構(gòu)化節(jié)點(diǎn),在圖4中閱讀焦點(diǎn)“信息之間結(jié)構(gòu)化”所在的文本在結(jié)構(gòu)化文檔中處于第二個(gè)<p>節(jié)點(diǎn)之后,故閱讀焦點(diǎn)相關(guān)聯(lián)的結(jié)構(gòu)化節(jié)點(diǎn)確定為第二個(gè)<p>節(jié)點(diǎn)。以該第二個(gè)<p>節(jié)點(diǎn)為起點(diǎn),依次遍歷該起點(diǎn)前、后的結(jié)構(gòu)化節(jié)點(diǎn)。例如,在本例中首先向后遍歷,將先后遇到第三個(gè)<p>節(jié)點(diǎn),<a>節(jié)點(diǎn)和<img>節(jié)點(diǎn),對(duì)于這些結(jié)構(gòu)化節(jié)點(diǎn),可以通過(guò)查詢有效節(jié)點(diǎn)表,判斷哪些是有效結(jié)構(gòu)化節(jié)點(diǎn);所述有效節(jié)點(diǎn)表中保存了預(yù)定義的所有有效結(jié)構(gòu)化節(jié)點(diǎn)的類型。在本例中,通過(guò)查詢,可以<a>節(jié)點(diǎn)屬于有效結(jié)構(gòu)化節(jié)點(diǎn),因此<a>節(jié)點(diǎn)之間的文本片斷“(微博)”將被加入初始備選文本當(dāng)中,而<img>節(jié)點(diǎn)經(jīng)查詢不屬于有效結(jié)構(gòu)化節(jié)點(diǎn),因此<img>節(jié)點(diǎn)及其所包含的內(nèi)容將被排除。通過(guò)依次向前和向后的迭代,將包含在有效結(jié)構(gòu)化節(jié)點(diǎn)之間的文本加入初始備選文本,直至初始備選文本的長(zhǎng)度處于備選引文允許長(zhǎng)度區(qū)間以內(nèi)。所述備選引文允許長(zhǎng)度區(qū)間定義了從文本中提取的初始備選引文所允許的最大文本長(zhǎng)度和最小文本長(zhǎng)度,可以根據(jù)所定義的最終引文文本的預(yù)定長(zhǎng)度區(qū)間來(lái)計(jì)算所述備選引文允許長(zhǎng)度區(qū)間的上限,例如針對(duì)微博分享的應(yīng)用環(huán)境,所述預(yù)定長(zhǎng)度區(qū)間的上限值為120個(gè)字符,則備選引文允許長(zhǎng)度區(qū)間的上限值可以大于120個(gè)字符,例如是120個(gè)字符的若干倍;這樣,通過(guò)提取出比最終引文文本容量更大的初始備選引文,有利于為下面提到的文本分析步驟104提供更加充分的分析范圍,從而保證了分析結(jié)果的準(zhǔn)確性。在本例中,所述備選引文允許長(zhǎng)度區(qū)間的下限值同樣為閱讀焦點(diǎn)自身的文本長(zhǎng)度。在步驟103中確定了初始備選文本之后,在步驟104的文本分析步驟中,對(duì)該初始備選文本進(jìn)行分析,可以確定標(biāo)的文本的語(yǔ)言類型,從而決定在下面將要介紹的以完整語(yǔ)義單元為單位進(jìn)行的上下文提取步驟當(dāng)中,采用何種類型的邊界符號(hào)以及采用包含哪些最小語(yǔ)義單元的集合來(lái)劃分所述完整語(yǔ)義單元。在本步驟中,統(tǒng)計(jì)在所提取的初始備選文本當(dāng)中,中文字符和英文字符分別所占的比例,顯然,在本實(shí)施例的標(biāo)的文本當(dāng)中,中文字符所占比例更大,因此將語(yǔ)言類型確定為中文類型。對(duì)于不同的語(yǔ)言類型來(lái)說(shuō),劃分完整語(yǔ)義單元的邊界符號(hào)會(huì)有所不同,例如,在中文中,句號(hào)(“?!?、感嘆號(hào)(“!”)、問(wèn)號(hào)(“?”)可以作為所述邊界符號(hào)而限定一段具有完整語(yǔ)義的文本片斷,而在英文中,點(diǎn)號(hào)(“.”)可以作為邊界符號(hào)而限定具有完整語(yǔ)義的文本片斷。不同的語(yǔ)言類型,最小語(yǔ)義單元集合所包含的內(nèi)容當(dāng)然也會(huì)不同,例如英文中,有大量的英文單詞屬于最小語(yǔ)義單元,而在中文中,除了少量由英文字符串形成的縮寫之外,其最小語(yǔ)義單元的集合中不會(huì)包含大多數(shù)其它的英文單詞。因此,根據(jù)本步驟中檢測(cè)出來(lái)的語(yǔ)言類型,可以分別針對(duì)中文文本和英文文本選取不同的邊界符號(hào)類型和最小語(yǔ)義單元集合。接下來(lái),在上下方提取步驟105中,以閱讀焦點(diǎn)為中心,以多種尺度的完整語(yǔ)義單元為單位,首先以大尺度的完整語(yǔ)義單元為單位進(jìn)行文本擴(kuò)展取得備選文本,然后以尺度較小的完整語(yǔ)義單元為單位對(duì)備選文本進(jìn)行截取,通過(guò)多次迭代,直至以具有最小尺度的所述最小語(yǔ)義單元為單位進(jìn)行擴(kuò)展和截取,最終提取出以所述作為閱讀焦點(diǎn)的字符或字符串為中心并且處于預(yù)定長(zhǎng)度區(qū)間內(nèi)的引文文本。在以上擴(kuò)展和截取的過(guò)程中,設(shè)置擴(kuò)展方向標(biāo)志位和截取方向標(biāo)志位,分別用于標(biāo)識(shí)擴(kuò)展和截取的方向是朝向首部還是尾部,從而決定每次擴(kuò)展和截取的方向。圖5是上下文提取步驟的細(xì)化流程圖。在上下文提取步驟中,首先執(zhí)行步驟501的擴(kuò)展操作,即以所選擇的閱讀焦點(diǎn)為起點(diǎn),沿?cái)U(kuò)展方向選取閱讀焦點(diǎn)前、后的文本片斷加入備選文本;重要的是,每一次擴(kuò)展操作都以具有較大尺度的完整語(yǔ)義單元為單位,也即一次擴(kuò)展將一個(gè)完整語(yǔ)義單元加入備選文本。這里所述較大尺度的完整語(yǔ)義單元是被預(yù)先定義的某些特定類型的邊界符號(hào)所限定的文本片斷,我們將在擴(kuò)展操作中采用的這些特定類型的邊界符號(hào)稱為擴(kuò)展型邊界符號(hào),被擴(kuò)展型邊界符號(hào)所限定的文本片斷稱為擴(kuò)展單元。例如,在本例中,由句號(hào)(“?!?所限定的整句具有較大尺度,屬于較大尺度上的完整語(yǔ)義單元,因此句號(hào)將被作為擴(kuò)展型邊界符號(hào),被句號(hào)所限定的整句將被作為擴(kuò)展操作中的擴(kuò)展單元;而逗號(hào)(“,”)所限定的分句因尺度相對(duì)較小,不將其作為擴(kuò)展單元。哪些類型的邊界符號(hào)作為所述擴(kuò)展型邊界符號(hào)是預(yù)先定義好的,為了便于查詢和管理,將擴(kuò)展型邊界符號(hào)的類型保存在擴(kuò)展邊界符號(hào)表當(dāng)中。在擴(kuò)展操作501的具體執(zhí)行中,首先以閱讀焦點(diǎn)為起點(diǎn),根據(jù)閱讀焦點(diǎn)在初始備選引文中的偏移量設(shè)定擴(kuò)展方向標(biāo)志位是首部擴(kuò)展還是尾部擴(kuò)展;如果閱讀焦點(diǎn)位于初始備選引文的前半部分,即將該標(biāo)志位設(shè)置為尾部擴(kuò)展,如果閱讀焦點(diǎn)位于初始備選引文的后半部分,即將該標(biāo)志位設(shè)置為首部擴(kuò)展。本例中閱讀焦點(diǎn)“信息之間結(jié)構(gòu)化”作為起點(diǎn),處于初始備選引文的前半部分,因此擴(kuò)展方向標(biāo)志位一開始被確定為尾部擴(kuò)展。從閱讀焦點(diǎn)為起點(diǎn),從“信息之間結(jié)構(gòu)化”之后的第一個(gè)字符開始依次向后順向讀取,當(dāng)遇到第一個(gè)非文字的字符(如標(biāo)點(diǎn)符號(hào))時(shí),查詢擴(kuò)展邊界符號(hào)表以判斷該字符是否屬于上述擴(kuò)展型邊界符號(hào),如果屬于,則將閱讀焦點(diǎn)與這個(gè)字符之間的文本片斷作為一個(gè)擴(kuò)展單元,加入到備選引文當(dāng)中(初始備選文本已經(jīng)被清空);如果不屬于,繼續(xù)向后讀取,直至遇到第一個(gè)所述擴(kuò)展型邊界符號(hào)。然后,比較在備選文本當(dāng)中,閱讀焦點(diǎn)之前的文本長(zhǎng)度和該焦點(diǎn)之后的文本長(zhǎng)度二者的比值是否達(dá)到了預(yù)定的方向改變閾值,假設(shè)達(dá)到了閾值,則將擴(kuò)展方向標(biāo)志位修改為首部擴(kuò)展;否則保持尾部擴(kuò)展不變。在本例中,“信息之間結(jié)構(gòu)化”之后的第一個(gè)字符即為擴(kuò)展型邊界符號(hào)句號(hào)(“?!?,因此會(huì)比較“信息之間結(jié)構(gòu)化”之前的文本長(zhǎng)度(0個(gè)字符)和其之后的文本長(zhǎng)度(1個(gè)字符)的比值以決定擴(kuò)展方向,比較的結(jié)果是繼續(xù)尾部擴(kuò)展。進(jìn)而,判斷備選引文的文本長(zhǎng)度是否大于所述預(yù)定長(zhǎng)度區(qū)間的下限,如果已經(jīng)超過(guò)該下限值則停止擴(kuò)展操作;如果未超過(guò)下限值,說(shuō)明目前的備選引文還沒有達(dá)到所要求的引文最小長(zhǎng)度,因此將繼續(xù)擴(kuò)展操作,沿?cái)U(kuò)展方向繼續(xù)將下一個(gè)擴(kuò)展單元加入備選引文。在本例中,將繼續(xù)向尾部擴(kuò)展,直至達(dá)到“精確的推送”之后的句號(hào)(“?!?,這樣,會(huì)將把由該作為擴(kuò)展型邊界符號(hào)的句號(hào)所限定的文本片斷“在這個(gè)過(guò)程中,用戶可以……精確的推送?!边@一整句作為一個(gè)擴(kuò)展單元加入備選文本。而這期間所遇到的頓號(hào)和逗號(hào)等邊界符號(hào)因不屬于擴(kuò)展型邊界符號(hào),其所限定的文本會(huì)作為擴(kuò)展單元的一部分納入本次擴(kuò)展當(dāng)中。加入上述文本片斷之后,會(huì)執(zhí)行上述的對(duì)擴(kuò)展方向的判斷和調(diào)整,經(jīng)判斷閱讀焦點(diǎn)之前和之后的文本長(zhǎng)度的比值已經(jīng)超過(guò)方向改變閾值,因此將擴(kuò)展方向標(biāo)志位改變?yōu)槭撞繑U(kuò)展。經(jīng)判斷目前的備選文本的長(zhǎng)度仍未超過(guò)預(yù)定長(zhǎng)度區(qū)間的下限,因此將以閱讀焦點(diǎn)為起點(diǎn)向前擴(kuò)展,直至將“知乎在這段時(shí)間……讓信息和”這一文本片斷作為擴(kuò)展單元加入備選文本。此時(shí),由于已經(jīng)達(dá)到下限,因此擴(kuò)展操作501終止,不需要再繼續(xù)向尾部或者向首部以擴(kuò)展單元為單位進(jìn)行擴(kuò)展。經(jīng)過(guò)擴(kuò)展操作501得到的備選文本如圖6所示。由于是以較大尺度的擴(kuò)展單元為單位進(jìn)行擴(kuò)展,經(jīng)擴(kuò)展操作501得到的備選文本有可能超出了預(yù)定長(zhǎng)度區(qū)間的上限。因此,對(duì)經(jīng)擴(kuò)展操作501得到的備選文本的長(zhǎng)度進(jìn)行判斷,如果不大于該上限值,則將該備選文本作為所提取的引文文本;如果大于該上限值,需要對(duì)備選文本執(zhí)行下面介紹的截取操作502。截取操作502是沿由截取方向標(biāo)志位所標(biāo)識(shí)截取方向,以相對(duì)于上述擴(kuò)展單元而言具有較小尺度的完整語(yǔ)義單元為單位,對(duì)備選文本進(jìn)行截取。相類似地,一次截取同樣是截取掉一個(gè)完整語(yǔ)義單元,被截取掉的且具有相對(duì)較小尺度的完整語(yǔ)義單元也是被預(yù)先定義的某些特定類型的邊界符號(hào)所限定的文本片斷,我們將在截取操作中采用的這些特定類型的邊界符號(hào)稱為截取型邊界符號(hào),由截取型邊界符號(hào)所限定的文本片斷稱為截取單元。例如,在本例中,逗號(hào)(“,”)所限定的分句作為截取單元,顯然作為截取單元的分句與作為擴(kuò)展單元的整句相比語(yǔ)義上的尺度較小。哪些類型的邊界符號(hào)作為所述截取型邊界符號(hào)也是預(yù)先定義好的,并被保存在截取邊界符號(hào)表當(dāng)中以供執(zhí)行中查詢。具體執(zhí)行過(guò)程中,與擴(kuò)展操作相類似,首先根據(jù)閱讀焦點(diǎn)之前和之后的文本長(zhǎng)度的比值來(lái)確定截取方向標(biāo)志位是首部截取還是尾部截取。由于閱讀焦點(diǎn)在當(dāng)前備選文本中的位置靠前,根據(jù)比值判斷將截取方向判斷為尾部截取,從備選文本尾部的最后一個(gè)非邊界符號(hào)的字符“送”字為起點(diǎn),向前依次讀取各字符直至達(dá)到“復(fù)雜的信息”后面的逗號(hào),經(jīng)查詢逗號(hào)(“,”)屬于截取邊界符號(hào)表中保存的截取型邊界符號(hào),因此將該逗號(hào)之后的文本片斷作為一個(gè)截取單元從備選文本當(dāng)中截取掉。經(jīng)過(guò)一次截取操作之后,按照上述方法判斷截取方向是否需要改變;然后判斷備選文本的長(zhǎng)度是否已經(jīng)小于所述預(yù)定長(zhǎng)度區(qū)間的上限;如果未小于該上限,則繼續(xù)根據(jù)截取方向以由截取型邊界符號(hào)所限定的截取單元為單位執(zhí)行截取,直至小于該上限;如果小于該上限后,即終止截取操作502。截取操作502完成之后,會(huì)判斷經(jīng)截取后的當(dāng)前備選文本是否會(huì)再次小于預(yù)定長(zhǎng)度區(qū)間的下限值。在本例中,由于被截取操作之后的引文文本不小于該下限,因此可以作為最終的引文文本。但在有些情況下,經(jīng)截取操作之后的備選文本可能又再次小于預(yù)定長(zhǎng)度區(qū)間的下限,這時(shí)就需要執(zhí)行步驟503所述的最小語(yǔ)義單元擴(kuò)展截取操作。關(guān)于最小語(yǔ)義單元的含義、實(shí)例和用于保存預(yù)定義的最小語(yǔ)義單元的最小語(yǔ)義單元集合,已經(jīng)在上文中詳細(xì)加以闡述。在步驟503中,即是以最小語(yǔ)義單元集合中所定義的最小語(yǔ)義單元為單位,以位于備選文本的首、尾部并且非邊界符號(hào)的字符為起點(diǎn),沿?cái)U(kuò)展方向?qū)λ鰝溥x文本進(jìn)行擴(kuò)展,一次擴(kuò)展一個(gè)最小語(yǔ)義單元;每次擴(kuò)展之后,同樣按照上文介紹的方向判斷擴(kuò)展方向是否需要調(diào)整,以及判斷所得到的備選引文長(zhǎng)度是否再次大于所述預(yù)定長(zhǎng)度區(qū)間的下限,直至大于該下限值。由于某些最小語(yǔ)義單元(如URL或郵箱地址)中包含的字符數(shù)可能很多,如果經(jīng)某一次最小語(yǔ)義單元擴(kuò)展之后,所述備選引文長(zhǎng)度又再次大于所述預(yù)定長(zhǎng)度區(qū)間的上限,則以位于備選文本的首、尾部并且非邊界符號(hào)的字符為起點(diǎn),沿截取方向以所述最小語(yǔ)義單元為單位對(duì)所述備選引文進(jìn)行截?。煌ㄟ^(guò)最小語(yǔ)義單元擴(kuò)展和截取的多次迭代,最終能夠獲得長(zhǎng)度處于預(yù)定長(zhǎng)度區(qū)間內(nèi)備選文本,作為所述引文文本。圖7示出了最終獲得的引文文本的頁(yè)面。為了實(shí)現(xiàn)上述方法,本發(fā)明還提供了一種引文自動(dòng)提取裝置。圖8示出了該裝置的整體結(jié)構(gòu)示意圖,其中包括焦點(diǎn)設(shè)定模塊801、引文長(zhǎng)度設(shè)定模塊802、文本分析模塊803、內(nèi)容提取模塊804、方向檢測(cè)模塊805、有效節(jié)點(diǎn)表806、擴(kuò)展邊界符號(hào)表807、截取邊界符號(hào)表808、最小語(yǔ)義單元集合809。其中,焦點(diǎn)設(shè)定模塊801用于在文本中人工或自動(dòng)選擇的字符或字符串作為閱讀焦點(diǎn);引文長(zhǎng)度設(shè)定模塊802用于由人工或者自動(dòng)預(yù)定義針對(duì)引文文本的所述預(yù)定長(zhǎng)度區(qū)間,并且根據(jù)該預(yù)定長(zhǎng)度區(qū)間計(jì)算所述備選引文允許長(zhǎng)度區(qū)間。內(nèi)容提取模塊804按照上文所介紹的方法,通過(guò)查詢有效節(jié)點(diǎn)表806中的有效節(jié)點(diǎn)類型,提取位于文本的有效結(jié)構(gòu)化節(jié)點(diǎn)之間且包含所述作為閱讀焦點(diǎn)的字符或字符串的初始備選文本。文本分析模塊803通過(guò)對(duì)所述初始備選文本進(jìn)行中英文字符統(tǒng)計(jì)等分析,判斷文本的語(yǔ)言類型;本裝置可以針對(duì)中文、英文等不同語(yǔ)言類型各自的語(yǔ)言特點(diǎn),分別預(yù)定義并保存各自的擴(kuò)展邊界符號(hào)表807、截取邊界符號(hào)表808、最小語(yǔ)義單元集合809;根據(jù)文本分析模塊803分析獲得的語(yǔ)言類型,內(nèi)容提取模塊804選用與該語(yǔ)言類型相對(duì)應(yīng)的擴(kuò)展邊界符號(hào)表807、截取邊界符號(hào)表808、最小語(yǔ)義單元集合809。進(jìn)而,內(nèi)容提取模塊804按照上文所述的方法,讀取并分析文本,通過(guò)查詢擴(kuò)展邊界符號(hào)表807、截取邊界符號(hào)表808和最小語(yǔ)義單元集合809,以擴(kuò)展單元、截取單元及最小語(yǔ)義單元等不同尺度的完整語(yǔ)義單元為單位執(zhí)行相應(yīng)的擴(kuò)展操作、截取操作及最小語(yǔ)義單元擴(kuò)展截取操作,在執(zhí)行上述操作的過(guò)程中,由方向檢測(cè)模塊805判斷擴(kuò)展或截取方向并相應(yīng)地更新擴(kuò)展方向標(biāo)志位和截取方向標(biāo)志位。最終,能夠獲得長(zhǎng)度處于預(yù)定長(zhǎng)度區(qū)間內(nèi)備選文本,作為所述引文文本。內(nèi)容提取模塊804預(yù)留相關(guān)接口與其它產(chǎn)品系統(tǒng)相聯(lián)接,其中涉及到內(nèi)容關(guān)聯(lián)機(jī)制。具體來(lái)說(shuō),從原來(lái)的文章段落抽離出來(lái)之后,引文不是完全獨(dú)立的主體,和原來(lái)的文檔還是有一定的關(guān)聯(lián),所以對(duì)于引文的某些操作結(jié)果可能會(huì)影響到原來(lái)文檔中的內(nèi)容。通過(guò)接口模塊810,本系統(tǒng)可以聯(lián)接上述其它產(chǎn)品系統(tǒng)并向其它產(chǎn)品系統(tǒng)提供抽取的引文文本。通過(guò)本發(fā)明的上述方法自動(dòng)提取的引文文本,其長(zhǎng)度符合預(yù)定長(zhǎng)度范圍,對(duì)微博、搜索引擎頁(yè)面等對(duì)引文文本長(zhǎng)度有嚴(yán)格限制的應(yīng)用環(huán)境具有良好適應(yīng)性;而且,由于每次的擴(kuò)張和截取操作都是以完整語(yǔ)義單元為單位展開的,能夠最大程度的保證語(yǔ)義完整性和可讀取,有利于讀者正確還原圍繞閱讀焦點(diǎn)的上下文場(chǎng)景,克服了現(xiàn)有技術(shù)中由于將具有完整語(yǔ)義的文本片斷中途截?cái)喽绊憣?duì)引文的閱讀和使用的缺陷。
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
丹凤县| 文安县| 贵德县| 泸溪县| 保定市| 滦南县| 八宿县| 抚宁县| 定州市| 正蓝旗| 烟台市| 兴海县| 类乌齐县| 临海市| 贵阳市| 慈利县| 苍山县| 霍林郭勒市| 榆社县| 离岛区| 林西县| 连州市| 温泉县| 长葛市| 剑川县| 嘉兴市| 忻城县| 丰台区| 漳州市| 博兴县| 茌平县| 大石桥市| 成武县| 新巴尔虎左旗| 余江县| 进贤县| 珠海市| 安丘市| 石门县| 怀宁县| 乌拉特后旗|