專利名稱:標(biāo)識(shí)文檔內(nèi)的關(guān)鍵短語(yǔ)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及標(biāo)識(shí)文檔內(nèi)的關(guān)鍵短語(yǔ)的技術(shù)。
背景技術(shù):
I.背景和相關(guān)技術(shù)計(jì)算機(jī)系統(tǒng)和相關(guān)技術(shù)影響社會(huì)的許多方面。的確,計(jì)算機(jī)系統(tǒng)處理信息的能力已轉(zhuǎn)變了人們生活和工作的方式。計(jì)算機(jī)系統(tǒng)現(xiàn)在通常執(zhí)行在計(jì)算機(jī)系統(tǒng)出現(xiàn)以前手動(dòng)執(zhí)行的許多任務(wù)(例如,文字處理、日程安排和會(huì)計(jì)等)。最近,計(jì)算機(jī)系統(tǒng)彼此耦合并耦合到其他電子設(shè)備以形成計(jì)算機(jī)系統(tǒng)和其他電子設(shè)備可以在其上傳輸電子數(shù)據(jù)的有線和無(wú)線計(jì)算機(jī)網(wǎng)絡(luò)。因此,許多計(jì)算任務(wù)的執(zhí)行跨多個(gè)不同的計(jì)算機(jī)系統(tǒng)和/或多個(gè)不同的計(jì)算環(huán)境分布。對(duì)于許多組織而言,文檔很容易按量構(gòu)成最大信息資產(chǎn)。如此,按其顯著特征(諸如其關(guān)鍵詞和短語(yǔ))來(lái)表征文檔是一種重要的功能。用于表征文檔的一種技術(shù)包括使用在全文本倒排索引中挖掘文檔的全文本搜索解決方案。用于表征文檔的另一技術(shù)挖掘文檔級(jí)語(yǔ)義(例如,以標(biāo)識(shí)文檔之間的相似度)。 這兩種技術(shù)中任一種的正確實(shí)現(xiàn)可能需要在計(jì)算機(jī)硬件和個(gè)人資源兩方面進(jìn)行大量投資。此外,文檔解析、挖掘等操作通常在這兩種技術(shù)之間是重復(fù)的。如此,最終用戶因必須投資(可能多達(dá)雙倍)資源才能獲得搜索和對(duì)他們的文檔的語(yǔ)義洞察的好處而支付另外的成本。另外,許多更復(fù)雜的文檔挖掘技術(shù)需要將不同的系統(tǒng)集成在一起,并且導(dǎo)致進(jìn)一步的成本才能滿足一組織的文檔處理需求。
發(fā)明內(nèi)容
本發(fā)明涉及用于標(biāo)識(shí)文檔中的關(guān)鍵短語(yǔ)的方法、系統(tǒng),以及計(jì)算機(jī)程序產(chǎn)品。在一些實(shí)施例中,訪問(wèn)文檔。計(jì)算文檔內(nèi)多個(gè)不同文本短語(yǔ)的出現(xiàn)頻率。每一文本短語(yǔ)包括指定語(yǔ)言的一個(gè)或多個(gè)單詞。訪問(wèn)該指定語(yǔ)言的語(yǔ)言模型。該語(yǔ)言模型至少為該指定語(yǔ)言的各單詞定義期望出現(xiàn)頻率。對(duì)于多個(gè)不同文本短語(yǔ)中的每一文本短語(yǔ),計(jì)算文本短語(yǔ)的交叉熵值。交叉熵值是從文檔內(nèi)的文本短語(yǔ)出現(xiàn)頻率和指定語(yǔ)言內(nèi)的文本短語(yǔ)出現(xiàn)頻率計(jì)算出的?;谟?jì)算的交叉熵值從文檔內(nèi)選擇指定數(shù)量的統(tǒng)計(jì)上顯著的文本短語(yǔ)。用表示所選的指定數(shù)量的統(tǒng)計(jì)上顯著的文本短語(yǔ)的每一個(gè)的數(shù)據(jù)來(lái)填充關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)。在其他實(shí)施例中,訪問(wèn)包含多個(gè)文本短語(yǔ)的文檔。對(duì)于包含在文檔中的多個(gè)文本短語(yǔ)中的每一文本短語(yǔ),生成文本短語(yǔ)的位置列表。位置列表指示文檔內(nèi)的文本短語(yǔ)的一個(gè)或多個(gè)位置。對(duì)于包含在文檔中的多個(gè)文本短語(yǔ)中的每一文本短語(yǔ),將分?jǐn)?shù)分配給文本短語(yǔ)。相對(duì)于文本短語(yǔ)在訓(xùn)練數(shù)據(jù)集合中的出現(xiàn),該分?jǐn)?shù)基于文本短語(yǔ)的位置列表內(nèi)容。根據(jù)分配的分?jǐn)?shù)對(duì)多個(gè)文本短語(yǔ)排序?;谂判驈奈臋n內(nèi)選擇多個(gè)文本短語(yǔ)的子集。從所選的多個(gè)文本短語(yǔ)的子集填充關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)。
提供本發(fā)明內(nèi)容以便以簡(jiǎn)化的形式介紹將在以下的具體實(shí)施方式
中進(jìn)一步描述的一些概念。本發(fā)明內(nèi)容并非旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于幫助確定所要求保護(hù)的主題的范圍。本發(fā)明的附加特征和優(yōu)點(diǎn)將在以下描述中敘述,且其一部分根據(jù)本描述將是顯而易見(jiàn)的,或可通過(guò)對(duì)本發(fā)明的實(shí)踐來(lái)獲知。本發(fā)明的特征和優(yōu)點(diǎn)可通過(guò)在所附權(quán)利要求書(shū)中特別指出的工具和組合來(lái)實(shí)現(xiàn)和獲得。本發(fā)明的這些和其他特征將通過(guò)以下描述和所附權(quán)利要求書(shū)變得更加顯而易見(jiàn),或可通過(guò)對(duì)下文中所述的本發(fā)明的實(shí)踐來(lái)領(lǐng)會(huì)。
為了描述可獲得本發(fā)明的上述和其他優(yōu)點(diǎn)和特征的方式,將通過(guò)參考附圖中示出的本發(fā)明的具體實(shí)施例來(lái)呈現(xiàn)以上簡(jiǎn)要描述的本發(fā)明的更具體描述??梢岳斫?,這些附圖僅描述本發(fā)明的典型實(shí)施例,從而不被認(rèn)為是對(duì)其范圍的限制,本發(fā)明將通過(guò)使用附圖用附加特征和細(xì)節(jié)來(lái)描述和說(shuō)明,在附圖中圖I示出了便于標(biāo)識(shí)文檔內(nèi)的關(guān)鍵短語(yǔ)的示例計(jì)算機(jī)體系結(jié)構(gòu)。圖2示出了用于標(biāo)識(shí)文檔內(nèi)的關(guān)鍵短語(yǔ)的示例方法的流程圖。圖3示出了便于標(biāo)識(shí)文檔內(nèi)的關(guān)鍵短語(yǔ)的示例計(jì)算機(jī)體系結(jié)構(gòu)。圖4示出了用于標(biāo)識(shí)文檔內(nèi)的關(guān)鍵短語(yǔ)的示例方法的流程圖。
具體實(shí)施例方式本發(fā)明涉及用于標(biāo)識(shí)文檔中的關(guān)鍵短語(yǔ)的方法、系統(tǒng),以及計(jì)算機(jī)程序產(chǎn)品。訪問(wèn)一文檔。計(jì)算文檔內(nèi)多個(gè)不同文本短語(yǔ)的出現(xiàn)頻率。每一文本短語(yǔ)包括指定語(yǔ)言的一個(gè)或多個(gè)單詞。訪問(wèn)該指定語(yǔ)言的語(yǔ)言模型。語(yǔ)言模型至少為該指定語(yǔ)言的各單詞定義期望出現(xiàn)頻率。對(duì)于多個(gè)不同文本短語(yǔ)中的每一文本短語(yǔ),計(jì)算文本短語(yǔ)的交叉熵值。交叉熵值是從文檔內(nèi)的文本短語(yǔ)出現(xiàn)頻率和指定語(yǔ)言內(nèi)的文本短語(yǔ)出現(xiàn)頻率計(jì)算出的。基于計(jì)算的交叉熵值從文檔內(nèi)選擇指定數(shù)量的統(tǒng)計(jì)上顯著的文本短語(yǔ)。使用表示所選的指定數(shù)量的統(tǒng)計(jì)上顯著的每一文本短語(yǔ)的數(shù)據(jù)填充關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)。在其他實(shí)施例中,訪問(wèn)包含多個(gè)文本短語(yǔ)的文檔。對(duì)于包含在文檔中的多個(gè)文本短語(yǔ)中的每一文本短語(yǔ),生成文本短語(yǔ)的位置列表。位置列表指示文檔內(nèi)的文本短語(yǔ)的一個(gè)或多個(gè)位置。對(duì)于包含在文檔中的多個(gè)文本短語(yǔ)中的每一文本短語(yǔ),將分?jǐn)?shù)分配給文本短語(yǔ)。相對(duì)于文本短語(yǔ)在訓(xùn)練數(shù)據(jù)集合中的出現(xiàn),該分?jǐn)?shù)基于文本短語(yǔ)的位置列表的內(nèi)容。根據(jù)分配的分?jǐn)?shù)對(duì)多個(gè)文本短語(yǔ)排序?;谂判驈奈臋n內(nèi)選擇多個(gè)文本短語(yǔ)的子集。從所選的多個(gè)文本短語(yǔ)的子集填充關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)。本發(fā)明的各實(shí)施例可包括或利用專用或通用計(jì)算機(jī),該專用或通用計(jì)算機(jī)包括諸如例如一個(gè)或多個(gè)處理器和系統(tǒng)存儲(chǔ)器等計(jì)算機(jī)硬件,如以下更詳細(xì)討論的。本發(fā)明范圍內(nèi)的各實(shí)施例還包括用于攜帶或存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令和/或數(shù)據(jù)結(jié)構(gòu)的物理介質(zhì)和其他計(jì)算機(jī)可讀介質(zhì)。這些計(jì)算機(jī)可讀介質(zhì)可以是通用或?qū)S糜?jì)算機(jī)系統(tǒng)能夠訪問(wèn)的任何可用介質(zhì)。存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì)是計(jì)算機(jī)存儲(chǔ)介質(zhì)(設(shè)備)。攜帶計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì)是傳輸介質(zhì)。由此,作為示例而非限制,本發(fā)明的各實(shí)施例可包括至少兩種完全不同類(lèi)型的計(jì)算機(jī)可讀介質(zhì)計(jì)算機(jī)存儲(chǔ)介質(zhì)(設(shè)備)和傳輸介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)(設(shè)備)包括RAM、ROM、EEPROM、CD-ROM或其他光盤(pán)存儲(chǔ)、磁盤(pán)存儲(chǔ)或其他磁存儲(chǔ)設(shè)備、或可用于存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)形式的所需程序代碼裝置的且可由通用或?qū)S糜?jì)算機(jī)訪問(wèn)的任何其他介質(zhì)?!熬W(wǎng)絡(luò)”被定義為允許在計(jì)算機(jī)系統(tǒng)和/或模塊和/或其他電子設(shè)備之間傳輸電子數(shù)據(jù)的一個(gè)或多個(gè)數(shù)據(jù)鏈路。當(dāng)信息通過(guò)網(wǎng)絡(luò)或另一個(gè)通信連接(硬連線、無(wú)線、或者硬連線或無(wú)線的組合)傳輸或提供給計(jì)算機(jī)時(shí),該計(jì)算機(jī)將該連接適當(dāng)?shù)匾暈閭鬏斀橘|(zhì)。傳輸介質(zhì)可包括可用于攜帶計(jì)算機(jī)可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)形式的所需程序代碼裝置且可由通用或?qū)S糜?jì)算機(jī)訪問(wèn)的網(wǎng)絡(luò)和/或數(shù)據(jù)鏈路。上述的組合也應(yīng)被包括在計(jì)算機(jī)可讀介質(zhì)的范圍內(nèi)。此外,在到達(dá)各種計(jì)算機(jī)系統(tǒng)組件之后,計(jì)算機(jī)可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)形式的程序代碼裝置可從傳輸介質(zhì)自動(dòng)傳輸?shù)接?jì)算機(jī)存儲(chǔ)介質(zhì)(設(shè)備)(或反之亦然)。例如,通過(guò)網(wǎng)絡(luò)或數(shù)據(jù)鏈接接收到的計(jì)算機(jī)可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)可被緩存在網(wǎng)絡(luò)接口模塊(例如, “NIC”)內(nèi)的RAM中,然后最終被傳輸?shù)接?jì)算機(jī)系統(tǒng)RAM和/或計(jì)算機(jī)系統(tǒng)處的較不易失性的計(jì)算機(jī)存儲(chǔ)介質(zhì)(設(shè)備)。因而,應(yīng)當(dāng)理解,計(jì)算機(jī)存儲(chǔ)介質(zhì)(設(shè)備)可被包括在還利用 (甚至主要利用)傳輸介質(zhì)的計(jì)算機(jī)系統(tǒng)組件中。計(jì)算機(jī)可執(zhí)行指令例如包括,當(dāng)在處理器處執(zhí)行時(shí)使通用計(jì)算機(jī)、專用計(jì)算機(jī)、或?qū)S锰幚碓O(shè)備執(zhí)行某一功能或某組功能的指令和數(shù)據(jù)。計(jì)算機(jī)可執(zhí)行指令可以是例如二進(jìn)制代碼、諸如匯編語(yǔ)言之類(lèi)的中間格式指令、或甚至源代碼。盡管用結(jié)構(gòu)特征和/或方法動(dòng)作專用的語(yǔ)言描述了本主題,但可以理解,所附權(quán)利要求書(shū)中定義的主題不必限于上述特征或動(dòng)作。相反,上述特征和動(dòng)作是作為實(shí)現(xiàn)權(quán)利要求的示例形式而公開(kāi)的。本領(lǐng)域的技術(shù)人員將理解,本發(fā)明可以在具有許多類(lèi)型的計(jì)算機(jī)系統(tǒng)配置的網(wǎng)絡(luò)計(jì)算環(huán)境中實(shí)踐,這些計(jì)算機(jī)系統(tǒng)配置包括個(gè)人計(jì)算機(jī)、臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、消息處理器、手持式設(shè)備、多處理器系統(tǒng)、基于微處理器的或可編程消費(fèi)電子設(shè)備、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、移動(dòng)電話、PDA、尋呼機(jī)、路由器、交換機(jī)等等。本發(fā)明也可在其中通過(guò)網(wǎng)絡(luò)鏈接(或者通過(guò)硬連線數(shù)據(jù)鏈路、無(wú)線數(shù)據(jù)鏈路,或者通過(guò)硬連線和無(wú)線數(shù)據(jù)鏈路的組合)的本地和遠(yuǎn)程計(jì)算機(jī)系統(tǒng)兩者都執(zhí)行任務(wù)的分布式系統(tǒng)環(huán)境中實(shí)施。在分布式系統(tǒng)環(huán)境中,程序模塊可以位于本地和遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備二者中。一般而言,集成的數(shù)據(jù)流和提取-變換-加載流水線對(duì)數(shù)據(jù)庫(kù)表中的文檔大的語(yǔ)料庫(kù)進(jìn)行爬行、解析和斷詞??蓪⑽臋n分成多個(gè)元組。在某些實(shí)施例中,元組是{短語(yǔ),頻率}格式。短語(yǔ)可包括一個(gè)或多個(gè)單詞,并且頻率是文檔內(nèi)出現(xiàn)的頻率??蓪⒃M發(fā)送至基于啟發(fā)式的算法,該算法使用統(tǒng)計(jì)語(yǔ)言模型和權(quán)重+交叉熵閾值函數(shù)以將文檔概括為其 “前N個(gè)”統(tǒng)計(jì)上最顯著的短語(yǔ)。另選地,元組可以是包括{短語(yǔ),位置列表}的格式。位置列表列出了文檔內(nèi)短語(yǔ)的位置。將元組發(fā)送至關(guān)鍵詞提取算法(“KEX”)來(lái)計(jì)算,潛在地具有較高質(zhì)量(例如,噪音短語(yǔ)較少),一組文本上相關(guān)的標(biāo)簽。因此,可以按顯著和相關(guān)關(guān)鍵短語(yǔ)(標(biāo)簽)來(lái)表征文檔。正在處理多個(gè)文檔時(shí),每一元組還可包括文檔ID。圖I示出了便于標(biāo)識(shí)文檔內(nèi)的關(guān)鍵短語(yǔ)的示例計(jì)算機(jī)體系結(jié)構(gòu)100。參考圖1,計(jì)算機(jī)體系結(jié)構(gòu)100包括數(shù)據(jù)庫(kù)101、頻率計(jì)算模塊102、交叉熵計(jì)算模塊103、短語(yǔ)選擇器106和關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)107。所描繪的計(jì)算機(jī)系統(tǒng)中的每一個(gè)通過(guò)諸如例如局域網(wǎng) (“LAN”)、廣域網(wǎng)(“WAN”)或甚至因特網(wǎng)等網(wǎng)絡(luò)(或作為網(wǎng)絡(luò)的一部分)彼此連接。因此,所描繪的組件中的每一個(gè)以及任何其他連接的計(jì)算機(jī)系統(tǒng)及其組件都可以創(chuàng)建消息相關(guān)數(shù)據(jù)并通過(guò)網(wǎng)絡(luò)交換與消息相關(guān)數(shù)據(jù)(例如,網(wǎng)際協(xié)議(“IP”)數(shù)據(jù)報(bào)和利用IP數(shù)據(jù)報(bào)的其他更高層協(xié)議,諸如傳輸控制協(xié)議(“TCP”)、超文本傳輸協(xié)議(“HTTP”)、簡(jiǎn)單郵件傳輸協(xié)議(“SMTP”)等)。數(shù)據(jù)庫(kù)101實(shí)質(zhì)上可以是任何類(lèi)型的數(shù)據(jù)庫(kù)(例如,結(jié)構(gòu)化查詢語(yǔ)言(“SQL”)數(shù)據(jù)庫(kù)或其他關(guān)系數(shù)據(jù)庫(kù))。如所描繪的,數(shù)據(jù)庫(kù)101可以包含包括表109的一個(gè)或多個(gè)表。 數(shù)據(jù)庫(kù)101中的每個(gè)表可包括用于組織諸如文檔之類(lèi)數(shù)據(jù)的一行或多行以及一列或多列。 例如,表109包括包括文檔112和122的多個(gè)文檔。每一文檔可由對(duì)應(yīng)的文檔ID來(lái)標(biāo)識(shí)。 例如,文檔IDlll可標(biāo)識(shí)文檔112,文檔ID121可標(biāo)識(shí)文檔122,等等。頻率計(jì)算模塊102被配置為計(jì)算文檔內(nèi)文本短語(yǔ)出現(xiàn)的頻率。頻率計(jì)算模塊102 可接收文檔作為輸入。從該文檔,頻率計(jì)算模塊102可計(jì)算一個(gè)或多個(gè)文本短語(yǔ)在文檔中出現(xiàn)的頻率。文本短語(yǔ)可包括指定語(yǔ)言的一個(gè)或多個(gè)單詞。頻率計(jì)算模塊102可輸出文檔的短語(yǔ)列表和對(duì)應(yīng)的頻率。一般而言,交叉熵模塊103被配置為計(jì)算指定文檔中的短語(yǔ)與對(duì)應(yīng)的語(yǔ)言模塊中的相同短語(yǔ)之間的交叉熵。交叉熵計(jì)算模塊103可接收文檔的一個(gè)或多個(gè)短語(yǔ)列表以及對(duì)應(yīng)的出現(xiàn)頻率。交叉熵計(jì)算模塊103還可接收統(tǒng)計(jì)語(yǔ)言模型。統(tǒng)計(jì)語(yǔ)言模型可包括多個(gè)指定語(yǔ)言的單詞(或短語(yǔ)),并可定義該語(yǔ)言中多個(gè)單詞(或短語(yǔ))中每一個(gè)的期望出現(xiàn)頻率。交叉熵可測(cè)量指定文檔中短語(yǔ)的出現(xiàn)頻率相對(duì)語(yǔ)言模型中的短語(yǔ)出現(xiàn)頻率的“意外量”。例如,與語(yǔ)言模型相比,特定短語(yǔ)可以在指定文檔中以更高或更低的頻率出現(xiàn)。由此,交叉熵計(jì)算模塊103可被配置為計(jì)算指定文檔中短語(yǔ)的出現(xiàn)頻率與語(yǔ)言模型中該短語(yǔ)的出現(xiàn)頻率之間的交叉熵。在一些實(shí)施例中,期望出現(xiàn)頻率表示單詞(或短語(yǔ))在特定語(yǔ)言中一般多久出現(xiàn)一次。在其他實(shí)施例中,對(duì)特定文檔域調(diào)整期望出現(xiàn)頻率,諸如,例如,法律文檔、醫(yī)學(xué)文檔、 工程文檔、運(yùn)動(dòng)相關(guān)文檔、財(cái)務(wù)文檔等。在適當(dāng)時(shí),組合器104可將語(yǔ)言模型中的一個(gè)或多個(gè)單詞組合成包含在文檔中的短語(yǔ)。例如,組合器104可將單詞“年度”和“預(yù)算”組合成“年度預(yù)算”。組合器104還可從包含在短語(yǔ)中的各單詞的期望頻率來(lái)計(jì)算該短語(yǔ)的代表性期望頻率。例如,組合器103 可從“年度”的期望頻率和“預(yù)算”的期望頻率來(lái)計(jì)算“年度預(yù)算”的期望頻率。組合器104 可包括用于從各單詞的多個(gè)頻率推斷(例如,內(nèi)插、外插等)短語(yǔ)的期望頻率的算法。交叉熵計(jì)算模塊103可輸出一個(gè)或多個(gè)短語(yǔ)的列表以及對(duì)應(yīng)的交叉熵。短語(yǔ)選擇模塊106被配置為選擇短語(yǔ)以供包括在文檔的關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)中。短語(yǔ)選擇模塊106可接收一個(gè)或多個(gè)短語(yǔ)的列表以及對(duì)應(yīng)的交叉熵。短語(yǔ)選擇模塊106還可接收一個(gè)或多個(gè)選擇函數(shù)。短語(yǔ)選擇模塊106在交叉熵上應(yīng)用選擇函數(shù)來(lái)選擇短語(yǔ)的子集以供包括在文檔的關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)中。選擇函數(shù)可包括加權(quán)函數(shù)和/或閾值函數(shù)。所選的短語(yǔ)可被復(fù)制到文檔的關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)。
圖2示出了用于標(biāo)識(shí)文檔內(nèi)的關(guān)鍵短語(yǔ)的示例方法200的流程圖。方法200將參考計(jì)算機(jī)體系結(jié)構(gòu)200中的組件和數(shù)據(jù)來(lái)描述。方法200包括訪問(wèn)文檔的動(dòng)作(動(dòng)作201)。例如,頻率計(jì)算模塊102可訪問(wèn)文檔 112。方法200包括計(jì)算文檔內(nèi)多個(gè)不同文本短語(yǔ)的出現(xiàn)頻率的動(dòng)作,每一文本短語(yǔ)包括指定語(yǔ)言的一個(gè)或多個(gè)單詞(動(dòng)作202)。例如,頻率計(jì)算模塊102可計(jì)算文檔112內(nèi)諸如短語(yǔ)131、132和133之類(lèi)的多個(gè)文本短語(yǔ)的出現(xiàn)頻率。文檔112中的每一文本短語(yǔ)可包括指定語(yǔ)言(例如,英文、日文、中文、印度語(yǔ)等)的一個(gè)或多個(gè)單詞。短語(yǔ)的頻率可表示短語(yǔ)在文檔112中多久出現(xiàn)一次。例如,頻率141表示短語(yǔ)131 在文檔112中多久出現(xiàn)一次,頻率142表示短語(yǔ)132在文檔112中多久出現(xiàn)一次,頻率143 表示短語(yǔ)133在文檔112中多久出現(xiàn)一次等。頻率計(jì)算模塊102可計(jì)算文檔112內(nèi)其他附加短語(yǔ)的頻率。頻率計(jì)算模塊102可將短語(yǔ)和對(duì)應(yīng)的頻率發(fā)送至交叉熵計(jì)算模塊103。交叉熵計(jì)算模塊103可從頻率計(jì)算模塊102接收短語(yǔ)和對(duì)應(yīng)的頻率。方法200包括訪問(wèn)指定語(yǔ)言的語(yǔ)言模型的動(dòng)作,該語(yǔ)言模型至少為指定語(yǔ)言的各單詞定義期望出現(xiàn)頻率(動(dòng)作203)。例如,交叉熵計(jì)算模塊可訪問(wèn)統(tǒng)計(jì)語(yǔ)言模型159。統(tǒng)計(jì)語(yǔ)言模型159可定義文檔112的語(yǔ)言中的單詞的期望出現(xiàn)頻率。例如,單詞161具有期望頻率171,單詞162具有期望頻率172,等等。對(duì)于多個(gè)不同文本短語(yǔ)中的每一文本短語(yǔ),方法200包括計(jì)算文本短語(yǔ)的交叉熵值的動(dòng)作,該交叉熵值從文檔內(nèi)文本短語(yǔ)的出現(xiàn)頻率和指定語(yǔ)言內(nèi)文本短語(yǔ)的出現(xiàn)頻率來(lái)計(jì)算(動(dòng)作204)。例如,交叉熵計(jì)算模塊103可計(jì)算文檔112的短語(yǔ)的交叉熵,諸如短語(yǔ) 131、132、133等。短語(yǔ)131、132、133等的交叉熵可以從頻率141、142、143等和期望頻率 171、172等來(lái)計(jì)算。對(duì)于出現(xiàn)頻率高于期望頻率的短語(yǔ),可增大交叉熵。另一方面,對(duì)于出現(xiàn)頻率低于期望頻率的短語(yǔ),可減小交叉熵。在適當(dāng)時(shí),組合器104可從包含在短語(yǔ)中的一個(gè)或多個(gè)單詞的期望頻率來(lái)計(jì)算該短語(yǔ)的期望頻率。在一些實(shí)施例中,交叉熵根據(jù)以下代碼示例(其中ngram表示一短語(yǔ))計(jì)算
IanguageModel = SelectLanguageModel(document) candidates = empty topN priority queue; foreach((ngram, locations) in DNI[document])
8score = C omputeCros sEntropy (
document.GetSize(), locations.Length, //當(dāng)前文檔中實(shí)際的ngram頻率 IanguageModel.GetLogProb(ngram) //來(lái)自語(yǔ)言模型的期望 ngram
Iogprob ο
);
candidates.Add(ngram, score);
}
其中
ComputeCrossEntropy(numWordsInDocument, numOccurences, logprob)
{
/I我們獎(jiǎng)勵(lì)重復(fù)出現(xiàn);BoostMultiplier = 20。
if (numOccurences > I): numOccurences *= BoostMultiplier observedLogprob = Log 10(numOccurences/numWordsInDocument) raw Weight = logprob/observedLogprob /I平滑結(jié)果以更好地覆蓋范圍0-1
result = (((maxWeightCommonRange-minWeightCommonRange)/( maxLogprobCommonRange-minLogprobCommonRange)) * (rawWeight-minLogprobCommonRange))+minWeightCommonRange
if result < 0: result = 0 if result > I: result = I return result
}在一些實(shí)施例中,選擇minWeightCommonRange,maxWeightCommonRange 的一個(gè)或多個(gè)值以對(duì)結(jié)果進(jìn)行線性化。例如,可使用minWe i ghtCommonRange ( = O. I)且 maxWeightCommonRange ( = O. 9)來(lái)表示“值的普通范圍(O. 1-0. 9),而從0-1 “剩余的”部分(0-0. 1,以及O. 9-1)則留給極值。在一些實(shí)施例中,從實(shí)驗(yàn)結(jié)果計(jì)算minLogprobCommonRange和 maxLogprobCommonRange。例如,minLogprobCommonRange 可實(shí)驗(yàn)地計(jì)算為 2 和 12 (其中通常包括rawWeight的值的范圍)。
偽代碼可用于測(cè)量和獎(jiǎng)勵(lì)在給定文檔上下文中每一 n-gram(短語(yǔ))具有的“意外量”。即,與其期望頻率相比,n-gram越頻繁,它在該文檔中帶有的權(quán)重就越大。該意外量可更粗略地被測(cè)量為實(shí)際頻率/期望頻率。然而,ComputeCrossEntropy 函數(shù)提供了考慮文檔長(zhǎng)度的更復(fù)雜的測(cè)量。ComputeCrossEntropy函數(shù)平衡非常短的文檔和非常長(zhǎng)的文檔的信用。例如,ComputeCrossEntropy函數(shù)被配置為不給予非常短的文檔太多信用,也不從非常長(zhǎng)的文檔竊取太多信用。方法200包括基于已計(jì)算的交叉熵值從文檔內(nèi)選擇指定數(shù)量的統(tǒng)計(jì)上顯著文本短語(yǔ)的動(dòng)作(動(dòng)作205)。例如,交叉熵計(jì)算模塊103可基于已計(jì)算的交叉熵返回最大數(shù)量的首要候選。首要候選的數(shù)量可以是包含在文檔112中的全部或少于全部的某個(gè)數(shù)量的短語(yǔ),諸如,例如,短語(yǔ)131、132、133等。交叉熵計(jì)算模塊103可將首要候選的數(shù)量連同它們對(duì)應(yīng)的交叉熵值輸出至短語(yǔ)選擇器106。例如,短語(yǔ)131可與交叉熵151 —起輸出,短語(yǔ)132 可與交叉熵152 —起輸出,短語(yǔ)133可與交叉熵153 —起輸出,等等。短語(yǔ)選擇器106可從交叉熵計(jì)算模塊103接收首要候選的數(shù)量連同它們對(duì)應(yīng)的交叉熵值。短語(yǔ)選擇器106可應(yīng)用選擇函數(shù)158以過(guò)濾掉首要候選中的一個(gè)或多個(gè)。選擇函數(shù)可包括加權(quán)和/或閾值函數(shù)。加權(quán)函數(shù)可用于在關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)中對(duì)短語(yǔ)相關(guān)性進(jìn)行排序(基于交叉熵)。加權(quán)函數(shù)還可提供足夠詳細(xì)的關(guān)于文檔詳細(xì)性和短語(yǔ)相關(guān)性兩者的排序次序。閾值函數(shù)允許關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)維持在有損狀態(tài)中。閾值函數(shù)可用于刪除具有低于文檔的指定交叉熵閾值的交叉熵的短語(yǔ)。在選擇函數(shù)中可使用各種不同類(lèi)型的自由參數(shù),諸如,例如,交叉熵/對(duì)數(shù)概率、 詞頻、文檔長(zhǎng)度等。選擇函數(shù)的函數(shù)形式可任意選擇。例如,一些可能類(lèi)型的加權(quán)函數(shù)包括函數(shù)形式示例線性f(. ) = axl+bx2+c多項(xiàng)式f (· ) = axln+bx2n_1比率f(.) = axlVbx〗01f 皆數(shù) 2f(),ef()類(lèi)似地,閾值函數(shù)可以是f(.) <T的形式,或者是f(.)/g(.) <T%.的形式。在加權(quán)和閾值函數(shù)兩者被應(yīng)用時(shí),可以是短語(yǔ)選擇器106輸出從較相關(guān)至較不相關(guān)排序的一組短語(yǔ),其中最不相關(guān)的短語(yǔ)保持閾值相關(guān)性。例如,短語(yǔ)選擇器106可從文檔 112輸出一個(gè)或多個(gè)短語(yǔ),諸如,例如,短語(yǔ)132、191、192等。方法200包括用表示所選的指定數(shù)量的統(tǒng)計(jì)上顯著的每一文本短語(yǔ)的數(shù)據(jù)來(lái)填充關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)的動(dòng)作(動(dòng)作206)。例如,短語(yǔ)選擇器106可用短語(yǔ)132、191、192等填充關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)107。可將或不將短語(yǔ)連同對(duì)應(yīng)的權(quán)重一起存儲(chǔ)在關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)中。對(duì)于指定文檔,關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)可以是非規(guī)格化形式
標(biāo)簽
權(quán)利要求
1.一種在包括一個(gè)或多個(gè)處理器和系統(tǒng)存儲(chǔ)器的計(jì)算機(jī)系統(tǒng)處的用來(lái)標(biāo)識(shí)文檔內(nèi)的關(guān)鍵短語(yǔ)的方法,所述方法包括訪問(wèn)文檔(112)的動(dòng)作;計(jì)算所述文檔(112)內(nèi)多個(gè)不同文本短語(yǔ)(131,132,133)的出現(xiàn)頻率(141,142,143) 的動(dòng)作,每一文本短語(yǔ)(131,132,133)包括指定語(yǔ)言的一個(gè)或多個(gè)單詞;訪問(wèn)所述指定語(yǔ)言的語(yǔ)言模型(159)的動(dòng)作,所述語(yǔ)言模型(159)至少為所述指定語(yǔ)言的各單詞(161,162)定義期望出現(xiàn)頻率(171,172);對(duì)于所述多個(gè)不同文本短語(yǔ)(131,132,133)中的每一文本短語(yǔ),計(jì)算所述文本短語(yǔ)的交叉熵值(151,152,153)的動(dòng)作,所述交叉熵值(151,152,153)從所述文檔(112)內(nèi)所述文本短語(yǔ)的出現(xiàn)頻率(141,142,143)和所述指定語(yǔ)言內(nèi)所述文本短語(yǔ)的出現(xiàn)頻率(171, 172)來(lái)計(jì)算;基于所計(jì)算的交叉熵值(151,152,153)從所述文檔(112)內(nèi)選擇指定數(shù)量的統(tǒng)計(jì)上顯著的文本短語(yǔ)(132,191,192)的動(dòng)作;以及用表示所選的指定數(shù)量的統(tǒng)計(jì)上顯著的文本短語(yǔ)(132,191,192)中的每一個(gè)的數(shù)據(jù)來(lái)填充關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)(107)的動(dòng)作。
2.如權(quán)利要求I所述的方法,其特征在于,計(jì)算所述文檔內(nèi)多個(gè)不同文本短語(yǔ)的出現(xiàn)頻率的所述動(dòng)作,包括計(jì)算所述指定語(yǔ)言的單個(gè)單詞的出現(xiàn)頻率的動(dòng)作。
3.如權(quán)利要求I所述的方法,其特征在于,計(jì)算所述文檔內(nèi)多個(gè)不同文本短語(yǔ)的出現(xiàn)頻率的所述動(dòng)作包括,計(jì)算包含所述指定語(yǔ)言的一個(gè)或多個(gè)單詞的指定文本短語(yǔ)的出現(xiàn)頻率的動(dòng)作。
4.如權(quán)利要求3所述的方法,其特征在于,還包括推斷所述指定語(yǔ)言內(nèi)指定的文本短語(yǔ)的期望出現(xiàn)頻率的動(dòng)作,所推斷的期望出現(xiàn)頻率從所述一個(gè)或多個(gè)單詞的已定義的期望出現(xiàn)頻率推斷,至少第一單詞的所述已定義的出現(xiàn)頻率在所述語(yǔ)言模型中定義。
5.如權(quán)利要求I所述的方法,其特征在于,從所述文檔內(nèi)選擇指定數(shù)量的統(tǒng)計(jì)上顯著的文本短語(yǔ)的所述動(dòng)作包括,使用加權(quán)函數(shù)對(duì)所述多個(gè)不同文本短語(yǔ)相對(duì)于彼此的統(tǒng)計(jì)顯著性進(jìn)行加權(quán)的動(dòng)作。
6.如權(quán)利要求5所述的方法,其特征在于,使用加權(quán)函數(shù)對(duì)所述多個(gè)不同文本短語(yǔ)相對(duì)于彼此的統(tǒng)計(jì)顯著性進(jìn)行加權(quán)的所述動(dòng)作包括,使用對(duì)所述多個(gè)不同文本短語(yǔ)中的每一個(gè)考慮如下內(nèi)容的加權(quán)函數(shù)所述文檔內(nèi)所述文本短語(yǔ)的出現(xiàn)頻率、包含所述文檔的文檔的語(yǔ)料庫(kù)內(nèi)的所述文本短語(yǔ)的反文檔頻率、所述語(yǔ)言模型,和所述文檔的長(zhǎng)度。
7.如權(quán)利要求I所述的方法,其特征在于,還包括,在訪問(wèn)所述指定語(yǔ)言的語(yǔ)言模型之前將一個(gè)或多個(gè)搜索項(xiàng)輸入至搜索引擎的動(dòng)作,所述搜索項(xiàng)與包括在所述文檔中的文本短語(yǔ)相關(guān);從所述搜索引擎接收結(jié)果的動(dòng)作,所述結(jié)果包括包含所述一個(gè)或多個(gè)搜索項(xiàng)的文檔;以及從自所述搜索引擎返回的結(jié)果生成所述語(yǔ)言模型的動(dòng)作。
8.如權(quán)利要求I所述的方法,其特征在于,還包括,在訪問(wèn)所述指定語(yǔ)言的語(yǔ)言模型之前使用用戶選擇語(yǔ)句向數(shù)據(jù)庫(kù)查詢一個(gè)或多個(gè)數(shù)據(jù)庫(kù)索引的動(dòng)作;從所述數(shù)據(jù)庫(kù)接收查詢結(jié)果的動(dòng)作,所述查詢結(jié)果包括包含所述一個(gè)或多個(gè)數(shù)據(jù)庫(kù)索引的文檔;以及從所述查詢結(jié)果生成所述語(yǔ)言模型的動(dòng)作。
9.一種在包括一個(gè)或多個(gè)處理器和系統(tǒng)存儲(chǔ)器的計(jì)算機(jī)系統(tǒng)處的用來(lái)標(biāo)識(shí)文檔內(nèi)的關(guān)鍵短語(yǔ)的方法,所述方法包括訪問(wèn)包含多個(gè)文本短語(yǔ)(331,332,333)的文檔(312)的動(dòng)作;對(duì)于包含在所述文檔中的多個(gè)文本短語(yǔ)中的每一文本短語(yǔ)(331,332,333)生成所述文本短語(yǔ)的位置列表(341,342,343)的動(dòng)作,所述位置列表指示所述文檔內(nèi)所述文本短語(yǔ)的一個(gè)或多個(gè)位置;相對(duì)于所述文本短語(yǔ)在訓(xùn)練數(shù)據(jù)集合(359)中的出現(xiàn),基于所述文本短語(yǔ)的位置列表 (341,342,343)的內(nèi)容,為所述文本短語(yǔ)(331,332,333)分配分?jǐn)?shù)(351,342,353)的動(dòng)作; 根據(jù)所分配的分?jǐn)?shù)對(duì)所述多個(gè)文本短語(yǔ)排序的動(dòng)作;基于排序從所述文檔內(nèi)選擇所述多個(gè)文本短語(yǔ)的子集(332,393,394)的動(dòng)作;以及使用所選的多個(gè)文本短語(yǔ)的子集填充關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)(307)的動(dòng)作。
10.一種供在計(jì)算機(jī)系統(tǒng)處使用的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品實(shí)現(xiàn)一種用來(lái)標(biāo)識(shí)文檔內(nèi)的關(guān)鍵短語(yǔ)的方法,所述計(jì)算機(jī)程序產(chǎn)品包括其上存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令的一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令當(dāng)在處理器處執(zhí)行時(shí)使所述計(jì)算機(jī)系統(tǒng)執(zhí)行所述方法,其特征在于,所述方法包括以下動(dòng)作訪問(wèn)文檔(112);計(jì)算所述文檔(112)內(nèi)多個(gè)不同文本短語(yǔ)(131、132、133)的出現(xiàn)頻率(141、142、143), 每一文本短語(yǔ)(131、132、133)包括指定語(yǔ)言的一個(gè)或多個(gè)單詞;訪問(wèn)所述指定語(yǔ)言的語(yǔ)言模型(159),所述語(yǔ)言模型(159)至少為所述指定語(yǔ)言的各單詞(161,162)定義期望出現(xiàn)頻率(171,172);對(duì)于所述多個(gè)不同文本短語(yǔ)(131,132,133)中的每一文本短語(yǔ),計(jì)算所述文本短語(yǔ)的交叉熵值(151,152,153),所述交叉熵值(151,152,153)從所述文檔(112)內(nèi)所述文本短語(yǔ)的出現(xiàn)頻率(141,142,143)和所述指定語(yǔ)言內(nèi)所述文本短語(yǔ)的出現(xiàn)頻率(171,172)來(lái)計(jì)算;基于所計(jì)算的交叉熵值(151,152,153)從所述文檔(112)內(nèi)選擇指定數(shù)量的統(tǒng)計(jì)上顯著的文本短語(yǔ)(132,191,192);以及用表示所選的指定數(shù)量的統(tǒng)計(jì)上顯著的文本短語(yǔ)(132,191,192)中的每一個(gè)的數(shù)據(jù)填充來(lái)關(guān)鍵短語(yǔ)數(shù)據(jù)結(jié)構(gòu)(107)。
全文摘要
本發(fā)明涉及用于標(biāo)識(shí)文檔內(nèi)的關(guān)鍵短語(yǔ)的方法、系統(tǒng),以及計(jì)算機(jī)程序產(chǎn)品。本發(fā)明的實(shí)施例包括使用標(biāo)簽索引來(lái)確定文檔主要與什么相關(guān)。一般而言,集成的數(shù)據(jù)流和提取-變換-加載流水線對(duì)數(shù)據(jù)庫(kù)表中的文檔大的語(yǔ)料庫(kù)進(jìn)行爬行、解析和斷詞??蓪⑽臋n分成多個(gè)元組??蓪⒃M發(fā)送至基于啟發(fā)式的算法,該算法使用統(tǒng)計(jì)語(yǔ)言模型和權(quán)重+交叉熵閾值函數(shù)以將文檔概括為其“前N個(gè)”統(tǒng)計(jì)上最顯著的短語(yǔ)。因此,本發(fā)明的實(shí)施例有效地(例如,線性地)擴(kuò)展,并可按顯著和相關(guān)關(guān)鍵短語(yǔ)(標(biāo)簽)表征(潛在大量的)文檔。
文檔編號(hào)G06F17/30GK102591914SQ20111041524
公開(kāi)日2012年7月18日 申請(qǐng)日期2011年12月2日 優(yōu)先權(quán)日2010年12月3日
發(fā)明者K·穆克吉, S·蓋爾曼 申請(qǐng)人:微軟公司