欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

采用凍結(jié)模式的文本分類(lèi)裝置、方法及程序的制作方法

文檔序號(hào):6440530閱讀:108來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):采用凍結(jié)模式的文本分類(lèi)裝置、方法及程序的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種裝置、方法以及存儲(chǔ)程序的存儲(chǔ)設(shè)備或存儲(chǔ)介質(zhì),該程序用來(lái)使計(jì)算機(jī)通過(guò)包含在文檔中的凍結(jié)模式來(lái)將文件分類(lèi)到每一種文件類(lèi)型。
背景技術(shù)
有很多方法被用來(lái)從多個(gè)的電子文檔中提取信息。然而,存在不同的文檔類(lèi)型,例如,(1)具有正確語(yǔ)法的語(yǔ)句的正式撰寫(xiě)的文檔,例如報(bào)紙上的文章;(2)具有語(yǔ)法錯(cuò)誤但可以理解并且經(jīng)常包括一些口頭語(yǔ)言的語(yǔ)句等的不太正式的文檔,例如電子公告板上的評(píng)論;(3)匆忙書(shū)寫(xiě)就的很不正式的文檔,例如日?qǐng)?bào)。據(jù)我們所知,沒(méi)有哪種文檔處理技術(shù)能夠統(tǒng)一處理這些不同類(lèi)型的文檔,因此給每一種文檔類(lèi)型選擇一種合適的文檔處理技術(shù)是必要的。因而將文檔分類(lèi)到每一種文檔類(lèi)型也是必要的。
一種已知的文檔分類(lèi)方法根據(jù)出現(xiàn)在文檔中的單詞的統(tǒng)計(jì)信息對(duì)文檔進(jìn)行分類(lèi)。例如JP6-75995A等公開(kāi)了一種使用某種類(lèi)別文檔中相應(yīng)關(guān)鍵詞的出現(xiàn)頻率作為與該類(lèi)別的相關(guān)度的方法。出現(xiàn)在某一類(lèi)別的輸入文檔中的單詞的相關(guān)度被累加或組合以計(jì)算對(duì)于每一類(lèi)別的相關(guān)度。輸入文檔被分入具有最大相關(guān)度的類(lèi)別。在JP9-16570A中,根據(jù)是否存在文檔信息預(yù)先形成一個(gè)決定分類(lèi)的決策樹(shù)。決策樹(shù)使用關(guān)鍵詞來(lái)決定分類(lèi)。在JP11-45247A中,通過(guò)計(jì)算輸入文檔與某一類(lèi)別中的典型文檔之間的相似度來(lái)給輸入文檔分類(lèi)。其它重要的現(xiàn)有技術(shù)的非專(zhuān)利參考文獻(xiàn)是JP6-75995A;JP9-16570A;JP11-45247A;“自然語(yǔ)言處理”(由Makoto Nagao等,IwanamiShoten編輯);J.Ross.Quinlan,“C4.5,學(xué)習(xí)型機(jī)器程序設(shè)計(jì)”(MorganKaufman Pubiliser(1993));“在線(xiàn)學(xué)習(xí)和加速應(yīng)用的決策理論概述”(YoavFreund和Robert Schapire,計(jì)算機(jī)和系統(tǒng)科學(xué)學(xué)報(bào),55(1)119-139,1997)。
在這些方法中,文檔被分解為單詞單元。因此,為了獲得關(guān)鍵詞,對(duì)像日文或中文這類(lèi)不是由單詞構(gòu)成語(yǔ)句的文檔執(zhí)行自然語(yǔ)言處理是必要的,所述處理例如是形態(tài)分析。
然而,由于存在不同的文檔類(lèi)型,例如報(bào)紙文章、論文、電子郵件,即使通過(guò)使用詞典等對(duì)文檔執(zhí)行不同的自然語(yǔ)言處理,因?yàn)樯~、縮寫(xiě)、書(shū)寫(xiě)錯(cuò)誤、語(yǔ)法錯(cuò)誤等出現(xiàn)的不同程度的原因,很難把不同類(lèi)型的文檔精確地分解為單詞單位。另外,由于這些方法主要使用一個(gè)單詞來(lái)指示內(nèi)容,例如一個(gè)名詞或關(guān)鍵詞,所以這些方法適于根據(jù)文檔的主題將其分類(lèi)。但是這些現(xiàn)有的方法不適于通過(guò)文檔類(lèi)型來(lái)分類(lèi)文檔,例如將輸入文檔分為報(bào)紙文章類(lèi)型、評(píng)論類(lèi)型等等。

發(fā)明內(nèi)容
本發(fā)明的一個(gè)目的是提供一種新的、改進(jìn)的設(shè)備及方法,這種設(shè)備和方法根據(jù)文檔類(lèi)型信息而非其主題通過(guò)文檔類(lèi)型將文檔分類(lèi)。
本發(fā)明的另一目的是根據(jù)原文分析而不依賴(lài)形態(tài)分析實(shí)現(xiàn)文檔分類(lèi)。
在具有同一文檔類(lèi)型的一組文檔中,對(duì)于表達(dá)方式(expressions)、句尾(ends of words)等等建立普通的特征模式。依據(jù)本發(fā)明的一個(gè)方面,經(jīng)常以這種方式出現(xiàn)在每一文檔類(lèi)型中的凍結(jié)模式(以下稱(chēng)為“特殊類(lèi)型凍結(jié)模式”)被作為每種文檔類(lèi)型的參考詞典。對(duì)于一個(gè)未分類(lèi)的輸入文檔,根據(jù)出現(xiàn)在文檔中特殊類(lèi)型凍結(jié)模式的外部狀態(tài),凍結(jié)模式列表被提取。對(duì)于每一文檔類(lèi)型根據(jù)凍結(jié)模式列表計(jì)算其置信度。根據(jù)文檔分類(lèi)的置信度確定輸入文檔所屬的文檔類(lèi)型。
如上所述,依據(jù)本發(fā)明的一個(gè)方面,實(shí)現(xiàn)按照文檔類(lèi)型分類(lèi),而不是按照各文檔主題分類(lèi)。通過(guò)把文檔分類(lèi)到各種文檔類(lèi)型,選擇適合于特定文檔類(lèi)型的文檔處理。由于凍結(jié)模式是指一種文檔類(lèi)型的特定表達(dá)方式,因此優(yōu)點(diǎn)是凍結(jié)模式受生詞和杜撰新詞等影響的可能性較小,而這些生詞和杜撰新詞等通常會(huì)導(dǎo)致文檔分類(lèi)出現(xiàn)問(wèn)題。
本發(fā)明的這些如上所述以及更進(jìn)一步的目的、特征和優(yōu)點(diǎn)通過(guò)下面具體實(shí)施方式
的詳細(xì)描述、特別是結(jié)合附圖的描述將會(huì)變得更加清楚明了。


圖1是包括本發(fā)明最佳實(shí)施例的文檔分類(lèi)設(shè)備示意圖。
圖2是凍結(jié)模式信息析取裝置的示意圖。
圖3是文檔分類(lèi)裝置示意圖。
圖4是文檔類(lèi)型決策樹(shù)的示例圖,這個(gè)決策樹(shù)決定一個(gè)文檔是屬于文檔類(lèi)型1還是其它的文檔類(lèi)型。
圖5是決定文件類(lèi)型的決策樹(shù)示例圖,這個(gè)決策樹(shù)用來(lái)輔助決定一個(gè)文檔是屬于文檔類(lèi)型2還是其它的文檔類(lèi)型。
圖6是特定類(lèi)型凍結(jié)模式的示意圖,所述凍結(jié)模式被分為第一群組(cluster)和第二群組。
圖7是文件類(lèi)型決策樹(shù)示例圖,其中這個(gè)決策數(shù)決定一個(gè)文檔是屬于文檔類(lèi)型2還是其它文檔類(lèi)型,這里文檔類(lèi)型2被分成子群組(sub-clusters)。
圖8是根據(jù)本發(fā)明中最佳實(shí)施例的文檔分類(lèi)算法流程圖。
圖9是實(shí)施本發(fā)明最佳實(shí)施例的設(shè)備模塊圖。
具體實(shí)施例方式
圖9是本發(fā)明的設(shè)備框圖,包括處理裝置外殼500,處理裝置包括存儲(chǔ)器510,中央處理單元(cpu)520,顯示部分530,輸入/輸出單元540。用戶(hù)把必要的信息輸入到輸入/輸出單元540中,中央處理單元520根據(jù)輸入/輸出單元540的輸入信息讀出存儲(chǔ)器510中的信息以便根據(jù)輸入信息執(zhí)行預(yù)定的處理和計(jì)算,并且在顯示器530上顯示處理和計(jì)算的結(jié)果。
圖1是文檔分類(lèi)裝置模塊示意圖,包括特殊類(lèi)型凍結(jié)模式詞典105,文檔類(lèi)型決策樹(shù)裝置106,凍結(jié)模式信息析取裝置102,和文檔分類(lèi)裝置103。特殊類(lèi)型凍結(jié)模式詞典105存儲(chǔ)特殊類(lèi)型凍結(jié)模式以便進(jìn)行特殊類(lèi)型凍結(jié)模式的析取。文檔類(lèi)型決策樹(shù)裝置106存儲(chǔ)文檔類(lèi)型的分類(lèi)規(guī)則。凍結(jié)模式信息析取裝置102析取包含在輸入文檔中的特殊類(lèi)型凍結(jié)模式。析取裝置從文檔中析取模式并且把特殊類(lèi)型凍結(jié)模式轉(zhuǎn)化為凍結(jié)模式列表的形式。通過(guò)使用存儲(chǔ)在文檔類(lèi)型決策樹(shù)裝置106中的決策樹(shù),文檔分類(lèi)裝置103由凍結(jié)模式列表決定輸入文檔的文檔類(lèi)型。
文檔類(lèi)型分類(lèi)的例子是(1)書(shū)寫(xiě)屬于語(yǔ)法正確的文檔的介紹性的文章,(2)屬于用口頭語(yǔ)言的文檔的電子公告板,(3)屬于匆忙書(shū)寫(xiě)的文檔的日?qǐng)?bào)。在本說(shuō)明書(shū)中,將以介紹性文章的文檔類(lèi)型(文檔類(lèi)型1)和電子公告板的文檔類(lèi)型(文檔類(lèi)型2)作為要分類(lèi)的文檔類(lèi)型的例子。
圖2是圖1中凍結(jié)模式信息析取裝置102的模塊圖。凍結(jié)模式信息析取裝置102包括原文分析裝置202和凍結(jié)模式列表產(chǎn)生裝置203,分析裝置202用于析取輸入文檔中存在的特殊類(lèi)型凍結(jié)模式。析取裝置102將輸入文檔轉(zhuǎn)化為凍結(jié)模式列表。原文分析裝置202對(duì)輸入文檔的每一個(gè)句子執(zhí)行文本綜合處理,同時(shí)參考特殊類(lèi)型凍結(jié)模式詞典105(圖1),從而析取存在于句子中的特殊類(lèi)型凍結(jié)模式。然后,凍結(jié)模式列表產(chǎn)生裝置203通過(guò)由原文分析裝置202析取的特殊類(lèi)型凍結(jié)模式將輸入文檔的每一個(gè)句子轉(zhuǎn)化為每種文檔類(lèi)型的凍結(jié)模式列表。
每種文檔類(lèi)型的特殊類(lèi)型凍結(jié)模式被存儲(chǔ)在供原文分析裝置202參考的特殊類(lèi)型凍結(jié)模式詞典中。下面表1中顯示的是文檔類(lèi)型1的特殊類(lèi)型凍結(jié)模式的例子。
表1.です。
.レてぃます。
.では.この.である。
.ですが、下面,表2中顯示的是存儲(chǔ)在特殊類(lèi)型凍結(jié)模式詞典105中的文檔類(lèi)型2的特殊類(lèi)型凍結(jié)模式的例子。
表2.つて.ですね。
.つた。
.なんで.んで.でレよぅか?.かな?要存儲(chǔ)在特殊類(lèi)型凍結(jié)模式詞典105中的特殊類(lèi)型凍結(jié)模式從一組文檔中自動(dòng)析取。文檔被預(yù)先分類(lèi)到每種文檔類(lèi)型。分類(lèi)后的文檔作為特殊類(lèi)型凍結(jié)模式詞典105被存儲(chǔ)。
析取方法的第一個(gè)步驟是從一組文檔中析取字符串,所述字符串是任意長(zhǎng)度字符串中具有較高的出現(xiàn)頻率。析取的字符串被作為候選的字符串。在“自然語(yǔ)言處理”(由Makoto Nagao等,Iwanami shoten編輯)中詳細(xì)描述了一個(gè)有效計(jì)算任意長(zhǎng)度字符串的頻率統(tǒng)計(jì)信息的方法。對(duì)于每一個(gè)候選字符,候選字符串的前面熵Ef從鄰近候選字符串前部的字符串集合(Wf={Wf1,Wf2,...,Wfn})計(jì)算,而候選字符串的后面熵Er從鄰近候選字符串后部的字符串集合(Wr={Wr1,Wr2,...,Wrm)計(jì)算。Wf和Wr根據(jù)表達(dá)式(1)-(4)進(jìn)行計(jì)算。
表達(dá)式1(1)---Ef=-Σi=1i⇐nPf(S,wfi)×logPf(s,wfi)]]>表達(dá)式2(2)---Ef=-Σi=1i⇐mPf(S,wri)×logPr(s,wri)]]>表達(dá)式3(3)---Pf(S,wfi)=f(wfiS)f(S)]]>表達(dá)式4(4)---Pr(S,wri)=f(Swfi)f(S)]]>在表達(dá)式(1)到(4)中,S是一個(gè)候選字符串,f(S)是候選字符串的出現(xiàn)次數(shù),f(wfiS)是字符串wfiS的次數(shù),wfi鄰近于S的前部,而f(Swri)是字符串Swri的出現(xiàn)次數(shù),wri鄰近于S的后部。如果字符串S前面鄰近于不同的字符串并且出現(xiàn)的可能性相同;也就是說(shuō),如果在字符串的前部有一個(gè)表達(dá)式的界限,熵的表達(dá)式(1)就具有一個(gè)大的值。相反地,如果字符串S鄰近于較少種類(lèi)的字符串并且出現(xiàn)的可能性不相同;也就是說(shuō),如果字符串S是一個(gè)包括鄰近字符的較大的表達(dá)式的一部分,字符串就具有一個(gè)小的值。類(lèi)似的,表達(dá)式(2)的熵具有(1)一個(gè)大的值,如果在字符串S的后部具有一個(gè)表達(dá)式界限;(2)一個(gè)小的值,如果字符串S是一個(gè)較大的表達(dá)式的一部分。然后,只有一個(gè)前面和后面的熵都大于適當(dāng)?shù)拈撝档暮蜻x字符串作為特殊類(lèi)型凍結(jié)模式被析取。
表3是從屬于文檔類(lèi)型1的一組文檔中獲得的候選字符串及其熵的例子。而表4是從屬于文檔類(lèi)型2的一組文檔中獲得的候選字符串及其熵的例子。
表3

表4

凍結(jié)模式列表產(chǎn)生裝置203為每一個(gè)句子產(chǎn)生一個(gè)凍結(jié)模式列表。例如,在輸入文檔具有N個(gè)句子并且存在M個(gè)要分類(lèi)的文檔類(lèi)型的情況下,凍結(jié)模式列表產(chǎn)生裝置203產(chǎn)生N×M的凍結(jié)模式列表。產(chǎn)生的每一個(gè)凍結(jié)模式列表是這樣一個(gè)列表,其中,列舉了對(duì)于每種文檔類(lèi)型的存儲(chǔ)在特殊類(lèi)型凍結(jié)模式詞典105中的特殊格凍結(jié)模式中出現(xiàn)在每個(gè)句子中的特殊類(lèi)型模式。在該文檔中,“なんでライセンスにこだわるのかな?Joi′x”將被作為輸入的例句1。表5是在輸入例句1被分類(lèi)時(shí)對(duì)于文檔類(lèi)型1和文檔類(lèi)型2的凍結(jié)模式列表表5
文檔類(lèi)型1{}文檔類(lèi)型2{なんで、んで、かな?}圖3是文檔分類(lèi)裝置103的模塊圖。文檔分類(lèi)裝置包括文檔類(lèi)型置信度計(jì)算裝置302,用來(lái)使用決策樹(shù)(文檔類(lèi)型決策樹(shù))計(jì)算每一個(gè)文檔類(lèi)型的置信度(文檔類(lèi)型置信度);文檔類(lèi)型相似度計(jì)算裝置303,用來(lái)由文檔類(lèi)型置信度計(jì)算每一個(gè)文檔類(lèi)型的相似度(文檔類(lèi)型相似度);和文檔類(lèi)型決定裝置304,用來(lái)根據(jù)文檔類(lèi)型相似度確定輸入文檔的文檔類(lèi)型。
每種文檔類(lèi)型的決策樹(shù)被存儲(chǔ)在供文檔類(lèi)型置信度計(jì)算裝置302參考的文檔類(lèi)型決策樹(shù)集合中。文檔類(lèi)型決策樹(shù)具有為每種文檔類(lèi)型析取的作為特征的特殊類(lèi)型凍結(jié)模式,并且查找在那一點(diǎn)的文檔類(lèi)型的分類(lèi)和置信度。存在兩種類(lèi)別的文檔類(lèi)型可供對(duì)輸入文檔通過(guò)決策樹(shù)進(jìn)行分類(lèi)。例如,在文檔類(lèi)型1的決策樹(shù)的情況下,類(lèi)別是文檔類(lèi)型1和其他的文檔類(lèi)型。文檔類(lèi)型決策樹(shù)從對(duì)于每種文檔類(lèi)型所分類(lèi)的一組文檔中獲得。
決策樹(shù)算法根據(jù)從具有特征向量和類(lèi)別的數(shù)據(jù)集合得到的理論標(biāo)準(zhǔn)信息產(chǎn)生樹(shù)形式的分類(lèi)規(guī)則。通過(guò)按照特征把數(shù)據(jù)集合遞歸地進(jìn)行劃分可以完成決策樹(shù)的結(jié)構(gòu)。關(guān)于決策樹(shù)在J.Ross.Quinlan的“C4.5,學(xué)習(xí)型機(jī)器程序設(shè)計(jì)”(Morgan Kaufman Pubiliser(1993))等相關(guān)文獻(xiàn)中有詳細(xì)描述。使用同樣的方法,例如文檔類(lèi)型1的文檔類(lèi)型決策樹(shù)通過(guò)產(chǎn)生由特征向量表示的數(shù)據(jù)集合和文檔類(lèi)型1所屬的類(lèi)別(文檔類(lèi)型1/另一個(gè)文檔類(lèi)型)而被建立,其特征在于文檔類(lèi)型1的特殊類(lèi)型凍結(jié)模式。
圖4是一種文檔類(lèi)型決策樹(shù)示意圖,其用于將文檔分類(lèi)成具有特殊類(lèi)型凍結(jié)模式(表1)的文檔類(lèi)型1或其它的文檔類(lèi)型,以將文檔類(lèi)型1作為其特征。圖5是另一種文檔類(lèi)型決策樹(shù)示意圖,其用于將文檔分類(lèi)成具有特殊類(lèi)型凍結(jié)模式(表2)的文檔類(lèi)型2或其它的文檔類(lèi)型,以將文檔類(lèi)型2作為其特征。圖4和圖5中每一個(gè)節(jié)點(diǎn)下面所示的凍結(jié)模式表示了用于分類(lèi)分配到每一個(gè)節(jié)點(diǎn)的數(shù)據(jù)的特征。每一個(gè)分支所附加的“是/否”代表與數(shù)據(jù)分類(lèi)相應(yīng)的特征值。節(jié)點(diǎn)/葉的上半部分顯示的值代表了分配給該節(jié)點(diǎn)/葉的數(shù)據(jù)所屬的類(lèi)別。另外,節(jié)點(diǎn)/葉的下半部分顯示的值代表了數(shù)據(jù)的可能性(置信度)。通過(guò)使用數(shù)據(jù)的分類(lèi)頻率分布,計(jì)算出該值,所述數(shù)據(jù)分配到屬于由節(jié)點(diǎn)/葉的上半部分所表示的分類(lèi)的每一個(gè)節(jié)點(diǎn)/葉。當(dāng)某個(gè)塊不具有向下延伸的分支時(shí),這個(gè)塊稱(chēng)作“葉”。當(dāng)某個(gè)塊具有向下延伸的分支時(shí),這個(gè)塊稱(chēng)作“節(jié)點(diǎn)”。
輸入句子所屬的文檔類(lèi)型以及在那一點(diǎn)的置信度可以通過(guò)使用圖4和圖5的文檔類(lèi)型決策樹(shù)進(jìn)行查找。對(duì)于輸入的例句“なんでライセンスにてだわるのかな?Joi′x”,從每個(gè)文檔類(lèi)型決策樹(shù)獲得的文檔類(lèi)型和置信度的結(jié)果顯示在表6中表6

由于輸入的例句1不包括文檔類(lèi)型1的任何特殊類(lèi)型凍結(jié)模式,文檔類(lèi)型1作為輸入例句1所屬的類(lèi)別被得到;根據(jù)沿著圖4中具有“否”特征值的分支(圖4(4-a)→(4-b)→(4-c)→(4-d)→(4-e)→(4-f))最終到達(dá)的葉,從文檔類(lèi)型決策樹(shù)中得出0.533作為圖4中文檔類(lèi)型的置信度。另外,由于輸入例句1包括文檔類(lèi)型2的特殊類(lèi)型凍結(jié)模式{“なんで”、“んで”、“かな”},文檔類(lèi)型2能夠作為輸入例句1所屬的類(lèi)別被查找,并且,根據(jù)沿著具有“是”的“なんで”的值的分支(圖5(5-a)→(5-b))最終到達(dá)的葉(圖5(5-b)),從文檔類(lèi)型決策樹(shù)中得出1.00作為圖5中文檔類(lèi)型2的置信度。
例如,在圖4中文檔類(lèi)型1的文檔類(lèi)型決策樹(shù)的情況下,由于文檔被分類(lèi)到文檔類(lèi)型1或者其他的文檔類(lèi)型,并且給出所分類(lèi)的文檔類(lèi)型的置信度,如果文檔被分類(lèi)到其它的文檔類(lèi)型,文檔類(lèi)型1的置信度不會(huì)從文檔類(lèi)型決策樹(shù)獲得。因此,如果文檔被分類(lèi)到其它的文檔類(lèi)型,文檔類(lèi)型1的置信度“C’”通過(guò)使用其它的文檔類(lèi)型的置信度“C”來(lái)計(jì)算,并且C’被用作文檔類(lèi)型1的置信度的值。
表達(dá)式5(5)C’=1-C表6是輸入例句1的置信度的例子。在表6中,對(duì)于輸入例句1,文檔類(lèi)型1的置信度通過(guò)使用圖4中文檔類(lèi)型決策樹(shù)進(jìn)行計(jì)算,而文檔類(lèi)型2的置信度通過(guò)使用圖5中文檔類(lèi)型決策樹(shù)進(jìn)行計(jì)算。輸入例句1是文檔類(lèi)型2中的句子。正如圖6中顯示的結(jié)果那樣,文檔類(lèi)型2的置信度高于文檔類(lèi)型1的置信度。然而,通常來(lái)說(shuō),僅僅使用一個(gè)決策樹(shù)不能實(shí)現(xiàn)高性能的分類(lèi)。一個(gè)已知的提高分類(lèi)性能的方法包括在學(xué)習(xí)型機(jī)器領(lǐng)域內(nèi)組合多個(gè)的分類(lèi)裝置,例如決策樹(shù)。
在“在線(xiàn)學(xué)習(xí)和加速應(yīng)用的理論決策推廣”(Yoav Freund和RobertSchapire,計(jì)算機(jī)和系統(tǒng)科學(xué)學(xué)報(bào),55(1)119-139,1997)中含有組合多個(gè)的分類(lèi)裝置的細(xì)節(jié)描述。一個(gè)相似的方法被用在圖1-9的分類(lèi)裝置中,通過(guò)為每種文檔類(lèi)型準(zhǔn)備多個(gè)的文檔類(lèi)型決策樹(shù),文檔類(lèi)型的分類(lèi)性能可望被提高。特別地,同一文檔類(lèi)型的特殊類(lèi)型凍結(jié)模式被分入多個(gè)數(shù)量的群組(cluster)。通過(guò)屬于每一群組作為特征的特殊類(lèi)型凍結(jié)模式,獲得每一群組的文檔類(lèi)型決策樹(shù)。對(duì)于每種文檔類(lèi)型,準(zhǔn)備了多個(gè)的文檔類(lèi)型決策樹(shù)。作為一種分組方法,由于從同一文檔類(lèi)型的一組文檔析取的特殊類(lèi)型凍結(jié)模式包括特殊類(lèi)型凍結(jié)模式,該特殊類(lèi)型凍結(jié)模式是可能出現(xiàn)在同一文檔中作為一定的特殊類(lèi)型凍結(jié)模式的特殊類(lèi)型凍結(jié)模式和較少出現(xiàn)在文檔中的特殊類(lèi)型凍結(jié)模式,這種特殊類(lèi)型凍結(jié)模式通過(guò)在可能出現(xiàn)在同一文檔中的特殊類(lèi)型凍結(jié)模式中執(zhí)行群集(clustering)來(lái)分組。圖6是一個(gè)通過(guò)將文檔類(lèi)型2的特殊類(lèi)型凍結(jié)模式分組為可能出現(xiàn)在同一文檔中的特殊類(lèi)型凍結(jié)模式而獲得的群組(clusters)的示例圖。
圖5中顯示的決策樹(shù)是一個(gè)從屬于圖6的群集1的特殊文檔類(lèi)型凍結(jié)模式作為特征中獲得的文檔類(lèi)型決策樹(shù)。然后,文檔類(lèi)型決策樹(shù)由作為特征屬于該群組的特殊文檔類(lèi)型凍結(jié)模式形成,借此可以為每種文檔類(lèi)型準(zhǔn)備多個(gè)的文檔類(lèi)型決策樹(shù)。圖7是一個(gè)決策樹(shù)的示意圖,得到該決策樹(shù),以通過(guò)圖6所示群組2的作為特征的特殊類(lèi)型凍結(jié)模式及包括凍結(jié)模式以及作為獲得數(shù)據(jù)的其它文檔類(lèi)型,來(lái)決定文檔是屬于文檔類(lèi)型2還是其它文檔類(lèi)型。
參照?qǐng)D8的流程圖,文檔分類(lèi)裝置的運(yùn)行過(guò)程描述如下400輸入一個(gè)文檔D401析取M×N凍結(jié)模式列表Vij,這里i(可供分類(lèi)的文檔類(lèi)型的數(shù)目)=M并且j(文檔中句子的數(shù)目)=N402初始化設(shè)置
403M次重復(fù)i404N次重復(fù)j405使用由凍結(jié)模式列表Vij得到的文檔類(lèi)型決策樹(shù)計(jì)算置信度向量Cij406計(jì)算第j個(gè)句子對(duì)于文檔類(lèi)型i的類(lèi)型相似度Lij407改變變量j408計(jì)算文檔類(lèi)型i對(duì)于輸入文檔的文檔類(lèi)型相似度SLi409改變變量i410把具有最大文檔類(lèi)型相似度的文檔類(lèi)型作為輸入文檔的文檔類(lèi)型411結(jié)束文檔分類(lèi)裝置最初接收一個(gè)M×N的凍結(jié)模式列表V,該列表在凍結(jié)模式的信息析取裝置中從輸入文檔中得到。然后,在步驟405中,置信度向量Cij=(Cij1,Cij2,...,Cijk,...,Cijl)由存儲(chǔ)在文檔類(lèi)型決策樹(shù)集合中的文檔類(lèi)型i的文檔類(lèi)型決策樹(shù)計(jì)算得到。向量Cij由文檔類(lèi)型i的凍結(jié)模式列表Vij計(jì)算。這里,Cijk是對(duì)于第j個(gè)句子由文檔類(lèi)型i的凍結(jié)模式列表利用第k個(gè)文檔類(lèi)型決策樹(shù)計(jì)算得到的類(lèi)型i的置信度,l是存儲(chǔ)在文檔類(lèi)型決策樹(shù)集合中對(duì)于文檔類(lèi)型i的文檔類(lèi)型決策樹(shù)的數(shù)目。在此實(shí)施例中,由于文檔類(lèi)型2被分為群組1和群組2,對(duì)于各自的群組1=2找到?jīng)Q策樹(shù)。隨后,在步驟406中,第j個(gè)句子對(duì)于文檔類(lèi)型i的類(lèi)型相似度Lij根據(jù)表達(dá)式6由置信度向量Cij計(jì)算得到。
表達(dá)式6(6)---Lij=Σk=1k⇐1αikCik]]>在表達(dá)式(6)中,αik是表示對(duì)于文檔類(lèi)型i第k個(gè)文檔類(lèi)型決策樹(shù)置信度的權(quán)重,給已滿(mǎn)足0≤αik≤1,∑αik=1的值。最好是,選擇對(duì)于計(jì)算的類(lèi)型相似度Lij的訓(xùn)練文檔能夠得到最大的正確答案率的αik的值。對(duì)于輸入文檔D每個(gè)句子的文檔類(lèi)型i的凍結(jié)模式列表Vij(1≤j≤N)重復(fù)執(zhí)行步驟405和406的處理。在步驟408中,在根據(jù)表達(dá)式7計(jì)算的N個(gè)類(lèi)型相似度查找輸入文檔對(duì)于文檔類(lèi)型i的文檔類(lèi)型相似度SLi。
表達(dá)式7
(7)---SLij=Σj=1j⇐nβjLij]]>在表達(dá)式(7)中,Lij是第j個(gè)句子對(duì)于文檔類(lèi)型i的類(lèi)似相似度。βj表示每一個(gè)句子的權(quán)重,給出一個(gè)滿(mǎn)足0≤βj≤1、βj=1的值。最好是,對(duì)于計(jì)算的類(lèi)型相似度SLi的訓(xùn)練文檔能夠得到最大的正確答案率的βj的值。對(duì)于每種文檔類(lèi)型i(1≤i≤M)重復(fù)執(zhí)行步驟405到408的處理。然后,在步驟410中,從M個(gè)計(jì)算的文檔類(lèi)型相似度SL中確定具有作為正確文檔類(lèi)型的最大相似度的文檔類(lèi)型作為輸入文檔的文檔類(lèi)型。
雖然上面詳細(xì)說(shuō)明了本發(fā)明的一個(gè)具體實(shí)施例,然而顯然,在不脫離后附權(quán)利要求所限定的本發(fā)明正確精神和范圍的情況下,可以對(duì)本發(fā)明具體實(shí)施方式
的細(xì)節(jié)做一些變化。例如,本發(fā)明適用于基于字母的語(yǔ)言并不局限于基于字符的語(yǔ)言,例如給出的日語(yǔ)例子。
權(quán)利要求
1.根據(jù)文檔類(lèi)型對(duì)輸入文檔進(jìn)行分類(lèi)的文檔分類(lèi)設(shè)備,包括處理裝置,用于(a)產(chǎn)生特殊類(lèi)型凍結(jié)模式以特征化文檔類(lèi)型;(b)通過(guò)將輸入文檔與特殊類(lèi)型固定模式進(jìn)行對(duì)照,從輸入文檔中析取為特征化列表的凍結(jié)模式;(c)根據(jù)凍結(jié)模式列表計(jì)算輸入文檔的文檔類(lèi)型置信度;(d)根據(jù)計(jì)算的置信度決定輸入文檔所屬的文檔類(lèi)型。
2.根據(jù)權(quán)利要求1的文檔分類(lèi)設(shè)備,其中處理裝置被安排用來(lái)通過(guò)下列步驟產(chǎn)生特殊類(lèi)型凍結(jié)模式以特征化文檔類(lèi)型(a)使用屬于已知文檔類(lèi)型的文檔集合來(lái)產(chǎn)生特殊類(lèi)型凍結(jié)模式;(b)根據(jù)出現(xiàn)在字符串前部和后部的字符集合的概率的熵,以出現(xiàn)在文檔中的任意字符串為目標(biāo)。
3.根據(jù)權(quán)利要求1的文檔分類(lèi)設(shè)備,其中處理裝置被安排用來(lái)通過(guò)使用屬于已知文檔類(lèi)型的被特殊類(lèi)型凍結(jié)模式特征化的文檔集合,來(lái)查找文檔類(lèi)型決策樹(shù)。
4.根據(jù)權(quán)利要求3的文檔分類(lèi)設(shè)備,其中處理裝置被安排用來(lái)通過(guò)下列步驟產(chǎn)生特殊類(lèi)型凍結(jié)模式以特征化輸入文檔(a)使用屬于已知文檔類(lèi)型的文檔集合來(lái)產(chǎn)生特殊類(lèi)型凍結(jié)模式;和(b)根據(jù)出現(xiàn)在字符串前部和后部的字符集合的出現(xiàn)概率的熵,以出現(xiàn)在文檔中的任意字符串為目標(biāo)。
5.根據(jù)權(quán)利要求4的文檔分類(lèi)設(shè)備,其中特殊類(lèi)型凍結(jié)模式被分為多個(gè)組,對(duì)于每一組作為特征的特殊類(lèi)型凍結(jié)模式,查找文檔類(lèi)型決策樹(shù)。
6.根據(jù)權(quán)利要求3的文檔分類(lèi)設(shè)備,其中特殊類(lèi)型凍結(jié)模式被分成多個(gè)組,對(duì)于每一組作為特征的特殊類(lèi)型凍結(jié)模式,查找文檔類(lèi)型決策樹(shù)。
7.一種特殊類(lèi)型凍結(jié)模式產(chǎn)生設(shè)備,用來(lái)產(chǎn)生特征化一個(gè)文檔類(lèi)型的特殊類(lèi)型凍結(jié)模式,所述設(shè)備包括一種裝置,用于(a)通過(guò)使用屬于已知文檔類(lèi)型的文檔集合來(lái)產(chǎn)生特殊類(lèi)型凍結(jié)模式;(b)根據(jù)出現(xiàn)在字符串前部和后部的字符集合的出現(xiàn)概率的熵,以出現(xiàn)在文檔中的任意字符串為目標(biāo)。
8.一種文檔分類(lèi)設(shè)備,用來(lái)把具有多個(gè)句子的輸入文檔根據(jù)文檔類(lèi)型進(jìn)行分類(lèi),所述設(shè)備包括處理裝置,用于(a)產(chǎn)生與文檔類(lèi)型相應(yīng)的特殊類(lèi)型凍結(jié)模式;(b)把特殊類(lèi)型凍結(jié)模式分成多個(gè)的組;(c)通過(guò)使用屬于已知文檔類(lèi)型的文檔集合,由劃分成多個(gè)組的特殊類(lèi)型凍結(jié)模式產(chǎn)生多個(gè)文檔類(lèi)型決策樹(shù);(d)使用相應(yīng)的特殊類(lèi)型凍結(jié)模式組,為輸入文檔析取各自的凍結(jié)模式列表;(e)通過(guò)使用多個(gè)文檔類(lèi)型決策樹(shù),根據(jù)相應(yīng)的凍結(jié)模式列表來(lái)計(jì)算輸入文檔對(duì)于文檔類(lèi)型的每個(gè)決策樹(shù)的置信度;以及(f)根據(jù)置信度決定輸入文檔所屬的文檔類(lèi)型。
9.一種根據(jù)文檔類(lèi)型將輸入文檔分類(lèi)的方法,包括(a)產(chǎn)生特征化文檔類(lèi)型的特殊類(lèi)型凍結(jié)模式;(b)通過(guò)將輸入文檔與特殊類(lèi)型凍結(jié)模式對(duì)照,從輸入文檔析取凍結(jié)模式列表;(c)根據(jù)凍結(jié)模式列表計(jì)算輸入文檔的文檔類(lèi)型置信度;和(d)根據(jù)置信度決定輸入文檔所屬的文檔類(lèi)型。
10.一種根據(jù)文檔類(lèi)型將輸入文檔分類(lèi)的方法,包括(a)產(chǎn)生特征化文檔類(lèi)型的特殊類(lèi)型凍結(jié)模式;(b)通過(guò)使用屬于已知文檔類(lèi)型的文檔集合來(lái)查找文檔類(lèi)型決策樹(shù);(c)通過(guò)將輸入文檔與特殊類(lèi)型凍結(jié)模式對(duì)照,從輸入文檔析取凍結(jié)模式列表;(d)通過(guò)使用文檔類(lèi)型決策樹(shù),根據(jù)凍結(jié)模式列表來(lái)計(jì)算輸入文檔的文檔類(lèi)型置信度;(e)根據(jù)計(jì)算后的置信度決定輸入文檔所屬的文檔類(lèi)型。
11.一種存儲(chǔ)文檔分類(lèi)程序的存儲(chǔ)設(shè)備或者存儲(chǔ)介質(zhì),該程序用來(lái)使計(jì)算機(jī)根據(jù)權(quán)利要求9的方法對(duì)輸入文檔進(jìn)行分類(lèi)。
12.一種存儲(chǔ)文檔分類(lèi)程序的存儲(chǔ)設(shè)備或者存儲(chǔ)介質(zhì),該程序用來(lái)使計(jì)算機(jī)根據(jù)權(quán)利要求10的方法對(duì)輸入文檔進(jìn)行分類(lèi)。
全文摘要
根據(jù)原文分析而不依賴(lài)形態(tài)分析,按文檔類(lèi)型將一個(gè)文檔進(jìn)行分類(lèi)。作為參考詞典為每一個(gè)文檔類(lèi)型準(zhǔn)備特殊類(lèi)型凍結(jié)模式。根據(jù)出現(xiàn)在文檔中的特殊類(lèi)型凍結(jié)模式的外部狀態(tài),為輸入文檔析取凍結(jié)模式列表。根據(jù)凍結(jié)模式列表和輸入文檔的檢測(cè)類(lèi)型來(lái)計(jì)算每個(gè)文檔類(lèi)型的置信度。
文檔編號(hào)G06F17/27GK1607526SQ20041009519
公開(kāi)日2005年4月20日 申請(qǐng)日期2004年10月7日 優(yōu)先權(quán)日2003年10月7日
發(fā)明者H·施米祖, S·納卡加瓦 申請(qǐng)人:惠普開(kāi)發(fā)有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
日喀则市| 弥勒县| 湟中县| 清河县| 眉山市| 南宁市| 涿鹿县| 荆州市| 崇义县| 鸡东县| 华坪县| 天门市| 德清县| 新闻| 民勤县| 卫辉市| 襄垣县| 高要市| 福泉市| 石楼县| 株洲市| 上虞市| 房山区| 伊金霍洛旗| 镶黄旗| 抚宁县| 清原| 五家渠市| 宣武区| 稻城县| 醴陵市| 泾川县| 柳河县| 邻水| 静乐县| 旌德县| 平潭县| 鄂托克前旗| 沙坪坝区| 皮山县| 武隆县|