專利名稱:用于文檔的向量分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語言處理,包含文檔的檢索、分類和摘要,并且更具體地說,涉及表示文檔的方法、從輸入的文檔中抽取重要部分的方法和確定文檔間的相似性的方法。
上述參考文獻(xiàn)描述了一種動態(tài)文檔摘要技術(shù)。當(dāng)將檢索結(jié)果提供給用戶時(shí),該結(jié)果向用戶指出文檔中與用戶的查詢有關(guān)的重要部分作為摘要并且?guī)椭脩粞杆贉?zhǔn)確地確定檢索出的文檔是否與查詢匹配。上述參考文獻(xiàn)還描述了一種普通的方法,即檢索反映與查詢的相關(guān)性的重要句子的方法。在此方法中,將利用文檔內(nèi)的詞語的出現(xiàn)頻率計(jì)算出的文檔重要性添加到根據(jù)查詢詞語在對象文檔內(nèi)出現(xiàn)的頻率的得分之上。
對于自動文檔分類和文檔檢索而言,確定文檔相似性的過程是根本的,特別是對于檢索與用戶指定的文檔類似的文檔的基于相似性的檢索。在確定文檔相似性的過程中,文檔經(jīng)常以向量形式表示。在下面的描述中,由整個(gè)文檔生成的向量稱為文檔向量,由文檔的一部分生成的向量稱為文檔片段向量,并且,特別是,由一個(gè)句子生成的向量稱為句子向量。用于確定文檔向量的元素值的公知的方法有多種,比如,將相關(guān)文檔中的每個(gè)詞語的出現(xiàn)頻率與預(yù)先確定的值進(jìn)行比較而賦予每個(gè)向量元素1或0的方法、利用出現(xiàn)頻率的方法以及給出通過將出現(xiàn)頻率乘以相應(yīng)的詞語出現(xiàn)于其中的文檔數(shù)與總文檔數(shù)之比的倒數(shù)的對數(shù)所得到的值的方法。此種文檔表示方法通常應(yīng)用于向量空間模型中。
此種文檔向量指示哪些詞語在文檔中出現(xiàn)及其在文檔中出現(xiàn)頻率。由于一般認(rèn)為文檔概念是由文檔中有哪些詞語出現(xiàn)及其出現(xiàn)頻率表示的,所以取得的文檔向量的方向可以看作是表示文檔概念。除此之外,文檔中詞語的出現(xiàn)頻率與向量范數(shù)有關(guān)。取得的文檔向量的平方范數(shù)值可看作是表示相關(guān)文檔的強(qiáng)度或能量。
經(jīng)常使用兩個(gè)向量之間的余弦度量的相似性來確定由向量表示的兩個(gè)文檔之間的相似性。這一相似性的定義是兩個(gè)向量的內(nèi)積除以每個(gè)向量的范數(shù)而得到的值。由于文檔向量的方向表示上述的概念,此種相似性不反映文檔之間的能量差,而的確只反映概念差。
本發(fā)明的目的在于提供一種用于從一給定的文檔抽取重要句子和/或確定兩個(gè)文檔的相似性的文檔分析方法和將文檔表示為適于文檔分析方法的方法。
在從文檔中抽取重要句子時(shí),具有接近有關(guān)文檔的中心概念的概念的句子應(yīng)該獲得高優(yōu)先級。因此,確定文檔的中心概念和獲得每個(gè)句子和整個(gè)文檔之間的概念的關(guān)系是根本的。然而,在普通的以每個(gè)詞語的權(quán)重和定義句子重要性的方法中,并非永遠(yuǎn)清楚句子的重要性如何反映文檔的中心概念。結(jié)果,較長的句子多半被抽取為重要句子只是因?yàn)樗鼈冮L。除此之外,由于普通的方法得不到每個(gè)句子和整個(gè)文檔之間的概念的關(guān)系,就無法保證概念與相關(guān)文檔的中心概念接近的句子永遠(yuǎn)可受到抽取。
在從文檔中抽取重要并與查詢相關(guān)的句子時(shí),經(jīng)常采用一種可獲得查詢中的詞語在目標(biāo)句子中的頻率的方法。在此場合,如查詢和目標(biāo)句子兩者不具有同一詞語,則得分為零。實(shí)際上,即使是在查詢和目標(biāo)句子兩者之中不包含共同詞語,如果頻繁在文檔中共同出現(xiàn)的一對詞語中的一個(gè)包含在查詢中,而另一個(gè)包含在目標(biāo)句子中,最好是得到非零相關(guān)性。比如,假設(shè)有一個(gè)文檔包含一段引入“Tokyo”和“Ginza”之間的關(guān)系的段落。當(dāng)用戶發(fā)出一個(gè)包含“Tokyo”的查詢時(shí),系統(tǒng)最好是能夠向用戶提供包含“Ginza”的句子以及包含“Tokyo”的句子。
在確定兩個(gè)文檔的相似性時(shí),普通的方法是利用單個(gè)向量表示文檔。在此種方法中,一直存在向量表示的概念有歧義的問題和不能表示概念的擴(kuò)展的問題。比如,假設(shè)a、b、c和d分別表示一定的詞語。包含組合a-b和c-d的文檔應(yīng)該與其他包含組合a-c和b-d的文檔互相區(qū)別,因?yàn)樵搩蓚€(gè)文檔似乎表示不同的概念。然而,采用普通的向量表示法時(shí),兩個(gè)文檔的向量將是一樣的,這意味著難于區(qū)別兩個(gè)文檔。此外,由于文檔通常是由很多句子構(gòu)成的并且每個(gè)句子具有其自己的概念,由此文檔表示的概念發(fā)生擴(kuò)展。但是,很難利用單個(gè)向量表示文檔概念的此種擴(kuò)展。這樣,由于在普通的方法中文檔概念的表示不精確,在普通的文檔檢索和分類處理中一直難于正確地取得文檔之間的相似性。
根據(jù)本發(fā)明的另一個(gè)方面,從輸入文檔抽取重要文檔段。更具體言之,提供一種方法,其構(gòu)成包括檢測在輸入文檔中出現(xiàn)的詞語;將輸入文檔分割為文檔段,每個(gè)文檔段都是大小合適的塊;生成文檔段向量,每個(gè)向量包含根據(jù)出現(xiàn)于文檔段中的詞語的出現(xiàn)頻率的值作為其元素;計(jì)算平方和矩陣的本征值和本征向量;從本征向量中選擇用來確定重要性的多個(gè)本征向量;計(jì)算各個(gè)文檔段向量在各個(gè)選擇的本征向量上的平方投影的加權(quán)和;以及根據(jù)各個(gè)文檔段向量的平方投影的計(jì)算加權(quán)和選擇具有顯著重要性文檔段。
根據(jù)本發(fā)明的再一個(gè)方面,從輸入文檔檢索與查詢具有一定相關(guān)性的文檔段。更具體言之,提供一種方法,其構(gòu)成包括檢測在輸入文檔中出現(xiàn)的詞語;將輸入文檔分割為文檔段,每個(gè)文檔段都是大小合適的塊;生成文檔段向量,每個(gè)向量包含根據(jù)出現(xiàn)于各個(gè)文檔段中的詞語的出現(xiàn)頻率的值作為其元素;計(jì)算文檔段向量的平方和矩陣的本征值和本征向量以確定子空間;檢測出現(xiàn)于查詢中的查詢詞語以生成查詢向量,每個(gè)向量包含根據(jù)各個(gè)查詢詞語的出現(xiàn)頻率的值作為其元素以便將查詢向量投影到子空間;以及將每個(gè)文檔段向量投影到子空間以計(jì)算查詢與每個(gè)文檔段的相關(guān)性。
根據(jù)本發(fā)明的另外一個(gè)方面,確定給定的兩個(gè)輸入文檔之間的相似性。更具體言之,提供一種方法,其構(gòu)成包括檢測在輸入文檔中出現(xiàn)的詞語;將每個(gè)輸入文檔分割為各個(gè)文檔段,每個(gè)文檔段都是大小合適的塊;生成文檔段向量,每個(gè)向量包含根據(jù)出現(xiàn)于各個(gè)文檔段中的詞語的出現(xiàn)頻率的值作為其元素;對每個(gè)輸入文檔計(jì)算包含于各個(gè)輸入文檔中的所有文檔向量的組合的平方內(nèi)積;以及根據(jù)平方內(nèi)積的和確定這兩個(gè)輸入文檔之間的相似性。
在本發(fā)明的用來確定兩個(gè)輸入文檔之間的相似性的另一個(gè)實(shí)施方式中,提供一種方法,其構(gòu)成包括計(jì)算兩個(gè)輸入文檔之一的文檔段向量的平方和矩陣的本征值和本征向量;從計(jì)算出的本征向量中選擇與較大的本征值相對應(yīng)的本征向量作為基向量;計(jì)算兩個(gè)輸入文檔中的另一個(gè)文檔的文檔段向量和每個(gè)基向量之間的平方內(nèi)積的加權(quán)和;以及根據(jù)平方內(nèi)積的加權(quán)和確定這兩個(gè)輸入文檔之間的相關(guān)性。
在本發(fā)明的用來確定兩個(gè)輸入文檔之間的相似性的再一個(gè)實(shí)施方式中,提供一種方法,其構(gòu)成包括計(jì)算兩個(gè)輸入文檔每一個(gè)的文檔段向量的平方和矩陣的本征值和本征向量;從計(jì)算出的兩個(gè)輸入文檔中的每一個(gè)文檔的本征向量中選擇與較大的本征值相對應(yīng)的本征向量作為基向量;計(jì)算所選擇的基向量的組合的平方內(nèi)積的加權(quán)和;以及根據(jù)平方內(nèi)積的加權(quán)和確定這兩個(gè)輸入文檔之間的相關(guān)性。
圖2為示出根據(jù)本發(fā)明的一個(gè)實(shí)施方式的用來檢索與查詢有相關(guān)性的文檔段的系統(tǒng)的功能方塊圖。
圖3為示出根據(jù)本發(fā)明的一個(gè)實(shí)施方式的用來確定兩個(gè)文檔之間的相似性的系統(tǒng)的功能方塊圖。
圖4為示出根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的用來確定兩個(gè)文檔之間的相似性的另一系統(tǒng)的功能方塊圖。
圖5為示出維數(shù)L和概念子空間的代表性例子之間關(guān)系的曲線圖,其情況為從一篇由58個(gè)句子和1100個(gè)詞構(gòu)成的新聞文章中抽取名詞生成具有146維的句子向量。
圖6為示出本征值和本征向量例子的表。
在句子和查詢之間的相關(guān)性或關(guān)聯(lián)性的確定方法如下根據(jù)查詢向量在每個(gè)基向量上的平方投影值對每個(gè)基向量加權(quán)并取得每個(gè)句子向量在每個(gè)基向量上的平方投影的加權(quán)和作為相關(guān)性或關(guān)聯(lián)性。
根據(jù)本發(fā)明的一個(gè)實(shí)施方式,根據(jù)每個(gè)句子對文檔的中心概念的貢獻(xiàn)賦予每個(gè)句子的重要性使得從文檔中精確抽取重要句子變得容易。重要性也使得可以對句子按照其重要性進(jìn)行排序并控制所抽取的句子的長度與整個(gè)文檔的比值。此外,文檔的中心概念的范圍可通過改變子空間的維數(shù),即有待組合的基向量的數(shù)目,進(jìn)行修改,使得可以控制所抽取的句子的概念的擴(kuò)展。子空間的維數(shù)越少,概念的擴(kuò)展越窄。
在計(jì)算句子和查詢之間的相關(guān)性時(shí),由于此方法是基于句子和查詢之間的概念的共性,可以得到非零相關(guān)性,只要句子和查詢的概念是共同的,即使是在句子和查詢中沒有相同詞語出現(xiàn)。
圖1為示出本發(fā)明的一個(gè)實(shí)施方式的整個(gè)過程的功能方塊圖。這一實(shí)施方式可通過在通用計(jì)算機(jī)上執(zhí)行程序而實(shí)現(xiàn)。
在圖1中,有詞語檢測塊11、形態(tài)分析塊12、文檔分割塊13、文檔段向量生成塊14、平方和矩陣計(jì)算塊15、本征值和本征向量計(jì)算塊16、子空間判定塊17、重要性計(jì)算塊18、文檔段排序塊19和文檔段選擇塊20。在此實(shí)施方式的下面描述中引用的是英文文檔。
首先,詞語檢測塊11從輸入文檔中檢測單詞和符號序列,如數(shù)字。此處一般將單詞和符號序列稱為“詞語”。在英文文檔的場合,容易檢測詞語,因?yàn)樵谟⑽恼址ㄖ懈髟~語總是分開書寫中間留有空格。形態(tài)分析塊12執(zhí)行形態(tài)分析,如對每個(gè)詞語賦予詞類。
文檔分割塊13將文檔分割為文檔段。文檔分割的最基本過程是從文檔分割為句子。在英文文檔的場合,容易將文檔分割為句子,因?yàn)榫渥油ǔR院竺嬷辽俑粋€(gè)空格的句號結(jié)束。也可采用其他的分割方法;比如將數(shù)個(gè)句子組合形成一個(gè)文檔段并且所有的文檔段都包含同樣數(shù)目的句子,或是可將文檔分割為文檔段并使每個(gè)文檔段都包含同樣數(shù)目的詞語而不管句子之間的任何界限。
文檔段向量生成塊14計(jì)算要從出現(xiàn)在整個(gè)文檔中的詞語生成的向量的維數(shù)并確定每個(gè)向量元素和每個(gè)詞語之間的對應(yīng)關(guān)系。應(yīng)該指出,不需要對出現(xiàn)于文檔中的所有各種詞語都賦予向量元素。比如,利用賦予詞類的過程的結(jié)果,就可以只利用在此過程中斷定為名詞或動詞的詞語來生成文檔段向量。之后,文檔段向量生成塊14取得出現(xiàn)在每個(gè)文檔段中的詞語的種類及每一類詞語的出現(xiàn)頻率,并確定相應(yīng)的向量元素的值而生成文檔段向量。也可使用普通的方法對每個(gè)元素值賦予權(quán)重。
下面假設(shè)文檔D是由N個(gè)句子組成的,其中一組單詞由{w1,...,wk}給出,而文檔D的第n個(gè)句子的向量定義為dn=(dn1,...,dnk),其中dnk表示單詞wk在第n個(gè)句子中的出現(xiàn)頻率或加權(quán)值。
平方和矩陣計(jì)算塊15計(jì)算每個(gè)文檔段向量的平方和矩陣。平方和矩陣A=(Aab)以下面的等式計(jì)算Aab=Σn=1Ndnadnb---(1)]]>本征值和本征向量計(jì)算塊16計(jì)算矩陣A的本征值和本征向量。計(jì)算出的m維本征向量和本征值分別稱為Φm和λm。由于Φm是由一組詞語表示的向量,可認(rèn)為是表示一個(gè)概念。可以認(rèn)為Φm表示第m本征概念,因?yàn)樗俏ㄒ坏貙斎胛臋n確定的。在所有的句子段中Φ1表示最共同的概念,因?yàn)樗械木渥酉蛄吭讦?上的平方投影和大于在任何其他向量上的平方投影和。由于λ1是平方投影和本身,可以認(rèn)為它表示對Φ1表示的概念的強(qiáng)度或能量。Φ2是在Φ2與Φ1正交的限制下給出最大平方投影和的軸線。對于高階本征向量,如Φ3等等,同一關(guān)系也成立。
如上所述取得的本征向量作為基向量應(yīng)用于近似一組文檔段向量的子空間。如使用L個(gè)本征向量,子空間的維數(shù)為L,這意味著輸入文檔的概念已經(jīng)擴(kuò)展為L個(gè)互相正交的本征概念。子空間可以稱為概念子空間。之后子空間判定塊17具體判定L的值。假設(shè)R是矩陣A的秩,文檔將具有R個(gè)概念,因?yàn)閺木仃嘇可得到R個(gè)本征向量。子空間表示利用R個(gè)概念之外的L個(gè)概念的中心概念。下面的表達(dá)式可表示中心概念占據(jù)固有概念達(dá)到的程度,換言之,子空間表示整個(gè)文檔的概念達(dá)到的程度。Σm=1Lλm/Σm=1Rλm---(2)]]>這個(gè)表達(dá)式可用作實(shí)際確定L值的指南。改變L值使得可控制文檔的中心概念的擴(kuò)展,結(jié)果控制抽取的重要文檔段的概念的擴(kuò)展。
重要性計(jì)算塊18計(jì)算每個(gè)文檔段向量在子空間上的投影值的平方以取得文檔段的重要性。設(shè)zn=(zn1,zn2,...,znL)是dn投影后的向量,在第m個(gè)基向量上的投影值znm可由下式給出znm=φmtdn(3)在子空間上dn的平方投影值的和可由下式給出Σm=1Lznm2---(4)]]>計(jì)算出的在子空間上dn的平方投影值的和表示每個(gè)文檔段對文檔的中心概念的貢獻(xiàn)?;蛘?,可根據(jù)下式利用基向量的能量作為權(quán)重計(jì)算在子空間上平方投影值的和Σm=1Lλmznm2---(5)]]>文檔段排序塊19按照重要性的降序?qū)ξ臋n段進(jìn)行排序。文檔段選擇塊20選擇較高秩文檔段作為重要段并將它們輸出。這樣,可根據(jù)文檔段對文檔的中心概念的貢獻(xiàn)的降序?qū)ζ溥M(jìn)行抽取。
計(jì)算與查詢的相關(guān)性圖2為示出用來根據(jù)本發(fā)明的一個(gè)實(shí)施方式計(jì)算輸入文檔的文檔段和查詢之間的相關(guān)性及選擇句子的系統(tǒng)的整體結(jié)構(gòu)。在圖2中,有本征值和本征向量計(jì)算塊21、子空間投影塊22、查詢向量化塊23、另一子空間投影塊24、相關(guān)性計(jì)算塊25、文檔段排序塊26和文檔段選擇塊27。
利用英文文檔作為描述此實(shí)施方式的例子。執(zhí)行與圖1所示的實(shí)施方式同樣的過程一直到計(jì)算出本征值和本征向量為止。子空間投影塊22將文檔段向量投影到第L子空間。設(shè)zn為與圖1一樣的投影之后的向量并且其元素由式(5)給出。查詢向量化塊23對查詢執(zhí)行與圖1中的塊11至塊14的過程等效的過程。設(shè)q是查詢的一個(gè)向量。子空間投影塊24通過將q投影到子空間確定向量y。向量y的第m個(gè)元素ym由下式給出ym=Фmtq (6)相關(guān)性計(jì)算塊25根據(jù)下式計(jì)算與第n個(gè)文檔段的相關(guān)性gngn=y(tǒng)tzn/‖q‖(7)上面計(jì)算出的gn具有正比于zn的范數(shù)的值。上述方程式還可以利用下式進(jìn)一步歸一化以便與zn的范數(shù)無關(guān)。
‖zn‖(8)這一相關(guān)性可以利用方程(7)計(jì)算,即使是在文檔段和查詢中不存在共同詞語時(shí)。其理由如下如果存在經(jīng)常在文檔內(nèi)的文檔段中同現(xiàn)的一對詞語,這些詞語的系數(shù)在低階本征向量中具有同樣的符號,而在高階本征向量中具有不同的符號。換言之,詞語之間的差異反映在高階本征向量中,但不反映在低階向量中。如反映詞語之間的差異的高階本征向量不包含于L維子空間中,則當(dāng)在文檔中同現(xiàn)的詞語對中的一個(gè)包含于查詢中而另一個(gè)包含于相關(guān)文檔段中時(shí),方程(7)給出非零值。
文檔段排序塊26按照相關(guān)性的降序?qū)ξ臋n段排序。文檔段選擇塊27選擇較高秩的文檔段作為具有高相關(guān)性的段并將它們輸出。如果要求選擇重要的和與查詢相關(guān)的文檔段,利用藉助在通過示于圖1中的過程獲得的重要性上添加相關(guān)性所取得的值執(zhí)行文檔段排序。
或者,相關(guān)性也可按如下方式計(jì)算。第一,利用如下方程定義第m個(gè)本征向量的權(quán)重sm。
sm=(Φmtq)2/‖q‖2(9)其中sm表示第m個(gè)本征向量方向中的查詢能量相對查詢的總能量的比。查詢對文檔段n的相關(guān)性gn可定義如下gn=Σm=1Lsm(φmtdn)2---(10)]]>可見,gn是利用sm作為權(quán)重定義為在Φm方向上文檔段能量的加權(quán)和。于是,在具有大權(quán)重的本征向量上具有大投影值的句子趨向于具有較高的相關(guān)性??梢岳孟旅娴谋磉_(dá)式使gn歸一化以便與文檔段n的能量無關(guān)。
‖dn‖2(11)相似性確定在本發(fā)明的另一實(shí)施方式中,根據(jù)適當(dāng)大小,比如句子,將兩個(gè)文檔分割為文檔段,之后對每個(gè)文檔段計(jì)算向量并最后對兩個(gè)文檔的文檔段向量的所有組合計(jì)算平方內(nèi)積和以便確定文檔之間的相似性。
在長文檔的場合,由于出現(xiàn)于文檔中的詞語數(shù)目增加,文檔段向量的維數(shù)將很大并且所得到的文檔段向量的數(shù)目將增加。因此,對文檔段向量的所有組合計(jì)算內(nèi)積將會對處理時(shí)間和所要求的存儲器造成沉重的負(fù)擔(dān)。所以,在此實(shí)施方式中,兩個(gè)文檔中的任意一個(gè)或是兩個(gè)文檔都以與如上所述的重要句子抽取相同的方式由概念子空間表示。
當(dāng)兩個(gè)文檔中的一個(gè)文檔由文檔段向量表示而另一個(gè)由概念子空間表示時(shí),兩個(gè)文檔之間的相似性是通過文檔段向量和基向量的所有的組合的內(nèi)積的加權(quán)和計(jì)算而得。當(dāng)兩個(gè)文檔都由概念子空間表示時(shí),文檔的相似性是通過計(jì)算文檔的基向量的所有的組合的內(nèi)積加權(quán)和而得到的。
在此實(shí)施方式中,文檔或是由一組文檔段向量表示,或是由一個(gè)子空間表示。這意味著文檔概念是由文檔段的一組概念表示,因此文檔概念的表示可以比利用單個(gè)向量表示文檔時(shí)更精確。文檔概念的擴(kuò)展也可反映到相似性上,因?yàn)閮蓚€(gè)文檔的所有文檔段的概念都反映在相似性上。
雖然子空間近似一組文檔段向量,已知在文檔段向量的平方和矩陣的一組本征向量用作基向量時(shí)誤差變?yōu)樽钚?。因此,從一個(gè)文檔的文檔段向量的所有的組合取得的與另一文檔的選擇基向量的相似性可以最好地近似從兩個(gè)文檔的文檔段向量的所有組合取得的相似性。如上所述,在此場合的子空間表示文檔的中心概念。于是,從一個(gè)文檔的文檔段向量的所有的組合取得的與另一文檔的選擇基向量的文檔相似性等于從一個(gè)文檔的概念和另一個(gè)文檔的中心概念之間的共同概念取得的相似性。
當(dāng)兩個(gè)文檔都由概念子空間表示時(shí),所取得的相似性也近似從兩個(gè)文檔的文檔段向量的所有可能的組合取得的文檔相似性。在此場合,相似性是根據(jù)兩個(gè)文檔的中心概念的所有可能的組合的共同概念取得的。因此,當(dāng)兩個(gè)文檔中的任意一個(gè)或是兩個(gè)文檔都由概念子空間表示時(shí),所取得的相似性將是基于文檔段向量的所有的組合的相似性的最佳近似。除此之外,文檔概念的擴(kuò)展自然反映于相似性上,因?yàn)閮蓚€(gè)文檔的所有文檔段的概念都近似地反映在此相似性上。
圖3為示出根據(jù)本發(fā)明的一個(gè)實(shí)施方式的用來比較文檔段向量以便取得文檔相似性的系統(tǒng)的功能塊圖。這一實(shí)施方式可通過在通用計(jì)算機(jī)上執(zhí)行程序而實(shí)現(xiàn)。圖3示出利用通用計(jì)算機(jī)和程序配置的系統(tǒng)的功能塊圖。
其中有詞語檢測塊11、形態(tài)分析塊12、文檔分割塊13、文檔段向量生成塊14、內(nèi)積計(jì)算塊35和相似性計(jì)算塊36。塊11至14與圖1所示的塊相同。利用英文文檔作為描述此實(shí)施方式的例子。
在參考圖1描述的詞語檢測塊11至文檔段向量生成塊14中對兩個(gè)輸入文檔進(jìn)行處理而生成文檔段向量。
內(nèi)積計(jì)算塊35計(jì)算兩個(gè)輸入文檔的文檔段向量的所有組合的內(nèi)積值并保持這些值。此處假設(shè)S和T是輸入文檔。假設(shè)K個(gè)詞語出現(xiàn)于文檔S,T內(nèi),文檔S的第n個(gè)文檔段向量sn(n=1,...N)由(sn1,sn2,...,snk)表示,而文檔T的第m個(gè)文檔段向量tm(m=1,...M)由(tm1,tm2,...,tmk)表示。于是文檔段sn和tm之間的內(nèi)積值由下式表示snttm=Σk=1Ksnktmk---(12)]]>其中上標(biāo)t表示轉(zhuǎn)置。
相似性計(jì)算塊36計(jì)算文檔段向量的所有組合的平方內(nèi)積和并確定兩個(gè)文檔之間的相似性。此相似性r由下式給出r={Σn=1NΣm=1M(Snttm)2/Σn=1NΣm=1N(SntSm)2Σn=1MΣm=1M(tnttm)2}1/2---(13)]]>當(dāng)文檔S和T中沒有共同的詞語時(shí),相似性將為零,而當(dāng)兩個(gè)文檔完全相等時(shí),相似性將為1.0。
圖4為示出根據(jù)本發(fā)明的一個(gè)實(shí)施方式的用來通過比較文檔段向量和基向量或比較基向量來計(jì)算相似性的一個(gè)系統(tǒng)的功能塊圖。詞語檢測塊11至本征值和本征向量計(jì)算塊16與圖1所示的塊相同。除此之外,其中還有主本征向量選擇塊37,內(nèi)積計(jì)算塊38和相似性計(jì)算塊39。
輸入文檔S,T(利用與上一個(gè)實(shí)施方式同樣的假設(shè))之間的相似性是通過比較文檔T的文檔段向量與文檔S的基向量計(jì)算出的。文檔S和T在詞語檢測塊11至文檔段向量生成塊14中進(jìn)行處理而分別生成文檔段向量。之后,平方和矩陣計(jì)算塊15對文檔S計(jì)算每個(gè)文檔段向量的平方和矩陣。平方和矩陣A=(Aab)以下面的等式計(jì)算Aab=Σn=1Nsnasnb---(14)]]>
內(nèi)積計(jì)算塊38對n和m的所有組合計(jì)算文檔S的本征向量Φn和文檔T的文檔段向量tm之間的內(nèi)積值。相似性計(jì)算塊39利用每個(gè)階的本征值作為權(quán)重根據(jù)下式從上面計(jì)算的內(nèi)積值計(jì)算相似性r={Σn=1LΣm=1Mλn(φnttm)2/Σn=1Lλn2Σn=1MΣm=1M(tnttm)2}1/2---(15)]]>雖然根據(jù)方程式(15)的相似性是從平方內(nèi)積的加權(quán)和計(jì)算得出的,但也可以對文檔T的每個(gè)文檔段取得文檔T的文檔段和文檔S之間的相似性,之后計(jì)算其平均值,此平均值就看作是文檔T和S之間的相似性。在此場合,相似性由下式給出r={Σm=1MΣn=1Lλn(φnttm)2/(Σn=1Lλn2||tm||2M)}1/2---(16)]]>在另一實(shí)施方式中,兩個(gè)文檔T和S之間的相似性是通過匹配每個(gè)文檔的基向量取得的。在此實(shí)施方式中,對文檔S及文檔T的本征值和本征向量利用在平方和矩陣計(jì)算塊15和本征值和本征向量計(jì)算塊16中的過程進(jìn)行計(jì)算,之后在主本征向量選擇塊37中將主本征向量選擇為基向量。令γn,τn分別是文檔T的平方和矩陣的第n個(gè)本征值和本征向量。假設(shè)J個(gè)本征向量選擇為基向量。內(nèi)積計(jì)算塊38對n和m的所有組合計(jì)算文檔S的本征向量Φn和文檔T的本征向量τm之間的內(nèi)積值。之后,相似性計(jì)算塊29根據(jù)下式計(jì)算相似性r={Σn=1LΣm=1Jλnγm(φntτm)2/Σn=1Lλn2Σm=1Jγm2}1/2---(17)]]>很清楚,方程(15)和(16)是基于參考圖3所描述的文檔段的所有組合的相似性(由方程(13)給出的)的近似,因?yàn)榉匠?13)的分子可變換為下面的方程(18)和(19)。Σn=1NΣm=1M(Snttm)2]]>=Σn=1NΣm=1MtmtSnSnttm]]>=Σm=1MtmtAtm]]>=Σm=1Mtmt(Σn=1Rλnφnφnt)tm]]>=Σm=1MΣn=1Rλn(φnttm)2---(18)]]>Σn=1NΣm=1M(Snttm)2]]>=Σm=1MΣn=1Rλn(φnttm)2]]>=Σn=1Rλnφnt(Σm=1Mtmtmt)φn]]>=Σn=1RλnφntBφn]]>=Σn=1RΣm=1Qλnγm(φntτm)2---(19)]]>其中B是文檔T的平方和矩陣,而Q是其秩。在上面的方程中利用下面的關(guān)系式A=(Σn=1Rλnφnφnt)---(20)]]>在方程(18)中,如對文檔S使用L個(gè)本征向量,將與方程(15)中的分子相同。在方程(19)中,如對文檔T使用J個(gè)本征向量,將與方程(17)中的分子相同。
為了確定相似性,用戶可以在各個(gè)文檔段向量之間,在文檔段向量和基向量之間,或在基向量之間選擇使用哪一個(gè)組合。不過,只要是涉及長文檔,最好是使用基向量組合,因?yàn)橐蟮拇鎯ζ魃俸吞幚頃r(shí)間短。在上述實(shí)施方式中,某些過程可以提前執(zhí)行,但最后的內(nèi)積和相似性的計(jì)算除外。
對本征值和本征向量的觀察下面,通過簡單的模擬,介紹如何對給定的詞語同現(xiàn)取得本征值和本征向量。假設(shè)詞語1、2、3和4出現(xiàn)于文檔中并且取得如表1中所示的平方和矩陣。
(表1)10a00a9b00b8c00c7]]>對角上的元素表示由下面的方程(21)給出的詞語能量。詞語1的能量最大。參數(shù)a、b和c給出詞語之間的同現(xiàn)度。參數(shù)a給出詞語1和2之間的同現(xiàn)度,b給出詞語2和3之間的同現(xiàn)度,而c給出詞語3和4之間的同現(xiàn)度。設(shè)文檔段是句子。
句子能量由句子向量的平方范數(shù)給出。第n個(gè)句子的能量,E(dn),在下面的方程中確定E(dn)=Σk=1K||fnk||2---(21)]]>與此類似,詞語wk的能量,E(wk),在下面的方程中確定E(wk)=Σn=1N||fnk||2---(22)]]>令E(D)為文檔D的總能量。下面的方程成立。此方程示出文檔能量等于所有句子能量的和或所有詞語能量的和。E(D)=Σn=1NE(dn)=Σk=1KE(wk)---(23)]]>圖6為示出從平方和矩陣取得的本征值和本征向量,其中某些值賦予參數(shù)a、b和c。圖6示出對在第n個(gè)本征向量中的每個(gè)詞語的本征值λn和系數(shù)Φn1、Φn2、Φn3和Φn4。自此之后,將概念是第n個(gè)本征向量的方向和能量由第n個(gè)本征值給出的虛擬句子稱為第n個(gè)本征句子。
(1)在a=b=c=0時(shí)這種場合意味著4個(gè)詞語未同現(xiàn)。在圖6中,在第n個(gè)本征向量中的詞語n的系數(shù)是1,而其他詞語的系數(shù)是0。這表示每個(gè)本征向量是每個(gè)詞語軸線本身。換言之,本征句子的概念是每個(gè)詞語本身的概念。每個(gè)本征值等于平方和矩陣的相應(yīng)的對角元素的值。就是說,每個(gè)本征句子的能量等于每個(gè)詞語的能量并且取決于每個(gè)詞語的出現(xiàn)頻率。
(2)在a=b=0和c=1時(shí)這種場合意味著詞語同現(xiàn)只存在于詞語3和4之間。結(jié)果,第3和第4本征句子的概念取決于詞語3和詞語4。采用普通的向量空間模型詞語同現(xiàn)不能得到表現(xiàn),但自然反映在根據(jù)本發(fā)明的本征句子概念上。第3本征句子的能量大于在a=b=c=0的場合。
(3)在a=b=0和c=3時(shí)觀察到在第1本征向量中的Φ13和Φ14具有非零值并且由兩個(gè)詞語3和4確定概念的本征句子的能量最大。這表示本征句子的能量取決于詞語的出現(xiàn)頻率和詞語之間的同現(xiàn)頻率兩者。
(4)在a=3,b=0和c=3時(shí)在詞語1和2之間和在詞語3和4之間存在詞語同現(xiàn),但在詞語1,2和3,4之間不存在。結(jié)果,矩陣S分割為子矩陣。在此場合,本征句子概念由詞語1和2的組合或詞語3和4的組合確定。
(5)在a=3,b=1和c=3時(shí)當(dāng)在詞語2和3之間存在詞語同現(xiàn)時(shí),本征句子的概念取決于所有的詞語。詞語1不和詞語3或4同現(xiàn)。因此,詞語1被看作通過詞語2和3之間的直接同現(xiàn)關(guān)系具有和詞語3或詞語4的間接同現(xiàn)關(guān)系。然而,可以了解,此種間接同現(xiàn)關(guān)系影響本征句子的概念。在實(shí)際文檔中,詞語之間的間接同現(xiàn)鏈以及直接詞語同現(xiàn)似乎起著重要的形成文檔概念的作用。
圖5為示出一個(gè)文檔的概念子空間的維數(shù)L及其代表性的關(guān)系曲線圖,該文檔為一篇由58個(gè)句子和1100個(gè)詞構(gòu)成的英文新聞文章。從此文檔中抽取名詞作為詞語并構(gòu)建146維數(shù)的58個(gè)向量。在此場合,平方和矩陣的秩為58,于是L的最大值是58。概念子空間的代表性可利用方程(2)定義。參考圖5,達(dá)到代表性的50%的最小維數(shù)是8,達(dá)到75%的最小維數(shù)是20。這意味著顯著的維數(shù)縮減是可能的。還觀察到平均句子向量的代表性(即每個(gè)句子在平均向量上的平方投影值和與文檔能量的比值)是10.4%,小于第1本征句子的代表性,即12.2%。這意味著第1本征句子具有超過平均向量的代表性。第1本征句子的代表性趨向于隨著文檔的變長而降低。
本發(fā)明的優(yōu)點(diǎn)在于可提供一種適于文檔分析的文檔表示方法,這種文檔分析包含從給定的文檔抽取重要句子和/或確定兩個(gè)文檔之間的相似性。
根據(jù)本發(fā)明的一個(gè)實(shí)施方式,抽取重要句子的結(jié)果可接近人的感覺,因?yàn)槌槿∵^程的執(zhí)行是利用了詞語同現(xiàn)。除此之外,當(dāng)檢索與查詢具有相關(guān)性的句子時(shí),可根據(jù)詞語的同現(xiàn)關(guān)系檢索出具有概念相關(guān)性的句子,即使是在句子和查詢中不存在共同的詞語。
根據(jù)本發(fā)明的另一個(gè)實(shí)施方式,可獲得高度可靠的相似性,因?yàn)閮蓚€(gè)文檔相似性是從文檔段的所有組合取得的并且所有文檔段的概念都反映在相似性上。
雖然對本發(fā)明的描述是參考具體實(shí)施方式
,但本發(fā)明不受限于這些實(shí)施方式。
權(quán)利要求
1.一種利用向量表示輸入文檔的方法,包括檢測在所述輸入文檔中出現(xiàn)的詞語;將所述輸入文檔分割為文檔段,每個(gè)文檔段都是大小合適的塊;以及生成文檔段向量,每個(gè)向量包含根據(jù)出現(xiàn)于所述文檔段中的所述詞語的出現(xiàn)頻率的值作為其元素,其中一組所述文檔段向量由所述文檔段的平方和矩陣的本征值和本征向量表示。
2.如權(quán)利要求1所述的方法,其中在所述輸入文檔中出現(xiàn)K個(gè)詞語并且所述輸入文檔分割為N個(gè)文檔段,所述平方和矩陣A=(Aab)是利用下式計(jì)算的Aab=Σn=1Ndnadnb,]]>其中dni表示在第n個(gè)文檔段中第i個(gè)詞語的出現(xiàn)頻率,并且第n個(gè)文檔段向量dn(n=1,...,N)由(dn1,dn2,..,dnk)表示。
3.一種從輸入文檔抽取重要文檔段的方法,包括檢測在所述輸入文檔中出現(xiàn)的詞語;將所述輸入文檔分割為文檔段,每個(gè)文檔段都是大小合適的塊;生成文檔段向量,每個(gè)向量包含根據(jù)出現(xiàn)于所述文檔段中的所述詞語的出現(xiàn)頻率的值作為其元素;確定平方和矩陣的本征值和本征向量,其中所述文檔段向量的秩以R表示;從所述本征向量中選擇用來確定重要性的多(L)個(gè)本征向量;計(jì)算所述文檔段向量在所選擇的本征向量上的平方投影的加權(quán)和;以及根據(jù)所述計(jì)算的文檔段向量的平方投影的加權(quán)和選擇具有顯著重要性文檔段。
4.如權(quán)利要求3所述的方法,其中在所述輸入文檔中出現(xiàn)K個(gè)詞語并且所述輸入文檔分割為N個(gè)文檔段;其中dni表示在第n個(gè)文檔段中第i個(gè)詞語的出現(xiàn)頻率,并且第n個(gè)文檔段向量dn(n=1,...,N)由(dn1,dn2,..,dnk)表示和投影后的向量dn由zn=(zn1,zn2,...,znL)表示,dn在第m本征向量上的投影值由znm=Φmtdn表示,其中Φm表示第m個(gè)本征向量和t表示轉(zhuǎn)置;在L維子空間上的平方投影和由下式給出Σm=1Lznm2]]>或由下式給出Σm=1Lλmznm2,]]>其中λm表示第m個(gè)本征向量的本征值。
5.如權(quán)利要求3所述的方法,其中所述本征值和本征向量是利用下面的平方和矩陣計(jì)算的Aab=Σn=1Ndnadnb;]]>所述L是將文檔的中心概念表示為秩R的平方和矩陣的子空間的維數(shù);所述L的值根據(jù)所述輸入文檔的中心概念與總概念的比值確定,由下式給出Σm=1Lλm/Σm=1Rλm]]>
6.一種從輸入文檔檢索與查詢具有相關(guān)性的文檔段的方法,包括檢測在所述輸入文檔中出現(xiàn)的詞語;將所述輸入文檔分割為文檔段,每個(gè)文檔段都是大小合適的塊;生成文檔段向量,每個(gè)向量包含根據(jù)出現(xiàn)于所述文檔段中的所述詞語的出現(xiàn)頻率的值作為其元素;確定所述文檔段向量的平方和矩陣的本征值和本征向量以定義子空間;檢測出現(xiàn)于所述查詢中的詞語;生成查詢向量,每個(gè)向量包含根據(jù)所述詞語的出現(xiàn)頻率的值作為其元素,以便將所述查詢向量投影到所述子空間;以及將每個(gè)所述文檔段向量投影到所述子空間以計(jì)算所述查詢與所述文檔段的相關(guān)性。
7.如權(quán)利要求6的方法,其中當(dāng)zn表示所述文檔段的投影向量dn在所述子空間上的投影向量,而y表示所述查詢向量在所述子空間上的投影向量,第n個(gè)文檔段和查詢之間的相關(guān)性gn是根據(jù)y和zn的內(nèi)積取得的,即ytzn,其中t表示轉(zhuǎn)置。
8.如權(quán)利要求6的方法,其中第m個(gè)本征向量的權(quán)重sm是由函數(shù)(Φmtq)2定義的,并且與文檔段n的相關(guān)性gn利用下式取得gn=Σm=1Lsm(φmtdn)2,]]>其中q表示所述的查詢向量,Φm表示第m個(gè)所述本征向量,而L表示所述子空間的維數(shù)。
9.一種確定給定的兩個(gè)輸入文檔之間的相似性的方法,包括檢測在每個(gè)所述輸入文檔中出現(xiàn)的詞語;將每個(gè)所述輸入文檔分割為文檔段,每個(gè)文檔段都是大小合適的塊;生成文檔段向量,每個(gè)向量包含根據(jù)出現(xiàn)于各個(gè)所述文檔段中的所述詞語的出現(xiàn)頻率的值作為其元素;對兩個(gè)輸入文檔中的每個(gè)計(jì)算包含于各個(gè)輸入文檔中的所述文檔段向量的所有組合的平方內(nèi)積;以及根據(jù)所述平方內(nèi)積的和確定這兩個(gè)輸入文檔之間的所述相似性。
10.一種用來確定給定的兩個(gè)輸入文檔之間的相似性的方法,包括計(jì)算所述兩個(gè)輸入文檔之一的文檔段向量的平方和矩陣的本征值和本征向量;從所述計(jì)算出的本征向量中選擇與較大的本征值相對應(yīng)的本征向量作為基向量;計(jì)算所述兩個(gè)輸入文檔中的另一個(gè)文檔的文檔段向量和所述基向量之間的平方內(nèi)積的加權(quán)和,通過加權(quán)對平方內(nèi)積求和;以及根據(jù)所述平方內(nèi)積的加權(quán)和確定所述兩個(gè)輸入文檔之間的相關(guān)性。
11.一種用來確定給定的兩個(gè)輸入文檔之間的相似性的方法,包括計(jì)算所述兩個(gè)輸入文檔每一個(gè)的文檔段向量的平方和矩陣的本征值和本征向量;從所述計(jì)算出的所述兩個(gè)輸入文檔中的每一個(gè)文檔的本征向量中選擇與較大的本征值相對應(yīng)的本征向量作為基向量;計(jì)算所選擇的所述基向量的組合的平方內(nèi)積的加權(quán)和,通過加權(quán)對平方內(nèi)積求和;以及根據(jù)所述平方內(nèi)積的加權(quán)和確定所述兩個(gè)輸入文檔之間的相關(guān)性。
全文摘要
提供一種用來進(jìn)行文檔表示和文檔分析的方法,包括從給定的文檔抽取重要句子或確定兩個(gè)文檔之間的相似性。此方法檢測在輸入文檔中出現(xiàn)的詞語(11);將輸入文檔分割為文檔段,每個(gè)文檔段都是大小合適的塊;生成文檔段向量(14),每個(gè)向量包含根據(jù)出現(xiàn)于文檔段中的詞語的出現(xiàn)頻率的值作為其元素。此方法計(jì)算平方和矩陣(15)的本征值和本征向量(16),其中各個(gè)文檔段向量的秩以R表示,并且從本征向量中選擇多(L)個(gè)本征向量用來確定重要性(19)。計(jì)算選擇的各個(gè)本征向量的平方投影加權(quán)和。
文檔編號G06F17/30GK1470047SQ01817580
公開日2004年1月21日 申請日期2001年11月15日 優(yōu)先權(quán)日2000年11月20日
發(fā)明者川谷隆彥 申請人:惠普公司