專利名稱:用于確定詞匯空間中詞的相對定位的設(shè)備、方法和程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及確定詞匯空間中任意領(lǐng)域中彼此相互有關(guān)的詞條的相對位置。
背景技術(shù):
所考慮的問題是,測量特定領(lǐng)域中彼此相互有關(guān)的詞條之間的關(guān)系,由此構(gòu)建反映測量結(jié)果的詞匯空間。
通過尤其基于人類感知在二維或三維空間中排列詞條以使詞匯空間可視化從而促進語義關(guān)系的理解是有益的??梢暬€促進識別所關(guān)注詞匯與其周圍詞條之間的關(guān)系。
作為其應(yīng)用示例,希望有各種應(yīng)用,諸如分析主題領(lǐng)域中詞匯特征的應(yīng)用,包括分析在線社區(qū)中所用的詞條特征,以及用于請求選擇用于現(xiàn)象的適當(dāng)詞匯條目的界面的應(yīng)用,所述現(xiàn)象通常難以進行描述,諸如用戶的喜好以及疾病的癥狀。
常規(guī)地,通過應(yīng)用多維尺度技術(shù)來構(gòu)建詞匯空間,但本發(fā)明公開了一種涉及計算某些條件下語義上接近的詞匯鄰域的穩(wěn)定詞匯空間的設(shè)備、程序和方法。
專利文獻1JP 2005-309853A(Method,system or memory storinga computer program for document processing) 非專利文獻1Takane,Y.2005.Applications ofmultidimensional scaling in psychometrics.In C.R.Rao and S.Sinharay(Eds.),Handbook of Statistics(Vol.27)Pyschometrics.AmsterdamElsevier. 非專利文獻2Honkela,T.1997.Self-Organizing Maps inNatural Language Processing,Ph.D.theseis,Helsinki Universityof Technology 非專利文獻3T.Kohonen,1995.Self-Organizing Maps,Springer 非專利文獻4Holger Theisel and Matthias Kreuseler,1999,AnEnhanced Spring Model for Information Visualization,EUROGRAPHICS′98,Vol.1,No.3 非專利文獻5W.K.Church and P.Hanks,1990.Word associationnorms,mutual information,and lexicography,ComputationalLinguistics,Vol.16,No.1,22-29.
發(fā)明內(nèi)容
本發(fā)明要解決的問題 常規(guī)地,對于在多維空間中排列大量詞條的問題,最常用的方法稱為多維尺度(MDS)技術(shù),并且已經(jīng)提出了各種模型。然而,這種方法最初用于根據(jù)通過在實驗心理學(xué)領(lǐng)域中的測量所獲得的測量值來構(gòu)建未知的多維空間,而對于構(gòu)建詞匯空間不一定合適。
對于詞匯空間的構(gòu)建,有許多種情況,其中通過語言學(xué)研究已經(jīng)發(fā)現(xiàn)了詞匯空間結(jié)構(gòu)的某些假設(shè)/假定,并且需要根據(jù)該假設(shè)構(gòu)建詞匯空間。
根據(jù)多維尺度技術(shù),使用通常被稱為奇異值分解的數(shù)學(xué)技術(shù)。
然而,采用尋找最佳描述數(shù)據(jù)變化的軸的原理的方法(諸如奇異值分解)未考慮預(yù)先指定假設(shè)/假定并由此確定詞匯空間的情況,并且采用奇異值分解的方法似乎不允許上面描述的指定。
作為用于基于觀測距離計算網(wǎng)絡(luò)或圖的方法,還已經(jīng)提出了諸如自組織映射圖和物理模型(如彈簧模型等)的方法。
通過那些方法預(yù)先指定假設(shè)/假定看起來不是不可能,但是那些方法中的任何方法都不是預(yù)期用于詞匯空間的方法,并且尚未提出用于構(gòu)建詞匯空間的有效方法。
另外,即使所討論的一對詞條都是通常頻繁使用的高頻詞時,它們也可能不同時出現(xiàn)在主題文檔數(shù)據(jù)中。
在這種情況下,根據(jù)常規(guī)方法,沒有定義不同時出現(xiàn)的所有詞對之間的距離,但是存在被計算為詞條之間距離的可能最大距離被指定的大量詞對,導(dǎo)致詞匯空間不穩(wěn)定。
為了解決上面提到的問題,本發(fā)明提出一種方法,用于以無法通過常規(guī)方法獲得的精度實現(xiàn)布置(constellation)的穩(wěn)定性,同時允許在如下條件下設(shè)置詞匯空間的假設(shè)。
(a)詞匯空間限于詞匯鄰域。
(b)詞條直接排列在二維空間中。
(c)基于對詞匯空間的假設(shè)預(yù)先排列少量的詞。
此外,當(dāng)所討論的一對詞條都是通常頻繁使用的高頻詞,并且不同時出現(xiàn)在主題文檔數(shù)據(jù)中時,認為用于增大該對詞條之間距離的力正在起作用,并且公開了一種甚至對于同現(xiàn)頻率為0的詞條定義預(yù)定距離的方法。
解決問題的手段 [權(quán)利要求1] 權(quán)利要求1公開了一種用于確定任意領(lǐng)域中相互有關(guān)的詞在二維空間中的相對位置的設(shè)備,包括 (a)用于接收與該任意領(lǐng)域有關(guān)的n個文檔B(i)、所述任意領(lǐng)域中使用的詞條的m個詞匯鄰域詞條W(i)、k個指定詞條A(i)以及所述k個指定詞條A(i)在所述二維空間中的位置信息P的裝置; (b)用于使用與所述任意領(lǐng)域有關(guān)的所述n個文檔B(i)和所述m個詞匯鄰域詞條W(i)來確定n×m頻率矩陣V(i,j)的裝置; (c)用于使用所述n×m頻率矩陣V(i,j)計算m×m觀測距離矩陣M(i,j)的裝置; (d)用于根據(jù)所述二維空間中所述指定詞條的所述位置信息P和除所述指定詞條之外的詞條在所述二維空間中任意確定的初始位置來確定m×m詞匯位置矩陣D(i,j)的裝置;以及 (e)用于基于所述m×m詞匯位置矩陣D(i,j)和所述m×m觀測距離矩陣M(i,j)來確定應(yīng)力函數(shù)S,并確定使所述應(yīng)力函數(shù)S最小化的m×m詞匯位置矩陣D(i,j)的裝置。
[權(quán)利要求2] 另外,權(quán)利要求2公開了,在權(quán)利要求1的設(shè)備中,用于計算m×m觀測距離矩陣M(i,j)的裝置還包括 (a)用于按照公式1確定m×m同現(xiàn)矩陣C(i,j)的裝置 (公式1)C(i,j)=VTV 其中T表示矩陣的轉(zhuǎn)置;以及 (b)用于按照公式2根據(jù)所述m×m同現(xiàn)矩陣C(i,j)確定所述m×m觀測距離矩陣M(i,j)的裝置; (公式2)M(i,j)=-2×C(i,j)/{tf(i)×tf(j)}對于C(i,j)≠0 {tf(i)×tf(j)}/(2×β)對于C(i,j)=0 其中C(i,j)是每個詞匯對的同現(xiàn)矩陣的值,tf(j)是整個文檔中詞匯的頻率,而β是tf(i)的最大值(i=1到m)。
[權(quán)利要求3] 權(quán)利要求3公開了,在權(quán)利要求1或2的設(shè)備中,至少三個指定詞條和所述指定詞條在所述二維空間中的位置被輸入到用于接收所述指定詞條和所述指定詞條在所述二維空間中的位置的裝置。
[權(quán)利要求7] 權(quán)利要求4公開了根據(jù)權(quán)利要求1到3中任一項的設(shè)備,還包括 (a)用于接收素樸詞匯(
vocabulary)的指定的裝置; (b)用于從詞匯映射矩陣中選擇對應(yīng)于所述素樸詞匯的行數(shù)據(jù)的裝置; (c)用于選擇對應(yīng)于所選行數(shù)據(jù)的專家詞匯和對應(yīng)于所述專家詞匯的列數(shù)據(jù)的裝置;以及 (d)用于確定對應(yīng)于所選列數(shù)據(jù)的素樸詞匯,并確定所述詞匯鄰域詞匯(lexical neighborhood vocabulary)W(i)的裝置。
[權(quán)利要求5] 權(quán)利要求5公開了一種控制計算機操作權(quán)利要求1的設(shè)備的計算機程序。
[權(quán)利要求6] 權(quán)利要求6公開了在權(quán)利要求1的設(shè)備中所用的方法。
[權(quán)利要求7] 權(quán)利要求7公開了在權(quán)利要求2的設(shè)備中所用的方法。
[權(quán)利要求8] 權(quán)利要求8公開了在權(quán)利要求3的設(shè)備中所用的方法。
[權(quán)利要求9] 權(quán)利要求9公開了在權(quán)利要求4的設(shè)備中所用的方法。
本發(fā)明的效果 本發(fā)明可以以通過常規(guī)技術(shù)無法獲得的高精度并且同時穩(wěn)定地確定詞條布置。
因此,詞匯空間中的預(yù)定特定領(lǐng)域中的詞條之間的相互關(guān)系可以被闡明并且可視化。
圖1是示出體現(xiàn)本發(fā)明的設(shè)備的圖示。
圖2是示出本發(fā)明優(yōu)選實施例的框圖。
圖3是示出本發(fā)明優(yōu)選實施例的流程圖。
圖4是示出根據(jù)本發(fā)明的詞匯頻率矩陣的圖示。
圖5是示出二維空間中指定詞條的位置示例的圖示。
圖6是示出其它詞條隨機排列為初始布置的示例的圖示。
圖7是示出已經(jīng)應(yīng)用了本發(fā)明之后的結(jié)果的示例的圖示。
圖8是示出詞匯映射矩陣的示例的圖示。
圖9是用于根據(jù)詞匯映射矩陣確定詞匯鄰域詞條的流程圖。
圖10a是示出根據(jù)本發(fā)明的初始布置的示例的圖示。
圖10b是示出已經(jīng)應(yīng)用了本發(fā)明之后的結(jié)果的示例的圖示。
圖11a是示出根據(jù)本發(fā)明的初始布置的示例的圖示。
圖11b是示出已經(jīng)應(yīng)用了本發(fā)明之后的結(jié)果的示例的圖示。
具體實施例方式 [設(shè)備概述] 圖1示出了體現(xiàn)本發(fā)明的設(shè)備。殼體100包括存儲單元110、主存儲器120、輸出單元130、中央處理單元(CPU)140、操作單元150和輸入單元160。
用戶從操作單元150輸入必要的信息。
中央處理單元140基于輸入信息讀取存儲在存儲單元110中的信息,基于要從輸入單元160輸入的信息執(zhí)行數(shù)據(jù)處理,并將結(jié)果輸出到輸出單元130。
[功能框圖] 圖2示出了根據(jù)本發(fā)明的功能框圖。
附圖標記210表示數(shù)據(jù)輸入單元;220表示用于計算詞匯頻率矩陣V的單元;230表示同現(xiàn)矩陣C;240表示用于計算詞匯空間距離函數(shù)D的單元;250表示用于計算和創(chuàng)建觀測距離矩陣M的單元;260表示用于計算應(yīng)力函數(shù)S的單元;270表示用于計算最優(yōu)位置D的單元;并且280表示輸出單元。
[算法] 圖3示出了在計算機上實施本發(fā)明時的流程圖。
10輸入數(shù)據(jù) 20計算詞匯頻率矩陣V 30計算同現(xiàn)矩陣C 40計算觀測距離矩陣M 50計算詞匯空間距離函數(shù)D 60計算應(yīng)力函數(shù)S的最優(yōu)值 70顯示最優(yōu)位置D 現(xiàn)在給出這個算法的詳細說明。
通過如下步驟實現(xiàn)由本發(fā)明公開的詞匯空間的構(gòu)建。
[詳細算法] (1)輸入數(shù)據(jù) 輸入如下數(shù)據(jù)片段以執(zhí)行該實施例1 (a)與任意領(lǐng)域有關(guān)的n個文檔B(i)(i=1到n); (b)所述任意領(lǐng)域中所用的m個詞匯鄰域詞條W(i)(i=1到m); (c)k個指定詞條A(i)(i=1到k);以及 (d)所述指定詞條A(i)在二維空間中的位置信息P(i=1到k)。
現(xiàn)在給出數(shù)據(jù)的詳細說明。
(a)與任意領(lǐng)域有關(guān)的n個文檔B(i)(i=1到n) 本發(fā)明的目的是確定二維空間中任意領(lǐng)域中彼此相互有關(guān)的詞條的相對位置,并且輸入與該領(lǐng)域有關(guān)的一個或多個文檔。
(b)所述任意領(lǐng)域中所用的m個詞匯鄰域詞條W(i)(i=1到m) 處于主題領(lǐng)域中的并且要確定其在所述二維空間中的布置的詞條被輸入。
對于詞匯鄰域詞條的集合W,可選擇在任意領(lǐng)域中所用的任意詞條,但優(yōu)選地使用通過將大量文檔進行數(shù)據(jù)處理所獲得的詞條。
當(dāng)基于出現(xiàn)數(shù)據(jù)而將詞匯鄰域簡單地認為是具有高度相關(guān)的詞條集合時,已知幾種用于計算詞匯鄰域的方法。
例如,僅采用同現(xiàn)頻率的方法、采用t分數(shù)(t-score)的方法、采用Church和Hanks的互信息(1990)的方法等等,都是眾所周知的。
然而,那些方法中的任何一種都基于兩個詞之間的同現(xiàn)關(guān)系,并不總是確定語義上彼此接近的詞集合。
那些方法可收集許多搭配詞(collocated word),諸如短語。
因此,當(dāng)上面提到的方法只用于收集具有高度相關(guān)的詞時,所收集的詞可能不合適作為根據(jù)本發(fā)明定義的“詞匯鄰域詞條集合”。
本發(fā)明基于在JP 2005-309853 A(Method,system or memorystoring a computer program for document processing)中描述的方法所確定的數(shù)據(jù),計算“詞匯鄰域詞條集合”。
現(xiàn)在給出如何確定“詞匯鄰域詞條集合”的描述。
圖8示出了根據(jù)在JP 2005-309853 A中公開的詞匯映射方法所生成的“專家描述與非專家描述之間的詞匯映射矩陣”(后面稱為詞匯映射矩陣)。
這個詞匯映射矩陣通過根據(jù)上面提到的詞匯映射方法處理通過訪問日本的因特網(wǎng)網(wǎng)站所收集的數(shù)據(jù)來確定,同時日本米酒的品牌名稱被指定為詞列表。
在圖8中,在最左一列中,作為素樸詞條,示出了適度的、可口的、清爽的、不純的、果味的、上品的、上等的、醇香的、瓜香的、有香味的、可口的等等。
在最上一行,作為專家詞條,示出了諸如″古都千年″(Kotosen-nen)、″花の舞″(Hananomai)和″會津吟の藏″(Aizu gin-nokura)等品牌。
如圖9中示出的,根據(jù)如下步驟確定“詞匯鄰域詞條”。
(1)指定素樸詞匯 (2)從對應(yīng)于素樸詞匯的行數(shù)據(jù)中選擇大的行數(shù)據(jù) (3)選擇對應(yīng)于所選行數(shù)據(jù)的專家詞條及與其對應(yīng)的列數(shù)據(jù) (4)選擇對應(yīng)于列數(shù)據(jù)的素樸詞條 (5)從素樸詞條中刪除冗余的素樸詞條 現(xiàn)在給出說明,同時示出特定示例。
(1)指定素樸詞匯 選擇期望詞作為素樸詞匯。
在這個示例中,選擇“清爽的”。
(2)從對應(yīng)于素樸詞匯的行數(shù)據(jù)中選擇大的行數(shù)據(jù) 從對應(yīng)于指定詞匯的行的數(shù)據(jù)中選擇具有大值的預(yù)定數(shù)量的數(shù)據(jù)片段。
在這種情況下,作為對應(yīng)于“清爽的”的數(shù)據(jù),由A1、B10和C7表示的數(shù)值是該行數(shù)據(jù)的三個最大值。
(3)選擇對應(yīng)于所選行數(shù)據(jù)的專家詞條及與其對應(yīng)的列數(shù)據(jù) 識別對應(yīng)于所選數(shù)據(jù)的專家詞條,并從對應(yīng)于該專家詞條的列數(shù)據(jù)中選擇具有大值的預(yù)定數(shù)量的列數(shù)據(jù)片段。
在這種情況下,″古都千年″對應(yīng)于A1,并且從″古都千年″那列選擇A1、A2、A3、A4等等。
類似地,″花の舞?!鍖?yīng)于B10,并且從″花の舞?!迥橇羞x擇B1、B2、B3、B10等等。
此外,″會津吟の藏″對應(yīng)于C7,并且從″會津吟の藏″那列選擇C1、C2、C3、C7等等。
(4)選擇對應(yīng)于列數(shù)據(jù)的素樸詞條 選擇對應(yīng)于該預(yù)定數(shù)量的所選列數(shù)據(jù)片段的行上的素樸詞條。
在這種情況下,作為對應(yīng)于″古都千年″的詞條,選擇“清爽的”、“不純的”、“可口的”和“上品的”。
此外,選擇圖8中未示出的“回味的”、“美味的”、“芳香的”、“無甜味的”、“有香味的”和“滋味好的”。
作為對應(yīng)于″花の舞″的詞條,選擇“清爽的”、“可口的”、“不純的”和“上品的”。
此外,選擇圖8中未示出的“未熟的”、“濃郁的”、“味美的”、“上等的”、“良好的”和“果味的”。
作為對應(yīng)于″會津吟の藏″的詞條,選擇“清爽的”、“適度的”、“醇香的”和“瓜香的”。
此外,選擇圖8中未示出的“余味無窮的”、“檸檬的”、“醇和的”、“果味的”、“清淡的”和“舒適的”。
(5)從素樸詞條中刪除冗余的素樸詞條 除了冗余的詞條之外的所選的素樸詞條被設(shè)置為詞匯鄰域詞條。
根據(jù)這個實施例,作為詞條W(i)(i=1到25),選擇如下詞條。
[詞條示例] 清爽的、不純的、果味的、上品的、上等的、美味的、醇和的、瓜香的、檸檬的、醇香的、適度的、清淡的、回味的、濃郁的、宜人的、良好的、芳香的、可口的、滋味好的、味美的、舒適的、無甜味的、未熟的、有香味的和余味無窮的。
所選的詞條包括僅表示法不同的詞條,但被視為在意思上基本相同,諸如“醇和的”和“醇香的”,并由此假設(shè)通過這種方法提取的詞匯鄰域詞條構(gòu)成在意思上彼此接近的一組詞條。
(c)k個指定詞條A(i)(i=1到k) 輸入從所述詞匯鄰域詞條中選擇的至少三個詞條。
那些詞條在此處稱為“指定詞條”。
通過任意選擇指定詞條,可以確定那些詞條與其它詞條之間的關(guān)系。
根據(jù)這個實施例,將如下詞條選擇為指定詞條。
[指定詞條示例] 不純的、清爽的和果味的 (d)二維空間中k個指定詞條A(i)(i=1到k)的位置信息P 通過輸入二維空間中所述至少三個輸入的指定詞條的位置,可以可視地確定與其它詞條的關(guān)系。
如圖5中所示出的,作為二維空間中指定詞條的位置,“不純的”、“清爽的”和“果味的”分別排列在左下位置、中下位置和右下位置。
(2)計算詞匯頻率矩陣V(n×m) 對于詞匯鄰域詞條集合W(i)(i=1到m),基于n個文檔B(i)(i=1到n)中的頻率,確定詞匯頻率矩陣V(i,j)(i=1到n,j=1到m)。
參考圖2的框220。
在這種情況下,可任意選擇相關(guān)領(lǐng)域中的文檔作為所述文檔。
此外,甚至作為某一特定領(lǐng)域中的文檔,根據(jù)目的,可僅選擇該領(lǐng)域中由專家撰寫的文檔或僅選擇由沒有經(jīng)驗的人(
person)撰寫的文檔。
圖4示出了表示頻率的n×m詞匯頻率矩陣V(i,j)(i=1到n,j=1到m)的示例。
表示任意文檔的文檔B(1)到B(n)對應(yīng)于圖3的垂直軸。
詞匯鄰域詞條集合W的相應(yīng)詞條W(i)(i=1到m)對應(yīng)于水平軸。
V的相應(yīng)元素V(i,j)表示文檔B(i)中的詞匯W(j)的頻率。
(3)計算同現(xiàn)矩陣C(m×m) V的相應(yīng)元素V(i,j)只表示相應(yīng)文檔中相應(yīng)詞條的頻率。由此,為了考慮相應(yīng)詞條同現(xiàn)的信息,首先根據(jù)公式1,計算m×m同現(xiàn)矩陣C(i,j)(i,j=1到m)。
參考圖2的框230。
(公式1)C=VTV 其中T表示轉(zhuǎn)置矩陣。
(4)計算觀測距離矩陣M(m×m) 同現(xiàn)的詞條應(yīng)該自然地彼此緊密相關(guān),但是非常頻繁的詞匯與大量其它詞同現(xiàn),并且由此有必要認為它沒有用于詞匯映射的候選那么重要。
此外,當(dāng)一個文檔很長并由此包含大量詞條時,在這個句子中生成的詞匯需要被認為是不太重要的。
現(xiàn)在考慮這種情況即使當(dāng)所討論的一對詞條都是通常頻繁使用的高頻詞時,它們也不同時出現(xiàn)在主題文檔數(shù)據(jù)中。
根據(jù)常規(guī)技術(shù),當(dāng)同現(xiàn)數(shù)據(jù)的值為0時,無論進行什么計算,都不能定義構(gòu)成該詞匯對的這兩個詞之間的關(guān)系。
然而,基于通常頻繁出現(xiàn)的詞條并不同時出現(xiàn)的事實,可想得到,那兩個詞的關(guān)系是它們彼此相斥。
換句話說,可想得到,用于增大這兩個詞之間距離的力正在起作用。
根據(jù)這個想法,當(dāng)大量文檔用作計算詞條之間距離的數(shù)據(jù)時,甚至對于同現(xiàn)頻率為0的詞條,可以定義某一距離。
這個想法對于排列詞匯空間中的大量詞是非常有效的。
這是因為,根據(jù)常規(guī)方法,無法定義不同時出現(xiàn)的所有詞對之間的距離,但是存在對其定義了被計算為詞條之間距離的可能最大距離的大量詞對,導(dǎo)致詞匯空間的不穩(wěn)定。
通過考慮排斥關(guān)系,有可能減少這種不穩(wěn)定狀態(tài)。
此外,對于處于吸引關(guān)系的詞匯對,當(dāng)這些詞在整個文檔數(shù)據(jù)中頻率都很高并且在其它文檔中也頻繁使用時,相比集中在它們同現(xiàn)的文檔上的詞,應(yīng)該將該距離設(shè)置為大的。
由此,基于m×m同現(xiàn)矩陣C(i,j)(i,j=1到m),考慮詞條之間的排斥力和吸引力,(參考圖2的框250)創(chuàng)建由公式2表示的m×m觀測距離矩陣M(i,j)(i,j=1到m)。
(公式2)M(i,j)=-2×C(i,j)/{tf(i)×tf(j)}對于C(i,j)≠0 {tf(i)×tf(j)}/(2×β)對于C(i,j)=0 其中C(i,j)是相應(yīng)詞匯對的同現(xiàn)矩陣的值,tf(j)是整個文檔中詞匯的頻率,而β是tf(i)(i=1到m)的最大值。應(yīng)該注意的是,將頻率值轉(zhuǎn)換成對數(shù)形式以用于平滑,并且當(dāng)對于所有詞匯對計算對數(shù)形式時,將矩陣M的相應(yīng)元素的值歸一化,使得最小距離、即到它本身的距離為0,并且最大值為1。
(5)計算詞匯空間距離函數(shù)D(m×m) 根據(jù)如下步驟(a)到(c),確定詞匯空間距離函數(shù)D(m×m)(參考圖2的框230)。
(a)二維空間中指定詞條的初始布置 通過在(1)的(c)和(d)中描述的處理,輸入三個或更多個指定詞條及其在二維空間中的布置信息。
如圖5中所示出的,作為二維空間中指定詞條的位置,“不純的”、“清爽的”和“果味的”分別排列在左上位置、中間位置和中右位置。
(b)確定二維空間中其它詞條的初始布置 其余詞條隨機排列為初始布置。
在這種情況下,相應(yīng)詞條的x坐標和y坐標由dx(i)和dy(i)(i=1到m)表示。
圖6示出其余詞條隨機排列為初始布置的示例。
(c)計算二維空間中詞匯對的詞匯空間距離D(i,j) 計算二維空間中詞匯對的詞匯空間距離D(i,j)(i,j=1到m) 在這種情況下,二維空間中存在各種可能的距離,但是此處使用由公式3表示的歐幾里德距離函數(shù)。
(公式3)D(i,j)=√{(dx(i)-dx(j))2+(dy(i)-dy(j))2}其中i,j=1到m。
(6)計算應(yīng)力函數(shù)S的最優(yōu)值 二維空間中詞匯對之間的詞匯空間距離D(i,j)與觀測值M(i,j)之間的誤差的和S被定義為應(yīng)力,由公式4表示。
參考圖2的框250。
(公式4)S=∑i∑j((D(i,j)-M(i,j))2其中i,j=1到m 通過改變隨機初始化的詞條的位置D(i,j),確定使應(yīng)力S最小化的詞條的位置D(i,j)。
存在各種已知的優(yōu)化方法,并且本發(fā)明根據(jù)置信域方法確定最優(yōu)值,其中置信域方法的研究近來已經(jīng)發(fā)展為在全局收斂方面很優(yōu)秀的方法,得到穩(wěn)定的詞匯空間。
參考圖2的框270。
(7)輸出最優(yōu)位置D(i,j) 通過布置二維空間中的最優(yōu)位置D(i,j),當(dāng)三個或更多個詞條及其布置作為初始值給出時,示出了二維詞匯空間中的最優(yōu)布置。
參考圖2的框280。
圖7示出應(yīng)用本發(fā)明之后的結(jié)果。
[本發(fā)明有效性的驗證] 本發(fā)明的目的是,基于所選詞條的頻率,構(gòu)建反映詞條之間語義空間的詞匯空間,并至少在語言用戶的語言學(xué)直觀層面確定與詞條意思的對應(yīng)關(guān)系。
因此,本發(fā)明可有效地用于諸如詞條之間關(guān)系的分析和直觀界面的確認等應(yīng)用領(lǐng)域。
然后,根據(jù)如下方法驗證,基于頻率數(shù)據(jù)構(gòu)建的詞匯空間給出了語義對應(yīng)關(guān)系。
1.高頻詞不同時出現(xiàn)的情況 要討論這種情況雖然所討論的一對詞條都是通常頻繁使用的高頻詞,但它們不同時出現(xiàn)在主題文檔數(shù)據(jù)中,并且該對詞條彼此相互排斥。
為了說明起見,現(xiàn)在考慮4個詞條t1到t4出現(xiàn)在3個文檔d1、d2和d3中的情況。
在這種情況下做如下假設(shè)。
(1)t1和t2同時出現(xiàn)在d1中。
(2)T3和t4同時出現(xiàn)在d2中。
(3)t3和t1不同時出現(xiàn)在d1到d3中,并且t3和t2不同時出現(xiàn)在d1到d3中。
(4)t4和t1不同時出現(xiàn)在d1到d3中,并且t4和t2不同時出現(xiàn)在d1到d3中。
(5)t4是僅在d3中頻繁使用的高頻詞。
上面提到的關(guān)系由n×m頻率矩陣V(i,j)(i=1到3,j=1到4)表示如下 [表達式1] 應(yīng)該注意,tf(1)=10,tf(2)=10,tf(3)=10,并且tf(4)=10+90=100。
根據(jù)這個頻率矩陣V(i,j)(i=1到3,j=1到4),按照公式1,確定同現(xiàn)矩陣C(i,j)(i,j=1到4),并且進一步按照公式2,如下確定觀測距離矩陣。
分別提供對應(yīng)于移位單元(33,40,42,205,206,305,306)的“或”門(34、38),所述“或”門的輸出連接到對應(yīng)的移位單元(33,40,42,205,206,305,306)的移位控制端口(35),并且“或”門(34、38)的一個或多個輸入連接到用于編程對應(yīng)的移位單元(33,40,42,205,206,305,306)的移位模式的一個或多個相線(41,44,45)。
[表達式2] 在這種情況下,執(zhí)行歸一化以使得到它本身的距離為0,并且最大距離為1。
結(jié)果表明,當(dāng)t1與t2之間的距離為″0.0004″并由此非常接近時,頻繁出現(xiàn)的t4與t3之間的距離″0.2686″比那個距離大。
此外,對于同現(xiàn)頻率為0的情況,作為整體頻繁出現(xiàn)的t4與t1之間的距離″1.0000″和t4與t2之間的距離″1.0000″大于t3與t1之間的距離″0.8456″和t3與t2之間的距離″0.8456″,并由此認為本發(fā)明有效。
2.最終布置的檢驗 圖10a示出根據(jù)本發(fā)明的排列,其中作為初始布置,“上等的”固定在中左位置(0.2,0.5),“甜味的”固定在中下位置(0.5,0.2),并且“劣質(zhì)的”固定在中右位置(0.8,0.5)。
要考慮這種情況固定那三個詞,并作為下一個詞,定位“苦味的”。
“上等的”排列在中左位置,與此對應(yīng)的“劣質(zhì)的”排列在中右位置,并且“甜味的”排列在中下位置。因此,希望按照意思將與此對應(yīng)的“苦味的”布置在中上位置。
該圖(圖10a)示出這種情況計算機為第四個詞“苦味的”計算隨機數(shù),并選擇左上位置作為初始布置。
然后,當(dāng)應(yīng)用本發(fā)明同時將圖10a視為初始狀態(tài)時,作為基于頻率數(shù)據(jù)的最優(yōu)化結(jié)果獲得圖10b。
在這種情況下,相對于“甜味的”沿對角線設(shè)置“苦味的”的布置,并且該布置表示“苦味的”在語義上與“甜味的”相反。
類似地,圖11a示出這種情況對于“苦味的”,選擇右上位置作為初始布置。
當(dāng)應(yīng)用本發(fā)明同時將圖11a視為初始狀態(tài)時,如在圖10b中那樣,獲得圖11b。
對于根據(jù)多個不同領(lǐng)域中文檔數(shù)據(jù)確定的詞條,這種驗證給出了相似的結(jié)果。因此,認為本發(fā)明有效。
[附圖標記的說明] 100殼體 110存儲單元 120主存儲器 130顯示單元 140中央處理單元(CPU) 150操作單元 160輸入單元 產(chǎn)業(yè)適用性 本發(fā)明可應(yīng)用于用于確定詞匯空間中任意領(lǐng)域中彼此相互有關(guān)的詞條的相對位置的信息處理。
權(quán)利要求
1.一種用于確定任意領(lǐng)域中相互有關(guān)的詞在二維空間中的相對位置的設(shè)備,包括
(a)用于接收與所述任意領(lǐng)域有關(guān)的n個文檔B(i)、所述任意領(lǐng)域中使用的詞條的m個詞匯鄰域詞條W(i)、k個指定詞條A(i)以及所述二維空間中所述k個指定詞條A(i)的位置信息P的裝置;
(b)用于使用與所述任意領(lǐng)域有關(guān)的所述n個文檔B(i)和所述m個詞匯鄰域詞條W(i)來確定n×m頻率矩陣V(i,j)的裝置;
(c)用于使用所述n×m頻率矩陣V(i,j)計算m×m觀測距離矩陣M(i,j)的裝置;
(d)用于根據(jù)所述二維空間中所述指定詞條的所述位置信息P和除所述指定詞條之外的詞條在所述二維空間中任意確定的初始位置來確定m×m詞匯位置矩陣D(i,j)的裝置;以及
(e)用于基于所述m×m詞匯位置矩陣D(i,j)和所述m×m詞匯位置矩陣M(i,j)確定應(yīng)力函數(shù)S,并確定使所述應(yīng)力函數(shù)S最小化的m×m詞匯位置矩陣D(i,j)的裝置。
2.如權(quán)利要求1所述的設(shè)備,其中用于計算所述m×m觀測距離矩陣M(i,j)的裝置還包括
(a)用于按照公式1確定m×m同現(xiàn)矩陣C(i,j)的裝置
(公式1)C(i,j)=VTV
其中T表示矩陣的轉(zhuǎn)置;以及
(b)用于按照公式2根據(jù)所述m×m同現(xiàn)矩陣C(i,j)來確定所述m×m觀測距離矩陣M(i,j)的裝置;
(公式2)M(i,j)=-2×C(i,j)/{tf(i)×tf(j)}對于C(i,j)≠0{tf(i)×tf(j)}/(2×β)對于C(i,j)=0
其中C(i,j)是每個詞匯對的同現(xiàn)矩陣的值,tf(j)是整個文檔中詞匯的頻率,而β是tf(i)的最大值(i=1到m)。
3.如權(quán)利要求1或2所述的設(shè)備,其中用于接收所述指定詞條和所述二維空間中所述指定詞條的位置的裝置接收至少三個指定詞條和所述二維空間中所述指定詞條的位置。
4.如權(quán)利要求1到3中任一項所述的設(shè)備,還包括
(a)用于接收素樸詞匯的指定的裝置;
(b)用于從詞匯映射矩陣中選擇對應(yīng)于所述素樸詞匯的行數(shù)據(jù)的裝置;
(c)用于選擇對應(yīng)于所選行數(shù)據(jù)的專家詞匯和對應(yīng)于所述專家詞匯的列數(shù)據(jù)的裝置;以及
(d)用于確定對應(yīng)于所選列數(shù)據(jù)的素樸詞匯,并確定所述詞匯鄰域詞匯W(i)的裝置。
5.一種用于確定任意領(lǐng)域中相互有關(guān)的詞在二維空間中的相對位置的程序,所述程序控制計算機用作
(a)用于接收與所述任意領(lǐng)域有關(guān)的n個文檔B(i)、所述任意領(lǐng)域中使用的詞條的m個詞匯鄰域詞條W(i)、k個指定詞條A(i)以及所述二維空間中所述k個指定詞條A(i)的位置信息P的裝置;
(b)用于使用與所述任意領(lǐng)域有關(guān)的所述n個文檔B(i)和所述m個詞匯鄰域詞條W(i)來確定n×m頻率矩陣V(i,j)的裝置;
(c)用于使用所述n×m頻率矩陣V(i,j)計算m×m觀測距離矩陣M(i,j)的裝置;
(d)用于根據(jù)所述二維空間中所述指定詞條的所述位置信息P和除所述指定詞條之外的詞條在所述二維空間中任意確定的初始位置來確定m×m詞匯位置矩陣D(i,j)的裝置;以及
(e)用于基于所述m×m詞匯位置矩陣D(i,j)和所述m×m詞匯位置矩陣M(i,j)確定應(yīng)力函數(shù)S,并確定使所述應(yīng)力函數(shù)S最小化的m×m詞匯位置矩陣D(i,j)的裝置。
6.一種用于通過控制計算機執(zhí)行如下步驟來確定任意領(lǐng)域中相互有關(guān)的詞在二維空間中的相對位置的方法
(a)接收與所述任意領(lǐng)域有關(guān)的n個文檔B(i)、所述任意領(lǐng)域中使用的詞條的m個詞匯鄰域詞條W(i)、k個指定詞條A(i)以及所述二維空間中所述k個指定詞條A(i)的位置信息P;
(b)使用與所述任意領(lǐng)域有關(guān)的所述n個文檔B(i)和所述m個詞匯鄰域詞條W(i)來確定n×m頻率矩陣V(i,j);
(c)使用所述n×m頻率矩陣V(i,j)來計算m×m觀測距離矩陣M(i,j);
(d)根據(jù)所述二維空間中所述指定詞條的所述位置信息P和除所述指定詞條之外的詞條在所述二維空間中任意確定的初始位置來確定m×m詞匯位置矩陣D(i,j);以及
(e)基于所述m×m詞匯位置矩陣D(i,j)和所述m×m詞匯位置矩陣M(i,j)來確定應(yīng)力函數(shù)S,并確定使所述應(yīng)力函數(shù)S最小化的m×m詞匯位置矩陣D(i,j)。
7.如權(quán)利要求6所述的方法,其中計算所述m×m觀測距離矩陣M(i,j)的步驟還包括如下步驟
(a)按照公式1確定m×m同現(xiàn)矩陣C(i,j)
(公式1)C(i,j)=VTV
其中T表示矩陣的轉(zhuǎn)置;以及
(b)按照公式2根據(jù)所述m×m同現(xiàn)矩陣C(i,j)來確定所述m×m觀測距離矩陣M(i,j);
(公式2)M(i,j)=-2×C(i,j)/{tf(i)×tf(j)}對于C(i,j)≠0{tf(i)×tf(j)}/(2×β)對于C(i,j)=0
其中C(i,j)是每個詞匯對的同現(xiàn)矩陣的值,tf(j)是整個文檔中詞匯的頻率,而β是tf(i)的最大值(i=1到m)。
8.如權(quán)利要求6或7所述的方法,其中接收所述指定詞條和所述指定詞條在所述二維空間中的位置的步驟接收至少三個指定詞條和所述指定詞條在所述二維空間中的位置。
9.如權(quán)利要求6到8中任一項所述的方法,還包括如下步驟
(a)接收素樸詞匯的指定;
(b)從詞匯映射矩陣中選擇對應(yīng)于所述素樸詞匯的行數(shù)據(jù);
(c)選擇對應(yīng)于所選行數(shù)據(jù)的專家詞匯和對應(yīng)于所述專家詞匯的列數(shù)據(jù);以及
(d)確定對應(yīng)于所選列數(shù)據(jù)的素樸詞匯,并確定所述詞匯鄰域詞匯W(i)。
全文摘要
[問題]在常規(guī)技術(shù)中,雖然已經(jīng)提出由多維尺度(MDS)所表示的各種模型來研究特定領(lǐng)域中彼此有關(guān)的詞之間的關(guān)系,并根據(jù)研究結(jié)果構(gòu)建詞匯空間,但是它們不一定適合構(gòu)建詞匯空間。加之,在構(gòu)建詞匯空間時,不能認定可以有效地確定詞匯空間,即使當(dāng)在預(yù)定假設(shè)上構(gòu)建詞匯空間時也是這樣。[用于解決問題的手段]根據(jù)本發(fā)明,通過任意設(shè)置預(yù)定初始條件、在給定條件下確定詞的出現(xiàn)頻率與同現(xiàn)關(guān)系并最小化出現(xiàn)頻率和同現(xiàn)值與任意設(shè)置的初始布局值之間的差,來穩(wěn)定而高度準確地確定詞匯空間中詞的定位。
文檔編號G06F17/30GK101601035SQ200780048945
公開日2009年12月9日 申請日期2007年10月31日 優(yōu)先權(quán)日2006年10月31日
發(fā)明者小田弘美 申請人:惠普開發(fā)有限公司