專利名稱:文件信息存儲、檢索裝置和方法及其程序的記錄媒體的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及適用于大容量文件信息的存儲及檢索的文件信息存儲裝置和文件信息存儲方法、文件信息檢索裝置和文件信息檢索方法、記錄文件信息存儲程序的記錄媒體和記錄文件信息檢索程序的記錄媒體。
以往,在檢索數(shù)據(jù)庫中存儲的信息的裝置中,存儲大容量的文件數(shù)據(jù)時(shí),有直接存儲文件數(shù)據(jù)的方法和將文件數(shù)據(jù)壓縮后進(jìn)行存儲的方法。
另外,在進(jìn)行檢索時(shí),是直接檢索數(shù)據(jù)庫存儲的數(shù)據(jù)或者使用不是直接存儲的數(shù)據(jù)而是另外生成的索引進(jìn)行文件的檢索。
但是,在這種先有的將文件數(shù)據(jù)直接存儲到數(shù)據(jù)庫中的方式中,存在數(shù)據(jù)的存儲所需要的容量大的問題。
另外,在不生成索引而將文件數(shù)據(jù)壓縮后進(jìn)行存儲的方式中,檢索速度慢。
其中,在壓縮后進(jìn)行存儲的方式中,在文件數(shù)據(jù)的存儲之外另外生成用于檢索的索引時(shí),數(shù)據(jù)的存儲所需要的容量少、檢索速度也不慢。但是,在存儲文件數(shù)據(jù)等信息時(shí),由于分別進(jìn)行數(shù)據(jù)的壓縮和索引的生成,需要一定的處理時(shí)間。
另外,在將文件數(shù)據(jù)壓縮后進(jìn)行存儲時(shí),由于未充分使用文件數(shù)據(jù)中的統(tǒng)計(jì)的信息,所以,有時(shí)壓縮不充分。
這樣,在存儲大容量的文件數(shù)據(jù)等信息的裝置中,就存在減小存儲所需要的區(qū)域和縮短生成索引并進(jìn)行存儲時(shí)的處理時(shí)間的課題。
本發(fā)明就是針對這樣的課題而提案的,目的旨在提供減小存儲大容量的文件數(shù)據(jù)等信息所需要的區(qū)域的同時(shí)生成索引并存儲文件數(shù)據(jù)的、處理時(shí)間短的文件信息存儲裝置和文件信息存儲方法、文件信息檢索裝置和文件信息檢索方法、記錄文件信息存儲程序的記錄媒體和記錄文件信息檢索程序的記錄媒體。
為了達(dá)到上述目的,本發(fā)明的文件信息存儲裝置的特征在于具有通過進(jìn)行詞素分析處理從輸入的文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素的詞素分析部;將由詞素分析部抽出的詞素進(jìn)行編碼的編碼部;對由編碼部進(jìn)行了編碼的詞素進(jìn)行壓縮處理的壓縮部和存儲由壓縮部進(jìn)行了壓縮的編碼詞素的存儲部。
或者,本發(fā)明的文件信息存儲裝置也可以具有根據(jù)由詞素分析部抽出的詞素和由編碼部進(jìn)行了編碼的詞素中的至少一方的信息生成索引的索引生成部和存儲由索引生成部生成的索引的索引存儲部。
此外,本發(fā)明的文件信息存儲裝置可以具有同義詞辭典、同義詞詞匯、對譯辭典中的至少一種,編碼部使用同義詞辭典、同義詞詞匯、對譯辭典中的至少一種將詞素進(jìn)行編碼。
這里,可以具有根據(jù)由詞素分析部抽出的詞素和由編碼部進(jìn)行了編碼的詞素中的至少一方的信息生成索引的索引生成部和存儲由索引生成部生成的索引的索引存儲部,同時(shí),可以具有同義詞辭典、同義詞詞匯、對譯辭典中的至少一種,編碼部使用同義詞辭典、同義詞詞匯、對譯辭典中的至少一種將詞素進(jìn)行編碼。
另一方面,本發(fā)明的文件信息存儲方法的特征在于包括在存儲文件信息時(shí)、通過輸入文件信息、并對文件信息進(jìn)行詞素分析處理、從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素的詞素分析步驟;對由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;對由編碼步驟進(jìn)行了編碼的詞素進(jìn)行壓縮處理的壓縮步驟和存儲由壓縮步驟進(jìn)行了壓縮的編碼詞素的存儲步驟。
這里,也可以包括根據(jù)由詞素分析步驟抽出的詞素和由編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息生成索引的索引生成步驟和存儲由索引生成步驟生成的索引的索引存儲步驟,或者,編碼步驟也可以使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息將詞素進(jìn)行編碼。
此外,也可以包括根據(jù)由詞素分析步驟抽出的詞素和由編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息生成索引的索引生成步驟和存儲由索引生成步驟生成的索引的索引存儲步驟,而編碼步驟也可以使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息將詞素進(jìn)行編碼。
本發(fā)明的文件信息檢索裝置的特征在于具有通過進(jìn)行詞素分析處理、從輸入的文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素的詞素分析部;對由詞素分析部抽出的詞素進(jìn)行編碼的編碼部;對由編碼部進(jìn)行了編碼的詞素進(jìn)行壓縮處理的壓縮部;將具有存儲由壓縮部壓縮過的編碼詞素的存儲部的文件信息存儲裝置的存儲部所存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)的復(fù)原部;判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原的核對部和根據(jù)核對部的核對結(jié)果將由復(fù)原部已復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素的譯碼部。
其中,核對部也可以具有將編碼詞素形式的檢索詢問與由復(fù)原部所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照來判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原的結(jié)構(gòu)。
此外,也可以將根據(jù)由詞素分析部抽出的詞素和由編碼部進(jìn)行了編碼的詞素中的至少一方的信息生成索引的索引生成部,和存儲由索引生成部生成的索引的索引存儲部加到文件信息存儲裝置中。核對部從根據(jù)詞素形式的檢索詢問和編碼詞素形式的檢索詢問中的至少一方的信息而得到的索引中進(jìn)行由索引存儲部存儲的索引的檢索,根據(jù)由該檢索結(jié)果而得到的索引的信息由復(fù)原部將存儲部存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)。
也可以具有同義詞辭典、同義詞詞匯、對譯辭典中的至少一種;編碼部使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息將詞素進(jìn)行編碼而構(gòu)成文件信息存儲裝置,核對部將使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息生成的編碼詞素形式的檢索詢問與由復(fù)原部所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照,判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原。
此外,也可以將根據(jù)由詞素分析部抽出的詞素和由編碼部進(jìn)行了編碼的詞素中的至少一方的信息生成索引的索引生成部,和存儲由索引生成部生成的索引的索引存儲部加到文件信息存儲裝置中,進(jìn)而也可以具有同義詞辭典、同義詞詞匯、對譯辭典中的至少一種,編碼部使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息將詞素進(jìn)行編碼而構(gòu)成文件信息存儲裝置,核對部從根據(jù)詞素形式的檢索詢問和編碼詞素形式的檢索詢問中的至少一方的信息而得到的索引中進(jìn)行由索引存儲部存儲的索引的檢索,根據(jù)由該檢索結(jié)果而得到的索引的信息由復(fù)原部將存儲部存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)。
本發(fā)明的文件信息檢索方法的特征在于對于通過輸入文件信息并對文件信息進(jìn)行詞素分析處理、從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素、將該抽出的詞素進(jìn)行編碼、進(jìn)而對該進(jìn)行了編碼的詞素進(jìn)行壓縮處理并將該進(jìn)行了壓縮的編碼詞素存儲到存儲單元中的文件信息存儲裝置,檢索適合于檢索詢問的信息時(shí),包括通過輸入檢索詢問并對該檢索詢問進(jìn)行詞素分析處理而從檢索詢問信息中抽出詞素的詞素分析步驟;對由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;將文件信息存儲裝置的存儲單元存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)的復(fù)原步驟;將由編碼步驟得到的編碼詞素形式的檢索詢問與復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照,并判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原的核對步驟和根據(jù)核對步驟的核對結(jié)果將由復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素的譯碼步驟。
這里,文件信息存儲裝置可以使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息將詞素進(jìn)行編碼,核對步驟將使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息而生成的編碼詞素形式的檢索詢問與由復(fù)原部所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照,判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原。
本發(fā)明的文件信息檢索方法的特征在于對于通過輸入文件信息并對文件信息進(jìn)行詞素分析處理、從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素、將該抽出的詞素進(jìn)行編碼、進(jìn)而對該進(jìn)行了編碼的詞素進(jìn)行壓縮處理并將該進(jìn)行了壓縮的編碼詞素存儲到存儲單元中的同時(shí)、根據(jù)由詞素分析處理抽出的詞素和由詞素編碼處理進(jìn)行了編碼的詞素中的至少一方的信息生成索引、并將該索引存儲到索引存儲單元中的文件信息存儲裝置,檢索適合于檢索詢問時(shí),包括通過輸入檢索詢問并對該檢索詢問進(jìn)行詞素分析處理而從檢索詢問信息中抽出詞素的詞素分析步驟;將由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;從根據(jù)由詞素分析步驟抽出的詞素和由編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息而得到的索引中進(jìn)行索引存儲單元存儲的索引的檢索的索引檢索步驟;根據(jù)由索引檢索步驟得到的索引信息將由存儲單元存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)的復(fù)原步驟和將由復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素的譯碼步驟。
這里,文件信息存儲裝置可以使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息將詞素進(jìn)行編碼,并且,索引檢索步驟可以使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息進(jìn)行索引檢索。
本發(fā)明的記錄文件信息存儲程序的記錄媒體的特征在于記錄用于使計(jì)算機(jī)執(zhí)行通過對輸入的文件信息進(jìn)行詞素分析處理而從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素的詞素分析步驟;將由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;對由編碼步驟進(jìn)行了編碼的詞素進(jìn)行壓縮處理的壓縮步驟和存儲由壓縮步驟所壓縮的編碼詞素的存儲步驟的文件信息存儲程序。
另一方面,本發(fā)明的記錄媒體的特征在于記錄用于使計(jì)算機(jī)執(zhí)行通過對輸入的文件信息進(jìn)行詞素分析處理而從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素的詞素分析步驟;將由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;對由編碼步驟進(jìn)行了編碼的詞素進(jìn)行壓縮處理的壓縮步驟;將由壓縮步驟所壓縮的編碼詞素存儲到存儲單元中的存儲步驟;根據(jù)由詞素分析步驟抽出的詞素和由編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息生成索引的索引生成步驟和將由索引生成步驟生成的索引的索引存儲單元中的索引存儲步驟的文件信息存儲程序。
另一方面,本發(fā)明的記錄媒體的特征在于對于通過輸入文件信息并對文件信息進(jìn)行詞素分析處理、從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素、將該抽出的詞素進(jìn)行編碼、進(jìn)而對該進(jìn)行了編碼的詞素進(jìn)行壓縮處理并將該進(jìn)行了壓縮的編碼詞素存儲到存儲單元中的文件信息存儲裝置,在檢索適合于檢索詢問的信息時(shí),記錄用于使計(jì)算機(jī)執(zhí)行通過對輸入的檢索詢問進(jìn)行詞素分析處理并從檢索詢問信息中抽出詞素的詞素分析步驟;將由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;將存儲單元存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)的復(fù)原步驟;將由編碼步驟得到的編碼詞素形式的檢索詢問與復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照并判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原的核對步驟和根據(jù)核對步驟的核對結(jié)果將由復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素的詞素譯碼步驟的文件信息檢索程序。
此外,本發(fā)明的記錄媒體的特征在于對于通過輸入文件信息并對文件信息進(jìn)行詞素分析處理、從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素、將該抽出的詞素進(jìn)行編碼、進(jìn)而對該進(jìn)行了編碼的詞素進(jìn)行壓縮處理、并將該進(jìn)行了壓縮的編碼詞素存儲到存儲單元中的同時(shí)、根據(jù)由詞素分析處理抽出的詞素和由詞素編碼處理進(jìn)行了編碼的詞素中的至少一方的信息生成索引、并將該索引存儲到索引存儲單元中的文件信息存儲裝置,在檢索適合于檢索詢問的信息時(shí),記錄用于使計(jì)算機(jī)執(zhí)行通過對輸入的檢索詢問進(jìn)行詞素分析處理而從檢索詢問信息中抽出詞素的詞素分析步驟;將由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;從根據(jù)由詞素分析步驟抽出的詞素和由編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息而得到的索引中進(jìn)行索引存儲單元存儲的索引的檢索的索引檢索步驟;根據(jù)由索引檢索步驟得到的索引信息將由存儲單元存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)的復(fù)原步驟和將由復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素的譯碼步驟的文件信息檢索程序。
圖1是表示本發(fā)明實(shí)施例1的文件信息存儲檢索裝置的框圖。
圖2是表示本發(fā)明實(shí)施例1的同義詞辭典、同義詞詞匯的一例的圖。
圖3是表示本發(fā)明實(shí)施例1的對譯辭典的一例的圖。
圖4是用于說明本發(fā)明實(shí)施例1的文件信息存儲檢索裝置存儲文件信息時(shí)的處理的流程的圖。
圖5是用于說明本發(fā)明實(shí)施例1的文件信息存儲檢索裝置檢索文件信息時(shí)的處理的流程的圖。
圖6是用于說明本發(fā)明實(shí)施例1的文件信息存儲檢索裝置檢索文件信息時(shí)的處理的流程的圖。
圖7是表示本發(fā)明實(shí)施例2的文件信息存儲檢索裝置的框圖。
圖8是表示本發(fā)明實(shí)施例2的人名辭典的一例的圖。
圖9是表示本發(fā)明實(shí)施例2的郵政編碼辭典的一例的圖。
圖10是表示本發(fā)明實(shí)施例2的輸入的文件信息的一例的圖。
圖11是用于說明本發(fā)明實(shí)施例2的文件信息存儲檢索裝置存儲文件信息時(shí)的處理的流程的圖。
圖12是用于說明本發(fā)明實(shí)施例2的文件信息存儲檢索裝置檢索文件信息時(shí)的處理的流程的圖。
圖13是表示本發(fā)明實(shí)施例3的文件信息存儲檢索裝置的框圖。
圖14(a)~(c)分別是表示本發(fā)明實(shí)施例3的存儲的文件信息的一例的圖。
圖15是表示本發(fā)明實(shí)施例3的文件信息索引的一例的圖。
圖16是用于說明本發(fā)明實(shí)施例3的文件信息存儲檢索裝置檢索文件信息時(shí)的處理的流程的圖。
圖17是表示本發(fā)明的其他實(shí)施例的圖。
圖18是表示本發(fā)明的其他實(shí)施例的圖。
圖19是表示本發(fā)明的其他實(shí)施例的圖。
下面,參照
本發(fā)明的實(shí)施例。
圖1是表示本發(fā)明實(shí)施例1的框圖,圖1所示的文件信息存儲檢索裝置100包括文件信息詞素分析部1、詞素分析數(shù)據(jù)編碼部2、編碼數(shù)據(jù)壓縮部3、數(shù)據(jù)庫4、文件信息索引生成部5、文件信息索引存儲部6、壓縮編碼數(shù)據(jù)復(fù)原部7、核對判斷部8、編碼詞素譯碼部9、結(jié)果輸出部10、同義詞辭典11、同義詞詞匯12和對譯辭典13。
文件信息詞素分析部1對輸入的文件信息進(jìn)行詞素分析,抽出單詞(包括詞素)。
這里,輸入文件信息詞素分析部1的文件信息數(shù)據(jù)本身已進(jìn)行了編碼,從鍵盤、文件、網(wǎng)絡(luò)等輸入該文件信息。
換言之,文件信息詞素分析部1將以電信號或光信號輸入到文件信息詞素分析部1的文件的各文字考慮語言的特征,分析詞素。
詞素分析數(shù)據(jù)編碼部2將通過文件信息分析部1的分析而抽出的單詞(包括詞素)編碼為數(shù)值。這里,為了將由詞素分析數(shù)據(jù)編碼部2所編碼的數(shù)值進(jìn)行唯一地譯碼變換,將相同的數(shù)值分配給相同的單詞(包括詞素)。利用詞素分析數(shù)據(jù)編碼部2所進(jìn)行的編碼的長度,可以是固定長或可變長。
編碼數(shù)據(jù)壓縮部3將由詞素分析數(shù)據(jù)編碼部2進(jìn)行了編碼的詞素?cái)?shù)據(jù)(詞素分析數(shù)據(jù)編碼部2將由文件信息詞素分析部1抽出的單詞(包括詞素)編碼為數(shù)值,以下相同)進(jìn)而編碼為不同的數(shù)值后進(jìn)行壓縮。
這里,編碼數(shù)據(jù)壓縮部3考慮單詞(包括詞素)的頻度情況,進(jìn)行已編碼的詞素?cái)?shù)據(jù)的壓縮處理。例如,英語文件中的「This is」,在「This」之后,接續(xù)「is」進(jìn)行表述的頻度高,所以,就歸納為「This is」,編碼為1個(gè)數(shù)值,此外,在英文中,在字母「q」之后,接續(xù)「u」的頻度高,所以,就將「qu」壓縮為1個(gè)代碼,設(shè)定出現(xiàn)頻度越高的字符串,壓縮所需要的代碼越短。
這樣,編碼數(shù)據(jù)壓縮部3將對已編碼的詞素?cái)?shù)據(jù)進(jìn)行單詞(包括詞素)的出現(xiàn)頻度及包含多個(gè)單詞的短語的出現(xiàn)頻度等的考察。這里,編碼數(shù)據(jù)壓縮部3不限于將在詞素分析數(shù)據(jù)編碼部2中進(jìn)行了編碼的數(shù)據(jù)一對一對地進(jìn)行壓縮的情況,也可以進(jìn)行將編碼詞素壓縮為多個(gè)或者將多個(gè)編碼詞素壓縮為1個(gè)壓縮數(shù)據(jù)等的處理。
數(shù)據(jù)庫4用于存儲在編碼數(shù)據(jù)壓縮部3中進(jìn)行了壓縮處理的壓縮結(jié)果,設(shè)置在二次存儲裝置等中。另外,在進(jìn)行文件信息的檢索時(shí),在與檢索詢問對應(yīng)時(shí),讀出數(shù)據(jù)庫4存儲的信息。
文件信息索引生成部5根據(jù)在詞素分析數(shù)據(jù)編碼部2中進(jìn)行了編碼的編碼詞素,生成對于存放在信息存儲檢索裝置100中的文件信息的文件信息索引。這里,關(guān)于文件信息索引的生成,文件信息索引生成部5也可以不使用由詞素分析數(shù)據(jù)編碼部2進(jìn)行了編碼的編碼詞素?cái)?shù)據(jù)而使用文件信息詞素分析部1通過分析而抽出的單詞(包括詞素)來生成文件信息索引。
文件信息索引是文件信息索引生成部5生成的,在檢索文件信息等時(shí)使用,記錄在文件信息索引存儲部6中。
另外,文件信息索引在文件信息的檢索中,在判斷從數(shù)據(jù)庫4中復(fù)原的編碼詞素?cái)?shù)據(jù)是否適合于檢索詢問時(shí)也可以作為參考使用。例如,可以將在檢索文件信息時(shí)使用的文件信息索引來判斷從數(shù)據(jù)庫4中所復(fù)原的文件信息是否適合。
壓縮編碼數(shù)據(jù)復(fù)原部7用于將數(shù)據(jù)庫4存儲的壓縮過的字符串恢復(fù)為原來的字符串。壓縮編碼數(shù)據(jù)復(fù)原部7在進(jìn)行復(fù)原為不同的數(shù)值的編碼處理時(shí),對已壓縮的代碼不限于一定進(jìn)行向1個(gè)數(shù)值的編碼處理,可以進(jìn)行向2個(gè)以上的數(shù)值的編碼處理。另外,壓縮編碼數(shù)據(jù)復(fù)原部7也可以對多個(gè)壓縮的代碼進(jìn)行向1個(gè)數(shù)值的編碼處理。
換言之,在進(jìn)行文件信息的檢索時(shí),與檢索詢問相應(yīng)的文件信息存儲到數(shù)據(jù)庫4中時(shí),將數(shù)據(jù)庫4中存儲并壓縮的文件信息復(fù)原為編碼詞素?cái)?shù)據(jù)。
核對判斷部8判斷詞素分析數(shù)據(jù)編碼部2的編碼詞素?cái)?shù)據(jù)與壓縮編碼數(shù)據(jù)復(fù)原部7的編碼詞素?cái)?shù)據(jù)是否一致。
這里,詞素?cái)?shù)據(jù)編碼部2的編碼詞素?cái)?shù)據(jù)就是詞素分析數(shù)據(jù)編碼部2將由文件信息詞素分析部1根據(jù)檢索詢問抽出的單詞(包括詞素)執(zhí)行了編碼為數(shù)值的處理后的數(shù)據(jù)。另一方面,壓縮編碼數(shù)據(jù)復(fù)原部7的編碼詞素?cái)?shù)據(jù)就是由壓縮編碼數(shù)據(jù)復(fù)原部7將數(shù)據(jù)庫4存儲的文件信息(進(jìn)行了壓縮處理的編碼詞素?cái)?shù)據(jù))進(jìn)行復(fù)原為實(shí)施壓縮處理前的編碼詞素?cái)?shù)據(jù)的復(fù)原處理的數(shù)據(jù)。
這里,核對判斷部8在進(jìn)行完全一致檢索時(shí),進(jìn)行將檢索詢問進(jìn)行了編碼的數(shù)值與由壓縮編碼數(shù)據(jù)復(fù)原部7將數(shù)據(jù)庫4存儲的文件信息進(jìn)行了復(fù)原的編碼詞素?cái)?shù)據(jù)的數(shù)值是否完全一致的處理。另外,在進(jìn)行模糊檢索時(shí),核對判斷部8不進(jìn)行數(shù)值的完全一致的檢索,而進(jìn)行部分一致的檢索。
編碼詞素譯碼部9用于將已編碼的編碼詞素?cái)?shù)據(jù)恢復(fù)為原來的單詞(包括詞素)。
結(jié)果輸出部10根據(jù)從核對判斷部8接受的信息輸出檢索結(jié)果。根據(jù)需要,輸出將字符串編碼為原來的單詞(包括詞素)的文件信息。
同義詞辭典11保存著大量的詞形不同而意義基本上相同的單詞,同義詞詞匯(thesaurus)12是分類辭典,對譯辭典13是將原文與譯文對照排列的辭典,這些辭典11、12、13在進(jìn)行索引生成的處理時(shí)及進(jìn)行檢索時(shí)使用。另外,同義詞辭典等(11、12、13)在由文件信息詞素分析部1抽出單詞進(jìn)行分析時(shí),用于進(jìn)行參考使用。
圖2是表示同義詞辭典、同義詞詞匯的一例的圖,如圖2所示的同義詞辭典、同義詞詞匯的一例表所示的那樣,作為看做同義、近義的單詞(包括詞素)的編碼數(shù)值,成為具有相同的(或相似的)代碼形式的結(jié)構(gòu)。
例如,看做同義、近義的「書」、「書籍」和「書本」等的編碼數(shù)值,如圖2所示,除了低位1字節(jié)的編碼,數(shù)值規(guī)定為相同的。
圖3是表示對譯辭典的一例的圖,如圖3所示的對譯辭典的一例的表所示的那樣,在表示相同的概念的單詞中,都包含相同的形式(0×73a52100)而進(jìn)行區(qū)別。語言(在圖3所示的例中,是日語、英語、法語)的不同,則進(jìn)一步用高位的符號進(jìn)行區(qū)別。例如,若是日語,則在高位配上數(shù)值0x,若是英語,則在高位配上數(shù)值0×20,若是法語,則在高位配上數(shù)值0×30,同義、近義的「書」和「書籍」的編碼數(shù)值,低位1字節(jié)不同,其他的數(shù)值相同,另一方面,「本」和「book」及「livre」分別可以解釋為同義、近義,只是語言不同,所以,進(jìn)行編碼處理使編碼數(shù)值的上位字節(jié)不同。
這里,上述詞素分析數(shù)據(jù)編碼部2在將由文件信息詞素分析部1通過分析而抽出的單詞(包括詞素)編碼為數(shù)值時(shí)參考了圖3及圖4所示的同義詞辭典等(11、12、13)。
例如,文件信息詞素分析部1進(jìn)行詞素分析處理的結(jié)果,抽出的是單詞「書」時(shí),該單詞「書」就由詞素分析數(shù)據(jù)編碼部2編碼為0×73a52100的數(shù)值。使用對譯辭典時(shí)也一樣,參照圖4所示的對譯辭典的表的編碼數(shù)值進(jìn)行編碼處理。
由詞素分析數(shù)據(jù)編碼部2參照同義詞辭典等(11、12、13)已數(shù)值化的符號,和不參照同義詞辭典等(11、12、13)已數(shù)值化的編碼詞素?cái)?shù)據(jù)一樣,用于文件信息索引的生成。
為了由文件信息索引生成部5生成文件信息索引,詞素分析數(shù)據(jù)編碼部2傳輸進(jìn)行了編碼處理的詞素?cái)?shù)據(jù)和文件ID(identifier;標(biāo)識符)。
下面,分為不同情況說明本發(fā)明實(shí)施例1的信息存儲檢索裝置100的主要結(jié)構(gòu)的功能等。
(1a)文件信息向數(shù)據(jù)庫的存儲文件信息詞素分析部1將從鍵盤或網(wǎng)絡(luò)等輸入的文件信息從各已編碼的文件串中進(jìn)行詞素分析,并將通過分析而抽出的單詞(包括詞素)向詞素分析數(shù)據(jù)編碼部2輸出,在進(jìn)行詞素的分析時(shí),進(jìn)行考慮了該語言的特征的詞素分析。
這樣,文件信息詞素分析部1通過執(zhí)行詞素分析處理,就發(fā)揮著從輸入的文件信息中抽出作為文件結(jié)構(gòu)要素的詞素的詞素分析部的功能。
在文件信息詞素分析部1中作為文件結(jié)構(gòu)要素而抽出的單詞(包括詞素)由詞素分析數(shù)據(jù)編碼部2進(jìn)行編碼處理為指定的數(shù)值,例如,將單詞等編碼為指定的數(shù)值時(shí),參照同義詞辭典等(11、12、13),如圖2及圖3所示的那樣,對看做同義、近義的單詞等形成相同的代碼形式,數(shù)值編碼處理由詞素分析數(shù)據(jù)編碼部2進(jìn)行。
這樣,詞素分析數(shù)據(jù)編碼部2就發(fā)揮著將由詞素分析部抽出的詞素進(jìn)行編碼的編碼部的功能。
編碼數(shù)據(jù)壓縮部3將在詞素分析數(shù)據(jù)編碼部2中已編碼的文件串中的詞素根據(jù)出現(xiàn)頻度進(jìn)一步進(jìn)行指定的編碼處理。即,對于文件信息,通過使出現(xiàn)率高的單詞(包括詞素)成為短的代碼而進(jìn)行壓縮。
這樣,編碼數(shù)據(jù)壓縮部3就發(fā)揮著對由編碼部進(jìn)行了編碼的詞素進(jìn)行壓縮處理的壓縮部的功能。
并且,在編碼數(shù)據(jù)壓縮部3中進(jìn)而將編碼詞素?cái)?shù)據(jù)編碼為不同的數(shù)值的文件信息存儲到數(shù)據(jù)庫4中,這樣,數(shù)據(jù)庫4就發(fā)揮著作為存儲由壓縮部所壓縮的編碼詞素的存儲部的功能。
通過詞素分析數(shù)據(jù)編碼部2的編碼處理而編碼為指定的數(shù)值的編碼詞素?cái)?shù)據(jù)也可以在生成文件信息索引時(shí)使用,該文件信息索引的生成,由文件信息索引生成部5進(jìn)行。
這樣,文件信息索引生成部5就發(fā)揮著作為根據(jù)由編碼部進(jìn)行了編碼的詞素的信息生成索引的索引生成部的作用。
由文件信息索引生成部5所生成的文件信息索引存儲到文件信息索引存儲部6中,在進(jìn)行數(shù)據(jù)庫4存儲的文件信息的檢索時(shí)使用。這里,在文件信息索引存儲部6中使用由詞素分析數(shù)據(jù)編碼部2進(jìn)行了編碼的詞素?cái)?shù)據(jù)和文件ID存儲文件信息索引,文件信息索引存儲部6發(fā)揮著作為存儲由索引生成部所生成的索引的索引存儲部的功能。
下面,使用圖4等說明具有上述結(jié)構(gòu)的實(shí)施例1的信息存儲檢索裝置100的文件信息的存儲的動作。
在存儲文件信息時(shí),文件信息詞素分析部1對通過鍵盤或網(wǎng)絡(luò)等輸入(S010)的文件信息進(jìn)行詞素的分析。
該分析的執(zhí)行,是在將文件信息向數(shù)據(jù)庫4中存儲時(shí),通過輸入文件信息并對文件信息進(jìn)行詞素分析處理,從通過鍵盤或網(wǎng)絡(luò)等而輸入的文件信息中抽出作為文件結(jié)構(gòu)要素的詞素(詞素分析步驟S020)。
詞素分析數(shù)據(jù)編碼部2參照圖2及圖3所示的同義詞辭典等(11、12、13)將在詞素分析步驟中文件信息詞素分析部1分析后抽出的單詞(包括詞素),對于同義、近義的單詞(包括詞素)編碼為相同的代碼形式的數(shù)值(編碼步驟S030)。
編碼數(shù)據(jù)壓縮部3將在編碼步驟中詞素分析數(shù)據(jù)編碼部2已編碼為指定的數(shù)值的編碼詞素?cái)?shù)據(jù)考慮單詞(包括詞素)的出現(xiàn)頻度等后進(jìn)一步進(jìn)行編碼處理,例如,對于出現(xiàn)頻度高的單詞等就編碼為簡單的代碼,或者代碼為可變長時(shí),就縮短出現(xiàn)率高的單詞及短語等編碼的代碼長度,并且增加出現(xiàn)率低的單詞及短語等編碼的代碼長度(壓縮步驟S040)。
作為壓縮步驟,將由編碼數(shù)據(jù)壓縮部3所壓縮的編碼詞素?cái)?shù)據(jù)記錄到二次存儲裝置等的數(shù)據(jù)庫4中,數(shù)據(jù)庫4存儲在壓縮步驟所壓縮的編碼詞素(記錄步驟S050)。
文件信息索引生成部5根據(jù)作為編碼步驟由詞素分析數(shù)據(jù)編碼部2進(jìn)行了編碼的詞素的信息生成文件信息索引,并存儲到文件信息索引存儲部6中(索引生成步驟、索引存儲步驟S031)。
在進(jìn)行文件信息索引的生成時(shí),也可以使用在詞素分析步驟文件信息詞素分析部1抽出的單詞(包括詞素)生成文件信息索引(索引生成步驟、索引存儲步驟S021)。
這里,使用單詞(包括詞素)或編碼詞素分析數(shù)據(jù)生成文件信息索引,與裝置的設(shè)計(jì)情況有關(guān)。
這樣,實(shí)施例1的信息檢索裝置100通過具有文件信息詞素分析部1、詞素分析數(shù)據(jù)編碼部2、編碼數(shù)據(jù)壓縮部3和數(shù)據(jù)庫4,由詞素分析數(shù)據(jù)編碼部2將文件信息詞素分析部1分析后抽出的詞素進(jìn)行編碼,并通過編碼數(shù)據(jù)壓縮部3進(jìn)一步將編碼數(shù)據(jù)進(jìn)行壓縮,減小最初的文件信息的數(shù)據(jù)容量,便可減小存儲大容量數(shù)據(jù)的文件信息所需要的區(qū)域。
此外,由于該信息存儲檢索裝置100同時(shí)進(jìn)行文件信息索引的生成時(shí)所使用的編碼詞素?cái)?shù)據(jù)和英語進(jìn)行壓縮的編碼詞素?cái)?shù)據(jù)的生成的處理,所以,與另外獨(dú)立地生成文件信息索引的情況相比,文件信息索引的生成可以不需要時(shí)間。
通過在文件信息詞素分析部1中一次進(jìn)行詞素分析數(shù)據(jù)編碼部2中進(jìn)行編碼使用的單詞(包括詞素)和文件信息索引生成部5使用的單詞的抽出(分割)處理效率,非常高,與由文件信息詞素分析部1和詞素分析數(shù)據(jù)編碼部2獨(dú)立地進(jìn)行單詞的抽出處理的情況相比,可以縮短時(shí)間。
另外,實(shí)施例1的信息檢索存儲裝置100還具有同義詞辭典11、同義詞詞匯12及對譯辭典13,所以,詞素分析數(shù)據(jù)編碼部2通過使用同義詞辭典11、同義詞詞匯12及對譯辭典13的信息將與文件的領(lǐng)域及內(nèi)容一致的詞素(或者單詞)進(jìn)行編碼,就不是單純的符號串的壓縮,而是使用詞素的分析,抽出詞素(或者單詞),與文件內(nèi)容一致地進(jìn)行編碼,并進(jìn)而對該符號串進(jìn)行壓縮,所以,可望獲得高的壓縮率。
(1b)數(shù)據(jù)庫存儲的文件信息的檢索文件信息詞素分析部1用于分析檢索詢問并抽出單詞(包括詞素)。換言之,就是文件信息詞素分析部1對作為已編碼而輸入的字符串的檢索詢問進(jìn)行詞素分析處理。
這里,檢索詢問和數(shù)據(jù)庫4存儲的文件信息一樣,通過鍵盤、文件、網(wǎng)絡(luò)等輸入文件信息詞素分析部1。例如,作為輸入的檢索詢問,相應(yīng)的是單詞或句子等。
詞素分析數(shù)據(jù)編碼部2用于將由文件信息詞素分析部1分析檢索詢問后抽出的單詞(包括詞素)進(jìn)行編碼為指定的數(shù)值的編碼處理,這里,將檢索詢問中的詞素等數(shù)值化時(shí)的數(shù)值,使用和將存儲的文件信息的單詞(包括詞素)進(jìn)行編碼時(shí)使用的數(shù)值相同的數(shù)值。即,該詞素分析數(shù)據(jù)編碼部2對文件信息詞素分析部1抽出的單詞(包括詞素)進(jìn)行唯一的數(shù)值編碼處理。
這里,將由文件信息詞素分析部1通過分析而抽出的單詞(包括詞素)編碼為數(shù)值時(shí),詞素分析數(shù)據(jù)編碼部2參照圖2及圖3所示的同義詞辭典等(11、12、13)對檢索詢問的單詞(包括詞素)進(jìn)行編碼處理。
核對判斷部8使用由詞素分析數(shù)據(jù)編碼部2將檢索詢問的單詞(包括詞素)編碼為數(shù)值的編碼詞素?cái)?shù)據(jù),檢索文件信息索引存儲部6存儲的文件信息索引,在進(jìn)行檢索時(shí),索引中有與檢索詢問的編碼詞素?cái)?shù)據(jù)一致的數(shù)據(jù)時(shí),控制數(shù)據(jù)庫將與該文件ID對應(yīng)的文件信息傳輸給壓縮編碼數(shù)據(jù)復(fù)原部7。
此外,核對判斷部8還進(jìn)行從數(shù)據(jù)庫4復(fù)原的編碼詞素?cái)?shù)據(jù)與檢索詢問的編碼詞素?cái)?shù)據(jù)是否一致的判斷處理。
這里,進(jìn)行已復(fù)原的編碼詞素?cái)?shù)據(jù)與檢索詢問完全一致的檢索處理時(shí),核對判斷部8判斷編碼數(shù)值是否完全一致,另一方面,在進(jìn)行模糊的檢索處理時(shí),除了對編碼數(shù)值進(jìn)行某種處理外,還判斷是否一致。例如,在對檢索對照進(jìn)行允許近義詞的檢索中,如圖2所示,像「書」和「書籍」那樣,由于近義的關(guān)系,編碼數(shù)值只是低位1字節(jié)不同,所以,核對判斷部8就將低位1字節(jié)掩蔽進(jìn)行檢索,通過判斷除了該低位1字節(jié)的編碼數(shù)值是否一致,進(jìn)行模糊的檢索。
另外,核對判斷部8不僅可以單純地判斷單詞的一致,而且可以判斷與各種檢索時(shí)的條件(單詞的出現(xiàn)位置等)是否一致,在檢索詢問中有必要確認(rèn)出現(xiàn)位置等原來的文件信息時(shí),就通過壓縮編碼數(shù)據(jù)復(fù)原部7部分地復(fù)原原來的文件。
這樣,核對判斷部8就發(fā)揮著作為判斷編碼詞素?cái)?shù)據(jù)是否已復(fù)原的核對部的功能。
并且,由壓縮編碼數(shù)據(jù)復(fù)原部7將數(shù)據(jù)庫4的已壓縮的文件信息數(shù)據(jù)編碼為指定的數(shù)值,這位于作為與編碼數(shù)據(jù)壓縮部3中的壓縮相反的處理的位置。
這樣,壓縮編碼數(shù)據(jù)復(fù)原部7就發(fā)揮著作為將具有存儲由壓縮部所壓縮的編碼詞素的存儲部的、文件信息存儲裝置的存儲部、存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)的復(fù)原部的功能。
編碼詞素譯碼部9在有必要復(fù)原時(shí)用于將由核對判斷部8判定適合于檢索詢問的詞素?cái)?shù)據(jù)復(fù)原為單詞(包括詞素)。
即,該編碼詞素譯碼部9將由詞素分析數(shù)據(jù)編碼部2進(jìn)行了編碼為指定的數(shù)值的單詞(包括詞素)執(zhí)行從數(shù)值復(fù)原為單詞(包括詞素)的處理。這里,由于與指定的單詞(包括詞素)對應(yīng)的編碼數(shù)值是唯一地決定的,所以,編碼詞素譯碼部9將指定的編碼詞素?cái)?shù)據(jù)進(jìn)行向詞素唯一地譯碼的處理,相當(dāng)于詞素分析數(shù)據(jù)編碼部2的編碼處理的逆處理。
這樣,編碼詞素譯碼部9就發(fā)揮著作為根據(jù)核對結(jié)果將由復(fù)原部所復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素的譯碼部的功能。
下面,使用圖5等說明具有上述結(jié)構(gòu)的實(shí)施例1的信息存儲檢索裝置100的文件信息的檢索的動作。
文件信息詞素分析部1將通過鍵盤或網(wǎng)絡(luò)等而輸入(S110)的檢索詢問(單詞或句子等)通過分析而抽出單詞(包括詞素)(詞素分析步驟S120)。
詞素分析數(shù)據(jù)編碼部2參照例如圖2及圖3所示的同義詞辭典等(11、12、13)將文件信息詞素分析部1在詞素分析步驟中分析檢索詢問后抽出的單詞(包括詞素),對同義、近義的單詞(包括詞素)進(jìn)行相同的代碼形式的數(shù)值化(編碼步驟S130)。
核對判斷部8使用詞素分析數(shù)據(jù)編碼部2在編碼步驟中編碼為指定的數(shù)值的檢索詢問,進(jìn)行具有相同的數(shù)值的符號是否位于文件信息索引中的檢索(S140)。
并且,核對判斷部8在檢索文件信息索引的結(jié)果是有相應(yīng)的索引時(shí),控制數(shù)據(jù)庫4將其存儲的壓縮詞素?cái)?shù)據(jù)向壓縮編碼數(shù)據(jù)復(fù)原部7輸出。這里,在檢索的結(jié)果匹配的文件有多個(gè)時(shí),就將該數(shù)量的文件向壓縮編碼數(shù)據(jù)復(fù)原部7輸出。
這里,核對判斷部8通過檢索考慮是否有必要確認(rèn)出現(xiàn)位置等原來的文件(S150),在有必要進(jìn)行確認(rèn)時(shí),就控制將數(shù)據(jù)庫4存儲的原來的文件的內(nèi)容進(jìn)行部分地復(fù)原。這里,壓縮編碼數(shù)據(jù)復(fù)原部7將數(shù)據(jù)庫4的已壓縮的文件信息復(fù)原為指定的符號(復(fù)原步驟S151)。
此外,核對判斷部8根據(jù)文件信息索引的檢索,在檢測到與所檢索的符號的數(shù)值相同的符號時(shí),就確認(rèn)是否適合于檢索詢問(核對步驟S160)。
核對判斷部8將檢索的結(jié)果向結(jié)果輸出部10傳輸,結(jié)果輸出部10在有必要作為原來的文件的內(nèi)容進(jìn)行譯碼時(shí)(S170),例如就由核對判斷部8確認(rèn)適合于檢索詢問的文件信息,在有必要將作為原來的文件的內(nèi)容而輸出時(shí),就將編碼詞素?cái)?shù)據(jù)向編碼詞素譯碼部9傳輸,作為原來的文件的內(nèi)容進(jìn)行譯碼(譯碼步驟S171)。
并且,結(jié)果輸出部10輸出由編碼詞素譯碼部9所復(fù)原的原來的文件的內(nèi)容等檢索結(jié)果(S180)。
這樣,由于實(shí)施例1的信息存儲檢索裝置100具有文件信息詞素分析部1、詞素分析數(shù)據(jù)編碼部2、編碼數(shù)據(jù)壓縮部3、數(shù)據(jù)庫4、壓縮編碼數(shù)據(jù)復(fù)原部7、核對判斷部8和編碼詞素譯碼部9,所以,可以節(jié)省空間來存儲大容量的文件信息數(shù)據(jù),并且可以檢索所需要的文件信息。
此外,由于核對判斷部8將編碼詞素形式的詢問與由壓縮編碼數(shù)據(jù)復(fù)原部7所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照,判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原,所以,該信息存儲檢索裝置100根據(jù)大容量的壓縮的文件信息就可以檢索所需要的事項(xiàng)。
(1c)文件信息的檢索下面,使用圖6等說明文件信息索引生成部5使用文件信息詞素分析部1通過分析而抽出的單詞(包括詞素)生成文件信息索引時(shí)實(shí)施例1的信息存儲檢索裝置100的文件信息的檢索的動作。
首先,從鍵盤或文件、網(wǎng)絡(luò)等輸入檢索詢問(單詞或句子等)(S210)。
其次,詞素分析部1將該檢索詢問進(jìn)行詞素分析后抽出單詞(包括詞素)(詞素分析步驟S220)。
核對判斷部8使用該單詞在文件信息索引6內(nèi)進(jìn)行檢索(S230)。
對于檢索詢問確認(rèn)出現(xiàn)位置等原來的文件時(shí),就通過壓縮編碼數(shù)據(jù)復(fù)原部7和編碼詞素譯碼部9部分地復(fù)原原來的文件(S240、復(fù)原步驟S241),核對判斷部8確認(rèn)所復(fù)原的文件的內(nèi)容是否適合于檢索詢問的條件(核對步驟S250)。
并且,根據(jù)檢索結(jié)果,輸出原來的文件的內(nèi)容時(shí),就通過壓縮編碼數(shù)據(jù)復(fù)原部7和編碼詞素譯碼部9將數(shù)據(jù)庫4所存儲的壓縮數(shù)據(jù)進(jìn)行譯碼(S260、譯碼步驟S261)。
最后,輸出檢索的結(jié)果(S270)。
利用這種使用由詞素分析部1通過分析而抽出的單詞(包括詞素)生成的文件信息索引進(jìn)行的文件信息的檢索,也和(1b)的文件信息的檢索一樣,文件信息存儲檢索裝置可以節(jié)省空間來存儲大容量的文件信息數(shù)據(jù),并且可以檢索所需要的文件信息,同時(shí),還可以非常順利地從大容量的壓縮的文件信息中檢索所需要的事項(xiàng)。
(2)實(shí)施例2的說明圖7是表示作為本發(fā)明的實(shí)施例2的信息存儲檢索裝置200的圖,圖7所示的信息存儲檢索裝置200與上述實(shí)施例1相比,不同點(diǎn)在于將同義詞辭典等(11、12、13)代之以人名辭典14及郵政編碼辭典15,其他(參見符號1、2、3、4、5、6、7、8、9、10)結(jié)構(gòu)相同。
對于和在(1)中使用的相同的部分,省略其說明。
這里,圖8是表示人名辭典的一例的圖,如圖8所示,人名辭典存儲著人名、姓名、與人名的索引對應(yīng)的符號(數(shù)值),郵政編碼辭典15存儲著與場所(地域、地名)對應(yīng)的符號(數(shù)值),這些辭典(14、15)和同義詞辭典等(11、12、13)一樣,在編碼部的詞素分析數(shù)據(jù)編碼部2將由詞素分析部1抽出的單詞(包括詞素)進(jìn)行編碼為指定的數(shù)值的編碼處理時(shí)作為參考使用。此外,人名辭典等(14、15)在作為詞素分析部的文件信息詞素分析部1分析數(shù)據(jù)庫4存儲的文件信息和檢索詢問并抽出單詞(包括詞素)時(shí)也進(jìn)行參考使用。在上述實(shí)施例1的文件信息存儲檢索裝置100中,也可以采用參考同義詞辭典等(11、12、13)由文件信息詞素分析部1通過分析而抽出單詞(包括詞素)的結(jié)構(gòu)。
這里,人名辭典14為了對相同發(fā)音的稱呼等進(jìn)行相同的編碼處理,對相同發(fā)音的稱呼等分配給類似的編碼數(shù)值,圖8所示的人名辭典列出了與人名(索引)對應(yīng)的編碼數(shù)值,人名「仲田」的編碼數(shù)值為0×7350,而對人名「中田」則分配給0×7351的編碼數(shù)值,編碼為低位1字節(jié)不同的近似的數(shù)值。
另外,和人名辭典14相同,郵政編碼辭典15對于鄰近的地域,分配給相似的編碼數(shù)值。這里,圖9是表示郵政編碼辭典的一例的表的圖,如圖9所示,郵政編碼辭典列出了與地名(地域名)〔索引〕對應(yīng)的編碼數(shù)值,地名「神奈川縣川崎市幸區(qū)」的編碼數(shù)值分配給210,相反,對于地名「神奈川縣川崎市中原區(qū)」則分配給211,對于地名「神奈川縣川崎市高津區(qū)」,分配給213等編碼數(shù)值,編碼為低位1字節(jié)不同的相似的數(shù)值。
下面,分別從文件信息的存儲和文件信息的檢索說明實(shí)施例2的信息存儲檢索裝置200的動作等。
(2a)文件信息的存儲由于上述結(jié)構(gòu),本發(fā)明實(shí)施例2的信息存儲檢索裝置200除了將同義詞辭典等(11、12、13)代之以人名辭典等(14、15)外,和上述實(shí)施例1一樣地動作。
這里,對于本發(fā)明的實(shí)施例2,下面,使用圖11說明圖10所示的文件信息怎樣處理后存儲到數(shù)據(jù)庫4中。
圖10是表示用于說明將文件信息向數(shù)據(jù)庫4中存儲的動作的文件信息的一例的圖,如圖10所示,在文件序號13的文件信息中除了姓氏外,還包括住所。
另外,圖11是表示在文件信息的存儲處理中文件信息的流程圖,文件信息(文件序號(ID)13)被從鍵盤或網(wǎng)絡(luò)等向信息存儲檢索裝置200傳送。例如,文件信息(文件ID13)中的「中田守神奈川縣川崎市中原區(qū)下小田中…」作為已編碼的字符串的信息而輸入(S310)。
從網(wǎng)絡(luò)等輸入的字符串的文件信息,通過文件信息詞素分析部1的分析,抽出單詞(包括詞素)(詞素分析步驟S320),分割為每個(gè)單詞(包括詞素)。即,文件信息詞素分析部1將從網(wǎng)絡(luò)等輸入的單詞(包括詞素)以人名辭典等(14、15)為基準(zhǔn)進(jìn)行單詞(包括詞素)的分割(抽出)處理。
詞素分析數(shù)據(jù)編碼部2參照圖8和圖9所示的人名辭典和郵政編碼辭典將在詞素分析步驟中分割的單詞(包括詞素)進(jìn)行編碼為指定的數(shù)值的編碼處理。
即,通過詞素分析數(shù)據(jù)編碼部2的處理,各分割的單詞(包括詞素)參照圖8,人名「中田」成為「0×7351」,而人名「守」則成為「0×a120」,參照圖9,住所「神奈川縣川崎市中原區(qū)」成為「211」,而住所「下小田中」則成為「0×ff23」(編碼步驟S330)。
作為編碼步驟,由詞素分析數(shù)據(jù)編碼部2編碼為指定的數(shù)值的編碼詞素?cái)?shù)據(jù)向編碼數(shù)據(jù)壓縮部3和文件信息索引生成部5傳送。索引生成部5根據(jù)由詞素分析數(shù)據(jù)編碼部2進(jìn)行編碼的詞素?cái)?shù)據(jù)和文件ID生成文件信息索引。例如,作為編碼步驟,在詞素分析數(shù)據(jù)編碼部2中,將已編碼的人名「中田」、「守」等的編碼數(shù)值「0×7351」、「0×a120」等作為索引,生成包含與其對應(yīng)的文件ID的內(nèi)容的文件信息索引(索引生成步驟S340)。
另一方面,編碼數(shù)據(jù)壓縮部3對由詞素分析數(shù)據(jù)編碼部2執(zhí)行的編碼的數(shù)值「0×7351 0×a120 211 0×ff23…」等進(jìn)一步進(jìn)行編碼為不同的數(shù)值的壓縮的處理(壓縮步驟),并將所壓縮的編碼詞素?cái)?shù)據(jù)存儲到作為存儲部的數(shù)據(jù)庫4中(存儲步驟)。
這樣,按照信息存儲檢索裝置200,不是直接壓縮文件信息(例如,文件ID 13中的「中田守……」),而是一度通過作為詞素分析部的文件信息詞素分析部1分析詞素,參照人名辭典等(14、15),由作為編碼部的詞素分析數(shù)據(jù)編碼部2進(jìn)行編碼為指定的數(shù)值的編碼處理,進(jìn)而由編碼數(shù)據(jù)壓縮部3將已編碼的詞素?cái)?shù)據(jù)進(jìn)行壓縮,并且隨著考慮原來的文件(從網(wǎng)絡(luò)等輸入的文件信息)的性質(zhì)進(jìn)行編碼(例如,是花名冊時(shí),就根據(jù)人名和住所進(jìn)行編碼),可以期望高的壓縮率。
此外,通過作為詞素分析部的文件信息詞素分析部1的一次的處理抽出(分割)編碼步驟中的編碼所使用的單詞(包括詞素)和文件信息索引生成部5使用的單詞,非常有效,與詞素分析數(shù)據(jù)編碼部2和文件信息索引生成部5獨(dú)立地進(jìn)行單詞的抽出處理的情況相比,可以縮短時(shí)間。
(2b)文件信息的檢索下面,使用圖12說明本發(fā)明的實(shí)施例2如何檢索數(shù)據(jù)庫4存儲的文件信息。
圖12是表示文件信息的檢索處理中文件信息的流程的圖,檢索詢問通過鍵盤或網(wǎng)絡(luò)等輸入信息存儲檢索裝置200。例如,以檢索詢問「中田」并且檢索條件「用相同的稱呼、包括文字不同的情況」作為已編碼的字符串的信息而輸入(S410)。
從網(wǎng)絡(luò)等輸入的檢索詢問和數(shù)據(jù)庫4存儲的文件信息一樣,在詞素分析步驟中通過文件信息詞素分析部1的分析,抽出單詞(包括詞素),各分割的單詞(包括詞素)在詞素分析數(shù)據(jù)編碼部2中進(jìn)行編碼為指定的數(shù)值的編碼處理(編碼步驟S420)。
這里,由詞素分析部1和詞素分析數(shù)據(jù)編碼部2以索引共同的人名辭典等(14、15)為基準(zhǔn)進(jìn)行各種處理。
即,文件信息詞素分析部1通過參照人名辭典14分析檢索詢問「中田」,抽出單詞「中田」,詞素分析數(shù)據(jù)編碼部2同樣參照人名辭典14將單詞「中田」進(jìn)行編碼為指定的數(shù)值「0×7351」的編碼處理。
作為檢索條件,由于已指定「表示姓名的文字可以不同」,所以,核對判斷部8按照檢索條件對檢索詢問的編碼數(shù)值「0×7351」掩蔽低位1字節(jié)后,檢索文件信息索引存儲部6存儲的文件信息索引6-1(S430)。這里,之所以掩蔽低位1字節(jié),是由于對于在人名辭典中所包含的相同發(fā)音的人名分配的符號是低位1字節(jié)的數(shù)值不同。
核對判斷部8使用將低位1字節(jié)掩蔽后的編碼數(shù)值對圖12所示的文件信息索引6-1進(jìn)行檢索時(shí),將檢測到高位字節(jié)為「0×735」的文件ID是文件ID(13、29、97、152、113)(S440)。
然后,結(jié)果輸出部10輸出結(jié)果。這時(shí),不僅輸出文件ID,而且在實(shí)際顯示內(nèi)容時(shí),還顯示在譯碼步驟中詞素譯碼部9譯碼的結(jié)果。
這樣,按照本發(fā)明實(shí)施例2的信息存儲檢索裝置200,對于存儲大容量的文件信息的數(shù)據(jù)庫4,可以順利地進(jìn)行信息檢索,從而可以進(jìn)行檢索時(shí)間不延遲的處理。
(3)實(shí)施例3的說明圖13是表示作為本發(fā)明實(shí)施例3的信息存儲檢索裝置300的圖,圖13所示的信息存儲檢索裝置300存儲并檢索用各種語言書寫的文件信息,和上述實(shí)施例1的結(jié)構(gòu)相同(參見符號2、3、4、5、6、7、8、9、10、11、13)。
對于和在(1)中使用的相同的部分,省略其說明。
下面,說明信息存儲檢索裝置300在各種語言內(nèi)與日語、英語和法語對應(yīng)的情況。
作為詞素分析部的文件信息詞素分析部1-1與上述文件信息詞素分析部1略有不同,是在分析日語、英語和法語這三國語的詞素后抽出單詞(包括詞素)。
下面,分為文件信息的存儲和文件信息的檢索說明實(shí)施例3的信息存儲檢索裝置300的動作等。
(3a)文件信息的存儲由于具有上述結(jié)構(gòu),本發(fā)明實(shí)施例3的信息存儲檢索裝置300和上述實(shí)施例1一樣地動作。
這里,圖14是表示文件信息的一例的圖,作為詞素分析部的文件信息詞素分析部1參照圖2所示的同義詞辭典等通過分析圖14(a)~(c)所示的文件信息而抽出單詞(包括詞素)。
并且,作為編碼部的詞素分析數(shù)據(jù)編碼部2參照圖2所示的同義詞辭典等將該抽出而分割的單詞(包括詞素)進(jìn)行編碼為指定的數(shù)值的編碼處理。文件信息索引生成部5根據(jù)編碼為數(shù)值的編碼詞素?cái)?shù)據(jù)生成圖15所示的文件信息索引6-2。另一方面,由編碼數(shù)據(jù)壓縮部3將由詞素分析數(shù)據(jù)編碼部2編碼為數(shù)值的詞素?cái)?shù)據(jù)進(jìn)一步進(jìn)行編碼為不同的數(shù)值的壓縮處理,并存儲到數(shù)據(jù)庫4中。
這樣,即使用多個(gè)不同的語言表述的文件信息是大量的,實(shí)施例3的信息存儲檢索裝置300也不直接壓縮文件信息,而是一度通過作為詞素分析部的文件信息詞素分析部1分析詞素,作為編碼部的詞素分析數(shù)據(jù)編碼部2參照對譯辭典13等進(jìn)行編碼為指定的數(shù)值的編碼處理,進(jìn)而編碼數(shù)據(jù)壓縮部3將已編碼的詞素?cái)?shù)據(jù)進(jìn)行壓縮,并且隨著考慮原來的文件(從網(wǎng)絡(luò)等輸入的文件信息)的性質(zhì)而進(jìn)行編碼(例如,是花名冊時(shí),就根據(jù)人名及住所進(jìn)行編碼),可以期望高的壓縮率。
此外,通過作為詞素分析部的文件信息詞素分析部1的一次的處理而進(jìn)行在編碼步驟中的編碼所使用的單詞(包括詞素)和文件信息索引生成部5使用的單詞的抽出(分割),非常有效,與詞素分析數(shù)據(jù)編碼部2和文件信息索引生成部5獨(dú)立地進(jìn)行單詞的抽出處理的情況相比,可以縮短時(shí)間。
(3b)文件信息的檢索下面,使用圖16說明本發(fā)明的實(shí)施例3是如何檢索數(shù)據(jù)庫4存儲的文件信息的。
圖16是表示文件信息的檢索處理中文件信息的流程的圖,檢索詢問通過鍵盤或網(wǎng)絡(luò)等輸入信息存儲檢索裝置300。例如,檢索詢問「書籍」及檢索條件「翻譯語、同義詞均可」作為已編碼的字符串的信息而輸入(S510)。
從網(wǎng)絡(luò)等輸入的檢索詢問和數(shù)據(jù)庫4存儲的文件信息一樣,通過文件信息詞素分析部1的分析而抽出單詞(包括詞素)(詞素分析步驟),各分割的單詞(包括詞素)在詞素分析數(shù)據(jù)編碼部2中進(jìn)行編碼為指定的數(shù)值的編碼處理(編碼步驟S520)。
即,文件信息詞素分析部1參照圖2所示的同義詞辭典,通過分析檢索詢問「書籍」,分割出單詞「書籍」,詞素分析數(shù)據(jù)編碼部2同樣參照圖2所示的同義詞辭典將單詞「書籍」進(jìn)行編碼為指定的數(shù)值「0×73a52101」的編碼處理。
在核對步驟,核對判斷部8作為檢索條件考慮「翻譯語、同義詞均可」,將檢索詢問的編碼數(shù)值「0×73a52101」掩蔽低位1字節(jié)和高位第5字節(jié)以上后,檢索文件信息索引(S530)。
核對判斷部8進(jìn)行圖15所示的文件信息索引6-2的檢索時(shí),作為適合于檢索條件的文件序號,可以得到21、34、119(S540)。
然后,結(jié)果輸出部10輸出結(jié)果。輸出結(jié)果時(shí),不僅是文件序號,而且在實(shí)際顯示內(nèi)容時(shí),在譯碼步驟編碼詞素譯碼部9進(jìn)行譯碼,結(jié)果輸出部10輸出其結(jié)果。
這樣,按照本發(fā)明實(shí)施例3的信息存儲檢索裝置300,使用多個(gè)不同的語言,不僅可以對存儲大量的文件信息的數(shù)據(jù)庫4進(jìn)行一定的語言的檢索詢問,也可以用不同的語言進(jìn)行檢索,并且可以順利地進(jìn)行信息檢索,從而可望進(jìn)行檢索時(shí)間不延遲的處理。
(4)記錄媒體(4a)記錄文件信息存儲程序的記錄媒體下面,使用具有圖1所示的裝置而構(gòu)成的文件信息存儲檢索裝置100說明記錄本發(fā)明的實(shí)施例的文件信息存儲程序的記錄媒體(以下,為了便于說明,附上符號「A」)。
此外,對于和在(1)中使用的相同的部分,省略其說明。
文件信息存儲程序就是用于使計(jì)算機(jī)執(zhí)行以下步驟的程序即通過對輸入的文件信息進(jìn)行詞素分析處理,從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素的詞素分析步驟;將由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;對由編碼步驟進(jìn)行了編碼的詞素進(jìn)行壓縮處理的壓縮步驟和存儲由壓縮步驟所壓縮的編碼詞素的存儲步驟。下面,說明計(jì)算機(jī)讀入記錄媒體A記錄的文件信息存儲程序后,計(jì)算機(jī)的中央處理裝置(CPU)對各硬件進(jìn)行處理的控制。
這里,計(jì)算機(jī)從記錄了程序的媒體A中以電、磁或光等讀入程序。
電信號或光信號等通過網(wǎng)絡(luò)等輸入文件信息存儲檢索裝置100時(shí),在詞素分析步驟,計(jì)算機(jī)控制文件信息詞素分析部1分析輸入的文件信息并抽出單詞(包括詞素),并將分離出的單詞(包括詞素)向執(zhí)行編碼步驟的詞素分析數(shù)據(jù)編碼部2輸出。
作為編碼步驟,詞素分析數(shù)據(jù)編碼部2在計(jì)算機(jī)的執(zhí)行控制下,將由文件信息詞素分析部1所分離出的單詞(包括詞素)進(jìn)行編碼為指定的數(shù)值的編碼處理。
作為壓縮步驟,計(jì)算機(jī)控制編碼數(shù)據(jù)壓縮部3將已編碼為數(shù)值的詞素分析數(shù)據(jù)進(jìn)一步進(jìn)行編碼為不同的數(shù)值的壓縮處理。
作為存儲步驟,計(jì)算機(jī)控制數(shù)據(jù)庫4記錄由編碼數(shù)據(jù)壓縮部3所壓縮的壓縮編碼詞素?cái)?shù)據(jù)。
這樣,按照本發(fā)明實(shí)施例的記錄文件信息存儲程序的記錄媒體,在計(jì)算機(jī)的控制下,存儲文件信息時(shí),不是直接壓縮文件信息,而是一度通過作為詞素分析部的文件信息詞素分析部1分析詞素,由作為編碼部的詞素分析數(shù)據(jù)編碼部2進(jìn)行編碼為指定的數(shù)值的編碼處理,進(jìn)而由編碼數(shù)據(jù)壓縮部3將已編碼的詞素?cái)?shù)據(jù)進(jìn)行壓縮,所以,可以期望高的壓縮率。
相對于上述記錄媒體A,具有記錄附加了使計(jì)算機(jī)執(zhí)行以下步驟的文件信息存儲程序的記錄媒體根據(jù)由詞素分析步驟抽出的詞素,和由編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息,生成索引的索引生成步驟,和將由索引生成步驟生成的索引,存儲到索引存儲單元中的索引存儲步驟的程序(以下,為了便于說明,附上符號「B」)。也可以期望和上述記錄媒體A具有同樣高的壓縮率。
作為索引生成步驟,計(jì)算機(jī)控制索引生成部5使用在文件信息詞素分析部1中抽出的單詞(包括詞素)或在詞素分析數(shù)據(jù)編碼部2中編碼為指定的數(shù)值的編碼詞素?cái)?shù)據(jù)生成文件信息索引。作為索引存儲步驟,計(jì)算機(jī)控制存儲由文件信息索引生成部5生成的文件信息索引。
這樣,記錄媒體B進(jìn)而通過在作為詞素分析部的文件信息詞素分析部1中進(jìn)行一次處理抽出(分割)在編碼步驟中的使用的單詞(包括詞素)和文件信息索引生成部5使用的單詞,非常有效,與詞素分析部1和詞素分析數(shù)據(jù)編碼部2獨(dú)立地進(jìn)行單詞的抽出處理的情況相比,可以縮短時(shí)間。
(4b)記錄文件信息檢索程序的記錄媒體下面,使用具有圖1所示的裝置而構(gòu)成的文件信息存儲檢索裝置100說明本發(fā)明實(shí)施例的記錄文件信息檢索程序的記錄媒體(以下,為了便于說明,附上符號「C」)。
此外,對于和在(1)等中使用的相同的部分,省略其說明。
文件信息檢索程序就是用于使計(jì)算機(jī)執(zhí)行以下步驟的程序即通過對輸入的檢索詢問進(jìn)行詞素分析處理,從檢索詢問信息中抽出詞素的詞素分析步驟;將由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;將存儲單元存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)的復(fù)原步驟;將由編碼步驟得到的編碼詞素形式的檢索詢問,與由復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照,從而判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原的核對步驟和根據(jù)核對步驟的核對結(jié)果將由復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素的詞素譯碼步驟。下面,說明計(jì)算機(jī)讀入記錄媒體C記錄的文件信息檢索程序后計(jì)算機(jī)的中央處理裝置(CPU)對各硬件進(jìn)行處理的控制。
電信號或光信號等通過網(wǎng)絡(luò)等輸入文件信息存儲檢索裝置100時(shí),作為詞素分析步驟,計(jì)算機(jī)控制文件信息詞素分析部1分析輸入的檢索詢問并抽出單詞(包括詞素)。
作為編碼步驟,詞素分析數(shù)據(jù)編碼部2在計(jì)算機(jī)的控制下將由文件信息詞素分析部1所分離出的單詞(包括詞素)進(jìn)行編碼為指定的數(shù)值的編碼處理。
作為復(fù)原步驟,計(jì)算機(jī)控制壓縮編碼數(shù)據(jù)復(fù)原部7將數(shù)據(jù)庫4存儲的壓縮編碼詞素?cái)?shù)據(jù)復(fù)原為指定的數(shù)值。
作為核對步驟,計(jì)算機(jī)控制核對判斷部8將由編碼步驟得到的編碼詞素形式的檢索詢問,與由復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照,從而判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原。
作為詞素復(fù)原步驟,計(jì)算機(jī)控制編碼詞素譯碼部9在需要時(shí)根據(jù)核對結(jié)果將編碼數(shù)值譯碼為詞素。
這樣,按照本發(fā)明實(shí)施例的記錄文件信息檢索程序的記錄媒體C,在計(jì)算機(jī)的控制下,對存儲大量的文件信息的裝置進(jìn)行文件信息的檢索時(shí),可以順利地進(jìn)行檢索處理。
相對于上述記錄媒體C,記錄附加了使計(jì)算機(jī)執(zhí)行以下步驟的文件信息檢索程序的記錄媒體即根據(jù)由詞素分析步驟抽出的詞素和由編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息而得到的索引中對索引存儲單元存儲的索引進(jìn)行檢索的索引檢索步驟。(以下,為了便于說明,附上符號「D」)。也可以和上述記錄媒體C同樣地進(jìn)行順利的檢索處理。
這里,作為索引檢索步驟,計(jì)算機(jī)控制核對判斷部8在存儲文件信息時(shí)檢索文件信息索引生成部5生成的文件信息索引,作為復(fù)原步驟,計(jì)算機(jī)控制壓縮編碼數(shù)據(jù)復(fù)原部7根據(jù)檢索將通過存儲步驟數(shù)據(jù)庫4存儲的壓縮編碼詞素?cái)?shù)據(jù)進(jìn)行復(fù)原。
這樣,記錄媒體D通過進(jìn)而使用文件信息索引,對存儲大容量的文件信息的數(shù)據(jù)庫4就可以順利地進(jìn)行信息檢索,從而可望進(jìn)行檢索時(shí)間不延遲的處理。
(5)其他說明(5a)其他實(shí)施例圖17~圖19是表示其他實(shí)施例的信息存儲檢索裝置(400、500、600)的圖,首先,圖17所示的信息存儲檢索裝置400與上述實(shí)施例1相比,不同點(diǎn)是不具有文件信息索引生成部5和同義詞辭典等(11、12、13),其他(參見符號1、2、3、4、7、8、9、10)的結(jié)構(gòu)相同。此外,對于和在(1)中使用的相同的部分,省略其說明。
根據(jù)上述結(jié)構(gòu),在詞素分析步驟,文件信息詞素分析部1分析輸入的文件信息并抽出單詞(包括詞素),詞素分析數(shù)據(jù)編碼部2進(jìn)行編碼為數(shù)值的編碼處理(編碼步驟),在編碼數(shù)據(jù)壓縮部3進(jìn)而進(jìn)行編碼為不同的數(shù)值的壓縮處理(壓縮步驟)后,壓縮后的編碼詞素?cái)?shù)據(jù)存儲到數(shù)據(jù)庫4中(存儲步驟)。
這樣,按照圖17所示的信息存儲檢索裝置400,不是直接壓縮文件信息,而是一度通過作為詞素分析部的文件信息詞素分析部1分析詞素,作為編碼部的詞素分析數(shù)據(jù)編碼部2進(jìn)行編碼為指定的數(shù)值的編碼處理,編碼數(shù)據(jù)壓縮部3進(jìn)而將已編碼的詞素?cái)?shù)據(jù)進(jìn)行壓縮,所以,可以期望高的壓縮率。
如圖18所示,信息存儲檢索裝置500與上述實(shí)施例1相比,不同點(diǎn)是不具有同義詞辭典等(11、12、13),其他(參見符號1、2、3、4、5、6、7、8、9、10)的結(jié)構(gòu)相同。此外,對于和在(1)中使用的相同的部分,省略其說明。
根據(jù)上述結(jié)構(gòu),圖18所示的信息存儲檢索裝置500不是直接壓縮文件信息,而是一度通過作為詞素分析部的文件信息詞素分析部1分析詞素,作為編碼部的詞素分析數(shù)據(jù)編碼部2進(jìn)行編碼為指定的數(shù)值的編碼處理,編碼數(shù)據(jù)壓縮部3進(jìn)而將已編碼的詞素?cái)?shù)據(jù)進(jìn)行壓縮。
這樣,按照圖18所示的信息存儲檢索裝置500,可以期望高的壓縮率,從而可以將大容量的文件信息存儲到數(shù)據(jù)庫4中。
此外,通過在作為詞素分析部的文件信息詞素分析部1的一次的處理中進(jìn)行在編碼步驟中的編碼使用的單詞(包括詞素)和文件信息索引生成部5使用的單詞的抽出,非常有效,與詞素分析數(shù)據(jù)編碼部2和文件信息索引生成部5獨(dú)立地進(jìn)行單詞的抽出的情況相比,可以縮短時(shí)間。
在進(jìn)行檢索時(shí),通過使用存儲時(shí)生成的文件信息索引,檢索就很容易,從而復(fù)原作業(yè)的時(shí)間也可以不需要長時(shí)間。
另一方面,如圖19所示,信息存儲檢索裝置600與上述實(shí)施例1相比,不同點(diǎn)是不具有文件信息索引生成部5,其他(參見符號1、2、3、4、7、8、9、10、11、12、13)的結(jié)構(gòu)相同。此外,對于和在(1)中使用的相同的部分,省略其說明。
根據(jù)上述結(jié)構(gòu),信息存儲檢索裝置600不是直接壓縮文件信息(例如,文件ID13中的「中田守……」),而是一度通過作為詞素分析部的文件信息詞素分析部1分析詞素,作為編碼部的詞素分析數(shù)據(jù)編碼部2參照人名辭典等(14、15)進(jìn)行編碼為指定的數(shù)值的編碼處理,編碼數(shù)據(jù)壓縮部3進(jìn)而將已編碼的詞素?cái)?shù)據(jù)進(jìn)行壓縮,并且考慮原來的文件(從網(wǎng)絡(luò)等輸入的文件信息)的性質(zhì)進(jìn)行編碼(例如,是花名冊時(shí),就根據(jù)人名及住所進(jìn)行編碼)。此外,信息存儲檢索裝置600在作為詞素分析部的文件信息詞素分析部1的一次的處理中進(jìn)行在編碼步驟中的編碼使用的單詞(包括詞素)和文件信息索引生成部5使用的單詞的抽出(分割)。
這樣,按照信息存儲檢索裝置600,可以期望高的壓縮率,同時(shí),在生成文件信息索引時(shí),非常有效,與詞素分析部1和詞素分析數(shù)據(jù)編碼部2獨(dú)立地進(jìn)行單詞的抽出處理的情況相比,可以縮短時(shí)間。
(5b)檢索裝置和存儲裝置的其他的實(shí)施例為了便于說明,如前所述,在說明存儲文件信息的裝置和檢索文件信息的裝置時(shí),使用了具有兩種裝置的功能的信息存儲檢索裝置,但是,通過分離為存儲文件信息的裝置和檢索文件信息的裝置,也可以解決先有技術(shù)上的問題。
(5c)索引生成部本發(fā)明實(shí)施例的文件信息索引生成部5也可以生成關(guān)于檢索詢問的文件信息索引。
下面,使用上述(1)的實(shí)施例1的信息存儲檢索裝置100進(jìn)行說明。對于和在(1)中使用的相同的部分,省略其說明。
這時(shí),文件信息索引生成部5對于輸入的檢索詢問,使用由文件信息詞素分析部1通過分析而抽出的單詞(包括詞素)或由詞素分析數(shù)據(jù)編碼部2進(jìn)行了編碼處理的編碼詞素?cái)?shù)據(jù)生成文件信息。
核對判斷部8使用由文件信息索引生成部5生成的檢索詢問的文件信息索引,和數(shù)據(jù)庫4存儲的文件信息的文件信息索引進(jìn)行文件信息的檢索。
按照這樣的,使用檢索詢問的文件信息索引,進(jìn)行文件信息的檢索的文件信息存儲檢索裝置,在進(jìn)行大容量的文件信息數(shù)據(jù)的檢索時(shí),通過檢索所存儲的文件信息的文件信息索引,與檢索通常的文件信息相比可以在短時(shí)間內(nèi)進(jìn)行處理。
這里,關(guān)于檢索詢問,在文件信息詞素分析部1的分析處理或詞素分析數(shù)據(jù)編碼部2的編碼處理時(shí),在核對判斷部8根據(jù)參照同義詞辭典11等而得到的信息,并利用文件信息索引生成部5生成的文件信息索引檢索數(shù)據(jù)庫4存儲的文件的文件信息索引6,也可以在短時(shí)間內(nèi)從數(shù)據(jù)庫4內(nèi)存儲的大容量的文件信息數(shù)據(jù)中讀出適合于檢索事項(xiàng)的文件信息。
(5d)譯碼的其他實(shí)施例在上述情況中,在將數(shù)據(jù)庫4存儲的文件信息復(fù)原的過程中,由壓縮編碼數(shù)據(jù)復(fù)原部7將壓縮的文件信息復(fù)原后,由核對判斷部8進(jìn)行適合于檢索詢問的判斷。這里,核對判斷部8也可以根據(jù)在編碼詞素譯碼部9中所譯碼的詞素?cái)?shù)據(jù)判斷是否為適合于檢索詢問的文件信息。
(5e)編碼數(shù)據(jù)壓縮部的其他實(shí)施例作為壓縮處理的過程的一例,在上述情況中,敘述了出現(xiàn)頻度越高的字符串設(shè)定所使用的代碼越短的情況等,但是,在不超出本發(fā)明的主旨的范圍內(nèi),壓縮處理過程可以采用各種變形而進(jìn)行。
如上所述,按照本發(fā)明的文件信息存儲裝置,通過詞素分析部進(jìn)行詞素分析處理,從輸入的文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素,由編碼部將由詞素分析部抽出的詞素進(jìn)行編碼,由壓縮部對由編碼部進(jìn)行了編碼的詞素進(jìn)行壓縮處理,由存儲部存儲由壓縮部所壓縮的編碼詞素,所以,不直接存儲輸入的文件信息,通過分為單詞(包括詞素),將它們進(jìn)行數(shù)值編碼并進(jìn)而進(jìn)行壓縮的編碼處理,可以獲得高的壓縮率,從而可以存儲大容量的數(shù)據(jù)。
這里,本發(fā)明第2方面所述的本發(fā)明的文件信息存儲裝置,索引生成部根據(jù)由詞素分析部抽出的詞素和由編碼部進(jìn)行了編碼的詞素中的至少一方的信息生成索引,由索引存儲部存儲由索引生成部生成的索引,所以,通過在詞素分析部的一次的處理中進(jìn)行在編碼部的編碼中使用的單詞(包括詞素)和索引生成部使用的單詞的抽出(分割),非常有放。與由索引生成部和編碼部獨(dú)立地進(jìn)行單詞的抽出處理的情況相比,可以縮短時(shí)間。
或者,本發(fā)明第3方面所述的本發(fā)明的文件信息存儲裝置,具有同義詞辭典、同義詞詞匯、對譯辭典中的至少一種,編碼部使用同義詞辭典、同義詞詞匯、對譯辭典中的至少一種信息將詞素進(jìn)行編碼,所以,不是直接壓縮文件信息,而是編碼部參照人名辭典等進(jìn)行編碼為指定的數(shù)值的編碼處理,壓縮部3進(jìn)而將已編碼的詞素?cái)?shù)據(jù)進(jìn)行壓縮,并且隨著考慮原來的文件(從網(wǎng)絡(luò)等輸入的文件信息)的性質(zhì)而進(jìn)行編碼(例如,是花名冊時(shí),就根據(jù)人名和住所進(jìn)行編碼),可以期望更高的壓縮率。
此外,本發(fā)明第4方面所述的文件信息存儲裝置,具有索引生成部,索引存儲部,同義詞辭典、同義詞詞匯、對譯辭典中的至少一種,編碼部使用同義詞辭典、同義詞詞匯、對譯辭典中的至少一方的信息對詞素進(jìn)行編碼,所以,非常有效地存儲文件信息,同時(shí)可以生成索引,并且在進(jìn)行文件信息的存儲時(shí)可以獲得高的壓縮率。
另一方面,按照本發(fā)明第5方面所述的本發(fā)明的文件信息存儲方法。在詞素分析步驟進(jìn)行詞素分析處理,從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素,由編碼步驟將在詞素分析步驟抽出的詞素進(jìn)行編碼,在壓縮步驟對在編碼步驟進(jìn)行了編碼的詞素進(jìn)行壓縮處理,在存儲步驟存儲由壓縮步驟所壓縮的編碼詞素,所以,不直接存儲輸入的文件信息,通過分為單詞(包括詞素)將它們進(jìn)行數(shù)值編碼,并進(jìn)而進(jìn)行壓縮的編碼處理,可以獲得高的壓縮率,從而可以存儲大容量的數(shù)據(jù)。
這里,本發(fā)明第6方面所述的本發(fā)明的文件信息存儲方法,索引生成步驟根據(jù)在詞素分析步驟抽出的詞素和在編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息生成索引,索引存儲步驟存儲在索引生成步驟生成的索引,所以,通過在詞素分析步驟的一次的處理中進(jìn)行在編碼步驟中的編碼使用的單詞(包括詞素)和在索引生成步驟使用的單詞的抽出(分割),非常有效,與由索引生成步驟和編碼步驟獨(dú)立地進(jìn)行單詞的抽出處理的情況相比,可以縮短時(shí)間。
另外,本發(fā)明第7方面所述的本發(fā)明的文件信息存儲方法,編碼步驟使用同義詞辭典、同義詞詞匯、對譯辭典中的某一種信息將詞素進(jìn)行編碼,所以,不是直接壓縮文件信息,而是一度通過詞素分析步驟分析詞素,編碼步驟參照人名辭典等進(jìn)行編碼為指定的數(shù)值的編碼處理,壓縮步驟進(jìn)而將已編碼的詞素?cái)?shù)據(jù)進(jìn)行壓縮,并且隨著考慮原來的文件(從網(wǎng)絡(luò)等輸入的文件信息)的性質(zhì)而進(jìn)行編碼,可以獲得更高的壓縮率。
此外,本發(fā)明第8方面所述的本發(fā)明的文件信息存儲方法,具有根據(jù)在詞素分析步驟抽出的詞素和在編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息生成索引的索引生成步驟,和存儲在索引生成步驟生成的索引的索引存儲步驟,編碼步驟使用同義詞辭典、同義詞詞匯、對譯辭典中的某一種信息將詞素進(jìn)行編碼,所以,非常有效地存儲文件信息,同時(shí)可以生成索引,并且在進(jìn)行文件信息的存儲時(shí)可以獲得高的壓縮率。
另一方面,本發(fā)明第9方面的文件信息檢索裝置,復(fù)原部將具有詞素分析部、編碼部、壓縮部和存儲部的文件信息存儲裝置的存儲部存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù),由核對部進(jìn)行適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原的判斷,由譯碼部根據(jù)核對部的核對結(jié)果將由復(fù)原部所復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素,所以,可以進(jìn)行大容量的文件信息的數(shù)據(jù)的檢索。
這里,本發(fā)明第10方面所述的本發(fā)明的文件信息檢索裝置,核對部將編碼詞素形式的檢索詢問與由復(fù)原部所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照,判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原,所以,可以正確地進(jìn)行大容量的文件信息的數(shù)據(jù)的檢索。
另外,本發(fā)明第11方面所述的本發(fā)明的文件信息檢索裝置,將索引生成部和索引存儲部附加到文件信息存儲裝置中,核對部從根據(jù)詞素形式的檢索詢問和編碼詞素形式的檢索詢問中至少一方的信息而得到的索引進(jìn)行索引存儲部存儲的索引的檢索,由復(fù)原部根據(jù)該檢索結(jié)果得到的索引的信息將存儲部存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù),所以,通過使用索引可以非常順利地進(jìn)行文件信息存儲裝置存儲的大容量的文件信息的文件信息檢索。
此外,本發(fā)明第12方面所述的本發(fā)明的文件信息檢索裝置,具有同義詞辭典、同義詞詞匯、對譯辭典中的至少一種,編碼部使用同義詞辭典、同義詞詞匯、對譯辭典中的某一種信息將詞素進(jìn)行編碼,構(gòu)成文件信息存儲裝置的核對部將使用同義詞辭典、同義詞詞匯、對譯辭典中的某一種信息生成的編碼詞素形式的檢索詢問與由復(fù)原部所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照,判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原,所以,可以從文件信息存儲裝置存儲的大容量的文件信息中進(jìn)行具有自由度的檢索(例如,作為模糊檢索的同義詞檢索)。
本發(fā)明第13方面所述的本發(fā)明的文件信息檢索裝置,將索引生成部和索引存儲部附加到文件信息存儲裝置中,進(jìn)而具有同義詞辭典、同義詞詞匯、對譯辭典中的至少一種,編碼部使用同義詞辭典、同義詞詞匯、對譯辭典中的某一種信息將詞素進(jìn)行編碼,所以,構(gòu)成文件信息存儲裝置的核對部從根據(jù)使用同義詞辭典、同義詞詞匯、對譯辭典中的某一種信息生成的詞素形式的檢索詢問和編碼詞素形式的檢索詢問中的至少一方的信息得到的索引中進(jìn)行索引存儲部存儲的索引的檢索,復(fù)原部根據(jù)該檢索結(jié)果得到的索引的信息將存儲部存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù),所以,對于文件信息存儲裝置存儲的大容量的文件信息,可以進(jìn)行具有自由度的檢索(例如,作為模糊檢索的同義詞檢索),同時(shí),通過使用索引可以非常順利地進(jìn)行文件信息存儲裝置存儲的大容量的文件信息的文件信息檢索。
另一方面,本發(fā)明第14方面所述的本發(fā)明的文件信息檢索方法,對于通過輸入文件信息并對文件信息進(jìn)行詞素分析處理、從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素、并將該抽出的詞素進(jìn)行編碼、進(jìn)而對該已編碼的詞素進(jìn)行壓縮處理、和將該壓縮的編碼詞素存儲到存儲單元中的文件信息存儲裝置,通過在詞素分析步驟進(jìn)行詞素分析處理,從檢索詢問信息中抽出詞素,編碼步驟進(jìn)行將在詞素分析步驟中抽出的詞素編碼的處理,在復(fù)原步驟將文件信息存儲裝置的存儲單元存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù),核對步驟將在編碼步驟得到的編碼詞素形式的檢索詢問與在復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照,進(jìn)行適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原的判斷,并且在譯碼步驟根據(jù)核對步驟的核對結(jié)果將由復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)防護(hù)為詞素,所以,可以從文件信息存儲裝置存儲的大容量的文件信息中正確地進(jìn)行文件信息的檢索。
這里,本發(fā)明第15方面所述的本發(fā)明的文件信息檢索方法,核對步驟將使用同義詞辭典、同義詞詞匯、對譯辭典中的某一種信息生成的編碼詞素形式的檢索詢問與由復(fù)原部所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照,判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原,所以,可以從文件信息存儲裝置存儲的大容量的文件信息中進(jìn)行具有自由度的檢索。
本發(fā)明第16方面所述的文件信息檢索方法,對于存儲單元存儲將文件信息進(jìn)行了壓縮的編碼詞素同時(shí)索引存儲單元存儲文件信息的索引的文件信息存儲裝置,通過在詞素分析步驟對檢索詢問進(jìn)行詞素分析處理,從檢索詢問信息中抽出詞素,在編碼步驟進(jìn)行詞素分析步驟抽出的詞素的編碼,在索引檢索步驟從根據(jù)詞素分析步驟抽出的詞素、和由編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息而得到的索引中、進(jìn)行索引存儲單元存儲的索引的檢索,復(fù)原步驟根據(jù)由索引檢索步驟得到的索引信息將存儲單元存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù),在譯碼步驟將由復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素,所以,從文件信息存儲裝置存儲的大容量的文件信息中進(jìn)行文件信息的檢索處理時(shí),通過使用索引,就可以非常順利地進(jìn)行。
這里,本發(fā)明第17方面所述的文件信息檢索方法,文件信息存儲裝置使用同義詞辭典、同義詞詞匯、對譯辭典中的某一種信息就詞素進(jìn)行編碼,并且索引檢索步驟使用同義詞辭典、同義詞詞匯、對譯辭典中的某一種信息進(jìn)行索引檢索,所以,指定的單詞(包括詞素)根據(jù)同義詞辭典等編碼為指定的數(shù)值,流與其對應(yīng)的符號進(jìn)行文件信息的檢索,所以,可以非常順利地進(jìn)行檢索處理。
本發(fā)明第18方面所述的記錄媒體,記錄用于使計(jì)算機(jī)執(zhí)行通過對輸入的文件信息進(jìn)行詞素分析處理而從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素的詞素分析步驟、將由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟、對由編碼步驟進(jìn)行了編碼的詞素進(jìn)行壓縮處理的壓縮步驟和存儲由壓縮步驟所壓縮的編碼詞素的存儲步驟的文件信息存儲程序,所以,不直接存儲文件信息,而是分為單詞(包括詞素)將它們進(jìn)行數(shù)值編碼并進(jìn)而進(jìn)行壓縮的編碼處理,所以,可望獲得高的壓縮率,從而可以存儲大容量的數(shù)據(jù)。
這里,本發(fā)明第19方面所述的記錄媒體,記錄用于使計(jì)算機(jī)對輸入的文件信息執(zhí)行詞素分析步驟、編碼步驟、壓縮步驟、存儲步驟、根據(jù)由詞素分析步驟抽出的詞素、和由編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息、生成索引的索引生成步驟,和將由索引生成步驟生成的索引存儲到索引存儲單元中的索引存儲步驟的文件信息存儲程序。所以,通過在詞素分析步驟的一次的處理中進(jìn)行在編碼步驟的編碼中使用的單詞(包括詞素)和索引生成步驟使用的單詞的抽出(分割),非常有效,與由索引生成步驟和編碼步驟獨(dú)立地進(jìn)行單詞的抽出處理的情況相比,可以縮短時(shí)間。
另一方面,本發(fā)明第20方面所述的本發(fā)明的記錄媒體,對于通過輸入文件信息并對文件信息進(jìn)行詞素分析處理、從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素、將該抽出的詞素進(jìn)行編碼、進(jìn)而對該進(jìn)行了編碼的詞素進(jìn)行壓縮處理并將該進(jìn)行了壓縮的編碼詞素存儲到存儲單元中的文件信息存儲裝置,在檢索適合于檢索詢問的信息時(shí),記錄用于使計(jì)算機(jī)執(zhí)行以下步驟的文件信息檢索程序通過對輸入的檢索詢問進(jìn)行詞素分析處理并從檢索詢問信息中抽出詞素的詞素分析步驟;將由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;將存儲單元存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)的復(fù)原步驟;將由編碼步驟得到的編碼詞素形式的檢索詢問、與復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照、并判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原的核對步驟和根據(jù)核對步驟的核對結(jié)果將由復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素的詞素譯碼步驟。所以,在計(jì)算機(jī)的控制下從存儲大量的文件信息的裝置中檢索文件信息時(shí),可以順利地進(jìn)行檢索處理。
這里,本發(fā)明第21方面所述的本發(fā)明的記錄媒體,對于通過輸入文件信息并對文件信息進(jìn)行詞素分析處理、從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素、將該抽出的詞素進(jìn)行編碼、進(jìn)而對該進(jìn)行了編碼的詞素進(jìn)行壓縮處理、并將該進(jìn)行了壓縮的編碼詞素存儲到存儲單元中、同時(shí)根據(jù)由詞素分析處理抽出的詞素和由詞素編碼處理進(jìn)行了編碼的詞素中的至少一方的信息生成索引、并將該索引存儲到索引存儲單元中的文件信息存儲裝置,在檢索適合于檢索詢問的信息時(shí),記錄用于使計(jì)算機(jī)執(zhí)行以及步驟的文件信息檢索程序通過對輸入的檢索詢問進(jìn)行詞素分析處理而從檢索詢問信息中抽出詞素的詞素分析步驟;將由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;從根據(jù)由詞素分析步驟抽出的詞素和由編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息而得到的索引中進(jìn)行索引存儲單元存儲的索引的檢索的索引檢索步驟;根據(jù)由索引檢索步驟得到的索引信息將由存儲單元存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)的復(fù)原步驟和將由復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素的譯碼步驟。所以,通過使用索引,可以從文件信息存儲裝置存儲的大容量的文件信息中順利地進(jìn)行信息檢索,并且可以進(jìn)行檢索時(shí)間不延遲的處理。
權(quán)利要求
1.一種文件信息存儲裝置,其特征在于具有通過進(jìn)行詞素分析處理從輸入的文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素的詞素分析部;將由該詞素分析部抽出的詞素進(jìn)行編碼的編碼部;對由該編碼部進(jìn)行了編碼的詞素進(jìn)行壓縮處理的壓縮部和存儲由該壓縮部進(jìn)行了壓縮的編碼詞素的存儲部。
2.按權(quán)利要求1所述的文件信息存儲裝置,其特征在于具有根據(jù)由該詞素分析部抽出的該詞素和由該編碼部進(jìn)行了編碼的詞素中的至少一方的信息、生成索引的索引生成部,和存儲由索引生成部生成的索引的索引存儲部。
3.按權(quán)利要求1所述的文件信息存儲裝置,其特征在于具有同義詞辭典、同義詞詞匯、對譯辭典中的至少一種,該編碼部使用同義詞辭典、同義詞詞匯、對譯辭典中的至少一種將該詞素進(jìn)行編碼。
4.按權(quán)利要求1所述的文件信息存儲裝置,其特征在于具有根據(jù)由該詞素分析部抽出的該詞素和由該編碼部進(jìn)行了編碼的詞素中的至少一方的信息、生成索引的索引生成部,和存儲由該索引生成部生成的該索引的索引存儲部,同時(shí)具有同義詞辭典、同義詞詞匯、對譯辭典中的至少一種,該編碼部使用同義詞辭典、同義詞詞匯、對譯辭典中的至少一種將該詞素進(jìn)行編碼。
5.一種文件信息存儲方法,其特征在于包括在存儲文件信息時(shí)通過輸入文件信息并對該文件信息進(jìn)行詞素分析處理、從該文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素的詞素分析步驟;對由該詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;對由該編碼步驟進(jìn)行了編碼的詞素執(zhí)行壓縮處理的壓縮步驟和存儲由該壓縮步驟進(jìn)行了壓縮的編碼詞素的存儲步驟。
6.按權(quán)利要求6所述的文件信息存儲方法,其特征在于包括根據(jù)由該詞素分析步驟抽出的該詞素和由該編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息、生成索引的索引生成步驟,和存儲由該索引生成步驟生成的該索引的索引存儲步驟。
7.按權(quán)利要求5所述的文件信息存儲方法,其特征在于該編碼步驟使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息將該詞素進(jìn)行編碼。
8.按權(quán)利要求5所述的文件信息存儲方法,其特征在于包括根據(jù)由該詞素分析步驟抽出的該詞素、和由該編碼步驟進(jìn)行了編碼的該詞素中的至少一方的信息、生成索引的索引生成步驟,和存儲由該索引生成步驟生成的該索引的索引存儲步驟,而該編碼步驟也可以使用同義詞辭典、同義詞詞匯、對該譯辭典中的某一個(gè)的信息將該詞素進(jìn)行編碼。
9.一種文件信息檢索裝置,其特征在于具有通過進(jìn)行詞素分析處理從輸入的文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素的詞素分析部;對由該詞素分析部抽出的詞素進(jìn)行編碼的編碼部;對由該編碼部進(jìn)行了編碼的詞素進(jìn)行壓縮處理的壓縮部;將具有存儲由壓縮部壓縮過的編碼詞素的存儲部的、文件信息存儲裝置的該存儲部所存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)的復(fù)原部;判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原的核對部和根據(jù)該核對部的核對結(jié)果將由該復(fù)原部已復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素的譯碼部。
10.按權(quán)利要求9所述的文件信息檢索裝置,其特征在于該核對部具有將編碼詞素形式的檢索詢問與由該復(fù)原部所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照來判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原的結(jié)構(gòu)。
11.按權(quán)利要求9所述的文件信息檢索裝置,其特征在于將根據(jù)由詞素分析部抽出的詞素和由編碼部進(jìn)行了編碼的詞素中的至少一方的信息、生成索引的索引生成部和存儲由索引生成部生成的索引的索引存儲部加到文件信息存儲裝置中,該核對部根據(jù)詞素形式的檢索詢問和編碼詞素形式的檢索詢問中的至少一方的信息而得到的索引進(jìn)行由索引存儲部存儲的索引的檢索,根據(jù)由該檢索結(jié)果而得到的該索引的信息,由復(fù)原部將存儲部存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)。
12.按權(quán)利要求9所述的文件信息檢索裝置,其特征在于所構(gòu)成的該文件信息存儲裝置具有同義詞辭典、同義詞詞匯、對譯辭典中的至少一種,該編碼部使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息將詞素進(jìn)行編碼,該核對部將使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息生成的編碼詞素形式的檢索詢問與由該復(fù)原部所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照,判斷適合于該檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原。
13.按權(quán)利要求9所述的文件信息檢索裝置,其特征在于將根據(jù)由該詞素分析部抽出的詞素和由編碼部進(jìn)行了編碼的詞素中的至少一方的信息、生成索引的索引生成部,和存儲由該索引生成部生成的索引的該索引存儲部加到文件信息存儲裝置中,進(jìn)而也可以具有同義詞辭典、同義詞詞匯、對譯辭典中的至少一種,該編碼部使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息將詞素進(jìn)行編碼而構(gòu)成文件信息存儲裝置;使用上述同義詞辭典、同義詞詞匯、對譯辭典的某一個(gè)信息而生成的該核對部從根據(jù)詞素形式的檢索詢問和編碼詞素形式的檢索詢問中的至少一方的信息、而得到的索引中進(jìn)行由索引存儲部存儲的索引的檢索,根據(jù)由該檢索結(jié)果而得到的索引的信息由該復(fù)原部將存儲部存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)。
14.一種文件信息檢索方法,其特征在于對于通過輸入文件信息并對文件信息進(jìn)行詞素分析處理、從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素、將該抽出的詞素進(jìn)行編碼、進(jìn)而對該進(jìn)行了編碼的詞素執(zhí)行壓縮處理并將該進(jìn)行了壓縮的編碼詞素存儲到存儲單元中的文件信息存儲裝置,檢索適合于檢索詢問的信息時(shí),包括通過輸入檢索詢問并對該檢索詢問進(jìn)行詞素分析處理而從檢索詢問信息中抽出詞素的詞素分析步驟;對由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;將該文件信息存儲裝置的該存儲單元存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)的復(fù)原步驟;將由編碼步驟得到的編碼詞素形式的檢索詢問與復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照并判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原的核對步驟和根據(jù)核對步驟的核對結(jié)果將由復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素的譯碼步驟。
15.按權(quán)利要求14所述的文件信息檢索方法,其特征在于該文件信息存儲裝置使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息將詞素進(jìn)行編碼;該核對步驟將使用上述同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息而生成的編碼詞素形式的檢索詢問與由復(fù)原部所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照,判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原。
16.一種文件信息檢索方法,其特征在于對于這樣一種文件信息存儲裝置,即通過輸入文件信息并對文件信息進(jìn)行詞素分析處理、從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素、將該抽出的詞素進(jìn)行編碼、進(jìn)而對該進(jìn)行了編碼的詞素進(jìn)行壓縮處理、并將該進(jìn)行了壓縮的編碼詞素存儲到存儲單元中的同時(shí)、根據(jù)由詞素分析處理抽出的詞素和由詞素編碼處理進(jìn)行了編碼的詞素中的至少一方的信息生成索引、并將該索引存儲到索引存儲單元中的文件信息存儲裝置,檢索適合于檢索詢問時(shí),包括通過輸入檢索詢問并對該檢索詢問進(jìn)行詞素分析處理而從檢索詢問信息中抽出詞素的詞素分析步驟;將由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;從根據(jù)由詞素分析步驟抽出的詞素和由編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息而得到的索引中進(jìn)行索引存儲單元存儲的索引的檢索的索引檢索步驟;根據(jù)由索引檢索步驟得到的索引信息將由存儲單元存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)的復(fù)原步驟和將由復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素的譯碼步驟。
17.按權(quán)利要求16所述的文件信息檢索方法,其特征在于該文件信息存儲裝置使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息將詞素進(jìn)行編碼,并且,索引檢索步驟使用同義詞辭典、同義詞詞匯、對譯辭典中的某一個(gè)的信息進(jìn)行索引檢索。
18.一種記錄媒體,其特征在于記錄用于使計(jì)算機(jī)執(zhí)行如下步驟的文件信息存儲程序通過對輸入的文件信息進(jìn)行詞素分析處理而從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素的詞素分析步驟;將由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;對由編碼步驟進(jìn)行了編碼的詞素進(jìn)行壓縮處理的壓縮步驟和存儲由壓縮步驟所壓縮的編碼詞素的存儲步驟。
19.一種記錄媒體,其特征在于記錄用于使計(jì)算機(jī)執(zhí)行發(fā)下步驟的文件信息存儲程序通過對輸入的文件信息進(jìn)行詞素分析處理而從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素的詞素分析步驟;將由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;對由編碼步驟進(jìn)行了編碼的詞素進(jìn)行壓縮處理的壓縮步驟;將由壓縮步驟所壓縮的編碼詞素存儲到存儲單元中的存儲步驟、根據(jù)由詞素分析步驟抽出的詞素和由編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息生成索引的索引生成步驟和將由索引生成步驟生成的索引存儲到索引存儲單元中的索引存儲步驟。
20.一種記錄媒體,其特征在于對于通過輸入文件信息并對文件信息進(jìn)行詞素分析處理、從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素、將該抽出的詞素進(jìn)行編碼、進(jìn)而對該進(jìn)行了編碼的詞素進(jìn)行壓縮處理并將該進(jìn)行了壓縮的編碼詞素存儲到存儲單元中的文件信息存儲裝置,在檢索適合于檢索詢問的信息時(shí),記錄用于使計(jì)算機(jī)執(zhí)行如下步驟的文件信息檢索程序通過對輸入的檢索詢問進(jìn)行詞素分析處理并從檢索詢問信息中抽出詞素的詞素分析步驟;將由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;將存儲單元存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)的復(fù)原步驟;將由編碼步驟得到的編碼詞素形式的檢索詢問與復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)進(jìn)行對照,并判斷適合于檢索詢問的編碼詞素?cái)?shù)據(jù)是否已復(fù)原的核對步驟和根據(jù)核對步驟的核對結(jié)果將由復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素的詞素譯碼步驟。
21.一種記錄媒體,其特征在于對于通過輸入文件信息并對文件信息進(jìn)行詞素分析處理、從文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素、將該抽出的詞素進(jìn)行編碼、進(jìn)而對該進(jìn)行了編碼的詞素進(jìn)行壓縮處理、并將該進(jìn)行了壓縮的編碼詞素存儲到存儲單元中的同時(shí)、根據(jù)由詞素分析處理抽出的詞素和由詞素編碼處理進(jìn)行了編碼的詞素中的至少一方的信息生成索引、并將該索引存儲到索引存儲單元中的文件信息存儲裝置,在檢索適合于檢索詢問的信息時(shí),記錄用于使計(jì)算機(jī)執(zhí)行具有如下步驟的文件信息檢索程序通過對輸入的檢索詢問進(jìn)行詞素分析處理而從檢索詢問信息中抽出詞素的詞素分析步驟;將由詞素分析步驟抽出的詞素進(jìn)行編碼的編碼步驟;從根據(jù)由詞素分析步驟抽出的詞素和由編碼步驟進(jìn)行了編碼的詞素中的至少一方的信息而得到的索引中,進(jìn)行索引存儲單元所存儲的索引的檢索的索引檢索步驟;根據(jù)由索引檢索步驟得到的索引信息將由存儲單元存儲的壓縮編碼詞素復(fù)原為原來的編碼詞素?cái)?shù)據(jù)的復(fù)原步驟和將由復(fù)原步驟所復(fù)原的編碼詞素?cái)?shù)據(jù)恢復(fù)為詞素的譯碼步驟。
全文摘要
在存儲/檢索文件信息的裝置中,減小存儲大容量的文件數(shù)據(jù)等信息所需要的區(qū)域,同時(shí)縮短生成索引并進(jìn)行存儲時(shí)的處理時(shí)間和縮短檢索時(shí)間。具有通過進(jìn)行詞素分析處理而從輸入的文件信息中抽出作為文件信息結(jié)構(gòu)要素的詞素的詞素分析部1、將由該詞素分析部抽出的詞素進(jìn)行編碼的編碼部2、對由該編碼部2進(jìn)行了編碼的詞素進(jìn)行壓縮處理的壓縮部3和存儲由壓縮部3所壓縮的編碼詞素的存儲部4。
文檔編號G06F17/21GK1211013SQ98106010
公開日1999年3月17日 申請日期1998年3月4日 優(yōu)先權(quán)日1997年9月10日
發(fā)明者颯々野學(xué) 申請人:富士通株式會社