近義詞列表的生成方法及生成裝置、使用該近義詞列表的檢索方法及檢索裝置的制作方法

文檔序號：6366845閱讀：225來源：國知局

專利名稱：近義詞列表的生成方法及生成裝置、使用該近義詞列表的檢索方法及檢索裝置的制作方法
技術領域：
本發(fā)明涉及適于將檢索詞擴展成近義詞且進行有效檢索的近義詞列表的生成方法以及生成裝置、使用了該近義詞列表的檢索方法以及檢索裝置。
背景技術：
伴隨文檔的電子化的増加，從至今為止積蓄的大量的文檔組中找出所希望的文檔的檢索技術的重要性變高。電子設備中的典型的檢索是從檢索對象的文檔組中找出包含用戶輸入的檢索詞的文檔，井向用戶顯示該找出的文檔。然而，在自然語言中，可能以其他的詞匯來表現與某個詞匯相同的意思。例如，“世界上最大的島嶼”這個語句與“世界上第一大的島嶼”這個語句意思相同。在單純以字符串是否一致的檢索中，由于用戶作為檢索詞即便輸入“世界上最大的島嶼”，也不能夠找出記述“世界上第一大島嶼”的文檔，因此，存在很難找出用戶想要的文檔的問題。對此，近年來，為了提高用戶的使用便利性，公開了各種擴展成這樣的近義詞來進行檢索的技木。例如在專利文獻1(日本特開2004-118262號公報)中公開了將檢索詞擴展到近義詞，并為了減少檢索噪聲而限制文檔數量的技木。而且，在專利文獻2(日本特開2006-215717號公報)中公開了通過評價近義詞相對檢索詞的類似度，并基于類似度進行檢索，盡量使與檢索詞意思相近的近義詞優(yōu)先進行檢索的技木。通過將檢索詞擴展到近義詞，雖然能夠抑制檢索遺漏，但是另一方面，也未必就能獲得有效的檢索結果。存在例如，檢索用戶不希望的文檔，以多個近義詞檢索重復的文檔這類的不必要的檢索。因此，需要用于將檢索詞擴展到近義詞且進行有效檢索的技木。

發(fā)明內容
本發(fā)明是為了解決以上的課題而完成的，其目的在于提供適于將檢索詞擴展到近義詞并進行有效檢索的近義詞列表的生成方法以及生成裝置、使用了該近義詞列表的檢索方法以及檢索裝置。為了實現上述目的，本發(fā)明涉及的近義詞列表的生成方法的特征在于，具備判定基準詞和與其對應的近義詞是否包含在包含成為檢索對象的多個文檔數據的文檔數據組中的判定步驟；對判定為包含在上述文檔數據組中的基準詞和近義詞進行提取的提取步驟；基于上述文檔數據組中的該近義詞和對應的基準詞的至少一方的出現狀況，設定上述提取出的近義詞的輸出優(yōu)先級的設定步驟；以及針對上述提取出的基準詞，以設定了上述輸出優(yōu)先級的近義詞與該基準詞對應的方式來生成近義詞列表的生成步驟。另外，本發(fā)明涉及的檢索方法是使用通過近義詞列表的生成方法生成的近義詞列表的檢索方法，其特征在于，具備從上述文檔數據組中，確定出包含有所希望的檢索字符串的文檔數據的文檔確定步驟；輸出上述確定出的文檔數據的文檔輸出步驟；判定上述近義詞列表所具有的基準詞是否包含在上述檢索字符串中的基準詞判定步驟；以及，將與判定為包含在上述檢索字符串中的基準詞對應的近義詞，以與對該近義詞設定的輸出優(yōu)先級對應的方式進行輸出的近義詞輸出步驟。

圖I是表示本發(fā)明的實施方式的近義詞列表的生成裝置的概要構成的圖。圖2是表示本發(fā)明的實施方式的近義詞列表的生成裝置的物理構成的圖。圖3是表示本發(fā)明的實施方式的近義詞數據庫的構成的圖。圖4是表示本發(fā)明的實施方式的文檔數據的構成的圖。圖5是表示本發(fā)明的實施方式的生成裝置的處理流程的流程圖。圖6是表示在本發(fā)明的實施方式中，從近義詞數據庫提取基準詞和近義詞的狀況的圖。圖7是表示在本發(fā)明的實施方式的生成裝置中，近義詞的等級設定處理的流程的流程圖。圖8是表示在本發(fā)明的實施方式中，對近義詞設定等級的狀況的圖。圖9是表示本發(fā)明的實施方式所生成的近義詞列表的例子的圖。圖10是表示本發(fā)明的實施方式的檢索裝置的概要構成的圖。圖11是表示本發(fā)明的實施方式的檢索裝置的物理構成的圖。圖12是表示本發(fā)明的實施方式的檢索裝置的處理流程的流程圖。圖13是表示本發(fā)明的實施方式的檢索結果顯示在監(jiān)視器上的狀況的圖。圖14是本發(fā)明的檢索裝置的構成概要的其他例子的圖。
具體實施例方式以下，參照附圖對本發(fā)明的實施方式進行說明。而且，以下說明的實施方式用于說明，不對本發(fā)明的范圍進行限制。因此，本領域技術人員能夠采用將下述的各構成要素置換成均等要素的實施方式，這些實施方式也包含在本發(fā)明的范圍內。而且，在以下的說明中，為了容易理解本發(fā)明，適當省略不重要的公知的技術事項的說明。首先，實現本實施方式的近義詞列表的生成裝置I的信息處理裝置采取圖I所示的構成。S卩，生成裝置I具備控制部100、存儲部110、輸入部120、輸出部130以及通信部140。另ー方面,該生成裝置I的物理構成如圖2所示,具備CPU(Central ProcessingUnit) 151、ROM (Read Only Memory) 152> RAM (Random Access Memory) 153、硬盤 154、鍵盤155、監(jiān)視器156、DVD-ROM驅動器157以及通信裝置158。以下，參照圖I以及圖2，進行生成裝置I的構成要素的說明?？刂撇?00對生成裝置I整體的動作進行控制，與各構成要素連接，交換控制信號、數據。即，控制部100與存儲部110、輸入部120、輸出部130、通信部140連接，靈活運用這些各部的功能，同時執(zhí)行近義詞列表的生成處理。這里控制部100具備判定部101、提取部102、設定部103、生成部104。詳細如后所述，近義詞列表的生成裝置I利用這些各部的功能，基于近義詞數據庫300，執(zhí)行生成近義詞列表900的處理，其中，該近義詞列表900用于進行檢索對象為多個文檔數據(文檔數據組400)的檢索。
這樣的控制部100(判定部101、提取部102、設定部103以及生成部104)例如由CPU151構成。這里CPU151通過作為用于轉送命令、數據的傳送路徑的系統總線與各構成要素相互連接，根據記錄在R0M152中的生成裝置I整體的動作控制所需的計算機程序、各種數據進行動作。而且CPU151將從R0M152中讀出的計算機程序、數據以及進行其他處理所需的數據暫時存儲在RAM153中，并對各種動作進行控制。這樣，通過CPU151與R0M152、RAM153配合，控制部100對生成裝置I整體的動作進行控制。存儲部110由例如硬盤154這樣的大容量外部存儲裝置構成，對控制部100生成近義詞列表900的處理所需的各種數據進行存儲。具體而言，這里，對成為生成近義詞列表900的基礎的近義詞數據庫300以及被檢索裝置作為檢索對象的多個文檔數據(文檔數據組400)進行存儲。而且，存儲部110也存儲通過該生成裝置I的處理而生成的近義詞列表900。這里，預先存儲在存儲部110中的近義詞數據庫300如圖3所示那樣構成。即，近義詞數據庫300具備多個基準詞和與其對應的近義詞的組合，針對ー個基準詞，對應ー個以上與該基準詞意思類似的近義詞。例如，“大地”這個基準詞與意思相近的詞語“地面”、“接地”這兩個近義詞對應，“比賽”這個基準詞與“較量”、“勝負”、“競賽”、“競爭”這四個近義詞對應。此時，基準詞和近義詞不必是單詞單位，例如，可以像本附圖的“授予專利”這個基準詞、“回答的語言”這類近義詞這樣，由多個單詞構成。這樣的近義詞數據庫300可以以任何方式作成。例如，可以利用各種存在的已知的近義詞辭典等現有的近義詞數據庫作成。例如，在利用所刊登的詞數豐富的近義詞辭典的情況下，相應地，生成裝置I能夠生成詞數豐富的近義詞列表900，提高檢索的可用性。另一方面，生成的近義詞列表900的數據大小也會増大。另外，同樣預先存儲的文檔數據組400如圖4所示那樣構成。即文檔數據組400由各個文檔數據401a 401c等構成，而且，文檔數據401a 401c等分別由“詞條”和“說明文”構成。即，文檔數據401a 401c等是構成辭典的構成單位，“詞條”是成為該辭典的索引的一個詞語，針對ー個文檔數據401對應ー個詞條。而且，“詞條”與說明該詞條的“說明文”對應，這些合在一起構成ー個文檔數據401。并且，這樣的文檔數據401與“詞條”的數量相對應地存在，由整體構成文檔數據組400。返回圖I以及圖2，存儲部110所存儲的這些數據經由例如生成裝置I的DVD-ROM驅動器157，或經由通過通信部140連接的網絡150，與外部交換。輸入部120由例如鍵盤155這樣的輸入裝置構成，接收來自用戶的輸入。接收到的輸入信息被供給至控制部100。在本實施方式中，接收來自用戶的用于生成近義詞列表900的命令。輸出部130由例如監(jiān)視器156這樣的顯示裝置構成，向用戶輸出控制部100進行處理后的結果。在本實施方式中，判定部101、提取部102、設定部103以及生成部104分別進行的近義詞列表900的生成處理的經過、結果都顯示在監(jiān)視器156中。由此，用戶能夠獲得與該生成處理的經過、結果相關的信息。通信部140將生成裝置I與因特網等的網絡150連接，在控制部100的控制下，經由網絡150交換數據。這樣的通信部140由例如調制解調器等的適當的通信裝置158構成。
如上構成的生成裝置I在控制部100的控制下，進行近義詞列表900的生成處理。具體而言，按照圖5的流程圖所示的順序執(zhí)行處理。本處理以生成裝置I的輸入部120接收來自用戶的生成近義詞列表900的意圖的指示為契機而開始。即，通過用戶使用鍵盤155來對生成近義詞列表900的意圖進行指示，開始本處理。若處理開始，則首先生成裝置I的判定部101指定近義詞數據庫300的最初的基準詞(步驟S501)。即，判定部101訪問預先準備在存儲部110中的近義詞數據庫300，指定該近義詞數據庫300所具備的多個基準詞中的最初的基準詞。具體地在圖3所示的近義詞數據庫300的例子中，指定“大地”這個最初的基準詞。接下來，判定部101判定指定的基準詞是否存在于文檔數據組400中(步驟S502)。S卩，判定部101判定指定的基準詞的字符串是否包含在存儲于存儲部110中的多個文檔數據401a 401c等中的任意ー個中。這里，雖然如上述圖4所示，多個文檔數據401a 401c等分別由詞條和說明文構成，但是在這里若基準詞包含在詞條和說明文的任意ー個中，則也判定為包含在該文檔數據401中。若判定指定的基準詞存在于文檔數據組400中(步驟S502 ;YES)，則接下來提取部102提取該指定的基準詞(步驟S503)。即，將存在于任意ー個文檔數據401中的基準詞作為生成的近義詞列表900的基準詞取出。這里，另外，提取部102針對該提取出的基準詞提取存在于文檔數據組400中的近義詞(步驟S504)。即，針對判定為存在于任意ー個文檔數據401中的基準詞，針對與該基準詞對應的近義詞也同樣地，由判定部101判定是否存在于任意ー個文檔數據401中，提取判定為存在的近義詞。具體地參照上述圖3的近義詞數據庫300的例子進行說明。首先，若判定最初的基準詞“大地”存在于文檔數據組400中，則提取該基準詞“大地”。而且還判定作為近義詞而對應的“地面”和“接地”這兩個詞語是否也存在于文檔數據組400中。這里，例如，若判定為存在近義詞“地面”，判定不存在近義詞“接地”，則該近義詞“地面”被提取，該近義詞“接地”不被提取。返回圖5的流程圖，另一方面，若判定為在任何ー個文檔數據401中都不存在基準詞(步驟S502;N0)，則不提取該基準詞，對應的近義詞也不被提取。這是因為對文檔數據組400中不存在的基準詞而言，無需進行將該文檔數據組400作為檢索對象的檢索，無需裝載在近義詞列表900中。這樣，若針對最初的基準詞的處理結束，則接下來判定部101判定是否對近義詞數據庫300的全部的基準詞進行了處理(步驟S505)。若存在未處理的基準詞(步驟S505 ；NO)，則判定部101指定下ー個基準詞(步驟S506)，處理返回步驟S502。即，針對與第2個基準詞對應的近義詞，重復進行提取存在于任意ー個文檔數據401中的近義詞的處理。通過對近義詞數據庫300所具備的全部的基準詞重復進行這樣的處理，提取多個文檔數據401a 401c等的任意一個中所包含的基準詞和近義詞。其結果，如圖6所示，從預先準備的近義詞數據庫300中去除任何ー個文檔數據401中都不存在的基準詞和近義詞(在本附圖中畫橫線顯示)，其以外的基準詞和近義詞被提取而保留。具體地在本附圖中，從最初的基準詞“大地”提取近義詞“地面”，同時去除近義詞、“接地”。另外，第2個基準詞“答辭”在任何ー個文檔數據401中都不存在，對應的2個近義詞“寒暄”、“回答的語言”都不被提取而去除。返回圖5的流程圖，這樣，在任意ー個文檔數據401中包含的基準詞和對應的近義詞被提取，若對近義詞數據庫300的全部基準詞都進行了處理(步驟S505 ;YES)，接下來設定部103對提取出的近義詞設定等級(步驟S507)。這里，“等級”是表示通過后述檢索裝置進行檢索時，輸出與檢索詞相關的近義詞的優(yōu)先級的指標，針對各個提取出的近義詞的分別設定一個值的等級。在檢索中，近義詞按照這里設定的等級值從大到小的順序輸出。這里參照圖7的流程圖，再次詳細說明針對具體的近義詞的等級設定處理。若開始近義詞的等級設定處理，則首先設定部103指定提取出的基準詞中的最初的基準詞(步驟S701)。在上述圖6的具體例子中，指定“大地”這個最初的基準詞。
接下來，設定部103將對應于指定的基準詞的全部的近義詞的等級初始化為O (步驟S702)。具體而言，在指定了“大地”這個最初的基準詞的情況下，對應的近義詞“地面”的等級被初始化為O。在從指定的基準詞提取了多個近義詞的情況下，對該多個近義詞全部進行這樣的初始化。接下來設定部103指定最初的文檔數據401 (步驟S703)，判定在該指定的文檔數據401內是否存在指定的基準詞(步驟S704)。即設定部103訪問存儲于存儲部110的文檔數據組400，判定在最初的文檔數據401a的詞條、說明文中是否包含基準詞的字符串。在判定存在基準詞的情況下(步驟S704 ；YES)，針對指定的基準詞指定最初的近義詞(步驟S705)。在上述圖6的具體例子中，對于最初指定的“大地”這個基準詞，指定對應的近義詞“地面”。這里，在對應的近義詞存在多個的情況下，指定最初的ー個。若指定近義詞，則設定部103判定在指定的文檔數據401內是否存在指定的近義詞(步驟S706)。這里，即判定在存在基準詞的文檔數據401內是否還同時存在對應的近義詞。具體而言，如圖8的例子所示，判定在存在基準詞“大地”的文檔數據401內是否還存在對應的近義詞“地面”。在判定為存在近義詞的情況下(步驟S706 ;YES)，將該指定的近義詞的等級減1(S707)。即，由干與基準詞共存于相同的文檔數據401內的近義詞能夠作為該基準詞的檢索結果在同一文檔數據401內找出，因此判定優(yōu)先向用戶輸出的必要性低，降低相當于輸出優(yōu)先級的等級。在圖8的具體例子中，在文檔數據401內的說明文中與基準詞“大地”同時存在的“地面”這個近義詞的等級的值被降低I。另ー方面，在判定不存在近義詞的情況下(步驟S706 ;N0)，該近義詞的等級不下降，保持此前的值不變。即，不與基準詞共存在于同一文檔數據401內的近義詞是很難在檢索該基準詞時找出的語句，在檢索該基準詞時向用戶輸出的優(yōu)先級不被降低而被維持。這樣，若近義詞的等級被降低或者被維持，則設定部103判定是否對指定的基準詞處理了全部的近義詞(步驟S708)。若存在未處理的近義詞(步驟S708 ；N0)，則設定部103指定下ー個近義詞(步驟S709)，處理返回步驟S706。即，在指定的近義詞與基準詞共存于同一文檔數據401內的情況下，該近義詞的等級下降。這樣，針對與指定的基準詞對應的全部的近義詞，重復步驟S706 S707的處理，共存于同一文檔數據401內的近義詞的等級下降。若針對指定的基準詞對全部的近義詞的進行了處理(步驟S708 ；YES)，則接下來設定部103判定是否對全部的文檔數據401進行了處理(步驟S710)。即，判定是否對存儲于存儲部110中的多個文檔數據401a 401c等中的全部的文檔數據401進行了處理。若存在未處理的文檔數據401 (步驟S710 ；NO)，則設定部103指定下ー個文檔數據401 (步驟S711)，處理返回步驟S704。即，針對下ー個指定的文檔數據401，判定在該詞條或者說明文中是否存在基準詞，在存在的情況下，還進行使共存于該文檔數據401內的近義詞的等級的值降低I的處理。這里，在指定的文檔數據401內不存在基準詞的情況下(步驟S704;N0)，不進行針對與該基準詞對應的近義詞的處理(步驟S705 S709)，處理進入步驟S710，轉移至下一未處理的文檔數據401的處理。由于在不存在基準詞的文檔數據401中也不存在基準詞和近義詞共存的情況，因此，無需降低近義詞的等級。這樣，按照文檔數據401重復等級設定處理，與基準詞對應的近義詞每有ー個與該基準詞同時存在的文檔數據401，等級值下降I。其結果，近義詞的等級成為從作為初始值的O下降與和基準詞共同存在的文檔數據401的個數相當的值而得到的值。例如，在存在N個與基準詞同時存在的文檔數據401的情況下，近義詞的等級成為-N。若針對指定的基準詞，結束對全部的文檔數據401的處理(步驟S710 ；YES)，則接下來設定部103判定是否處理了全部的基準詞(步驟S712)。若在通過提取部102提取的基準詞中、存在未處理的基準詞(步驟S712 ；N0)，則指定未處理的基準詞中的下一個基準詞(步驟S713)，處理返回步驟S702。即，針對下ー個指定的基準詞，進行設定對應的近義詞的等級的處理(步驟S702 S711)。在上述圖6的具體例子中，若最初的基準詞“大地”的處理結束，則指定下ー個基準詞“比賽”，進行設定與該基準詞對應的3個近義詞“勝負”、“競賽”、“競爭”的等級的處理。這樣，針對所有提取的基準詞，重復進行分別設定對應的近義詞的等級的處理，之后若全部的基準詞的處理結束(步驟S712)，則該流程中的近義詞的等級設定處理結束。之后，返回圖5的流程圖，生成部104使設定了等級的近義詞與提取出的基準詞對應，生成近義詞列表900 (步驟S508)，生成的近義詞列表900存儲到硬盤154這樣的存儲部110中，本流程的處理結束。其結果，如圖9所示，在生成的近義詞列表900中，由提取部102提取的基準詞分別與作為等級而設定了任意ー個O以下的整數值的近義詞對應。例如，對于基準詞“大地”的近義詞“地面”而言，與該基準詞同時出現的文檔數據401的個數為三個，被設定_3等級。另外，對于基準詞“比賽”的近義詞“勝負”、“競賽”、“競爭”而言，與該基準詞同時出現的文檔數據401的個數分別為I個、O個、4個，分別被設定為-1、0、-4的等級。根據以上構成，本實施方式的近義詞列表900的生成裝置I根據近義詞數據庫300所具備的基準詞和對應的近義詞，提取在作為檢索對象的多個文檔數據401a 401c等的任意ー個中存在的基準詞和近義詞。而且，通過對該提取出的近義詞設定、對應于和基準詞同時出現的文檔數據401的個數而下降的輸出優(yōu)先級，生成近義詞列表900。其結果，在使用該生成的近義詞列表900進行檢索吋，向用戶提示針對所希望的檢索詞的近義詞，能夠輔助用戶的檢索，并且通過降低與檢索詞存在于同一個文檔數據401中的近義詞的輸出優(yōu)先級，用戶能夠優(yōu)先檢索更多種類的文檔數據401。在本發(fā)明中，除了上述的近義詞列表900的生成裝置I以及使用了該生成裝置I的近義詞列表900的生成方法外，還提供使用該生成的近義詞列表900來進行將文檔數據組400作為檢索對象的檢索的檢索裝置以及使用了該檢索裝置的檢索方法。這里，檢索裝置通常由與上述近義詞列表900的生成裝置I不同的信息處理裝置來實現。具體地在本實施方式中，作為檢索裝置，假設具備電子詞典等功能的小型信息處理裝置來進行說明。即，針對作為檢索對象的文檔數據組400(多個文檔數據401a 401c等)來生成近義詞列表900的處理預先在上述圖I以及圖2所示的一般的信息處理裝置中進行，另ー方面，使用了該生成的近義詞列表900的文檔數據組400的檢索，在與生成裝置I不同的信息處理裝置、即電子詞典等小型信息處理裝置中實現。作為這樣的檢索裝置2，其構成如圖10所示。即檢索裝置2具備控制部200、存儲部210、輸入部220以及顯示部230。另ー方面，該檢索裝置2的物理構成如圖11所示，具備CPU251、R0M252、RAM253、鍵盤255以及監(jiān)視器256。以下，參照圖10以及圖11，進行檢索裝置2的構成要素的說明?？刂撇?00對檢索裝置2整體的動作進行控制，與各構成要素連接，交換控制信號、數據。即，控制部200與存儲部210、輸入部220及顯示部230連接，靈活運用這些各部的功能，并執(zhí)行檢索處理。這里，控制部200具備文檔確定部201、文檔輸出部202、基準詞判定部203及近義詞輸出部204。詳細如后所述，檢索裝置2通過這些各部的功能，執(zhí)行如下處理從文檔數據組400 (多個文檔數據401a 401c等)中確定包含所希望的檢索詞的字符串(檢索字符串)的文檔數據，還使用近義詞列表900同時提示檢索詞的近義詞。這樣的控制部200 (文檔確定部201、文檔輸出部202、基準詞判定部203、近義詞輸出部204)由例如CPU251構成。這里CPU251基本上與生成裝置I中的CPU151相同，通過作為用于轉送命令、數據的傳送路徑的系統總線與各構成要素相互連接，按照記錄在R0M252中的、檢索裝置2整體的動作控制所需的計算機程序、各種數據進行動作，還將從R0M252中讀出的計算機程序、數據以及進行其他處理所需的數據暫時存儲在RAM253中，且對各種動作進行控制。這樣，通過CPU251與R0M252、RAM253配合，控制部200對檢索裝置2整體的動作進行控制。存儲部210由例如檢索裝置2內所具備的R0M252那樣的只讀存儲介質構成，存儲控制部200進行檢索處理所需的各種數據。具體而言，這里，存儲作為檢索對象的文檔數據組400以及近義詞列表900。該文檔數據組400與存儲于上述生成裝置I的存儲部110的文檔數據組400相同，而且，近義詞列表900與上述生成裝置I根據該文檔數據組400生成的近義詞列表900相同。輸入部220由例如鍵盤255那樣的輸入裝置構成，接收來自用戶的輸入。具體而言，這里，接收來自用戶的檢索詞。接收到的檢索詞供給到控制部200的文檔確定部201和基準詞判定部203，被用于檢索包含該檢索詞的文檔數據401的處理以及判定與該檢索詞一致的基準詞是否存在于近義詞列表900內的處理。顯示部230由例如監(jiān)視器256這樣的顯示裝置構成，向用戶顯示控制部200進行處理后得到的結果。具體而言，這里，通過向監(jiān)視器256輸出包含用戶輸入的檢索詞的文檔數據401、與檢索詞相關的近義詞，來向該用戶進行顯示。由此，作為輸出結果用戶獲得包含有自身所輸入的檢索詞的文檔數據401、近義詞，能夠進行各種利用。另外，輸入部220和顯示部230也可以由觸摸面板等的輸入裝置和顯示裝置組合后的裝置構成。該情況下，由內置于觸摸面板中的觸摸傳感器等構成的位置輸入裝置構成輸入部220,由液晶顯示器等構成的顯示裝置構成顯示部230。以上構成的檢索裝置2在控制部200的控制下進行檢索處理。具體而言，按照圖12的流程圖所示的順序執(zhí)行處理。本處理以檢索裝置2的輸入部220接收從用戶輸入的檢索詞為契機而開始。SP，通過用戶使用鍵盤255輸入所希望的檢索詞，指示進行檢索的意圖，開始本處理。若從用戶接收檢索詞開始處理，則首先文檔確定部201從多個文檔數據401a 401c等中確定出包含檢索詞的文檔數據401 (步驟S1201)。即，例如若用戶輸入“比賽”這個檢索詞，則文檔確定部201進行多個文檔數據401a 401c等所包含的字符串的檢索，確定出包含“比賽”這個檢索詞的字符串(檢索字符串)的文檔數據401。此時進行的檢索是所謂的全文檢索，針對各文檔數據401內的詞條以及說明文的字符串進行。即，若在文檔數據401內的詞條或說明文的任意ー個中包含被輸入的檢索詞的字符串，則確定該文檔數據401。確定出的文檔數據401被暫時保持在RAM253中。另外，此時進行的檢索也可以利用任意的公知檢索技術進行。即，可以使用例如依次掃描多個文檔數據401a 401c等來找出檢索字符串的依次型檢索(grep型檢索)，或也可以使用為了檢索處理的高速化而預先準備索引文件的索引型(index型)檢索。另外，在索引型檢索的情況下，例如可以利用所謂的詞素分析的手法生成索引文件，也可以利用所謂的N元模型的手法(N字符索引法)生成索引文件。這樣，若確定出包含有檢索詞的文檔數據401，則文檔輸出部202輸出確定出的文檔數據401 (步驟S1202)。即，文檔輸出部202通過在監(jiān)視器256這樣的顯示部230顯示包含輸入的檢索詞的文檔數據401，來向用戶輸出。由此，用戶能夠了解自身輸入的檢索詞包含在哪個文檔數據401中。而且，在檢索裝置2中，基準詞判定部203使用近義詞列表900判定是否存在與檢索詞一致的基準詞(步驟S1203)。即，基準詞判定部203訪問由生成裝置I預先生成、且存儲在存儲部210中的近義詞列表900，判定該近義詞列表900所具備的基準詞中是否存在與輸入的檢索詞一致的詞。若判定不存在與檢索詞一致的基準詞(步驟S1203 ；N0)，則這里不進行任何處理，保持原樣結束檢索處理。即，由于輸入的檢索詞在與近義詞列表900內不存在對應的近義詞，因此，這里不輸出近義詞，而僅輸出上述確定出的文檔數據401，結束檢索處理。另ー方面，若判定存在與檢索詞一致的基準詞(步驟S1203 ;YES)，則近義詞輸出部204按照等級(輸出優(yōu)先級)從高到低的順序輸出與該一致的基準詞對應的近義詞(步驟S1204)，之后結束檢索處理。S卩，近義詞輸出部204針對與檢索詞一致的基準詞，從近義詞列表900取得對應的全部的近義詞，通過按照基于對每個近義詞預先設定的等級值的順序在監(jiān)視器256中顯示等來向用戶輸出。例如，在用戶輸入“比賽”這個檢索詞的情況下，包含該“比賽”這個檢索詞的文檔數據401作為檢索結果而被輸出，且在近義詞列表900內與該“比賽”這個基準詞對應的3個近義詞“勝負”、“競賽” “競爭”也被輸出。其結果，具體而言，在檢索裝置2的監(jiān)視器256中顯示圖13所示的輸出結果。即如本圖所示，作為包含“比賽”這個檢索詞的文檔數據401，“AAA”、“BBB”、“XXX”、“ZZZ”等的文檔數據401顯示在監(jiān)視器256內的檢索結果的欄中，作為針對“比賽”這個基準詞的近義詞，存儲于近義詞列表900內的“競賽”、“勝負”、“競爭”這3個詞語顯示在監(jiān)視器256內的推薦檢索詞的欄內。此時作為推薦檢索詞顯示的3個近義詞在比較各自的等級值的基礎上，按照該等級從高到低的順序顯示。由于近義詞和檢索詞同時出現的文檔數據401的個數越多，各自的該近義詞的等級越被設定成較小的值，因此，按照與檢索詞同時出現的文檔數據401的個數從少到多的順序顯示。具體而言，如上述圖9所示，由干“勝負”這個近義詞的等級被設定成_1，“競賽”這個近義詞的等級被設定成0，“競爭”這個近義詞的等級被設定成-4，因此，如圖13的監(jiān)視器256所示，按照等級從高到低的順序排列輸出“競賽”、“勝負”、“競爭”。
而且，此時，就3個近義詞而言，設定的等級值越大越以較大的字符顯示。S卩，以最大的字符顯示等級為O的“競賽”這個近義詞，以最小的字符顯示等級為_4的“競爭”這個近義詞。由此，由于越是與檢索詞同時出現的文檔數據401的個數較少的近義詞，作為推薦檢索詞越以用戶容易確認的方式顯示，因此，用戶能夠高效地檢索較多種類的文檔數據401。根據以上構成，本實施方式的檢索裝置2在輸入的檢索詞與近義詞列表900的任意ー個基準詞一致的情況下，與基于檢索詞的檢索結果一起輸出與該一致的基準詞對應的近義詞。此時，與檢索詞同時出現的文檔數據401的個數越少，越以較高的優(yōu)先級輸出近義詞。其結果，用戶能夠高效地檢索較多種類的文檔數據401。特別如本實施方式所示，在檢索對象的文檔數據401構成詞典的情況下，在同一個文檔數據401內存在意思類似的多個詞語的情況較多。因此，通過降低檢索重復的文檔數據401的近義詞的向用戶輸出的優(yōu)先級，能夠有效地檢索更多種類的文檔數據401。此外，上述實施方式是ー個例子，本發(fā)明的適用范圍不限于此。即，可進行各種應用，所有的實施方式包含在本發(fā)明的范圍內。例如，在上述實施方式中，檢索裝置2在R0M252這樣的存儲部210內存儲了文檔數據組400等。但不限于此，檢索裝置2可以具備硬盤等大容量存儲裝置、DVD-ROM驅動器，將文檔數據組400等存儲在硬盤、DVD-ROM等中?；驒z索裝置2也可以與網絡連接，將文檔數據組400等存在網絡上。另外，在上述實施方式中，在檢索裝置2中，用戶輸入檢索詞的輸入部220、顯示檢索結果的顯示部230與控制部200、存儲部210存在于同一個裝置內。但不限于此，輸入部220和顯示部230可以在檢索裝置2的外部。即，例如圖14所示，檢索裝置2不具備輸入部220和顯示部230，經由網絡150與具備他們的終端裝置3連接，可以作為在線型的電子詞典的信息設備而構成。此時，檢索裝置2和終端裝置3通過各自所具備的通信部240a、240b，經由網絡150相互進行數據通信。即，終端裝置3的用戶所輸入的檢索詞被發(fā)送至檢索裝置2，通過控制部200執(zhí)行檢索處理。之后，作為檢索結果的文檔數據401和近義詞的信息再次被發(fā)送至終端裝置3，向終端裝置3的用戶輸出。通過采用這樣的構成，具有如下優(yōu)點統一管理檢索裝置2內的文檔數據組400等，并能夠被多個用戶利用，而且由于用戶側的終端裝置3無需保持文檔數據組400等，因此能夠抑制數據大小。另外，在上述實施方式中，作為檢索裝置2假設電子詞典這樣的小型信息處理裝置進行了說明。但不限于此，檢索裝置2也可以是商用家用的一般的計算機裝置、移動電話等其他的信息設備。而且，不限于電子詞典中的檢索，可以檢索各種電子數據的檢索。例如，可以在一般的計算機裝置中，從存儲于硬盤等大容量存儲裝置、DVD-ROM等中的電子文件中，檢索包含所希望的檢索詞的電子文件?；蚺c網絡連接，檢索存在于網絡上的網頁。另外，在生成裝置I中，上述實施方式的生成裝置I根據存儲在硬盤154這樣的存儲部110中的近義詞數據庫300以及文檔數據組400生成近義詞列表900，并將該生成的近義詞列表900存儲到存儲部110中。但這些近義詞數據庫300、文檔數據組400不限于存儲于生成裝置I內所具備的存儲部110中，可以存在于經由通信部140連接的網絡150上，或可以存儲在裝載于DVD-ROM驅動器157中的DVD-ROM內。另外，在上述實施方式中，構成文檔數據組400的多個文檔數據401由“詞條”和“說明文”構成。但不限于這些，可以由各種要素構成。例如，也可以具有用于說明“詞條”的圖、表?；蛟谠~典中的檢索以外的一般的電子文件等的檢索中，不限于這樣的“詞條”和 “說明文”的構成要素，文檔數據401可以以各種形式具有字符串數據。另外，上述實施方式的近義詞列表900的生成裝置I基于同時包含近義詞和對應的基準詞的文檔數據401的個數，設定了該近義詞的輸出優(yōu)先級。即，若在ー個文檔數據401內包含各至少ー個近義詞和對應的基準詞，則該近義詞的等級(輸出優(yōu)先級)的值ー樣降低I。但不限于此，可以基于近義詞和對應的基準詞中的至少一方的各種出現狀態(tài)，設定各種等級。例如，近義詞單獨出現的文檔數據401的個數、頻度越高，可以越使該近義詞的等級上升。是因為能夠更多地確定在基準詞的檢索中不能確定的文檔數據401，而且，其中出現頻度高的近義詞反映用戶的檢索意圖的可能性較高?；蛄硗猓梢愿鶕x詞在文檔數據401中的出現位置，來變動該近義詞設定的等級。例如，越是較多出現在靠近文檔數據401的前端位置的近義詞，可以將等級設定得越高，提高輸出優(yōu)先級。并且，越是出現在靠近基準詞的位置的近義詞，推測與基準詞意思類似的程度越高，可以將等級設定得越高，提高輸出優(yōu)先級。另外，在上述實施方式中，不對文檔數據401內的“詞條”和“說明文”進行區(qū)別，若任意ー個中包含基準詞和對應的近義詞，則同樣使該近義詞的等級值降低。但不限于此，可以對“詞條”和“說明文”進行區(qū)別。例如，可以根據基準詞包含在“詞條”中，且近義詞包含在“說明文”中的情況、近義詞包含在“詞條”中，且基準詞包含在“說明文”中的情況等，使該近義詞的等級值變動。另外，上述實施方式的檢索裝置2以設定的等級越高越使字符的大小増大的方式輸出近義詞。但不限于此，可以基于設定的等級，對方式進行各種變化來輸出近義詞。例如，可以以設定的等級越高越以容易觀看的顏色顯示近義詞的方式進行?；蚩梢砸酝ㄟ^設定的等級越聞越使顯不近義詞的売度提聞等來強調顯不的方式進行。由此，由于以越是等級聞的近義詞越容易被用戶確認的方式顯示，因此，用戶能夠進行基于該等級高的近義詞的高效的檢索。另外，上述實施方式的檢索裝置2輸出近義詞列表900內的基準詞中、與輸入的檢索詞一致的基準詞所對應的近義詞。但不僅限于基準詞和檢索詞完全一致，也可以針對檢索詞所包含的基準詞來輸出近義詞。例如，在作為檢索詞輸入“專利權”這個字符串的情況下，也可以輸出針對包含在其中的基準詞“專利”的近義詞。由此，不僅與檢索詞本身對應，也能夠與檢索詞所包含的詞語對應，能夠針對各種輸入的檢索詞，靈活地輸出近義詞。而且此時，可以以用戶能夠指定檢索詞的字符串中的輸出近義詞的字符串的方式進行。即，不輸出針對檢索詞所包含的全部的基準詞的近義詞，檢索裝置2僅針對與由用戶指定的字符串一致的基準詞輸出近義詞。若具體地進行說明，例如，在輸入的檢索詞是“世界上最大島嶼”這個字符串的情況下，若在近義詞列表900內登記有“世界”、“最大” “島嶼”這些基準詞，則若輸出針對檢索字符串所包含的這3個基準詞的全部的近義詞，則想象輸出的近義詞的數量會變得過多的情況。因此，通過僅對用戶指定的字符串輸出近義詞，能夠防止輸出變得過于繁瑣。或檢索裝置2可以預先對輸出的近義詞的個數設置上限值，僅按照設定的等級較從高到低的順序輸出達到上限值的個數的近義詞。由此，能夠防止因對應于和輸入的檢索詞一致或者所包含的基準詞的近義詞的個數多而輸出變得繁瑣的狀況。此外，當然作為預先具備的近義詞列表的生成裝置以及使用了該近義詞列表的檢索裝置能夠提供用于實現本發(fā)明的功能的構成，也能夠通過應用程序，使現有的個人計算機、信息終端設備等作為本發(fā)明的生成裝置以及檢索裝置而發(fā)揮功能。即，通過以現有的個人計算機、對信息終端設備等進行控制的CPU等能夠執(zhí)行的方式，應用用于實現基于上述實施方式中所例示的生成裝置I以及檢索裝置2的各功能構成的生成程序或者檢索程序，能夠分別作為本發(fā)明的生成裝置I以及檢索裝置2發(fā)揮功能。另外，本發(fā)明的近義詞列表的生成方法以及使用了該近義詞列表的檢索方法分別使用生成裝置I以及檢索裝置2來實施。另外，該程序的應用方法任意，例如，除了能夠存儲在CD-ROM、DVD-ROM、存儲卡片等計算機可讀取的存儲介質中進行應用外，例如，還能夠經由網絡等的通信介質進行應用。
權利要求
1.一種近義詞列表的生成方法，其特征在于，具備判定基準詞和與其對應的近義詞是否包含在包含成為檢索對象的多個文檔數據的文檔數據組中的判定步驟；對判定為包含在上述文檔數據組中的基準詞和近義詞進行提取的提取步驟；基于上述文檔數據組中的該近義詞和對應的基準詞的至少一方的出現狀況，設定上述提取出的近義詞的輸出優(yōu)先級的設定步驟；以及針對上述提取出的基準詞，以設定了上述輸出優(yōu)先級的近義詞與該基準詞對應的方式來生成近義詞列表的生成步驟。
2.根據權利要求I所述的近義詞列表的生成方法，其特征在干，在上述設定步驟中，識別同時包含該近義詞和對應的基準詞的文檔數據的個數，基于該識別出的個數，對上述提取出的近義詞設定輸出優(yōu)先級。
3.根據權利要求I所述的近義詞列表的生成方法，其特征在干，在上述設定步驟中，識別同時包含該近義詞和對應的基準詞的文檔數據的個數，該識別出的個數越少，對上述提取出的近義詞設定越高的輸出優(yōu)先級。
4.一種檢索方法，其特征在干，該檢索方法是ー種使用由如下近義詞列表的生成方法生成的近義詞列表的檢索方法，其中，該近義詞列表的生成方法具備如下步驟判定基準詞和與其對應的近義詞是否包含在包含成為檢索對象的多個文檔數據的文檔數據組中的判定步驟；對判定為包含在上述文檔數據組中的基準詞和近義詞進行提取的提取步驟；基于上述文檔數據組中的該近義詞和對應的基準詞的至少一方的出現狀況，設定上述提取出的近義詞的輸出優(yōu)先級的設定步驟；以及，針對上述提取出的基準詞，以設定了上述輸出優(yōu)先級的近義詞與該基準詞對應的方式來生成近義詞列表的生成步驟，該檢索方法具備從上述文檔數據組中，確定出包含有所希望的檢索字符串的文檔數據的文檔確定步驟；輸出上述確定出的文檔數據的文檔輸出步驟；判定上述近義詞列表所具有的基準詞是否包含在上述檢索字符串中的基準詞判定步驟；以及將與判定為包含在上述檢索字符串中的基準詞對應的近義詞，以與對該近義詞設定的輸出優(yōu)先級對應的方式進行輸出的近義詞輸出步驟。
5.根據權利要求4所述的檢索方法，其特征在干，在上述基準詞判定步驟中，判定上述近義詞列表所具有的基準詞是否包含于上述檢索字符串中的用戶指定的字符串，在上述近義詞輸出步驟中，將與判斷為包含在上述用戶指定的字符串中的基準詞對應的近義詞，以與對該近義詞設定的輸出優(yōu)先級對應的方式來進行輸出。
6.一種近義詞列表的生成裝置，其特征在于，具備判定単元，其對基準詞和與其對應的近義詞是否包含在包含成為檢索對象的多個文檔數據的文檔數據組中進行判定；提取單元，其對判定為包含在上述文檔數據組中的基準詞和近義詞進行提取；設定單元，其基于上述文檔數據組中的該近義詞和對應的基準詞的至少一方的出現狀況，設定上述提取出的近義詞的輸出優(yōu)先級；以及生成単元，其針對上述提取出的基準詞，以設定了上述輸出優(yōu)先級的近義詞與該基準詞對應的方式來生成近義詞列表。
7.根據權利要求6所述的近義詞列表的生成裝置，其特征在干，在上述設定單元中，識別同時包含該近義詞和對應的基準詞的文檔數據的個數，基于該識別出的個數設定上述提取出的近義詞的輸出優(yōu)先級。
8.根據權利要求6所述的近義詞列表的生成裝置，其特征在干，在上述設定單元中，識別同時包含該近義詞和對應的基準詞的文檔數據的個數，該識別出的個數越少，對上述提取出的近義詞設定越高的輸出優(yōu)先級。
9.一種檢索裝置，其特征在干，該檢索裝置是ー種使用由如下近義詞列表的生成方法生成的近義詞列表的檢索裝置，其中，該近義詞列表的生成方法具備如下步驟判定基準詞和與其對應的近義詞是否包含在包含成為檢索對象的多個文檔數據的文檔數據組中的判定步驟；對判定為包含在上述文檔數據組中的基準詞和近義詞進行提取的提取步驟；基于上述文檔數據組中的該近義詞和對應的基準詞的至少一方的出現狀況，設定上述提取出的近義詞的輸出優(yōu)先級的設定步驟；以及，針對上述提取出的基準詞，以設定了上述輸出優(yōu)先級的近義詞與該基準詞對應的方式來生成近義詞列表的生成步驟，該檢索裝置具備文檔確定単元，該文檔確定單元從上述文檔數據組中確定出包含所希望的檢索字符串的文檔數據；文檔輸出単元，該文檔輸出單元輸出上述確定出的文檔數據；基準詞判定単元，該基準詞判定単元判定上述近義詞列表所具有的基準詞是否包含在上述檢索字符串中；以及近義詞輸出単元，該近義詞輸出單元將與判定為包含在上述檢索字符串中的基準詞對應的近義詞，以與對該近義詞設定的輸出優(yōu)先級對應的方式進行輸出。
10.根據權利要求9所述的檢索裝置，其特征在干，在上述基準詞判定単元中，判定上述近義詞列表所具有的基準詞是否包含在上述檢索字符串中的用戶指定的字符串中，在上述近義詞輸出単元中，將與判斷為包含在上述用戶指定的字符串中的基準詞對應的近義詞，以與對該近義詞設定的輸出優(yōu)先級對應的方式來進行輸出。
全文摘要
本發(fā)明提供在生成裝置(1)中，判定部(101)分別針對近義詞數據庫300所具備的多個基準詞和與其對應的近義詞，判定是否包含在檢索對象的多個文檔數據(文檔數據組400)的任意一個中。提取部(102)對判定為包含在文檔數據組(400)中的基準詞和近義詞進行提取。設定部(103)分別針對提取出的近義詞，基于文檔數據組(400)中的該近義詞和對應的基準詞的至少一方的出現狀況，設定輸出優(yōu)先級；生成部(104)分別針對提取出的基準詞，以與該基準詞對應的近義詞中設定了輸出優(yōu)先級的近義詞對應的方式來生成近義詞列表(900)。
文檔編號G06F17/27GK102722477SQ20121008011
公開日2012年10月10日申請日期2012年3月23日優(yōu)先權日2011年3月24日
發(fā)明者山口倫治申請人:卡西歐計算機株式會社

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：山口倫治
技術所有人：卡西歐計算機株式會社
我是此專利的發(fā)明人

上一篇：一種四階神經網絡超混沌電路的制作方法
上一篇：一種基于視頻的車輛速度檢測方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

近義詞列表的生成方法及生成裝置、使用該近義詞列表的檢索方法及檢索裝置的制作方法