文檔分析裝置以及程序的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明的實施方式設(shè)及對被電子化的文檔組進(jìn)行分析的文檔分析裝置W及程序。
【背景技術(shù)】
[0002] 近年來,隨著信息系統(tǒng)的高度化,能夠記錄并保存大量的例如專利文獻(xiàn)、新聞記 事、網(wǎng)頁或書籍等被電子化的文檔(W下,簡單記為文檔)。因此,要求將該些儲存的文檔組 有效活用于每天的業(yè)務(wù)。
[0003] 作為文檔組的有效活用的具體例,例如可W考慮通過將龐大的量的新聞記事進(jìn)行 分類而整理成眾人容易利用,或通過將與當(dāng)前研究開發(fā)的技術(shù)有關(guān)的專利文獻(xiàn)進(jìn)行分類而 對本公司和其他公司的專利組的趨向進(jìn)行分析并發(fā)現(xiàn)新的研究開發(fā)領(lǐng)域等。
[0004] 也就是說,從信息的有效活用該一點來看,優(yōu)選的是將大量的文檔根據(jù)內(nèi)容等進(jìn) 行分類(整理)。
[0005] 在此,如上所述的文檔例如有多個屬性,該各個屬性具有該屬性的值(W下,記為 屬性值)。在文檔例如是專利文獻(xiàn)的情況下,該文檔具有正文(例如,摘要)、申請人W及申 請日等屬性。此外,文檔所具有的正文、申請人W及申請日該樣的各個屬性具有與該屬性對 應(yīng)的屬性值。另外,文檔所具有的屬性中,將如正文那樣包含由單詞構(gòu)成的文本(文章整體 中的字符串的集合體)的屬性稱為文本屬性,將如申請人那樣具有不連續(xù)的(非連續(xù)的) 值(離散值)作為屬性值的屬性稱為離散值屬性,將如申請日那樣具有不間斷的連續(xù)的值 作為屬性值的屬性稱為連續(xù)值屬性。像該樣文檔具有屬性的情況下,該文檔能夠根據(jù)該屬 性的屬性值(正文中出現(xiàn)的單詞、作為申請人的企業(yè)W及申請日等)被分類為各類別。
[0006] 現(xiàn)有技術(shù)文獻(xiàn)
[0007] 專利文獻(xiàn)
[000引專利文獻(xiàn)1 ;特開2011 - 198111號公報
[0009] 專利文獻(xiàn)2 ;特開2010 - 061176號公報
[0010] 發(fā)明概要
[0011] 發(fā)明要解決的問題
[0012] 然而,例如在分析將大量的文檔的文本和與該文檔相關(guān)聯(lián)的多個屬性進(jìn)行組合 的趨向的情況下,有時希望得到某文本的內(nèi)容根據(jù)多個屬性而有偏差地出現(xiàn)的見解。具 體而言,在設(shè)文本為摘要文、離散值屬性為申請人、連續(xù)值屬性為申請日的專利的基準(zhǔn) 炬enchmark)分析中,有時希望知道與其他公司相比,本公司申請得顯著多的期間或技術(shù)。
[0013] 但是,特開2011 - 198111號中,不是進(jìn)行考慮了上述那樣的連續(xù)值及離散值等兩 個屬性的特征語提取,而是進(jìn)行根據(jù)一個屬性的特征語提取。在屬性為兩個W上的情況下, 由于將文本和兩個屬性組合起來分析,因此與屬性為一個的情況相比,有更需要嘗試的問 題。
[0014] 特開2010 - 61176號限定于單詞與用戶關(guān)注的日期等全部的屬性有偏差的規(guī)則, 有時不能獲得符合用戶的目的的見解。例如,假設(shè)用戶希望知道在某特定的時期對產(chǎn)品共 同地咨詢多的內(nèi)容(目p,單詞與日期的出現(xiàn)上存在偏差、但單詞與咨詢產(chǎn)品沒有偏差的組 合的模式)。但是,特開2010 - 61176號中,由于限定于與全部的屬性有偏差的規(guī)則,因此 無法對像該樣沒有單詞的出現(xiàn)的偏差的情況下的屬性的組合進(jìn)行分析,無法獲得符合用戶 的目的的見解。
【發(fā)明內(nèi)容】
[0015] 因此,本發(fā)明要解決的問題是提供能夠高效地獲得用戶期望的見解的文檔分析裝 置W及程序。
[0016] 用于解決問題的手段
[0017] 實施方式的文檔分析裝置具備文檔存放單元、模式存放單元、取得單元、第1判定 單元、第2判定單元W及提示單元。
[0018] 所述文檔存放單元存放有多個文檔,該多個文檔包含由多個單詞構(gòu)成的文本,并 且該多個文檔具有多個屬性且包含該屬性的屬性值。
[0019] 所述模式存放單元存放有多個模式,該多個模式表示單詞與所述多個屬性中的至 少兩個屬性分別有無相關(guān)。
[0020] 所述取得單元通過對所述文檔存放單元中存放的多個文檔所包含的文本進(jìn)行解 析,取得多個單詞。
[0021] 所述第1判定單元按所取得的每個所述單詞,判定該單詞與所述文檔存放單元中 存放的多個文檔所具有的多個屬性中的由用戶指定的至少兩個屬性分別有無相關(guān)。
[0022] 所述第2判定單元判定所述第1判定單元的判定結(jié)果與所述模式存放單元中存放 的多個模式中的由所述用戶指定的模式是否一致。
[0023] 所述提示單元提示被判定為所述第1判定單元的判定結(jié)果與由所述用戶指定的 模式一致的單詞。
【附圖說明】
[0024] 圖1是示出實施方式的文檔分析裝置的硬件結(jié)構(gòu)的框圖。
[0025] 圖2是示出本實施方式的文檔分析裝置10的主要功能結(jié)構(gòu)的框圖。
[0026] 圖3是示出圖2所示的文檔存放部100中存放的文檔的數(shù)據(jù)構(gòu)造的一例的圖。
[0027] 圖4是示出表示類別的層級構(gòu)造中的根類別的類別信息的數(shù)據(jù)構(gòu)造的一例的圖。 [002引圖5是示出表示在類別的層級構(gòu)造中位于根類別的下級的類別的類別信息的數(shù) 據(jù)構(gòu)造的一例的圖。
[0029] 圖6是示出表示在類別的層級構(gòu)造中位于圖5所示的類別信息122所表示的類別 的下級的類別的類別信息的數(shù)據(jù)構(gòu)造的一例的圖。
[0030] 圖7是示出表示在類別的層級構(gòu)造中位于根類別的下級的類別的類別信息的數(shù) 據(jù)構(gòu)造的一例的圖。
[0031] 圖8是示出表示在類別的層級構(gòu)造中位于圖7所示的類別信息124所表示的類別 的下級的類別的類別信息的數(shù)據(jù)構(gòu)造的一例的圖。
[0032] 圖9是示出表示在類別的層級構(gòu)造中位于圖7所示的類別信息124所表示的類別 的下級的類別的類別信息的數(shù)據(jù)構(gòu)造的一例的圖。
[0033] 圖10是示出本實施方式的文檔分析裝置10的處理步驟的流程圖。
[0034] 圖11是示出類別顯示畫面的一例的圖。
[0035] 圖12是用于說明用戶指定各種信息時的畫面的圖。
[0036] 圖13是用于說明在模式指定欄15化中能夠指定的模式的圖。
[0037] 圖14是用于具體說明第1模式的圖。
[003引圖15是用于具體說明第2模式的圖。
[0039] 圖16是用于具體說明第3模式的圖。
[0040] 圖17是用于具體說明第4模式的圖。
[0041] 圖18是示出由單詞模式判定處理部141執(zhí)行的單詞模式判定處理的處理步驟的 流程圖。
[0042] 圖19是用于說明對象單詞與離散值屬性的相關(guān)判定處理的圖。
[0043] 圖20是示出由分析用單詞提取部142執(zhí)行的分析用單詞提取處理的處理步驟的 流程圖。
[0044] 圖21是用于說明由分析用單詞提取部142提取的單詞的圖。
[0045] 圖22是示出由交叉總計可視化部132執(zhí)行的交叉總計結(jié)果顯示處理的處理步驟 的流程圖。
[0046] 圖23是示出顯示了由交叉總計可視化部132輸出的視圖列表的情況下的顯示畫 面的一例的圖。
[0047] 圖24是示出選擇了單詞"折射"的情況下的顯示畫面的一例的圖。
[0048] 圖25是示出用曲線圖表顯示的交叉總計結(jié)果的一例的圖。
[0049] 圖26是示出用數(shù)值顯示的交叉總計結(jié)果的一例的圖。
【具體實施方式】
[0化0] W下,參照附圖對實施方式進(jìn)行說明。
[0化1] 圖1是示出本實施方式的文檔分析裝置的硬件結(jié)構(gòu)的框圖。另外,文檔分析裝置 作為用于實現(xiàn)該裝置的各功能的硬件結(jié)構(gòu),或硬件與軟件的組合結(jié)構(gòu)而被實現(xiàn)。對軟件而 言,預(yù)先從存儲介質(zhì)或網(wǎng)絡(luò)安裝,由用于使文檔分析裝置實現(xiàn)其功能的程序構(gòu)成。
[0化2] 如圖1所示,文檔分析裝置10具備存儲裝置11、鍵盤12、鼠標(biāo)12、中央運算裝置 14W及顯示器15。
[0053] 存儲裝置11是能夠從中央運算裝置14讀出或?qū)懭氲拇鎯ρb置,例如是 RAM(RandomAccessMemory)。存儲裝置11中預(yù)先存儲有由中央運算裝置14執(zhí)行的程序 (文檔分析程序)。
[0054] 鍵盤12W及鼠標(biāo)13是輸入裝置,例如通過文檔分析裝置10的操作者(用戶)的 操作,將由數(shù)據(jù)或指令構(gòu)成的各種信息輸入至中央運算裝置14。
[0化5] 中央運算裝置14例如是CPU(處理器),具有執(zhí)行存儲在存儲裝置11中的程序的 功能、基于從鍵盤12或鼠標(biāo)13輸入的信息對各處理的執(zhí)行進(jìn)行控制的功能、W及將執(zhí)行結(jié) 果向顯不器15輸出的功能。
[0化6]顯示器15是顯示裝置,具有例如將編輯中的各架構(gòu)模型、特征模型等進(jìn)行顯示而 可視化的功能。