欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文檔處理裝置、文檔處理方法和記錄相關(guān)程序的存儲(chǔ)介質(zhì)的制作方法

文檔序號:6540511閱讀:147來源:國知局
專利名稱:文檔處理裝置、文檔處理方法和記錄相關(guān)程序的存儲(chǔ)介質(zhì)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及用于將紙質(zhì)文檔數(shù)字化的技術(shù),具體地,涉及用于根據(jù)紙質(zhì)文檔的內(nèi)容指定標(biāo)題的技術(shù)。
背景技術(shù)
紙質(zhì)文檔(以下也稱作“文檔”)是用于傳遞和記錄信息的優(yōu)質(zhì)介質(zhì),但是必然伴有包括需要保存空間(例如檔案庫)的問題。此外,當(dāng)將信息記錄在紙質(zhì)文檔中并保存時(shí),如果以后需要記錄在這些紙質(zhì)文檔中的信息,則必須在檔案庫和類似地方中保存的大量紙質(zhì)文檔中尋找其中記錄有期望信息的紙質(zhì)文檔。換言之,從操作效率的觀點(diǎn)來看,在紙質(zhì)文檔中記錄并保存信息并非理想的。
在這種情況下,通常將紙質(zhì)文檔數(shù)字化并存儲(chǔ)。具體地說,通常使用掃描儀等讀取與紙質(zhì)文檔中的各頁對應(yīng)的圖像、將與各個(gè)紙質(zhì)文檔的這些圖像對應(yīng)的圖像數(shù)據(jù)(以下稱為“文檔圖像數(shù)據(jù)”)轉(zhuǎn)換為文件、并將這些文件存儲(chǔ)在諸如硬盤的存儲(chǔ)裝置中。
當(dāng)將這些文件保存到硬盤等時(shí),在對各個(gè)文件添加唯一的文件名之后進(jìn)行存儲(chǔ)、或者根據(jù)類型對要數(shù)字化的文檔進(jìn)行分類從而將其歸檔是比較方便的,但是,為了實(shí)現(xiàn)此目的,必須準(zhǔn)確地為文檔指定標(biāo)題。這是因?yàn)橥ǔJ褂冒臋n標(biāo)題的字符串作為名稱,還因?yàn)槲臋n標(biāo)題通常準(zhǔn)確地反映了文檔類型。已經(jīng)提出了根據(jù)文檔圖像數(shù)據(jù)來指定對應(yīng)于文檔圖像數(shù)據(jù)的文檔的標(biāo)題的諸多技術(shù)。更詳細(xì)地說,公知地,提供了根據(jù)字符串周圍的圖像信息(即,表示附于字符串的下劃線的圖像信息和/或表示與位于上方或者下方的字符串之間的距離的圖像信息)來指定文檔標(biāo)題的技術(shù)。
然而,以上公開的技術(shù)具有如下問題文檔的標(biāo)題是根據(jù)是否存在與待數(shù)字化的紙質(zhì)文檔中所包含的字符串的有意義內(nèi)容無關(guān)的格式編排(例如下劃線)、或者根據(jù)與其他字符串的距離來指定的,從而容易出現(xiàn)判斷錯(cuò)誤,這使得無法達(dá)到高至可以實(shí)行的指定精度水平。
鑒于以上情況提出了本發(fā)明,并且本發(fā)明提供了一種技術(shù),其使得可以提高在根據(jù)將文檔數(shù)字化而獲得的文檔數(shù)據(jù)來指定文檔標(biāo)題時(shí)的指定精度。

發(fā)明內(nèi)容
為了解決上述問題,本發(fā)現(xiàn)提供了一種文檔處理裝置,其包括存儲(chǔ)單元,用于存儲(chǔ)語法數(shù)據(jù),所述語法數(shù)據(jù)表示成為文檔標(biāo)題的可能性大的字符串的語法或者成為文檔標(biāo)題的可能性小的字符串的語法;輸入單元,將對文檔進(jìn)行數(shù)字化而獲得的文檔數(shù)據(jù)輸入到所述輸入單元;提取單元,用于分析輸入到所述輸入單元的文檔數(shù)據(jù)、并提取表示字符串的字符串?dāng)?shù)據(jù);語法分析單元,用于分析由所述提取單元提取的字符串?dāng)?shù)據(jù)、并指定包含在對應(yīng)于文檔數(shù)據(jù)的文檔中的各字符串的語法;以及指定單元,用于根據(jù)所述語法分析單元的指定結(jié)果以及所述存儲(chǔ)單元所存儲(chǔ)的內(nèi)容,從所述提取單元所提取的字符串?dāng)?shù)據(jù)中指定表示與文檔數(shù)據(jù)對應(yīng)的文檔的標(biāo)題的字符串?dāng)?shù)據(jù)。使用這種文檔處理裝置和程序,根據(jù)所處理文檔中包含的各個(gè)字符串的語法來指定文檔的標(biāo)題。


將根據(jù)附圖來詳細(xì)說明本發(fā)明的實(shí)施例,其中圖1是示出配置有根據(jù)本發(fā)明第一實(shí)施例的文檔處理裝置110的文檔數(shù)字化系統(tǒng)的總體結(jié)構(gòu)的示例圖;圖2是示出文檔處理裝置110的硬件結(jié)構(gòu)的示例圖;圖3是示出文檔處理裝置110上的非易失性存儲(chǔ)單元220b中存儲(chǔ)的語法表的表格式的示例圖;圖4是示出成為文檔標(biāo)題的可能性小的字符串的語法的示例圖;圖5是示出成為文檔標(biāo)題的可能性大的字符串的語法的示例圖;
圖6是示出成為文檔標(biāo)題的可能性大的字符串的語法的示例圖;圖7是示出文檔處理裝置110上的控制單元200根據(jù)紙質(zhì)文檔數(shù)字化軟件而執(zhí)行的紙質(zhì)文檔數(shù)字化處理的流程的流程圖;圖8是示出根據(jù)第三變型例的紙質(zhì)文檔數(shù)字化處理的流程的流程圖;圖9是示出根據(jù)第三變型例的紙質(zhì)文檔數(shù)字化處理的流程的流程圖。
具體實(shí)施例方式
下面參照附圖對根據(jù)本發(fā)明的實(shí)施例進(jìn)行說明。
<A結(jié)構(gòu)>
圖1是示出配置有根據(jù)本發(fā)明第一實(shí)施例的文檔處理裝置110的文檔數(shù)字化系統(tǒng)10的結(jié)構(gòu)的示例框圖。圖1中的圖像讀取裝置120是例如配置有ADF(Auto Document Feeder)或其他類型的自動(dòng)送紙機(jī)構(gòu)的掃描儀裝置,其一次一頁地讀取放在ADF中的紙質(zhì)文檔,并通過通信線路130(例如LAN(局域網(wǎng)))將對應(yīng)于所讀取圖像的文檔圖像數(shù)據(jù)傳送給文檔處理裝置110。注意,雖然在本實(shí)施例中說明了通信線路130為LAN的情況,但是這當(dāng)然可以包括WAN(廣域網(wǎng))或者因特網(wǎng)等。還應(yīng)注意,雖然在本實(shí)施例中對文檔處理裝置110和圖像讀取裝置120被構(gòu)造為獨(dú)立的硬件部件的情況進(jìn)行說明,但是這二者當(dāng)然可以被構(gòu)造為一個(gè)硬件部件。在該實(shí)施例中,通信線路130是在相關(guān)硬件內(nèi)部連接文檔處理裝置110和圖像讀取裝置120的內(nèi)部總線。
圖1中的文檔處理裝置(其將從圖像讀取裝置120傳來的文檔圖像數(shù)據(jù)轉(zhuǎn)換為文件,并存儲(chǔ)和容納這些文件)具有圖2所示的結(jié)構(gòu)。如圖2所示,文檔處理裝置110包括控制單元200、通信接口單元210、存儲(chǔ)單元220、以及總線230,總線230協(xié)調(diào)這些構(gòu)成部件之間的數(shù)據(jù)發(fā)送和接收。
控制單元200例如是CPU(中央處理單元),其通過執(zhí)行下述的存儲(chǔ)單元220中存儲(chǔ)的各種軟件程序來控制文檔處理裝置110的各單元。通信接口210通過通信線路130連接到圖像讀取裝置120,并通過通信線路130接收從圖像讀取裝置120發(fā)送來的文檔圖像數(shù)據(jù)并將其傳送到控制單元200。換言之,通信接口210用作輸入單元,從圖像讀取裝置120發(fā)送的文檔圖像數(shù)據(jù)輸入到該輸入單元。
如圖2所示,存儲(chǔ)單元220包括易失性存儲(chǔ)單元220a和非易失性存儲(chǔ)單元220b。易失性存儲(chǔ)單元220a例如是RAM(隨機(jī)訪問存儲(chǔ)器),并用作根據(jù)下述的各種軟件程序來工作的控制單元200的工作區(qū)。相反地,非易失性存儲(chǔ)單元220b例如是硬盤,其存儲(chǔ)并累積轉(zhuǎn)換為文件的文檔圖像數(shù)據(jù)。將使控制單元200實(shí)現(xiàn)文檔處理裝置110的特定功能的數(shù)據(jù)和軟件存儲(chǔ)在非易失性存儲(chǔ)單元220b中。以下是對存儲(chǔ)在非易失性存儲(chǔ)單元220b中的數(shù)據(jù)和軟件的說明。
存儲(chǔ)在非易失性存儲(chǔ)單元220b中的數(shù)據(jù)的一個(gè)示例是存儲(chǔ)在如圖3所示的語法表中的數(shù)據(jù)。該語法表包括權(quán)重?cái)?shù)據(jù),其與表示字符串語法的數(shù)據(jù)(以下稱為“語法數(shù)據(jù)”)相關(guān)聯(lián),并且表示具有該語法的字符串是文檔標(biāo)題的可能性。當(dāng)根據(jù)通過通信接口單元210輸入的文檔圖像數(shù)據(jù)來指定與該文檔圖像數(shù)據(jù)對應(yīng)的文檔的標(biāo)題時(shí),使用語法表的內(nèi)容(即,語法數(shù)據(jù)和與該語法數(shù)據(jù)相關(guān)聯(lián)的權(quán)重?cái)?shù)據(jù))。以下是對語法數(shù)據(jù)和權(quán)重?cái)?shù)據(jù)的說明。
根據(jù)本實(shí)施例,語法數(shù)據(jù)是表示如圖4、圖5和圖6所示的樹結(jié)構(gòu)的數(shù)據(jù)。圖4示出了表示成為文檔標(biāo)題的可能性小的字符串的語法的樹結(jié)構(gòu)的示例,而圖5和圖6都示出了表示成為文檔標(biāo)題的可能性大的字符串的語法的樹結(jié)構(gòu)的示例。具體地說,圖4所示的樹結(jié)構(gòu)表示日文字符串“押印および見稹申請処理を必要とする書蘱は稟議決裁書(需要蓋章并獲得預(yù)算的文檔是匯票支付憑證)”的語法。圖4中的樹結(jié)構(gòu)所表示的語法完全由名詞短語(NP)和包括名詞的謂語(Vnoun)構(gòu)成。具有該語法的字符串以名詞結(jié)束,從而其最初看似標(biāo)題,但是實(shí)際上,通常認(rèn)為它們是文檔標(biāo)題的可能性較小(雖然它們有可能是報(bào)紙文章等的標(biāo)題)。相反地,圖5所示的樹結(jié)構(gòu)表示字符串“押印および見稹申請処理を必要と稟議決裁書(需要蓋章并獲得預(yù)算的匯票支付憑證)”的語法,而圖6所示的樹結(jié)構(gòu)表示字符串“押印および見稹申請処理を必要と稟議決裁書について(關(guān)于需要蓋章并獲得預(yù)算的匯票支付憑證)”的語法。圖5所示的樹結(jié)構(gòu)表示完全由以關(guān)系從句(Srel)來修飾名詞(Nzero)的名詞短語(Nadj)構(gòu)成的語法,而圖6所示的樹結(jié)構(gòu)表示完全由其中相當(dāng)于助詞的詞緊隨名詞短語的名詞性從句構(gòu)成的語法。通常認(rèn)為,圖5和圖6所示的樹結(jié)構(gòu)表示的語法是文檔標(biāo)題的可能性較大。注意,在本實(shí)施例中,說明了將以樹結(jié)構(gòu)的形式表示字符串語法的數(shù)據(jù)用作語法數(shù)據(jù)的情況,然而,該數(shù)據(jù)當(dāng)然也可以是其他形式,只要其能夠唯一地表示語法。
另一方面,與語法數(shù)據(jù)相關(guān)聯(lián)并存儲(chǔ)在語法表中的權(quán)重?cái)?shù)據(jù)在本實(shí)施例中是以如下方式計(jì)算的數(shù)據(jù)。對于預(yù)先選擇的多個(gè)字符串(例如,100,000個(gè)字符串),如果字符串是文檔的標(biāo)題則指定值1,而如果其不是文檔的標(biāo)題則指定值0。通過對于各語法累加這些值,算出權(quán)重?cái)?shù)據(jù)。在本實(shí)施例中說明了這樣的情況使用在預(yù)先選擇的多個(gè)字符串中針對各個(gè)語法累計(jì)是文檔標(biāo)題的字符串的數(shù)量而得到的值作為權(quán)重?cái)?shù)據(jù),但是實(shí)質(zhì)上,這可以是任何類型的數(shù)據(jù),只要其可以表示具有該語法數(shù)據(jù)所表示的語法的字符串是文檔標(biāo)題的可能性。
存儲(chǔ)在非易失性存儲(chǔ)單元220b中的軟件的示例包括操作系統(tǒng)(“OS”)軟件,其使控制單元200實(shí)現(xiàn)OS;以及紙質(zhì)文檔數(shù)字化軟件。在本文中,采用紙質(zhì)文檔數(shù)字化軟件來表示使控制單元200執(zhí)行如下處理的軟件當(dāng)將文檔圖像數(shù)據(jù)轉(zhuǎn)換為文件并將該文件存儲(chǔ)到非易失性存儲(chǔ)單元220b中時(shí),在根據(jù)對應(yīng)于該文檔圖像數(shù)據(jù)的文檔的標(biāo)題為文檔圖像數(shù)據(jù)添加文件名之后,存儲(chǔ)所述文檔圖像數(shù)據(jù)。以下說明了通過執(zhí)行該軟件而賦予控制單元200的功能。
當(dāng)文檔處理裝置110的電源(未示出)接通時(shí),控制單元200首先從非易失性存儲(chǔ)單元220b讀取OS軟件并執(zhí)行它。當(dāng)根據(jù)OS軟件進(jìn)行操作并實(shí)現(xiàn)OS時(shí),控制單元200具有控制文檔處理裝置110的各種單元的功能、從非易失性存儲(chǔ)單元220b讀取其他軟件并執(zhí)行它的功能等等。根據(jù)本實(shí)施例,一旦完成了OS軟件的執(zhí)行并實(shí)現(xiàn)了OS,控制單元200就從非易失性存儲(chǔ)單元220b讀取紙質(zhì)文檔數(shù)字化軟件并執(zhí)行它。圖7是示出由根據(jù)紙質(zhì)文檔數(shù)字化軟件進(jìn)行工作的控制單元200執(zhí)行的紙質(zhì)文檔數(shù)字化處理的流程的流程圖。如圖7所示,根據(jù)紙質(zhì)文檔數(shù)字化軟件進(jìn)行工作的控制單元200具有下述的三個(gè)功能。
第一是提取功能,當(dāng)通過通信接口單元210讀入文檔圖像數(shù)據(jù)(即,與正在處理的紙質(zhì)文檔對應(yīng)的文檔圖像數(shù)據(jù))時(shí)對其進(jìn)行分析、并提取表示字符串的字符串?dāng)?shù)據(jù)。在下文進(jìn)行詳細(xì)說明,但是根據(jù)本實(shí)施例,該提取功能根據(jù)下劃線的存在與否和/或其相對于其它字符串的位置(即,根據(jù)傳統(tǒng)技術(shù)),提取與被判斷為有可能是標(biāo)題的字符串對應(yīng)的字符串?dāng)?shù)據(jù)。第二是語法分析功能,用于分析提取功能所提取的所有字符串?dāng)?shù)據(jù)、并為包含在與文檔圖像數(shù)據(jù)對應(yīng)的紙質(zhì)文檔中的每個(gè)字符串指定語法。第三是指定功能,用于根據(jù)語法分析功能所指定的各個(gè)字符串的語法以及語法表的內(nèi)容,從提取功能提取的字符串?dāng)?shù)據(jù)中指定表示文檔標(biāo)題的字符串?dāng)?shù)據(jù)。
如上所述,根據(jù)本實(shí)施例的文檔處理裝置110的硬件配置與普通計(jì)算機(jī)裝置的硬件配置相同,控制單元200根據(jù)存儲(chǔ)在非易失性存儲(chǔ)單元220b中的各種軟件程序所進(jìn)行的操作實(shí)現(xiàn)了根據(jù)本發(fā)明實(shí)施例的文檔處理裝置所特有的功能。因此,雖然在本實(shí)施例中對軟件模塊實(shí)現(xiàn)根據(jù)本發(fā)明的文檔處理裝置所特有的功能的情況進(jìn)行說明,但是也可以使用提供這些功能的硬件模塊來構(gòu)造根據(jù)本發(fā)明的文檔處理裝置。具體地說,也可以如下地構(gòu)造根據(jù)本發(fā)明的文檔處理裝置向具有用于從圖像讀取裝置120讀取文檔圖像數(shù)據(jù)的輸入單元以及存儲(chǔ)有語法表的存儲(chǔ)單元的文檔處理裝置提供分別作為硬件模塊的實(shí)現(xiàn)提取功能的提取單元、實(shí)現(xiàn)語法分析功能的語法分析單元、以及實(shí)現(xiàn)指定功能的指定單元,并對這些硬件模塊進(jìn)行組合以使它們根據(jù)圖7所示的流程圖以鏈接方式工作。
B.操作參照附圖,下面對例示出文檔處理裝置110的特征的操作進(jìn)行說明。
首先,當(dāng)用戶在圖像讀取裝置120的ADF上放置紙質(zhì)文檔并執(zhí)行預(yù)定操作(例如,按下設(shè)置在圖像讀取裝置120的操作單元上的開始按鈕)時(shí),圖像讀取裝置120讀取與紙質(zhì)文檔中的各頁對應(yīng)的圖像,從圖像讀取裝置120將與各頁圖像對應(yīng)的文檔圖像數(shù)據(jù)通過通信線路130發(fā)送到文檔處理裝置110。
另一方面,當(dāng)通過通信接口210輸入文檔圖像數(shù)據(jù)時(shí),文檔處理裝置110的控制單元200通過將文檔圖像數(shù)據(jù)寫到易失性存儲(chǔ)單元220a來存儲(chǔ)該文檔圖像數(shù)據(jù)。然后控制單元200對累積在易失性存儲(chǔ)單元220a中的文檔圖像數(shù)據(jù)執(zhí)行根據(jù)圖7所示流程圖的紙質(zhì)文檔數(shù)字化,為與文檔圖像數(shù)據(jù)對應(yīng)的紙質(zhì)文檔指定標(biāo)題,將其與包含該標(biāo)題的文件名關(guān)聯(lián)起來,將其寫到非易失性存儲(chǔ)單元220b中,并結(jié)束數(shù)字化處理。參照圖7,下面對控制單元200執(zhí)行的操作進(jìn)行說明。
圖7是示出控制單元200執(zhí)行的紙質(zhì)文檔數(shù)字化處理的流程的流程圖。如圖7所示,控制單元200首先分析易失性存儲(chǔ)單元220a中累積的文檔圖像數(shù)據(jù),并對于每個(gè)字符串提取表示與文檔圖像數(shù)據(jù)對應(yīng)的文檔中的字符串的字符串?dāng)?shù)據(jù)、以及表示字符串是否有下劃線和字符串與其上下字符串之間的距離的屬性數(shù)據(jù)(步驟SA1)。具體地說,控制單元200從文檔圖像數(shù)據(jù)中提取與包含字符串的區(qū)域內(nèi)的圖像對應(yīng)的數(shù)據(jù)塊,并使用OCR(光學(xué)特征識別)在對應(yīng)于該數(shù)據(jù)塊的圖像上提取字符串?dāng)?shù)據(jù)和屬性數(shù)據(jù)。
接著,使用傳統(tǒng)技術(shù),控制單元200根據(jù)對應(yīng)于字符串?dāng)?shù)據(jù)的屬性數(shù)據(jù),從步驟SA1中提取的字符串?dāng)?shù)據(jù)中提取作為標(biāo)題候選的字符串的字符串?dāng)?shù)據(jù)(步驟SA2)。具體地說,根據(jù)步驟SA1中提取的屬性數(shù)據(jù),控制單元200指定對應(yīng)于屬性數(shù)據(jù)的字符串?dāng)?shù)據(jù)所代表的字符串是否有下劃線,同時(shí)還指定這些字符串與其上下字符串之間的距離。隨后,控制單元200提取與有下劃線的字符串對應(yīng)、且至其的距離大于預(yù)定值的字符串?dāng)?shù)據(jù)作為標(biāo)題候選。
在步驟SA2后的步驟SA3中,控制單元200對步驟SA2中所提取的用于標(biāo)題候選的所有字符串?dāng)?shù)據(jù)執(zhí)行語法分析,并指定與該字符串?dāng)?shù)據(jù)對應(yīng)的字符串的語法。具體地說,控制單元200對步驟SA2中限定的用于標(biāo)題候選的所有字符串?dāng)?shù)據(jù)執(zhí)行語法分析,生成上述的語法數(shù)據(jù),并指定字符串?dāng)?shù)據(jù)所表示的字符串的語法。接著,根據(jù)步驟SA3的指定結(jié)果和存儲(chǔ)在語法表中的內(nèi)容,控制單元200判斷步驟SA2中所提取的用于標(biāo)題候選的字符串?dāng)?shù)據(jù)是否包含與成為標(biāo)題的可能性大的字符串對應(yīng)的字符串?dāng)?shù)據(jù)(步驟SA4)。更具體地說,控制單元200對于步驟SA2中提取的所有字符串?dāng)?shù)據(jù)判斷與在步驟SA3中對于相應(yīng)的字符串?dāng)?shù)據(jù)而生成的語法數(shù)據(jù)相關(guān)聯(lián)地存儲(chǔ)在語法表中的權(quán)重?cái)?shù)據(jù)的值是否大于預(yù)定的第一閾值。即使只存在一個(gè)判斷結(jié)果為“是”的字符串?dāng)?shù)據(jù),控制單元200也會(huì)判定在步驟SA2中限定的標(biāo)題候選包括與成為標(biāo)題的可能性大的字符串對應(yīng)的字符串?dāng)?shù)據(jù)。
如果在步驟SA4的判斷結(jié)果為“是”,則控制單元200選擇與在以上步驟SA4中判斷為成為標(biāo)題的可能性較大的字符串對應(yīng)的字符串?dāng)?shù)據(jù),作為與文檔圖像數(shù)據(jù)對應(yīng)的文檔的標(biāo)題的最終候選(步驟SA5)。相反地,如果在步驟SA4的判斷結(jié)果為“否”,則控制單元200根據(jù)步驟SA3的指定結(jié)果和存儲(chǔ)在語法表中的內(nèi)容,判斷在步驟SA2中所提取的用于標(biāo)題候選的字符串?dāng)?shù)據(jù)是否包含與成為標(biāo)題的可能性小的字符串對應(yīng)的字符串?dāng)?shù)據(jù)(步驟SA6)。更具體地說,控制單元200對于步驟SA2提取的所有字符串?dāng)?shù)據(jù)判斷與在步驟SA3中對于相應(yīng)的字符串?dāng)?shù)據(jù)而生成的語法數(shù)據(jù)相關(guān)聯(lián)地存儲(chǔ)在語法表中的權(quán)重?cái)?shù)據(jù)的值是否小于預(yù)定的第二閾值。即使只存在一個(gè)判斷結(jié)果為“是”的字符串?dāng)?shù)據(jù),控制單元200也會(huì)判定標(biāo)題候選包括與成為標(biāo)題的可能性小的字符串對應(yīng)的字符串?dāng)?shù)據(jù)。此外,第二閾值可以是任何值,只要它等于第一閾值或者小于第一閾值。
如果步驟SA6的判斷結(jié)果為“是”,則控制單元200從步驟SA2中限定的字符串?dāng)?shù)據(jù)中刪除與在以上步驟SA6中判定為成為標(biāo)題的可能性小的字符串對應(yīng)的字符串?dāng)?shù)據(jù),并選擇剩余字符串?dāng)?shù)據(jù)作為文檔標(biāo)題的最終候選(步驟SA7)。相反地,如果步驟SA6的判斷結(jié)果為“否”,則控制單元200選擇在步驟SA2中提取的標(biāo)題候選的所有字符串?dāng)?shù)據(jù),作為表示文檔標(biāo)題的字符串的最終候選(步驟SA8)。
在步驟SA5、步驟SA7或者步驟SA8之后執(zhí)行的步驟SA9中,控制單元200從最終候選的字符串?dāng)?shù)據(jù)中指定表示被選作文檔標(biāo)題的字符串的字符串?dāng)?shù)據(jù)(步驟SA9)。具體地說,如果只存在一個(gè)最終候選的字符串?dāng)?shù)據(jù)例,則控制單元200指定該字符串?dāng)?shù)據(jù)表示的字符串作為標(biāo)題,而如果存在多個(gè)最終候選的字符串?dāng)?shù)據(jù)例,則控制單元200將成為標(biāo)題的可能性最大的字符串?dāng)?shù)據(jù)所表示的字符串指定為文檔標(biāo)題(即,具有與有最大值的權(quán)重?cái)?shù)據(jù)相關(guān)聯(lián)的語法數(shù)據(jù)所表示的語法的字符串?dāng)?shù)據(jù))。當(dāng)然,如果存在多個(gè)最終候選的字符串?dāng)?shù)據(jù)例,也可以向用戶提供多個(gè)字符串,并將用戶選擇的字符串指定為文檔標(biāo)題。此后,控制單元200附上與步驟SA9中指定的標(biāo)題對應(yīng)的名稱,將文檔圖像數(shù)據(jù)寫到非易失性存儲(chǔ)單元220b中,并結(jié)束紙質(zhì)文檔數(shù)字化處理。
如上所述,通過根據(jù)本實(shí)施例的文檔處理裝置110,當(dāng)指定待數(shù)字化文檔的標(biāo)題時(shí),根據(jù)傳統(tǒng)技術(shù)從文檔中包含的字符串中限定標(biāo)題候選的字符串,其后,在進(jìn)一步根據(jù)字符串的語法來對其進(jìn)行限定之后,指定字符串作為文檔的標(biāo)題。這具有可以以大于先前的精度來指定標(biāo)題的效果。此外,在本實(shí)施例中,說明了指定與輸入到文檔處理裝置110的文檔圖像數(shù)據(jù)對應(yīng)的文檔的標(biāo)題、以及根據(jù)標(biāo)題添加文件名并寫到文檔處理裝置110的存儲(chǔ)單元中的情況。然而,當(dāng)然可以將文檔圖像數(shù)據(jù)與表示文件名的名稱數(shù)據(jù)關(guān)聯(lián)起來并發(fā)送到獨(dú)立于文檔處理裝置110的存儲(chǔ)裝置,并將它們相互關(guān)聯(lián)地存儲(chǔ)在該存儲(chǔ)裝置中。
C.變型例以上是對本發(fā)明一個(gè)實(shí)施例的詳細(xì)說明,但是當(dāng)然可以加入下述的變型例。
C-1第一變型例在以上實(shí)施例中,對根據(jù)與紙質(zhì)文檔的圖像對應(yīng)的文檔圖像數(shù)據(jù)來指定紙質(zhì)文檔的標(biāo)題的情況進(jìn)行了說明。然而,當(dāng)然也可以根據(jù)與文字處理器或者其他裝置所創(chuàng)建的文檔對應(yīng)的數(shù)據(jù)(即,例如文檔中的字符的字符碼和換行碼按順序排列的數(shù)據(jù)以下稱為“碼數(shù)據(jù)”)來指定文檔的標(biāo)題。也就是說,只要文檔數(shù)據(jù)對應(yīng)于紙質(zhì)文檔,它可以是圖像數(shù)據(jù)或者碼數(shù)據(jù)。
(C-2)第二變型例在以上實(shí)施例中,使用傳統(tǒng)技術(shù)(即,根據(jù)字符串?dāng)?shù)據(jù)所表示的字符串是否有下劃線、以及字符串與上下字符串之間的距離來指定作為標(biāo)題的字符串的技術(shù))來在從文檔圖像數(shù)據(jù)讀取的字符串?dāng)?shù)據(jù)中限定作為標(biāo)題候選的字符串,之后對所限定的字符串的語法進(jìn)行分析,并根據(jù)分析結(jié)果和存儲(chǔ)在語法表中的內(nèi)容進(jìn)一步限定作為與文檔圖像數(shù)據(jù)對應(yīng)的文檔的標(biāo)題的字符串。然而,當(dāng)然也可以在根據(jù)語法限定字符串?dāng)?shù)據(jù)之后利用傳統(tǒng)技術(shù)進(jìn)行限定從而限定最終候選。此外,在以上實(shí)施例中,作為使用傳統(tǒng)技術(shù)進(jìn)行限定的示例,對根據(jù)下劃線的存在與否以及與上下字符串之間的距離來執(zhí)行對標(biāo)題候選的限定的情況進(jìn)行了說明,但是當(dāng)然也可以只根據(jù)其中之一或者根據(jù)字符串的字體類型和字體尺寸來進(jìn)行限定。此外,當(dāng)然也可以對從文檔圖像數(shù)據(jù)中讀取的所有字符串?dāng)?shù)據(jù)所表示的字符串的語法進(jìn)行分析、并根據(jù)分析結(jié)果和存儲(chǔ)在語法表中的內(nèi)容來為對應(yīng)于文檔圖像數(shù)據(jù)的文檔限定標(biāo)題候選,而不使用傳統(tǒng)技術(shù)進(jìn)行限定(換言之,在步驟SA1之后立即執(zhí)行步驟SA3,而不是如圖7所示地執(zhí)行步驟SA2)。
(C-3)第三變型例在以上實(shí)施例中,對如下情況進(jìn)行了說明將表示字符串語法的語法數(shù)據(jù)與表示具有該語法的字符串是文檔標(biāo)題的可能性的權(quán)重?cái)?shù)據(jù)關(guān)聯(lián)起來,并且將表示成為標(biāo)題的可能性大的語法的語法數(shù)據(jù)以及表示成為標(biāo)題的可能性小的語法的語法數(shù)據(jù)存儲(chǔ)在語法表中。然而,也可以在語法表中僅存儲(chǔ)表示成為標(biāo)題的可能性大的語法的語法數(shù)據(jù),相反地,也可以在語法表中僅存儲(chǔ)表示成為標(biāo)題的可能性小的語法的語法數(shù)據(jù)。此外,如果在語法表中僅存儲(chǔ)表示成為文檔標(biāo)題的可能性小(大)的語法的語法數(shù)據(jù),則無需將權(quán)重?cái)?shù)據(jù)與語法數(shù)據(jù)關(guān)聯(lián)起來。
例如,如果在語法表中僅存儲(chǔ)表示成為文檔標(biāo)題的可能性大的語法的語法數(shù)據(jù),則應(yīng)該執(zhí)行如圖8所示的紙質(zhì)文檔數(shù)字化處理,而不是圖7所示的紙質(zhì)文檔數(shù)字化處理。圖8所示的紙質(zhì)文檔數(shù)字化處理與圖7所示的紙質(zhì)文檔數(shù)字化處理的不同僅在于如果在步驟SA4中的判斷結(jié)果為“否”,則無條件地執(zhí)行步驟SA8中的處理。此外,如果在語法表中僅存儲(chǔ)表示成為文檔標(biāo)題的可能性小的語法的語法數(shù)據(jù),則應(yīng)該執(zhí)行如圖9所示的紙質(zhì)文檔數(shù)字化處理,而不是圖7所示的紙質(zhì)文檔數(shù)字化處理。圖9所示的紙質(zhì)文檔數(shù)字化處理與圖7所示的紙質(zhì)文檔數(shù)字化處理的不同僅在于在步驟SA3之后執(zhí)行步驟SA6中的處理。
(C-4)第四變型例在上述實(shí)施例中,說明了將用于使控制單元200實(shí)現(xiàn)根據(jù)本發(fā)明的文檔處理裝置所特有的功能的軟件預(yù)先存儲(chǔ)在非易失性存儲(chǔ)單元220b中的情況。然而,當(dāng)然也可以將該軟件存儲(chǔ)在計(jì)算機(jī)可讀的存儲(chǔ)介質(zhì)中,例如CD-ROM(光盤只讀存儲(chǔ)器)和DVD(數(shù)字多功能光盤),并使用該存儲(chǔ)介質(zhì)將所述軟件安裝在通用計(jì)算機(jī)裝置中。這具有可將通用計(jì)算機(jī)裝置用作根據(jù)本發(fā)明的文檔處理裝置的效果。
如上所述,本發(fā)明提供了一種文檔處理裝置,其包括存儲(chǔ)器,其存儲(chǔ)有語法數(shù)據(jù),所述語法數(shù)據(jù)表示成為文檔標(biāo)題的可能性大的字符串的語法或者成為文檔標(biāo)題的可能性小的字符串的語法;輸入單元,其輸入通過對文檔進(jìn)行數(shù)字化而獲得的文檔數(shù)據(jù);提取單元,其分析輸入單元輸入的文檔數(shù)據(jù)、并提取表示字符串的字符串?dāng)?shù)據(jù);語法分析單元,其分析提取單元提取的字符串?dāng)?shù)據(jù)、并指定包含在對應(yīng)于文檔數(shù)據(jù)的文檔中的各字符串的語法;以及指定單元,其根據(jù)語法分析單元的指定結(jié)果以及存儲(chǔ)在存儲(chǔ)器中的內(nèi)容,從提取單元提取的字符串?dāng)?shù)據(jù)中指定表示與文檔數(shù)據(jù)對應(yīng)的文檔的標(biāo)題的字符串?dāng)?shù)據(jù)。使用這種文檔處理裝置和程序,根據(jù)所處理文檔中包含的各個(gè)字符串的語法來指定文檔的標(biāo)題。
根據(jù)本發(fā)明一個(gè)實(shí)施例,表示具有語法數(shù)據(jù)所表示的語法的字符串是文檔標(biāo)題的可能性程度的權(quán)重?cái)?shù)據(jù)與存儲(chǔ)在存儲(chǔ)器中的語法數(shù)據(jù)相關(guān)聯(lián),指定單元根據(jù)與表示語法分析單元所指定語法的語法數(shù)據(jù)相關(guān)聯(lián)地存儲(chǔ)在存儲(chǔ)器中的權(quán)重?cái)?shù)據(jù)來指定表示文檔標(biāo)題的字符串?dāng)?shù)據(jù)。通過該實(shí)施例,可以指定其語法表示成為文檔標(biāo)題的可能性最大的字符串作為被處理文檔的標(biāo)題。
根據(jù)本發(fā)明另一實(shí)施例,指定單元根據(jù)語法分析單元的指定結(jié)果和存儲(chǔ)在存儲(chǔ)器中的內(nèi)容,將提取單元所提取的字符串?dāng)?shù)據(jù)限定為有可能成為文檔標(biāo)題的字符串?dāng)?shù)據(jù),向用戶提供該經(jīng)限定的字符串?dāng)?shù)據(jù),并將用戶選擇的字符串?dāng)?shù)據(jù)指定為表示文檔標(biāo)題的字符串?dāng)?shù)據(jù)。通過該實(shí)施例,從根據(jù)文檔中所包含字符串的語法而限定的標(biāo)題候選中指定文檔標(biāo)題。在存在多個(gè)具有表示成為文檔標(biāo)題的可能性大的語法的字符串的情況下、以及在可能性程度沒有太大差別的情況下,該實(shí)施例尤其適用。
根據(jù)本發(fā)明另一實(shí)施例,指定單元根據(jù)語法分析單元的指定結(jié)果以及存儲(chǔ)在存儲(chǔ)器中的內(nèi)容,從提取單元提取的字符串?dāng)?shù)據(jù)中刪除成為文檔標(biāo)題的可能性小的字符串?dāng)?shù)據(jù),向用戶提供剩余字符串?dāng)?shù)據(jù),并將用戶選擇的字符串?dāng)?shù)據(jù)指定為表示文檔標(biāo)題的字符串?dāng)?shù)據(jù)。通過該實(shí)施例,從已經(jīng)刪除了成為文檔標(biāo)題的可能性小的字符串的標(biāo)題候選中指定文檔標(biāo)題。
根據(jù)本發(fā)明另一實(shí)施例,提取單元根據(jù)與字符串?dāng)?shù)據(jù)對應(yīng)的字符串有無格式編排、或者根據(jù)與位于這些字符串上下的字符串之間的距離,從通過對輸入單元輸入的文檔數(shù)據(jù)進(jìn)行分析而獲得的文檔數(shù)據(jù)中,僅僅提取表示成為文檔(其對應(yīng)于文檔數(shù)據(jù))的標(biāo)題的可能性大的字符串的字符串?dāng)?shù)據(jù)。通過該實(shí)施例,在根據(jù)字符串是什么格式以及其與上下字符串之間的距離而限定的標(biāo)題候選中根據(jù)語法來限定文檔標(biāo)題。
此外,本發(fā)明提供了一種文檔處理方法,其包括以下步驟在存儲(chǔ)器中存儲(chǔ)語法數(shù)據(jù),所述語法數(shù)據(jù)表示成為文檔標(biāo)題的可能性大的字符串的語法或者成為文檔標(biāo)題的可能性小的字符串的語法;輸入通過將文檔數(shù)字化而獲得的文檔數(shù)據(jù);通過對輸入的文檔數(shù)據(jù)進(jìn)行分析來提取表示字符串的字符串?dāng)?shù)據(jù);通過對提取的字符串?dāng)?shù)據(jù)進(jìn)行分析來指定與文檔數(shù)據(jù)對應(yīng)的文檔中包含的各個(gè)字符串的語法;以及,根據(jù)指定的結(jié)果和存儲(chǔ)在存儲(chǔ)器中的內(nèi)容,從提取的字符串?dāng)?shù)據(jù)中指定表示與文檔數(shù)據(jù)對應(yīng)的文檔的標(biāo)題的字符串?dāng)?shù)據(jù)。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,表示具有語法數(shù)據(jù)所表示的語法的字符串是文檔標(biāo)題的可能性程度的權(quán)重?cái)?shù)據(jù)與存儲(chǔ)在存儲(chǔ)器中的該語法數(shù)據(jù)相關(guān)聯(lián),并且字符串?dāng)?shù)據(jù)指定步驟包括以下步驟根據(jù)與表示所指定語法的語法數(shù)據(jù)相關(guān)聯(lián)地存儲(chǔ)在存儲(chǔ)器中的權(quán)重?cái)?shù)據(jù),指定表示文檔標(biāo)題的字符串?dāng)?shù)據(jù)。
根據(jù)本發(fā)明另一實(shí)施例,字符串?dāng)?shù)據(jù)指定步驟包括以下步驟根據(jù)指定結(jié)果和存儲(chǔ)在存儲(chǔ)器中的內(nèi)容,將提取的字符串?dāng)?shù)據(jù)限定到有可能是文檔標(biāo)題的字符串?dāng)?shù)據(jù);向用戶提供經(jīng)限定的字符串?dāng)?shù)據(jù);并且將用戶選擇的字符串?dāng)?shù)據(jù)指定為表示文檔標(biāo)題的字符串?dāng)?shù)據(jù)。
根據(jù)本發(fā)明另一實(shí)施例,字符串?dāng)?shù)據(jù)指定步驟包括以下步驟根據(jù)指定結(jié)果和存儲(chǔ)在存儲(chǔ)器中的內(nèi)容,從所提取的字符串?dāng)?shù)據(jù)中刪去成為文檔標(biāo)題的可能性小的字符串?dāng)?shù)據(jù);向用戶提供剩余的字符串?dāng)?shù)據(jù);并且將用戶選擇的字符串?dāng)?shù)據(jù)指定為表示文檔標(biāo)題的字符串?dāng)?shù)據(jù)。
根據(jù)本發(fā)明另一實(shí)施例,提取步驟包括根據(jù)與字符串?dāng)?shù)據(jù)對應(yīng)的字符串有無格式編排、或者根據(jù)與位于這些字符串上下的字符串之間的距離,從通過對輸入文檔數(shù)據(jù)進(jìn)行分析而獲得的文檔數(shù)據(jù)中僅僅提取表示成為對應(yīng)于該文檔數(shù)據(jù)的文檔的標(biāo)題的可能性大的字符串的字符串?dāng)?shù)據(jù)。
此外,本發(fā)明提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其記錄有用于使計(jì)算機(jī)實(shí)現(xiàn)以下功能的程序提取單元,當(dāng)輸入通過對文檔進(jìn)行數(shù)字化而獲得的文檔數(shù)據(jù)時(shí),其對文檔數(shù)據(jù)進(jìn)行分析并提取表示字符串的字符串?dāng)?shù)據(jù);語法分析單元,用于分析提取單元所提取的字符串?dāng)?shù)據(jù)、并指定包含在與文檔數(shù)據(jù)對應(yīng)的文檔中的各字符串的語法;以及指定單元,用于根據(jù)語法分析單元的指定結(jié)果、以及預(yù)先存儲(chǔ)在計(jì)算機(jī)中作為表示成為文檔標(biāo)題的可能性大的字符串的語法或者成為文檔標(biāo)題的可能性小的字符串的語法的數(shù)據(jù)的語法數(shù)據(jù),從提取單元所提取的字符串?dāng)?shù)據(jù)中指定表示與文檔數(shù)據(jù)對應(yīng)的文檔的標(biāo)題的字符串?dāng)?shù)據(jù)。使用所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),根據(jù)處理文檔中包含的各字符串的語法來指定文檔的標(biāo)題。
出于示例和說明的目的提供了上述對本發(fā)明實(shí)施例的說明。其并不是窮舉性的或者將本發(fā)明限制于所公開的確切形式。對于本領(lǐng)域技術(shù)人員顯然可以有多種變化和修改。選擇并說明這些實(shí)施例以最佳地說明本發(fā)明的原理及其實(shí)際應(yīng)用,從而使得本領(lǐng)域其它技術(shù)人員能夠理解本發(fā)明的各種實(shí)施例及其各種變型例,以適應(yīng)具體的預(yù)期應(yīng)用。本發(fā)明的范圍由所附的權(quán)利要求及其等同物限定。
權(quán)利要求
1.一種文檔處理裝置,包括存儲(chǔ)器,其存儲(chǔ)有語法數(shù)據(jù),所述語法數(shù)據(jù)表示成為文檔標(biāo)題的可能性大的字符串或者成為文檔標(biāo)題的可能性小的字符串的語法;輸入單元,其輸入通過對文檔進(jìn)行數(shù)字化而獲得的文檔數(shù)據(jù);提取單元,其分析所述輸入單元輸入的文檔數(shù)據(jù)、并提取表示字符串的字符串?dāng)?shù)據(jù);語法分析單元,其分析所述提取單元提取的字符串?dāng)?shù)據(jù)、并指定對應(yīng)于所述文檔數(shù)據(jù)的文檔中包含的各字符串的語法;以及指定單元,其根據(jù)所述語法分析單元的指定結(jié)果以及所述存儲(chǔ)器中存儲(chǔ)的內(nèi)容,從所述提取單元所提取的字符串?dāng)?shù)據(jù)中指定表示與所述文檔數(shù)據(jù)對應(yīng)的文檔的標(biāo)題的字符串?dāng)?shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的文檔處理裝置,其中,表示具有語法數(shù)據(jù)所表示的語法的字符串是文檔標(biāo)題的可能性程度的權(quán)重?cái)?shù)據(jù)與存儲(chǔ)在所述存儲(chǔ)器中的語法數(shù)據(jù)相關(guān)聯(lián),并且其中,所述指定單元根據(jù)與表示所述語法分析單元所指定語法的語法數(shù)據(jù)相關(guān)聯(lián)地存儲(chǔ)在所述存儲(chǔ)器中的權(quán)重?cái)?shù)據(jù),指定表示所述文檔標(biāo)題的字符串?dāng)?shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的文檔處理裝置,其中,所述指定單元根據(jù)所述語法分析單元的指定結(jié)果和所述存儲(chǔ)器中存儲(chǔ)的內(nèi)容,將所述提取單元所提取的字符串?dāng)?shù)據(jù)限定至有可能成為文檔標(biāo)題的字符串?dāng)?shù)據(jù),向用戶提供該經(jīng)限定的字符串?dāng)?shù)據(jù),并將用戶選擇的字符串?dāng)?shù)據(jù)指定為表示文檔標(biāo)題的字符串?dāng)?shù)據(jù)。
4.根據(jù)權(quán)利要求2所述的文檔處理裝置,其中,所述指定單元根據(jù)所述語法分析單元的指定結(jié)果和所述存儲(chǔ)器中存儲(chǔ)的內(nèi)容,從所述提取單元提取的字符串?dāng)?shù)據(jù)中刪除成為文檔標(biāo)題的可能性小的字符串?dāng)?shù)據(jù),向用戶提供剩余的字符串?dāng)?shù)據(jù),并將用戶選擇的字符串?dāng)?shù)據(jù)指定為表示文檔標(biāo)題的字符串?dāng)?shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的文檔處理裝置,其中,所述提取單元根據(jù)與所述字符串?dāng)?shù)據(jù)對應(yīng)的字符串有無格式編排、或者根據(jù)與位于這些字符串上下的字符串之間的距離,從通過對所述輸入單元輸入的文檔數(shù)據(jù)進(jìn)行分析而獲得的文檔數(shù)據(jù)中,僅提取表示成為與所述文檔數(shù)據(jù)對應(yīng)的文檔的標(biāo)題的可能性大的字符串的字符串?dāng)?shù)據(jù)。
6.一種文檔處理方法,包括在存儲(chǔ)器中存儲(chǔ)語法數(shù)據(jù),所述語法數(shù)據(jù)表示成為文檔標(biāo)題的可能性大的字符串或者成為文檔標(biāo)題的可能性小的字符串的語法;輸入通過對文檔進(jìn)行數(shù)字化而獲得的文檔數(shù)據(jù);通過對所輸入的文檔數(shù)據(jù)進(jìn)行分析來提取表示字符串的字符串?dāng)?shù)據(jù);通過對所提取的字符串?dāng)?shù)據(jù)進(jìn)行分析,指定與所述文檔數(shù)據(jù)對應(yīng)的文檔中包含的各個(gè)字符串的語法;以及根據(jù)指定結(jié)果和所述存儲(chǔ)器中存儲(chǔ)的內(nèi)容,從所提取的字符串?dāng)?shù)據(jù)中指定表示與所述文檔數(shù)據(jù)對應(yīng)的文檔的標(biāo)題的字符串?dāng)?shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的文檔處理方法,其中,表示具有語法數(shù)據(jù)所表示語法的字符串是文檔標(biāo)題的可能性程度的權(quán)重?cái)?shù)據(jù)與所述存儲(chǔ)器中存儲(chǔ)的語法數(shù)據(jù)相關(guān)聯(lián),并且其中,所述字符串?dāng)?shù)據(jù)指定步驟包括根據(jù)與表示所指定語法的語法數(shù)據(jù)相關(guān)聯(lián)地存儲(chǔ)在所述存儲(chǔ)器中的權(quán)重?cái)?shù)據(jù),指定表示文檔標(biāo)題的字符串?dāng)?shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的文檔處理方法,其中,所述字符串?dāng)?shù)據(jù)指定步驟包括根據(jù)指定結(jié)果和所述存儲(chǔ)器中存儲(chǔ)的內(nèi)容,將所提取的字符串?dāng)?shù)據(jù)限定至具有成為文檔標(biāo)題的可能性的字符串?dāng)?shù)據(jù);向用戶提供經(jīng)限定的字符串?dāng)?shù)據(jù);以及將用戶選擇的字符串?dāng)?shù)據(jù)指定為表示文檔標(biāo)題的字符串?dāng)?shù)據(jù)。
9.根據(jù)權(quán)利要求7所述的文檔處理方法,其中,所述字符串?dāng)?shù)據(jù)指定步驟包括根據(jù)指定結(jié)果和所述存儲(chǔ)器中存儲(chǔ)的內(nèi)容,從所提取的字符串?dāng)?shù)據(jù)中刪除成為文檔標(biāo)題的可能性小的字符串?dāng)?shù)據(jù);向用戶提供剩余的字符串?dāng)?shù)據(jù);將用戶選擇的字符串?dāng)?shù)據(jù)指定為表示文檔標(biāo)題的字符串?dāng)?shù)據(jù)。
10.根據(jù)權(quán)利要求6所述的文檔處理方法,其中,所述提取步驟包括根據(jù)與所述字符串?dāng)?shù)據(jù)對應(yīng)的字符串有無格式編排、或者根據(jù)與位于這些字符串上下的字符串之間的距離,從通過對輸入文檔數(shù)據(jù)進(jìn)行分析而獲得的文檔數(shù)據(jù)中僅提取表示成為對應(yīng)于該文檔數(shù)據(jù)的文檔的標(biāo)題的可能性大的字符串的字符串?dāng)?shù)據(jù)。
11.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其記錄有用于使計(jì)算機(jī)實(shí)現(xiàn)如下功能的程序提取裝置,當(dāng)輸入通過對文檔進(jìn)行數(shù)字化而獲得的文檔數(shù)據(jù)時(shí),對文檔數(shù)據(jù)進(jìn)行分析并提取表示字符串的字符串?dāng)?shù)據(jù);語法分析裝置,用于分析所述提取裝置所提取的字符串?dāng)?shù)據(jù)、并指定與文檔數(shù)據(jù)對應(yīng)的文檔中包含的各字符串的語法;以及指定裝置,用于根據(jù)所述語法分析裝置的指定結(jié)果、以及預(yù)先存儲(chǔ)在計(jì)算機(jī)中作為表示成為文檔標(biāo)題的可能性大的字符串或者成為文檔標(biāo)題的可能性小的字符串的語法的數(shù)據(jù)的語法數(shù)據(jù),從所述提取裝置所提取的字符串?dāng)?shù)據(jù)中指定表示與所述文檔數(shù)據(jù)對應(yīng)的文檔的標(biāo)題的字符串?dāng)?shù)據(jù)。
全文摘要
文檔處理裝置、文檔處理方法和記錄相關(guān)程序的存儲(chǔ)介質(zhì)。本發(fā)明提供了一種文檔處理裝置,包括存儲(chǔ)器,其存儲(chǔ)有語法數(shù)據(jù),所述語法數(shù)據(jù)表示成為文檔標(biāo)題的可能性大的字符串或者成為文檔標(biāo)題的可能性小的字符串的語法;輸入單元,其輸入通過對文檔進(jìn)行數(shù)字化而獲得的文檔數(shù)據(jù);提取單元,其分析輸入的文檔數(shù)據(jù)、并提取表示字符串的字符串?dāng)?shù)據(jù);語法分析單元,其分析所提取的字符串?dāng)?shù)據(jù)、并指定對應(yīng)于文檔數(shù)據(jù)的文檔中包含的各字符串的語法;以及指定單元,其根據(jù)語法分析單元的指定結(jié)果以及存儲(chǔ)在存儲(chǔ)器中的內(nèi)容,從所提取的字符串?dāng)?shù)據(jù)中指定表示與文檔數(shù)據(jù)對應(yīng)的文檔的標(biāo)題的字符串?dāng)?shù)據(jù)。
文檔編號G06K9/00GK1750018SQ20051005592
公開日2006年3月22日 申請日期2005年3月18日 優(yōu)先權(quán)日2004年9月17日
發(fā)明者增市博, 劉紹明, 田宗道弘, 田川昌俊, 田代潔, 伊滕篤, 石川恭輔, 佐藤直子 申請人:富士施樂株式會(huì)社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
青神县| 淅川县| 黄浦区| 南皮县| 罗甸县| 连平县| 荣昌县| 永定县| 祁阳县| 瑞安市| 丰台区| 万年县| 定南县| 南昌市| 沙坪坝区| 海城市| 开封县| 高邑县| 瓦房店市| 吴旗县| 鹤峰县| 微山县| 连平县| 宝山区| 蒲城县| 高青县| 沙田区| 德阳市| 江达县| 平乐县| 元氏县| 繁峙县| 五莲县| 龙山县| 定襄县| 靖边县| 闸北区| 斗六市| 潮州市| 黄平县| 会宁县|