欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于糾正字符識別錯(cuò)誤的技術(shù)的制作方法

文檔序號:6580340閱讀:202來源:國知局

專利名稱::用于糾正字符識別錯(cuò)誤的技術(shù)的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及用于糾正在對文檔執(zhí)行字符識別操作時(shí)可能發(fā)生的錯(cuò)誤的技術(shù)。
背景技術(shù)
:字符識別技術(shù)被廣泛使用,其通過將初始格式(諸如位圖)中的數(shù)據(jù)轉(zhuǎn)換為另一格式(諸如ASCII)來提取文檔中的信息。例如,光學(xué)字符識別(OCR)通常用于將印刷文本轉(zhuǎn)換為對應(yīng)的數(shù)字值,而智能字符識別(ICR)通常用于將手寫文本轉(zhuǎn)換為對應(yīng)的數(shù)字值。遺憾的是,大部分字符識別技術(shù)所執(zhí)行的轉(zhuǎn)換都不夠完美,總是存在有限的錯(cuò)誤概率。這些錯(cuò)誤可能顯著地復(fù)雜化對已提取信息的后續(xù)處理并增加其代價(jià)。
發(fā)明內(nèi)容本發(fā)明的一種實(shí)施方式提供糾正財(cái)務(wù)信息中的錯(cuò)誤的計(jì)算機(jī)系統(tǒng)。在操作期間,所述計(jì)算機(jī)系統(tǒng)接收與財(cái)務(wù)交易相關(guān)聯(lián)的財(cái)務(wù)信息。此財(cái)務(wù)信息是之前使用字符識別軟件(諸如光學(xué)字符識別(OCR)軟件和/或智能字符識別(ICR)軟件)提取的。然后,計(jì)算機(jī)系統(tǒng)取回與該財(cái)務(wù)交易相關(guān)聯(lián)的用戶的期望的財(cái)務(wù)信息。接著,計(jì)算機(jī)系統(tǒng)通過將所接收的財(cái)務(wù)信息與所述期望的財(cái)務(wù)信息進(jìn)行比較,以及合計(jì)一個(gè)或多個(gè)錯(cuò)誤度量,來標(biāo)識所接收的財(cái)務(wù)信息中的潛在錯(cuò)誤。此外,計(jì)算機(jī)系統(tǒng)基于所接收的財(cái)務(wù)信息中的一個(gè)或多個(gè)潛在錯(cuò)誤的合計(jì)錯(cuò)誤度量來糾正所接收的財(cái)務(wù)信息。注意,所述期望的財(cái)務(wù)信息可以包括在用戶的財(cái)務(wù)歷史中(諸如一個(gè)或多個(gè)以前的財(cái)務(wù)交易)。例如,財(cái)務(wù)歷史可以包括用戶的客戶列表、客戶地址、廠商列表、廠商地址、存貨清單或發(fā)票。此外,財(cái)務(wù)歷史可以與財(cái)務(wù)軟件相關(guān)聯(lián)。附加地,財(cái)務(wù)交易可以與可流通票據(jù)(諸如支票)相關(guān)聯(lián)。而且,財(cái)務(wù)信息可以根據(jù)掃描的收據(jù)或支票來確定。在一個(gè)或多個(gè)合計(jì)度量中的給定合計(jì)錯(cuò)誤度量可以包括在所接收的財(cái)務(wù)信息中的字符與所述期望的財(cái)務(wù)信息中的字符之間的Levenshtein編輯距離。而且,在確定給定合計(jì)4昔誤度量時(shí),對于不同的潛在錯(cuò)誤可以使用不同的權(quán)重。例如,具有較低概率(基于在使用字符識別軟件時(shí)通常發(fā)生的錯(cuò)誤類型)的潛在錯(cuò)誤可以被指派較高的權(quán)重。這些不同的潛在錯(cuò)誤可以與不同的操作相關(guān)聯(lián),諸如:字符插入、字符刪除、字符替換和/或字符換位。在有些實(shí)施方式中,對應(yīng)于一個(gè)或多個(gè)潛在錯(cuò)誤的合計(jì)錯(cuò)誤度量是該合計(jì)錯(cuò)誤度量的極j直(i!4口最小Levenshtein纟扁l專3巨離)。在有些實(shí)施方式中,計(jì)算機(jī)系統(tǒng)接收有關(guān)已糾正的財(cái)務(wù)信息的反饋,以及基于所述反饋,修改用于標(biāo)識隨后接收的財(cái)務(wù)信息中的潛在錯(cuò)誤的過程。另一實(shí)施方式提供了一種方法,包括上述操作中的至少一些操作。另一實(shí)施方式提供了一種計(jì)算機(jī)程序產(chǎn)品,用于結(jié)合所述計(jì)算機(jī)系統(tǒng)一起使用。圖1是示出了根據(jù)本發(fā)明的一種實(shí)施方式,使用字符識別軟件確定的財(cái)務(wù)信息與期望的財(cái)務(wù)信息進(jìn)行比較的圖示;圖2是示出了根據(jù)本發(fā)明的一種實(shí)施方式,用于糾正財(cái)務(wù)信息中的錯(cuò)誤的過程的流程圖3是示出了根據(jù)本發(fā)明的一種實(shí)施方式,糾正財(cái)務(wù)信息中的錯(cuò)誤的聯(lián)網(wǎng)計(jì)算機(jī)系統(tǒng)的框圖4是示出了根據(jù)本發(fā)明的一種實(shí)施方式,糾正財(cái)務(wù)信息中的6錯(cuò)誤的計(jì)算機(jī)系統(tǒng)的框圖5是示出了根據(jù)本發(fā)明的一種實(shí)施方式的數(shù)據(jù)結(jié)構(gòu)的圖示;圖6是示出了根據(jù)本發(fā)明的一種實(shí)施方式的數(shù)據(jù)結(jié)構(gòu)的圖示;表1提供了針對光學(xué)字符識別軟件的典型錯(cuò)誤以及相關(guān)聯(lián)的權(quán)重,其可以在通過將財(cái)務(wù)信息與期望的財(cái)務(wù)信息進(jìn)行比較來確定錯(cuò)誤度量時(shí)使用。注意,貫穿全部附圖,類似的參考標(biāo)記指代相應(yīng)的部分。具體實(shí)施例方式提供以下描述以使得本領(lǐng)域任何技術(shù)人員能夠制造和使用本發(fā)明,其中在特定應(yīng)用及其需求的上下文中提供此描述。對所公開的實(shí)施方式的各種變形對于本領(lǐng)域技術(shù)人員來說將是很明顯的,并且此處所定義的通用原理可以應(yīng)用到其他實(shí)施方式和應(yīng)用,而不偏離本發(fā)明的精神和范圍。因此,其意圖不在于將本發(fā)明限制在所示出的實(shí)施方式,而是按照與此處所公開的原理和特征相一致的最寬廣的范圍。描述了計(jì)算機(jī)系統(tǒng)、方法以及與計(jì)算機(jī)系統(tǒng)一起使用的計(jì)算機(jī)程序產(chǎn)品(例如,軟件)的實(shí)施方式。這些實(shí)施方式可以用來標(biāo)識和糾正財(cái)務(wù)信息中的錯(cuò)誤,其中財(cái)務(wù)信息已使用字符識別軟件(諸如OCR軟件和/或ICR軟件)進(jìn)行提取。具體地,通過將用戶當(dāng)前財(cái)務(wù)交易的財(cái)務(wù)信息與根據(jù)用戶以前的一個(gè)或多個(gè)財(cái)務(wù)交易而獲取的期望的財(cái)務(wù)信息進(jìn)行比較,可以標(biāo)識潛在錯(cuò)誤??梢源_定這些潛在錯(cuò)誤的錯(cuò)誤度量,并將其用于糾正至少一些潛在錯(cuò)誤。例如,可以基于上述比較來確定Levenshtein編輯距離,從而可以糾正與Levenshtein編輯距離的一個(gè)或多個(gè)最小值相關(guān)聯(lián)的一個(gè)或多個(gè)潛在錯(cuò)誤。通過標(biāo)識和糾正財(cái)務(wù)信息中的潛在錯(cuò)誤,此錯(cuò)誤糾正技術(shù)可以提高使用字符識別軟件提取信息的可靠性(也即,可以減小錯(cuò)誤概率)。改善的可靠性可以減小隨后處理財(cái)務(wù)信息的復(fù)雜性及其代價(jià)。7現(xiàn)在描述用于糾正財(cái)務(wù)信息中的錯(cuò)誤的過程的實(shí)施方式。圖1給出了示出使用字符識別軟件確定的財(cái)務(wù)信息110與期望的財(cái)務(wù)信息112的比較的圖示100。此財(cái)務(wù)信息可以與用戶的財(cái)務(wù)交易相關(guān)聯(lián)。例如,可能已經(jīng)使用可流通票據(jù)(諸如支票)進(jìn)行此財(cái)務(wù)交易,并且已經(jīng)通過對掃描的支票執(zhí)行字符識別而獲得了財(cái)務(wù)信息。備選地,可能已經(jīng)使用信用卡或借記卡進(jìn)行此財(cái)務(wù)交易,并且已經(jīng)通過對掃描的收據(jù)執(zhí)行字符識別而獲得了財(cái)務(wù)信息。遺憾的是,諸如OCR軟件和ICR軟件的字符識別軟件具有在財(cái)務(wù)信息110中產(chǎn)生錯(cuò)誤114的有限概率。如下文參考圖2所描述,這些錯(cuò)誤可以通過將財(cái)務(wù)信息110與期望的財(cái)務(wù)信息112進(jìn)行比較來加以標(biāo)識和糾正,其中期望的財(cái)務(wù)信息可以基于該用戶以前進(jìn)行的一個(gè)或多個(gè)財(cái)務(wù)交易來確定。例如,財(cái)務(wù)交易可以是對廠商的例行支付,這種情況下,與以前對廠商的一個(gè)或多個(gè)支付的比較可以用來標(biāo)識和糾正錯(cuò)誤114。具體地,財(cái)務(wù)信息110中的潛在錯(cuò)誤可以通過計(jì)算財(cái)務(wù)信息110與期望的財(cái)務(wù)信息112之間差別的Levenshtein編輯距離來標(biāo)識,并且可以糾正與該Levenshtein編輯距離的最小值(或最小值的變動(dòng)范圍)相關(guān)聯(lián)的一個(gè)或多個(gè)潛在錯(cuò)誤。注意,可以在用戶的財(cái)務(wù)歷史中存儲(chǔ)期望的財(cái)務(wù)信息,諸如根據(jù)以前的一個(gè)或多個(gè)財(cái)務(wù)交易得到的財(cái)務(wù)信息。而且,財(cái)務(wù)歷史可以與財(cái)務(wù)軟件相關(guān)聯(lián),諸如支付賬或會(huì)計(jì)軟件,其由用戶日常使用。在接下來的討論中,OCR應(yīng)當(dāng)理解為包括將手寫的、打字的或印刷的文本的圖像(其可以通過掃描儀捕獲)機(jī)械式或電子式轉(zhuǎn)換為機(jī)器可編輯文本(更一般地說,數(shù)字?jǐn)?shù)據(jù))。類似地,ICR應(yīng)當(dāng)被理解為包括將字形和不同手寫字體轉(zhuǎn)換為機(jī)器可編輯文本(更一般地說,數(shù)字?jǐn)?shù)據(jù))的手寫識別系統(tǒng)。盡管這些字符識別技術(shù)用作示意性示例,但錯(cuò)誤糾正技術(shù)可以應(yīng)用于糾正使用圖案識別技術(shù)從文檔中提取的各種各樣的信息(包括圖像)中的錯(cuò)誤。而且,盡管使用財(cái)務(wù)信息示出此錯(cuò)誤糾正技術(shù),但是在其他實(shí)施方式中,錯(cuò)誤糾正技術(shù)可以應(yīng)用于除財(cái)務(wù)信息之外的其他信息。8而且,Levenshtein編輯距離應(yīng)當(dāng)理解為包括針對兩個(gè)序列之間的差別的概括性度量(也即,它是所謂的編輯距離)。具體地,兩個(gè)字符串之間的Levenshtein編輯距離可以由將一個(gè)字符串轉(zhuǎn)換為另一個(gè)字符串所需的最小操作次數(shù)給出。這些操作可以包括插入字符(字符插入)、刪除字符(字符刪除)、替換字符(字符替換)和/或兩個(gè)或更多字符換位(字符換位)。盡管Levenshtein編輯距離用作示意性示例,但可以使用各種各樣的錯(cuò)誤度量(諸如漢明距)來標(biāo)識和糾正潛在錯(cuò)誤。圖2提供了示出了可以由計(jì)算機(jī)系統(tǒng)執(zhí)行的、用于糾正財(cái)務(wù)信息中的錯(cuò)誤的過程200的流程圖。在操作期間,計(jì)算機(jī)系統(tǒng)接收與財(cái)務(wù)交易相關(guān)聯(lián)的財(cái)務(wù)信息(210)。此財(cái)務(wù)信息是之前使用字符識別軟件(諸如OCR軟件和/或ICR軟件)提取的。然后,計(jì)算機(jī)系統(tǒng)取回與該財(cái)務(wù)交易相關(guān)聯(lián)的用戶的期望的財(cái)務(wù)信息(212)。接著,計(jì)算機(jī)系統(tǒng)通過將所接收的財(cái)務(wù)信息與期望的財(cái)務(wù)信息進(jìn)行比較,以及合計(jì)一個(gè)或多個(gè)錯(cuò)誤度量,來標(biāo)識所接收的財(cái)務(wù)信息中的潛在錯(cuò)誤(214)。例如,一個(gè)或多個(gè)合計(jì)度量中的給定合計(jì)錯(cuò)誤度量可以包括接收到的財(cái)務(wù)信息中的字符與期望的財(cái)務(wù)信息中的字符之間的Levenshtein編輯距離。而且,當(dāng)確定給定合計(jì)錯(cuò)誤度量時(shí),對于不同的潛在錯(cuò)誤可以使用不同的權(quán)重。例如,具有較低概率(基于在字符識別期間通常發(fā)生的錯(cuò)誤類型)的潛在錯(cuò)誤可以被指派較高的權(quán)重。這些不同的潛在錯(cuò)誤可以與不同的操作相關(guān)聯(lián),諸如字符插入、字符刪除、字符替換和/或字符換位。進(jìn)一步,計(jì)算機(jī)系統(tǒng)基于對應(yīng)于所接收的財(cái)務(wù)信息中的一個(gè)或多個(gè)潛在錯(cuò)誤的合計(jì)錯(cuò)誤度量,來糾正所接收的財(cái)務(wù)信息(216)。例如,對應(yīng)于一個(gè)或多個(gè)潛在誤差的合計(jì)錯(cuò)誤度量可能具有合計(jì)錯(cuò)誤度量的極值(諸如最小Levenshtein編輯距離)。在有些實(shí)施方式中,計(jì)算機(jī)系統(tǒng)可選地接收有關(guān)已糾正的財(cái)務(wù)信息的反饋(218),并且可選地基于這些反饋,修改用于標(biāo)識隨后接收的財(cái)務(wù)信息中的潛在錯(cuò)誤的過程(220)。通過這種方式,計(jì)算機(jī)系統(tǒng)可以調(diào)整或知曉應(yīng)當(dāng)糾正哪些潛在錯(cuò)誤。例如,基于標(biāo)識在操作216期間未被糾正的潛在錯(cuò)誤的反饋,計(jì)算機(jī)系統(tǒng)可以用合計(jì)度量的子集來替換該合計(jì)度量。該子集可以對應(yīng)于一組Levenshtein編輯距離,諸如Levenshtein編輯距離的最小值。在一種示例性實(shí)施方式中,對表示給廠商的支付的紙件文檔進(jìn)行掃描,以及使用OCR軟件提取廠商名稱'Reqles,(財(cái)務(wù)信息)。此外,假設(shè)在該用戶的財(cái)務(wù)歷史中期望的廠商名稱(期望的財(cái)務(wù)信息)包括'Pogle,s,和'Cebles,。如表1所示,其示出了當(dāng)使用OCR軟件時(shí)候可能發(fā)生的典型錯(cuò)誤。繼而,在基于財(cái)務(wù)信息與期望的財(cái)務(wù)信息的比較來計(jì)算Levenshtein編輯距離時(shí),可以使用表l中所示的權(quán)重。在此示例中,針對任何其他錯(cuò)誤(諸如添加、去除或替換字符)的權(quán)重是1.0。<table>tableseeoriginaldocumentpage10</column></row><table>由于在用戶的財(cái)務(wù)歷史中沒有找到廠商名稱'Reqles,,因此基于在OCR處理中發(fā)生了一個(gè)或多個(gè)錯(cuò)誤的假設(shè)來執(zhí)行與類似廠商名稱的比較。例如,總共通過四次操作可以將廠商名稱'Reqles,轉(zhuǎn)換為廠商名稱'Pogle,s,,其合計(jì)錯(cuò)誤度量或Levenshtein編輯距離(按照表1)是0.4。具體地,可以通過以下操作將'Reqles,轉(zhuǎn)換為'Pogle,s,用'P,替換'R,,其錯(cuò)誤度量貢獻(xiàn)(或權(quán)重)為0.1;用'o,替換'e,,其錯(cuò)誤度量貢獻(xiàn)為0.1;用'g,替換'p,,其錯(cuò)誤度量貢獻(xiàn)為0.1;以及添加撇號,其錯(cuò)誤度量貢獻(xiàn)為0.1。然而,使用兩次操作可以將廠商名稱'Reqles,轉(zhuǎn)換為'Cebles,,其合計(jì)錯(cuò)誤度量或Levenshtein編輯距離(按照表1)為3.8。具體地,可以通過以下操作將'Reqles,轉(zhuǎn)換為'Cebles,用'C,替換'R,,其錯(cuò)誤度量貢獻(xiàn)(或權(quán)重)為1.9;用'b'替換'q,,其錯(cuò)誤度量貢獻(xiàn)(或權(quán)重)為1.9。雖然需要更多的操作將廠商名稱'Reqles,轉(zhuǎn)換為'Pogle,s',但是此廠商名稱的可能性更大,因?yàn)槠渚哂休^低的Levenshtein編輯距離。因此,基于與最小Levenshtein編輯距離(其標(biāo)識在OCR期間更有可能發(fā)生的潛在錯(cuò)誤)相關(guān)聯(lián)的操作,可以標(biāo)識財(cái)務(wù)信息中的潛在錯(cuò)誤(從而進(jìn)行糾正)。注意,如果在財(cái)務(wù)歷史中不存在接收到的財(cái)務(wù)信息(210)與期望的財(cái)務(wù)信息之間的匹配,并且通過將接收到的財(cái)務(wù)信息與期望的財(cái)務(wù)信息進(jìn)行比較而確定的Levenshtein編輯距離超過某閾值(諸如2.0),則可以認(rèn)為此接收到的財(cái)務(wù)信息是正確的。例如,接收到的財(cái)務(wù)信息可能對應(yīng)于與新廠商的財(cái)務(wù)交易,其被添加到財(cái)務(wù)歷史中。在其他實(shí)施方式中,字符識別技術(shù)混淆'3,和'8,的概率可能比較高。因此,低權(quán)重可以與此操作相關(guān)聯(lián)。然而,字符識別技術(shù)混淆T和'W,的概率可能比較低,因而較高的權(quán)重可以與此操作相關(guān)聯(lián)。類似地,不同的權(quán)重可以用于添加或刪除不同的字符。例如,低權(quán)重可以用于添加或刪除'1,,而較大的4又重可以用于添加或刪除'W,。而且,合計(jì)錯(cuò)誤度量可以包括復(fù)合或多字符操作。例如,單個(gè)較低權(quán)重可以用于將'w,代替'vv,(而不是包括用于將'w,替換'v,繼而添加另一個(gè)'v,的兩個(gè)4又重)。一般而言,可以基于字符識別技術(shù)混淆特定字符或針對特定字符出錯(cuò)的似然性或概率來選擇權(quán)重。在有些實(shí)施方式中,所使用的權(quán)重可以特定于給定用戶。因此,當(dāng)處理給定用戶的財(cái)務(wù)信息時(shí),如果字符識別技術(shù)傾向于具有特定錯(cuò)誤,則對應(yīng)的權(quán)重可以為低,而與其他操作(因而其他潛在錯(cuò)誤)相關(guān)聯(lián)的權(quán)重可以較高。ii在過程200的有些實(shí)施方式中,可以具有附加的或較少的操作。而且,操作的順序可以改變,和/或兩個(gè)或多個(gè)操作可以合并成單個(gè)操作。現(xiàn)在描述執(zhí)行過程200的計(jì)算機(jī)系統(tǒng)的實(shí)施方式。圖3提供了示出了糾正財(cái)務(wù)信息中的錯(cuò)誤的聯(lián)網(wǎng)計(jì)算機(jī)系統(tǒng)300的框圖。在該計(jì)算機(jī)系統(tǒng)中,支票處理中心310從多個(gè)用戶接收支票或支票的掃描圖像。接著,可以使用字符識別軟件將這些支票(或支票圖像)上的財(cái)務(wù)信息轉(zhuǎn)換為數(shù)字格式。此字符識別軟件可以駐留在支票處理中心310的計(jì)算機(jī)上,并且可以經(jīng)由網(wǎng)絡(luò)312將財(cái)務(wù)信息提供給服務(wù)器314。備選地,支票的掃描圖像可以經(jīng)由網(wǎng)絡(luò)312傳送給服務(wù)器314,其繼而使用在服務(wù)器314上運(yùn)行的字符識別軟件將財(cái)務(wù)信息轉(zhuǎn)換為數(shù)字格式。然后,服務(wù)器314可以使用過程200(圖2)來標(biāo)識和糾正財(cái)務(wù)信息中的潛在錯(cuò)誤。具體地,在服務(wù)器314上駐留和運(yùn)行的錯(cuò)誤分析軟件可以訪問用戶的期望的財(cái)務(wù)信息。例如,期望的財(cái)務(wù)信息可以包括在財(cái)務(wù)歷史中,諸如屬于銀行316(或更一般地,金融機(jī)構(gòu))的服務(wù)器上的用戶賬戶記錄,其經(jīng)由網(wǎng)絡(luò)312提供給服務(wù)器314。備選地或附加地,期望的財(cái)務(wù)信息可以包括在與財(cái)務(wù)軟件相關(guān)聯(lián)的財(cái)務(wù)歷史中,其存儲(chǔ)在服務(wù)器314上。使用期望的財(cái)務(wù)信息,錯(cuò)誤分析軟件可以確定合計(jì)錯(cuò)誤度量,并且可以糾正與具有極值的合計(jì)錯(cuò)誤度量相關(guān)聯(lián)的那些錯(cuò)誤。然后,用戶的已糾正財(cái)務(wù)信息可以提供給計(jì)算機(jī)系統(tǒng)300中的其他計(jì)算機(jī)或服務(wù)器,以進(jìn)行后續(xù)處理。例如,可以基于已糾正財(cái)務(wù)信息來更新銀行316的用戶記錄中的用戶賬戶收支(例如,可以從用戶賬戶收支中減去給廠商的支付)。在有些實(shí)施方式中,計(jì)算機(jī)系統(tǒng)300的操作者提供有關(guān)錯(cuò)誤分析軟件的準(zhǔn)確性和有效性的反饋。例如,操作者可以確定財(cái)務(wù)信息中的所有錯(cuò)誤是否都已標(biāo)識和糾正。基于此反饋,錯(cuò)誤分析軟件可以調(diào)整與不同潛在錯(cuò)誤相關(guān)聯(lián)的權(quán)重,從而改進(jìn)與此用戶和/或多個(gè)用戶隨后的財(cái)務(wù)交易相關(guān)聯(lián)的財(cái)務(wù)信息的處理。一般而言,諸如一個(gè)或多個(gè)用戶的期望的財(cái)務(wù)信息之類的信息可以存儲(chǔ)在計(jì)算機(jī)系統(tǒng)300中的一個(gè)或多個(gè)其他位置(也即,本地存儲(chǔ)或遠(yuǎn)程存儲(chǔ))。而且,由于此信息以及財(cái)務(wù)信息可能是敏感信息,因此可以對其進(jìn)行加密。例如,可以對所存儲(chǔ)的信息和/或經(jīng)由網(wǎng)絡(luò)312傳送的信息進(jìn)行加密。計(jì)算機(jī)系統(tǒng)300中的計(jì)算機(jī)和服務(wù)器可以包括能夠操縱計(jì)算機(jī)可讀數(shù)據(jù)或通過網(wǎng)絡(luò)在兩個(gè)或多個(gè)計(jì)算系統(tǒng)之間傳送此類數(shù)據(jù)的各種設(shè)備中的一種,這些設(shè)備包括個(gè)人計(jì)算機(jī)、膝上型計(jì)算機(jī)、大型機(jī)、便攜式電子設(shè)備(諸如蜂窩電話或PDA)、服務(wù)器和/或客戶端計(jì)算機(jī)(在客戶端-服務(wù)器架構(gòu)中)。而且,網(wǎng)絡(luò)312可以包括因特網(wǎng)、萬維網(wǎng)(WWW)、內(nèi)聯(lián)網(wǎng)、LAN、WAN、MAN或網(wǎng)絡(luò)的組合,或支持計(jì)算機(jī)系統(tǒng)之間的通信的其他技術(shù)。在示例性實(shí)施方式中,財(cái)務(wù)軟件包括如下軟件,例如Quicken和/或TurboTaxTM(來自力口利福尼亞州MountainView的Intuit公司),MicrosoftMoney(來自華盛頓Redmond的Microsoft公司),SplashMoneyTM(來自力口利^畐尼亞州LosGatos的SplashData乂>司),MvelopesTM(來自猶他州Draper的In2M公司),和/或開源應(yīng)用,諸如GnucashTM、PLCashTM、Budget(來自明尼蘇達(dá)州St.Paul的SnowmintCreativeSolutionsLLC)和/或其他能夠處理財(cái)務(wù)信息的規(guī)劃軟件。而且,財(cái)務(wù)軟件可以包括如下軟件,諸如QuickBooksTM(來自力口利福尼亞州MountainView的Intuit公司),PeachtreeTM(來自英國的NewcastleUponTyne的TheSageGroupPLC),PeachtreeCompleteTM(來自英國的NewcastleUponTyne的TheSageGroupPLC),MYOBBusinessEssentials(來自新澤西州Rockaway的MYOBUS公司),NetSuiteSmallBusinessAccounting(來自加利福尼亞州SanMateo的NetSuite公司),CougarMountain(來自愛達(dá)荷州Boise的CougarMountainSoftware),MicrosoftOffice13AccountingTM(來自華盛頓Redmond的Microsoft乂>司),SimplyAccountingTM(來自英國的NewcastleUponTyne的TheSageGroupPLC),CYMAIVAccounting(來自亞利桑那州Tempe的CYMASystems乂>司),DacEasyTM(來自佐治亞州Lawrenceville的SageSoftwareSB公司),MicrosoftMoney(來自華盛頓Redmond的Microsoft公司),和/或其他能夠處理支付賬信息的支付賬或會(huì)計(jì)軟件。圖4給出了示出糾正財(cái)務(wù)信息中錯(cuò)誤的計(jì)算機(jī)系統(tǒng)400的框圖。計(jì)算機(jī)系統(tǒng)400包括一個(gè)或多個(gè)處理器410、通信接口412、用戶接口414以及將這些部件耦合在一起的一個(gè)或多個(gè)信號線422。注意,一個(gè)或多個(gè)處理器410可以支持并行處理和/或多線程操作,通信接口412可以具有永久通信連^r,一個(gè)或多個(gè)信號線422可以構(gòu)成通信總線。而且,用戶接口414可以包括顯示器416、鍵盤418和/或指點(diǎn)器420(諸如鼠標(biāo))。計(jì)算機(jī)系統(tǒng)400中的存儲(chǔ)器424可以包括易失性存儲(chǔ)器和/或非易失性存儲(chǔ)器。更具體地,存儲(chǔ)器424可以包括ROM、RAM、EPROM、EEPROM、閃存、一個(gè)或多個(gè)智能卡、一個(gè)或多個(gè)磁盤存儲(chǔ)設(shè)備、和/或一個(gè)或多個(gè)光存儲(chǔ)設(shè)備。存儲(chǔ)器424可以存儲(chǔ)操作系統(tǒng)426,其包括用于處理各種基本系統(tǒng)服務(wù)以執(zhí)行硬件相關(guān)的任務(wù)的過程(或指令集合)。存儲(chǔ)器424也可以在通信模塊428中存儲(chǔ)過程(或指令集合)。這些通信過程可以用于與一個(gè)或多個(gè)計(jì)算機(jī)和/或服務(wù)器通信,包括相對于計(jì)算機(jī)系統(tǒng)400位于遠(yuǎn)程的計(jì)算機(jī)和/或服務(wù)器。存儲(chǔ)器424還可以包括多個(gè)程序模塊(或指令集合),包括財(cái)務(wù)模塊430(或指令集合)、錯(cuò)誤分析模塊432(或指令集合)、字符識別模塊442(或指令集合),和/或可選的加密模塊446(或指令集合)。字符識別模塊442可以將掃描圖像444(諸如可流通票據(jù)的圖像)上的財(cái)務(wù)信息轉(zhuǎn)換為數(shù)字格式,其存儲(chǔ)在財(cái)務(wù)交易434中。例如,財(cái)務(wù)交易434可以包括某一用戶的財(cái)務(wù)信息A436-l以及另一14用戶的財(cái)務(wù)信息B436-2。然后,錯(cuò)誤分析模塊432訪問與財(cái)務(wù)交易434之一相關(guān)聯(lián)的用戶的期望的財(cái)務(wù)信息,諸如財(cái)務(wù)信息A436-l。此期望的財(cái)務(wù)信息可以存儲(chǔ)在財(cái)務(wù)歷史438中并且可以與財(cái)務(wù)模塊430相關(guān)聯(lián)。接下來,錯(cuò)誤分析模塊432可以通過將財(cái)務(wù)信息A436-1與期望的財(cái)務(wù)信息進(jìn)行比較以及針對潛在的錯(cuò)誤合計(jì)一個(gè)或多個(gè)錯(cuò)誤度量(諸如Levenshtein編輯距離)來確定財(cái)務(wù)信息A436-1中的潛在錯(cuò)誤??梢允褂冕槍Σ煌e(cuò)誤操作的權(quán)重440來確定這些錯(cuò)誤度量。而且,錯(cuò)誤分析模塊432可以基于一個(gè)或多個(gè)合計(jì)錯(cuò)誤度量,來糾正財(cái)務(wù)信息A436-1中的一個(gè)或多個(gè)潛在4普誤,諸如與Levenshtein編輯距離的最小值或Levenshtein編輯距離的一個(gè)數(shù)值范圍相關(guān)聯(lián)的一個(gè)或多個(gè)潛在錯(cuò)誤。注意,可以由錯(cuò)誤分析模塊432基于潛在錯(cuò)誤標(biāo)識和糾正的準(zhǔn)確性來為一個(gè)或多個(gè)用戶確定^又重440,和/或可以預(yù)先確定4又重。例如,權(quán)重可以與字符識別模塊442的字符錯(cuò)誤相關(guān)聯(lián)。在有些實(shí)施方式中,使用可選的加密模塊446對存儲(chǔ)在存儲(chǔ)器424中的至少一些信息和/或使用通信模塊428傳送的至少一些信息進(jìn)行加密。在存儲(chǔ)器424的各種模塊中的指令可以通過以下語言實(shí)現(xiàn)高級過程語言、面向?qū)ο缶幊陶Z言和/或編譯或機(jī)器語言。注意,編程語言可以#:編譯或解釋,例如,可配置或配置成由一個(gè)或多個(gè)處理單元410來執(zhí)行。盡管將計(jì)算機(jī)系統(tǒng)400示出為具有多個(gè)分立部件,但是圖4的意圖在于可以提供給計(jì)算機(jī)系統(tǒng)400的各種特征的功能性描述,而不是此處所描述的實(shí)施方式的結(jié)構(gòu)示意。在實(shí)踐中,如本領(lǐng)域普通技術(shù)人員可以認(rèn)識到的那樣,計(jì)算機(jī)系統(tǒng)400的功能可以分布在大量服務(wù)器或計(jì)算機(jī)上,服務(wù)器和計(jì)算機(jī)的各種群組執(zhí)行這些功能的特定子集。在有些實(shí)施方式中,計(jì)算機(jī)系統(tǒng)400的部分或全部功能可以通過一個(gè)或多個(gè)專用集成電路(ASIC)和/或一個(gè)或多個(gè)數(shù)字信號處理器(DSP)來實(shí)現(xiàn)。計(jì)算機(jī)系統(tǒng)300(圖3)和/或400可以包括更少的或附加的部件。而且,兩個(gè)或更多部件可以合并成單個(gè)部件,和/或一個(gè)或多個(gè)部件的位置可以改變。在有些實(shí)施方式中,如本領(lǐng)域所公知的,計(jì)算機(jī)系統(tǒng)400的功能可以大部分在硬件中實(shí)現(xiàn),小部分在軟件中實(shí)現(xiàn),或者可以小部分在硬件中實(shí)現(xiàn)而大部分在軟件中實(shí)現(xiàn)。現(xiàn)在討論可以在計(jì)算機(jī)系統(tǒng)300(圖3)和/或400中使用的數(shù)據(jù)結(jié)構(gòu)。圖5提供了示出了數(shù)據(jù)結(jié)構(gòu)500的框圖。此數(shù)據(jù)結(jié)構(gòu)可以包括一個(gè)或多個(gè)用戶的財(cái)務(wù)歷史510。例如,用戶的財(cái)務(wù)歷史510-1可以包括該用戶的客戶512-1,客戶地址514-1,廠商516-1,廠商地址518-1,存貨清單520-1和發(fā)票522-1。圖6提供了示出了數(shù)據(jù)結(jié)構(gòu)600的框圖。此數(shù)據(jù)結(jié)構(gòu)可以包括用于一個(gè)或多個(gè)字符識別技術(shù)的錯(cuò)誤度量貢獻(xiàn)610,其可以用來確定合計(jì)錯(cuò)誤度量。例如,錯(cuò)誤度量貢獻(xiàn)610-1可以包括多對操作612與相關(guān)聯(lián)的權(quán)重614。注意,在數(shù)據(jù)結(jié)構(gòu)500(圖5)和/或600的有些實(shí)施方式中,可以有更少或附加的部件。而且,兩個(gè)或更多部件可以合并成一個(gè)部件,和/或一個(gè)或多個(gè)部件的位置可以改變。僅處于示意性和描述的目的提供了本發(fā)明實(shí)施方式的前述描述。這些描述的意圖不在于窮盡或限制本發(fā)明于所公開的形式。因此,很多變形和改變對于本領(lǐng)域技術(shù)人員將是很明顯的。而且,上述公開的意圖不在于限制本發(fā)明。本發(fā)明的范圍由所附權(quán)利要求限定。1權(quán)利要求1.一種用于糾正財(cái)務(wù)信息中的錯(cuò)誤的方法,包括接收與財(cái)務(wù)交易相關(guān)聯(lián)的財(cái)務(wù)信息,其中所述財(cái)務(wù)信息是之前使用字符識別軟件提取的;取回與所述財(cái)務(wù)交易相關(guān)聯(lián)的用戶的期望的財(cái)務(wù)信息;通過將接收的所述財(cái)務(wù)信息與所述期望的財(cái)務(wù)信息進(jìn)行比較,以及合計(jì)潛在錯(cuò)誤的錯(cuò)誤度量,來標(biāo)識接收的所述財(cái)務(wù)信息中的潛在錯(cuò)誤;以及基于對應(yīng)于接收的所述財(cái)務(wù)信息中的一個(gè)或多個(gè)潛在錯(cuò)誤的合計(jì)錯(cuò)誤度量,來糾正接收的所述財(cái)務(wù)信息。2.如權(quán)利要求l的方法,其中所述期望的財(cái)務(wù)信息包括所述用戶的財(cái)務(wù)歷史。3.如權(quán)利要求2的方法,其中所述財(cái)務(wù)歷史與財(cái)務(wù)軟件相關(guān)聯(lián)。4.如權(quán)利要求2的方法,其中所述期望的財(cái)務(wù)信息包括用戶的客戶列表、客戶地址、廠商列表、廠商地址、存貨清單或發(fā)票。5.如權(quán)利要求l的方法,其中所述字符識別軟件包括光字符識別軟件。6.如權(quán)利要求l的方法,其中所述字符識別軟件包括智能字符識別專欠件。7.如權(quán)利要求l的方法,其中所述財(cái)務(wù)交易與可流通票據(jù)相關(guān)聯(lián)。8.如權(quán)利要求7的方法,其中所述可流通票據(jù)包括支票。9.如權(quán)利要求l的方法,其中給定合計(jì)錯(cuò)誤度量包括接收的所述財(cái)務(wù)信息中的字符與所述期望的財(cái)務(wù)信息中的字符之間的Levenshtein編輯3巨離。10.如權(quán)利要求9的方法,其中對應(yīng)于所述一個(gè)或多個(gè)潛在4普誤的所述合計(jì)錯(cuò)誤度量具有所述合計(jì)錯(cuò)誤度量的極值。11.如權(quán)利要求9的方法,其中在確定所述給定合計(jì)錯(cuò)誤度量時(shí),對于不同的潛在錯(cuò)誤使用不同的權(quán)重。12.如權(quán)利要求9的方法,其中所述不同的潛在錯(cuò)誤與不同的操作相關(guān)聯(lián)。13.如權(quán)利要求12的方法,其中所述不同的操作包括字符插入、字符刪除、字符替換或字符換位。14.如權(quán)利要求1的方法,還包括接收有關(guān)經(jīng)過糾正的財(cái)務(wù)信息的反饋;以及基于所述反饋,修改對后續(xù)接收的財(cái)務(wù)信息中潛在錯(cuò)誤的確定。15.—種與計(jì)算機(jī)系統(tǒng)結(jié)合使用的計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以及嵌入在其中的計(jì)算機(jī)程序機(jī)制,其用于配置所述計(jì)算機(jī)系統(tǒng)以糾正財(cái)務(wù)信息中的錯(cuò)誤,所述計(jì)算機(jī)程序機(jī)制包括用于接收與財(cái)務(wù)交易相關(guān)聯(lián)的財(cái)務(wù)信息的指令,其中所述財(cái)務(wù)信息是之前使用字符識別軟件提取的;用于取回與所述財(cái)務(wù)交易相關(guān)聯(lián)的用戶的期望的財(cái)務(wù)信息的指令;用于通過將接收的所述財(cái)務(wù)信息與所述期望的財(cái)務(wù)信息進(jìn)行比較以及合計(jì)潛在錯(cuò)誤的錯(cuò)誤度量來標(biāo)識接收的所述財(cái)務(wù)信息中的潛在錯(cuò)誤的指令;以及用于基于對應(yīng)于接收的所述財(cái)務(wù)信息中的一個(gè)或多個(gè)潛在錯(cuò)誤的合計(jì)錯(cuò)誤度量來糾正接收的所述財(cái)務(wù)信息的指令。16.如權(quán)利要求15的計(jì)算機(jī)程序產(chǎn)品,其中所述期望的財(cái)務(wù)信息包括所述用戶的財(cái)務(wù)歷史。17.如權(quán)利要求16的計(jì)算機(jī)程序產(chǎn)品,其中所述財(cái)務(wù)歷史與財(cái)務(wù)軟件相關(guān)聯(lián)。18.如權(quán)利要求15的計(jì)算機(jī)程序產(chǎn)品,其中所述字符識別軟件包括光字符識別軟件。19.如權(quán)利要求15的計(jì)算機(jī)程序產(chǎn)品,其中所述字符識別軟件包括智能字符識別軟件。20.如權(quán)利要求15的計(jì)算機(jī)程序產(chǎn)品,其中給定合計(jì)錯(cuò)誤度量包括接收的所述財(cái)務(wù)信息中的字符與所述期望的財(cái)務(wù)信息中的字符之間的Levenshtein編輯距離。21.—種計(jì)算機(jī)系統(tǒng),包括處理器;存儲(chǔ)器;程序模塊,其中所述程序模塊存儲(chǔ)在所述存儲(chǔ)器中并且配置用于由所述處理器執(zhí)行,所述程序模塊包括用于糾正財(cái)務(wù)信息中的錯(cuò)誤的指令,其中所述指令包括用于接收與財(cái)務(wù)交易相關(guān)聯(lián)的財(cái)務(wù)信息的指令,其中所述財(cái)務(wù)信息是之前使用字符識別軟件提取的;用于取回與所述財(cái)務(wù)交易相關(guān)聯(lián)的用戶的期望的財(cái)務(wù)信息的指令;用于通過將接收的所述財(cái)務(wù)信息與所述期望的財(cái)務(wù)信息進(jìn)行比較以及合計(jì)潛在錯(cuò)誤的錯(cuò)誤度量來標(biāo)識接收的所述財(cái)務(wù)信息中的潛在錯(cuò)誤的指令;以及用于基于對應(yīng)于接收的所述財(cái)務(wù)信息中的一個(gè)或多個(gè)潛在錯(cuò)誤的合計(jì)錯(cuò)誤度量來糾正接收的所述財(cái)務(wù)信息的指令。全文摘要本申請涉及用于糾正字符識別錯(cuò)誤的技術(shù)。具體地,描述了計(jì)算機(jī)系統(tǒng)、方法以及計(jì)算機(jī)程序產(chǎn)品(例如,軟件)的實(shí)施方式。這些實(shí)施方式可以用來識別和糾正財(cái)務(wù)信息中的錯(cuò)誤,其中財(cái)務(wù)信息已使用字符識別軟件進(jìn)行提取。具體地,通過將用戶當(dāng)前的財(cái)務(wù)交易的財(cái)務(wù)信息與根據(jù)用戶以前的一個(gè)或多個(gè)財(cái)務(wù)交易獲取的期望的財(cái)務(wù)信息進(jìn)行比較,可以標(biāo)識潛在錯(cuò)誤??梢源_定這些潛在錯(cuò)誤的錯(cuò)誤度量并將其用于糾正至少一些潛在錯(cuò)誤。例如,可以基于上述比較來確定Levenshtein編輯距離,從而可以糾正與Levenshtein編輯距離的一個(gè)或多個(gè)最小值相關(guān)聯(lián)的一個(gè)或多個(gè)潛在錯(cuò)誤。文檔編號G06K9/00GK101685499SQ20091017288公開日2010年3月31日申請日期2009年9月7日優(yōu)先權(quán)日2008年9月22日發(fā)明者J·A·施內(nèi)德,R·加尼桑,W·T·拉瑟申請人:因特偉特公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
外汇| 陆河县| 遂溪县| 德惠市| 台中市| 长沙市| 余庆县| 明光市| 容城县| 雷山县| 历史| 衡山县| 汶川县| 安岳县| 邯郸县| 手游| 晋州市| 宜宾县| 屏东市| 老河口市| 韶山市| 昆明市| 新晃| 乌鲁木齐市| 和平县| 桂东县| 阳朔县| 杂多县| 和平区| 龙岩市| 上蔡县| 平舆县| 张北县| 汉中市| 驻马店市| 育儿| 通州市| 汝南县| 江西省| 嘉禾县| 蒙阴县|