文字處理方法和文字處理裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,具體而言,涉及一種文字處理方法和一種文字處 理裝置。
【背景技術(shù)】
[0002] 目前,在互聯(lián)網(wǎng)中經(jīng)常需要對(duì)一些文字的字形進(jìn)行匹配,并對(duì)匹配結(jié)果的數(shù)據(jù)得 分進(jìn)行排名,現(xiàn)有的數(shù)據(jù)得分排名方法為:在接收到一個(gè)新的數(shù)據(jù)得分時(shí),將新的數(shù)據(jù)得分 與現(xiàn)有的數(shù)據(jù)得分逐個(gè)進(jìn)行比較;根據(jù)比較結(jié)果得到新的數(shù)據(jù)得分在所有數(shù)據(jù)得分中所占 的位置,即對(duì)所有數(shù)據(jù)得分進(jìn)行排序;計(jì)算所有小于新的數(shù)據(jù)得分的個(gè)數(shù)以計(jì)算新的數(shù)據(jù) 得分的排名,此種方法隨著用戶和數(shù)據(jù)得分的增加,數(shù)據(jù)量將會(huì)變得非常龐大,在統(tǒng)計(jì)整體 排名的時(shí)候,就會(huì)造成效率下降、存儲(chǔ)空間增大的問(wèn)題,通常解決方法是增加高速緩存、更 換高速數(shù)據(jù)庫(kù)、采用分布式集群處理,這樣雖然速度會(huì)提高,但是會(huì)大幅增加硬件成本。
[0003] 因此,如何降低排序的數(shù)據(jù)量,提高排名統(tǒng)計(jì)的效率成為目前亟待解決的技術(shù)問(wèn) 題。
【發(fā)明內(nèi)容】
[0004] 考慮到相關(guān)技術(shù)中出現(xiàn)的技術(shù)問(wèn)題,本發(fā)明提供了一種新的文字處理技術(shù),能夠 在不增加硬件成本的前提下,以匹配值區(qū)間的排序及分布數(shù)得到匹配值排名,有效的降低 排序所需的數(shù)據(jù)量,提高排名的統(tǒng)計(jì)效率。
[0005] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種文字處理方法,包括:將連續(xù)的多個(gè)匹配值分 為多個(gè)匹配值區(qū)間;獲取用戶當(dāng)前輸入的文字,將所述文字與所述標(biāo)準(zhǔn)文字進(jìn)行匹配,得到 當(dāng)前文字的匹配值;判斷所述當(dāng)前文字的匹配值所在的匹配值區(qū)間;增加對(duì)應(yīng)于所述匹配 值區(qū)間的分布數(shù);根據(jù)所述分布數(shù)計(jì)算所述當(dāng)前輸入的文字在所有用戶輸入的文字中取得 的排名。
[0006] 在該技術(shù)方案中,通過(guò)將用戶當(dāng)前輸入的文字與標(biāo)準(zhǔn)文字進(jìn)行匹配,得到用戶當(dāng) 前輸入的文字的匹配值,并增加用戶當(dāng)前輸入的文字的匹配值所在的匹配值區(qū)間的分布 數(shù),從而根據(jù)每個(gè)匹配值區(qū)間的分布數(shù)計(jì)算用戶當(dāng)前輸入的文字的排名,與現(xiàn)有技術(shù)中數(shù) 據(jù)得分排名方法相比,不需要進(jìn)行所有匹配值之間的比較排序,僅需要對(duì)匹配值區(qū)間進(jìn)行 排序,降低排序所需的數(shù)據(jù)量,提高排名統(tǒng)計(jì)的效率。
[0007] 其中,由于所有用戶中每個(gè)用戶輸入的文字不可能全部相同,因此將所有用戶輸 入的文字與標(biāo)準(zhǔn)文字進(jìn)行匹配可以得到多個(gè)不同的匹配值,將所有匹配值中以最大的匹配 值和最小的匹配值為區(qū)間端點(diǎn),將該區(qū)間分為多個(gè)匹配值區(qū)間,匹配值區(qū)間按遞增或遞減 順序排列,在新接收到匹配值時(shí)可以快遞查找出新匹配值所處的區(qū)間以及方便匹配值排名 的計(jì)算。
[0008] 具體來(lái)說(shuō),在得到每個(gè)匹配值區(qū)間的分布數(shù)之后,確定用戶當(dāng)前輸入的文字的匹 配值排名的具體計(jì)算公式為:所有小于當(dāng)前匹配值區(qū)間的分布數(shù)之和/所有匹配值區(qū)間的 分布數(shù)之和X 100% = XX%,即得到用戶當(dāng)前輸入的文字的匹配值的排名,可以顯示為"你 擊敗了 XX%的用戶"。
[0009] 在上述技術(shù)方案中,優(yōu)選地,將所述文字與所述標(biāo)準(zhǔn)文字進(jìn)行匹配,得到當(dāng)前文字 的匹配值,具體包括:接收用戶輸入的對(duì)文字的匹配指令;根據(jù)所述匹配指令讀取所述用 戶當(dāng)前輸入的文字的圖形信息;根據(jù)所述圖形信息對(duì)所述文字進(jìn)行字形分析,獲取所述文 字的書寫字形信息;根據(jù)所述書寫字形信息和所述標(biāo)準(zhǔn)文字的參考字形信息生成針對(duì)所述 文字的匹配值。
[0010] 在該技術(shù)方案中,由于用戶當(dāng)前輸入的文字為用戶手寫的文字,因此在接收到用 戶輸入的對(duì)文字的匹配指令時(shí),獲取用戶當(dāng)前輸入的文字的圖形信息,即將用戶當(dāng)前輸入 的文字制作成圖片的形式,以圖片的形式進(jìn)行獲取,然后從圖片中提取用戶當(dāng)前輸入的文 字進(jìn)行字形分析,以得到該文字的書寫字形信息,并將改文字的書寫字形信息與標(biāo)準(zhǔn)文字 的參考字形信息進(jìn)行匹配,得到用戶當(dāng)前輸入的文字的匹配值。
[0011] 在上述技術(shù)方案中,優(yōu)選地,所述書寫字形信息包括中心偏離度、角度扭轉(zhuǎn)度、大 小偏離度、文字結(jié)構(gòu)、筆畫偏差。
[0012] 在該技術(shù)方案中,書寫字形信息包括:中心偏離度、角度扭轉(zhuǎn)度、大小偏離度、文字 結(jié)構(gòu)、筆畫偏差,具體來(lái)說(shuō),在將用戶當(dāng)前輸入的文字的書寫字形信息與標(biāo)準(zhǔn)文字的參考字 形信息進(jìn)行匹配得到用戶當(dāng)前輸入的文字的匹配值時(shí),可以通過(guò)不同的書寫字形信息分配 不同權(quán)重的計(jì)算方式,例如:中心偏離度權(quán)重為30%,角度扭轉(zhuǎn)度權(quán)重為10%,大小偏離度 權(quán)重為10%,文字結(jié)構(gòu)權(quán)重為30%,筆畫偏差權(quán)重為20%,則用戶當(dāng)前輸入的文字的匹配 值為:中心偏離度X0. 3+角度扭轉(zhuǎn)度X0. 1+大小偏離度X0. 1+文字結(jié)構(gòu)X0. 3+筆畫偏 差X0. 2。當(dāng)然,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解的是,此處書寫字形信息中每個(gè)部分所占的權(quán)重 并不用于具體限定。
[0013] 在上述技術(shù)方案中,優(yōu)選地,根據(jù)排名精度確定所述匹配值區(qū)間的區(qū)間間隔。
[0014] 在該技術(shù)方案中,由于每個(gè)匹配值區(qū)間中用戶當(dāng)前輸入的文字使用同一個(gè)排名, 同一個(gè)匹配值區(qū)間中可能包含多個(gè)用戶當(dāng)前輸入的文字,則同一匹配值區(qū)間中的多個(gè)用戶 當(dāng)前輸入的文字未進(jìn)行排名,因此區(qū)間間隔越大,同一個(gè)區(qū)間中包含的用戶當(dāng)前輸入的文 字越多,也即用戶當(dāng)前輸入的文字未進(jìn)行排名的越多,排名的精度越低。根據(jù)排名精度確定 匹配值區(qū)間的區(qū)間間隔,可以保證排名的精度,具體可以為:排名精度要求越高,則區(qū)間間 隔設(shè)置越小,排名精度要求越低,則區(qū)間間隔設(shè)置越大。
[0015] 在上述技術(shù)方案中,優(yōu)選地,記錄屬于每一個(gè)匹配值區(qū)間的文字字形信息。
[0016] 在該技術(shù)方案中,通過(guò)記錄屬于每一個(gè)匹配值區(qū)間的文字字形信息,可以方便的 查找并顯示每個(gè)匹配值區(qū)間的文字字形信息,作為一種較為具體的技術(shù)方案,還可以進(jìn)一 步的建立文字字形信息與對(duì)應(yīng)用戶的映射關(guān)系,則根據(jù)所有用戶當(dāng)前輸入的文字的排名即 可得到當(dāng)前所有用戶的排名。
[0017] 根據(jù)本發(fā)明的第二方面,提出了一種文字處理裝置,包括:存儲(chǔ)單元,將連續(xù)的多 個(gè)匹配值分為多個(gè)匹配值區(qū)間;獲取單元,用于獲取用戶當(dāng)前輸入的文字,將所述文字與所 述標(biāo)準(zhǔn)文字進(jìn)行匹配,得到當(dāng)前文字的匹配值;查找單元,用于判斷所述當(dāng)前文字的匹配值 所在的匹配值區(qū)間;計(jì)數(shù)單元,用于增加對(duì)應(yīng)于所述匹配值區(qū)間的分布數(shù);處理單元,根據(jù) 所述分布數(shù)計(jì)算所述當(dāng)前輸入的文字在所有用戶輸入的文字中取得的排名。
[0018] 在該技術(shù)方案中,通過(guò)將用戶當(dāng)前輸入的文字與標(biāo)準(zhǔn)文字進(jìn)行匹配,得到用戶當(dāng) 前輸入的文字的匹配值,并增加用戶當(dāng)前輸入的文字的匹配值所在的匹配值區(qū)間的分布 數(shù),從而根據(jù)每個(gè)匹配值區(qū)間的分布數(shù)計(jì)算用戶當(dāng)前輸入的文字的排名,與現(xiàn)有技術(shù)中數(shù) 據(jù)得分排名方法相比,不需要進(jìn)行所有匹配值之間的比較排序,僅需要對(duì)匹配值區(qū)間進(jìn)行 排序,降低排序所需的數(shù)據(jù)量,提高排名統(tǒng)計(jì)的效率。
[0019] 其中,由于所有用戶中每個(gè)用戶輸入的文字不可能全部相同,因此將所有用戶輸 入的文字與標(biāo)準(zhǔn)文字進(jìn)行匹配可以得到多個(gè)不同的匹配值,將所有匹配值中以最大的匹配 值和最小的匹配值為區(qū)間端點(diǎn),將該區(qū)間分為多個(gè)匹配值區(qū)間,匹配值區(qū)間按遞增或遞減 順序排列,在新接收到匹配值時(shí)可以快遞查找出新匹配值所處的區(qū)間以及方便匹配值排名 的計(jì)算。
[0020] 具體來(lái)說(shuō),在得到每個(gè)匹配值區(qū)間的分布數(shù)之后,確定用戶當(dāng)前輸入的文字的匹 配值排名的具體計(jì)算公式為:所有小于當(dāng)前匹配值區(qū)間的分布數(shù)之和/所有匹配值區(qū)間的 分布數(shù)之和X 100% = XX%,即得到用戶當(dāng)前輸入的文字的匹配值的排名,可以顯示為"你 擊敗了 XX%的用戶"。
[0021] 在上述技術(shù)方案中,優(yōu)選地,所述獲取單元包括:接收單元,用于接