欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

字符串相似度的計算方法和裝置制造方法

文檔序號:6638486閱讀:196來源:國知局
字符串相似度的計算方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種字符串相似度的計算方法和裝置。其中,字符串相似度的計算方法包括切割第一字符串和第二字符串,得到第一字符串的第一子串和第二字符串的第二子串;對比第二子串和第一字符串以刪除第一字符串中與第二子串相同的部分,得到第一差異串,并對比第一子串和第二字符串以刪除第二字符串中與第一子串相同的部分,得到第二差異串;根據(jù)第一字符串的長度、第二字符串的長度、第一差異串的長度和第二差異串的長度計算第一字符串和第二字符串的相似度。通過本發(fā)明,解決了現(xiàn)有技術(shù)中計算字符串相似度的效率低的問題,進(jìn)而達(dá)到了提高計算效率的效果。
【專利說明】字符串相似度的計算方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種字符串相似度的計算方法和裝置。

【背景技術(shù)】
[0002] 字符串相似在文本分析中具有重要意義?,F(xiàn)有的字符串相似度計算方法比較成熟 的是計算最小編輯距離的Levenshtein方法。Levenshtein方法是指兩個字符串之間,由一 個轉(zhuǎn)化為另一個字符串所需的最少編輯步驟。編輯操作包括替換、刪除、插入。該方法基于 字符編輯,均在一定誤差,并且進(jìn)行相似度計算的路徑較為復(fù)雜,導(dǎo)致字符串相似度計算的 效率偏低。
[0003] 針對現(xiàn)有技術(shù)中計算字符串相似度的效率低的問題,目前尚未提出有效的解決方 案。


【發(fā)明內(nèi)容】

[0004] 本發(fā)明的主要目的在于提供一種字符串相似度的計算方法和裝置,以解決現(xiàn)有技 術(shù)中計算字符串相似度的效率低的問題。
[0005] 為了實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的一個方面,提供了一種字符串相似度的 計算方法。
[0006] 根據(jù)本發(fā)明的字符串相似度的計算方法包括:切割第一字符串和第二字符串,得 到所述第一字符串的第一子串和所述第二字符串的第二子串;對比所述第二子串和所述第 一字符串以刪除所述第一字符串中與所述第二子串相同的部分,得到第一差異串,并對比 所述第一子串和所述第二字符串以刪除所述第二字符串中與所述第一子串相同的部分,得 到第二差異串;以及根據(jù)所述第一字符串的長度、所述第二字符串的長度、所述第一差異串 的長度和所述第二差異串的長度計算所述第一字符串和所述第二字符串的相似度。
[0007] 進(jìn)一步地,所述第一子串的數(shù)量為m,所述第二子串的數(shù)量為n,m和η均為2以 上的自然數(shù),其中:對比所述第二子串和所述第一字符串以刪除所述第一字符串中與所述 第二子串相同的部分,得到第一差異串包括重復(fù)執(zhí)行第一判斷步驟和第一刪除步驟,直至i =n,得到所述第一差異串,其中,i的初始值為1 :所述第一判斷步驟:判斷所述第一字符 串是否包含第二子串S2i;以及所述第一刪除步驟:在判斷出所述第一字符串包括所述第 二子串S2i的情況下,從所述第一字符串中刪除與所述第二子串S2i相同的部分,并設(shè)置i =i+Ι,對比所述第一子串和所述第二字符串以刪除所述第二字符串中與所述第一子串相 同的部分,得到第二差異串包括重復(fù)執(zhí)行第二判斷步驟和第二刪除步驟,直至j=m,得到 所述第二差異串,其中,j的初始值為1 :所述第二判斷步驟:判斷所述第二字符串是否包含 第一子串SIj;以及所述第二刪除步驟:在判斷出所述第二字符串包括所述第一子串SIj的 情況下,從所述第二字符串中刪除與所述第一子串Slj相同的部分,并設(shè)置j=j+1。
[0008] 進(jìn)一步地,在對比所述第二子串和所述第一字符串以刪除所述第一字符串中與所 述第二子串相同的部分,得到第一差異串,并對比所述第一子串和所述第二字符串以刪除 所述第二字符串中與所述第一子串相同的部分,得到第二差異串之前,所述計算方法還包 括:獲取每個所述第一子串的長度,并獲取每個所述第二子串的長度;以及按照長度由高 到低的順序分別對m個所述第一子串排序,得到第一子串Sll至第一子串Slm,并按照長度 由高到低的順序分別對η個所述第二子串排序,得到第二子串S21至第二子串S2n。
[0009] 進(jìn)一步地,根據(jù)所述第一字符串的長度、所述第二字符串的長度、所述第一差異串 的長度和所述第二差異串的長度計算所述第一字符串和所述第二字符串的相似度包括:按 ,,L(DS\) +L(DS2) 照公式3 = 1 - 計算所述相似度,其中,L(Sl)為所述第一字符串的長度, L(S2)為所述第二字符串的長度,L(DSl)為所述第一差異串的長度,L(DS2)為所述第二差 異串的長度,A為所述相似度。
[0010] 為了實現(xiàn)上述目的,根據(jù)本發(fā)明實施例的另一方面,提供了一種字符串相似度的 計算裝置。
[0011] 根據(jù)本發(fā)明的字符串相似度的計算裝置包括:切割單元,用于切割第一字符串和 第二字符串,得到所述第一字符串的第一子串和所述第二字符串的第二子串;處理單元,用 于對比所述第二子串和所述第一字符串以刪除所述第一字符串中與所述第二子串相同的 部分,得到第一差異串,并對比所述第一子串和所述第二字符串以刪除所述第二字符串中 與所述第一子串相同的部分,得到第二差異串;以及計算單元,用于根據(jù)所述第一字符串的 長度、所述第二字符串的長度、所述第一差異串的長度和所述第二差異串的長度計算所述 第一字符串和所述第二字符串的相似度。
[0012] 進(jìn)一步地,所述第一子串的數(shù)量為m,所述第二子串的數(shù)量為n,m和η均為2以 上的自然數(shù),其中:所述處理單元包括被重復(fù)調(diào)用的第一判斷模塊和第一刪除模塊,其中, 所述第一判斷模塊和所述第一刪除模塊被重復(fù)調(diào)用至i=η,得到所述第一差異串,i的初 始值為1 :所述第一判斷模塊,用于判斷所述第一字符串是否包含第二子串S2i;所述第一 刪除模塊,用于在所述第一判斷模塊判斷出所述第一字符串包括所述第二子串S2i的情況 下,從所述第一字符串中刪除與所述第二子串S2i相同的部分,并設(shè)置i=i+Ι,所述處理 單元還包括被重復(fù)調(diào)用的第二判斷模塊和第二刪除模塊,其中,所述第二判斷模塊和所述 第二刪除模塊被重復(fù)調(diào)用至j=m,得到所述第二差異串,j的初始值為1 :所述第二判斷模 塊,用于判斷所述第二字符串是否包含第一子串Slj;以及所述第二刪除模塊,用于在所述 第二判斷模塊判斷出所述第二字符串包括所述第一子串Slj的情況下,從所述第二字符串 中刪除與所述第一子串Slj相同的部分,并設(shè)置j=j+1。
[0013] 進(jìn)一步地,所述計算裝置還包括:獲取單元,用于獲取每個所述第一子串的長度, 并獲取每個所述第二子串的長度;以及排序單元,用于按照長度由高到低的順序分別對m 個所述第一子串排序,得到第一子串Sll至第一子串Slm,并按照長度由高到低的順序分別 對η個所述第二子串排序,得到第二子串S21至第二子串S2n。
[0014] 進(jìn)一步地,所述計算單元包括:計算模塊,用于按照公式 計算所述相似度,其中,L(Sl)為所述第一字符串的長度,L(S2)為所述第二字符串的長度,L(DSl)為所述第一差異串的長度,L(DS2)為所述第二差異串的長度,A為所述相似度。
[0015] 根據(jù)發(fā)明實施例,采用切割第一字符串和第二字符串,得到所述第一字符串的第 一子串和所述第二字符串的第二子串;對比所述第二子串和所述第一字符串以刪除所述第 一字符串中與所述第二子串相同的部分,得到第一差異串,并對比所述第一子串和所述第 二字符串以刪除所述第二字符串中與所述第一子串相同的部分,得到第二差異串;以及根 據(jù)所述第一字符串的長度、所述第二字符串的長度、所述第一差異串的長度和所述第二差 異串的長度計算所述第一字符串和所述第二字符串的相似度。通過對需要計算相似度的字 符串進(jìn)行切割,進(jìn)而基于切割出的子串將另一字符串中與之相同的部分刪除,得到差異串, 并利用差異串來計算相似度,實現(xiàn)了基于字符串相互切割進(jìn)行差異比較,進(jìn)而基于差異情 況反求字符串的相似度,此種計算相似度的方式邏輯簡單,能夠快速地計算出不同字符串 的相似度,解決了現(xiàn)有技術(shù)中計算字符串相似度的效率低的問題,進(jìn)而達(dá)到了提高計算效 率的效果。

【專利附圖】

【附圖說明】
[0016] 構(gòu)成本申請的一部分的附圖用來提供對本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實 施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
[0017] 圖1是根據(jù)本發(fā)明實施例的字符串相似度的計算方法的流程圖;以及
[0018] 圖2是根據(jù)本發(fā)明實施例的字符串相似度的計算裝置的示意圖。

【具體實施方式】
[0019] 為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的 附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是 本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù) 人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范 圍。
[0020] 需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語"第一"、"第 二"等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用 的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實施例能夠以除了在這里圖示或 描述的那些以外的順序?qū)嵤?。此外,術(shù)語"包括"和"具有"以及他們的任何變形,意圖在于 覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限 于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn) 品或設(shè)備固有的其它步驟或單元。
[0021] 實施例1
[0022] 根據(jù)本發(fā)明實施例,提供了一種可以用于實施本申請裝置實施例的方法實施例, 需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機(jī)可執(zhí)行指令的計算機(jī)系 統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處 的順序執(zhí)行所示出或描述的步驟。
[0023] 根據(jù)本發(fā)明實施例,提供了一種字符串相似度的計算方法。圖1是根據(jù)本發(fā)明實 施例的字符串相似度的計算方法的流程圖,如圖1所示,該方法包括如下的步驟S102至步 驟S106 :
[0024] S102 :切割第一字符串和第二字符串,得到第一字符串的第一子串和第二字符串 的第二子串。具體地,可以采用N-Gram對第一字符串和第二字符串進(jìn)行切割。例如:第一 字符串為"北京天安門",第二字符串為"天安門東",例如:利用3Gram對第一字符串"北京 天安門"進(jìn)行切割,得到的第一子串,具體為北京天,北京,北,京天安,京天,京,天安門,天 安,天,安門,安,門;利用3Gram對第二字符串"天安門東"進(jìn)行切割,得到第二子串,具體為 天安門,天安,天,安門東,安門,安,門東,門,東。
[0025] S104:對比第二子串和第一字符串以刪除第一字符串中與第二子串相同的部分, 得到第一差異串,并對比第一子串和第二字符串以刪除第二字符串中與第一子串相同的部 分,得到第二差異串。本發(fā)明實施例也就是,將第二子串與第一字符串進(jìn)行對比,找到第一 字符串中與第二子串相同的部分,在第一字符串中將上述相同的部分刪除,那么刪除上述 相同部分后的第一字符串則為第一差異串;將第一子串與第二字符串進(jìn)行對比,找到第二 字符串中與第一子串相同的部分,在第二字符串中將上述相同的部分刪除,那么刪除上述 相同部分后的第二字符串則為第二差異串。
[0026] S106:根據(jù)第一字符串的長度、第二字符串的長度、第一差異串的長度和第二差異 串的長度計算第一字符串和第二字符串的相似度。
[0027] 在本發(fā)明實施例中,通過對需要計算相似度的字符串進(jìn)行切割,進(jìn)而基于切割出 的子串將另一字符串中與之相同的部分刪除,得到差異串,并利用差異串來計算相似度,實 現(xiàn)了基于字符串相互切割進(jìn)行差異比較,進(jìn)而基于差異情況反求字符串的相似度,此種計 算相似度的方式邏輯簡單,能夠快速地計算出不同字符串的相似度,解決了現(xiàn)有技術(shù)中計 算字符串相似度的效率低的問題,進(jìn)而達(dá)到了提高計算效率的效果。
[0028] 優(yōu)選地,第一子串的數(shù)量為m,第二子串的數(shù)量為n,m和η均為2以上的自然數(shù),其 中:對比第二子串和第一字符串以刪除第一字符串中與第二子串相同的部分,得到第一差 異串包括重復(fù)執(zhí)行如下第一判斷步驟和第一刪除步驟,直至i=η,得到第一差異串,其中, i的初始值為1 :
[0029]第一判斷步驟:判斷第一字符串是否包含第二子串S2i;
[0030] 第一刪除步驟:在判斷出第一字符串包括第二子串S2i的情況下,從第一字符串 中刪除與第二子串S2i相同的部分,并設(shè)置i=i+1。
[0031] 對比第一子串和第二字符串以刪除第二字符串中與第一子串相同的部分,得到第 二差異串包括重復(fù)執(zhí)行如下第二判斷步驟和第二刪除步驟,直至j=m,得到第二差異串, 其中,j的初始值為1 :
[0032] 第二判斷步驟:判斷第二字符串是否包含第一子串Slj;
[0033] 第二刪除步驟:在判斷出第二字符串包括第一子串Slj的情況下,從第二字符串 中刪除與第一子串Slj相同的部分,并設(shè)置j=j+1。
[0034] 在本發(fā)明實施例中,通過將每個第二子串都與第一字符串進(jìn)行對比,得到第一差 異串,通過將每個第一子串都與第二字符串進(jìn)行對比,得到第二差異串,達(dá)到了提高獲得的 第一差異串和第二差異串的準(zhǔn)確性的效果,為后續(xù)計算字符串(即,第一字符串和第二字 符串)的相似度提供了準(zhǔn)確的基礎(chǔ)數(shù)據(jù)。
[0035] 優(yōu)選地,在對比第二子串和第一字符串以刪除第一字符串中與第二子串相同的部 分,得到第一差異串,并對比第一子串和第二字符串以刪除第二字符串中與第一子串相同 的部分,得到第二差異串之前,本發(fā)明實施列所提供的字符串相似度的計算方法還包括:
[0036] 獲取每個第一子串的長度,并獲取每個第二子串的長度,其中,第一子串的長度為 第一子串中包含的字的個數(shù),同樣的,第二子串的長度為第二子串中包含的字的個數(shù)。例 如,對于第一子串為北京天,北京,北,京天安,京天,京,天安門,天安,天,安門,安,門,那 么每個第一子串的長度分別為3, 2,1,3, 2,1,3,1,1,2,1,1 ;對于第二子串為天安門,天安, 天,安門東,安門,安,門東,門,東,那么每個第二子串的長度分別為3, 2,1,3, 2,1,2,1,1。
[0037] 按照長度由高到低的順序分別對m個第一子串排序,得到第一子串Sll至第一子 串Slm,并按照長度由高到低的順序分別對η個第二子串排序,得到第二子串S21至第二子 串S2n,也就是,按照每個第一子串的長度,對多個第一子串按照長度由長到短進(jìn)行排序,同 樣的,按照每個第二子串的長度,對多個第二子串也是按照長度由長到短進(jìn)行排序。
[0038] 繼續(xù)采用上述舉例進(jìn)行說明,在本實施例中,對于第一子串:北京天,北京,北,京 天安,京天,京,天安門,天安,天,安門,安,門,按照長度由長到短進(jìn)行排序為:北京天,京天 安,天安門,京天,北京,天安,安門,北,京,天,安,門。
[0039] 對于第二子串:天安門,天安,天,安門東,安門,安,門東,門,東,按照長度由長到 短進(jìn)行排序為:天安門,安門東,天安,安門,門東,天,安,門,東。
[0040] 排序之后,將每個第二子串與第一字符串對比,并且刪除第一字符串中與第二子 串重復(fù)的部分,得到第一差異串則為:將排序后的第二子串"天安門,安門東,天安,安門,門 東,天,安,門,東"依次分別與第一字符串"北京天安門"進(jìn)行對比,對比過程中,第一字符串 "北京天安門"與第二子串"天安門"存在相同部分,則將"天安門"從第一字符串"北京天安 門"中刪除,得到第一差異串:北京。
[0041] 同樣的,將每個第一子串與第二字符串對比,并且刪除第二字符串與第二子串重 復(fù)部分,得到第二差異串則為:將排序后的第一子串"北京天,京天安,天安門,京天,北京, 天安,安門,北,京,天,安,門"依次分別與第二字符串"天安門東"進(jìn)行對比,對比過程中,第 二字符串"天安門東"與第一子串"天安門"存在相同部分,則將"天安門"從第二字符串"天 安門東"中刪除,得到第二差異串:東。
[0042] 在本發(fā)明實施例中,通過將第二子串按照長度由高到低排序后,再與第一字符串 進(jìn)行對比,得到第一差異串的過程,相比較于不對第二子串排序的情況,直接將分割得到的 第二子串與第一字符串進(jìn)行對比,得到第一差異串的過程,可以使第一字符串在與排在前 面的第二子串對比時,能夠快速刪除該字符串與第二子串重復(fù)內(nèi)容較多的部分,使得后面 接下來的第二子串與刪除較多重復(fù)部分內(nèi)容后的第一字符串進(jìn)行對比的過程中,縮減了對 比的內(nèi)容,從而提高了得到第一差異串的效率;同樣的,通過將第一子串按照長度由高到低 排序后,再與第二字符串進(jìn)行對比,得到第二差異串的過程,相比較于不對第一子串排序的 情況,直接將分割得到的第一子串與第二字符串進(jìn)行對比,得到第二差異串的過程,可以使 第二字符串在與排在前面的第一子串對比時,能夠快速刪除該字符串中與第一子串重復(fù)內(nèi) 容較多的部分,使得后面接下來的第一子串與刪除較多重復(fù)部分內(nèi)容后的第二字符串進(jìn)行 對比的過程中,縮減了對比的內(nèi)容,從而提高了得到第二差異串的效率。
[0043] 在本發(fā)明實施例中,通過對第一子串和第二子串進(jìn)行排序,提高了得到第一差異 串和第二差異串的效率,進(jìn)而達(dá)到了提高計算字符串相似度的效率。
[0044] 具體地,根據(jù)第一字符串的長度、第二字符串的長度、第一差異串的長 度和第二差異串的長度計算第一字符串和第二字符串的相似度包括:按照公式 ,,L(DS\) +L(DSl) X= -一Ζ^Θ+ /^>計算相似度,其中,L(Sl)為第一字符串的長度,US2)為第二字 符串的長度,L(DSl)為第一差異串的長度,L(DS2)為第二差異串的長度,A為相似度。繼 續(xù)采用上述舉例進(jìn)行說明,第一字符串"北京天安門"的長度L(Sl)為5,第二字符串"天 安門東"的長度L(S2)為4,第一差異串"北京"的長度L(DSl)為2,第二差異串"東"的 長度L(DS2)為2,那么,第一字符串"北京天安門"和第二字符串"天安門東"的相似度

【權(quán)利要求】
1. 一種字符串相似度的計算方法,其特征在于,包括: 切割第一字符串和第二字符串,得到所述第一字符串的第一子串和所述第二字符串的 第二子串; 對比所述第二子串和所述第一字符串以刪除所述第一字符串中與所述第二子串相同 的部分,得到第一差異串,并對比所述第一子串和所述第二字符串以刪除所述第二字符串 中與所述第一子串相同的部分,得到第二差異串;以及 根據(jù)所述第一字符串的長度、所述第二字符串的長度、所述第一差異串的長度和所述 第二差異串的長度計算所述第一字符串和所述第二字符串的相似度。
2. 根據(jù)權(quán)利要求1所述的計算方法,其特征在于,所述第一子串的數(shù)量為m,所述第二 子串的數(shù)量為n,m和n均為2以上的自然數(shù),其中: 對比所述第二子串和所述第一字符串以刪除所述第一字符串中與所述第二子串相同 的部分,得到第一差異串包括重復(fù)執(zhí)行第一判斷步驟和第一刪除步驟,直至i=n,得到所 述第一差異串,其中,i的初始值為1 : 所述第一判斷步驟:判斷所述第一字符串是否包含第二子串S2i;以及 所述第一刪除步驟:在判斷出所述第一字符串包括所述第二子串S2i的情況下,從所 述第一字符串中刪除與所述第二子串S2i相同的部分,并設(shè)置i=i+1, 對比所述第一子串和所述第二字符串以刪除所述第二字符串中與所述第一子串相同 的部分,得到第二差異串包括重復(fù)執(zhí)行第二判斷步驟和第二刪除步驟,直至j=m,得到所 述第二差異串,其中,j的初始值為1 : 所述第二判斷步驟:判斷所述第二字符串是否包含第一子串Slj;以及 所述第二刪除步驟:在判斷出所述第二字符串包括所述第一子串Slj的情況下,從所 述第二字符串中刪除與所述第一子串Slj相同的部分,并設(shè)置j=j+1。
3. 根據(jù)權(quán)利要求2所述的計算方法,其特征在于,在對比所述第二子串和所述第一字 符串以刪除所述第一字符串中與所述第二子串相同的部分,得到第一差異串,并對比所述 第一子串和所述第二字符串以刪除所述第二字符串中與所述第一子串相同的部分,得到第 二差異串之前,所述計算方法還包括: 獲取每個所述第一子串的長度,并獲取每個所述第二子串的長度;以及 按照長度由高到低的順序分別對m個所述第一子串排序,得到第一子串S11至第一子 串Slm,并按照長度由高到低的順序分別對n個所述第二子串排序,得到第二子串S21至第 二子串S2n。
4. 根據(jù)權(quán)利要求1所述的計算方法,其特征在于,根據(jù)所述第一字符串的長度、所述第 二字符串的長度、所述第一差異串的長度和所述第二差異串的長度計算所述第一字符串和 所述第二字符串的相似度包括:
長度,L(S2)為所述第二字符串的長度,L(DS1)為所述第一差異串的長度,L(DS2)為所述第 二差異串的長度,A為所述相似度。
5. -種字符串相似度的計算裝置,其特征在于,包括: 切割單元,用于切割第一字符串和第二字符串,得到所述第一字符串的第一子串和所 述第二字符串的第二子串; 處理單元,用于對比所述第二子串和所述第一字符串以刪除所述第一字符串中與所述 第二子串相同的部分,得到第一差異串,并對比所述第一子串和所述第二字符串以刪除所 述第二字符串中與所述第一子串相同的部分,得到第二差異串;以及 計算單元,用于根據(jù)所述第一字符串的長度、所述第二字符串的長度、所述第一差異串 的長度和所述第二差異串的長度計算所述第一字符串和所述第二字符串的相似度。
6. 根據(jù)權(quán)利要求5所述的計算裝置,其特征在于,所述第一子串的數(shù)量為m,所述第二 子串的數(shù)量為n,m和n均為2以上的自然數(shù),其中: 所述處理單元包括被重復(fù)調(diào)用的第一判斷模塊和第一刪除模塊,其中,所述第一判斷 模塊和所述第一刪除模塊被重復(fù)調(diào)用至i=n,得到所述第一差異串,i的初始值為1 : 所述第一判斷模塊,用于判斷所述第一字符串是否包含第二子串S2i; 所述第一刪除模塊,用于在所述第一判斷模塊判斷出所述第一字符串包括所述第二子 串S2i的情況下,從所述第一字符串中刪除與所述第二子串S2i相同的部分,并設(shè)置i= i+1, 所述處理單元還包括被重復(fù)調(diào)用的第二判斷模塊和第二刪除模塊,其中,所述第二判 斷模塊和所述第二刪除模塊被重復(fù)調(diào)用至j=m,得到所述第二差異串,j的初始值為1 : 所述第二判斷模塊,用于判斷所述第二字符串是否包含第一子串Slj;以及 所述第二刪除模塊,用于在所述第二判斷模塊判斷出所述第二字符串包括所述第一子 串Slj的情況下,從所述第二字符串中刪除與所述第一子串Slj相同的部分,并設(shè)置j= j+lo
7. 根據(jù)權(quán)利要求6所述的計算裝置,其特征在于,所述計算裝置還包括: 獲取單元,用于獲取每個所述第一子串的長度,并獲取每個所述第二子串的長度;以及 排序單元,用于按照長度由高到低的順序分別對m個所述第一子串排序,得到第一子 串S11至第一子串Slm,并按照長度由高到低的順序分別對n個所述第二子串排序,得到第 二子串S21至第二子串S2n。
8. 根據(jù)權(quán)利要求5所述的計算裝置,其特征在于,所述計算單元包括:
第一字符串的長度,L(S2)為所述第二字符串的長度,L(DS1)為所述第一差異串的長度,L(DS2)為所述第二差異串的長度,A為所述相似度。
【文檔編號】G06F17/30GK104484391SQ201410766683
【公開日】2015年4月1日 申請日期:2014年12月11日 優(yōu)先權(quán)日:2014年12月11日
【發(fā)明者】侯明午 申請人:北京國雙科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
岑溪市| 高雄县| 宁晋县| 临沂市| 阿尔山市| 吕梁市| 得荣县| 清原| 贺州市| 永宁县| 安达市| 景宁| 都安| 临夏县| 枣强县| 府谷县| 定西市| 尖扎县| 永康市| 固镇县| 托里县| 红安县| 酉阳| 平顺县| 米易县| 三门县| 腾冲县| 连南| 独山县| 博罗县| 阿拉善右旗| 宕昌县| 香格里拉县| 运城市| 永胜县| 皮山县| 兴安盟| 荔波县| 揭阳市| 洞头县| 河津市|