欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于確定字符串信息間相似度信息的方法、裝置和設(shè)備的制作方法

文檔序號:6358459閱讀:221來源:國知局
專利名稱:用于確定字符串信息間相似度信息的方法、裝置和設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及用于確定字符串信息間相似度信息的方法、裝置和設(shè)備。
背景技術(shù)
現(xiàn)有技術(shù)中,通過獲取兩個字符串信息間的編輯距離來判斷兩個字符串信息間的相似度,已成為本領(lǐng)域技術(shù)人員常用的技術(shù)手段。然而,現(xiàn)有技術(shù)中往往僅根據(jù)將兩個字符串信息中的一個轉(zhuǎn)換為另一個的過程中所執(zhí)行的編輯操作的類型,例如,將復(fù)制編輯操作的操作代價定為0,將其他編輯操作的操作代價定為1等,來確定兩個字符串信息間的編輯距離。因此,該等根據(jù)編輯操作的類型來確定編輯距離,進(jìn)而獲得兩個字符串信息間相似度的方式,難以反映兩個字符串信息在諸如詞義等其他方面的相似度。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種用于確定字符串信息間相似度信息的方法、裝置和設(shè)備。根據(jù)本發(fā)明的一個方面,提供一種計算機實現(xiàn)的用于確定字符串信息間相似度信息的方法,其中,該方法包括以下步驟a)獲取待處理的兩個字符串信息;b)根據(jù)將其中一個字符串信息轉(zhuǎn)換至另一個字符串信息的轉(zhuǎn)換處理中所執(zhí)行編輯操作相關(guān)的字符變化信息,來確定所述兩個字符串信息間的相似度信息。根據(jù)本發(fā)明的另一個方面,還提供了一種用于確定字符串信息間相似度信息的相似度確定裝置,其中,該相似度確定裝置包括第一獲取裝置、用于獲取待處理的兩個字符串信息;第一確定裝置、用于根據(jù)將其中一個字符串信息轉(zhuǎn)換至另一個字符串信息的轉(zhuǎn)換處理中所執(zhí)行編輯操作相關(guān)的字符變化信息,來確定所述兩個字符串信息間的相似度信肩、ο與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點1)本發(fā)明通過編輯操作的字符變化來確定兩個字符串信息間的相似度信息,因此,本發(fā)明不僅能夠反映兩個字符串信息間字形上的相似度,還能夠進(jìn)一步反映兩個字符串信息間在詞義、輸入錯誤可能性、讀音等方面的相似度,提高了字符串相似度判斷的準(zhǔn)確性;2)本發(fā)明通過采用歷史操作代價,大幅減少相似度確定裝置的資源消耗,能夠更快獲得兩個字符串信息間的相似度信息;幻本發(fā)明能夠根據(jù)諸如預(yù)定變化代價、字符在輸入設(shè)備上的間距所造成的誤輸入可能、用戶對輸入法提供的候選項的誤選擇可能、規(guī)律出現(xiàn)的無意義字符以及讀音相似度等多種因素,綜合確定待處理的兩個字符串信息間的相似度信息,大大提高了兩個字符串信息間相似度判斷的準(zhǔn)確性;4)本發(fā)明能夠通過字符訓(xùn)練信息或相似字符串在預(yù)定語料庫中的分布,來確定字符訓(xùn)練信息的概率,從而確定字符訓(xùn)練信息的變化代價;5)本發(fā)明提供的相似度判斷方式, 適用于各種需要進(jìn)行相似度判斷的場合,例如,在搜索場合中用于來自用戶的輸入序列與文本候選項所包含的關(guān)鍵詞間的相似度判斷;又例如,在糾錯場合中用于來自用戶的輸入序列與糾錯詞庫中所包含的關(guān)鍵詞間的相似度判斷;再例如,在同義詞挖掘過程中,用于兩個待判斷的字符串間的相似度判斷等。


通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯圖1為本發(fā)明一個方面的用于確定字符串信息間相似度信息的方法流程圖;圖2為本發(fā)明一個優(yōu)選實施例的用于確定字符串信息間相似度信息的方法流程圖;圖3為本發(fā)明另一個優(yōu)選實施例的用于確定字符串信息間相似度信息的方法流程圖;圖4為本發(fā)明一個優(yōu)選實施例的用于建立或更新預(yù)定代價庫的方法流程圖;圖5為本發(fā)明另一個方面的用于確定字符串信息間相似度信息的相似度確定裝置的結(jié)構(gòu)示意圖;圖6為本發(fā)明一個優(yōu)選實施例的用于確定字符串信息間相似度信息的相似度確定裝置的結(jié)構(gòu)示意圖;圖7為本發(fā)明另一個優(yōu)選實施例的用于確定字符串信息間相似度信息的相似度確定裝置的結(jié)構(gòu)示意圖;圖8為本發(fā)明一個優(yōu)選實施例的用于建立或更新預(yù)定代價庫的相似度確定裝置的結(jié)構(gòu)示意圖。附圖中相同或相似的附圖標(biāo)記代表相同或相似的部件。
具體實施例方式下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)描述。圖1為本發(fā)明一個方面的用于確定字符串信息間相似度信息的方法流程圖。其中,根據(jù)本發(fā)明的方法可通過計算機設(shè)備中的操作系統(tǒng)或處理控制器來完成,為簡明起見, 以下將所述操作系統(tǒng)或處理控制器統(tǒng)稱為相似度確定裝置。其中,該計算機設(shè)備包括但不限于1)用戶設(shè)備;2)網(wǎng)絡(luò)設(shè)備。其中,所述用戶設(shè)備包括但不限于個人電腦、智能手機、 PDA等;所述網(wǎng)絡(luò)設(shè)備包括但不限于單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器組成的服務(wù)器組或基于云計算(Cloud Computing)的由大量計算機或網(wǎng)絡(luò)服務(wù)器構(gòu)成的云,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。在步驟Sl中,相似度確定裝置獲取兩個待處理的字符串信息。其中,相似度確定裝置獲取所述兩個待處理的字符串信息的方式包括但不限于1)獲取預(yù)存儲的需要進(jìn)行相似度判斷的兩個字符串信息;2)獲取相似度確定裝置所屬計算機設(shè)備或其他計算機設(shè)備當(dāng)前需要進(jìn)行相似度判斷處理的兩個字符串信息。例如,兩個字符串信息中的一個字符串信息來自用戶當(dāng)前輸入的輸入序列,另一個字符串信息來自計算機設(shè)備根據(jù)前述一個字符串信息來進(jìn)行檢索的文本信息,相似度確定裝置所屬計算機設(shè)備或其他計算機設(shè)備當(dāng)前需要判斷該兩個字符串信息間的相似度以確定是否將該文本信息所屬資源提供給用戶,則相似度確定裝置獲取其所屬計算機設(shè)備或其他計算機設(shè)備提供的兩個字符串信息。又例如,兩個字符串信息中的一個字符串信息來自用戶在應(yīng)用程序中輸入的輸入序列,另一個字符串信息來自該應(yīng)用程序所屬計算機設(shè)備的糾錯詞庫,該應(yīng)用程序所屬計算機設(shè)備當(dāng)前需要判斷該兩個字符串信息間的相似度以確定是否將前述另一個字符串信息作為糾錯提示信息提供給用戶,則相似度確定裝置獲取該應(yīng)用程序所屬計算機設(shè)備提供的兩個字符串信息。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何獲取兩個待處理的字符串信息的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。接著,在步驟S2中,相似度確定裝置根據(jù)將其中一個字符串信息轉(zhuǎn)換至另一個字符串信息的轉(zhuǎn)換處理中所執(zhí)行編輯操作相關(guān)的字符變化信息,來確定所述兩個字符串信息間的相似度信息。其中,所述編輯操作包括以下至少一項1)復(fù)制字符的操作;2)插入字符的操作;3)刪除字符的操作;4)替換字符的操作;5)將相鄰位置的字符互換的操作。其中,所述字符變化信息包括以下任一項1)源字符串及目標(biāo)字符串;例如,當(dāng)編輯操作包括將“e”替換為“a”的替換字符的操作,則字符變化信息包括 "e — a”,其中,e為源字符串,a為目標(biāo)字符串;又例如,當(dāng)編輯操作包括刪除“e”的刪除字符的操作,則字符變化信息包括“e— ‘空’”,其中,e為源字符串,目標(biāo)字符串為“空”,即目標(biāo)字符串中不包含任何字符;再例如,當(dāng)編輯操作包括將“O”替換為“e”的替換字符的操作以及在所替換的字符“e”后插入“a”的插入字符的操作,則字符變化信息包括“O — ea”,其中,ο為源字符串,ea為目標(biāo)字符串。2)編輯操作類型及所編輯的字符;例如,當(dāng)編輯操作包括將“e”替換為“a”的替換字符的操作,則字符變化信息包括 “替換e — a” ;又例如,當(dāng)編輯操作包括刪除“e”的刪除字符的操作,則字符變化信息包括 “刪除e”;再例如,當(dāng)編輯操作包括將“O”替換為“e”的替換字符的操作以及在所替換的字符“e”后插入“a”的插入字符的操作,則字符變化信息包括“替換0 — e,插入a”。3)同時包含前述1)和2)所包含的信息;例如,字符變化信息包括“復(fù)制b,ο — ea”等。具體地,相似度確定裝置將待處理的兩個字符串信息中的一個字符串信息轉(zhuǎn)換至另一個字符串信息,以獲得字符變化信息,并根據(jù)該字符變化信息來確定兩個字符串信息間的相似度信息。例如,在步驟Sl中,相似度確定裝置獲得兩個待處理的字符串信息“bai”及 “bei”,則相似度確定裝置將“bai”轉(zhuǎn)換為“bei”,并獲得字符變化信息“復(fù)制b,替換 a — e,復(fù)制i”;接著,相似度確定裝置分析除復(fù)制編輯操作以外的其他編輯操作,即替換編輯操作所對應(yīng)的源字符串及目標(biāo)字符串,并確定“a”和“e”均為元音;則相似度確定裝置根據(jù)預(yù)定的元音間的替換編輯操作的操作代價為0. 3的規(guī)則,并結(jié)合待處理的字符串信息所包含的字符數(shù)量,確定字符串信息“bai”和“bei”間的相似度信息=3-0. 3 = 2. 7。又例如,在步驟S 1中,相似度確定裝置獲得兩個待處理的字符串信息“力氣”和“氣力”,則相似度確定裝置將“力氣”轉(zhuǎn)換為“氣力”,并獲得字符變化信息“力氣一氣力”;接著,相似度確定裝置查詢同義詞典獲得“氣力”與“力氣”為同義詞,則相似度確定裝置根據(jù)預(yù)定的同義詞的操作代價為0. 5的規(guī)則,確定字符串信息“力氣”和“氣力”間的相似度信息為操作代價的倒數(shù)2。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)將其中一個字符串信息轉(zhuǎn)換至另一個字符串信息的轉(zhuǎn)換處理中所執(zhí)行編輯操作相關(guān)的字符變化信息,來確定所述兩個字符串信息間的相似度信息的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。根據(jù)本發(fā)明的方法通過編輯操作的字符變化來確定兩個字符串信息間的相似度信息,因此,根據(jù)本發(fā)明的方法不僅能夠反映兩個字符串信息間字形上的相似度,還能夠進(jìn)一步反映兩個字符串信息間在詞義、輸入錯誤可能性、讀音等方面的相似度,提高了字符串相似度判斷的準(zhǔn)確性。圖2為本發(fā)明一個優(yōu)選實施例的用于確定字符串信息間相似度信息的方法流程圖。根據(jù)本實施例的方法包括步驟Sl及步驟S2,其中,步驟S2進(jìn)一步包括步驟S211、步驟 S212、步驟S213及步驟S214。步驟Sl已在參照圖1所示實施例中予以詳述,并以引用的方式包含于此,不再贅述。接著,在步驟S211中,相似度確定裝置執(zhí)行將一個字符串信息轉(zhuǎn)換至另一個字符串信息的轉(zhuǎn)換處理。本領(lǐng)域技術(shù)人員應(yīng)能根據(jù)實際情況和需求來確定將一個字符串信息轉(zhuǎn)換至另一個字符串信息的轉(zhuǎn)換處理方式,在此不再贅述。接著,在步驟S212中,相似度確定裝置根據(jù)所述轉(zhuǎn)換處理中所執(zhí)行編輯操作來獲得所述字符變化信息。例如,相似度確定裝置直接將在步驟S211中所執(zhí)行的各個編輯操作的類型及其所操作的字符作為字符變化信息。例如,相似度確定裝置根據(jù)在步驟S211中所執(zhí)行的將 “bai”轉(zhuǎn)換為“bei”的轉(zhuǎn)換處理,獲得字符變化信息“復(fù)制b,替換:a — e,復(fù)制i”。又例如,相似度確定裝置將在步驟S211中所執(zhí)行的各個編輯操作的類型及其所操作的字符串進(jìn)行相應(yīng)處理后,獲得字符變化信息。例如,對于在步驟S211中所執(zhí)行的將 “boidu”轉(zhuǎn)換為“beaidt”的轉(zhuǎn)換處理中所得的各個編輯操作的類型及其所操作的字符串 “復(fù)制b”、“替換0 — e”、“插入a”、“復(fù)制i”、“復(fù)制d”及“替換:u — t”,相似度確定裝置將復(fù)制編輯操作對應(yīng)的字符串進(jìn)行合并,并對兩個復(fù)制編輯操作間的字符串進(jìn)行合并, 獲得字符變化信息“復(fù)制b,ο — ea,復(fù)制id,u — t”。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)所述轉(zhuǎn)換處理中所執(zhí)行編輯操作來獲得所述字符變化信息的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。接著,在步驟S213中,相似度確定裝置基于第一預(yù)定規(guī)則,根據(jù)所獲得的字符變化信息,獲取相應(yīng)的操作代價。例如,第一預(yù)定規(guī)則包括以下規(guī)則源字符串和目標(biāo)字符串包含于預(yù)定同義詞庫的一對同義詞庫中時,將源字符串轉(zhuǎn)換為目標(biāo)字符串的轉(zhuǎn)換操作的操作代價為0. 5,當(dāng)源字符串和目標(biāo)字符串相同時,將源字符串轉(zhuǎn)換為目標(biāo)字符串的轉(zhuǎn)換操作的操作代價為0 ;則對于所獲得的字符變化信息“我花了很大一我花了很大,力氣一氣力”,相似度確定裝置判斷將源字符串“我花了很大”轉(zhuǎn)換為目標(biāo)字符串“我花了很大”的轉(zhuǎn)換操作的操作代價為0, 將源字符串“力氣”轉(zhuǎn)換為目標(biāo)字符串“氣力”的操作代價為0. 5 ;則相似度確定裝置獲得待處理的兩個字符串信息間的操作代價=0+0. 5 = 0. 5。優(yōu)選地,所述第一預(yù)定規(guī)則參考以下至少一項因素來獲取所述操作代價1)根據(jù)所述字符變化信息來在預(yù)定代價庫中查詢所得的變化代價;具體地,預(yù)定代價庫中包括多個查詢對,每個查詢對包括預(yù)置字符變化信息及與該字符變化信息對應(yīng)的變化代價,相似度確定裝置在預(yù)定代價庫的各個查詢對中查詢與所述字符變化信息相同的預(yù)置字符變化信息,以獲得與所述字符變化信息相應(yīng)的字符變化代價。2)所述字符變化信息所包含的不同字符在輸入設(shè)備上的輸入間距;具體地,所述輸入間距越小,操作代價越小,所述輸入間距越大,操作代價越大;3)所述字符變化信息所包含的不同字符間的輸入法編碼相似度;具體地,所述輸入法編碼相似度越高,操作代價越小,所述輸入法編碼相似度越低,操作代價越大;4)所述字符變化信息所包含的不同字符在所述字符串信息中的出現(xiàn)規(guī)律;具體地,當(dāng)字符變化信息中包含以一定規(guī)則重復(fù)出現(xiàn)的同一字符,例如,以相同字符間隔重復(fù)出現(xiàn)的菊花文字符等,則將刪除或插入該字符的操作代價降低;5)所述字符變化信息中所包含的不同字符間的讀音相似度;具體地,所述讀音相似度越高,操作代價越小,所述讀音相似度越低,操作代價越大。例如,在步驟S212中,相似度確定裝置獲得字符變化信息“復(fù)制我,刪除··#,復(fù)制們,刪除#,復(fù)制大,刪除#,復(fù)制家”,則相似度確定裝置根據(jù)字符“#”以一個字符為間隔重復(fù)出現(xiàn),將刪除字符“#”的操作代價由1調(diào)低至0. 5,并確定待處理的兩個字符串信息間的操作代價=0. 5*3 = 1. 5。又例如,在步驟S212中,相似度確定裝置獲得字符變化信息“cr — cr, ea — ae, m — m”;則相似度確定裝置根據(jù)“ea”及“ae”在預(yù)定代價庫中進(jìn)行查詢,獲得預(yù)定代價庫中所包含的將“ea”轉(zhuǎn)換為“ea”的轉(zhuǎn)換操作的變化代價為0. 6,并根據(jù)相似度確定裝置當(dāng)前所屬計算機設(shè)備為個人電腦,獲得“e”和“a”在輸入設(shè)備上的預(yù)定輸入間距為2 ;則相似度確定裝置結(jié)合所述變化代價及所述預(yù)定輸入間距,確定將將“ea”轉(zhuǎn)換為“ea”的轉(zhuǎn)換操作的操作代價=0. 6*2 = 1. 2 ;并且,相似度確定裝置結(jié)合預(yù)定的復(fù)制操作的代價為0的規(guī)則, 確定待處理的兩個字符串信息間的操作代價為1. 2。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何基于第一預(yù)定規(guī)則,根據(jù)所獲得的字符變化信息,獲取相應(yīng)的操作代價的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。接著,在步驟S214中,相似度確定裝置根據(jù)所獲得的操作代價,確定所述兩個字符串信息間的相似度信息。例如,相似度確定裝置將所獲得的操作代價乘以預(yù)定調(diào)節(jié)值后倒數(shù)所得的值作為待處理的兩個字符串信息間的相似度信息。又例如,相似度確定裝置根據(jù)預(yù)定的所獲得的操作代價所屬數(shù)值范圍與相似度等級間的對應(yīng)關(guān)系,確定待處理的兩個字符串信息間的相似度信息。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)所獲得的操作代價,確定所述兩個字符串信息間的相似度信息的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。作為本實施例的優(yōu)選方案之一,根據(jù)本實施例的方法還包括根據(jù)所獲得的字符變化信息,確定字符變化率的步驟;前述步驟S14還包括根據(jù)所獲得的操作代價及所述字符變化率,確定所述兩個字符串信息間的相似度信息的步驟。具體地,相似度確定裝置根據(jù)字符變化信息中除復(fù)制以外的編輯操作對應(yīng)的字符數(shù)量占兩個字符串信息中所包含的所有字符數(shù)量的比例,來確定所述字符變化率;接著,相似度確定裝置根據(jù)所獲得的操作代價及所述字符變化率,確定所述兩個字符串信息間的相似度信息。例如,在步驟S212中,相似度確定裝置所獲得的字符變化信息包括“復(fù)制cr, ea — ae,復(fù)制m”,則相似度確定裝置根據(jù)除復(fù)制以外的編輯操作對應(yīng)的字符數(shù)量為4,待處理的兩個字符串信息中所包含的所有字符數(shù)量為10,確定字符變化率為0. 4,;接著,相似度確定裝置將所得的字符變化率乘以在步驟S213中所得的操作代價1. 2,并將所得的積進(jìn)行倒數(shù)處理后,獲得待處理的兩個字符串信息間的相似度信息為2. 08。需要說明的是,上述舉例僅為更好地說明本發(fā)明的技術(shù)方案,而非對本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)所獲得的字符變化信息,確定字符變化率,并根據(jù)所獲得的操作代價及所述字符變化率,確定所述兩個字符串信息間的相似度信息的實現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。根據(jù)本實施例的方法,能夠根據(jù)諸如預(yù)定變化代價、字符在輸入設(shè)備上的間距所造成的誤輸入可能、用戶對輸入法提供的候選項的誤選擇可能、規(guī)律出現(xiàn)的無意義字符以及讀音相似度等多種因素,綜合確定待處理的兩個字符串信息間的相似度信息,大大提高了兩個字符串信息間相似度判斷的準(zhǔn)確性。圖3為本發(fā)明另一個優(yōu)選實施例的用于確定字符串信息間相似度信息的方法流程圖。根據(jù)本實施例的方法包括步驟Sl及步驟S2,其中,步驟S2進(jìn)一步包括步驟S221、步驟S222、步驟S223、步驟S224及步驟S225。步驟Sl已在參照圖1所示實施例中予以詳述,并以引用的方式包含于此,不再贅述。接著,在步驟S221中,相似度確定裝置分別由所述兩個字符串信息中獲得當(dāng)前源字符串片段及當(dāng)前目標(biāo)字符串片段。其中,在將一個字符串信息轉(zhuǎn)換為另一個字符串信息的轉(zhuǎn)換處理中,該一個字符串信息為源字符串信息,該另一個字符串信息為目標(biāo)字符串信息;所述源字符串片段包含于源字符串信息中,所述目標(biāo)字符串片段包含于目標(biāo)字符串信息中。具體地,相似度確定裝置根據(jù)兩個字符串信息中所包含的各個字符的位置,并結(jié)合已執(zhí)行的獲取源字符串片段及目標(biāo)字符串片段的操作記錄,來獲取當(dāng)前源字符串片段及當(dāng)前目標(biāo)字符串片段。其中,所述操作記錄包括但不限于以下至少一項1)已執(zhí)行的獲取操作次數(shù);2)已選擇的源字符串片段及目標(biāo)字符串片段;3)已選擇的源字符串片段所包含的字符數(shù)量及已選擇的目標(biāo)字符串片段所包含
權(quán)利要求
1.一種計算機實現(xiàn)的用于確定字符串信息間相似度信息的方法,其中,該方法包括以下步驟a獲取待處理的兩個字符串信息;b根據(jù)將其中一個字符串信息轉(zhuǎn)換至另一個字符串信息的轉(zhuǎn)換處理中所執(zhí)行編輯操作相關(guān)的字符變化信息,來確定所述兩個字符串信息間的相似度信息。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述步驟b還包括以下步驟 bll執(zhí)行將一個字符串信息轉(zhuǎn)換至另一個字符串信息的轉(zhuǎn)換處理; bl2根據(jù)所述轉(zhuǎn)換處理中所執(zhí)行編輯操作來獲得所述字符變化信息;bl3基于第一預(yù)定規(guī)則,根據(jù)所獲得的字符變化信息,獲取相應(yīng)的操作代價; bl4根據(jù)所獲得的操作代價,確定所述兩個字符串信息間的相似度信息。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述步驟b還包括以下步驟 -根據(jù)所獲得的字符變化信息,確定字符變化率;其中,所述步驟bl4還包括以下步驟-根據(jù)所獲得的操作代價及所述字符變化率,確定所述兩個字符串信息間的相似度信息。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述步驟b還包括以下步驟b21分別由所述兩個字符串信息中獲得當(dāng)前源字符串片段及當(dāng)前目標(biāo)字符串片段; b22根據(jù)將所述當(dāng)前源字符串片段轉(zhuǎn)換為所述當(dāng)前目標(biāo)字符串片段的轉(zhuǎn)換處理,獲得當(dāng)前字符變化信息;b23基于第一預(yù)定規(guī)則,根據(jù)所獲得的當(dāng)前字符變化信息,獲取相應(yīng)的中間操作代價; M4根據(jù)所述中間操作代價及歷史操作代價,獲得所述當(dāng)前源字符串片段及當(dāng)前目標(biāo)字符串片段間的當(dāng)前操作代價;b25將所述當(dāng)前操作代價作為歷史操作代價之一,重復(fù)步驟1^21至I3M直至所述當(dāng)前源字符串片段及當(dāng)前目標(biāo)字符串片段分別與所述兩個字符串信息相同,并根據(jù)所獲得的當(dāng)前操作代價來獲得所述兩個字符串信息間的相似度信息。
5.根據(jù)權(quán)利要求2至4中任一項所述的方法,其中,所述第一預(yù)定規(guī)則參考以下至少一項因素來獲取所述操作代價-根據(jù)所述字符變化信息來在預(yù)定代價庫中查詢所得的變化代價; -所述字符變化信息所包含的不同字符在輸入設(shè)備上的輸入間距; -所述字符變化信息所包含的不同字符間的輸入法編碼相似度; -所述字符變化信息所包含的不同字符在所述字符串信息中的出現(xiàn)規(guī)律; -所述字符變化信息中所包含的不同字符間的讀音相似度。
6.根據(jù)權(quán)利要求5所述的方法,其中,所述步驟b23還包括以下步驟-基于所述第一預(yù)定規(guī)則,根據(jù)所獲得的當(dāng)前字符變化信息及該字符變化信息所包含的字符串片段的上下文信息,獲取相應(yīng)的中間操作代價;其中,所述第一預(yù)定規(guī)則還參考以下因素來獲取所述中間操作代價-根據(jù)所述字符變化信息及所述上下文信息來在預(yù)定代價庫查詢所得的變化代價。
7.根據(jù)權(quán)利要求5或6所述的方法,其中,該方法還包括以下步驟 c獲取字符訓(xùn)練信息及其對應(yīng)的變化代價;d根據(jù)所獲取的字符訓(xùn)練信息及其對應(yīng)的變化代價,建立或更新所述預(yù)定代價庫。
8.根據(jù)權(quán)利要求7所述的方法,其中,所述步驟c還包括以下步驟 -獲取兩個相似字符串;-根據(jù)所述兩個相似字符串,確定所述字符訓(xùn)練信息; -基于第二預(yù)定規(guī)則,確定所述字符訓(xùn)練信息對應(yīng)的變化代價; 其中,所述第二預(yù)定規(guī)則參考以下至少一項因素來確定所述字符訓(xùn)練信息對應(yīng)的變化代價-所述兩個相似字符串及/或所述字符訓(xùn)練信息中分別屬于所述兩個相似字符串的兩個訓(xùn)練字符串在預(yù)定語料庫中的分布信息;-所述字符訓(xùn)練信息所包含的不同字符在輸入設(shè)備上的間距; -所述字符訓(xùn)練信息所包含的不同字符間的輸入法編碼相似度; -所述字符訓(xùn)練信息中所包含的不同字符間的讀音相似度。
9.根據(jù)權(quán)利要求8所述的方法,其中,所述分布信息包括以下至少一項-所述預(yù)定語料庫中同時包含所述兩個相似字符串的語料數(shù)量與包含其中至少一個相似字符串的語料數(shù)量比例;-所述預(yù)定語料庫中同時包含所述兩個訓(xùn)練字符串的語料數(shù)量與包含其中至少一個訓(xùn)練字符串的語料數(shù)量比例;-所述預(yù)定語料庫中同時包含所述兩個相似字符串且該兩個相似字符串的出現(xiàn)間距小于預(yù)定閾值的語料數(shù)量;-所述預(yù)定語料庫中同時包含所述兩個訓(xùn)練字符串且該兩個訓(xùn)練字符串的出現(xiàn)間距小于預(yù)定閾值的語料數(shù)量。
10.根據(jù)權(quán)利要求1至9中任一項所述的方法,其中,所述編輯操作包括以下至少一項-復(fù)制字符的操作; -插入字符的操作; -刪除字符的操作; -替換字符的操作; -將相鄰位置的字符互換的操作。
11.一種用于確定字符串信息間相似度信息的相似度確定裝置,其中,該相似度確定裝置包括第一獲取裝置、用于獲取待處理的兩個字符串信息;第一確定裝置、用于根據(jù)將其中一個字符串信息轉(zhuǎn)換至另一個字符串信息的轉(zhuǎn)換處理中所執(zhí)行編輯操作相關(guān)的字符變化信息,來確定所述兩個字符串信息間的相似度信息。
12.根據(jù)權(quán)利要求11所述的相似度確定裝置,其中,所述第一確定裝置還包括 轉(zhuǎn)換裝置、用于執(zhí)行將一個字符串信息轉(zhuǎn)換至另一個字符串信息的轉(zhuǎn)換處理; 第二獲取裝置、用于根據(jù)所述轉(zhuǎn)換處理中所執(zhí)行編輯操作來獲得所述字符變化信息; 第一代價獲取裝置、用于基于第一預(yù)定規(guī)則,根據(jù)所獲得的字符變化信息,獲取相應(yīng)的操作代價;第一字確定裝置、用于根據(jù)所獲得的操作代價,確定所述兩個字符串信息間的相似度信息ο
13.根據(jù)權(quán)利要求12所述的相似度確定裝置,其中,所述第一確定裝置還包括 變化率確定裝置、用于根據(jù)所獲得的字符變化信息,確定字符變化率;其中,所述第一子確定裝置還包括第二子確定裝置、用于根據(jù)所獲得的操作代價及所述字符變化率,確定所述兩個字符串信息間的相似度信息。
14.根據(jù)權(quán)利要求11所述的相似度確定裝置,其中,所述第一確定裝置還包括 第三獲取裝置、用于分別由所述兩個字符串信息中獲得當(dāng)前源字符串片段及當(dāng)前目標(biāo)字符串片段;第四獲取裝置、用于根據(jù)將所述當(dāng)前源字符串片段轉(zhuǎn)換為所述當(dāng)前目標(biāo)字符串片段的轉(zhuǎn)換處理,獲得當(dāng)前字符變化信息;第二代價獲取裝置、用于基于第一預(yù)定規(guī)則,根據(jù)所獲得的當(dāng)前字符變化信息,獲取相應(yīng)的中間操作代價;第三子確定裝置、用于根據(jù)所述中間操作代價及歷史操作代價,獲得所述當(dāng)前源字符串片段及當(dāng)前目標(biāo)字符串片段間的當(dāng)前操作代價;迭代裝置、用于將所述當(dāng)前操作代價作為歷史操作代價之一,以使所述第三獲取裝置、 所述第四獲取裝置、所述第二代價獲取裝置及所述第三子確定裝置依次重復(fù)執(zhí)行相應(yīng)操作直至所述當(dāng)前源字符串片段及當(dāng)前目標(biāo)字符串片段分別與所述兩個字符串信息相同,并根據(jù)所獲得的當(dāng)前操作代價來獲得所述兩個字符串信息間的相似度信息。
15.根據(jù)權(quán)利要求12至14中任一項所述的方法,其中,所述第一預(yù)定規(guī)則參考以下至少一項因素來獲取所述操作代價-根據(jù)所述字符變化信息來在預(yù)定代價庫中查詢所得的變化代價; -所述字符變化信息所包含的不同字符在輸入設(shè)備上的輸入間距; -所述字符變化信息所包含的不同字符間的輸入法編碼相似度; -所述字符變化信息所包含的不同字符在所述字符串信息中的出現(xiàn)規(guī)律; -所述字符變化信息中所包含的不同字符間的讀音相似度。
16.根據(jù)權(quán)利要求15所述的相似度確定裝置,其中,所述第二代價獲取裝置還包括 子代價獲取裝置、用于基于所述第一預(yù)定規(guī)則,根據(jù)所獲得的當(dāng)前字符變化信息及該字符變化信息所包含的字符串片段的上下文信息,獲取相應(yīng)的中間操作代價; 其中,所述第一預(yù)定規(guī)則還參考以下因素來獲取所述中間操作代價 -根據(jù)所述字符變化信息及所述上下文信息來在預(yù)定代價庫查詢所得的變化代價。
17.根據(jù)權(quán)利要求15或16所述的相似度確定裝置,其中,該相似度確定裝置還包括 第五獲取裝置、用于獲取字符訓(xùn)練信息及其對應(yīng)的變化代價;更新裝置、用于根據(jù)所獲取的字符訓(xùn)練信息及其對應(yīng)的變化代價,建立或更新所述預(yù)定代價庫。
18.根據(jù)權(quán)利要求17所述的相似度確定裝置,其中,所述第五獲取裝置還包括 第六獲取裝置、用于獲取兩個相似字符串;第二確定裝置、用于根據(jù)所述兩個相似字符串,確定所述字符訓(xùn)練信息;第三代價獲取裝置、用于基于第二預(yù)定規(guī)則,確定所述字符訓(xùn)練信息對應(yīng)的變化代價;其中,所述第二預(yù)定規(guī)則參考以下至少一項因素來確定所述字符訓(xùn)練信息對應(yīng)的變化代價-所述兩個相似字符串及/或所述字符訓(xùn)練信息中分別屬于所述兩個相似字符串的兩個訓(xùn)練字符串在預(yù)定語料庫中的分布信息;-所述字符訓(xùn)練信息所包含的不同字符在輸入設(shè)備上的間距; -所述字符訓(xùn)練信息所包含的不同字符間的輸入法編碼相似度; -所述字符訓(xùn)練信息中所包含的不同字符間的讀音相似度。
19.根據(jù)權(quán)利要求18所述的相似度確定裝置,其中,所述分布信息包括以下至少一項 -所述預(yù)定語料庫中同時包含所述兩個相似字符串的語料數(shù)量與包含其中至少一個相似字符串的語料數(shù)量比例;-所述預(yù)定語料庫中同時包含所述兩個訓(xùn)練字符串的語料數(shù)量與包含其中至少一個訓(xùn)練字符串的語料數(shù)量比例;-所述預(yù)定語料庫中同時包含所述兩個相似字符串且該兩個相似字符串的出現(xiàn)間距小于預(yù)定閾值的語料數(shù)量;-所述預(yù)定語料庫中同時包含所述兩個訓(xùn)練字符串且該兩個訓(xùn)練字符串的出現(xiàn)間距小于預(yù)定閾值的語料數(shù)量。
20.根據(jù)權(quán)利要求11至19中任一項所述的相似度確定裝置,其中,所述編輯操作包括以下至少一項-復(fù)制字符的操作; -插入字符的操作; -刪除字符的操作; -替換字符的操作; -將相鄰位置的字符互換的操作。
21.一種計算機設(shè)備,其中,該計算機設(shè)備包括如權(quán)利要求11至20中至少一項所述的相似度確定裝置。
全文摘要
本發(fā)明的目的在于提供一種計算機實現(xiàn)的用于確定字符串信息間相似度信息的方案,該方案包括獲取待處理的兩個字符串信息;根據(jù)將其中一個字符串信息轉(zhuǎn)換至另一個字符串信息的轉(zhuǎn)換處理中所執(zhí)行編輯操作相關(guān)的字符變化信息,來確定所述兩個字符串信息間的相似度信息。本發(fā)明不僅能夠反映兩個字符串信息間字形上的相似度,還能夠進(jìn)一步反映兩個字符串信息間在詞義、輸入錯誤可能性、讀音等方面的相似度,提高了字符串相似度判斷的準(zhǔn)確性;并且本發(fā)明通過采用歷史操作代價,大幅減少相似度確定裝置的資源消耗,能夠更快獲得兩個字符串信息間的相似度信息。
文檔編號G06F17/30GK102193993SQ20111009942
公開日2011年9月21日 申請日期2011年4月20日 優(yōu)先權(quán)日2011年4月20日
發(fā)明者何徑舟 申請人:北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
上虞市| 荔浦县| 安平县| 遂宁市| 苏尼特右旗| 嘉祥县| 武冈市| 宽城| 敦煌市| 海口市| 皮山县| 大田县| 佛学| 呼伦贝尔市| 孙吴县| 潍坊市| 德兴市| 鄂托克旗| 长兴县| 靖州| 通山县| 桃园县| 金湖县| 当阳市| 三穗县| 安塞县| 陈巴尔虎旗| 乌兰浩特市| 广西| 呼玛县| 永宁县| 马边| 启东市| 黑水县| 都安| 河东区| 江山市| 蕉岭县| 龙里县| 京山县| 葫芦岛市|