欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本校正方法及用戶設(shè)備的制作方法

文檔序號(hào):6488708閱讀:141來源:國知局
一種文本校正方法及用戶設(shè)備的制作方法
【專利摘要】本發(fā)明實(shí)施例提供一種文本校正方法及用戶設(shè)備,涉及語言處理領(lǐng)域,能夠減少校正錯(cuò)誤,提高校正靈活性和正確性。該文本校正方法包括:獲取待校正文本在預(yù)設(shè)文本分類標(biāo)準(zhǔn)中的兩個(gè)以上文本類型;在校正知識(shí)庫中獲取與所述待校正文本的每一個(gè)文本類型對(duì)應(yīng)的待組合子語言模型;將獲取的兩個(gè)以上待組合子語言模型組合成為混合語言模型;根據(jù)所述混合語言模型對(duì)所述待校正文本進(jìn)行校正得到校正建議文本。本發(fā)明實(shí)施例提供的文本校正方法及用戶設(shè)備用于錯(cuò)誤文本的校正。
【專利說明】一種文本校正方法及用戶設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語言處理領(lǐng)域,尤其涉及一種文本校正方法及用戶設(shè)備。
【背景技術(shù)】
[0002]隨著數(shù)字化時(shí)代的到來,對(duì)錯(cuò)誤的待校正文本進(jìn)行修正的文本校正技術(shù)應(yīng)用愈加廣泛。在現(xiàn)有技術(shù)中,噪聲信道理論中認(rèn)為待校正文本的錯(cuò)誤主要來源于手工輸入過程中產(chǎn)生的輸入錯(cuò)誤,以及光學(xué)字符識(shí)別和語音識(shí)別中產(chǎn)生的輸入錯(cuò)誤。該噪聲信道理論將這些待校正文本視為真實(shí)文本經(jīng)過了一個(gè)混入噪聲的信道后而產(chǎn)生。示例的,W為原字符串序列<\,W2,...,ffn>,即完全正確的文本,經(jīng)過噪聲信道后產(chǎn)生噪聲文本〈01; O2,...03>,利用噪聲信道理論進(jìn)行文本校正的方法即為通過建立噪聲信道概率模型,求某個(gè)字符串序列W’使得在觀察到字符串序列O的情況下,W’的出現(xiàn)概率最大,字符串序列O為待校正文本,字符串序列r為理想的校正文本,也可以稱為理想字符串,但該理想的校正文本與正確文本w不一定完全相同。其中,字符串序列w’為使得P (W)P (O |w)概率最大的字符串,P (O |w)被稱為信道概率或生成模型,概率P(w)為語言模型中字符串序列w出現(xiàn)的概率。
[0003]在利用噪聲信道理論實(shí)現(xiàn)文本校正的方法中,需要根據(jù)語言模型獲取使得P(W)P(Olff)概率最大的字符串W’,但是,當(dāng)待校正文本的語言環(huán)境和主題背景等不同時(shí),相同的詞語或字符串可能表示不同的意思,因此需要不同的校正選擇,但現(xiàn)有技術(shù)中的語言模型較為固定,對(duì)待校正文本只能采取固定的校正選擇,因而容易出現(xiàn)校正錯(cuò)誤,導(dǎo)致校正靈活性較差,正確性較低。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的實(shí)施例提供一種文本校正方法及用戶設(shè)備,用于提高校正靈活性和正確性。
[0005]為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案:
[0006]一方面,提供一種文本校正方法,包括:
[0007]獲取待校正文本在預(yù)設(shè)文本分類標(biāo)準(zhǔn)中的兩個(gè)以上文本類型;
[0008]在校正知識(shí)庫中獲取與所述待校正文本的每一個(gè)文本類型對(duì)應(yīng)的待組合子語言模型;
[0009]將獲取的兩個(gè)以上待組合子語言模型組合成為混合語言模型;
[0010]根據(jù)所述混合語言模型對(duì)所述待校正文本進(jìn)行校正得到校正建議文本。
[0011]所述預(yù)設(shè)文本分類標(biāo)準(zhǔn)為:語言環(huán)境、主題背景、作者、寫作風(fēng)格和題材中的任意一項(xiàng)。
[0012]所述方法還包括:
[0013]獲取所述預(yù)設(shè)文本分類標(biāo)準(zhǔn);
[0014]根據(jù)所述預(yù)設(shè)文本分類標(biāo)準(zhǔn)中的文本類型建立兩個(gè)以上的子語言模型。
[0015]所述將獲取的兩個(gè)以上待組合子語言模型組合成為混合語言模型包括:[0016]獲取所述待校正文本中各個(gè)文本類型的比重;
[0017]根據(jù)所述各個(gè)文本類型的比重,將所述獲取的兩個(gè)以上待組合子語言模型組合獲得所述混合語言模型。
[0018]在根據(jù)所述混合語言模型對(duì)所述待校正文本進(jìn)行校正得到校正建議文本之前,所述方法還包括:
[0019]獲取所述校正知識(shí)庫中的錯(cuò)誤檢測模型;
[0020]通過所述錯(cuò)誤檢測模型確定所述待處理文本的錯(cuò)誤位置,所述錯(cuò)誤位置包括錯(cuò)誤字符或錯(cuò)誤字符串。
[0021]所述錯(cuò)誤檢測模型包括:字接續(xù)模型、詞性接續(xù)模型、音近字典和形近字典中的任意一種或多種。
[0022]所述根據(jù)所述混合語言模型對(duì)所述待校正文本進(jìn)行校正得到校正建議文本包括:
[0023]由所述錯(cuò)誤位置生成待校正字符串序列;
[0024]由所述錯(cuò)誤位置生成待校正字符串序列;
[0025]對(duì)所述待校正字符串序列進(jìn)行校正操作,得到至少一個(gè)校正字符串序列;
[0026]在所述待校正文本中獲取所述錯(cuò)誤位置前m個(gè)和后n個(gè)字符,與所述校正字符串序列組合得到至少一個(gè)篩選序列;
[0027]根據(jù)所述混合語言模型,通過噪聲信道概率模型在所述至少一個(gè)篩選序列中獲取理想字符串出現(xiàn)概率最大的一個(gè)字符串序列作為校正建議文本,或
[0028]根據(jù)所述混合語言模型,通過噪聲信道概率模型在所述至少一個(gè)篩選序列中獲取理想字符串出現(xiàn)概率較大的前幾個(gè)字符串序列作為校正建議文本。
[0029]一方面,提供一種用戶設(shè)備,包括:
[0030]獲取單元,用于獲取待校正文本在預(yù)設(shè)文本分類標(biāo)準(zhǔn)中的兩個(gè)以上文本類型;
[0031]所述獲取單元還用于在校正知識(shí)庫中獲取與所述待校正文本的每一個(gè)文本類型對(duì)應(yīng)的待組合子語言模型,并將獲取的兩個(gè)以上待組合子語言模型的信息發(fā)送至生成單元;
[0032]生成單元,用于接收所述獲取單元發(fā)送的所述獲取的兩個(gè)以上待組合子語言模型的信息,并將所述獲取的兩個(gè)以上待組合子語言模型組合成為混合語言模型,將所述混合語言模型的信息發(fā)送至校正單元;
[0033]校正單元,用于接收所述生成單元發(fā)送的所述混合語言模型的信息,并根據(jù)所述混合語言模型對(duì)所述待校正文本進(jìn)行校正得到校正建議文本。
[0034]所述預(yù)設(shè)文本分類標(biāo)準(zhǔn)為:語言環(huán)境、主題背景、作者、寫作風(fēng)格和題材中的任意一項(xiàng)。
[0035]所述用戶設(shè)備還包括:
[0036]所述獲取單元,用于獲取所述預(yù)設(shè)文本分類標(biāo)準(zhǔn),并將所述預(yù)設(shè)文本分類標(biāo)準(zhǔn)發(fā)送至建立單元;
[0037]建立單元,用于接收所述獲取單元發(fā)送的所述預(yù)設(shè)文本分類標(biāo)準(zhǔn),根據(jù)所述預(yù)設(shè)文本分類標(biāo)準(zhǔn)中的文本類型建立兩個(gè)以上的子語言模型。
[0038]所述生成單元具體用于:[0039]獲取所述待校正文本中各個(gè)文本類型的比重;
[0040]根據(jù)所述各個(gè)文本類型的比重,將所述獲取的兩個(gè)以上待組合子語言模型組合獲得所述混合語言模型。
[0041]所述用戶設(shè)備還包括:
[0042]模型獲取單元,用于獲取所述校正知識(shí)庫中的錯(cuò)誤檢測模型,并將所述錯(cuò)誤檢測模型的信息發(fā)送給確定單元;
[0043]確定單元,用于接收所述模型獲取單元發(fā)送的所述錯(cuò)誤檢測模型的信息,并通過所述錯(cuò)誤檢測模型確定所述待處理文本的錯(cuò)誤位置,所述錯(cuò)誤位置包括錯(cuò)誤字符或錯(cuò)誤字符串。
[0044]所述錯(cuò)誤檢測模型包括:字接續(xù)模型、詞性接續(xù)模型、音近字典和形近字典中的任意一種或多種。
[0045]所述校正單元具體用于:
[0046]由所述錯(cuò)誤位置生成待校正字符串序列;
[0047]對(duì)所述待校正字符串序列進(jìn)行校正操作,得到至少一個(gè)校正字符串序列;
[0048]在所述待校正文本中獲取所述錯(cuò)誤位置前m個(gè)和后η個(gè)字符,與所述校正字符串序列組合得到至少一個(gè)篩選序列;
[0049]根據(jù)所述混合語言模型,通過噪聲信道概率模型在所述至少一個(gè)篩選序列中獲取理想字符串出現(xiàn)概率最大的一個(gè)字符串序列作為校正建議文本,或
[0050]根據(jù)所述混合語言模型,通過噪聲信道概率模型在所述至少一個(gè)篩選序列中獲取理想字符串出現(xiàn)概率較大的前幾個(gè)字符串序列作為校正建議文本。
[0051]本發(fā)明實(shí)施例提供一種文本校正方法及用戶設(shè)備,該文本校正方法包括:獲取待校正文本在預(yù)設(shè)文本分類標(biāo)準(zhǔn)中的兩個(gè)以上文本類型;在校正知識(shí)庫中獲取與所述待校正文本的每一個(gè)文本類型對(duì)應(yīng)的待組合子語言模型;將獲取的兩個(gè)以上待組合子語言模型組合成為混合語言模型;根據(jù)所述混合語言模型對(duì)所述待校正文本進(jìn)行校正得到校正建議文本。這樣一來,通過將待校正文本進(jìn)行分類,然后獲取相應(yīng)的混合語言模型,使得校正時(shí)所依據(jù)的混合語言模型能夠根據(jù)待校正文本的文本類型動(dòng)態(tài)變化,當(dāng)預(yù)設(shè)文本分類標(biāo)準(zhǔn)或待校正文本的文本類型不同時(shí),對(duì)待校正文本可以提供不同的校正選擇,因此能夠減少校正錯(cuò)誤,提高校正靈活性和正確性。
【專利附圖】

【附圖說明】
[0052]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0053]圖1為本發(fā)明實(shí)施例提供的一種文本校正方法流程示意圖;
[0054]圖2為本發(fā)明實(shí)施例提供的另一種文本校正方法流程示意圖;
[0055]圖3為本發(fā)明實(shí)施例提供的一種用戶設(shè)備結(jié)構(gòu)示意圖;
[0056]圖4為本發(fā)明實(shí)施例提供的另一種用戶設(shè)備結(jié)構(gòu)示意圖;
[0057]圖5為本發(fā)明實(shí)施例提供的又一種用戶設(shè)備結(jié)構(gòu)示意圖;[0058]圖6為本發(fā)明實(shí)施例提供的再一種用戶設(shè)備結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0059]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0060]本發(fā)明實(shí)施例提供一種文本校正方法,包括:
[0061]S101、獲取待校正文本在預(yù)設(shè)文本分類標(biāo)準(zhǔn)中的兩個(gè)以上文本類型。
[0062]上述預(yù)設(shè)文本分類標(biāo)準(zhǔn)可以包括:語言環(huán)境、主題背景、作者、寫作風(fēng)格和題材中的任意一項(xiàng)。示例的,按照主題背景可以將文本分為體育、經(jīng)濟(jì)、政治、科技等文本類型。
[0063]若用戶預(yù)設(shè)的文本分類標(biāo)準(zhǔn)為主題背景,則用戶設(shè)備可以在校正知識(shí)庫中依據(jù)該主題背景的文本類型建立相應(yīng)的子語言模型。在獲取待校正文本的文本類型時(shí),可以利用文本分類技術(shù)確定待校正文本所屬的分類。
[0064]S102、在校正知識(shí)庫中獲取與所述待校正文本的每一個(gè)文本類型對(duì)應(yīng)的待組合子
語目模型。
[0065]S103、將獲取的兩個(gè)以上待組合子語言模型組合成為混合語言模型。
[0066]例如,當(dāng)輸入一段包含有股市等經(jīng)濟(jì)方面內(nèi)容的計(jì)算機(jī)科技咨詢文本時(shí),利用文本分類技術(shù)可以確定該文本所屬的文本類型為科技類和經(jīng)濟(jì)類。在校正知識(shí)庫中選擇與待校正文本的文本類型對(duì)應(yīng)的科技類與經(jīng)濟(jì)類子語言模型,然后將該科技類與經(jīng)濟(jì)類子語言模型組合成為混合語言模型。
[0067]S104、根據(jù)混合語言模型對(duì)待校正文本進(jìn)行校正得到校正建議文本。
[0068]這樣一來,通過將待校正文本進(jìn)行分類,然后獲取相應(yīng)的混合語言模型,使得校正時(shí)所依據(jù)的混合語言模型能夠根據(jù)待校正文本的文本類型動(dòng)態(tài)變化,因此能夠減少校正錯(cuò)誤,提高校正靈活性和正確性。
[0069]示例的,本發(fā)明另一個(gè)實(shí)施例提供一種文本校正的具體方法20,包括:
[0070]S201、用戶設(shè)備根據(jù)預(yù)設(shè)文本分類標(biāo)準(zhǔn)將獲取的語料按照文本類型歸類至各子語言模型中。
[0071]首先,用戶設(shè)備需要獲取所述預(yù)設(shè)文本分類標(biāo)準(zhǔn),該預(yù)設(shè)文本分類標(biāo)準(zhǔn)可以包括:語言環(huán)境、主題背景、作者、寫作風(fēng)格和題材中的任意一項(xiàng),通常由用戶根據(jù)具體情況進(jìn)行預(yù)先設(shè)置。
[0072]然后,在校正知識(shí)庫中,用戶設(shè)備根據(jù)所述預(yù)設(shè)文本分類標(biāo)準(zhǔn)中的文本類型建立兩個(gè)以上的子語言模型。
[0073]示例的,按照語言環(huán)境可以獲得以下類型的子語言模型,如商業(yè)環(huán)境、生活環(huán)境或官方環(huán)境等等。按照主題背景可以獲得以下類型的子語言模型,如體育、政治、文學(xué)或歷史等等。同時(shí),子語言模型的實(shí)際種類也和語料的種類有關(guān),示例的,若所述校正知識(shí)庫中不存在歷史類型的語料,則歷史類子語言模型可以視為空閑或無效,當(dāng)用戶設(shè)備通過主動(dòng)獲取或用戶輸入等方法獲得一定數(shù)量的歷史類語料,則可以根據(jù)該歷史類語料建立新的歷史類子語言模型,該歷史類子語言模型視為有效的子語言模型。[0074]然后,根據(jù)所述預(yù)設(shè)文本分類標(biāo)準(zhǔn),將獲取的語料按照類型歸入所述子語言模型中。
[0075]具體的,用戶設(shè)備可以通過定期或不定期地獲取語料來豐富校正知識(shí)庫。該語料的獲取方法可以是用戶設(shè)備通過與互聯(lián)網(wǎng)連接搜索、定期更新等方式主動(dòng)獲取,也可以是用戶通過用戶設(shè)備的配置管理接口等輸入接口向用戶設(shè)備提供經(jīng)過分類的語料數(shù)據(jù)。然后,用戶設(shè)備根據(jù)用戶指示的該語料的類型將該語料歸入已有類型的子語言模型中或建立新的子語言模型。示例的,如果語料庫中缺少歷史類語料數(shù)據(jù),用戶可以通過定期更新、互聯(lián)網(wǎng)搜索甚至通過配置管理接口添加歷史類語料集合,然后建立歷史類子語言模型;如果已有歷史類語料數(shù)據(jù),也可通過上述方式添加新的歷史類語料,以更新子語言模型。
[0076]但大多數(shù)時(shí)候,用戶設(shè)備獲取的語料是未分類的語料,用戶設(shè)備需要根據(jù)所述預(yù)設(shè)文本分類標(biāo)準(zhǔn),將獲取的語料按照類型歸入所述子語言模型中,即進(jìn)行語料的歸類。示例的,對(duì)于上面提及的包含股市等經(jīng)濟(jì)方面內(nèi)容的計(jì)算機(jī)科技咨詢文本,其部分內(nèi)容為“戴爾公司估計(jì),其第一季度收入約為142億美元,每股收益33美分。此前公司預(yù)測當(dāng)季收入為142億至146億美元,每股收益35至38美分,而分析師平均預(yù)測戴爾同期收入為145.2億美元,每股收益38美分”。利用文本分類技術(shù)對(duì)未分類語料進(jìn)行自動(dòng)文本分類,該分類過程分為兩個(gè)階段:訓(xùn)練階段和分類階段。在訓(xùn)練階段,對(duì)分類語料集合中的文本進(jìn)行分詞處理,該分詞過程與現(xiàn)有技術(shù)相同,此處不再贅述。經(jīng)過分詞后上面的內(nèi)容可表示為“戴/爾/公司/估計(jì)/,/其/第一 /季度/收入/約/為...”,為了表示的方便,本發(fā)明實(shí)施例使用‘/’表示詞之間的分割。對(duì)分詞后的文本去除停用詞,如:“地”,“的”等,然后根據(jù)文本中出現(xiàn)的詞、詞頻與詞總數(shù)的比例建立文本的詞向量表示,不同的詞在此向量中表示一維,詞頻與詞總數(shù)的比例為該維對(duì)應(yīng)的數(shù)值。將上述語料中不同文本的詞向量的集合再通過降維等處理結(jié)合已知的分類標(biāo)簽訓(xùn)練分類器;在分類階段,將待分類語料文本處理表示為向量,輸入至分類器中對(duì)文本進(jìn)行體育,財(cái)經(jīng)等類型的分類。根據(jù)不同的分類將該語料歸類于相應(yīng)的子語言模型中,并更新相應(yīng)子語言模型的概率。
[0077]特別的,語料中的文本建立字的2-Gram統(tǒng)計(jì)模型和3_Gram統(tǒng)計(jì)模型作為字接續(xù)模型,示例的,假設(shè)某語料文本中包含“知識(shí)庫構(gòu)建模塊”這一文本,則建立的字2-Gram組分別為“知識(shí)”、“識(shí)庫”、“庫構(gòu)”、“構(gòu)建”、“建?!焙汀澳K”,然后計(jì)算該文本所屬分類語料中各2-Gram組出現(xiàn)的統(tǒng)計(jì)概率。進(jìn)一步的,對(duì)于上面提及的包含股市等經(jīng)濟(jì)方面內(nèi)容的計(jì)算機(jī)科技咨詢文本,建立的字2-Gram組包含:“戴爾”、“而公”,“公司”,“司估”,“估計(jì)”,“其第”,“第一”,“一季”,“季度”等等。首先統(tǒng)計(jì)每個(gè)單字出現(xiàn)的次數(shù)并計(jì)算單字在整個(gè)語料中的比例,以此作為單字出現(xiàn)的概率。對(duì)于每個(gè)2-Gram組統(tǒng)計(jì)第一個(gè)字后出現(xiàn)的字的次數(shù),如“戴爾”,表示“戴”字后面接“爾”字出現(xiàn)了一次,如果在整個(gè)語料包含的文本中“戴”字后面接“爾”字出現(xiàn)了 1000次,則記錄“戴”字后面為“爾”字的次數(shù)為1000,同樣可統(tǒng)計(jì)出“戴”字后面為“帽”字的次數(shù)為10000次。而“戴”字后面出現(xiàn)的字有很多可能性而且出現(xiàn)的次數(shù)也不相同,統(tǒng)計(jì)所有“戴”字后接有其他字的次數(shù),如500000次,然后計(jì)算各種可能性出現(xiàn)的概率。對(duì)于“戴”后接“爾”字的概率大致可以估算為1000/500000為0.2%,而“戴”后接“帽”字的概率大致可估算為10000/500000為2%。3-Gram統(tǒng)計(jì)模型的獲取與所述2-Gram統(tǒng)計(jì)模型的獲取方法相同,這里不再贅述,該2-Gram和3-Gram字接續(xù)模型便于在后續(xù)過程中待處理文本的錯(cuò)誤位置。[0078]進(jìn)一步的,也可以對(duì)分詞后的語料進(jìn)行詞性標(biāo)注,再建立2元詞性統(tǒng)計(jì)模型和3元詞性統(tǒng)計(jì)模型作為詞性接續(xù)模型,其中,2元詞性統(tǒng)計(jì)模型中的“2元”表示為兩個(gè)詞組,或2個(gè)字符。示例的,假設(shè)語料包含“知識(shí)庫構(gòu)建模塊”,分詞后得到“知識(shí)庫”、“構(gòu)建”和“模塊”三個(gè)詞,標(biāo)注的詞性為名詞、動(dòng)詞和名詞,建立的2元詞性統(tǒng)計(jì)模型分別為“知識(shí)庫構(gòu)建”和“構(gòu)建模塊”,詞性分別為名詞加動(dòng)詞、動(dòng)詞加名詞,建立的3元詞性統(tǒng)計(jì)模型為“知識(shí)庫構(gòu)建模塊”,詞性為名詞加動(dòng)詞加名詞,即在建立2元詞性統(tǒng)計(jì)模型和3元詞性統(tǒng)計(jì)模型時(shí),相應(yīng)的詞性也需要標(biāo)注。具體的統(tǒng)計(jì)模型的計(jì)算方法與上述字的2-Gram和3-Gram統(tǒng)計(jì)模型的建立方法類似,本發(fā)明對(duì)此不再贅述。
[0079]最后,可以利用拼音和五筆輸入法等編碼方法建立音近和形近字典。如“處“出”,“形“型”,“磬“罄”等。本發(fā)明對(duì)此不再詳述。
[0080]S202、用戶設(shè)備獲取待校正文本在預(yù)設(shè)文本分類標(biāo)準(zhǔn)中的兩個(gè)以上文本類型。
[0081]用戶設(shè)備可以通過多種方式獲取待校正文本,如用戶通過用戶界面直接錄入到用戶設(shè)備中,或用戶通過配置管理接口等輸入接口直接傳輸至用戶設(shè)備。然后,用戶設(shè)備利用文本分類技術(shù)對(duì)待校正文本進(jìn)行自動(dòng)文本分類,該分類過程分為兩個(gè)階段:訓(xùn)練階段和分類階段。在訓(xùn)練階段,對(duì)待校正文本進(jìn)行分詞處理,該分詞過程與現(xiàn)有技術(shù)相同,此處不再贅述。對(duì)分詞后的文本去除停用詞,如:“地”,“的”等,然后根據(jù)文本中出現(xiàn)的詞、詞頻與詞總數(shù)的比例建立文本的詞向量表示,再通過降維等處理結(jié)合已知的分類標(biāo)簽訓(xùn)練分類器;在分類階段,將待校正文本處理表示為向量,輸入至分類器中對(duì)文本進(jìn)行體育,財(cái)經(jīng)等類型的分類。根據(jù)不同的分類將該待校正文本歸類于相應(yīng)的子語言模型中,并更新相應(yīng)子語言模型的概率。
[0082]S203、用戶設(shè)備獲取混合語言模型。
[0083]首先,用戶設(shè)備可以在校正知識(shí)庫中獲取與所述待校正文本的每一個(gè)文本類型對(duì)應(yīng)的待組合子語言模型。該校正知識(shí)庫可以包括:子語言模型、字接續(xù)模型、詞性接續(xù)模型、音近字典和形近字典等等。由于校正知識(shí)庫中的文本類型較多,只需要選擇與所述待校正文本的文本類型對(duì)應(yīng)的子語言模型來組合獲得混合語言模型。
[0084]然后,用戶設(shè)備可以通過計(jì)算獲取待校正文本中各子語言模型的比重。最后,根據(jù)所述各個(gè)子語言模型的比重,將獲取的兩個(gè)以上待組合子語言模型組合獲得所述混合語言模型。具體的,可以利用期望最大化算法(EM算法)得到各個(gè)待組合子語言模型在混合語言模型中的比重,然后按照各個(gè)待組合子語言模型的在混合語言模型中的比重將待組合子語言模型組合獲得混合語言模型。當(dāng)然,各個(gè)子語言模型也可以乘以相應(yīng)的權(quán)值來達(dá)到按照所述比重組合得到混合語言模型的效果。
[0085]具體的,該混合語言模型為各個(gè)子語言模型通過線性插值組合而成。對(duì)于N-Gram子語言模型,混合語言模型由各子語言模型具體表示如下:
[0086]PdiIffljW2,...Wi^1) = A1P1 (Wi IW1, ^,...Wh) +A2P2(WiIH--JH)
[0087]+...+AkPk (Wi IW1, W2,...Wi^1)
[0088]其中,i為待校正的字符串長度,k為子語言模型的個(gè)數(shù),λ ^為各個(gè)子語言模型的權(quán)值,Pj (WiI W1, W2,..U為子語言模型中字符串序列Wi出現(xiàn)的概率,I≤j ( k, Pj (Wi IW1,W2,...Wi^1)與現(xiàn)有技術(shù)中利用噪聲信道理論求P(W)的方法相同,這里不再贅述。
[0089]根據(jù)期望最大化算法,對(duì)于上述混合語言模型,可以給定一個(gè)待處理文本的似然函數(shù)。根據(jù)該似然函數(shù),需要求出子語言模型的權(quán)值\使似然函數(shù)最大,則該即為該子語言模型的權(quán)重。假設(shè)某個(gè)文本類型的待處理文本中總共包含T個(gè)字,則該文本類型相應(yīng)的權(quán)值、j的更新公式為:
【權(quán)利要求】
1.一種文本校正方法,其特征在于,包括: 獲取待校正文本在預(yù)設(shè)文本分類標(biāo)準(zhǔn)中的兩個(gè)以上文本類型; 在校正知識(shí)庫中獲取與所述待校正文本的每一個(gè)文本類型對(duì)應(yīng)的待組合子語言模型; 將獲取的兩個(gè)以上待組合子語言模型組合成為混合語言模型; 根據(jù)所述混合語言模型對(duì)所述待校正文本進(jìn)行校正得到校正建議文本。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)文本分類標(biāo)準(zhǔn)為:語言環(huán)境、主題背景、作者、寫作風(fēng)格和題材中的任意一項(xiàng)。
3.根據(jù)權(quán)利要求2所述 的方法,其特征在于,所述方法還包括: 獲取所述預(yù)設(shè)文本分類標(biāo)準(zhǔn); 根據(jù)所述預(yù)設(shè)文本分類標(biāo)準(zhǔn)中的文本類型建立兩個(gè)以上的子語言模型。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將獲取的兩個(gè)以上待組合子語言模型組合成為混合語言模型包括: 獲取所述待校正文本中各個(gè)文本類型的比重; 根據(jù)所述各個(gè)文本類型的比重,將所述獲取的兩個(gè)以上待組合子語言模型組合獲得所述混合語言模型。
5.根據(jù)權(quán)利要求1至4任意一項(xiàng)權(quán)利要求所述的方法,其特征在于,在根據(jù)所述混合語言模型對(duì)所述待校正文本進(jìn)行校正得到校正建議文本之前,所述方法還包括: 獲取所述校正知識(shí)庫中的錯(cuò)誤檢測模型; 通過所述錯(cuò)誤檢測模型確定所述待處理文本的錯(cuò)誤位置,所述錯(cuò)誤位置包括錯(cuò)誤字符或錯(cuò)誤字符串。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述錯(cuò)誤檢測模型包括:字接續(xù)模型、詞性接續(xù)模型、音近字典和形近字典中的任意一種或多種。
7.根據(jù)權(quán)利要求5或6所述的方法,其特征在于,所述根據(jù)所述混合語言模型對(duì)所述待校正文本進(jìn)行校正得到校正建議文本包括: 由所述錯(cuò)誤位置生成待校正字符串序列; 對(duì)所述待校正字符串序列進(jìn)行校正操作,得到至少一個(gè)校正字符串序列; 在所述待校正文本中獲取所述錯(cuò)誤位置前m個(gè)和后η個(gè)字符,與所述校正字符串序列組合得到至少一個(gè)篩選序列; 根據(jù)所述混合語言模型,通過噪聲信道概率模型在所述至少一個(gè)篩選序列中獲取理想字符串出現(xiàn)概率最大的一個(gè)字符串序列作為校正建議文本,或 根據(jù)所述混合語言模型,通過噪聲信道概率模型在所述至少一個(gè)篩選序列中獲取理想字符串出現(xiàn)概率較大的前幾個(gè)字符串序列作為校正建議文本。
8.一種用戶設(shè)備,其特征在于,包括: 獲取單元,用于獲取待校正文本在預(yù)設(shè)文本分類標(biāo)準(zhǔn)中的兩個(gè)以上文本類型; 所述獲取單元還用于在校正知識(shí)庫中獲取與所述待校正文本的每一個(gè)文本類型對(duì)應(yīng)的待組合子語言模型,并將獲取的兩個(gè)以上待組合子語言模型的信息發(fā)送至生成單元; 生成單元,用于接收所述獲取單元發(fā)送的所述獲取的兩個(gè)以上待組合子語言模型的信息,并將所述獲取的兩個(gè)以上待組合子語言模型組合成為混合語言模型,將所述混合語言模型的信息發(fā)送至校正單元; 校正單元,用于接收所述生成單元發(fā)送的所述混合語言模型的信息,并根據(jù)所述混合語言模型對(duì)所述待校正文本進(jìn)行校正得到校正建議文本。
9.根據(jù)權(quán)利要求8所述的用戶設(shè)備,其特征在于,所述預(yù)設(shè)文本分類標(biāo)準(zhǔn)為:語言環(huán)境、主題背景、作者、寫作風(fēng)格和題材中的任意一項(xiàng)。
10.根據(jù)權(quán)利要求9所述的用戶設(shè)備,其特征在于,所述用戶設(shè)備還包括: 所述獲取單元,用于獲取所述預(yù)設(shè)文本分類標(biāo)準(zhǔn),并將所述預(yù)設(shè)文本分類標(biāo)準(zhǔn)發(fā)送至建立單元; 建立單元,用于接收所述獲取單元發(fā)送的所述預(yù)設(shè)文本分類標(biāo)準(zhǔn),根據(jù)所述預(yù)設(shè)文本分類標(biāo)準(zhǔn)中的文本類型建立兩個(gè)以上的子語言模型。
11.根據(jù)權(quán)利要求10所述的用戶設(shè)備,其特征在于,所述生成單元具體用于: 獲取所述待校正文本中各個(gè)文本類型的比重; 根據(jù)所述各個(gè)文本類型的比重,將所述獲取的兩個(gè)以上待組合子語言模型組合獲得所述混合語言模型。
12.根據(jù)權(quán)利要求8至11任意一項(xiàng)權(quán)利要求所述的用戶設(shè)備,其特征在于,所述用戶設(shè)備還包括: 模型獲取單元,用于獲取所述校正知識(shí)庫中的錯(cuò)誤檢測模型,并將所述錯(cuò)誤檢測模型的信息發(fā)送給確定單元; 確定單元,用于接收所述模型獲取單元發(fā)送的所述錯(cuò)誤檢測模型的信息,并通過所述錯(cuò)誤檢測模型確定所述待處理文本的錯(cuò)誤位置,所述錯(cuò)誤位置包括錯(cuò)誤字符或錯(cuò)誤字符串。
13.根據(jù)權(quán)利要求12所述的用戶設(shè)備,其特征在于,所述錯(cuò)誤檢測模型包括:字接續(xù)模型、詞性接續(xù)模型、音近字典和形近字典中的任意一種或多種。
14.根據(jù)權(quán)利要求12或13所述的用戶設(shè)備,其特征在于,所述校正單元具體用于: 由所述錯(cuò)誤位置生成待校正字符串序列; 對(duì)所述待校正字符串序列進(jìn)行校正操作,得到至少一個(gè)校正字符串序列; 在所述待校正文本中獲取所述錯(cuò)誤位置前m個(gè)和后n個(gè)字符,與所述校正字符串序列組合得到至少一個(gè)篩選序列; 根據(jù)所述混合語言模型,通過噪聲信道概率模型在所述至少一個(gè)篩選序列中獲取理想字符串出現(xiàn)概率最大的一個(gè)字符串序列作為校正建議文本,或 根據(jù)所述混合語言模型,通過噪聲信道概率模型在所述至少一個(gè)篩選序列中獲取理想字符串出現(xiàn)概率較大的前幾個(gè)字符串序列作為校正建議文本。
【文檔編號(hào)】G06F17/27GK103678271SQ201210332263
【公開日】2014年3月26日 申請(qǐng)日期:2012年9月10日 優(yōu)先權(quán)日:2012年9月10日
【發(fā)明者】胡楠, 楊錦春 申請(qǐng)人:華為技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
文水县| 苏尼特右旗| 连城县| 芦山县| 苍溪县| 顺平县| 桑日县| 洪江市| 永康市| 娄底市| 大城县| 莱芜市| 南和县| 卫辉市| 麻城市| 汉寿县| 阜阳市| 海淀区| 根河市| 封开县| 庆云县| 上林县| 闵行区| 原平市| 新竹县| 龙州县| 台中市| 新郑市| 大宁县| 巨鹿县| 偃师市| 阳春市| 东乡| 八宿县| 乌拉特后旗| 沂南县| 江门市| 温州市| 株洲县| 民和| 青铜峡市|