訓(xùn)練語料的獲取方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其是一種訓(xùn)練語料的獲取方法和裝置。
【背景技術(shù)】
[0002]移動(dòng)通信運(yùn)營(yíng)商為用戶提供通信業(yè)務(wù)的查詢功能,例如,用戶可以通過短信、電話、客戶端等多種方式進(jìn)行查詢,但是,上述幾種方式均需要用戶進(jìn)行大量的操作,實(shí)時(shí)性較差,不能滿足用戶的要求。
[0003]隨著互連網(wǎng)技術(shù)的發(fā)展,出現(xiàn)了很多在終端側(cè)進(jìn)行通信業(yè)務(wù)使用量的監(jiān)測(cè)的技術(shù),從而可以及時(shí)向用戶報(bào)告。然而,在終端側(cè)監(jiān)測(cè)到的數(shù)據(jù)經(jīng)常會(huì)出現(xiàn)與通信運(yùn)營(yíng)商的統(tǒng)計(jì)數(shù)據(jù)不一致,因此,現(xiàn)有的通信業(yè)務(wù)使用量的監(jiān)控方法需要定期根據(jù)通信運(yùn)營(yíng)商的統(tǒng)計(jì)數(shù)據(jù)進(jìn)行校準(zhǔn)。
[0004]一種有效的校準(zhǔn)方法是利用條件隨機(jī)場(chǎng)(CRF)識(shí)別模型對(duì)截取到的運(yùn)營(yíng)商發(fā)給用戶的短信進(jìn)行識(shí)別,這種方法可以提高校準(zhǔn)的精度。但是,條件隨機(jī)場(chǎng)識(shí)別模型需要訓(xùn)練語料進(jìn)行訓(xùn)練得到,而現(xiàn)有技術(shù)中訓(xùn)練語料均是通過人工的方式來獲取,效率低下,影響運(yùn)營(yíng)效率。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實(shí)施例所要解決的一個(gè)技術(shù)問題是:提供一種訓(xùn)練語料的獲取方法和裝置,以提高訓(xùn)練語料的獲取效率。
[0006]本發(fā)明實(shí)施例提供的一種訓(xùn)練語料的獲取方法包括:獲取通信運(yùn)營(yíng)商發(fā)送給用戶的文本信息;通過預(yù)設(shè)過濾規(guī)則對(duì)所述文本信息的內(nèi)容進(jìn)行過濾,以得到過濾后的文本信息;利用第一正則表達(dá)式對(duì)過濾后的文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0007]在基于本發(fā)明上述方法的另一個(gè)實(shí)施例中,還包括:利用第二正則表達(dá)式對(duì)所述短文本進(jìn)行匹配,以提取出各業(yè)務(wù)的使用量名稱作為第二訓(xùn)練語料。
[0008]在基于本發(fā)明上述方法的另一個(gè)實(shí)施例中,所述利用第一正則表達(dá)式對(duì)過濾后的文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料包括:將過濾后的文本信息拆分為多個(gè)短句,其中,每個(gè)短句中包含該業(yè)務(wù)類型的不同業(yè)務(wù);利用每個(gè)業(yè)務(wù)對(duì)應(yīng)的第一正則表達(dá)式對(duì)相應(yīng)的短句進(jìn)行匹配,以提取出包含該業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0009]在基于本發(fā)明上述方法的另一個(gè)實(shí)施例中,在利用第一正則表達(dá)式對(duì)過濾后的文本信息進(jìn)行匹配之前,還包括:對(duì)過濾后的文本信息進(jìn)行去重處理。
[0010]在基于本發(fā)明上述方法的另一個(gè)實(shí)施例中,所述利用第一正則表達(dá)式對(duì)過濾后的文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料包括:獲取去重后的文本信息的重復(fù)率;利用第一正則表達(dá)式按照重復(fù)率的高低依次對(duì)去重后的文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0011]在基于本發(fā)明上述方法的另一個(gè)實(shí)施例中,所述利用第一正則表達(dá)式對(duì)過濾后的文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料包括:獲取去重后的文本信息的重復(fù)率,按照重復(fù)率的高低對(duì)文本信息進(jìn)行排序;從排序后的文本信息中提取出重復(fù)率大于預(yù)設(shè)值的文本信息作為需要加強(qiáng)訓(xùn)練的文本信息;以多組隨機(jī)數(shù)字替代需要加強(qiáng)訓(xùn)練的文本信息中的數(shù)字,以便將每個(gè)文本信息變?yōu)槎鄠€(gè)文本信息;利用第一正則表達(dá)式對(duì)所述多個(gè)文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0012]在基于本發(fā)明上述方法的另一個(gè)實(shí)施例中,所述業(yè)務(wù)類型包括流量、短信、彩信、通話時(shí)長(zhǎng)和話費(fèi)中的一項(xiàng)或多項(xiàng)。
[0013]本發(fā)明實(shí)施例提供的一種訓(xùn)練語料的獲取裝置,包括:獲取單元,用于獲取通信運(yùn)營(yíng)商發(fā)送給用戶的文本信息;過濾單元,用于通過預(yù)設(shè)過濾規(guī)則對(duì)所述文本信息的內(nèi)容進(jìn)行過濾,以得到過濾后的文本信息;第一匹配單元,用于利用第一正則表達(dá)式對(duì)過濾后的文本信息進(jìn)行匹配,以提取出包含業(yè)務(wù)類型和該業(yè)務(wù)類型的各業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0014]在基于本發(fā)明上述裝置的另一個(gè)實(shí)施例中,還包括:第二匹配單元,用于利用第二正則表達(dá)式對(duì)所述短文本進(jìn)行匹配,以提取出各業(yè)務(wù)的使用量名稱作為第二訓(xùn)練語料。
[0015]在基于本發(fā)明上述裝置的另一個(gè)實(shí)施例中,所述第一匹配單元包括:拆分模塊,用于將過濾后的文本信息拆分為多個(gè)短句,其中,每個(gè)短句中包含所述業(yè)務(wù)類型的不同業(yè)務(wù);匹配模塊,用于利用每個(gè)業(yè)務(wù)對(duì)應(yīng)的第一正則表達(dá)式對(duì)相應(yīng)的短句進(jìn)行匹配,以提取出包含該業(yè)務(wù)的使用情況信息的短文本作為第一訓(xùn)練語料。
[0016]基于本發(fā)明上述實(shí)施例提供的訓(xùn)練語料的獲取方法和裝置,在獲取到通信運(yùn)營(yíng)商發(fā)送給用戶的文本信息后,先對(duì)文本信息的內(nèi)容進(jìn)行過濾,然后通過正則表達(dá)式匹配出包含業(yè)務(wù)類型和該業(yè)務(wù)的使用情況信息的短文本作為訓(xùn)練語料,與現(xiàn)有技術(shù)人工獲取訓(xùn)練語料的方式相比,大大提高了獲取訓(xùn)練語料的效率,從而提高了運(yùn)營(yíng)效率。
[0017]下面通過附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
【附圖說明】
[0018]構(gòu)成說明書的一部分的附圖描述了本發(fā)明的實(shí)施例,并且連同描述一起用于解釋本發(fā)明的原理。
[0019]參照附圖,根據(jù)下面的詳細(xì)描述,可以更加清楚地理解本發(fā)明,其中:
[0020]圖1是本發(fā)明訓(xùn)練語料的獲取方法一個(gè)實(shí)施例的流程圖;
[0021]圖2是本發(fā)明訓(xùn)練語料的獲取方法另一個(gè)實(shí)施例的流程圖;
[0022]圖3是本發(fā)明訓(xùn)練語料的獲取方法又一個(gè)實(shí)施例的流程圖;
[0023]圖4是本發(fā)明訓(xùn)練語料的獲取裝置一個(gè)實(shí)施例的框圖;
[0024]圖5是本發(fā)明訓(xùn)練語料的獲取裝置另一個(gè)實(shí)施例的框圖;
[0025]圖6是本發(fā)明訓(xùn)練語料的獲取裝置又一個(gè)實(shí)施例的框圖;
[0026]圖7是本發(fā)明訓(xùn)練語料的獲取裝置再一個(gè)實(shí)施例的框圖;
[0027]圖8是本發(fā)明訓(xùn)練語料的獲取裝置再一個(gè)實(shí)施例的框圖。
【具體實(shí)施方式】
[0028]現(xiàn)在將參照附圖來詳細(xì)描述本發(fā)明的各種示例性實(shí)施例。應(yīng)注意到:除非另外具體說明,否則在這些實(shí)施例中闡述的部件和步驟的相對(duì)布置、數(shù)字表達(dá)式和數(shù)值不限制本發(fā)明的范圍。
[0029]同時(shí),應(yīng)當(dāng)明白,為了便于描述,附圖中所示出的各個(gè)部分的尺寸并不是按照實(shí)際的比例關(guān)系繪制的。
[0030]以下對(duì)至少一個(gè)示例性實(shí)施例的描述實(shí)際上僅僅是說明性的,決不作為對(duì)本發(fā)明及其應(yīng)用或使用的任何限制。
[0031]對(duì)于相關(guān)領(lǐng)域普通技術(shù)人員已知的技術(shù)、方法和設(shè)備可能不作詳細(xì)討論,但在適當(dāng)情況下,所述技術(shù)、方法和設(shè)備應(yīng)當(dāng)被視為說明書的一部分。
[0032]應(yīng)注意到:相似的標(biāo)號(hào)和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一個(gè)附圖中被定義,則在隨后的附圖中不需要對(duì)其進(jìn)行進(jìn)一步討論。
[0033]圖1是本發(fā)明訓(xùn)練語料的獲取方法一個(gè)實(shí)施例的流程圖。該實(shí)施例的方法可以由設(shè)置在服務(wù)器上的訓(xùn)練語料的獲取裝置來實(shí)施,如圖1所示,該實(shí)施例的方法包括如下步驟:
[0034]