一種修正實(shí)體詞識(shí)別的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)語言處理領(lǐng)域,特別涉及一種修正實(shí)體詞識(shí)別的方法和裝置。
【背景技術(shù)】
[0002]現(xiàn)在很多企業(yè)通過大數(shù)據(jù)來獲取具有價(jià)值的信息資產(chǎn),而從大數(shù)據(jù)的應(yīng)用現(xiàn)狀來看,主要通過基礎(chǔ)訓(xùn)練語料來識(shí)別出文本中的人名、地名等專有名稱和有意義的時(shí)間、日期等數(shù)量短語并加以歸類,但是,在實(shí)際應(yīng)用中,因?yàn)樾袠I(yè)不同、業(yè)務(wù)不同,專有名稱存在一定的差異性,導(dǎo)致識(shí)別實(shí)體詞準(zhǔn)確性較低。
【發(fā)明內(nèi)容】
[0003]本發(fā)明提供一種修正實(shí)體詞識(shí)別的方法和裝置,以提高識(shí)別實(shí)體詞的準(zhǔn)確性。
[0004]—種修正實(shí)體詞識(shí)別的方法,為訓(xùn)練語料中的各個(gè)類別的實(shí)體詞配置對(duì)應(yīng)的標(biāo)注,還包括:
[0005]根據(jù)所述訓(xùn)練語料中的各個(gè)類別的實(shí)體詞對(duì)應(yīng)的標(biāo)注,對(duì)文本中分詞后的各個(gè)實(shí)體詞進(jìn)行標(biāo)注;
[0006]查看具有標(biāo)注的各個(gè)實(shí)體詞;
[0007]在接收到觸發(fā)時(shí),修正實(shí)體詞的標(biāo)注,并按照修正后的實(shí)體詞的標(biāo)注更新所述訓(xùn)練語料中實(shí)體詞的類別;
[0008]按照更新后的實(shí)體詞的類別,進(jìn)行分詞。
[0009]優(yōu)選地,在所述查看具有標(biāo)注的各個(gè)實(shí)體詞之后,在所述修正實(shí)體詞的標(biāo)注之前,進(jìn)一步包括:在接收到觸發(fā)時(shí),對(duì)所述各個(gè)實(shí)體詞中錯(cuò)誤的實(shí)體詞進(jìn)行重新分詞;
[0010]所述按照更新后的實(shí)體詞的類別,進(jìn)行分詞,包括:按照重新分詞后的各個(gè)實(shí)體詞和更新后的實(shí)體詞的類別,進(jìn)行分詞。
[0011]優(yōu)選地,所述為各個(gè)類別的實(shí)體詞配置對(duì)應(yīng)的標(biāo)注,包括:為各個(gè)類別的實(shí)體詞配置對(duì)應(yīng)的顯示顏色;
[0012]所述對(duì)文本中分詞后的各個(gè)實(shí)體詞進(jìn)行標(biāo)注,包括:為文本中分詞后的各個(gè)實(shí)體詞分配顯示顏色;
[0013]所述查看具有標(biāo)注的各個(gè)實(shí)體詞,包括:按照所述分配的顯示顏色,顯示所述各個(gè)實(shí)體詞;
[0014]所述修正實(shí)體詞的標(biāo)注,包括:修正實(shí)體詞的顯示顏色。
[0015]優(yōu)選地,在所述對(duì)文本中分詞后的各個(gè)實(shí)體詞進(jìn)行標(biāo)注之后,在所述查看具有標(biāo)注的各個(gè)實(shí)體詞之前,進(jìn)一步包括:將具有標(biāo)注的文本以html文件的形式保存;
[0016]所述查看具有標(biāo)注的各個(gè)實(shí)體詞,包括:查看所述html文件中具有標(biāo)注的各個(gè)實(shí)體詞。
[0017]優(yōu)選地,所述查看具有標(biāo)注的各個(gè)實(shí)體詞,包括:通過外設(shè)的瀏覽器查看具有標(biāo)注的各個(gè)實(shí)體詞。
[0018]優(yōu)選地,該方法進(jìn)一步包括:設(shè)置修正實(shí)體詞的反饋閾值;
[0019]在所述對(duì)文本中分詞后的各個(gè)實(shí)體詞進(jìn)行標(biāo)注之前,進(jìn)一步包括:通過外設(shè)的實(shí)體詞識(shí)別模型對(duì)文本進(jìn)行分詞;
[0020]在所述按照修正后的實(shí)體詞的標(biāo)注更新所述訓(xùn)練語料中實(shí)體詞的類別之后,在所述按照更新后的實(shí)體詞的類別,進(jìn)行分詞之前,進(jìn)一步包括:
[0021]確定修正實(shí)體詞的反饋值;
[0022]當(dāng)所述反饋值達(dá)到所述反饋閾值時(shí),根據(jù)更新后的訓(xùn)練語料,重建所述外設(shè)的實(shí)體詞識(shí)別模型;
[0023]所述按照更新后的實(shí)體詞的類別,進(jìn)行分詞,包括:按照更新后的實(shí)體詞的類別,利用所述重建的外設(shè)的所述實(shí)體詞識(shí)別模型進(jìn)行分詞。
[0024]—種修正實(shí)體詞識(shí)別裝置,包括:
[0025]配置單元,用于為訓(xùn)練語料中的各個(gè)類別的實(shí)體詞配置對(duì)應(yīng)的標(biāo)注;
[0026]修正單元,用于根據(jù)所述配置單元為所述各個(gè)類別的實(shí)體詞配置的對(duì)應(yīng)的標(biāo)注,對(duì)文本中分詞后的各個(gè)實(shí)體詞進(jìn)行標(biāo)注,并查看具有標(biāo)注的各個(gè)實(shí)體詞,在接收到觸發(fā)時(shí),修正實(shí)體詞的標(biāo)注,并更新所述訓(xùn)練語料中實(shí)體詞的類別;
[0027]分詞單元,用于按照所述修正單元更新后的實(shí)體詞的類別,進(jìn)行分詞。
[0028]優(yōu)選地,所述修正單元,進(jìn)一步用于在接收到觸發(fā)時(shí),對(duì)所述各個(gè)實(shí)體詞中錯(cuò)誤的實(shí)體詞進(jìn)行重新分詞;
[0029]所述分詞單元,用于按照所述修正單元進(jìn)行重新分詞后的各個(gè)實(shí)體詞和更新的實(shí)體詞的類別,進(jìn)行分詞。
[0030]優(yōu)選地,所述配置單元,用于為各個(gè)類別的實(shí)體詞配置對(duì)應(yīng)的顯示顏色;
[0031]所述修正單元,用于為文本中分詞后的各個(gè)實(shí)體詞分配顯示顏色,按照所述分配的顯示顏色,顯示所述各個(gè)實(shí)體詞,并修正實(shí)體詞的顯示顏色。
[0032]優(yōu)選地,所述修正單元,進(jìn)一步用于將具有標(biāo)注的文本以html文件的形式保存,并查看所述html文件中具有標(biāo)注的各個(gè)實(shí)體詞。
[0033]優(yōu)選地,所述修正單元,用于通過外設(shè)的瀏覽器查看具有標(biāo)注的各個(gè)實(shí)體詞。
[0034]優(yōu)選地,該裝置進(jìn)一步包括:重建單元,其中,
[0035]所述配置單元,進(jìn)一步用于設(shè)置修正實(shí)體詞的反饋閾值;
[0036]所述重建單元,用于確定修正實(shí)體詞的反饋值,當(dāng)所述反饋值達(dá)到所述確定單元確定的反饋閾值時(shí),根據(jù)更新后的訓(xùn)練語料,重建外設(shè)的實(shí)體詞識(shí)別模型;
[0037]所述分詞單元,用于按照更新后的實(shí)體詞的類別,觸發(fā)所述重建的外設(shè)的所述實(shí)體詞識(shí)別模型進(jìn)行分詞。
[0038]本發(fā)明實(shí)施例提供了一種修正實(shí)體詞識(shí)別的方法和裝置,該方法包括:為訓(xùn)練語料中的各個(gè)類別的實(shí)體詞配置對(duì)應(yīng)的標(biāo)注;根據(jù)所述訓(xùn)練語料中的各個(gè)類別的實(shí)體詞對(duì)應(yīng)的標(biāo)注,對(duì)文本中分詞后的各個(gè)實(shí)體詞進(jìn)行標(biāo)注;查看具有標(biāo)注的各個(gè)實(shí)體詞;在接收到觸發(fā)時(shí),修正實(shí)體詞的標(biāo)注,并更新所述訓(xùn)練語料中實(shí)體詞的類別;而按照更新后的實(shí)體詞的類別,即修正后的實(shí)體詞類別進(jìn)行分詞,可有效提高識(shí)別實(shí)體詞的準(zhǔn)確性。
【附圖說明】
[0039]圖1為本發(fā)明實(shí)施例提供的一種修正實(shí)體詞識(shí)別的方法的流程圖;
[0040]圖2為本發(fā)明另一實(shí)施例提供的一種修正實(shí)體詞識(shí)別的方法的流程圖;
[0041]圖3為本發(fā)明實(shí)施例提供的一種修正實(shí)體詞識(shí)別裝置所在架構(gòu)的結(jié)構(gòu)示意圖;
[0042]圖4為本發(fā)明實(shí)施例提供的一種修正實(shí)體詞識(shí)別裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0043]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實(shí)施例僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0044]如圖1所示,本發(fā)明實(shí)施例提供一種修正實(shí)體詞識(shí)別的方法,該修正實(shí)體詞識(shí)別的方法可以包括以下步驟:
[0045]步驟101:為訓(xùn)練語料中的各個(gè)類別的實(shí)體詞配置對(duì)應(yīng)的標(biāo)注;
[0046]步驟102:根據(jù)訓(xùn)練語料中的各個(gè)類別的實(shí)體詞對(duì)應(yīng)的標(biāo)注,對(duì)文本中分詞后的各個(gè)實(shí)體詞進(jìn)行標(biāo)注;
[0047]步驟103:查看具有標(biāo)注的各個(gè)實(shí)體詞;
[0048]步驟104:在接收到觸發(fā)時(shí),修正實(shí)體詞的標(biāo)注,并按照修正后的實(shí)體詞的標(biāo)注更新訓(xùn)練語料中實(shí)體詞的類別;
[0049]步驟105:按照更新后的實(shí)體詞的類別,進(jìn)行分詞。
[0050]在本發(fā)明一個(gè)實(shí)施例中,為了進(jìn)一步提高識(shí)別實(shí)體詞的準(zhǔn)確性,同時(shí)也提高分詞的準(zhǔn)確性,在步驟103之后,在步驟104之前,進(jìn)一步包括:在接收到觸發(fā)時(shí),對(duì)所述各個(gè)實(shí)體詞中錯(cuò)誤的實(shí)體詞進(jìn)行重新分詞;步驟105的【具體實(shí)施方式】:按照重新分詞后的各個(gè)實(shí)體詞和更新后的實(shí)體詞的類別,進(jìn)行分詞。
[0051]在本發(fā)明一個(gè)實(shí)施例中,為了能夠使標(biāo)注簡(jiǎn)單、明顯,對(duì)于非專業(yè)人員也很容易操控,步驟101的【具體實(shí)施方式】:為各個(gè)類別的實(shí)體詞配置對(duì)應(yīng)的顯示顏色;步驟102的【具體實(shí)施方式】:為文本中分詞后的各個(gè)實(shí)體詞分配顯示顏色;步驟103的【具體實(shí)施方式】:按照所述分配的顯示顏色,顯示所述各個(gè)實(shí)體詞;步驟104的【具體實(shí)施方式】:修正實(shí)體詞的顯示顏色。
[0052]在本發(fā)明一個(gè)實(shí)施例中,為了能夠使分詞后的文本方便管理和調(diào)用,在步驟102之后,在步驟103之前,進(jìn)一步包括:將具有標(biāo)注的文本以html