本發(fā)明涉及計(jì)算機(jī),特別涉及一種語料庫管理方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、在自然語言處理(nlp)和機(jī)器學(xué)習(xí)項(xiàng)目中,語料數(shù)據(jù)管理是至關(guān)重要的一環(huán),因?yàn)樗苯佑绊懙侥P陀?xùn)練的效果和效率。
2、在現(xiàn)有的語料數(shù)據(jù)管理技術(shù)中,語料數(shù)據(jù)的索引和檢索通常依賴于靜態(tài)的標(biāo)簽系統(tǒng),但在處理大規(guī)模數(shù)據(jù)時(shí)存在效率低下的問題。同時(shí)在標(biāo)簽系統(tǒng)需要更新時(shí),標(biāo)簽系統(tǒng)更新使用的時(shí)間與數(shù)據(jù)量成正比,這對于pb級別的數(shù)據(jù)來說是非常昂貴的開銷。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種語料庫管理方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,設(shè)計(jì)了一種靈活的、能夠?qū)崟r(shí)響應(yīng)數(shù)據(jù)變化的動態(tài)標(biāo)簽管理機(jī)制,用于索引和管理海量的語料數(shù)據(jù),能夠適應(yīng)不斷變化的語料數(shù)據(jù)和用戶需求,確保語料數(shù)據(jù)集始終更新。
2、為了實(shí)現(xiàn)上述目的和其他優(yōu)點(diǎn),本發(fā)明采用以下技術(shù)方案實(shí)現(xiàn):
3、第一方面,本發(fā)明提供一種語料庫管理方法,包括:
4、將語料數(shù)據(jù)入庫;
5、對所述語料數(shù)據(jù)進(jìn)行解析,從預(yù)設(shè)的標(biāo)簽信息表中確定與所述語料數(shù)據(jù)相關(guān)聯(lián)的至少一個(gè)語料標(biāo)簽;
6、將所述至少一個(gè)語料標(biāo)簽定義為標(biāo)簽組,并與所述語料數(shù)據(jù)進(jìn)行索引關(guān)聯(lián)后形成數(shù)據(jù)集;
7、監(jiān)聽所述標(biāo)簽組下的所述語料數(shù)據(jù),當(dāng)所述語料數(shù)據(jù)發(fā)生變化時(shí),將所述語料標(biāo)簽與發(fā)生變化的所述語料數(shù)據(jù)重新索引關(guān)聯(lián),以完成對所述數(shù)據(jù)集的更新。
8、根據(jù)本發(fā)明提供的一種語料庫管理方法,所述將語料數(shù)據(jù)入庫的步驟,包括:
9、對原始語料數(shù)據(jù)進(jìn)行預(yù)處理,得到語料數(shù)據(jù);
10、將所述語料數(shù)據(jù)通過客戶端上傳到分布式搜索引擎和對象存儲服務(wù)中,以完成語料入庫。
11、根據(jù)本發(fā)明提供的一種語料庫管理方法,所述對所述語料數(shù)據(jù)進(jìn)行解析,從預(yù)設(shè)的標(biāo)簽信息表中確定與所述語料數(shù)據(jù)相關(guān)聯(lián)的至少一個(gè)語料標(biāo)簽的步驟,包括:
12、對所述語料數(shù)據(jù)進(jìn)行解析處理,得到所述語料數(shù)據(jù)中的特征向量;
13、根據(jù)所述特征向量,計(jì)算所述標(biāo)簽信息表中每個(gè)類別標(biāo)簽與所述特征向量的相關(guān)性分?jǐn)?shù);
14、在所述相關(guān)性分?jǐn)?shù)大于或等于預(yù)設(shè)的閾值的情況下,確定所述類別標(biāo)簽為所述語料標(biāo)簽。
15、根據(jù)本發(fā)明提供的一種語料庫管理方法,所述將所述至少一個(gè)語料標(biāo)簽定義為標(biāo)簽組,并與所述語料數(shù)據(jù)進(jìn)行索引關(guān)聯(lián)后形成數(shù)據(jù)集的步驟,包括:
16、構(gòu)建標(biāo)簽數(shù)據(jù)索引表;
17、將所述標(biāo)簽組與對應(yīng)的所述語料數(shù)據(jù)構(gòu)造為映射關(guān)系數(shù)據(jù);
18、將所述映射關(guān)系數(shù)據(jù)緩存至與所述數(shù)據(jù)集相對應(yīng)的所述標(biāo)簽數(shù)據(jù)索引表中;
19、基于所述標(biāo)簽數(shù)據(jù)索引表,查找與所述標(biāo)簽組中的語料標(biāo)簽相關(guān)聯(lián)的所述語料數(shù)據(jù),將所述語料數(shù)據(jù)組合成所述數(shù)據(jù)集。
20、根據(jù)本發(fā)明提供的一種語料庫管理方法,還包括:
21、采用緩存技術(shù),將所述標(biāo)簽信息表以鍵值對的形式存儲在緩存池中。
22、根據(jù)本發(fā)明提供的一種語料庫管理方法,還包括:
23、監(jiān)聽所述標(biāo)簽組,當(dāng)所述標(biāo)簽組的語料標(biāo)簽發(fā)生新增或更新時(shí),同步對所述緩存池中的所述標(biāo)簽表進(jìn)行更新。
24、根據(jù)本發(fā)明提供的一種語料庫管理方法,還包括:
25、定時(shí)觸發(fā)更新任務(wù),重新讀取所述數(shù)據(jù)集的語料數(shù)據(jù),進(jìn)而對綁定在所述數(shù)據(jù)集上的所述語料標(biāo)簽進(jìn)行更新操作。
26、第二方面,本發(fā)明提供一種電子設(shè)備,所述電子設(shè)備包括:
27、一個(gè)或多個(gè)處理器;以及存儲有計(jì)算機(jī)程序指令的存儲器,所述計(jì)算機(jī)程序指令在被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述的語料庫管理方法的步驟。
28、第三方面,本發(fā)明提供一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序/指令,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述的語料庫管理方法的步驟。
29、第四方面,本發(fā)明提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述的語料庫管理方法的步驟。
30、本發(fā)明提供的一種語料庫管理方法、電子設(shè)備、存儲介質(zhì)及程序產(chǎn)品,通過將語料數(shù)據(jù)入庫;對所述語料數(shù)據(jù)進(jìn)行解析,從預(yù)設(shè)的標(biāo)簽信息表中確定與語料數(shù)據(jù)相關(guān)聯(lián)的至少一個(gè)語料標(biāo)簽;將至少一個(gè)語料標(biāo)簽定義為標(biāo)簽組,并與語料數(shù)據(jù)進(jìn)行索引關(guān)聯(lián)后形成數(shù)據(jù)集;監(jiān)聽標(biāo)簽組下的語料數(shù)據(jù),當(dāng)語料數(shù)據(jù)發(fā)生變化時(shí),將語料標(biāo)簽與發(fā)生變化的語料數(shù)據(jù)重新索引關(guān)聯(lián),以完成對數(shù)據(jù)集的更新。本發(fā)明設(shè)計(jì)了一種靈活的、能夠?qū)崟r(shí)響應(yīng)數(shù)據(jù)變化的動態(tài)標(biāo)簽管理機(jī)制,用于索引和管理海量的語料數(shù)據(jù),能夠適應(yīng)不斷變化的語料數(shù)據(jù)和用戶需求,確保語料數(shù)據(jù)集始終更新。通過優(yōu)化的索引策略,顯著提升了數(shù)據(jù)檢索的速度和準(zhǔn)確性,使用戶能夠快速定位到所需數(shù)據(jù)。該動態(tài)標(biāo)簽管理機(jī)制具有跨領(lǐng)域的應(yīng)用能力,能夠服務(wù)于不同行業(yè)的數(shù)據(jù)管理和分析需求。
1.一種語料庫管理方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的語料庫管理方法,其特征在于,所述將語料數(shù)據(jù)入庫的步驟,包括:
3.根據(jù)權(quán)利要求1所述的語料庫管理方法,其特征在于,所述對所述語料數(shù)據(jù)進(jìn)行解析,從預(yù)設(shè)的標(biāo)簽信息表中確定與所述語料數(shù)據(jù)相關(guān)聯(lián)的至少一個(gè)語料標(biāo)簽的步驟,包括:
4.根據(jù)權(quán)利要求1所述的語料庫管理方法,其特征在于,所述將所述至少一個(gè)語料標(biāo)簽定義為標(biāo)簽組,并與所述語料數(shù)據(jù)進(jìn)行索引關(guān)聯(lián)后形成數(shù)據(jù)集的步驟,包括:
5.根據(jù)權(quán)利要求1所述的語料庫管理方法,其特征在于,還包括:
6.根據(jù)權(quán)利要求5所述的語料庫管理方法,其特征在于,還包括:
7.根據(jù)權(quán)利要求1所述的語料庫管理方法,其特征在于,還包括:
8.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
9.一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序/指令,其特征在于,所述計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的語料庫管理方法的步驟。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,其特征在于,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-7任一項(xiàng)所述的語料庫管理方法的步驟。