本公開涉及計(jì)算機(jī),具體而言,涉及一種文本匹配方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著計(jì)算機(jī)技術(shù)的發(fā)展,越來越多的系統(tǒng)利用人工智能技術(shù)回答用戶提出的問題。相關(guān)技術(shù)中的問答系統(tǒng)中采用關(guān)鍵詞匹配的方法將用戶提出的問題與問答庫(kù)中的問題進(jìn)行匹配,獲取與匹配成功的問句對(duì)應(yīng)的回答來回復(fù)客戶。由于中文含義的豐富性,直接根據(jù)關(guān)鍵字匹配來衡量句子之間的語(yǔ)義相似度,在一些情況下,尤其是復(fù)雜的語(yǔ)句環(huán)境下,問句匹配準(zhǔn)確率較低,從而導(dǎo)致問答準(zhǔn)確率較低。
2、如上所述,如何提高文本匹配的準(zhǔn)確率成為亟待解決的問題。
3、在所述背景技術(shù)部分公開的上述信息僅用于加強(qiáng)對(duì)本公開的背景的理解,因此它可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實(shí)現(xiàn)思路
1、本公開的目的在于提供一種文本匹配方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì),至少在一定程度上提高文本匹配的準(zhǔn)確率。
2、本公開的其他特性和優(yōu)點(diǎn)將通過下面的詳細(xì)描述變得顯然,或部分地通過本公開的實(shí)踐而習(xí)得。
3、根據(jù)本公開的一方面,提供一種文本匹配方法,包括:獲取待匹配文本的待匹配詞序列;獲取待匹配文本的候選匹配結(jié)果詞序列;基于自注意力機(jī)制分別獲得待匹配詞序列的詞嵌入向量和候選匹配結(jié)果詞序列的詞嵌入向量;對(duì)所述待匹配詞序列的詞嵌入向量和所述候選匹配結(jié)果詞序列的詞嵌入向量分別進(jìn)行特征提取處理,獲得待匹配詞序列的特征序列和候選匹配結(jié)果詞序列的特征序列;根據(jù)所述待匹配詞序列的特征序列和所述候選匹配結(jié)果詞序列的特征序列獲得相似性特征向量,所述相似性特征向量包含待匹配文本與候選匹配結(jié)果之間的相似性比較信息;基于所述相似性特征向量獲得待匹配文本與候選匹配結(jié)果之間的匹配結(jié)果。
4、根據(jù)本公開的一實(shí)施例,對(duì)所述待匹配詞序列的詞嵌入向量和所述候選匹配結(jié)果詞序列的詞嵌入向量分別進(jìn)行特征提取處理,獲得待匹配詞序列的特征序列和候選匹配結(jié)果詞序列的特征序列,包括:基于多頭注意力機(jī)制對(duì)所述待匹配詞序列的詞嵌入向量進(jìn)行特征提取處理,獲得所述待匹配詞序列的特征序列;基于多頭注意力機(jī)制對(duì)所述候選匹配結(jié)果詞序列的詞嵌入向量進(jìn)行特征提取處理,獲得所述候選匹配結(jié)果詞序列的特征序列。
5、根據(jù)本公開的一實(shí)施例,所述相似性特征向量包括待匹配詞序列的合成推理特征向量和候選匹配結(jié)果詞序列的合成推理特征向量;根據(jù)所述待匹配詞序列的特征序列和所述候選匹配結(jié)果詞序列的特征序列獲得相似性特征向量,包括:對(duì)所述待匹配詞序列的特征序列和所述候選匹配結(jié)果詞序列的特征序列進(jìn)行差異性計(jì)算,獲得待匹配詞序列的差異性特征序列和候選匹配結(jié)果詞序列的差異性特征序列;對(duì)所述待匹配詞序列的差異性特征序列和所述候選匹配結(jié)果詞序列的差異性特征序列分別進(jìn)行特征提取處理,獲得所述待匹配詞序列的合成推理特征向量和所述候選匹配結(jié)果詞序列的合成推理特征向量。
6、根據(jù)本公開的一實(shí)施例,對(duì)所述待匹配詞序列的差異性特征序列和所述候選匹配結(jié)果詞序列的差異性特征序列分別進(jìn)行特征提取處理,獲得所述待匹配詞序列的合成推理特征向量和所述候選匹配結(jié)果詞序列的合成推理特征向量,包括:基于多頭注意力機(jī)制對(duì)所述待匹配詞序列的差異性特征序列進(jìn)行特征提取處理,獲得所述待匹配詞序列的合成推理特征向量;基于多頭注意力機(jī)制對(duì)所述候選匹配結(jié)果詞序列的差異性特征序列進(jìn)行特征提取處理,獲得所述候選匹配結(jié)果詞序列的合成推理特征向量。
7、根據(jù)本公開的一實(shí)施例,對(duì)所述待匹配詞序列的特征序列和所述候選匹配結(jié)果詞序列的特征序列進(jìn)行差異性計(jì)算,獲得待匹配詞序列的差異性特征序列和候選匹配結(jié)果詞序列的差異性特征序列,包括:計(jì)算所述待匹配詞序列的特征序列和所述候選匹配結(jié)果詞序列的特征序列之間的注意力權(quán)重;根據(jù)所述注意力權(quán)重獲得待匹配詞序列的特征序列的加權(quán)序列和候選匹配結(jié)果詞序列的特征序列的加權(quán)序列;根據(jù)待匹配詞序列的特征序列及其加權(quán)序列獲得所述待匹配詞序列的差異性特征序列;根據(jù)候選匹配結(jié)果詞序列的特征序列及其加權(quán)序列獲得所述候選匹配結(jié)果詞序列的差異性特征序列。
8、根據(jù)本公開的一實(shí)施例,獲取待匹配文本的候選匹配結(jié)果詞序列,包括:從問答數(shù)據(jù)庫(kù)中獲得待匹配文本的候選匹配結(jié)果;對(duì)所述待匹配文本的候選匹配結(jié)果進(jìn)行分詞,獲得所述待匹配文本的候選匹配結(jié)果詞序列;所述方法還包括:根據(jù)所述待匹配文本與候選匹配結(jié)果之間的匹配結(jié)果更新所述問答數(shù)據(jù)庫(kù)。
9、根據(jù)本公開的一實(shí)施例,獲取待匹配文本的候選匹配結(jié)果詞序列,包括:獲取問答數(shù)據(jù)庫(kù)中的多個(gè)問句;分別計(jì)算所述待匹配文本的待匹配詞序列與各個(gè)問句的相似度得分;從所述多個(gè)問句選取與所述待匹配文本的待匹配詞序列的相似度得分最高的預(yù)設(shè)數(shù)量個(gè)問句,獲得待匹配文本的候選匹配結(jié)果;對(duì)所述待匹配文本的候選匹配結(jié)果中的各個(gè)問句進(jìn)行分詞,獲得所述待匹配文本的候選匹配結(jié)果詞序列。
10、根據(jù)本公開的一實(shí)施例,所述相似性特征向量包括待匹配詞序列的合成推理特征向量和候選匹配結(jié)果詞序列的合成推理特征向量;基于所述相似性特征向量獲得待匹配文本與候選匹配結(jié)果之間的匹配結(jié)果,包括:對(duì)所述待匹配詞序列的合成推理特征向量進(jìn)行平均池化和最大池化處理,獲得待匹配詞序列的平均池化特征值和最大池化特征值;對(duì)所述候選匹配結(jié)果詞序列的合成推理特征向量進(jìn)行平均池化和最大池化處理,獲得候選匹配結(jié)果詞序列的平均池化特征值和最大池化特征值;將所述待匹配詞序列的平均池化特征值和最大池化特征值、所述候選匹配結(jié)果詞序列的平均池化特征值和最大池化特征值排列為全連接輸入向量;將所述全連接輸入向量進(jìn)行加權(quán)與偏置處理,獲得分類器輸入向量;將所述分類器輸入向量通過軟最大分類器進(jìn)行分類,獲得所述待匹配文本與候選匹配結(jié)果之間的匹配結(jié)果。
11、根據(jù)本公開的一實(shí)施例,獲取待匹配文本的待匹配詞序列,包括:對(duì)待匹配文本進(jìn)行分詞處理,獲得待匹配文本的分詞結(jié)果;將所述待匹配文本的分詞結(jié)果與預(yù)設(shè)停用詞表進(jìn)行比對(duì),去除所述待匹配文本的分詞結(jié)果中的停用詞,獲得所述待匹配詞序列。
12、根據(jù)本公開的再一方面,提供一種文本匹配裝置,包括:第一獲取模塊,用于獲取待匹配文本的待匹配詞序列;第二獲取模塊,用于獲取待匹配文本的候選匹配結(jié)果詞序列;詞嵌入模塊,用于基于自注意力機(jī)制分別獲得待匹配詞序列的詞嵌入向量和候選匹配結(jié)果詞序列的詞嵌入向量;特征提取模塊,用于對(duì)所述待匹配詞序列的詞嵌入向量和所述候選匹配結(jié)果詞序列的詞嵌入向量分別進(jìn)行特征提取處理,獲得待匹配詞序列的特征序列和候選匹配結(jié)果詞序列的特征序列;相似性計(jì)算模塊,用于根據(jù)所述待匹配詞序列的特征序列和所述候選匹配結(jié)果詞序列的特征序列獲得相似性特征向量,所述相似性特征向量包含待匹配文本與候選匹配結(jié)果之間的相似性比較信息;分類模塊,用于基于所述相似性特征向量獲得待匹配文本與候選匹配結(jié)果之間的匹配結(jié)果。
13、根據(jù)本公開的再一方面,提供一種電子設(shè)備,包括:存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器中運(yùn)行的可執(zhí)行指令,所述處理器執(zhí)行所述可執(zhí)行指令時(shí)實(shí)現(xiàn)如上述任一種方法。
14、根據(jù)本公開的再一方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述可執(zhí)行指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種方法。
15、本公開的實(shí)施例提供的文本匹配方法,首先基于自注意力機(jī)制分別獲得待匹配詞序列的詞嵌入向量和候選匹配結(jié)果詞序列的詞嵌入向量,然后對(duì)待匹配詞序列的詞嵌入向量和候選匹配結(jié)果詞序列的詞嵌入向量分別進(jìn)行特征提取處理,獲得待匹配詞序列的特征序列和候選匹配結(jié)果詞序列的特征序列,再根據(jù)待匹配詞序列的特征序列和候選匹配結(jié)果詞序列的特征序列獲得包含待匹配文本與候選匹配結(jié)果之間的相似性比較信息的相似性特征向量,然后基于相似性特征向量獲得待匹配文本與候選匹配結(jié)果之間的匹配結(jié)果。通過自注意力機(jī)制來解決相關(guān)技術(shù)中詞嵌入向量難以提取問句的語(yǔ)義以及語(yǔ)法信息、無法獲取輸入問句中各單詞位置信息的技術(shù)問題,可一定程度上提高文本匹配的準(zhǔn)確率。
16、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性的,并不能限制本公開。