欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

人機(jī)智能問答系統(tǒng)的斷句識別方法和裝置與流程

文檔序號:12837196閱讀:396來源:國知局
人機(jī)智能問答系統(tǒng)的斷句識別方法和裝置與流程

本申請涉及計算機(jī)技術(shù)領(lǐng)域,具體涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及人機(jī)智能問答系統(tǒng)的斷句識別方法和裝置。



背景技術(shù):

隨著人機(jī)智能技術(shù)的發(fā)展,越來越多的問答系統(tǒng)采用人機(jī)智能技術(shù)?,F(xiàn)有的人機(jī)智能問答系統(tǒng)通常采用一問一答的形式,即默認(rèn)用戶輸入為一個完整語句,而后針對該完整語句反饋問題的答案。而實(shí)際上人機(jī)對話的過程中,用戶可能會將一個完整的語句拆成多個斷句進(jìn)行表達(dá),比如用戶可能會將“我想問一下東西送到北京需要多久”,拆分成“我想問一下”和“東西送到北京需要多久”兩個斷句進(jìn)行輸入。針對這種情況,就需要人機(jī)智能問答系統(tǒng)能夠準(zhǔn)確判斷出用戶輸入語句的完整性。

現(xiàn)有的人機(jī)智能問答系統(tǒng)通常是采用漢語言語言模型(n-gram模型)通過預(yù)測下一個詞出現(xiàn)的概率來判斷輸入語句為完整語句的概率。但是,由于n-gram模型自身具有局限性,n的取值通常只能為2或3,即當(dāng)前詞的出現(xiàn)只與前面1個或2個詞相關(guān),導(dǎo)致該模型因信息缺失而不能準(zhǔn)確判斷輸入語句是否為完整語句。



技術(shù)實(shí)現(xiàn)要素:

本申請的目的在于提出一種改進(jìn)的人機(jī)智能問答系統(tǒng)的斷句識別方法和裝置,來解決以上背景技術(shù)部分提到的技術(shù)問題。

第一方面,本申請?zhí)峁┝艘环N人機(jī)智能問答系統(tǒng)的斷句識別方法,所述方法包括:接收用戶輸入的當(dāng)前語句;將所述當(dāng)前語句輸入預(yù)先訓(xùn)練的斷句識別模型得到所述當(dāng)前語句為完整語句的第一概率,其中,所述斷句識別模型用于根據(jù)所述當(dāng)前語句的漢語言模型對應(yīng)的概率和 循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型對應(yīng)的概率確定所述第一概率;若所述第一概率大于預(yù)設(shè)的第一閾值,則確定所述當(dāng)前語句為完整語句。

在一些實(shí)施例中,所述方法還包括:基于循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型,確定所述當(dāng)前語句的第一個詞出現(xiàn)在與所述當(dāng)前語句相鄰的上一句中的第二概率;若所述第二概率大于預(yù)設(shè)的第二閾值,則確定所述當(dāng)前語句和與所述當(dāng)前語句相鄰的上一句均為斷句;將所述當(dāng)前語句與所述上一句相結(jié)合作為完整語句。

在一些實(shí)施例中,所述方法還包括:建立斷句識別模型的步驟,包括:獲取問題語料庫,其中,所述問題語料庫包括多個問題語料,所述問題語料為完整語句;對各所述問題語料分詞生成多個斷句;根據(jù)所述斷句中包含詞的數(shù)目以及該斷句對應(yīng)的完整語句包含詞的數(shù)目,確定各所述斷句的分值,其中,所述分值用于表征與之對應(yīng)的斷句為完整語句的概率;確定各所述斷句的所述漢語言模型對應(yīng)的概率和循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型對應(yīng)的概率;以各所述斷句的所述概率以及該斷句的分值為訓(xùn)練樣本,訓(xùn)練得到所述斷句識別模型。

在一些實(shí)施例中,所述對各所述問題語料分詞生成多個斷句,包括:生成所述斷句的步驟,包括:對第一問題語料進(jìn)行分詞處理,獲取由n個詞組成的第一問題語料,其中,所述第一問題語料為所述問題語料庫中的任一問題語料,n為自然數(shù);在所述第一問題語料中取第1~i個詞,生成第i個語句,其中,1≤i≤n;生成所述第一問題語料對應(yīng)的n個斷句;基于所述生成所述斷句的步驟,生成所述問題語料庫中各所述第一問題語料對應(yīng)的斷句。

在一些實(shí)施例中,所述方法還包括:若所述第一概率小于或等于預(yù)設(shè)的第一閾值,則確定所述當(dāng)前語句為斷句;提示用戶繼續(xù)輸入的提示信息。

第二方面,本申請?zhí)峁┝艘环N人機(jī)智能問答系統(tǒng)的斷句識別裝置,所述裝置包括:當(dāng)前語句接收模塊,配置用于接收用戶輸入的當(dāng)前語句;第一概率獲取模塊,配置用于將所述當(dāng)前語句輸入預(yù)先訓(xùn)練的斷句識別模型得到所述當(dāng)前語句為完整語句的第一概率,其中,所述斷句識別模型用于根據(jù)所述當(dāng)前語句的漢語言模型對應(yīng)的概率和循環(huán)神 經(jīng)網(wǎng)絡(luò)語言模型對應(yīng)的概率確定所述第一概率;完整語句確定模塊,配置用于若所述第一概率大于預(yù)設(shè)的第一閾值,則確定所述當(dāng)前語句為完整語句。

在一些實(shí)施例中,所述裝置還包括:第二概率確定模塊,配置用于基于循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型,確定所述當(dāng)前語句的第一個詞出現(xiàn)在與所述當(dāng)前語句相鄰的上一句中的第二概率;若所述第二概率大于預(yù)設(shè)的第二閾值,則確定所述當(dāng)前語句和與所述當(dāng)前語句相鄰的上一句均為斷句;將所述當(dāng)前語句與所述上一句相結(jié)合作為完整語句。

在一些實(shí)施例中,所述裝置還包括:斷句識別模型建立模塊,配置用于建立斷句識別模型,所述斷句識別模型建立模塊包括:問題語料庫獲取單元,配置用于獲取問題語料庫,其中,所述問題語料庫包括多個問題語料,所述問題語料為完整語句;斷句生成單元,配置用于對各所述問題語料分詞生成多個斷句;分值確定單元,配置用于根據(jù)所述斷句中包含詞的數(shù)目以及該斷句對應(yīng)的完整語句包含詞的數(shù)目,確定各所述斷句的分值,其中,所述分值用于表征與之對應(yīng)的斷句為完整語句的概率;概率確定單元,配置用于確定各所述斷句的所述漢語言模型對應(yīng)的概率和循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型對應(yīng)的概率;斷句識別模型訓(xùn)練單元,配置用于以各所述斷句的所述概率以及該斷句的分值為訓(xùn)練樣本,訓(xùn)練得到所述斷句識別模型。

在一些實(shí)施例中,所述斷句生成單元配置具體用于:生成所述斷句,且生成所述斷句的步驟包括:對第一問題語料進(jìn)行分詞處理,獲取由n個詞組成的第一問題語料,其中,所述第一問題語料為所述問題語料庫中的任一問題語料,n為自然數(shù);在所述第一問題語料中取第1~i個詞,生成第i個語句,其中,1≤i≤n;生成所述第一問題語料對應(yīng)的n個斷句;基于所述生成所述斷句的步驟,生成所述問題語料庫中各所述第一問題語料對應(yīng)的斷句。

在一些實(shí)施例中,所述裝置還包括:斷句確定模塊,配置用于若所述第一概率小于或等于預(yù)設(shè)的第一閾值,則確定所述當(dāng)前語句為斷句;生成提示用戶繼續(xù)輸入的提示信息。

本申請?zhí)峁┑娜藱C(jī)智能問答系統(tǒng)的斷句識別方法和裝置,首先接 收用戶輸入的當(dāng)前語句,之后將接收到的當(dāng)前語句輸入預(yù)先訓(xùn)練的斷句識別模型,以獲取該當(dāng)前語句為完整語句的第一概率,而后判斷該第一概率是否大于預(yù)設(shè)的第一閾值,若是,則確定該當(dāng)前語句為完整語句,該方法將漢語言模型和循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型相融合獲得用于確定當(dāng)前語句為完整語句的概率的斷句識別模型,該斷句識別模型可以提高人機(jī)智能問答系統(tǒng)判斷所述當(dāng)前語句為完整語句的準(zhǔn)確率。

附圖說明

通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述,本申請的其它特征、目的和優(yōu)點(diǎn)將會變得更明顯:

圖1是本申請可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;

圖2是根據(jù)本申請的人機(jī)智能問答系統(tǒng)的斷句識別方法的一個實(shí)施例的流程圖;

圖3是根據(jù)本申請的人機(jī)智能問答系統(tǒng)的斷句識別方法中,獲得預(yù)先訓(xùn)練的斷句識別模型的一種實(shí)現(xiàn)方式的示意性流程圖;

圖4是根據(jù)本申請的人機(jī)智能問答系統(tǒng)的斷句識別方法的又一個實(shí)施例的流程圖;

圖5是根據(jù)本申請的人機(jī)智能問答系統(tǒng)的斷句識別裝置的一個實(shí)施例的結(jié)構(gòu)示意圖;

圖6是適于用來實(shí)現(xiàn)本申請實(shí)施例的終端設(shè)備或服務(wù)器的計算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例對本申請作進(jìn)一步的詳細(xì)說明。可以理解的是,此處所描述的具體實(shí)施例僅僅用于解釋相關(guān)發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。

需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本申請。

圖1示出了可以應(yīng)用本申請的人機(jī)智能問答系統(tǒng)的斷句識別方法或人機(jī)智能問答系統(tǒng)的斷句識別裝置的實(shí)施例的示例性系統(tǒng)架構(gòu)100。

如圖1所示,系統(tǒng)架構(gòu)100可以包括終端設(shè)備101、102、103,網(wǎng)絡(luò)104和服務(wù)器105。網(wǎng)絡(luò)104用以在終端設(shè)備101、102、103和服務(wù)器105之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。

用戶可以使用終端設(shè)備101、102、103通過網(wǎng)絡(luò)104與服務(wù)器105交互,以接收或發(fā)送消息等。終端設(shè)備101、102、103上可以安裝有各種通訊客戶端應(yīng)用,例如即時通信軟件、購物類應(yīng)用、搜索類應(yīng)用、網(wǎng)頁瀏覽器應(yīng)用、社交平臺軟件等。

終端設(shè)備101、102、103可以是具有顯示屏并且支持人機(jī)智能問答的各種電子設(shè)備,包括但不限于智能手機(jī)、平板電腦、電子書閱讀器、mp3播放器(movingpictureexpertsgroupaudiolayeriii,動態(tài)影像專家壓縮標(biāo)準(zhǔn)音頻層面3)、mp4(movingpictureexpertsgroupaudiolayeriv,動態(tài)影像專家壓縮標(biāo)準(zhǔn)音頻層面4)播放器、膝上型便攜計算機(jī)和臺式計算機(jī)等等。

服務(wù)器105可以是提供各種服務(wù)的服務(wù)器,例如對終端設(shè)備101、102、103發(fā)送的當(dāng)前語句提供支持的后臺服務(wù)器。后臺服務(wù)器可以對接收到的當(dāng)前語句等數(shù)據(jù)進(jìn)行統(tǒng)計、分析等處理,并將處理結(jié)果反饋給終端設(shè)備。

需要說明的是,本申請實(shí)施例所提供的人機(jī)智能問答系統(tǒng)的斷句識別方法一般由服務(wù)器105執(zhí)行,相應(yīng)地,人機(jī)智能問答系統(tǒng)的斷句識別裝置一般設(shè)置于服務(wù)器105中。

應(yīng)該理解,圖1中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目僅僅是示意性的。根據(jù)實(shí)現(xiàn)需要,可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器。

繼續(xù)參考圖2,其示出了根據(jù)本申請的人機(jī)智能問答系統(tǒng)的斷句識別方法的一個實(shí)施例的流程200。所述的人機(jī)智能問答系統(tǒng)的斷句識別方法,包括以下步驟:

步驟201,接收用戶輸入的當(dāng)前語句。

在本實(shí)施例中,人機(jī)智能問答方法運(yùn)行于其上的電子設(shè)備(例如圖1所示的服務(wù)器)可以通過有線連接方式或者無線連接方式從用戶利用其進(jìn)行人機(jī)智能問答的終端接收用戶輸入的當(dāng)前語句。需要指出的是,上述無線連接方式可以包括但不限于3g/4g連接、wifi連接、藍(lán)牙連接、wimax連接、zigbee連接、uwb(ultrawideband)連接、以及其他現(xiàn)在已知或?qū)黹_發(fā)的無線連接方式。

通常,在人機(jī)智能問答系統(tǒng)中,當(dāng)用戶一次輸入完成后即認(rèn)為用戶已經(jīng)輸入了當(dāng)前語句,而不考慮該語句是否為完整語句。例如,當(dāng)用戶想要詢問東西送到北京要多久時,不論用戶輸入為類似于“我想問一下”的斷句,還是類似于“我想問一下東西送到北京要多久”的整句,都可以認(rèn)為用戶輸入的是當(dāng)前語句。

步驟202,將當(dāng)前語句輸入預(yù)先訓(xùn)練的斷句識別模型得到當(dāng)前語句為完整語句的第一概率。

在本實(shí)施例中,人機(jī)智能問答系統(tǒng)的斷句識別方法運(yùn)行與其上的電子設(shè)備可以預(yù)先訓(xùn)練一個斷句識別模型,該斷句識別模型可以用于根據(jù)用戶輸入的當(dāng)前語句的漢語言模型對應(yīng)的概率和循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型對應(yīng)的概率確定當(dāng)前語句為完整語句的第一概率?;诓襟E201接收到的用戶輸入的當(dāng)前語句,上述電子設(shè)備可以將該當(dāng)前語句輸入上述斷句識別模型,獲取上述當(dāng)前語句為完整語句的第一概率。

步驟203,若第一概率大于預(yù)設(shè)的第一閾值,則確定當(dāng)前語句為完整語句。

在本實(shí)施例中,人機(jī)智能問答系統(tǒng)的斷句識別方法運(yùn)行與其上的電子設(shè)備可以預(yù)先設(shè)置一個第一閾值,而后基于步驟202獲得的上述當(dāng)前語句為完整語句的第一概率,上述電子設(shè)備可以判斷該第一概率與上述第一閾值的大小關(guān)系,如果上述第一概率大于預(yù)設(shè)的第一閾值,則可以認(rèn)為上述當(dāng)前語句為完整語句。

在本實(shí)施例的一些可選的實(shí)現(xiàn)方式中,如果上述第一概率小于或等于預(yù)設(shè)的第一閾值,則可以認(rèn)為上述當(dāng)前語句為斷句。上述電子設(shè)備可以生成用于提示用戶繼續(xù)輸入的提示信息,該提示信息可以類似于“嗯,您說”等。

本申請的上述實(shí)施例提供的人機(jī)智能問答系統(tǒng)的斷句識別方法,首先接收用戶輸入的當(dāng)前語句,之后將接收到的當(dāng)前語句輸入預(yù)先訓(xùn)練的斷句識別模型,以獲取該當(dāng)前語句為完整語句的第一概率,而后判斷該第一概率是否大于預(yù)設(shè)的第一閾值,若是,則確定該當(dāng)前語句為完整語句,該方法將漢語言模型和循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型相融合獲得用于確定當(dāng)前語句為完整語句的概率的斷句識別模型,該斷句識別模型可以提高人機(jī)智能問答系統(tǒng)判斷上述當(dāng)前語句為完整語句的準(zhǔn)確率。

在一些可選的方案中,步驟202中用到的預(yù)先訓(xùn)練的斷句識別模型可以通過如圖3所示的流程300來建立。

步驟301,獲取問題語料庫。

在本實(shí)現(xiàn)方式中,人機(jī)智能問答系統(tǒng)的斷句識別方法運(yùn)行于其上的電子設(shè)備可以從歷史的人機(jī)問答數(shù)據(jù)中選取完整的問題語料組成問題語料庫。這里的問題語料庫可以包括多個問題語料,并且各問題語料均為完整語句。以電商領(lǐng)域的人機(jī)智能問答系統(tǒng)的咨詢數(shù)據(jù)為例,其包括在線咨詢數(shù)據(jù)和離線咨詢數(shù)據(jù),而離線咨詢數(shù)據(jù)因不是實(shí)時交互數(shù)據(jù),通常都是較為完整的語句,因此可以選取人機(jī)智能問答系統(tǒng)中離線咨詢數(shù)據(jù)組成上述問題語料庫。

需要說明的是,上述電子設(shè)備還需要對上述獲取的問題語料庫進(jìn)一步處理。首先,可以將包含多個完整句子的問題語料做分句處理,這里可以將問題語料中的逗號、頓號等刪除后,將問號、句號、嘆號等作為分隔符對問題語料進(jìn)行分句處理。其次,還可以在每個完整語句的后面添加一個例如<end>等的結(jié)束標(biāo)記。

步驟302,對各問題語料分詞生成多個斷句。

在本實(shí)施例中,上述電子設(shè)備可以通過各種手段將上述問題語料庫中的各問題語料做分詞處理。之后,根據(jù)分詞生成各問題語料對應(yīng)的斷句。以問題語料“這手機(jī)是金屬機(jī)身嗎”為例,可以首先做分詞處理,獲取分詞結(jié)果為“這手機(jī)是金屬機(jī)身嗎”,而后獲取該問題語料對應(yīng)的斷句。

需要說明的是,上述電子設(shè)備可以通過如下步驟獲取各問題語料 對應(yīng)的斷句:首先,上述電子設(shè)備可以對第一問題語料進(jìn)行分詞處理,獲取由n個詞組成的第一問題語料,這里的第一問題語料可以為上述問題語料庫中的任一問題語料,n為自然數(shù);之后,上述電子設(shè)備可以在第一問題語料中取第1~i個詞,生成第i個斷句;最后,根據(jù)上述方法生成上述第一問題語料對應(yīng)的n個斷句,1≤i≤n。上述電子設(shè)備可以利用上述方法生成問題語料庫中各問題語料對應(yīng)的斷句。例如,若上述第一問題語料為“這手機(jī)是金屬機(jī)身嗎”,首先可以將該第一問題語料進(jìn)行分詞處理,得到分詞結(jié)果為“這手機(jī)是金屬機(jī)身嗎”,由此可見,該第一問題語料包括6個詞,而后可以獲取上述第一問題語料對應(yīng)的6個斷句,該第一問題預(yù)料的6個斷句分別為:“這”、“這手機(jī)”、“這手機(jī)是”、“這手機(jī)是金屬”、“這手機(jī)是金屬機(jī)身”、“這手機(jī)是金屬機(jī)身嗎”,并且其中的“這手機(jī)是金屬機(jī)身嗎”可以認(rèn)為是斷句的一種。

步驟303,根據(jù)斷句中包含詞的數(shù)目以及該斷句對應(yīng)的完整語句包含詞的數(shù)目,確定各斷句的分值。

在本實(shí)現(xiàn)方式中,基于步驟302獲取的第一問題語料以及第一問題語料對應(yīng)的斷句,上述電子設(shè)備可以確定各斷句以及該斷句對應(yīng)的完整語句所包含詞的數(shù)目,進(jìn)而將各斷句中所包含的詞數(shù)除以該斷句對應(yīng)的完整語句所包含的詞數(shù),得到的分值即為該斷句為完整語句的概率。以第一問題語料“這手機(jī)是金屬機(jī)身嗎”和其對應(yīng)的斷句“這手機(jī)是”和“這手機(jī)是金屬機(jī)身嗎”為例,上述第一問題語料包含的詞數(shù)為6,其對應(yīng)的上述斷句包含的詞數(shù)為3和6,由此可見,用于表征上述兩個斷句為完整語句概率的分值為0.5和1。

步驟304,確定各斷句的漢語言模型對應(yīng)的概率和循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型對應(yīng)的概率。

在本實(shí)現(xiàn)方式中,上述電子設(shè)備利用漢語言模型和循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型,分別確定各斷句的為完整語句的概率。此方式與現(xiàn)有技術(shù)中的僅通過漢語言模型確定完整語句概率的方式相比,可以有效地避免因數(shù)據(jù)稀疏導(dǎo)致的模型準(zhǔn)確率低的問題。

步驟305,以各斷句的概率以及該斷句的分值為訓(xùn)練樣本,訓(xùn)練 得到斷句識別模型。

在本實(shí)現(xiàn)方式中,基于步驟303確定的各斷句的分值和步驟304確定的各斷句的漢語言模型對應(yīng)的概率和循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型對應(yīng)的概率,上述電子設(shè)備可以采用線性回歸算法等訓(xùn)練生成上述斷句識別模型。這里的斷句識別模型可以是形如y=f(x1,x2)的公式,其中,x1、x2分別指任一語句的漢語言模型對應(yīng)的概率和循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型對應(yīng)的概率,y為該語句為完整語句的概率。

本申請的上述實(shí)施例的實(shí)現(xiàn)方式提供的斷句識別模型的訓(xùn)練方法,對問題語料庫中的各問題語料分詞處理以獲取各問題語料對應(yīng)的斷句,而后獲取各斷句的分值、漢語言模型對應(yīng)的概率以及循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型對應(yīng)的概率作為訓(xùn)練數(shù)據(jù),最后采用線性回歸算法等訓(xùn)練上述訓(xùn)練數(shù)據(jù)訓(xùn)練獲得斷句識別模型,該斷句識別模型融合了漢語言模型和循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型的優(yōu)點(diǎn),可以有效地提高人機(jī)智能問答系統(tǒng)判斷當(dāng)前語句為完整語句的準(zhǔn)確率。

進(jìn)一步參考圖4,其示出了人機(jī)智能問答系統(tǒng)的斷句識別方法的又一個實(shí)施例的流程400。該人機(jī)智能問答系統(tǒng)的斷句識別方法的流程400,包括以下步驟:

步驟401,接收用戶輸入的當(dāng)前語句。

在本實(shí)施例中,人機(jī)智能問答方法運(yùn)行于其上的電子設(shè)備(例如圖1所示的服務(wù)器)可以通過有線連接方式或者無線連接方式從用戶利用其進(jìn)行人機(jī)智能問答的終端接收用戶輸入的當(dāng)前語句。

步驟402,將當(dāng)前語句輸入預(yù)先訓(xùn)練的斷句識別模型得到當(dāng)前語句為完整語句的第一概率。

在本實(shí)施例中,人機(jī)智能問答系統(tǒng)的斷句識別方法運(yùn)行與其上的電子設(shè)備可以將用戶輸入的當(dāng)前語句輸入上述訓(xùn)練的斷句識別模型,以獲取上述當(dāng)前語句為完整語句的第一概率。這里的該斷句識別模型可以用于根據(jù)用戶輸入的當(dāng)前語句的漢語言模型對應(yīng)的概率和循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型對應(yīng)的概率確定當(dāng)前語句為完整語句的第一概率。

步驟403,若第一概率大于預(yù)設(shè)的第一閾值,則確定當(dāng)前語句為完整語句。

在本實(shí)施例中,人機(jī)智能問答系統(tǒng)的斷句識別方法運(yùn)行與其上的電子設(shè)備可以預(yù)先設(shè)置一個第一閾值,而后基于步驟402獲得的上述當(dāng)前語句為完整語句的第一概率,上述電子設(shè)備可以判斷該第一概率與上述第一閾值的大小關(guān)系,如果上述第一概率大于預(yù)設(shè)的第一閾值,則可以認(rèn)為上述當(dāng)前語句為完整語句。

步驟404,基于循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型,確定當(dāng)前語句的第一個詞出現(xiàn)在與當(dāng)前語句相鄰的上一句中的第二概率。

在本實(shí)施例中,基于步驟403確定的當(dāng)前語句為完整語句,上述電子設(shè)備可以首先獲取與上述當(dāng)前語句相鄰的上一句以及當(dāng)前語句中的第一個詞,而后采用循環(huán)神經(jīng)網(wǎng)絡(luò)模型預(yù)測當(dāng)前語句的第一個詞出現(xiàn)在與當(dāng)前語句相鄰的上一句中的第二概率。

步驟405,若第二概率大于預(yù)設(shè)的第二閾值,則確定當(dāng)前語句和與當(dāng)前語句相鄰的上一句均為斷句。

在本實(shí)施例中,上述電子設(shè)備可以預(yù)先設(shè)置一個第二閾值,之后將上述第二概率與第二閾值相比較。如果比較結(jié)果為第二概率大于上述第二閾值,則可以認(rèn)為上述當(dāng)前語句和與當(dāng)前語句相鄰的上一句均為斷句。如果比較結(jié)果為第二概率小于或等于上述第二閾值,則可以認(rèn)為與當(dāng)前語句相鄰得上一句為完整語句。

步驟406,將當(dāng)前語句與上一句相結(jié)合作為完整語句。

在本實(shí)施例中,基于步驟405確定的當(dāng)前語句和與當(dāng)前語句相鄰的上一句均為斷句,上述電子設(shè)備可以將當(dāng)前語句和與當(dāng)前語句相鄰的上一句相結(jié)合作為完整語句。由此可見,上述步驟404、405和406可以認(rèn)為是對當(dāng)前語句是否為完整語句的進(jìn)一步判斷,可以進(jìn)一步提高判斷當(dāng)前語句為完整語句的準(zhǔn)確率。并且該實(shí)施例實(shí)現(xiàn)了人機(jī)智能問答系統(tǒng)的多問一答的形式,即當(dāng)用戶輸入大于一個斷句的情況下,人機(jī)智能問答系統(tǒng)可以只進(jìn)行一次反饋回答。

從圖4中可以看出,與圖2對應(yīng)的實(shí)施例相比,本實(shí)施例中的人機(jī)智能問答系統(tǒng)的斷句識別方法的流程400突出了對當(dāng)前語句是否為完整語句的進(jìn)一步判斷的步驟。由此,本實(shí)施例描述的方案可以通過循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型對當(dāng)前語句是否為完整語句進(jìn)行再次的判斷, 進(jìn)一步地提高了判斷當(dāng)前語句為完整語句的準(zhǔn)確率。

進(jìn)一步參考圖5,作為對上述各圖所示方法的實(shí)現(xiàn),本申請?zhí)峁┝艘环N人機(jī)智能問答系統(tǒng)的斷句識別裝置的一個實(shí)施例,該裝置實(shí)施例與圖2所示的方法實(shí)施例相對應(yīng),該裝置具體可以應(yīng)用于各種電子設(shè)備中。

如圖5所示,本實(shí)施例所述的人機(jī)智能問答裝置500包括:當(dāng)前語句接收模塊501、第一概率獲取模塊502和完整語句確定模塊503。其中,當(dāng)前語句接收模塊501配置用于接收用戶輸入的當(dāng)前語句;第一概率獲取模塊502配置用于將上述當(dāng)前語句輸入預(yù)先訓(xùn)練的斷句識別模型得到該當(dāng)前語句為完整語句的第一概率,其中,斷句識別模型用于根據(jù)上述當(dāng)前語句的漢語言模型對應(yīng)的概率和循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型對應(yīng)的概率確定第一概率;完整語句確定模塊503配置用于若上述第一概率大于預(yù)設(shè)的第一閾值,則確定上述當(dāng)前語句為完整語句。

在本實(shí)施例的一些可選的實(shí)現(xiàn)方式中,上述裝置500還包括第二概率確定模塊(未示出),配置用于基于循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型,確定上述當(dāng)前語句的第一個詞出現(xiàn)在與該當(dāng)前語句相鄰的上一句中的第二概率;若該第二概率大于預(yù)設(shè)的第二閾值,則確定當(dāng)前語句和與該當(dāng)前語句相鄰的上一句均為斷句;將上述當(dāng)前語句與上述上一句相結(jié)合作為完整語句。

在本實(shí)施例的一些可選的實(shí)現(xiàn)方式中,上述裝置500還包括斷句識別模型建立模塊(未示出),配置用于建立斷句識別模型,該斷句識別模型建立模塊包括:問題語料庫獲取單元(未示出),配置用于獲取問題語料庫,其中,問題語料庫包括多個問題語料,各問題語料為完整語句;斷句生成單元(未示出),配置用于對各問題語料分詞生成多個斷句;分值確定單元(未示出),配置用于根據(jù)上述斷句中包含詞的數(shù)目以及該斷句對應(yīng)的完整語句包含詞的數(shù)目,確定各斷句的分值,其中,該分值用于表征與之對應(yīng)的斷句為完整語句的概率;概率確定單元(未示出),配置用于確定各上述斷句的漢語言模型對應(yīng)的概率和循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型對應(yīng)的概率;斷句識別模型訓(xùn)練單元(未示出),配置用于以各上述斷句的概率以及該斷句的分值為訓(xùn)練樣本,訓(xùn)練得 到斷句識別模型。

在本實(shí)施例的一些可選的實(shí)現(xiàn)方式中,上述斷句生成單元(未示出)配置具體用于:生成各問題語料的斷句,生成斷句的步驟包括:對第一問題語料進(jìn)行分詞處理,獲取由n個詞組成的第一問題語料,其中,第一問題語料為上述問題語料庫中的任一問題語料,n為自然數(shù);在上述第一問題語料中取第1~i個詞,生成第i個語句,其中,1≤i≤n;生成上述第一問題語料對應(yīng)的n個斷句;基于上述生成斷句的步驟,生成上述問題語料庫中各第一問題語料對應(yīng)的斷句。

在本實(shí)施例的一些可選的實(shí)現(xiàn)方式中,上述裝置500還包括斷句確定模塊(未示出)配置用于若上述第一概率小于或等于預(yù)設(shè)的第一閾值,則確定上述當(dāng)前語句為斷句;生成提示用戶繼續(xù)輸入的提示信息。

本領(lǐng)域技術(shù)人員可以理解,上述人機(jī)智能問答系統(tǒng)的斷句識別裝置500還包括一些其他公知結(jié)構(gòu),例如處理器、存儲器等,為了不必要地模糊本公開的實(shí)施例,這些公知的結(jié)構(gòu)在圖5中未示出。

下面參考圖6,其示出了適于用來實(shí)現(xiàn)本申請實(shí)施例的終端設(shè)備或服務(wù)器的計算機(jī)系統(tǒng)600的結(jié)構(gòu)示意圖。

如圖6所示,計算機(jī)系統(tǒng)600包括中央處理單元(cpu)601,其可以根據(jù)存儲在只讀存儲器(rom)602中的程序或者從存儲部分608加載到隨機(jī)訪問存儲器(ram)603中的程序而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚?。在ram603中,還存儲有系統(tǒng)600操作所需的各種程序和數(shù)據(jù)。cpu601、rom602以及ram603通過總線604彼此相連。輸入/輸出(i/o)接口605也連接至總線604。

以下部件連接至i/o接口605:包括鍵盤、鼠標(biāo)等的輸入部分606;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚(yáng)聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分609。通信部分609經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器610也根據(jù)需要連接至i/o接口605??刹鹦督橘|(zhì)611,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器610上,以便于從其上讀出的計算機(jī)程序根據(jù) 需要被安裝入存儲部分608。

特別地,根據(jù)本公開的實(shí)施例,上文參考流程圖描述的過程可以被實(shí)現(xiàn)為計算機(jī)軟件程序。例如,本公開的實(shí)施例包括一種計算機(jī)程序產(chǎn)品,其包括有形地包含在機(jī)器可讀介質(zhì)上的計算機(jī)程序,所述計算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實(shí)施例中,該計算機(jī)程序可以通過通信部分609從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)611被安裝。

附圖中的流程圖和框圖,圖示了按照本申請各種實(shí)施例的系統(tǒng)、方法和計算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計算機(jī)指令的組合來實(shí)現(xiàn)。

描述于本申請實(shí)施例中所涉及到的模塊可以通過軟件的方式實(shí)現(xiàn),也可以通過硬件的方式來實(shí)現(xiàn)。所描述的模塊也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括當(dāng)前語句接收模塊、第一概率獲取模塊和完整語句確定模塊。其中,這些模塊的名稱在某種情況下并不構(gòu)成對該模塊本身的限定,例如,當(dāng)前語句接收模塊還可以被描述為“接收用戶輸入的當(dāng)前語句的模塊”。

作為另一方面,本申請還提供了一種非易失性計算機(jī)存儲介質(zhì),該非易失性計算機(jī)存儲介質(zhì)可以是上述實(shí)施例中所述裝置中所包含的非易失性計算機(jī)存儲介質(zhì);也可以是單獨(dú)存在,未裝配入終端中的非易失性計算機(jī)存儲介質(zhì)。上述非易失性計算機(jī)存儲介質(zhì)存儲有一個或者多個程序,當(dāng)所述一個或者多個程序被一個設(shè)備執(zhí)行時,使得所述設(shè)備:接收用戶輸入的當(dāng)前語句;將所述當(dāng)前語句輸入預(yù)先訓(xùn)練的斷 句識別模型得到所述當(dāng)前語句為完整語句的第一概率,其中,所述斷句識別模型用于根據(jù)所述當(dāng)前語句的漢語言模型對應(yīng)的概率和循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型對應(yīng)的概率確定所述第一概率;若所述第一概率大于預(yù)設(shè)的第一閾值,則確定所述當(dāng)前語句為完整語句。

以上描述僅為本申請的較佳實(shí)施例以及對所運(yùn)用技術(shù)原理的說明。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時也應(yīng)涵蓋在不脫離所述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進(jìn)行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術(shù)特征進(jìn)行互相替換而形成的技術(shù)方案。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
太湖县| 南部县| 平泉县| 邢台县| 繁峙县| 鹰潭市| 江门市| 花莲市| 丹江口市| 锡林浩特市| 宁德市| 金阳县| 芦山县| 涿州市| 阜康市| 唐河县| 宁化县| 聂荣县| 葫芦岛市| 芮城县| 昭平县| 灵寿县| 上栗县| 云浮市| 丹巴县| 大竹县| 青川县| 岳阳县| 南江县| 建德市| 遂昌县| 鸡泽县| 全州县| 安平县| 郧西县| 遵义市| 平和县| 鄯善县| 怀集县| 辽源市| 琼海市|