欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

在存在來(lái)源和翻譯錯(cuò)誤的情況下對(duì)命名實(shí)體魯棒標(biāo)記的方法和系統(tǒng)與流程

文檔序號(hào):12142072閱讀:323來(lái)源:國(guó)知局
在存在來(lái)源和翻譯錯(cuò)誤的情況下對(duì)命名實(shí)體魯棒標(biāo)記的方法和系統(tǒng)與流程

本申請(qǐng)大體涉及電子設(shè)備,更具體地,涉及使用電子設(shè)備的本文解釋。



背景技術(shù):

為了進(jìn)行人機(jī)交互,某些電子設(shè)備使用能夠支持語(yǔ)音的用戶接口。對(duì)于一些電子設(shè)備和電器,自然語(yǔ)言的使用成為一種交互方法的選擇。從自然語(yǔ)言向預(yù)期(intended)交互的平滑轉(zhuǎn)變?cè)谙M(fèi)者滿意度上可發(fā)揮著逐漸重要的作用。



技術(shù)實(shí)現(xiàn)要素:

技術(shù)問題

提供一種魯棒的命名實(shí)體標(biāo)記系統(tǒng),所述魯棒的命名實(shí)體標(biāo)記系統(tǒng)能夠不考慮來(lái)源錯(cuò)誤或翻譯錯(cuò)誤識(shí)別通信源的預(yù)期含義。

發(fā)明的有益效果

魯棒的命名實(shí)體標(biāo)記系統(tǒng)可不考慮來(lái)源錯(cuò)誤或翻譯錯(cuò)誤識(shí)別通信源的預(yù)期含義。

附圖說(shuō)明

圖1A示出根據(jù)本公開其中設(shè)備可對(duì)命名實(shí)體執(zhí)行魯棒標(biāo)記的示例性計(jì)算系統(tǒng);

圖1B示出根據(jù)本公開來(lái)自圖1A的其中可對(duì)命名實(shí)體執(zhí)行魯棒標(biāo)記的計(jì)算系統(tǒng)的示例性客戶端設(shè)備125;

圖2示出根據(jù)本公開存儲(chǔ)設(shè)備的示例性高級(jí)框圖;

圖3示出根據(jù)本公開命名實(shí)體標(biāo)記功能的示例圖;

圖4示出根據(jù)本公開魯棒命名實(shí)體標(biāo)記功能的示例圖;

圖5示出根據(jù)本公開圖解魯棒標(biāo)記過程的示例性流程圖;

圖6示出根據(jù)本公開對(duì)從短語(yǔ)字典中的原始命名實(shí)體(raw named entities)中檢索出的命名實(shí)體進(jìn)行編寫或存儲(chǔ)的示例圖;

圖7A示出根據(jù)本公開前綴樹(prefix tree)的示例圖;

圖7B示出根據(jù)本公開具有單個(gè)前向步驟和多個(gè)后向步驟的前綴樹的示例圖;

圖8示出根據(jù)本公開對(duì)前綴樹結(jié)構(gòu)中的子代進(jìn)行多層次(multi-level)協(xié)調(diào)集群(clustering)的示例圖;

圖9示出根據(jù)本公開令牌詞典內(nèi)用于映射的令牌的示例性條目;

圖10示出根據(jù)本公開來(lái)自統(tǒng)計(jì)學(xué)命名實(shí)體識(shí)別(NER)系統(tǒng)的NER結(jié)果的示例;

圖11示出根據(jù)本公開的消歧(disambiguation)過程;

圖12示出根據(jù)本公開的名稱類別(標(biāo)簽)的層次結(jié)構(gòu)的示例圖;

圖13示出根據(jù)本公開可用于從句子中提取相關(guān)知識(shí)或信息的滑動(dòng)概念窗口的示例;

圖14示出根據(jù)本公開從常識(shí)知識(shí)庫(kù)中提取的常識(shí)知識(shí)的示例;

圖15示出根據(jù)本公開的消歧過程的預(yù)計(jì)輸出的示例;

圖16示出根據(jù)本公開的多假設(shè)對(duì)齊的示例性方法;

圖17示出根據(jù)本公開的示例性最佳對(duì)齊;

圖18示出根據(jù)本公開用于不同示例的相應(yīng)音素的示例性對(duì)齊;以及

圖19示出根據(jù)本公開其中單詞用作用于對(duì)齊目的的不可分割單元的示例性最佳對(duì)齊。

具體實(shí)施方式

在第一實(shí)施方式中,公開了一種魯棒的命名實(shí)體標(biāo)記系統(tǒng),所述魯棒的命名實(shí)體標(biāo)記系統(tǒng)能夠不考慮來(lái)源錯(cuò)誤或翻譯錯(cuò)誤識(shí)別通信源的預(yù)期含義。該系統(tǒng)包括存儲(chǔ)設(shè)備,存儲(chǔ)設(shè)備配置為存儲(chǔ)從多個(gè)來(lái)源采集的多個(gè)命名實(shí)體。將命名實(shí)體中的每一個(gè)令牌化為通用格式的命名實(shí)體令牌。命名實(shí)體中的每一個(gè)與標(biāo)簽關(guān)聯(lián)。命名實(shí)體令牌中的每一個(gè)是單詞或單詞音節(jié)中的一者。系統(tǒng)還包括標(biāo)記裝置,該標(biāo)記裝置配置為接收一個(gè)或多個(gè)文本通信。標(biāo)記裝置還配置為識(shí)別一個(gè)或多個(gè)文本通信中的每一個(gè)。標(biāo)記裝置還配置為將一個(gè)或多個(gè)文本通信令牌化為通用格式的文本令牌。標(biāo)記裝置配置為將一個(gè)或多個(gè)文本令牌與存儲(chǔ)設(shè)備中所存儲(chǔ)的一個(gè)或多個(gè)命名實(shí)體令牌匹配,以將文本令牌分配給與命名實(shí)體令牌關(guān)聯(lián)的標(biāo)簽。標(biāo)記裝置還配置為:基于文本令牌與命名實(shí)體令牌之間的匹配標(biāo)記一個(gè)或多個(gè)文本通信,以識(shí)別一個(gè)或多個(gè)文本通信中的每一個(gè)的預(yù)期含義。標(biāo)記裝置配置為:基于對(duì)一個(gè)或多個(gè)文本通信應(yīng)用標(biāo)記,來(lái)識(shí)別一個(gè)或多個(gè)文本通信的預(yù)期含義。

在第二實(shí)施方式中,公開了一種在魯棒的命名實(shí)體標(biāo)記系統(tǒng)中使用的方法,所述方法能夠不考慮來(lái)源錯(cuò)誤或翻譯錯(cuò)誤識(shí)別通信源的預(yù)期含義。該方法包括通過標(biāo)記裝置接收一個(gè)或多個(gè)文本通信。該方法還包括識(shí)別一個(gè)或多個(gè)文本通信中的每一個(gè)。該方法還包括將一個(gè)或多個(gè)文本通信令牌化為通用格式的文本令牌。該方法包括:將所述一個(gè)或多個(gè)文本令牌與所述存儲(chǔ)設(shè)備中所存儲(chǔ)的一個(gè)或多個(gè)命名實(shí)體令牌匹配,以將所述文本令牌分配給與所述命名實(shí)體令牌關(guān)聯(lián)的標(biāo)簽。所述一個(gè)或多個(gè)命名實(shí)體中的每一個(gè)與標(biāo)簽關(guān)聯(lián)。該方法還包括:基于所述文本令牌與所述命名實(shí)體令牌之間的匹配標(biāo)記所述一個(gè)或多個(gè)文本通信,以識(shí)別所述一個(gè)或多個(gè)文本通信中的每一個(gè)的預(yù)期含義。該方法還包括:基于對(duì)所述一個(gè)或多個(gè)文本通信應(yīng)用標(biāo)記,識(shí)別所述一個(gè)或多個(gè)文本通信的預(yù)期含義。

在第三實(shí)施方式中,公開了用于電子設(shè)備中并且能夠?qū)γ麑?shí)體消歧的方法。該方法包括通過電子設(shè)備接收文本通信。文本通信包括一個(gè)或多個(gè)命名實(shí)體。該方法還包括將與所述一個(gè)或多個(gè)命名實(shí)體關(guān)聯(lián)的概念組合,以從知識(shí)庫(kù)中提取相關(guān)信息。該方法還包括由從所述知識(shí)庫(kù)中提取的相關(guān)信息推理出相關(guān)信息。該方法包括:針對(duì)所述一個(gè)或多個(gè)命名實(shí)體,計(jì)算所推理的相關(guān)知識(shí)并對(duì)所述相關(guān)知識(shí)排名。該方法還包括:針對(duì)所述一個(gè)或多個(gè)命名實(shí)體中的每一個(gè),基于所推理的相關(guān)知識(shí)的最高排名來(lái)識(shí)別最相關(guān)的標(biāo)簽。

在描述以下具體實(shí)施方式之前,闡述在本專利文檔通篇所使用的某些單詞和短語(yǔ)的定義可能有利。術(shù)語(yǔ)“聯(lián)接”及其派生詞是指在兩個(gè)或更多元件之間的任意直接或間接的通信,而與那些元件是否在物理上彼此接觸無(wú)關(guān)。術(shù)語(yǔ)“發(fā)送”、“接收”和“通信”及其派生詞既涵蓋直接通信又涵蓋間接通信。術(shù)語(yǔ)“包括”和“包含”及其派生詞是指包括但不限于。術(shù)語(yǔ)“或”是包括性的,表示和/或。短語(yǔ)“與……相關(guān)”及其派生詞表示包括、包括在內(nèi)、與之關(guān)聯(lián)、包含、包含在內(nèi)、連接至或與之連接、聯(lián)接至或與之聯(lián)接、可與之通信、與之協(xié)作、交織、并列、接近、結(jié)合至或與之結(jié)合、具有、具有特性、關(guān)聯(lián)至或與之關(guān)聯(lián)等。術(shù)語(yǔ)“控制器”表示控制至少一個(gè)操作的任意設(shè)備、系統(tǒng)或其一部分。這種控制器可實(shí)施為硬件或者硬件和軟件和/或固件的組合。與任意特定控制器相關(guān)的功能可以是集中式或分布式的,無(wú)論是本地的還是遠(yuǎn)程的。當(dāng)與一列項(xiàng)目一起使用時(shí),短語(yǔ)“……中的至少一個(gè)”是指可使用所列項(xiàng)目中的一個(gè)或多個(gè)的不同組合,并且可能僅需要列表中的一個(gè)項(xiàng)目。例如,“A、B和C中的至少一個(gè)”包括以下組合中的任意一個(gè):A;B;C;A和B;A和C;B和C;以及A和B和C。

本發(fā)明的實(shí)施方式

本申請(qǐng)要求于2014年7月14日提交至美國(guó)專利及商標(biāo)局的第14/330,888號(hào)美國(guó)臨時(shí)專利申請(qǐng)的優(yōu)先權(quán),該申請(qǐng)的公開內(nèi)容通過引用整體地并入本文。

下面討論的圖1A到圖19以及該專利文檔中用于描述本公開原理的各實(shí)施方式僅僅以示例的方式給出,而不應(yīng)該解釋為以任何方式限制本公開的范圍。本領(lǐng)域技術(shù)人員將理解,本公開的原理可在任何適當(dāng)布置的電子設(shè)備中實(shí)現(xiàn)。

以下文檔和標(biāo)準(zhǔn)著錄如同在本文中充分闡述那樣并入本公開:于2001年9月7日提交的第6,975,766B2號(hào)美國(guó)專利申請(qǐng);于2007年2月26日提交的第2008/0208864號(hào)美國(guó)專利申請(qǐng)公開;于2002年8月26日提交的第2003/0208354號(hào)美國(guó)專利申請(qǐng)公開;于2007年2月26日提交的第2003/0208354號(hào)美國(guó)專利申請(qǐng)公開。所述文檔和標(biāo)準(zhǔn)著錄中的每一個(gè)在此通過引用并入本申請(qǐng)中,如同在本文中充分闡述那樣。

圖1A示出根據(jù)本公開的示例性計(jì)算系統(tǒng)100。圖1A所示的計(jì)算系統(tǒng)100的實(shí)施方式僅是出于說(shuō)明的目的。在不脫離本公開的范圍的情況下,可使用計(jì)算系統(tǒng)100的其它實(shí)施方式。

如圖1A所示,系統(tǒng)100包括網(wǎng)絡(luò)102,網(wǎng)絡(luò)102有助于系統(tǒng)100中各組件之間的通信。例如,網(wǎng)絡(luò)102可在網(wǎng)絡(luò)地址之間傳送互聯(lián)網(wǎng)協(xié)議(IP)包、幀中繼幀(frame relay frames)、異步發(fā)送模式(ATM)信元或者其它信息。網(wǎng)絡(luò)102可包括一個(gè)或多個(gè)局域網(wǎng)(LAN)、城域網(wǎng)(MAN)、廣域網(wǎng)(WAN)、全球網(wǎng)絡(luò)(諸如互聯(lián)網(wǎng))中的全部或者一部分、或者位于一個(gè)或多個(gè)位置處的任何其它通信系統(tǒng)。

網(wǎng)絡(luò)102有助于至少一個(gè)服務(wù)器104和各客戶端設(shè)備106-114之間的通信。網(wǎng)絡(luò)102還可有助于各客戶端設(shè)備106-114和云計(jì)算之間的通信。每個(gè)服務(wù)器104包括可為一個(gè)或多個(gè)客戶端設(shè)備提供計(jì)算服務(wù)的任何合適的計(jì)算或處理設(shè)備。每個(gè)服務(wù)器104例如可包括一個(gè)或多個(gè)處理設(shè)備、一個(gè)或多個(gè)存儲(chǔ)器以及一個(gè)或多個(gè)網(wǎng)絡(luò)接口,所述一個(gè)或多個(gè)存儲(chǔ)器存儲(chǔ)指令和數(shù)據(jù),所述一個(gè)或多個(gè)網(wǎng)絡(luò)接口有助于通過網(wǎng)絡(luò)102進(jìn)行通信。

每個(gè)客戶端設(shè)備106-114代表通過網(wǎng)絡(luò)102與至少一個(gè)服務(wù)器或其它計(jì)算設(shè)備交互的任何合適的計(jì)算或處理設(shè)備。在該示例中,客戶端設(shè)備106-114包括臺(tái)式計(jì)算機(jī)106、移動(dòng)電話或智能手機(jī)108、個(gè)人數(shù)字助手(PDA)110、電視、智能電視、膝上型計(jì)算機(jī)112和平板計(jì)算機(jī)114。然而,計(jì)算系統(tǒng)100中可使用任何其它或另外的客戶端設(shè)備。

在該示例中,一些客戶端設(shè)備108-114間接與網(wǎng)絡(luò)102通信。例如,客戶端設(shè)備108-110經(jīng)由諸如蜂窩基站或eNodeB的一個(gè)或多個(gè)基站116進(jìn)行通信。另外,客戶端設(shè)備112-114通過一個(gè)或多個(gè)無(wú)線接入點(diǎn)118(諸如IEEE802.11無(wú)線接入點(diǎn))進(jìn)行通信。注意,這些僅是示例,并且每個(gè)客戶端設(shè)備可直接與網(wǎng)絡(luò)102通信或者經(jīng)由任何合適的中間設(shè)備或網(wǎng)絡(luò)間接地與網(wǎng)絡(luò)102通信。

根據(jù)本公開,示例性計(jì)算系統(tǒng)100包括可對(duì)命名實(shí)體執(zhí)行魯棒標(biāo)記的設(shè)備。計(jì)算系統(tǒng)100包括存儲(chǔ)設(shè)備120,該存儲(chǔ)設(shè)備120可通過網(wǎng)絡(luò)102(諸如互聯(lián)網(wǎng))和包括基站(BS)116的無(wú)線通信系統(tǒng)聯(lián)接到一個(gè)或多個(gè)客戶端設(shè)備106-114(諸如,智能電話108),用于將存儲(chǔ)在存儲(chǔ)設(shè)備120內(nèi)的所標(biāo)記的實(shí)體對(duì)象與通過智能電話108接收的實(shí)體對(duì)象進(jìn)行匹配。

雖然圖1A示出計(jì)算系統(tǒng)100的一個(gè)示例,但是可對(duì)圖1A做出各種變型。例如,計(jì)算系統(tǒng)100的每個(gè)元件可包括任何恰當(dāng)布置和任何數(shù)量。通常,計(jì)算和通信系統(tǒng)有多種常用配置,并且圖1A不將本公開的范圍限制于任何具體配置。雖然圖1A示出可使用本專利文檔中公開的各種特征的一個(gè)操作環(huán)境,但是這些特征可在任何其它合適的系統(tǒng)中使用。

圖1B示出根據(jù)本公開來(lái)自圖1A的其中可對(duì)命名實(shí)體執(zhí)行魯棒標(biāo)記的計(jì)算系統(tǒng)100的示例性客戶端設(shè)備125。客戶端設(shè)備125可代表圖1A中的一個(gè)或多個(gè)客戶端設(shè)備106-114。

如圖1B所示,客戶端設(shè)備125包括天線130、射頻(RF)收發(fā)器135、發(fā)送(TX)處理電路140、麥克風(fēng)145以及接收(RX)處理電路150??蛻舳嗽O(shè)備125還包括揚(yáng)聲器155、主處理器160、輸入/輸出(I/O)接口(IF)165、小鍵盤170、顯示器175和存儲(chǔ)器180。存儲(chǔ)器180包括基本操作系統(tǒng)(OS)程序181和一個(gè)或多個(gè)應(yīng)用182。

RF收發(fā)器135從天線130接收由系統(tǒng)中的另一組件發(fā)送的一個(gè)到來(lái)的RF信號(hào)。RF收發(fā)器135向下轉(zhuǎn)換到來(lái)的RF信號(hào)以生成中頻(IF)或基帶信號(hào)。IF或基帶信號(hào)被發(fā)送到RX處理電路150,所述RX處理電路150通過對(duì)基帶或IF信號(hào)進(jìn)行過濾、解碼和/或數(shù)字化來(lái)生成經(jīng)處理的基帶信號(hào)。RX處理電路150將經(jīng)處理的基帶信號(hào)發(fā)送到揚(yáng)聲器155(諸如針對(duì)語(yǔ)音數(shù)據(jù)),或者發(fā)送到主處理器160以用于進(jìn)行進(jìn)一步處理(諸如針對(duì)網(wǎng)絡(luò)瀏覽數(shù)據(jù))。

TX處理電路140從麥克風(fēng)145接收模擬或數(shù)字語(yǔ)音數(shù)據(jù),或者從主處理器160接收其它傳出的基帶數(shù)據(jù)(諸如,網(wǎng)頁(yè)數(shù)據(jù)、電子郵件或交互式視頻游戲數(shù)據(jù))。TX處理電路140對(duì)傳出的基帶數(shù)據(jù)進(jìn)行編碼、多路復(fù)用和/或數(shù)字化,以生成經(jīng)處理的基帶或IF信號(hào)。RF收發(fā)器135從TX處理電路140接收傳出的經(jīng)處理的基帶或IF信號(hào),并且將基帶或IF信號(hào)向上轉(zhuǎn)換成經(jīng)由天線130傳輸?shù)腞F信號(hào)。

主處理器160可包括一個(gè)或多個(gè)處理器或其它處理設(shè)備,并且可執(zhí)行存儲(chǔ)在存儲(chǔ)器180中的基本OS程序181以控制客戶端設(shè)備125的總體操作。例如,主處理器160可根據(jù)公知的原理通過RF收發(fā)器135、RX處理電路150和TX處理電路140控制前向通道信號(hào)的接收和反向通道信號(hào)的發(fā)送。在某些實(shí)施方式中,主處理器160包括至少一個(gè)微處理器或微控制器。

主處理器160還能夠執(zhí)行處于存儲(chǔ)器180中的其它進(jìn)程或程序,諸如用于對(duì)命名實(shí)體進(jìn)行魯棒標(biāo)記的操作。主處理器160可如執(zhí)行過程所要求的那樣將數(shù)據(jù)移入或移出存儲(chǔ)器180。在某些實(shí)施方式中,主處理器160配置為基于OS程序181或者響應(yīng)于從外部設(shè)備或操作者接收的信號(hào)而執(zhí)行應(yīng)用182。主處理器160還聯(lián)接至I/O接口165,I/O接口165向客戶端設(shè)備125提供連接至諸如膝上型計(jì)算機(jī)和手提式計(jì)算機(jī)的其它設(shè)備的能力。I/O接口165是這些配件和主處理器160之間的通信路徑。聯(lián)接到主處理器160的存儲(chǔ)器180可存儲(chǔ)短語(yǔ)字典、前綴樹、令牌詞典等。

主處理器160還連接至小鍵盤170和顯示器單元175??蛻舳嗽O(shè)備125的操作者可使用小鍵盤170將數(shù)據(jù)輸出到客戶端設(shè)備125中。顯示器175可以是能夠諸如從網(wǎng)站渲染文本和/或至少一定圖形的液晶顯示器或其它顯示器。主處理器160可控制在顯示器單元175上呈現(xiàn)的內(nèi)容。主處理器160和用戶設(shè)備125內(nèi)的其它組件可由可通過外部電源再充電的電池或其它供電源提供電力,或者可由外部電源提供電力。

圖2示出根據(jù)本公開計(jì)算系統(tǒng)中的示例性設(shè)備。具體地,圖2示出根據(jù)本公開來(lái)自圖1A的其中可對(duì)命名實(shí)體執(zhí)行魯棒標(biāo)記的計(jì)算系統(tǒng)100的存儲(chǔ)設(shè)備120的示例性高級(jí)框圖。如圖2所示,存儲(chǔ)設(shè)備200包括總線系統(tǒng)205、至少一個(gè)存儲(chǔ)器230、至少一個(gè)通信單元220以及至少一個(gè)輸入/輸出(I/O)單元225,其中總線系統(tǒng)205可配置為支持至少一個(gè)處理設(shè)備210之間的通信。

處理器210配置為執(zhí)行可加載到存儲(chǔ)器230中的指令。服務(wù)器200可包括呈任何恰當(dāng)布置的任何合適數(shù)量和類型的處理設(shè)備210。示例性處理設(shè)備210可包括微處理器、微控制器、數(shù)字信號(hào)處理器、現(xiàn)場(chǎng)可編程門陣列、專用集成電路以及離散電路。處理設(shè)備210可配置為執(zhí)行駐留在存儲(chǔ)器230中的進(jìn)程和程序,諸如用于生成顯示器適應(yīng)元數(shù)據(jù)的操作。

存儲(chǔ)器230和永久性存儲(chǔ)體235可表示能夠存儲(chǔ)和檢索信息(諸如基于臨時(shí)或永久原則的數(shù)據(jù)、程序代碼或其它合適的視頻信息)的任何結(jié)構(gòu)。存儲(chǔ)器230可表示隨機(jī)存取存儲(chǔ)器或者任何其它合適的易失性或非易失性存儲(chǔ)設(shè)備。永久性存儲(chǔ)體235可包括支持較長(zhǎng)時(shí)間地存儲(chǔ)數(shù)據(jù)的一個(gè)或多個(gè)組件或設(shè)備,諸如只讀存儲(chǔ)器、硬盤驅(qū)動(dòng)器、閃速存儲(chǔ)器或光盤。存儲(chǔ)器230和永久性存儲(chǔ)體可配置為如本文將進(jìn)一步公開的那樣存儲(chǔ)命名實(shí)體和前綴樹。

通信單元220配置為支持與其它系統(tǒng)或設(shè)備的通信。例如,通信單元220可包括有助于通過網(wǎng)絡(luò)103進(jìn)行通信的網(wǎng)絡(luò)接口卡或無(wú)線收發(fā)器。通信單元220可配置為支持通過任何適當(dāng)?shù)奈锢砘驘o(wú)線通信鏈路進(jìn)行通信。

I/O單元225配置為允許用于數(shù)據(jù)的輸入和輸出。例如,I/O單元225可配置為通過鍵盤、鼠標(biāo)、小鍵盤、觸摸屏或其它適當(dāng)?shù)妮斎朐O(shè)備為用戶輸入提供連接。I/O單元225還可配置為向顯示器、打印機(jī)或其它適當(dāng)?shù)妮敵鲈O(shè)備發(fā)送輸出。

雖然圖1B和圖2示出計(jì)算系統(tǒng)中的設(shè)備的示例,但是可對(duì)圖1B和圖2做出各種變型。例如,圖1B和圖2中的各種組件可組合、進(jìn)一步地細(xì)分或被省去,并且可根據(jù)具體需要添加額外的組件。作為具體示例,主處理器340可分為多個(gè)處理器,諸如一個(gè)或多個(gè)中央處理單元(CPU)和一個(gè)或多個(gè)圖形處理單元(GPU)。此外,雖然圖1B示出客戶端設(shè)備125配置為移動(dòng)電話或智能電話,但是客戶端設(shè)備可以配置成作為其它類型的移動(dòng)或不動(dòng)設(shè)備進(jìn)行操作。此外,如計(jì)算和通信網(wǎng)路那樣,客戶端設(shè)備和服務(wù)器可具有廣泛種類的配置,并且圖1B和圖2不會(huì)將本公開限于任何具體客戶端設(shè)備或服務(wù)器。

當(dāng)自然語(yǔ)言成為電子設(shè)備和電器的交互方法選擇時(shí),從自然語(yǔ)言向預(yù)期交互的平滑轉(zhuǎn)變?cè)谙M(fèi)者滿意度上發(fā)揮著逐漸重要的作用。在該轉(zhuǎn)變中,主要的任務(wù)是基于文本通信識(shí)別用戶或作者實(shí)際意圖的是什么(諸如,對(duì)于動(dòng)作以及動(dòng)作參數(shù)/目標(biāo))。例如,口頭語(yǔ)言轉(zhuǎn)換到文本可以是一系列處理步驟的結(jié)果,所述處理步驟包括語(yǔ)音捕捉、自動(dòng)語(yǔ)音識(shí)別(ASR)、令牌化、命名實(shí)體標(biāo)記、概念分析、語(yǔ)義分析、目標(biāo)檢測(cè)等。文本通信源可包括口頭用戶會(huì)話、打印文本、用戶輸入文本、用戶手寫筆跡等??墒褂肁SR、光學(xué)字符識(shí)別(OCR)等來(lái)對(duì)通信源文本化。應(yīng)理解,雖然術(shù)語(yǔ)“通信”可包括從一個(gè)設(shè)備向另一個(gè)設(shè)備發(fā)送信息,但是術(shù)語(yǔ)“通信”還可以指可進(jìn)行通信的任何介質(zhì)。例如,通信可包括語(yǔ)言、文本、書面語(yǔ)等,而與其是否被傳送到任何地方無(wú)關(guān)。

標(biāo)記命名實(shí)體可包括:識(shí)別文本中的域相關(guān)(domain-relevant)實(shí)體;以及利用適當(dāng)?shù)臉?biāo)識(shí)信息對(duì)所述實(shí)體中的每一個(gè)進(jìn)行標(biāo)記(諸如關(guān)聯(lián)或鏈接)。標(biāo)識(shí)信息可包括類別標(biāo)簽等。識(shí)別命名實(shí)體可以指命名實(shí)體的文本檢測(cè)、分類和標(biāo)識(shí)(諸如消歧)。標(biāo)記命名實(shí)體(諸如,電影標(biāo)題、運(yùn)動(dòng)員、演員、界標(biāo)等)在涉及文本理解和處理(諸如自然語(yǔ)言理解)的諸多領(lǐng)域中可能是重要的,因?yàn)槊麑?shí)體可以是動(dòng)作的主體或目標(biāo),因此包括至關(guān)重要的信息。當(dāng)文本中的句子特別短(諸如針對(duì)電子設(shè)備的人類控制命令的文本翻譯)時(shí)或者當(dāng)文本中的句子成比例地具有大量命名實(shí)體時(shí),標(biāo)記可能有用。

在句子中,潛在命名實(shí)體可包括多個(gè)單詞、可以重疊甚至可包括在另一個(gè)命名實(shí)體中。例如,句子“Show me a documentary about the making of Safe House(向我展示與安全屋制作有關(guān)的紀(jì)錄片)”可包括與同一標(biāo)簽“展示”關(guān)聯(lián)的至少三個(gè)命名實(shí)體(諸如,“安全屋制作”、“安全屋”和“房屋”)。

在自然語(yǔ)言理解的傳遞途徑中,ASR(或OCR)和命名實(shí)體的標(biāo)記均可發(fā)生在早期階段,并且它們的結(jié)果可對(duì)其余傳遞途徑的成功具有重大影響。根據(jù)嵌入有自然語(yǔ)言理解傳遞途徑的系統(tǒng)類型,確定:例如,用戶或說(shuō)話者從由口頭語(yǔ)言轉(zhuǎn)換來(lái)的文本語(yǔ)言中意圖(intend)的可以允許在不必訪問和校正會(huì)話中的每個(gè)和每一個(gè)文本單詞的情況下繼續(xù)進(jìn)行傳遞途徑。例如,如果揚(yáng)聲器或用戶發(fā)出句子“I want to watch Harry Potter and the Philosopher's Stone(我想觀看哈利·波特與魔法石)”,并且語(yǔ)音到文本轉(zhuǎn)變過程將利用短語(yǔ)“I want two wash Harry Potter and the Philosopher’s Stone”對(duì)所述會(huì)話進(jìn)行文本化,則一旦真正的電影標(biāo)題(“哈利·波特與魔法石”)被標(biāo)記,簡(jiǎn)單的校正機(jī)制可識(shí)別正確的動(dòng)作(“觀看”)。在這種情況中,還可在不一定必須校正單詞“two(二)”的情況下直接推理出并且實(shí)現(xiàn)用戶的意圖。根據(jù)上下文,將出于各種目的使用標(biāo)記的結(jié)果,包括但不限于:通過替換直接校正、進(jìn)一步相關(guān)校正、推理用戶目標(biāo)等。圖3示出根據(jù)本公開命名實(shí)體標(biāo)記功能的示例圖。在圖3所示的示例中,一個(gè)或多個(gè)用戶會(huì)話、打印文本、用戶輸入、用戶手寫筆跡或另一文本源被轉(zhuǎn)換成電子文本。根據(jù)電子文本,標(biāo)記命名實(shí)體并將其轉(zhuǎn)發(fā)到文本替換單元、文本校正單元、目標(biāo)推理單元、或者另一進(jìn)一步處理單元中的一個(gè)或多個(gè)。圖3所示的命名實(shí)體標(biāo)記功能的實(shí)施方式僅僅是例證。在不脫離本公開的范圍的情況下,可使用其它實(shí)施方式。

雖然可使用技術(shù)(諸如ASR、OCR等)來(lái)將通信源翻譯為文本,但是在用于分析和理解通信的自然語(yǔ)言處理傳遞途徑中,進(jìn)一步處理步驟可能受到文本中錯(cuò)誤的妨礙。文本中的來(lái)源錯(cuò)誤和翻譯錯(cuò)誤可以是聲學(xué)和語(yǔ)言模型(諸如通過硬件限制)、背景噪聲、特定用戶的發(fā)音異常、特定用戶的言語(yǔ)風(fēng)格、特定用戶的普通語(yǔ)言技能、不合適的令牌化、錯(cuò)誤的或不完整的拼寫或語(yǔ)法、打印文本、打字錯(cuò)誤、翻譯錯(cuò)誤、ASR過程錯(cuò)誤、OCR過程錯(cuò)誤其組合等的結(jié)果。圖4示出根據(jù)本公開魯棒的命名實(shí)體標(biāo)記系統(tǒng)的示例圖。在圖4所示的示例中,錯(cuò)誤的源(諸如用戶會(huì)話、打印文本、用戶輸入、用戶手寫筆跡、或者來(lái)自另一源的文本中的一個(gè)或多個(gè))被轉(zhuǎn)換成電子文本,且所述轉(zhuǎn)換可能另外產(chǎn)生錯(cuò)誤。根據(jù)具有錯(cuò)誤的電子文本,一個(gè)或多個(gè)命名實(shí)體可被魯棒命名實(shí)體標(biāo)記單元進(jìn)行魯棒標(biāo)記,并且被轉(zhuǎn)發(fā)到文本替換單元、文本校正單元、目標(biāo)推理單元或另一進(jìn)一步處理單元中的一個(gè)或多個(gè)。圖4所示的命名實(shí)體標(biāo)記功能的實(shí)施方式僅僅是示例。在不脫離本公開的范圍的情況下,可使用其它實(shí)施方式。

在會(huì)話(檢索)中,一個(gè)或多個(gè)單詞錯(cuò)誤(諸如,當(dāng)“house”被錯(cuò)誤識(shí)別為“haus”時(shí))可導(dǎo)致諸多命名實(shí)體無(wú)法被標(biāo)記或者被錯(cuò)誤地標(biāo)記。魯棒命名實(shí)體標(biāo)記功能可通過識(shí)別用戶或作者實(shí)際意圖表達(dá)什么來(lái)改善自然語(yǔ)言理解傳遞途徑的效果,其中所述魯棒命名實(shí)體標(biāo)記功能配置為不考慮來(lái)源錯(cuò)誤和翻譯錯(cuò)誤檢測(cè)文本的所有命名實(shí)體。例如,當(dāng)翻譯文本包括相當(dāng)大數(shù)量的命名實(shí)體時(shí),根據(jù)上下文,魯棒命名實(shí)體標(biāo)記功能可幫助校正OCR或ASR結(jié)果、拼法和語(yǔ)法錯(cuò)誤等。

諸如因?yàn)榧词乖诤形谋净蚓渥拥木唧w位置處也具有大量替換含義、因?yàn)樵诓煌恼Z(yǔ)言中具有不同含義、因?yàn)椴蝗菀子芍車鷨卧~推理出、因?yàn)榫哂胁煌恼Z(yǔ)言等,諸多命名實(shí)體可能具有局限的上下文錨定以及處于平均值以上的復(fù)雜特性。除了專有名詞或者甚至一般名詞、可用作針對(duì)簡(jiǎn)化命名實(shí)體檢測(cè)的線索的名詞之外,諸多命名實(shí)體還可以是或可包括言語(yǔ)中的多種其它部分。對(duì)于包括這種命名實(shí)體的句子,根據(jù)用戶或作者的意圖,應(yīng)用語(yǔ)言模型信息或傳統(tǒng)圖案匹配來(lái)檢測(cè)命名實(shí)體以及專門地校正來(lái)源錯(cuò)誤和翻譯錯(cuò)誤可能不會(huì)為命名實(shí)體和為句子提供足夠的校正。

相反地,通過使用魯棒的方法對(duì)命名實(shí)體進(jìn)行標(biāo)記,如本文所公開的那樣,可根據(jù)需要利用傳統(tǒng)的方法校正句子的剩余部分。在諸多情況下,諸如當(dāng)命名實(shí)體是已知的時(shí),對(duì)于句子其它重要部分(諸如動(dòng)作本身)的可能校正可變得更加明顯,使得命名實(shí)體標(biāo)記能最終支持校正程序,而不是反之由校正程序支持命名實(shí)體標(biāo)記。例如,用ASR輸出“I want to wash Harry Potter and the Philosopher’s Stone”,一旦真實(shí)電影標(biāo)題被識(shí)別,便可變得明顯:?jiǎn)卧~“wash(洗)”應(yīng)當(dāng)被更適當(dāng)?shù)摹皐atch(觀看)”替換或校正。

如本文所公開,可使用不考慮源錯(cuò)誤或翻譯錯(cuò)誤而從句子中的給定域中標(biāo)記(諸如通過檢測(cè)、分類、識(shí)別、關(guān)聯(lián)、組合等)一個(gè)或多個(gè)命名實(shí)體的系統(tǒng)和方法來(lái)提供或標(biāo)識(shí)通信源的意圖。另外,如本文所公開的那樣,所述系統(tǒng)和方法可應(yīng)用到從ASR、OCR等得出的任何鄰近文本句子或句子集合,而不考慮ASR錯(cuò)誤、OCR錯(cuò)誤、用戶錯(cuò)誤等。

在某些實(shí)施方式中,如本文公開的用于執(zhí)行所述方法的系統(tǒng)包括具有存儲(chǔ)設(shè)備的魯棒標(biāo)記系統(tǒng)。圖5示出根據(jù)本公開圖解魯棒標(biāo)記方法500的示例性流程圖。雖然流程圖示出一系列連續(xù)的步驟,但是除非明確地?cái)⑹觯駝t不應(yīng)當(dāng)從所述順序中得出關(guān)于以下的推論:以特定順序執(zhí)行步驟或其一部分、連續(xù)地而不是并行地或以重疊的方式執(zhí)行步驟或其一部分、或者在不存在介于中間的步驟或中間步驟的情況下執(zhí)行專門示出的步驟。所示示例中的所示過程由例如處于移動(dòng)站中的處理器來(lái)執(zhí)行。

在步驟505中,通過包括從多個(gè)現(xiàn)有來(lái)源采集的多個(gè)原始命名實(shí)體(諸如單詞、名稱、短語(yǔ)等),可在存儲(chǔ)設(shè)備中創(chuàng)建短語(yǔ)字典。例如,可處理來(lái)自不同來(lái)源的原始命名實(shí)體或原始短語(yǔ),從而在命名實(shí)體字典中創(chuàng)建大量一致的命名實(shí)體集合。應(yīng)理解,雖然原始命名實(shí)體可包括單詞、名稱、短語(yǔ)等,但是如本文將進(jìn)一步描述的那樣,原始命名實(shí)體可以不包括每個(gè)單詞,以在由裝置接收的命名實(shí)體與短語(yǔ)字典中所存儲(chǔ)的命名實(shí)體進(jìn)行匹配時(shí)使搜索時(shí)間最小化。在實(shí)施方式中,原始命名實(shí)體可包括對(duì)象、與對(duì)象或人物關(guān)聯(lián)的名稱、與對(duì)象或人物關(guān)聯(lián)的專有名稱、標(biāo)題、短語(yǔ)(諸如通常使用的短語(yǔ))及其組合等。

圖6示出根據(jù)本公開用于在短語(yǔ)字典中對(duì)從原始命名實(shí)體中檢索出的命名實(shí)體進(jìn)行編寫或存儲(chǔ)的示例圖。圖6所示的圖的實(shí)施方式僅僅是例證。在不脫離本公開的范圍的情況下,可使用其它實(shí)施方式。

通過將原始命名實(shí)體中的每一個(gè)與來(lái)自現(xiàn)有來(lái)源的標(biāo)簽信息(諸如一個(gè)或多個(gè)標(biāo)簽或另外的信息)關(guān)聯(lián),可將原始命名實(shí)體轉(zhuǎn)換成命名實(shí)體,從而將原始命名實(shí)體標(biāo)準(zhǔn)化并且將其令牌化為通用格式。在某些實(shí)施方式中,原始命名實(shí)體的令牌化包括將文本打斷為各個(gè)單詞或各個(gè)單詞音節(jié)。在某些實(shí)施方式中,從現(xiàn)有來(lái)源中采集與命名實(shí)體的別名有關(guān)信息,并且將其與所采集的命名實(shí)體關(guān)聯(lián)。

在步驟510中,將樹和檢測(cè)模型加載到具有短語(yǔ)字典的存儲(chǔ)設(shè)備中。存儲(chǔ)在短語(yǔ)字典中的命名實(shí)體可被集群在具有父節(jié)點(diǎn)和子節(jié)點(diǎn)的前綴樹結(jié)構(gòu)中,其中子節(jié)點(diǎn)源自于父節(jié)點(diǎn)。經(jīng)集群的結(jié)構(gòu)可包括預(yù)定深度,從而限制與可串聯(lián)鏈路的特定父節(jié)點(diǎn)關(guān)聯(lián)的子節(jié)點(diǎn)的數(shù)量。在實(shí)施方式中,預(yù)定深度可定義為在前綴樹中節(jié)點(diǎn)與其子節(jié)點(diǎn)之間的中間集群層次(level)的最大數(shù)量。在集群打斷為更細(xì)化集群之前,可使用其它限制參數(shù)來(lái)限制集群中元素的最大數(shù)量。在前綴樹維度中,具有共同父代的直接子節(jié)點(diǎn)可在“局部的”集群結(jié)構(gòu)維度中作為枝葉或端部出現(xiàn)。在實(shí)施方式中,局部可意味它僅僅關(guān)系到父代以及其子代。在每個(gè)集群層次(諸如父代層次、直接連接到父代的第一子節(jié)點(diǎn)層次、直接連接到第一子節(jié)點(diǎn)層次的第二子節(jié)點(diǎn)層次等)處,可使用利于沖突的編碼(諸如,哈希)函數(shù)(諸如語(yǔ)音編碼函數(shù)、具有增加的代碼長(zhǎng)度的經(jīng)典編碼函數(shù)、具有聽覺和增加的代碼長(zhǎng)度的擴(kuò)展編碼函數(shù)、應(yīng)用于令牌上和反向令牌上的經(jīng)典或擴(kuò)展編碼(encoding)函數(shù)的兩級(jí)使用等)的集合來(lái)對(duì)命名實(shí)體進(jìn)行集群。在實(shí)施方式中,可存在兩個(gè)有區(qū)別的維度/視野:

“前綴樹”維度和“集群樹”維度。在第一階段中,前綴樹可包括令牌(諸如單詞),當(dāng)其在命名實(shí)體中出現(xiàn)時(shí)通過“下一令牌”鏈路進(jìn)行連接,使得從根到葉的任意路徑呈現(xiàn)為一個(gè)命名實(shí)體。在實(shí)施方式中,不同的命名實(shí)體可共享同一前綴因而共享同一名稱。在實(shí)施方式中,諸如當(dāng)一個(gè)命名實(shí)體是另一個(gè)命名實(shí)體的子序列時(shí),命名實(shí)體可以以內(nèi)部節(jié)點(diǎn)終止。

在第二階段中,可利用失敗鏈路對(duì)前綴樹進(jìn)行擴(kuò)充。在第三階段中,可分析前綴樹中的每個(gè)父代-子代(諸如“下一令牌”)的關(guān)系。如果超過特定閾值,諸如共享到達(dá)當(dāng)前節(jié)點(diǎn)/令牌但是前向下一節(jié)點(diǎn)/令牌不同的同一前綴的命名實(shí)體的數(shù)量大,則可應(yīng)用局部集群。在實(shí)施方式中,父代與其子代之間可存在直接關(guān)系。在實(shí)施方式中,可創(chuàng)建達(dá)到某一最大深度的一些中間的間接層次。為了創(chuàng)建這些中間層次,可通過如經(jīng)由有利于沖突(如通常那樣)的哈希(hashing)函數(shù)所確定的、子代共同擁有的事物來(lái)對(duì)具有多個(gè)子代的父代的子代進(jìn)行集群??墒褂么致约?諸如,粗略的哈希)來(lái)確定第一層次上的若干集群。當(dāng)集群中的子代數(shù)量大于閾值時(shí),更可執(zhí)行更細(xì)化的集群(諸如,細(xì)化的哈希),以將第一層次上的那些集群分解成第二層次上的多個(gè)集群中,依次類推。

在某些實(shí)施方式中,當(dāng)集群的大小超過集群大小閾值時(shí),增加前綴樹的深度,以將集群的大小減小回到集群大小閾值以下。在某些實(shí)施方式中,每個(gè)層次處的編碼函數(shù)可能與具有適當(dāng)參數(shù)化精度的相同函數(shù)不同。在實(shí)施方式中,可使用相似性測(cè)量(作為編碼函數(shù)的改進(jìn))來(lái)在最深層次上的集群內(nèi)進(jìn)行最終選擇。

在步驟515中,基于每個(gè)命名實(shí)體的標(biāo)識(shí)部分(諸如別名),利用短語(yǔ)字典在存儲(chǔ)設(shè)備中構(gòu)建前綴樹,并且前綴樹利用與所述命名實(shí)體關(guān)聯(lián)的標(biāo)簽信息對(duì)與命名實(shí)體的結(jié)束令牌對(duì)應(yīng)的每個(gè)節(jié)點(diǎn)進(jìn)行擴(kuò)充。圖7A示出根據(jù)本公開前綴樹700的示例圖。圖7B示出根據(jù)本公開具有單個(gè)前向步驟和多個(gè)后向步驟的前綴樹750的示例圖。圖7A和圖7B所示的前綴樹的實(shí)施方式僅僅是例證。在不脫離本公開的范圍的情況下,可使用其它實(shí)施方式。

前綴樹700和前綴樹750可基于每個(gè)命名實(shí)體的標(biāo)識(shí)部分(諸如別名)來(lái)構(gòu)造,并且可利用與之相關(guān)的標(biāo)簽信息來(lái)對(duì)與命名實(shí)體的結(jié)束令牌對(duì)應(yīng)的每個(gè)節(jié)點(diǎn)進(jìn)行擴(kuò)充。前綴樹700和前綴樹750可包括父節(jié)點(diǎn)(諸如根)702,所述父節(jié)點(diǎn)702經(jīng)由下一鏈路703鏈接到一個(gè)或多個(gè)子節(jié)點(diǎn)704-710。前綴樹還可包括失敗鏈路711,失敗鏈路711允許在失敗之后立即從父節(jié)點(diǎn)702處的當(dāng)前后綴開始繼續(xù)搜索。為了簡(jiǎn)明,圖7A和圖7B所示的令牌處于目標(biāo)節(jié)點(diǎn)中而不是鏈路本身中。然而,下一鏈路中的每一個(gè)可與表示單個(gè)單詞或單詞音節(jié)的各個(gè)令牌對(duì)應(yīng),從而提供近似匹配。每個(gè)獨(dú)特的令牌(token)可在存儲(chǔ)單元中僅保持一次,并且前綴樹簡(jiǎn)單地引用這些令牌從而減少內(nèi)存占用。

通過指定具有整個(gè)單詞或至少單詞音節(jié)而不是單詞的每個(gè)獨(dú)立字符的令牌,前綴樹深度和需要檢測(cè)匹配的步驟數(shù)量可小化,同時(shí)還內(nèi)在地避免錯(cuò)誤地檢測(cè)短命名實(shí)體的問題,其中所述短命名實(shí)體僅僅是目標(biāo)句子中較長(zhǎng)單詞的子字符串。此外,使用音節(jié)作為令牌可具有以下益處:對(duì)由于翻譯錯(cuò)誤而引起的會(huì)話中的令牌化錯(cuò)誤較不敏感。

在某些實(shí)施方式中,為了在存儲(chǔ)設(shè)備中創(chuàng)建前綴樹,可采用以下步驟:(1)在命名實(shí)體的標(biāo)識(shí)部分上應(yīng)用內(nèi)部令牌化函數(shù);(2)將每個(gè)令牌連同其編碼一起添加到詞典(本文進(jìn)一步闡述);(3)必要時(shí),循環(huán)訪問每個(gè)令牌和對(duì)應(yīng)樹節(jié)點(diǎn),并且附加新的子節(jié)點(diǎn);(4)執(zhí)行前綴樹的廣度優(yōu)先遍歷并創(chuàng)建失敗鏈路;以及(5)在前綴樹的頂部創(chuàng)建集群結(jié)構(gòu)。

在實(shí)施方式中,最初可完整地創(chuàng)建包括下一鏈路和失敗鏈路的前綴樹。這可能導(dǎo)致父節(jié)點(diǎn)具有直接連接的成千上萬(wàn)的子代。隨后,當(dāng)每個(gè)父代的全部子代是已知的時(shí),可創(chuàng)建集群結(jié)構(gòu),從而使得父代及其子代之間的整個(gè)樹具有更小的集群。還可以執(zhí)行其它集群策略。例如,集群策略可包括:每當(dāng)集群變?yōu)檫^大直到大概最大層次或者具有固定深度并且保持在集群中的所有子節(jié)點(diǎn)處于固定的最深層次時(shí),包括可變的深度和更細(xì)化的集群占用空間。

為了在前綴樹中創(chuàng)建用于父代-子代關(guān)系的集群結(jié)構(gòu),可考慮由這些子代表示的全部令牌。針對(duì)給定深度和針對(duì)每個(gè)令牌,可從存儲(chǔ)設(shè)備中檢索或聯(lián)機(jī)(on-the-fly)生成對(duì)應(yīng)令牌編碼??上嗬^地應(yīng)用對(duì)應(yīng)令牌編碼,以在最深層次上選擇最適當(dāng)?shù)募簛?lái)存儲(chǔ)該令牌。如果集群內(nèi)不存在這種精確的子代,則可添加一個(gè)子代。每當(dāng)沒有尋找到適當(dāng)?shù)募簳r(shí),可向?qū)?yīng)的集群結(jié)構(gòu)附加(諸如順序地)這些集群。同樣地,在附加集群之后,可在最深層次上的集群中添加對(duì)應(yīng)的子代。在實(shí)施方式中,每當(dāng)超過確定集群大小時(shí),可將集群動(dòng)態(tài)地打斷為更細(xì)的集群。在前綴樹中,對(duì)全部的父代-子代關(guān)系應(yīng)用該過程。

在對(duì)包括錯(cuò)誤的會(huì)話進(jìn)行魯棒的近似匹配的情況中,在搜索期間可能在父代之后出現(xiàn)多個(gè)類似子代,這可使遍歷的有效地延續(xù)??煽紤]所有的子代,以使得可選定根據(jù)相似性測(cè)量最相似的子集。

應(yīng)注意,圖7A和圖7B均舉例說(shuō)明前綴樹。例如,圖7A可舉例說(shuō)明前綴樹中的靜態(tài)鏈路,諸如前向/下一和后向/失敗鏈路。圖7B可舉例說(shuō)明可由樹中的以下下一和失敗鏈路完成的動(dòng)態(tài)搜索步驟。如圖7B所示,在通過樹的搜索的每個(gè)步驟處,不僅可考慮一個(gè)完美的子節(jié)點(diǎn)以繼續(xù)搜索,還可考慮多個(gè)有前景(promising)的子節(jié)點(diǎn)??蓪?duì)它們中的一個(gè)子節(jié)點(diǎn)繼續(xù)搜索,并且可將其余子節(jié)點(diǎn)擱置一旁(例如,堆棧)。當(dāng)考慮到全部的所得替代方案時(shí),可考慮擱置一旁的有前景的子代中的一個(gè),然后可考慮下一個(gè),依次類推等。

圖8示出根據(jù)本公開前綴樹中節(jié)點(diǎn)的子代的多層次協(xié)調(diào)(harmonized)集群結(jié)構(gòu)800的示例圖。圖8所示的圖形的實(shí)施方式僅僅是例證。在不脫離本公開的范圍的情況下,可使用其它實(shí)施方式。當(dāng)命名實(shí)體的下一令牌將與前綴樹中的命名實(shí)體中的同一位置處的類似令牌相匹配時(shí),通過在整個(gè)集群樹802等中從托管當(dāng)前令牌的父節(jié)點(diǎn)801(來(lái)自前綴樹)朝向相關(guān)最深局部集群804迅速下降,子代的多層次協(xié)調(diào)集群可使得能夠迅速選擇這樣相似的下一令牌,其中所述最深局部集群804包括具有類似候選下一令牌的子節(jié)點(diǎn)(來(lái)自前綴樹)。可使用利用相似性的連續(xù)搜索來(lái)進(jìn)一步限制選擇,其中所述相似性用作哈希函數(shù)的改進(jìn)。

在步驟520中,在存儲(chǔ)設(shè)備中創(chuàng)建令牌詞典。根據(jù)集群結(jié)構(gòu)的深度,令牌詞典可配置為將每個(gè)令牌映射到包括整數(shù)ID和編碼集合的條目中。

圖9示出根據(jù)本公開令牌詞典中用于映射的令牌的示例性條目。圖9所示的令牌條目的實(shí)施方式僅僅是例證。在不脫離本公開的范圍的情況下,可使用其它實(shí)施方式。

當(dāng)建立令牌詞典時(shí),可在前綴樹建立期間將令牌映射到條目。因?yàn)橥瑯拥木幋a可能由于預(yù)計(jì)沖突而出現(xiàn)多次,所以編碼可保持在次級(jí)編碼詞典中并且從令牌詞典中被引用。

魯棒的標(biāo)記系統(tǒng)還可包括魯棒標(biāo)記裝置,諸如諸如電子設(shè)備、移動(dòng)電子設(shè)備等。如本文所公開,魯棒的標(biāo)記裝置可包括處理器和計(jì)算機(jī)可讀介質(zhì)。在步驟525中,可將經(jīng)預(yù)處理的電子文本發(fā)送到魯棒的標(biāo)記裝置。在構(gòu)建具有包括集群結(jié)構(gòu)的前綴樹的短語(yǔ)字典以及構(gòu)建令牌詞典之后,例如在與魯棒的標(biāo)記系統(tǒng)的存儲(chǔ)設(shè)備通信中可使用魯棒的標(biāo)記裝置以對(duì)經(jīng)預(yù)處理的文本執(zhí)行魯棒的標(biāo)記。

為了之后在文本會(huì)話中從字典中檢測(cè)一個(gè)或多個(gè)命名實(shí)體,該裝置可配置為接收一個(gè)或多個(gè)文本會(huì)話或通信、將所述文本會(huì)話或通信標(biāo)準(zhǔn)化、并且以將原始命名實(shí)體預(yù)處理為字典中的命名實(shí)體的方式類似的方式將所述文本會(huì)話或通信令牌化。針對(duì)每個(gè)生成的令牌,如果可用則可從詞典中檢索對(duì)應(yīng)條目。否則,如與本文所公開的類似,可聯(lián)機(jī)生成與詞典條目類似的信息。

在步驟530中,該裝置和存儲(chǔ)設(shè)備在彼此通信時(shí)魯棒地檢測(cè)發(fā)送到裝置的電子文本與處于前綴樹中且與令牌詞典相映射的命名實(shí)體之間的匹配。一旦裝置接收到一個(gè)或多個(gè)文本會(huì)話、將它們標(biāo)準(zhǔn)化并且將它們令牌化,裝置便與存儲(chǔ)設(shè)備進(jìn)行通信,以魯棒地檢測(cè)經(jīng)令牌化的一個(gè)或多個(gè)文本會(huì)話與存儲(chǔ)設(shè)備的命名實(shí)體之間的匹配。裝置與存儲(chǔ)設(shè)備之間的匹配可包括:從非常大的候選實(shí)體字典中檢測(cè)命名實(shí)體文本句子中的多項(xiàng)匹配,使得匹配多半重疊并且來(lái)自候選命名實(shí)體的任何單詞可以以略微不同的形式出現(xiàn)在句子中(諸如,由于來(lái)源錯(cuò)誤或翻譯錯(cuò)誤)。

為了實(shí)現(xiàn)這一點(diǎn),本方法可在前綴樹上利用包括具有可配置大小的局部解集的束遍歷(beam traversal)。可使用慣用的相似性測(cè)量來(lái)進(jìn)行比較,所述比較發(fā)生在前綴樹中相繼遍歷的節(jié)點(diǎn)處。所述比較可有助于在任何位置處詳盡地檢測(cè)包括類似令牌的所有命名實(shí)體的所有匹配(例如,當(dāng)局部解集大小為無(wú)窮時(shí)),并且彼此獨(dú)立以及支持不同的慣用相似性測(cè)量。類似地,在另一實(shí)施方式中,局部解集大小可能受限,以便以全面性為代價(jià)更迅速地進(jìn)行搜索。

在對(duì)前綴樹進(jìn)行束搜索(beam search)期間,如與步驟515所公開的類似,可核查當(dāng)前節(jié)點(diǎn)以識(shí)別其子代的子集是否與下一令牌匹配,在搜索期間沒有缺失子代可添加除外。對(duì)于給定深度,可從詞典中檢索或聯(lián)機(jī)生成對(duì)應(yīng)令牌編碼,并且可相繼地應(yīng)用所述令牌編碼以在其局部多層次協(xié)調(diào)集群結(jié)構(gòu)中選擇最深層次上的最適當(dāng)集群。如果不存在這樣的集群路徑,則搜索可在該分支上中止。在某些實(shí)施方式中,在最深集群內(nèi),可利用給定相似性測(cè)量來(lái)進(jìn)行完整的連續(xù)搜索以選擇子代的子集。在某些實(shí)施方式中,通過一些相關(guān)標(biāo)準(zhǔn)(諸如,包括令牌的命名實(shí)體數(shù)量、訪問量、固有值等)對(duì)最深集群上的子代進(jìn)行排序,并且在標(biāo)準(zhǔn)符合(諸如,相關(guān)性下降到預(yù)定水平以下或者找到足夠數(shù)量的子代)時(shí)連續(xù)搜索可中止。在某些實(shí)施方式中,可設(shè)定附加限制參數(shù),以進(jìn)一步限制束搜索的范圍和標(biāo)記持續(xù)時(shí)間。然而,任何這種限制都可能進(jìn)一步減少匹配的數(shù)量。

例如,在沒有使用多層次協(xié)調(diào)集群的情況下以及在某些父代可能容易具有1,000個(gè)子代的情況下,可能需要未經(jīng)判斷(naive)地選擇子代的子集O(1,000)。相反地,在具有例如兩個(gè)適當(dāng)?shù)木幋a函數(shù)的多層次協(xié)調(diào)集群中(所述編碼函數(shù)能夠構(gòu)建10個(gè)集群并且10個(gè)集群各自被使用),搜索的復(fù)雜性可降低至O(1+1+M),其中M理想地具有與10類似的大小,這可改善標(biāo)記過程的執(zhí)行。

在檢測(cè)完成之后,可采集有可能重疊和對(duì)抗的匹配及相關(guān)標(biāo)記的集合。每個(gè)標(biāo)記可由與這樣的命名實(shí)體相關(guān)的標(biāo)簽信息表示,所述命名實(shí)體的標(biāo)識(shí)部分(諸如別名)通過使用魯棒匹配而匹配在用戶會(huì)話中。

在步驟535中,裝置基于發(fā)送到裝置的電子文本與包含在前綴樹中跟令牌詞典相映射的命名實(shí)體之間的匹配,來(lái)標(biāo)記電子文本。一旦采集到有可能重疊和對(duì)抗的匹配及相關(guān)標(biāo)記的集合,便發(fā)生局部消歧。局部消歧可用于確保:可從可變質(zhì)量且有可能對(duì)抗的標(biāo)記的整個(gè)集合(例如與全部可能的匹配對(duì)應(yīng))中選擇高可信度的子集。通過定義,存儲(chǔ)設(shè)備中的命名實(shí)體不會(huì)引起歧義。局部消歧從命名實(shí)體的有可能重疊的標(biāo)記的較大集合(例如與全部可能的匹配對(duì)應(yīng))中選擇連貫的、較小的、更高可信度的子集,其中所述命名實(shí)體最有可能成為用戶意圖的命名實(shí)體。局部消歧還可包括:計(jì)算匹配檢測(cè)的可信度、濾除低可信度的標(biāo)記(匹配)以及根據(jù)某些標(biāo)準(zhǔn)對(duì)剩余的標(biāo)記(匹配)子集進(jìn)行排名。

在某些實(shí)施方式中,排名標(biāo)準(zhǔn)可包括:例如基于與命名實(shí)體標(biāo)識(shí)部分中的令牌的位置相關(guān)的加權(quán)因子提供每個(gè)令牌匹配的得分,以青睞后出現(xiàn)的令牌,盡管這些令牌具有低的原始匹配得分。此外,可利用域相關(guān)附加信息(諸如,針對(duì)域的常識(shí)推理數(shù)據(jù)、圖形密度解等)來(lái)進(jìn)行全部消歧。

在步驟540中,裝置對(duì)電子文本應(yīng)用標(biāo)記。一旦消歧(部分或全部消歧)完成,根據(jù)來(lái)自步驟535的最終標(biāo)記列表對(duì)每個(gè)文本會(huì)話進(jìn)行標(biāo)記。標(biāo)記列表可制作成對(duì)例如在自然語(yǔ)言處理傳遞途徑中進(jìn)行進(jìn)一步處理有效。在某些實(shí)施方式中,將由局部消歧生成的匹配實(shí)體替換到原始句子中以校正錯(cuò)誤,從而形成替代句子校正假設(shè)(hypotheses)的排名集合。這樣,可校正諸如具有最高排名句子校正假設(shè)的文本會(huì)話錯(cuò)誤。在全部消歧的情況下,將所生成的匹配命名實(shí)體替換到原始句子中。類似地,可以這種方式校正文本會(huì)話錯(cuò)誤。

在某些實(shí)施方式中,可使用常識(shí)推理方法來(lái)進(jìn)行命名實(shí)體的消歧。由于同一名稱可能具有諸多不同的含義或變體,所以命名實(shí)體可能具有歧義。例如,“Washington(華盛頓)”可任一地表示人名或位置。當(dāng)前命名實(shí)體識(shí)別(NER)工具和命名實(shí)體消歧(NED)工具可能依賴于通常包括非結(jié)構(gòu)性文本的公共大型文本主體(諸如百科全書、維基百科、網(wǎng)搜索結(jié)果、地名辭典等)來(lái)對(duì)命名實(shí)體消歧。由于在結(jié)構(gòu)性低的自然語(yǔ)言文檔中處理不確定文本元素的影響,可能存在錯(cuò)誤和不正確的消歧。此外,雖然當(dāng)前方法中的一些可瀏覽命名實(shí)體的周圍文本以解決它的歧義,但是這些方法僅僅處理周圍項(xiàng)目的文本,而不是檢查文本在整個(gè)上下文中的含義以獲得用于消歧任務(wù)的有用信息。例如,單個(gè)單詞“Paris”既可表示“法國(guó)巴黎”又可表示“德克薩斯州巴黎”。然而,如果周圍上下文包括單詞“塞納河”,則通過考慮上下文的含義將能夠推理出實(shí)體是指“法國(guó)巴黎”。

利用文本輸入的NER問題的具體示例示出如下:“Show me more movies on Hulu about Tom Hanks in Apollo 13(在Hulu上向我展示與阿波羅13號(hào)中的湯姆·漢克斯有關(guān)的更多電影)”。圖10示出通過支持NER任務(wù)的現(xiàn)有統(tǒng)計(jì)學(xué)NLP工具返回的NER結(jié)果的示例。

如圖10中所示,在NER中通用工具可返回NER結(jié)果。在該結(jié)果中,識(shí)別出三個(gè)實(shí)體,諸如“Hulu(葫蘆網(wǎng))”、“湯姆·漢克斯”和“13”,其中“Hulu”分類為位置類型、“湯姆·漢克斯”分類為人物類型以及“13”分類為數(shù)字類型。雖然該結(jié)果能夠分別將作為人物類型和數(shù)字類型的“湯姆·漢克斯”和“13”的類型適當(dāng)?shù)胤诸?,但是?dāng)“Hulu”實(shí)際上是在線視頻娛樂領(lǐng)域中的組織或公司的名稱時(shí),所述“Hulu”被不正確地識(shí)別和分類為位置類型。此外,因?yàn)椤鞍⒉_13號(hào)”是湯姆·漢克斯為主要男演員的電影的標(biāo)題,所以可預(yù)計(jì)較好的結(jié)果。當(dāng)湯姆·漢克斯被識(shí)別為男演員時(shí),一些當(dāng)前NER工具可能忽視與電影領(lǐng)域相關(guān)的上下文。這些信息可通過使用知識(shí)庫(kù)中描繪的知識(shí)斷言來(lái)推理。

對(duì)于NER和NED工具而言弄清文本外的意思是非常重要的,使得它們可提供更多信息以適當(dāng)?shù)刈R(shí)別實(shí)體。人類常識(shí)可包括電腦不能實(shí)現(xiàn)的、理解和推理事情的能力。因此,如果消歧依賴結(jié)構(gòu)性和常識(shí)性的文本知識(shí)來(lái)源,則對(duì)任務(wù)消歧可能是重要的。

本文公開的系統(tǒng)和方法可通過利用來(lái)自知識(shí)庫(kù)的語(yǔ)義知識(shí)斷言來(lái)處理自然語(yǔ)言中的不確定性性,以對(duì)實(shí)體消歧。本文公開的系統(tǒng)和方法處理歧義的類型,所述歧義包括:(1)文本中的名稱;以及(2)有歧義文本的特定標(biāo)簽。例如,對(duì)于文本中的名稱,“George Bush(喬治·布什)”和“G.Bush(G·布什)”可以指同一實(shí)體。對(duì)于有歧義文本的特定標(biāo)簽,根據(jù)上下文,實(shí)體“George Bush(喬治·布什)”可被分配如“總統(tǒng)”的標(biāo)簽,而不是普通標(biāo)簽“人物”或者錯(cuò)誤標(biāo)簽“位置”。為了對(duì)命名實(shí)體消歧,可從上下文窗口框架中的概念中提取常識(shí)知識(shí)而不是直接使用該文本。此外,可基于知識(shí)斷言的相關(guān)性得分使用用于對(duì)實(shí)體候選標(biāo)簽排名的新得分模型。

本文公開的系統(tǒng)和方法大體涉及命名實(shí)體識(shí)別,更具體地涉及通過使用常識(shí)知識(shí)以及從有歧義的命名實(shí)體的上下文信息中推理出的知識(shí)斷言來(lái)進(jìn)行自然語(yǔ)言文本中的命名實(shí)體消歧。

利用常識(shí)知識(shí)的消歧系統(tǒng)可使用大量的知識(shí)庫(kù)以對(duì)自然語(yǔ)言文檔中的命名實(shí)體消歧,并且可利用來(lái)自常識(shí)知識(shí)庫(kù)的語(yǔ)義數(shù)據(jù)和知識(shí)推理機(jī)制。諸多NER工具可能缺乏常識(shí)推理。因此,本文公開的利用常識(shí)知識(shí)的消歧系統(tǒng)可通過使用知識(shí)庫(kù)來(lái)弄清文本信息的意思,以挖掘用于實(shí)體消歧任務(wù)的附加知識(shí)。常識(shí)知識(shí)庫(kù)可以是由語(yǔ)義網(wǎng)絡(luò)形成的開放式源知識(shí)庫(kù),其中所述語(yǔ)義網(wǎng)絡(luò)對(duì)于自然語(yǔ)言處理和智能用戶交互有益。常識(shí)知識(shí)庫(kù)可以是免費(fèi)可用的數(shù)據(jù)庫(kù),所述數(shù)據(jù)庫(kù)包括常識(shí)知識(shí)和諸多節(jié)點(diǎn)和邊界。常識(shí)知識(shí)庫(kù)可與多個(gè)不同的語(yǔ)義關(guān)系相鏈接,并且可提供實(shí)用的常識(shí)推理工具箱瀏覽器和集成的自然語(yǔ)言處理引擎,自然語(yǔ)言處理引擎可支持諸多實(shí)用的文本推理任務(wù),所述任務(wù)包括主題生成、語(yǔ)義消歧和分類、語(yǔ)感感測(cè)、類推和其它面向上下文的推理。

此外,利用從圍繞有歧義的命名實(shí)體的概念中挖掘的上下文信息的知識(shí)斷言可幫助對(duì)多個(gè)命名實(shí)體消歧,以發(fā)現(xiàn)用于該實(shí)體的正確標(biāo)簽。這可通過滑動(dòng)覆蓋在有歧義實(shí)體輸入文本及其周圍上下文概念上的概念窗口框架來(lái)實(shí)現(xiàn)。對(duì)于每個(gè)窗口框架,可采集從知識(shí)庫(kù)推導(dǎo)出的附加知識(shí),以計(jì)算對(duì)于有歧義實(shí)體的新得分。根據(jù)這些有歧義的命名實(shí)體所占用的語(yǔ)義得分,可驗(yàn)證這些命名實(shí)體并且根據(jù)需要向其分配新的標(biāo)簽。

圖11示出根據(jù)本公開的消歧過程1100。雖然流程圖示出一系列連續(xù)的步驟,但是除非明確地闡述,否則不應(yīng)當(dāng)從該順序中得出關(guān)于以下的推論:以特定順序執(zhí)行步驟或步驟中的一部分、順序地執(zhí)行步驟或步驟中的一部分,而不是同時(shí)地或以重疊的方式執(zhí)行步驟或步驟中的一部分,或者在沒有介于中間的步驟或中間步驟的情況下執(zhí)行排它地示出的步驟。示例中所示的過程由例如移動(dòng)站中的處理器來(lái)執(zhí)行。

在步驟1105中,可將文本輸入到利用常識(shí)知識(shí)的消歧系統(tǒng)中。文本可包括有歧義的命名實(shí)體。在步驟1110中,利用常識(shí)知識(shí)的消歧系統(tǒng)可從輸入文本中提取概念??蓪?duì)包括有歧義實(shí)體的輸入文本預(yù)處理,以在概念提取步驟之前移除停止詞和標(biāo)點(diǎn)。

例如,可向利用常識(shí)知識(shí)的消歧系統(tǒng)發(fā)送包括有歧義的命名實(shí)體的輸入文本,諸如講述“Show me more movies on<Hulu>about<Tom Hanks>in Apollo<13>(在<Hulu>上向我展示與阿波羅<13>號(hào)中的<湯姆·漢克斯>有關(guān)的更多電影)”的文本??扇コ龑?duì)于句子的整個(gè)含義較不重要的停止詞和標(biāo)點(diǎn)。

利用常識(shí)知識(shí)的消歧系統(tǒng)可確定句子中特定單詞的相關(guān)概念。例如,利用常識(shí)知識(shí)的消歧系統(tǒng)可返回針對(duì)諸如單詞“阿波羅”的特定單詞的不同概念,所述單詞“阿波羅”可匹配到兩個(gè)概念“阿波羅”和“阿波羅13號(hào)”。可執(zhí)行能從匹配同一輸入單詞的候選概念的集合中選擇最佳概念的功能。通常,從知識(shí)庫(kù)中定向到大量單詞并且有更高返回得分的概念可被更頻繁地使用。預(yù)處理文本輸入和提取概念可生成包括如下概念的輸入文本:

“[向我展示][電影][Hulu][湯姆·漢克斯][阿波羅13號(hào)]”

在某些實(shí)施方式中,可檢查特定實(shí)體以確定是否已經(jīng)向它們分配名稱類別(標(biāo)簽)。例如,“湯姆·漢克斯”可貼上人物類別的標(biāo)簽。命名實(shí)體可匹配到名稱類別層次結(jié)構(gòu)(hierarchy),以獲得可能更專門地與所述實(shí)體匹配而不是與分配的更多相關(guān)實(shí)體類別。

圖12示出根據(jù)本公開名稱類別層次結(jié)構(gòu)的示例圖。在圖12所示的層次結(jié)構(gòu)的實(shí)施方式僅僅是例證。在不脫離本公開的范圍的情況下,可使用其它實(shí)施方式。

可從經(jīng)分類的預(yù)定義概念集合中建立類別層次結(jié)構(gòu)。隨后可利用通過驗(yàn)證過程從知識(shí)庫(kù)中挖掘的新概念來(lái)更新類別層次結(jié)構(gòu)。

在將命名實(shí)體與新的標(biāo)簽關(guān)聯(lián)之后,有歧義實(shí)體可具有附加候選標(biāo)簽。例如,實(shí)體“湯姆·漢克斯”可具有不同的名稱,諸如<湯姆·漢克斯、人物>、<湯姆·漢克斯、男演員>、<湯姆·漢克斯、總統(tǒng)>等。

在步驟1115中,利用常識(shí)知識(shí)的消歧系統(tǒng)可將概念性的概念與有歧義實(shí)體組合,以從知識(shí)庫(kù)中提取更多相關(guān)的知識(shí)或信息。因?yàn)樽匀徽Z(yǔ)言句子中的連續(xù)單詞可能處于類似的上下文中或者具有相近的關(guān)系,所以可能有歧義地圍繞命名實(shí)體的概念可組合到同一上下文中。為了確保覆蓋所有的概念和實(shí)體,可使用具有預(yù)定義大小(例如大?。?、5、7…)的上下文概念窗口,其中所述上下文概念窗口從輸入文本的開始滑動(dòng)到結(jié)束。針對(duì)其中窗口包括有歧義實(shí)體的每個(gè)快照,可從有歧義實(shí)體的周圍概念中采集附加的知識(shí)或信息以計(jì)算得分。

圖13示出根據(jù)本公開可用于從句子中提取相關(guān)知識(shí)或信息的概念窗口的示例。圖13所示的概念窗口的實(shí)施方式僅僅是例證。在不脫離本公開的范圍的情況下,可使用其它實(shí)施方式。

如圖13所示,有歧義實(shí)體“湯姆·漢克斯”出現(xiàn)在兩個(gè)連續(xù)的概念窗口框架中:諸如第二窗口1304和第三窗口1306(但不是第一窗口1302)。在這些窗口中,所有概念可用于從知識(shí)庫(kù)中提取相關(guān)的知識(shí)斷言。

在步驟1120中,利用常識(shí)知識(shí)的消歧系統(tǒng)推理新的常識(shí)知識(shí)。利用常識(shí)知識(shí)的消歧系統(tǒng)可進(jìn)行優(yōu)化,以通過真實(shí)世界的文本進(jìn)行實(shí)用的基于概念的交互,并且可容易地應(yīng)用于任何文本輸入以用于查詢擴(kuò)展或者確定語(yǔ)義相似性。

利用常識(shí)知識(shí)的消歧系統(tǒng)可做出常識(shí)相關(guān)斷言,所述斷言對(duì)于確定針對(duì)有歧義實(shí)體的新標(biāo)簽可能有益。相關(guān)斷言可通過語(yǔ)義關(guān)系和概念的集合被鏈接和可交換地推理出。利用常識(shí)知識(shí)的消歧系統(tǒng)可將這些關(guān)系類型組合到各種語(yǔ)義關(guān)系中,所述語(yǔ)義關(guān)系包括弱語(yǔ)義關(guān)系(諸如“LocationOf(位置為)”、“IsA(是)”)或者強(qiáng)語(yǔ)義關(guān)系(諸如“PropertyOf(性質(zhì)為)”、“MotivationOf(動(dòng)機(jī)為)”)。

在某些實(shí)施方式中,利用常識(shí)知識(shí)的消歧系統(tǒng)使用知識(shí)推理庫(kù),所述知識(shí)推理庫(kù)可建立在知識(shí)庫(kù)的頂部上用于通過類比進(jìn)行推理或者用于通過語(yǔ)義網(wǎng)絡(luò)進(jìn)行關(guān)聯(lián),所述知識(shí)推理庫(kù)包括常識(shí)網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)。知識(shí)推理庫(kù)可用來(lái)在可表示為語(yǔ)義網(wǎng)絡(luò)的任何知識(shí)庫(kù)中查找相關(guān)的概念、特點(diǎn)和關(guān)系類型。

知識(shí)推理庫(kù)可包括用于允許利用常識(shí)知識(shí)的消歧系統(tǒng)查詢相關(guān)概念的函數(shù)、可獲取更多關(guān)系、以及做出信息項(xiàng)目是否正確的推斷。此外,利用常識(shí)知識(shí)的消歧系統(tǒng)可查找相似的概念或關(guān)系等。通過分析窗口框架中的每個(gè)概念,如圖13所示,可使用常識(shí)知識(shí)庫(kù)來(lái)采集更多相關(guān)的知識(shí)斷言。利用常識(shí)知識(shí)的消歧系統(tǒng)可使用機(jī)制來(lái)濾除對(duì)上下文重要的那些知識(shí)斷言和附加概念。

圖14示出根據(jù)本公開從常識(shí)知識(shí)庫(kù)中提取的常識(shí)知識(shí)的示例。圖14所示的常識(shí)知識(shí)的實(shí)施方式僅僅是例證。在不脫離本公開的范圍的情況下,可使用其它實(shí)施方式。

由于常識(shí)數(shù)據(jù)可與概念“Hulu”和“阿波羅13”相關(guān)。這些斷言可被評(píng)估并用于識(shí)別新的實(shí)體標(biāo)簽或類別。

在步驟1125中,利用常識(shí)知識(shí)的消歧系統(tǒng)計(jì)算實(shí)體消歧得分并對(duì)其排名。對(duì)于每個(gè)有歧義的命名實(shí)體(ANE),利用常識(shí)知識(shí)的消歧系統(tǒng)可在搜索更好的標(biāo)簽匹配(fit)中計(jì)算與每個(gè)候選標(biāo)簽(CLabel)對(duì)應(yīng)的新得分。得分計(jì)算可使用從用于所有概念的知識(shí)庫(kù)中推導(dǎo)出的信息以及同一窗口中有歧義的命名實(shí)體。具體地,利用常識(shí)知識(shí)的消歧系統(tǒng)可瀏覽包括有歧義命名實(shí)體的每個(gè)滑動(dòng)窗,并且可處理該窗口框架中的全部概念。利用常識(shí)知識(shí)的消歧系統(tǒng)可采集與來(lái)自知識(shí)庫(kù)的這些概念對(duì)應(yīng)的知識(shí)斷言(KA)。因?yàn)槊總€(gè)概念可能包括相關(guān)性低或呈不同語(yǔ)言的諸多知識(shí)斷言,所以利用常識(shí)知識(shí)的消歧系統(tǒng)可執(zhí)行過濾器,所述過濾器可基于斷言的相關(guān)性得分僅保留接近概念窗口上下文的斷言。因此,利用常識(shí)知識(shí)的消歧系統(tǒng)可為窗口框架中的概念(諸如KAconcepts)提供選定知識(shí)斷言集合。類似地,利用常識(shí)知識(shí)的消歧系統(tǒng)可針對(duì)得分計(jì)算采集與實(shí)體候選標(biāo)簽(諸如KACLabel)對(duì)應(yīng)的知識(shí)斷言集合。

利用常識(shí)知識(shí)的消歧系統(tǒng)還可通過score_assertions(得分_斷言)函數(shù)測(cè)量有歧義的命名實(shí)體(ANE)與其標(biāo)簽候選CLabel之間的相似性,所述score_assertions函數(shù)可在兩個(gè)集合KAconcepts和KACLabel之間確定斷言如何與彼此相關(guān)。對(duì)于每個(gè)上下文窗口框架w,具有特定候選標(biāo)簽CLabelj的有歧義的命名實(shí)體的得分可根據(jù)公式1來(lái)計(jì)算:

特定概念窗口框架w中的命名實(shí)體的新得分和標(biāo)簽可通過公式2和公式3確定:

因?yàn)橛衅缌x的命名實(shí)體ANE可根據(jù)其框架大小屬于不同的概念窗口,所以利用常識(shí)知識(shí)的消歧系統(tǒng)可在所有包括的窗口框架上評(píng)估具有選定標(biāo)簽CLabel的該實(shí)體的最終得分為其最高返回得分。因此,用于實(shí)體的新標(biāo)簽可根據(jù)公式4確定:

Label(ANE)=arg maxscore(ANE,CLabel)W

W=l-W

例如,從圖15中,假設(shè)“湯姆·漢克斯”在第二窗口1204中分配有具有0.9823得分的人物標(biāo)簽,而針對(duì)第三窗口1206標(biāo)簽和得分分別是男演員和0.9985。于是,實(shí)體“湯姆·漢克斯”將獲得作為男演員的新標(biāo)簽。

圖15示出根據(jù)本公開消歧過程的預(yù)料輸出的示例。圖15所示的消歧過程的輸出的實(shí)施方式僅僅是例證。在不脫離本公開的范圍的情況下,可使用其它實(shí)施方式。

如圖15所示,利用常識(shí)知識(shí)的消歧系統(tǒng)可提供消歧過程的輸出,在消歧過程中,可向預(yù)先確定的命名實(shí)體分配更多正確的標(biāo)簽,并且針對(duì)不明確實(shí)體創(chuàng)建新標(biāo)簽。在這種情況中,“阿波羅13號(hào)”分配有標(biāo)簽“電影標(biāo)題?!?/p>

在某些實(shí)施方式中,為了使具有其最接近新標(biāo)簽的實(shí)體的得分最大化,利用常識(shí)知識(shí)的消歧系統(tǒng)在計(jì)算期間執(zhí)行不同的方法以靈活地改變參數(shù)。

在步驟1130中,利用常識(shí)知識(shí)的消歧系統(tǒng)輸出具有經(jīng)消歧的命名實(shí)體的文本。

本發(fā)明的某些實(shí)施方式適于在現(xiàn)有自動(dòng)語(yǔ)言識(shí)別(ASR)系統(tǒng)的輸出過程中精確地檢測(cè)錯(cuò)誤的片段。通常,因?yàn)榇蟛糠钟脩糨斎氆@得正確的翻譯,所以ASR輸出中的錯(cuò)誤可被限制為少量輸出片段。其結(jié)果是,對(duì)于校正僅僅本質(zhì)上錯(cuò)誤的那些片段可能有益。因此,識(shí)別ASR輸出的錯(cuò)誤部分對(duì)于精確地校正和恢復(fù)用戶輸入而言是至關(guān)重要的。以下系統(tǒng)設(shè)計(jì)成與配置有正確的聲學(xué)和語(yǔ)言模型的ASR系統(tǒng)一起工作。

ASR系統(tǒng)可輸出用戶輸入的多個(gè)假設(shè)(替代方案)。本公開使用這些多個(gè)假設(shè)中提出的信息來(lái)識(shí)別輸出中的錯(cuò)誤片段。因?yàn)槊總€(gè)假設(shè)可以是同一用戶輸入的翻譯,所以來(lái)自ASR系統(tǒng)的所有假設(shè)可幾乎等同。然而,它們可以僅僅在ASR關(guān)于用戶輸入不確定的區(qū)域中不同。本公開的實(shí)施方式識(shí)別這些不確定區(qū)域,在不確定區(qū)域處,所述假設(shè)可通過執(zhí)行假設(shè)的最佳對(duì)齊而不同。雖然可能能夠在多項(xiàng)式時(shí)間中構(gòu)建一對(duì)假設(shè)(n=2)的最佳對(duì)齊,但是可能無(wú)法在多項(xiàng)式時(shí)間中構(gòu)建多個(gè)假設(shè)(n>2)的最佳對(duì)齊,因?yàn)檫@是NP難題。其結(jié)果是,針對(duì)ASR輸出中的對(duì)齊假設(shè)(aligning hypotheses),專門研發(fā)成用于構(gòu)建生物序列的多個(gè)對(duì)齊的程序可能合適。為了使用針對(duì)生物序列而開發(fā)的多重序列對(duì)齊程序,可針對(duì)給定語(yǔ)言中的字符構(gòu)建給出替換、插入和刪除的代價(jià)的替換矩陣。某些實(shí)施方式還包括用于自動(dòng)從數(shù)據(jù)中學(xué)習(xí)這些替換矩陣的方法。接著,可計(jì)算表明每個(gè)對(duì)齊中每個(gè)位置中占用的所有字符的共有序列。具有多個(gè)字符的共有序列中的位置可表示不確定或錯(cuò)誤區(qū)域。然后,可通過辨識(shí)所有這些單詞來(lái)識(shí)別共有(consensus)序列中由具有不同字符的位置構(gòu)成的不正確區(qū)域。

在某些實(shí)施方式中,替換矩陣構(gòu)造成使得:具有相似拼寫的單詞的替換方案妨礙對(duì)ASR輸出中拼法錯(cuò)誤做出解釋。在某些實(shí)施方式中,本文描述的系統(tǒng)和方法還用于對(duì)不完整或不正確拼寫的單詞(如“textlish”)進(jìn)行對(duì)齊,從而檢測(cè)區(qū)域或錯(cuò)誤匹配或不確定性。在某些實(shí)施方式中,如果兩個(gè)單詞之間的相似性高于給定閾值,則它們的替換得分被視為0,諸如如果對(duì)齊程序?qū)⑦@些單詞對(duì)齊在一起則不存在妨礙。

在某些實(shí)施方式中,檢測(cè)單詞邊界,并且作為如與各個(gè)字符相反地進(jìn)行對(duì)齊的不可分割單元處理各個(gè)單詞。

在某些實(shí)施方式中,使用如Soundex或Double Metaphone的編碼將起始假設(shè)中的文本轉(zhuǎn)換為其相應(yīng)語(yǔ)音編碼,并且所形成的音素被對(duì)齊。在某些實(shí)施方式中,發(fā)音相似的單詞通常彼此對(duì)齊。替換矩陣構(gòu)造成使得不存在對(duì)發(fā)音相似的單詞進(jìn)行對(duì)齊的妨礙(penalty)。

在某些實(shí)施方式中,當(dāng)域中(in-domain)數(shù)據(jù)對(duì)于訓(xùn)練n-gram語(yǔ)言模型可用時(shí),對(duì)不確定單詞計(jì)分以估計(jì)錯(cuò)誤的量。如使用n-gram語(yǔ)言模型(n>=2)所計(jì)算的那樣,基于概率及不確定單詞的上下文(左側(cè)和右側(cè)的單詞或者n-grams)對(duì)不確定單詞計(jì)分。為了獲得精確得分,較大的n可使用大量的訓(xùn)練數(shù)據(jù)以及有效的平滑。

本公開的某些實(shí)施方式用于任何語(yǔ)言的字符給定集合中檢測(cè)錯(cuò)誤匹配的區(qū)域。相應(yīng)地修改用于對(duì)齊程序的替換矩陣。

本發(fā)明的某些實(shí)施方式適合于精確地檢測(cè)任何現(xiàn)有ASR系統(tǒng)的輸出中的錯(cuò)誤片段的系統(tǒng)和方法。通常,ASR輸出中的錯(cuò)誤可限于少量輸出片段,因?yàn)榇蟛糠钟脩糨斎氆@得正確的翻譯。其結(jié)果是,僅僅校正本質(zhì)上錯(cuò)誤的那些片段可能有益。因此,識(shí)別ASR輸出的不正確部分對(duì)于精確地校正和恢復(fù)用戶輸入可能是至關(guān)重要的。

ASR系統(tǒng)可輸出用戶輸入的多個(gè)假設(shè)。本公開的實(shí)施方式使用這些多個(gè)假設(shè)中提出的信息來(lái)識(shí)別輸出中的錯(cuò)誤片段。由于每個(gè)假設(shè)可能是同一用戶輸入的翻譯,所以來(lái)自ASR系統(tǒng)的所有假設(shè)可能幾乎等同。然而,它們僅在ASR關(guān)于用戶輸入是不確定的區(qū)域可能不同。

考慮以下示例(“示例1”)。用戶輸入:“I want to watch Seinfeld(我想看宋飛正傳)”。ASR輸出:假設(shè)1:“I want too watch Seinfeld”,假設(shè)2:“I want to wash Seinfeld”和假設(shè)3:“I want two watch Seinfeld”。在該示例中,因?yàn)樵贏SR輸出中單詞位置3和單詞位置4中的假設(shè)可能不同,所以可能能夠推導(dǎo)出ASR系統(tǒng)在正確地翻譯與這些位置對(duì)應(yīng)的用戶輸入中存在問題。然而,因?yàn)樵谌考僭O(shè)中針對(duì)剩余位置的翻譯輸出可相同,所以可表明這些區(qū)域中的正確翻譯的較高概率。在將它們與輸出中的剩余假設(shè)進(jìn)行比較之后,僅給定假設(shè)中的不確定區(qū)域可被識(shí)別。在沒有比較的情況下,可能不會(huì)始終能夠識(shí)別這些錯(cuò)誤片段。因?yàn)槠巍皌oo watch”和“two watch”在語(yǔ)法上不是正確的,所以可能不難檢測(cè)假設(shè)1和假設(shè)3中的錯(cuò)誤。然而,由于假設(shè)2中的片段“to wash”在語(yǔ)法本身上是正確的,所以在不與其它片段進(jìn)行比較的情況下可能不會(huì)被識(shí)別為錯(cuò)誤片段。該示例表明,ASR輸出的多個(gè)假設(shè)中可存在有用的信息,這些信息可有效地用于檢測(cè)錯(cuò)誤。

本公開的實(shí)施方式舉例說(shuō)明用于檢測(cè)ASR輸出中的錯(cuò)誤的系統(tǒng)和方法。圖16示出根據(jù)本公開多個(gè)假設(shè)對(duì)齊的示例性方法1600。圖16所示的過程1600的實(shí)施方式僅僅是例證。在不脫離本公開的范圍的情況下,可使用其它實(shí)施方式。

在步驟1605中,系統(tǒng),諸如客戶端設(shè)備中的系統(tǒng)處理器,利用如Soundex或Double Metaphone的語(yǔ)音編碼將ASR假設(shè)轉(zhuǎn)換為其相應(yīng)音素。到音素的轉(zhuǎn)換對(duì)于將如“friend(朋友)”和“fringe(邊緣)”的單詞對(duì)齊在一起可能有用,在將原始文本用于對(duì)齊時(shí)這不會(huì)獲得對(duì)齊。轉(zhuǎn)變步驟還可幫助將如“cnn”和“seen(看)”的單詞對(duì)齊在一起。將文本輸出轉(zhuǎn)換為用于后續(xù)對(duì)齊的相應(yīng)音素可以是所提出公開的新穎性之一。

在某些實(shí)施方式中,跳過步驟1605,并且該方法轉(zhuǎn)到利用相應(yīng)文本對(duì)假設(shè)進(jìn)行對(duì)齊。例如,如“we(我們)”和“wii”的單詞在沒有被轉(zhuǎn)換成其相應(yīng)音素時(shí)可更好地對(duì)齊。

在步驟1610中,系統(tǒng),諸如客戶端設(shè)備中的系統(tǒng)處理器,生成音素或原始文本的最佳對(duì)齊,使得需要最少數(shù)量的編輯或改變來(lái)將一個(gè)假設(shè)轉(zhuǎn)換為另一個(gè)。包括空空間的每個(gè)單獨(dú)字符/音素可作為用于對(duì)齊的不可分割單元被處理。通過優(yōu)化Levenshtein距離,可使用動(dòng)態(tài)編程獲得一對(duì)字符串的最佳對(duì)齊。對(duì)于包括文本或音素字符的三個(gè)或更多個(gè)字符串的最佳對(duì)齊,可能不存在在多項(xiàng)式時(shí)間中運(yùn)行的確切程序,因?yàn)榇嬖贜P難題。該問題可通過改編多重序列對(duì)齊(MSA)程序使用組合問題來(lái)解決,其中所述多重序列對(duì)齊(MSA)程序?qū)iT開發(fā)成用于將多重生物序列對(duì)齊。本公開的某些實(shí)施方式改編用于將ASR假設(shè)有效地對(duì)齊的MSA程序。具體地,可相應(yīng)地構(gòu)建由用于將一個(gè)字符替換為另一字符的得分構(gòu)成的替代矩陣。替換矩陣可從由一對(duì)用戶輸入和相應(yīng)的ASR翻譯構(gòu)成的訓(xùn)練集合習(xí)得。本公開的某些實(shí)施方式舉例說(shuō)明,系統(tǒng)(諸如客戶端設(shè)備中的系統(tǒng)處理器)可在沒有用戶介入的情況下學(xué)習(xí)替換矩陣。換言之,系統(tǒng)(諸如客戶端設(shè)備中的系統(tǒng)處理器)配置為自動(dòng)地學(xué)習(xí)替換矩陣。圖17示出根據(jù)本公開的示例性最佳對(duì)齊。圖18示出根據(jù)本公開針對(duì)不同示例的對(duì)應(yīng)音素的示例性對(duì)齊。圖17和圖18所示的對(duì)齊的實(shí)施方式僅僅是例證。在不脫離本公開的范圍的情況下,可使用其它實(shí)施方式。本公開的實(shí)施方式也支持在對(duì)齊中插入和刪除字符。

圖19示出根據(jù)本公開其中使用單詞作為用于對(duì)齊目的的不可分割單元的示例性最佳對(duì)齊。圖19所示的對(duì)齊的實(shí)施方式僅僅是例證。在不脫離本公開的范圍的情況下,可使用其它實(shí)施方式。

在某些實(shí)施方式中,既對(duì)原始的文本又對(duì)其相應(yīng)音素執(zhí)行對(duì)齊。

在某些實(shí)施方式中,檢測(cè)單詞的邊界并且將各個(gè)單詞作為用于對(duì)齊的不可分割單元進(jìn)行處理。

在某些實(shí)施方式中,通過對(duì)不同對(duì)假設(shè)執(zhí)行多重成對(duì)對(duì)齊來(lái)將假設(shè)對(duì)齊,然后可交替地將它們對(duì)齊。

在步驟1615中,系統(tǒng)(諸如客戶端設(shè)備中的系統(tǒng)處理器)從對(duì)齊中構(gòu)造共有序列。共有序列中的每個(gè)位置可在對(duì)齊中展示該位置處呈現(xiàn)的所有字符。接著,系統(tǒng)(諸如客戶端設(shè)備中的系統(tǒng)處理器)分析共有序列以識(shí)別假設(shè)中的不確定區(qū)域。共有序列中具有單個(gè)字符或音素的位置可表明,在ASR輸出中所有假設(shè)中的該位置處呈現(xiàn)相同字符。其結(jié)果是,ASR可確信在該位置處相應(yīng)用戶輸入的翻譯。可替代地,共有序列中具有多個(gè)音素或字符的位置可表示在翻譯用戶輸入過程中的可變性。這些位置可被標(biāo)記成不確定的,并且相應(yīng)的單詞可標(biāo)記成用于校正。

在某些實(shí)施方式中,可從原始的文本以及相應(yīng)音素中獲得對(duì)齊作為該步驟的輸入。共有序列可針對(duì)兩種對(duì)齊進(jìn)行構(gòu)造,并且可從兩個(gè)序列中檢測(cè)不確定區(qū)域??杀3謴膬蓚€(gè)對(duì)齊中檢測(cè)的所有獨(dú)特不確定序列,而丟棄重復(fù)的。

當(dāng)域內(nèi)數(shù)據(jù)可用時(shí),系統(tǒng)(諸如客戶端設(shè)備中的系統(tǒng)處理器)繼續(xù)步驟1620,以對(duì)在先前步驟中檢測(cè)到的不確定單詞計(jì)分。在步驟1615中,系統(tǒng)(諸如客戶端設(shè)備中的系統(tǒng)處理器)可在ASR輸出中檢測(cè)若干可能不正確的單詞。為了按照重要性的順序?qū)@些單詞排名,本文公開的系統(tǒng)和方法可針對(duì)每個(gè)候選單詞計(jì)算代表不確定性的得分。該得分可使用在與谷歌N-Gram語(yǔ)料庫(kù)(corpus)或微軟N-Gram語(yǔ)料庫(kù)相似的域內(nèi)語(yǔ)料庫(kù)上訓(xùn)練的n-gram模型來(lái)計(jì)算。n-gram模型可給出觀察語(yǔ)料庫(kù)中的候選單詞的概率。“n”值可以是2或者更多。較大的n可使用大量訓(xùn)練數(shù)據(jù)以及用于精確概率(probability)計(jì)算的有效平滑技術(shù)。本公開還支持計(jì)算單詞的上下文以及概率。本質(zhì)上,n-gram概率可通過包括候選單詞之前和之后的單詞或n-grams以及單詞本身來(lái)計(jì)算。對(duì)于以上示例中的不確定單詞“wash(洗)”和“watch(手表)”,n-gram概率可計(jì)算出“too watch Seinfelf”、“to wash Seinfeld”和“two watch Seinfeld?!本哂邢录?jí)概率的候選短語(yǔ)較不可能在訓(xùn)練語(yǔ)料庫(kù)中看見,因此更有可能是不正確的。其結(jié)果是,候選短語(yǔ)可放置在輸出的不確定片段列表的頂部。得分列表可按概率得分的升序分類。在某些實(shí)施方式中,可使用不同的得分技術(shù)(如使用統(tǒng)計(jì)語(yǔ)法分析器)來(lái)對(duì)候選單詞計(jì)分。

本公開的實(shí)施方式提供用于學(xué)習(xí)替換矩陣的系統(tǒng)和方法。本公開的某些實(shí)施方式舉例說(shuō)明,系統(tǒng)(諸如客戶端設(shè)備中的系統(tǒng)處理器)可在沒有用戶介入的情況下學(xué)習(xí)替換矩陣。換言之,系統(tǒng)(諸如客戶端設(shè)備中的系統(tǒng)處理器)配置為自動(dòng)學(xué)習(xí)替換矩陣。在上面描述的系統(tǒng)用于檢測(cè)ASR輸出中的錯(cuò)誤之前,可利用訓(xùn)練數(shù)據(jù)構(gòu)建替換矩陣。用于學(xué)習(xí)替換矩陣的訓(xùn)練數(shù)據(jù)可由通向ASR系統(tǒng)的用戶輸入和相應(yīng)ASR輸出構(gòu)成。對(duì)于每個(gè)用戶輸入,可創(chuàng)建由用戶輸入和每個(gè)ASR輸出構(gòu)成的訓(xùn)練對(duì)。然后,可將這些訓(xùn)練對(duì)作為輸出給予學(xué)習(xí)系統(tǒng)以學(xué)習(xí)替換矩陣。系統(tǒng)可學(xué)習(xí)三種不同的替換矩陣:第一種用于替換各個(gè)字符;第二種用于替換音素;以及第三種用于替換單詞。

對(duì)于每個(gè)訓(xùn)練對(duì),學(xué)習(xí)系統(tǒng)可構(gòu)造配對(duì)中句子的基于字符的成對(duì)對(duì)齊。對(duì)于每對(duì)字符(char1、char2),系統(tǒng)可橫跨所有訓(xùn)練對(duì)計(jì)算char1與char2(char1和char2可相同)對(duì)齊的次數(shù)。空格和刪除還可作為單獨(dú)的對(duì)齊單元處理。然后,系統(tǒng)(諸如客戶端設(shè)備中的系統(tǒng)處理器)可橫跨所有訓(xùn)練對(duì)通過可見(對(duì)齊)的char1的總次數(shù)將這些計(jì)數(shù)標(biāo)準(zhǔn)化。系統(tǒng)還可橫跨所有訓(xùn)練對(duì)構(gòu)造基于音素的成對(duì)的訓(xùn)練對(duì)對(duì)齊并且可計(jì)算每個(gè)音素和另一個(gè)(包括它本身)對(duì)齊的次數(shù),以及可相應(yīng)地將該計(jì)數(shù)標(biāo)準(zhǔn)化。系統(tǒng)可適當(dāng)?shù)貙⑦@些計(jì)數(shù)保存為矩陣。由于這些矩陣可以是對(duì)稱的,諸如得分(unit1、unit2)與得分(unit2、unit1)相同,所以僅可保存矩陣的上三角和下三角。

雖然利用示例性實(shí)施方式描述了本公開,但是本領(lǐng)域技術(shù)人員可得到各種變型和修改的啟示。本公開旨在涵蓋這些變型和修改,因?yàn)槠渎淙胨綑?quán)利要求的范圍內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
唐海县| 大同县| 遂平县| 应城市| 平顺县| 潍坊市| 普定县| 名山县| 安康市| 綦江县| 遂平县| 宣武区| 和顺县| 阿克陶县| 海城市| 临海市| 高唐县| 汶上县| 闽清县| 胶州市| 松溪县| 广宗县| 阳泉市| 思茅市| 南陵县| 吴堡县| 鄢陵县| 什邡市| 郁南县| 白山市| 东乌珠穆沁旗| 鞍山市| 廊坊市| 分宜县| 阜新市| 都江堰市| 甘谷县| 台湾省| 望城县| 鹤峰县| 宝兴县|