一種基于場景的實(shí)時語音識別系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及語音識別技術(shù),尤其涉及一種基于場景的實(shí)時語音識別系統(tǒng)和方法。
【背景技術(shù)】
[0002] 現(xiàn)有的語音識別中,通?;诟黝I(lǐng)域語料組建的通用語言模型,結(jié)合相應(yīng)的聲學(xué) 模型來識別語音對應(yīng)的文本。其中的通用語言模型中的語料一般比較龐雜、更新速度較慢, 沒有針對性,導(dǎo)致語音識別結(jié)果往往準(zhǔn)確性不高。特別對于同音或近似的語音,現(xiàn)有的語音 識別技術(shù)并不能較好地提供準(zhǔn)確的識別結(jié)果,例如,采集到用戶的語音為"xinxinjie",現(xiàn) 有的語音識別技術(shù)并不能較好地判斷該語音對應(yīng)的文本是"新星街"還是"欣欣街"還是其 他相似文本。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明解決的技術(shù)問題之一是提升語音識別的準(zhǔn)確率。
[0004] 根據(jù)本發(fā)明的一個方面的一個實(shí)施例,提供了一種基于場景的實(shí)時語音識別系 統(tǒng),包括:
[0005] 語音采集裝置,被配置為采集當(dāng)前用戶的當(dāng)前語音;
[0006] 靜態(tài)語言模型構(gòu)建裝置,被配置為基于采集的歷史場景信息,構(gòu)建與不同場景類 型相對應(yīng)的靜態(tài)語言模型;
[0007] 場景語言模型構(gòu)建裝置,被配置為實(shí)時采集當(dāng)前用戶的當(dāng)前場景信息,構(gòu)建當(dāng)前 用戶對應(yīng)的當(dāng)前場景語言模型;
[0008] 語音識別裝置,被配置為根據(jù)當(dāng)前場景信息判斷當(dāng)前場景的類型,并從根據(jù)歷史 場景信息而構(gòu)建的與不同場景類型相對應(yīng)的靜態(tài)語言模型中搜索與當(dāng)前場景的類型相對 應(yīng)的靜態(tài)語言模型,調(diào)用通用語言模型,基于通用語言模型、搜索出的靜態(tài)語言模型、當(dāng)前 用戶對應(yīng)的場景語言模型的混合W及聲學(xué)模型,識別當(dāng)前用戶的語音。
[0009] 現(xiàn)有技術(shù)的實(shí)時語音識別系統(tǒng)只用通用語言模型識別,通用語言模型不針對具體 的場景,而類型的場景中很多對話上下文會重復(fù)出現(xiàn),因此,利用基于具體的場景的模型識 別可W提高實(shí)時語音識別的準(zhǔn)確度和效率。由于本發(fā)明的實(shí)施例通過統(tǒng)計(jì)和分析大量的歷 史場景信息,構(gòu)建與不同場景類型相對應(yīng)的靜態(tài)語言模型,也即為不同的場景類型關(guān)聯(lián)不 同的靜態(tài)語言模型,送種針對場景的模型識別有利于提升語音識別的準(zhǔn)確性;另外,本實(shí)施 例通過在線實(shí)時構(gòu)建對應(yīng)的當(dāng)前場景語言模型,送種實(shí)時構(gòu)建的語言模型進(jìn)一步結(jié)合了當(dāng) 前用戶的個性化信息,提升了語音識別的準(zhǔn)確性。
[0010] 根據(jù)本發(fā)明的一個實(shí)施例,所述語音識別裝置包括:
[0011] 并行計(jì)算單元,被配置為并行計(jì)算當(dāng)前用戶的當(dāng)前語音的各候選識別結(jié)果在通用 語言模型、搜索出的靜態(tài)語言模型和當(dāng)前用戶對應(yīng)的當(dāng)前場景語言模型下的概率分?jǐn)?shù);
[0012] 識別單元,被配置為基于各模型對應(yīng)的權(quán)重對各候選識別結(jié)果在各模型下的概率 分?jǐn)?shù)進(jìn)行加權(quán),根據(jù)加權(quán)后的概率分?jǐn)?shù)對各候選識別結(jié)果進(jìn)行排序,識別當(dāng)前用戶的當(dāng)前 語音對應(yīng)的文本。
[0013] 由于本實(shí)施例并行計(jì)算各語言模型下的概率分?jǐn)?shù),而不是順序計(jì)算,可W有效保 證語音識別的實(shí)時性。
[0014] 根據(jù)本發(fā)明的一個實(shí)施例,場景信息包括大致地理位置、時間、周邊人物、周邊活 動,場景的類型是由大致地理位置、時間、周邊人物、周邊活動中的一項(xiàng)或多項(xiàng)限定的,靜態(tài) 語言模型構(gòu)建裝置根據(jù)歷史場景信息而構(gòu)建的與不同場景類型相對應(yīng)的靜態(tài)語言模型是 如下構(gòu)建的:
[0015] 將歷史語料按照場景分類至特定場景的類型中,每個特定場景的類型對應(yīng)于一個 靜態(tài)語言模型,用特定場景的類型下的歷史語料訓(xùn)練相應(yīng)靜態(tài)語言模型。
[0016] 由于本實(shí)施例結(jié)合了諸如大致地理位置(如大的商圈,中關(guān)村商圈)、時間(如語 言模型中的語料獲取的時間、用戶的當(dāng)前時間等)、周邊人物、周邊活動等信息來限定不同 的場景類型,相比于單一方式例如僅用地理位置限定的場景更能反映場景的不同特點(diǎn),使 場景的定義更貼近實(shí)際,從而使不同的場景對應(yīng)的模型也能更好地被訓(xùn)練,進(jìn)一步提升語 音識別的準(zhǔn)確率。
[0017] 根據(jù)本發(fā)明的一個實(shí)施例,場景語言模型構(gòu)建裝置被配置為:
[0018] 根據(jù)當(dāng)前用戶的具體地理位置,在信息庫和/或互聯(lián)網(wǎng)上實(shí)時搜索相關(guān)內(nèi)容,根 據(jù)實(shí)時搜索到的相關(guān)內(nèi)容,構(gòu)建當(dāng)前用戶對應(yīng)的當(dāng)前場景語言模型。
[0019] 由于本實(shí)施例可用戶的具體地理信息為線索去實(shí)時獲取更多的與該用戶及 該具體地理位置相關(guān)的信息,從而可W快速有效地構(gòu)建與該用戶相對應(yīng)的個性化的當(dāng)前場 景語言模型,進(jìn)一步提高了語音識別的效率和準(zhǔn)確度。
[0020] 根據(jù)本發(fā)明的一個實(shí)施例,識別單元被配置為:
[0021] 預(yù)設(shè)各模型的權(quán)重,基于預(yù)設(shè)的權(quán)重對各模型下的概率分?jǐn)?shù)進(jìn)行加權(quán),根據(jù)加權(quán) 后的總概率分?jǐn)?shù)對各候選識別結(jié)果進(jìn)行排序,識別當(dāng)前用戶的當(dāng)前語音對應(yīng)的文本,并根 據(jù)當(dāng)前用戶對該識別出的文本的反饋,調(diào)整所述預(yù)設(shè)的各模型的權(quán)重,用于下一次語音的 識別;和/或
[0022] 預(yù)設(shè)各模型的權(quán)重,根據(jù)各候選識別結(jié)果在各模型下的概率分?jǐn)?shù)的置信度,實(shí)時 調(diào)整所述預(yù)設(shè)的各模型的權(quán)重,基于調(diào)整后的權(quán)重對各模型下的概率分?jǐn)?shù)進(jìn)行加權(quán),根據(jù) 加權(quán)后的概率分?jǐn)?shù)對當(dāng)前語音對應(yīng)的文本進(jìn)行排序,識別當(dāng)前用戶的當(dāng)前語音對應(yīng)的文 本。
[0023] 本實(shí)施例提供的針對各模型的權(quán)重進(jìn)行調(diào)整的方案相比于權(quán)重一成不變的方案, 可W在每一次識別后通過反饋或根據(jù)置信度不斷使識別更貼近客觀實(shí)際。
[0024] 根據(jù)本發(fā)明的一個實(shí)施例,所述大致地理位置通過用戶終端的定位系統(tǒng)定時上報(bào) 或用戶終端自動檢測提供的地理位置中獲得;
[00巧]周邊人物通過獲取其他用戶終端自動檢測提供的地理位置或GI^定位信息來確 定;
[0026] 周邊活動通過獲取其他用戶終端或商戶終端自動檢測提供的地理位置或GI^定 位信息、用戶終端存儲的活動信息、商戶終端提供的活動信息來確定。
[0027] 本實(shí)施例通過獲取并綜合當(dāng)前用戶終端和其他用戶終端所提供的多維度的信息, 相比于只從一個渠道獲取,可W更準(zhǔn)確地確定相應(yīng)的場景信息。
[0028] 根據(jù)本發(fā)明的一個實(shí)施例,當(dāng)前用戶的具體地理位置通過實(shí)時查詢用戶終端的定 位系統(tǒng)、獲得用戶終端的短信信息、獲得用戶終端存儲的備忘信息中的一項(xiàng)或多項(xiàng)獲得。
[0029] 本發(fā)明的一個實(shí)施例還提供了一種基于場景的實(shí)時語音識別方法,包括:
[0030] 采集當(dāng)前用戶的當(dāng)前語音和當(dāng)前場景信息;
[0031] 構(gòu)建當(dāng)前用戶對應(yīng)的當(dāng)前場景語言模型;
[0032] 根據(jù)當(dāng)前場景信息判斷當(dāng)前場景的類型,并從根據(jù)歷史場景信息而構(gòu)建的與不同 場景類型相對應(yīng)的靜態(tài)語言模型中搜索與當(dāng)前場景的類型相對應(yīng)的靜態(tài)語言模型;
[0033] 調(diào)用通用語言模型,基于通用語言模型、搜索出的靜態(tài)語言模型、當(dāng)前用戶對應(yīng)的 場景語言模型的混合W及聲學(xué)模型,識別當(dāng)前用戶的語音。
[0034] 根據(jù)本發(fā)明的一個實(shí)施例,所述基于通用語言模型、搜索出的靜態(tài)語言模型、當(dāng)前 用戶對應(yīng)的當(dāng)前場景語言模型的混合識別當(dāng)前用戶的語音的步驟包括:
[0035] 并行計(jì)算當(dāng)前用戶的當(dāng)前語音的各候選識別結(jié)果在通用語言模型、搜索出的靜態(tài) 語言模型和當(dāng)前用戶對應(yīng)的當(dāng)前場景語言模型下的概率分?jǐn)?shù);
[0036] 基于各模型對應(yīng)的權(quán)重對各候選識別結(jié)果在各模型下的概率分?jǐn)?shù)進(jìn)行加權(quán),根據(jù) 加權(quán)后的概率分?jǐn)?shù)對各候選識別結(jié)果進(jìn)行排序,識別當(dāng)前用戶的當(dāng)前語音對應(yīng)的文本。
[0037] 根據(jù)本發(fā)明的一個實(shí)施例,場景信息包括大致地理位置、時間、周邊人物、周邊活 動,場景的類型是由大致地理位置、時間、周邊人物、周邊活動中的一項(xiàng)或多項(xiàng)限定的,所述 根據(jù)歷史場景信息而構(gòu)建的與不同場景類型相對應(yīng)的靜態(tài)語言模型是如下構(gòu)建的:
[0038] 將歷史語料按照場景信息分類至特定場景的類型中,每個特定場景的類型對應(yīng)于 一個靜態(tài)語言模型,用特定場景的類型下的歷史語料訓(xùn)練相應(yīng)靜態(tài)語言模型。
[0039] 根據(jù)本發(fā)明的一個實(shí)施例,構(gòu)建當(dāng)前用戶對應(yīng)的當(dāng)前場景語言模型的步驟包括:
[0040] 根據(jù)當(dāng)前用戶的具體地理位置,在信息庫和/或互聯(lián)網(wǎng)上實(shí)時搜索相關(guān)內(nèi)容,根 據(jù)實(shí)時搜索到的相關(guān)內(nèi)容,構(gòu)建當(dāng)前用戶對應(yīng)的當(dāng)前場景語言模型。
[0041] 根據(jù)本發(fā)明的一個實(shí)施例,基于各模型對應(yīng)的權(quán)重對各候選識別結(jié)果在各模型下 的概率分?jǐn)?shù)進(jìn)行加權(quán),根據(jù)加權(quán)后的總概率分?jǐn)?shù)對各候選識別結(jié)果進(jìn)行排序,識別當(dāng)前用 戶的當(dāng)前語音對應(yīng)的文本的步驟包括:
[0042] 預(yù)設(shè)各模型的權(quán)重,基于預(yù)設(shè)的權(quán)重對各模型下的概率分?jǐn)?shù)進(jìn)行加權(quán),根據(jù)加權(quán) 后的總概率分?jǐn)?shù)對各候選識別結(jié)果進(jìn)行排序,識別當(dāng)前用戶的當(dāng)前語音對應(yīng)的文本,并根 據(jù)當(dāng)前用戶對該識別出的文本的反饋,調(diào)整所述預(yù)設(shè)的各模型的權(quán)重,用于下一次語音的 識別;和/或
[0043] 預(yù)設(shè)各模型的權(quán)重,根據(jù)各候選識別結(jié)果在各模型下的概率分?jǐn)?shù)的置信度,實(shí)時 調(diào)整所述預(yù)設(shè)的各模型的權(quán)重,基于調(diào)整后的權(quán)重對各模型下的概率分?jǐn)?shù)進(jìn)行加權(quán),根據(jù) 加權(quán)后的概率分?jǐn)?shù)對當(dāng)前語音對應(yīng)的文本進(jìn)行排序,識別當(dāng)前用戶的當(dāng)前語音對應(yīng)的文 本。
[0044] 根據(jù)本發(fā)明的一個實(shí)施例,所述大致地理位置通過用戶終端的定位系統(tǒng)定時上報(bào) 或用戶終端自動檢測提供的地理位置中獲得;
[0045] 周邊人物通過獲取其他用戶終端自動檢