欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語音識別能力測試方法和裝置與流程

文檔序號:11477006閱讀:599來源:國知局
語音識別能力測試方法和裝置與流程

本發(fā)明涉及語音識別技術(shù)領(lǐng)域,尤其涉及一種語音識別能力測試方法和裝置。



背景技術(shù):

語音識別技術(shù)使機器聽懂人類說話,在機器智能化過程中起著重要作用。因此,需要對語音識別系統(tǒng)的語音識別能力進行測評,以保證機器準(zhǔn)確識別語音命令。

現(xiàn)有語音識別能力測評方式為人工發(fā)音,具體為如下過程:測試人員人工說出語音命令,并由測試人員觀察機器的識別結(jié)果,進而判斷機器能否準(zhǔn)確識別語音命令,此處的識別結(jié)果為:機器對語音進行分析后所輸出的語音內(nèi)容對應(yīng)的文字。

人工發(fā)音雖然可以測評機器識別語音命令的能力,但是,人工發(fā)音的測試過程具有局限性。例如,人工發(fā)音的局限性可以表現(xiàn)為,發(fā)音人員通常清楚地按照語言的語法順序發(fā)出測試語音,但使用過程中,用戶未必按照發(fā)音人員在測試中朗讀測試詞語時遵循的語法形式發(fā)出命令。人工發(fā)音的局限性,導(dǎo)致測試語音與用戶實際發(fā)音匹配度低,進而導(dǎo)致測試結(jié)果與現(xiàn)實中機器語音識別能力不符的問題,使得測試結(jié)果準(zhǔn)確率低。



技術(shù)實現(xiàn)要素:

有鑒于此,本發(fā)明實施例提一種語音識別能力測試方法和裝置,用以提高語音識別能力測試結(jié)果的準(zhǔn)確率。

本發(fā)明實施例提供的一種語音識別能力測試方法,包括:

接收測試命令,所述測試命令中包括測試詞語和測試模式;

獲取與所述測試詞語和所述測試模式對應(yīng)的測試音頻文件;

對所述測試音頻文件進行語音識別;

將所述識別結(jié)果與所述測試詞語進行相似度比較,以輸出測試結(jié)果。

本發(fā)明實施例提供的一種語音識別能力測試裝置,包括:

接收模塊,用于接收測試命令,所述測試命令中包括測試詞語和測試模式;

獲取模塊,用于獲取與所述測試詞語和所述測試模式對應(yīng)的測試音頻文件;

識別模塊,用于對所述測試音頻文件進行語音識別;

比較模塊,用于將所述識別結(jié)果與所述測試詞語進行相似度比較,以輸出測試結(jié)果。

本發(fā)明實施例提供的一種語音識別能力測試方法和裝置,根據(jù)測試命令中的測試模式選擇測試命令中測試詞語對應(yīng)的測試音頻文件,以進行語音識別能力測試。其中的測試模式可以有多種選擇,多種模式盡可能地模擬了使用過程中用戶的實際發(fā)音,即不同用戶的不同發(fā)音習(xí)慣,打破了現(xiàn)有人工發(fā)音進行測試的局限性,提高了測試音頻與用戶實際的發(fā)音匹配度,進而提高了語音識別能力測試的測試結(jié)果的準(zhǔn)確率。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實施例提供的語音識別能力測試方法的可選實施例的步驟流程圖;

圖2為本發(fā)明實施例提供的語音識別能力測試方法的另一可選實施例的步驟流程圖;

圖3為本發(fā)明實施例提供的語音識別能力測試裝置的可選實施例的結(jié)構(gòu)圖;

圖4為本發(fā)明實施例提供的語音識別能力測試裝置的另一可選實施例的結(jié)構(gòu)圖。

具體實施方式

為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

在本發(fā)明實施例中使用的術(shù)語是僅僅出于描述特定實施例的目的,而非旨在限制本發(fā)明。在本發(fā)明實施例和所附權(quán)利要求書中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義,“多種”一般包含至少兩種,但是不排除包含至少一種的情況。

應(yīng)當(dāng)理解,本文中使用的術(shù)語“和/或”僅僅是一種描述關(guān)聯(lián)對象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,a和/或b,可以表示:單獨存在a,同時存在a和b,單獨存在b這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對象是一種“或”的關(guān)系。

應(yīng)當(dāng)理解,盡管在本發(fā)明實施例中可能采用術(shù)語第一、第二、第三等來描述xxx,但這些xxx不應(yīng)限于這些術(shù)語。這些術(shù)語僅用來將xxx區(qū)分開。例如,在不脫離本發(fā)明實施例范圍的情況下,第一xxx也可以被稱為第二xxx,類似地,第二xxx也可以被稱為第一xxx。

取決于語境,如在此所使用的詞語“如果”、“若”可以被解釋成為“在……時”或“當(dāng)……時”或“響應(yīng)于確定”或“響應(yīng)于檢測”。類似地,取決于語境,短語“如果確定”或“如果檢測(陳述的條件或事件)”可以被解釋成為“當(dāng)確定時”或“響應(yīng)于確定”或“當(dāng)檢測(陳述的條件或事件)時”或“響應(yīng)于檢測(陳述的條件或事件)”。

還需要說明的是,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的商品或者系統(tǒng)不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種商品或者系統(tǒng)所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的商品或者系統(tǒng)中還存在另外的相同要素。

進一步值得說明的是,本發(fā)明各實施例中各步驟之間的順序是可以調(diào)整的,不是必須按照以下舉例的順序執(zhí)行。

首先介紹本發(fā)明實施例提供的語音識別能力測試方法,該方法應(yīng)用于語音識別設(shè)備,具體的,語音識別設(shè)備可以為智能手機、智能機器人等。進一步地,上述方法還可以應(yīng)用于語音識別能力測試裝置,該裝置具體可以為語音識別軟件,還可以為語音識別功能插件,本發(fā)明實施例不做具體限定。

如圖1所示,本發(fā)明實施提供的一種語音識別能力測試方法,包括如下步驟:

s101:接收測試命令,測試命令中包括測試詞語和測試模式。

當(dāng)需要對語音識別系統(tǒng)的語音識別能力進行測試時,測試人員通過交互設(shè)備輸入測試命令。

測試命令具體可以包括測試詞語和測試模式,以下分別對測試詞語和測試模式做詳細介紹。

測試詞語可以為通過外設(shè)輸入的文本。舉例來說,測試詞語可以為“打開視頻播放器”,那么當(dāng)接收到“打開視頻播放器”時,則意味著需要播放“打開視頻播放器”對應(yīng)的音頻,以對機器的語音識別能力進行測試。輸入測試詞語的外設(shè)可以為鍵盤、觸摸屏等。

測試模式可以由用戶通過外設(shè)輸入,輸入方式可以為通過鼠標(biāo)點擊、或者通過觸摸屏點擊??蛇x地,測試模式包括發(fā)音地域性測試和詞語改變性測試等不同的測試模式。實際測試中,可以選擇任意一種模式進行測試,也可以同時選中幾種模式進行測試。

本發(fā)明實施例中,之所以對語音識別系統(tǒng)進行不同測試模式的測試,是為了測試語音識別系統(tǒng)的抗干擾能力。比如,發(fā)音地域性測試模式,用于測試語音識別系統(tǒng)對不同發(fā)音特征的識別能力;詞語改變性測試模式,用于測試語音識別系統(tǒng)對不同表達習(xí)慣的識別能力。

s102:獲取與測試詞語和測試模式對應(yīng)的測試音頻文件。

可選的,可以先獲取與測試詞語對應(yīng)的所有音頻文件,再從獲取的音頻文件中選取與測試模式相對應(yīng)的測試音頻文件;當(dāng)然,還可以先獲取與測試模式對應(yīng)的所有音頻文件,再從獲取的音頻文件中選取與測試詞語對應(yīng)的測試音頻文件。

所獲取的測試音頻文件可以從本地預(yù)設(shè)的音頻數(shù)據(jù)庫中獲取。

其中,音頻數(shù)據(jù)庫是由多個地區(qū)具有不同口音的工作人員預(yù)先錄制的,工作人員包括不同年齡、不同性別的發(fā)音人員。

需要說明的是,本實施例可能存在多個測試詞語、且每一測試詞語對應(yīng)多個測試模式的情況,此時可以逐個獲取各測試詞語在每個測試模式下的音頻,也可以針對每一測試詞語隨機選取部分測試模式進而獲取所選取模式下的各測試詞語的音頻等,這都是合理的。

s103:對測試音頻文件進行語音識別。

獲取測試音頻文件后,需要播放測試音頻,以使得語音識別系統(tǒng)對測試音頻進行識別。在播放音頻時,可以以不同的速度進行播放,例如快速、中速、慢速。

對于每一個被播放的測試音頻文件,可選地將其播放多次,假設(shè)播放次數(shù)為n。當(dāng)語音識別設(shè)備對所播放的測試音頻文件進行識別后,對于每一個所播放的測試音頻文件,可以獲得n個識別結(jié)果。

需要說明的是,識別結(jié)果體現(xiàn)為文字,具體體現(xiàn)為所播放音頻內(nèi)容所對應(yīng)的文字。例如,當(dāng)播放的音頻為“開啟鬧鐘”的音頻時,在語音識別設(shè)備識別正確的情況下,識別結(jié)果為“開啟鬧鐘”。

s104:將識別結(jié)果與測試詞語進行相似度比較,以輸出測試結(jié)果。

可選地,針對每一個所播放的測試音頻文件,將其n個識別結(jié)果分別與測試音頻文件所對應(yīng)的測試詞語進行對比,計算各識別結(jié)果與測試詞語的相似度。相似度可以體現(xiàn)為百分數(shù)、分數(shù)、小數(shù)等,例如,相似度可以為60%、0.6、6/10、100%等。當(dāng)相似度數(shù)值為1時,將識別結(jié)果標(biāo)記為正確結(jié)果。計算正確結(jié)果n與播放次數(shù)之間n的比例,作為測試結(jié)果輸出。

由此可見,本發(fā)明實施例提供的一種語音識別能力測試方法,打破了現(xiàn)有人工發(fā)音進行測試的局限性,從而在最大程度上模擬了使用過程中用戶的實際發(fā)音,即不同用戶的不同發(fā)音習(xí)慣,提高了測試音頻與用戶實際的發(fā)音匹配度,進而提高了語音識別能力測試的測試結(jié)果的準(zhǔn)確率。

如圖2所示,在一種可選實施例中,獲得測試音頻文件的方式可以包括如下步驟:

s201:將測試詞語拆分為多個文字。

例如,當(dāng)獲取到的測試詞語為“預(yù)報天氣”時,將“預(yù)報天氣”拆分為“預(yù)”“報”“天”“氣”四個文字。

具體拆分方法,可以為現(xiàn)有技術(shù),本實施例不做贅述。

s202:從音頻數(shù)據(jù)庫中獲取多個文字在測試模式下分別對應(yīng)的音頻文件。

本實施例的音頻數(shù)據(jù)庫中,音頻以測試語言的最小組成單元為單位進行存儲。例如,當(dāng)測試語言為漢語,則音頻數(shù)據(jù)庫中的音頻以漢字為單位存儲。

具體地,本實施例的音頻數(shù)據(jù)庫中各音頻文件唯一對應(yīng)一個錄音標(biāo)識,以便音頻文件的獲取。錄音標(biāo)識中可以包含音頻文件的序列碼、聲母標(biāo)識、音頻錄制過程中錄音人員標(biāo)識、口音方言標(biāo)識等。當(dāng)然,上述錄音標(biāo)識還可以包含音頻錄制時間、地點、錄音設(shè)備、發(fā)音者距設(shè)備的距離等信息。

可選地,若測試模式為發(fā)音地域性測試,則根據(jù)發(fā)音地域性測試所指示的地域信息,從音頻數(shù)據(jù)庫中獲取與多個文字分別對應(yīng)的音頻文件。假設(shè)當(dāng)前測試模式的地域信息為北京,那么,分別獲取“預(yù)”“報”“天”“氣”四個文字對應(yīng)的北京口音的音頻文件。

進一步地,若測試模式為詞語改變性測試,則根據(jù)詞語改變性測試所指示的改變類型,對多個文字進行處理;并從音頻數(shù)據(jù)庫中獲取與處理后的多個文字分別對應(yīng)的音頻文件。需要說明的是,本實施例的詞語改變性測試中的改變類型可以包括測試詞語換序測試、測試詞語少詞測試、測試詞語多詞測試、測試詞語錯詞測試、測試詞語發(fā)音相似性測試中的至少一種。

以下分別介紹詞語改變性測試的改變類型。

測試詞語換序測試中,將測試詞語的順序改變。可選的,通過以下步驟完成:將所述測試詞語拆分為多個文字;對所述多個文字進行排列組合處理,以獲得多組排列結(jié)果;獲取與所述多組排列結(jié)果分別對應(yīng)的測試音頻文件。例如,測試詞語為“開啟地圖應(yīng)用”,在測試詞語換序測試中,將“開啟地圖應(yīng)用”中各文字進行排列組合,獲得對應(yīng)的多組排列結(jié)果。多組排列結(jié)果中的一組排列結(jié)果可以為“開啟應(yīng)用地圖”,還可以為“應(yīng)用地圖開啟”等。接著獲取各組排列結(jié)果對應(yīng)的測試音頻文件。

在測試詞語少詞測試中,刪除測試詞語中一定數(shù)量的文字??蛇x的,通過以下步驟完成:將所述測試詞語拆分為多個文字;刪除所述多個文字中的至少一個文字;從音頻數(shù)據(jù)庫中獲取與剩余文字分別對應(yīng)的音頻文件;將所述剩余文字分別對應(yīng)的音頻文件合成為所述測試音頻文件。例如,刪除測試詞語“開啟地圖應(yīng)用”中“應(yīng)用”二字,將測試詞語變?yōu)椤伴_啟地圖”,接著獲取“開啟地圖”中各文字對應(yīng)的音頻文件并合成。

測試詞語多詞測試中,將某文字插入到測試詞語中任意兩個文字之間??蛇x的,通過以下步驟完成:將所述測試詞語拆分為多個文字;從音頻數(shù)據(jù)庫中選出至少一個文字增加到所述多個文字中;從音頻數(shù)據(jù)庫中獲取與增加后的多個文字分別對應(yīng)的音頻文件;將所述增加后的多個文字分別對應(yīng)的音頻文件合成為所述測試音頻文件。例如,將文字“那”加入到測試詞語“開啟地圖應(yīng)用”中,組成新的測試詞語“開啟那地圖應(yīng)用”,并獲取相應(yīng)音頻文件進行合成。

測試詞語錯詞測試中,以任一文字替換測試詞語中的某一文字??蛇x的,通過以下步驟完成:將所述測試詞語拆分為多個文字;從音頻數(shù)據(jù)庫中選出至少一個文字以替換所述多個文字中的至少一個文字;從音頻數(shù)據(jù)庫中獲取與替換后的多個文字分別對應(yīng)的音頻文件;將所述替換后的多個文字分別對應(yīng)的音頻文件合成為所述測試音頻文件。例如,將“開啟地圖應(yīng)用”中的“啟”替換為“始”,獲得測試詞語“開始地圖應(yīng)用”,并獲取相應(yīng)測試音頻文件。

測試詞語發(fā)音相似性測試中,選取與測試詞語中某一個文字具有相似發(fā)音的文字替換測試詞語中的該文字??蛇x地,將所述測試詞語拆分為多個文字;對所述多個文字中的至少一個文字進行拼音替換;從音頻數(shù)據(jù)庫中獲取與替換后的多個文字分別對應(yīng)的音頻文件;將所述替換后的多個文字分別對應(yīng)的音頻文件合成為所述測試音頻文件。具體的,拼音替換的步驟可以包括:獲取測試詞語中各個文字的聲母和韻母;以與測試詞語中某文字的聲母/韻母相異的文字替換測試詞語中的該文字。例如,測試詞語為“打電話給勞拉”,獲取其中的“勞”字的聲母為“l(fā)”,以聲母“b”替換“l(fā)”,則選擇發(fā)音為“bao”的文字替換“勞”。

s203:將多個文字在測試模式下分別對應(yīng)的音頻文件合成為測試音頻文件。

將所獲取的多個音頻文件合成,獲得測試音頻文件。

本實施例中的方法,將測試詞語拆分為多個文字,并從以單個文字為存儲單位的音頻數(shù)據(jù)庫中選取相應(yīng)音頻文件合成測試音頻文件。由于本實施例的選取單位為文字,因此本實施例的方法可以提高音頻測試過程的靈活性。

如圖3所示,相應(yīng)于上述方法實施例,本發(fā)明實施例還提供了一種語音識別能力測試裝置,包括:接收模塊310、獲取模塊320、識別模塊330、比較模塊340。

接收模塊310,用于接收測試命令,所述測試命令中包括測試詞語和測試模式。

獲取模塊320,用于獲取與所述測試詞語和所述測試模式對應(yīng)的測試音頻文件。

識別模塊330,用于對所述測試音頻文件進行語音識別。

比較模塊340,將所述識別結(jié)果與所述測試詞語進行相似度比較,以輸出測試結(jié)果。

由此可見,本發(fā)明實施例提供的一種語音識別能力測試裝置,打破了現(xiàn)有人工發(fā)音進行測試的局限性,從而在最大程度上模擬了使用過程中用戶的實際發(fā)音,提高了測試音頻與用戶實際發(fā)的音匹配度,進而提高了語音識別能力測試的測試結(jié)果的準(zhǔn)確率。

在一中可選實施方式中,在圖3的基礎(chǔ)上,如圖4所示,所述獲取模塊320,包括:拆分子模塊321、第一獲取子模塊322、合成子模塊323。

拆分子模塊321,用于將所述測試詞語拆分為多個文字。

第一獲取子模塊322,用于從音頻數(shù)據(jù)庫中獲取所述多個文字在所述測試模式下分別對應(yīng)的音頻文件。

合成子模塊323,用于將所述多個文字在所述測試模式下分別對應(yīng)的音頻文件合成為所述測試音頻文件。

在一中可選實施方式中,所述測試模式包括發(fā)音地域性測試,所述第一獲取子模塊322,具體用于:

根據(jù)所述發(fā)音地域性測試所指示的地域信息,從音頻數(shù)據(jù)庫中獲取與所述多個文字分別對應(yīng)的音頻文件。

在一中可選實施方式中,所述測試模式包括詞語改變性測試,所述第一獲取子模塊322,包括:處理子模塊3221、第二獲取子模塊3222。

處理子模塊3221,用于根據(jù)所述詞語改變性測試所指示的改變類型,對所述多個文字進行處理。

第二獲取子模塊3222,用于從音頻數(shù)據(jù)庫中獲取與處理后的多個文字分別對應(yīng)的音頻文件。

在一中可選實施方式中,所述詞語改變性測試包括如下測試中的至少一種:

測試詞語換序測試、測試詞語少詞測試、測試詞語多詞測試、測試詞語錯詞測試、測試詞語發(fā)音相似性測試。

需要說明的是,對于裝置實施例而言,由于其基本相似于方法實施例,所以描述得較為簡單,相關(guān)之處參見方法實施例的部分說明即可。

最后應(yīng)說明的是:以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
新安县| 从化市| 敖汉旗| 台北县| 丹东市| 普兰县| 绿春县| 沈丘县| 金湖县| 宾川县| 大洼县| 龙陵县| 会同县| 贡嘎县| 萨嘎县| 鹿邑县| 南靖县| 洪洞县| 平江县| 南陵县| 光山县| 沂水县| 封丘县| 新野县| 溆浦县| 大厂| 共和县| 禹州市| 宝山区| 乃东县| 衡阳县| 常德市| 喜德县| 龙海市| 永靖县| 赤城县| 湘阴县| 台中市| 永靖县| 集安市| 偃师市|