專利名稱:基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音數(shù)字信號處理、機(jī)器學(xué)習(xí)與模式識別、專家口語評估標(biāo)準(zhǔn)領(lǐng)域,具 體是根據(jù)口語評估專家組的試題和相應(yīng)的答題范圍、量化指標(biāo)、評估標(biāo)準(zhǔn),運(yùn)用計(jì)算機(jī)對考 生的口語語音信號進(jìn)行特征提取、識別對齊,然后 提取專家量化指標(biāo)相關(guān)的口語評估特征, 根據(jù)具體評估標(biāo)準(zhǔn),給出評估結(jié)果和診斷報(bào)告。
背景技術(shù):
隨著全球經(jīng)濟(jì)一體化的發(fā)展,學(xué)習(xí)第二門語言,提高交流能力,已經(jīng)成為迫切的需 求。增強(qiáng)口語學(xué)習(xí),提高語言實(shí)際運(yùn)用能力,逐漸被外語教學(xué)者和學(xué)習(xí)者重視。而目前的口 語評估基本上都是依賴于老師的人工評估,在面對大規(guī)??忌目谡Z考試時(shí),顯得效率不 足,也存在評估標(biāo)準(zhǔn)掌握尺度的不一致問題。例如,實(shí)際試驗(yàn)表明,同樣的考生答卷,不同的 老師會給出不同的評分;即使同樣的老師,在不同的兩天中給出的評分也會不完全相同。因 此,提高閱卷的效率和公證性,就成為一個(gè)重要課題。另一方面,語音識別技術(shù)已經(jīng)發(fā)展到比較成熟的階段,在限定領(lǐng)域和環(huán)境下的語 音識別精度已經(jīng)達(dá)到相當(dāng)高的水平,這使得計(jì)算機(jī)自動(dòng)閱卷成為可能。在與口語評估專家 的討論和實(shí)際實(shí)驗(yàn)測試過程中,我們發(fā)現(xiàn),口語評估專家評分,實(shí)際上是可以用量化指標(biāo)進(jìn) 行描述,從而得到對考生的口語能力的客觀評估的。實(shí)驗(yàn)表明,在大規(guī)??谡Z評估中,計(jì)算 機(jī)的客觀評估標(biāo)準(zhǔn)得到的評分,可以達(dá)到評估專家的水平,同時(shí),具有人工評分不可比擬的 效率和一致性。
發(fā)明內(nèi)容
本發(fā)明針對口語人工評估存在的閱卷效率低和評分一致性差的問題,設(shè)計(jì)開發(fā)了 基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),在結(jié)合口語評估專家知識,達(dá)到專家評估精度的同 時(shí),極大提高閱卷的效率和客觀公證性(一致性)。為達(dá)成所述目的,本發(fā)明提供的基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),包括識別 對齊單元、量化評估單元和標(biāo)準(zhǔn)調(diào)整單元,其中識別對齊單元接收口語語音信息、答題范圍和評估指標(biāo)信息,對輸入口語語音信 息進(jìn)行識別和對齊,將口語語音信息生成文字,并將文字和語音進(jìn)行對齊;標(biāo)準(zhǔn)調(diào)整單元,是由考試組織機(jī)構(gòu)根據(jù)具體考試對象、目標(biāo)和要求進(jìn)行量化評估 標(biāo)準(zhǔn)調(diào)整,生成并輸出最終的量化評估標(biāo)準(zhǔn);量化評估單元分別與識別對齊單元和標(biāo)準(zhǔn)調(diào)整單元連接,量化評估單元接收評估 量化指標(biāo)信息、標(biāo)準(zhǔn)調(diào)整單元輸出的量化評估標(biāo)準(zhǔn)信息和識別對齊單元輸出的文字識別對 齊信息,根據(jù)所述三個(gè)信息提取口語評估特征,進(jìn)行自動(dòng)化評估和診斷,生成評估結(jié)果和診 斷報(bào)告信息;系統(tǒng)通過采用統(tǒng)一的客觀量化指標(biāo)和標(biāo)準(zhǔn),對口語語音進(jìn)行自動(dòng)化評估,實(shí)現(xiàn)口 語評估的客觀公證性,并提供基于量化信息的診斷報(bào)告。
本發(fā)明系統(tǒng)的主要優(yōu)點(diǎn)有(1)以口語評估專家題庫和標(biāo)準(zhǔn)為基礎(chǔ),提高口語考 試的專業(yè)性和公證性;(2)以口語評估專家的答題范圍和量化考點(diǎn)為依據(jù),提取客觀的量 化評估特征,提高閱卷系統(tǒng)的客觀公證性;(3)提供可調(diào)整的專家評估標(biāo)準(zhǔn),適合于較大范 圍的考試評估要求。
圖1為本發(fā)明的系統(tǒng)結(jié)構(gòu)流程圖。
具體實(shí)施方式
下面結(jié)合附圖詳細(xì)說明本發(fā)明技術(shù)方案中所涉及的各個(gè)細(xì)節(jié)問題。應(yīng)指出的是, 所描述的實(shí)施例僅旨在便于對本發(fā)明的理解,而對其不起任何限定作用。本發(fā)明的技術(shù)方案是,利用一臺計(jì)算機(jī),在Windows XP平臺上用VC++語言編制了 一個(gè)的多線程程序,實(shí)現(xiàn)了基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),包括識別對齊單元1、量 化評估單元2和標(biāo)準(zhǔn)調(diào)整單元3,系統(tǒng)通過采用統(tǒng)一的客觀量化指標(biāo)和標(biāo)準(zhǔn),對口語語音進(jìn) 行自動(dòng)化評估,實(shí)現(xiàn)口語評估的客觀公證性,并提供基于量化信息的診斷報(bào)告;其中所述識別對齊單元1,識別對齊單元1接收口語語音信息、答題范圍和評估指標(biāo)信 息,對輸入口語語音信息進(jìn)行識別和對齊,將口語語音信息生成文字,并將文字和語音進(jìn)行 對齊;實(shí)現(xiàn)輸入口語語音的識別和對齊功能,為了提高識別和對齊的效果,本發(fā)明的識別對 齊單元1采用方案包括語言模型11、語音特征模塊12、識別對齊模塊13、通用聲學(xué)模型14 和容錯(cuò)發(fā)音詞典15。通用聲學(xué)模型14是從大規(guī)模帶內(nèi)容標(biāo)注的口語語料訓(xùn)練得到,用于描述音素的 發(fā)音特征分布的文件,是采用不同地區(qū)、不同口音影響的口語語音作為訓(xùn)練集,訓(xùn)練通用的 三音子(Tri-Phone)聲學(xué)模型,確保聲學(xué)模型能夠比較一致地匹配各地區(qū)、各類型考生的 口語語音;在本實(shí)施例中,通用聲學(xué)模型14是性別相關(guān)模型(Gender DependantModel), 即男聲和女聲采用不同的兩套模型描述,而且,在通用聲學(xué)模型14訓(xùn)練中,采用了最小 音素錯(cuò)誤區(qū)分度訓(xùn)練準(zhǔn)則(Minimum PhoneError, MPE)和異方差線性區(qū)分性建模方法 (Heteroscedastic LinearDiscriminant Analysis, HLDA),確保聲學(xué)匹配性能和識別效 果。在本例中,男女聲的通用聲學(xué)模型,分別采用200多小時(shí)帶精確標(biāo)注的訓(xùn)練語料訓(xùn)練得 到。容錯(cuò)發(fā)音詞典15是用于描述口語詞匯和發(fā)音音素的對應(yīng)關(guān)系的文件,并包含常 見的發(fā)音變異和發(fā)音錯(cuò)誤標(biāo)注信息。容錯(cuò)發(fā)音詞典15是在發(fā)音詞典中加入常見的單詞口 語發(fā)音變異和錯(cuò)誤,確保在考生出現(xiàn)這類變異和錯(cuò)誤時(shí),降低語音識別路徑搜索中裁減錯(cuò) 誤的風(fēng)險(xiǎn),提高口語語音的識別率。發(fā)音變異和錯(cuò)誤現(xiàn)象,在真實(shí)的口語語音中非常常見, 需要通過容錯(cuò)發(fā)音詞典描述這類現(xiàn)象。語言模型11為N元文法模型(N-Gram),根據(jù)口語評估專家設(shè)定的口語答題范圍, 動(dòng)態(tài)生成語言模型,提高識別準(zhǔn)確率,答題范圍由口語評估專家設(shè)置,語言模型中包含常見 的語法和用詞錯(cuò)誤,確保語言模型11和真實(shí)的口語語音內(nèi)容匹配度,提高口語語音的識別 率;語法和用詞錯(cuò)誤在朗讀類題型中出現(xiàn)較少,但在口語翻譯和話題簡述類題型中很常見,因此,這類題型的語言模型需要增加常見的語法和用詞錯(cuò)誤,提高識別對齊的準(zhǔn)確率。語音特征模塊12,接收口語語音信息,生成口語語音倒譜特征參數(shù)(C印strum)信息;語音特征模塊12是將輸入口語語音信息進(jìn)行數(shù)字信號處理,變成識別和對齊需 要的語音倒譜參數(shù)特征,本實(shí)施例采用的是25ms幀長,IOms幀移的13維感知線性預(yù)測 (Perceptual Linear Predict, PLP)特征,加上一階和二階差分,構(gòu)成39維特征向量;識別對齊模塊13,分別讀取通用聲學(xué)模型14、容錯(cuò)發(fā)音詞典15和語言模型11,與 語音特征模塊12連接,接收語音特征模塊12輸出的口語語音倒譜特征參數(shù)信息,利用幀同 步(Viterbi)搜索算法,將口語語音倒譜特征參數(shù)信息,在容錯(cuò)發(fā)音詞典15和語言模型11 的約束下,與通用聲學(xué)模型14進(jìn)行動(dòng)態(tài)匹配,輸出識別文字信息和對齊結(jié)果信息。識別對齊模塊13對口語語音的識別和對齊,是口語評估特征提取的基礎(chǔ),主要解 決的問題是口語語音和限定領(lǐng)域文本的對應(yīng)問題,由于答題范圍比較有限,語言模型11的 口語內(nèi)容的匹配程度較高,加上通用聲學(xué)模型14和口語發(fā)音匹配程度較好,容錯(cuò)發(fā)音詞典 15包含常見發(fā)音變異和錯(cuò)誤,可以保證識別對齊系統(tǒng)有比較高的識別精度。為了說明這點(diǎn), 我們將語音識別和對齊的數(shù)學(xué)模型簡單描述如下<formula>formula see original document page 7</formula><formula>formula see original document page 7</formula>其中,W/為詞序列,N為詞個(gè)數(shù),《為聲學(xué)狀態(tài)序列,If為語音特征序列,T為時(shí)間 幀數(shù),λ為通用聲學(xué)模型14,用于計(jì)算聲學(xué)打分;P(W1N)為詞序列W/在語言模型11上的 打分,,《為詞序列W/條件下,聲學(xué)狀態(tài)序列#在通用聲學(xué)模型14上的打分。 第一個(gè)等式是貝葉斯(Bayes)決策公式,第二個(gè)等式是維特比(Viterbi)近似公式,由于受 搜索效率限制,一般都采用第二個(gè)等式作為目標(biāo)函數(shù),搜索最優(yōu)解也即語音識別結(jié)果ΑΝ*。影響語音識別的有三個(gè)因素(1) 口語內(nèi)容和語言模型的匹配程度;⑵口語發(fā)音 和聲學(xué)模型的匹配程度;(3)識別對齊的搜索裁減錯(cuò)誤。本發(fā)明的技術(shù)方案,就是從提高語 言模型的內(nèi)容匹配程度、聲學(xué)模型的發(fā)音匹配程度,降低識別對齊的搜索裁減錯(cuò)誤的角度 來提高口語語音識別和對齊效果的利用動(dòng)態(tài)生成的語言模型,更精確描述試題的答題范 圍,與口語內(nèi)容更好地匹配;用通用聲學(xué)模型,更好地匹配各種類考生的口語發(fā)音;利用容 錯(cuò)發(fā)音詞典描述常見發(fā)音變異和錯(cuò)誤,使得當(dāng)考生出現(xiàn)常見發(fā)音變異和錯(cuò)誤時(shí),系統(tǒng)仍然 可以識別出其想要說的單詞,減少識別對齊的搜索裁減錯(cuò)誤。實(shí)驗(yàn)表明,利用動(dòng)態(tài)生成的語 言模型11、通用聲學(xué)模型14和容錯(cuò)發(fā)音詞典15,對提高限定范圍、非特定口音、有常見錯(cuò)誤 的真實(shí)口語語音的識別性能具有重要作用。所述量化評估單元2,分別與識別對齊單元1和標(biāo)準(zhǔn)調(diào)整單元3連接,量化評估單 元2接收評估量化指標(biāo)信息、標(biāo)準(zhǔn)調(diào)整單元3輸出的量化評估標(biāo)準(zhǔn)信息和識別對齊單元1 輸出的文字識別對齊信息,根據(jù)所述三個(gè)信息提取口語評估特征,進(jìn)行自動(dòng)化評估和診斷, 生成評估結(jié)果和診斷報(bào)告信息;對識別對齊后的口語語音,從內(nèi)容完整性、口語準(zhǔn)確性、口 語流利性和韻律性層面,提取量化指標(biāo)對應(yīng)的量化評估特征,并參照標(biāo)準(zhǔn)調(diào)整單元3的最 終評估標(biāo)準(zhǔn),給出評估結(jié)果和診斷報(bào)告。量化評估單元2包括評估量化指標(biāo)模塊21、評估 標(biāo)準(zhǔn)模塊22、口語評估特征模塊23、評估診斷模塊24、容錯(cuò)發(fā)音詞典15、標(biāo)準(zhǔn)發(fā)音模型25。其中所述評估量化指標(biāo)模塊21,是根據(jù)口語評估專家設(shè)定的答題范圍和評估指標(biāo),生 成特定口語試題對應(yīng)的評估量化指標(biāo),不同的口語試題,所關(guān)注的評估量化指標(biāo)重點(diǎn)不同, 評估量化指標(biāo)可分為完整性、準(zhǔn)確性、流利性和韻律性四類,具體含義和計(jì)算方法在后面詳 述;所述容錯(cuò)發(fā)音詞典15,用于描述口語詞匯和發(fā)音音素的對應(yīng)關(guān)系的文件,包含常 見的發(fā)音變異和發(fā)音錯(cuò)誤標(biāo)注信息;所述評估標(biāo)準(zhǔn)模塊22是口語評估專家輸入的默認(rèn)量化評估標(biāo)準(zhǔn),允許考試組織 結(jié)構(gòu)根據(jù)具體的考試對象、目的和要求,通過標(biāo)準(zhǔn)調(diào)整單元,進(jìn)行適當(dāng)調(diào)整并生成最終的量 化指標(biāo)評估標(biāo)準(zhǔn);
所述標(biāo)準(zhǔn)發(fā)音模型25,由發(fā)音標(biāo)準(zhǔn)的語音訓(xùn)練得到,用于計(jì)算發(fā)音的準(zhǔn)確度,將輸 入語音特征和標(biāo)準(zhǔn)發(fā)音模型比對,計(jì)算發(fā)音準(zhǔn)確度,以及發(fā)音有缺陷的單詞比例。在口語準(zhǔn)確性評估中,需要用到標(biāo)準(zhǔn)發(fā)音模型25,用于衡量對齊后的考生發(fā)音和 標(biāo)準(zhǔn)發(fā)音模型25的匹配程度。這里標(biāo)準(zhǔn)發(fā)音模型25采用不同于識別對齊的通用聲學(xué)模型 14,而是采用發(fā)音非常標(biāo)準(zhǔn)的語料訓(xùn)練得到,作為考生需要達(dá)到的目標(biāo)。對每段對齊到音素 之后的特征片斷,我們都可以用后驗(yàn)概率或者似然比形式,其發(fā)音準(zhǔn)確程度計(jì)算如下logP(S I Χ;) = —Σ {log P{Xt I 5) 一 log [P(Xt \ Q)}
e-s + 1 !=sq其中,s和e為音素S對齊得到的起始和終止幀數(shù)。如果Q是包含音素S在內(nèi)的 所有音素,則上式計(jì)算的就是音素S的對數(shù)后驗(yàn)概率;如果Q是不包含音素S的其它競爭音 素,則上式計(jì)算的就是音素S的對數(shù)似然比。以上兩者都可以作為音素S的發(fā)音準(zhǔn)確度的 指標(biāo),判斷音素發(fā)音是否有問題,還需要一個(gè)檢測門限,用于控制發(fā)音錯(cuò)誤檢測的尺度。所述口語評估特征模塊23與識別對齊模塊13、評估量化指標(biāo)模塊21、容錯(cuò)發(fā)音詞 典15和標(biāo)準(zhǔn)發(fā)音模型25連接,根據(jù)評估量化指標(biāo)模塊21的指標(biāo)要求,從識別對齊好的口 語語音中提取評估用的完整性、準(zhǔn)確性、流利性和韻律性相關(guān)的量化指標(biāo);評估特征來源于 口語評估專家的知識,通過整理專家量化指標(biāo)(考點(diǎn)),可以將這些考點(diǎn)歸為完整性、準(zhǔn)確 性、流利性和韻律性四類評估特征。這四類評估特征,實(shí)際上就是量化指標(biāo)完成情況的統(tǒng)計(jì) 值,反映考生對特定口語試題考查要求的掌握程度,其意義和計(jì)算方法如下內(nèi)容完整性是計(jì)算完成答題要求的程度,所述答題要求的程度在識別對齊的基礎(chǔ) 上,利用標(biāo)準(zhǔn)發(fā)音模型比對,計(jì)算各單詞發(fā)音的后驗(yàn)概率,后驗(yàn)概率高于特定門限的作為有 效答題部分,統(tǒng)計(jì)有效答題語音和要求的答題內(nèi)容的比例;口語準(zhǔn)確性是計(jì)算朗讀中單詞發(fā)音和標(biāo)準(zhǔn)模型的匹配程度,發(fā)音有明顯問題的單 詞比例,話題簡述中語法錯(cuò)誤;所述口語準(zhǔn)確性分為兩個(gè)部分一個(gè)是總體的發(fā)音良好程 度(Goodness of Pronunciation,GOP),用單詞發(fā)音的平均對數(shù)后驗(yàn)概率表示;利用后驗(yàn)概 率設(shè)置門限、或者支持向量機(jī)(Support Vector Machine, SVM)檢測發(fā)音錯(cuò)誤率,統(tǒng)計(jì)發(fā)音 有問題和缺陷的單詞比例,在識別對齊過程中,采用容錯(cuò)發(fā)音詞典和包含語法、用詞錯(cuò)誤的 答題范圍生成的語言模型,用于對常見發(fā)音和用詞錯(cuò)誤進(jìn)行檢測;口語流利性是計(jì)算平均有效語速、插入數(shù)量、連讀、失去爆破和同化等單詞連貫情 況,在識別對齊之后,所述語速由單詞的個(gè)數(shù)和語句的持續(xù)時(shí)間比值計(jì)算,語速以篇章為單位統(tǒng)計(jì)句子一級的平均語速;口語答題中的猶豫、重復(fù)、修正數(shù)量從識別對齊好的語音上統(tǒng) 計(jì);口語答題中的連讀、失去爆破和同化,在發(fā)音詞典中已經(jīng)加入,并根據(jù)維特比對齊的結(jié) 果判斷是否被采用,并統(tǒng)計(jì)其個(gè)數(shù)??谡Z韻律性是計(jì)算意群停頓、重讀弱讀、語氣語調(diào)的口語特征;所述意群停頓從識 別對齊的語音上計(jì)算,在合理意群停頓上靜音的持續(xù)時(shí)間是否達(dá)到停頓的要求,以及在非 合理停頓的地方出現(xiàn)異常停頓的個(gè)數(shù);重讀弱讀計(jì)算是根據(jù)發(fā)音的語調(diào)、相對強(qiáng)度和持續(xù) 時(shí)間,判斷是否為有效重讀和弱讀;語氣語調(diào)是根據(jù)基音(Pitch)曲線的走向,判斷考生朗 讀是否注意語氣語調(diào)變化,在升降調(diào)的地方是否應(yīng)用得當(dāng)。由于不同的試題篇章,具體的考點(diǎn)個(gè)數(shù)不會完全一樣,因此,評估特征 主要采用比 例形式計(jì)算,保持篇章之間的可比性。對不同考查重點(diǎn)的篇章,設(shè)計(jì)的考點(diǎn)也不一樣,需要 有針對性的選擇篇章,并標(biāo)記量化指標(biāo)考點(diǎn)。所述評估診斷模塊24,分別與口語評估特征模塊23和評估標(biāo)準(zhǔn)模塊22連接,根據(jù) 評估標(biāo)準(zhǔn)模塊22輸出的最終量化指標(biāo)評估標(biāo)準(zhǔn),和提取到的完整性、準(zhǔn)確性、流利性和韻 律性相關(guān)的量化口語評估指標(biāo),通過特征映射方法進(jìn)行最終的評估,并給出相應(yīng)的診斷報(bào) 告。通過評估特征計(jì)算學(xué)生打分可以有很多方法,本發(fā)明采用以下兩種策略線性加權(quán)將各評估特征歸一化到0 1之間的值,然后按各因素線性加權(quán)的方 法,計(jì)算得到總分。例如,假設(shè)某次考試的完整性、準(zhǔn)確性、流利性、韻律性權(quán)重分別為0. 70、 0. 15,0. 10,0. 05,某考生對應(yīng)的評估特征分別為0. 9,0. 9,0. 8,0. 7,則總分為=IOX (0. 70 X0. 9+0. 15X0. 9+0. 10X0. 8+0. 05X0. 7) = 8. 8 分,其中,10 為評分范圍,這里為 10 分制。 這種方法實(shí)際上是基于專家規(guī)則的方法,比較簡單直觀,容易調(diào)整,是最基本的評估方法。 實(shí)際上為了提高精度,通常采用分段線性加權(quán)方法,對不同水平的考生采用不同的加權(quán)策 略。特征分類根據(jù)評估特征和對應(yīng)的專家評估結(jié)果,訓(xùn)練一個(gè)分類器,通過分類方法 進(jìn)行打分。常用的分類器包括線性分類器、混合高斯模型、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、決策樹 等,或者這些分類器的融合,都可以用于訓(xùn)練評分模型。上述線性加權(quán)方法,可以認(rèn)為是特 征分類方法的一個(gè)特例,其權(quán)重可以通過提供專家評估樣本,采用最小均方差等準(zhǔn)則訓(xùn)練 得到。所述標(biāo)準(zhǔn)調(diào)整單元3,是由考試組織機(jī)構(gòu)根據(jù)考試的對象、目的和要求,適當(dāng)調(diào)整 評估標(biāo)準(zhǔn),用以更好地達(dá)到考試目的;所述評估標(biāo)準(zhǔn)的調(diào)整是利用一組考生樣本,通過對專 家評估結(jié)果進(jìn)行數(shù)據(jù)擬合的方法,得到相應(yīng)的評估門限和權(quán)重,根據(jù)考試對象、目的和要求 調(diào)整評估特征的門限以及評估重點(diǎn)的調(diào)整,所述評估門限是對小學(xué)生、初中生、高中生、大 學(xué)生、專業(yè)人員的完整性、準(zhǔn)確性、流利性和韻律性要求設(shè)定不相同的評估權(quán)重和發(fā)音錯(cuò)誤 檢測門限??谡Z評估特征模塊24,對于不同評估對象、目標(biāo)和要求的考試來說都是一樣的,都 是根據(jù)量化評估指標(biāo)模塊21的要求提取相應(yīng)的口語評估特征,只是特定的考試側(cè)重點(diǎn)不 同,會有不同的考查權(quán)重。例如初中生朗讀考試,基本要求是學(xué)生要將篇章清晰念完(完 整性達(dá)到一定要求),單詞發(fā)音比較清晰準(zhǔn)確(準(zhǔn)確性要求),語句朗讀比較流暢,語速比較 正常,不存在太多插入、猶豫、重復(fù)、修正等,主意一定的連讀、失去爆破、同化現(xiàn)象(流利性 要求),能夠適當(dāng)注意意群停頓、重讀弱讀和語氣語調(diào)(韻律性要求)。實(shí)驗(yàn)發(fā)現(xiàn),即使是基本的朗讀題,不同地區(qū)的初中考生,水平差別也比較大,考查標(biāo)準(zhǔn)也有所不同對水平比較低的地區(qū),則側(cè)重朗讀完整性,對準(zhǔn)確性、流利性、韻律性要求比較低;對水平較高的地區(qū), 則降低朗讀完整性的比重,側(cè)重準(zhǔn)確性和流利性;對水平非常高的地區(qū),在需要提高韻律性 考查的權(quán)重。評估標(biāo)準(zhǔn)調(diào)整單元3,對具體的考試來說比較重要,因?yàn)轭}庫設(shè)計(jì)專家的評估標(biāo)準(zhǔn) 并不一定適合于所有地區(qū)考生的具體情況,需要根據(jù)當(dāng)?shù)乜忌闆r和考試目的、要求進(jìn)行 適當(dāng)調(diào)整。本發(fā)明的評估標(biāo)準(zhǔn)調(diào)整單元3,通過以下步驟實(shí)現(xiàn)對考生試卷進(jìn)行抽樣,隨機(jī)抽取約300份具有代表性的試卷(代表不同水平、性 另O、學(xué)校的考生),請當(dāng)?shù)乜谡Z考試評估專家進(jìn)行討論和評分,為確保專家評分的被認(rèn)可程 度,每份試卷采用5名以上專家獨(dú)立評分,最后再綜合確定該考生的最后得分;將抽樣評分后的考生語音和成績送入系統(tǒng),系統(tǒng)將根據(jù)這些樣本自動(dòng)調(diào)整各評估 特征的權(quán)重和各類水平考生的特征分類面,得到更加適合當(dāng)?shù)乜谡Z評估專家的評估標(biāo)準(zhǔn), 代替默認(rèn)的評估標(biāo)準(zhǔn)進(jìn)行自動(dòng)閱卷。如果以上調(diào)整方法需要的數(shù)據(jù)不能滿足要求,也可以采用調(diào)整個(gè)評估特征權(quán)重的 方法,實(shí)現(xiàn)考查重點(diǎn)的調(diào)整,計(jì)算機(jī)將根據(jù)新輸入的權(quán)重,自動(dòng)調(diào)整加權(quán)系數(shù),得到適合考 試組織方口語評估專家評估要求的評估結(jié)果。由于評估所依賴的客觀評估特征和專家評估標(biāo)準(zhǔn)對所有考生都是一樣的,消除了 評估尺度掌握不一致的問題,提高了閱卷系統(tǒng)的客觀公證性。為了說明評分標(biāo)準(zhǔn)的調(diào)整問 題,我們以線性加權(quán)系數(shù)的最小均方差估計(jì)為例,說明參數(shù)估計(jì)的過程如下假設(shè)每個(gè)學(xué)生的評估特征可以用四維列向量<formula>formula see original document page 10</formula>乂表示,丁表 示轉(zhuǎn)置,對應(yīng)的專家評分為Yi,則要計(jì)算的最佳權(quán)重為四維列向量<formula>formula see original document page 10</formula>,需要 滿足估計(jì)結(jié)果和專家評估結(jié)果方差最小的準(zhǔn)則(最小均方差準(zhǔn)則),即<formula>formula see original document page 10</formula><formula>formula see original document page 10</formula>其中,Y= (Y1;Y2,...,YN)T是N個(gè)考生得分排列成的列向量,X= (XijX2,... ,Xn) 是N個(gè)考生評估特征列向量排列成的4XN的矩陣。上述無約束優(yōu)化問題,可以通過對權(quán)向 量W求導(dǎo)得到最優(yōu)解如下<formula>formula see original document page 10</formula>通常,(X*XT)可逆,可以得到最小均方差的解為W* =即為最小均方 差準(zhǔn)則下的評估特征加權(quán)系數(shù)。利用分類器根據(jù)評估特征計(jì)算考生打分的方法和上述方法 類似,都有相應(yīng)的優(yōu)化算法和工具實(shí)現(xiàn)?;诳陀^標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),具體實(shí)施方式
如下首先建立口語評估專家題庫口語評估專家題庫的設(shè)計(jì)、更新和維護(hù),是整個(gè)基于 客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng)的基礎(chǔ),由口語評估專家根據(jù)考試對象、目的和要求,設(shè)計(jì) 各種不同難度和題型的口語試題,并設(shè)定相應(yīng)的答題范圍、量化指標(biāo)和評估標(biāo)準(zhǔn),形成一個(gè) 內(nèi)容豐富的、大規(guī)模的口語考試題庫,作為標(biāo)準(zhǔn)化口語考試和自動(dòng)化閱卷的基礎(chǔ)??谡Z評估專家題庫與普通題庫的主要區(qū)別在于,包含以下三個(gè)部分答題范圍該口語試題正確答題的限定范圍,例如,朗讀題的文本,話題簡述的話 題范圍設(shè)置等,主要是通過答題范圍提高語言模型的匹配程度,從而提高語音識別和對齊 的效果,答題范圍是識別對齊系統(tǒng)動(dòng)態(tài)生成或選擇語言模型的基礎(chǔ);量化指標(biāo)不同的題型,考查的重點(diǎn)不同,量化指標(biāo)也不同,例如,朗讀題主要考查 朗讀發(fā)音基本功,可以對連讀、失去爆破、同化、重讀弱讀、語氣語調(diào)、意群停頓、常見發(fā)音錯(cuò) 誤等,進(jìn)行詳細(xì)的標(biāo)注,以測定考生朗讀相關(guān)的能力;對話題簡述,則側(cè)重內(nèi)容,考察句式、 詞匯、常見語法錯(cuò)誤等,對發(fā)音準(zhǔn)確性和流利性量化標(biāo)注相對少;評估標(biāo)準(zhǔn)不同的題型和考試要求,評估的標(biāo)準(zhǔn)也不一樣,口語評估專家根據(jù)一般 評估要求,設(shè)置一個(gè)基本評估標(biāo)準(zhǔn),對內(nèi)容完整性、發(fā)音準(zhǔn)確性、句子流利性設(shè)置一定的權(quán) 重,并且,對發(fā)音準(zhǔn)確性設(shè)置一個(gè)適中的檢測門限,作為口語評估的依據(jù)。這部分的具體設(shè)置規(guī)則由口語評估專家組決定,對基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評 估系統(tǒng)主要的影響在于量化評估指標(biāo)的確定,以及口語評估特征檢測門限和評估權(quán)重的設(shè) 置。在口語評估專家題庫基礎(chǔ)上,基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),可以實(shí)現(xiàn)全 自動(dòng)的標(biāo)準(zhǔn)化口語評估,其主要的步驟如下識別對齊考生語音,需要?jiǎng)討B(tài)生成語言模型11和容錯(cuò)發(fā)音詞典15,準(zhǔn)備通用聲學(xué) 模型14,具體如下動(dòng)態(tài)生成語言模型11 根據(jù)口語評估專家設(shè)定的答題范圍,對朗讀題而言,就是 用相應(yīng)的試題生成一個(gè)對該題目答卷內(nèi)容匹配度比較高的語言模型,保證考生答題的識別 準(zhǔn)確率足夠高。動(dòng)態(tài)生成語言模型生成步驟如下訓(xùn)練大規(guī)模語料的通用語言模型從網(wǎng)站上下載大規(guī)模文本語料,用統(tǒng)計(jì)語言模 型生成工具,如SRI-LM、CMU-LM、HTK-LM等,生成大規(guī)模語料庫下的非限定領(lǐng)域統(tǒng)計(jì)語言模 型,確保語言模型的通用性;訓(xùn)練特定話題語言模型將大規(guī)模語料庫根據(jù)話題進(jìn)行分類,用同樣方法訓(xùn)練特 定話題的統(tǒng)計(jì)語言模型;生成特定口語試題相應(yīng)的語言模型根據(jù)特定試題答題范圍,詞匯范圍,對特定話 題語料進(jìn)行裁減,訓(xùn)練更小規(guī)模的語言模型,并與特定話題語言模型和通用語言模型進(jìn)行 插值,動(dòng)態(tài)生成語言模型11。語言模型11的一個(gè)特例就是朗讀題,答題范圍是一個(gè)限定的 文本,此時(shí),可以根據(jù)該文本生成一個(gè)針對性非常強(qiáng)的語言模型,確保非常高的語音識別對 齊效果。通用聲學(xué)模型14 用不同地區(qū)各類考生的句子朗讀語音,訓(xùn)練通用聲學(xué)模型,得 到能描述各種考生的音素發(fā)音三因子聲學(xué)模型,適合于所有的考生語音的聲學(xué)匹配;采用 強(qiáng)約束的語言模型11結(jié)合通用聲學(xué)模型14的主要優(yōu)點(diǎn)在于,能夠確保足夠識別率的同時(shí), 確保對水平相對低的考生保持公平性。通用聲學(xué)模型14通過以下步驟訓(xùn)練采集大規(guī)模聲學(xué)模型訓(xùn)練語料選擇不同性別、年齡、地域的人群,朗讀設(shè)計(jì)好的 音素平衡腳本,獲取相應(yīng)的錄音數(shù)據(jù)。這類數(shù)據(jù),也可以通過語言數(shù)據(jù)聯(lián)盟(LDC)等組織購 買得到;選擇訓(xùn)練用的發(fā)音詞典,整理音素集,設(shè)計(jì)問題集例如英語,可選擇英式發(fā)音為主的BEEP詞典,美式發(fā)音為主的CMU詞典等,作為相應(yīng)的發(fā)音詞典;從發(fā)音詞典中可以整理出音素集,并根據(jù)音素歸類設(shè)計(jì)相應(yīng)問題集;訓(xùn)練通用聲學(xué)模型14 用上述數(shù)據(jù)資源和詞典,可通過HTK、SphinX等聲學(xué)模型訓(xùn) 練工具,訓(xùn)練三音子聲學(xué)模型,并利用特征變換、區(qū)分度訓(xùn)練、自適應(yīng)訓(xùn)練等算法,提高通用 聲學(xué)模型14的精度;容錯(cuò)發(fā)音詞典15 是用于描述口語詞匯和發(fā)音音素的對應(yīng)關(guān)系的文件,包含常見 的發(fā)音變異和發(fā)音錯(cuò)誤標(biāo)注信息。對一些容易發(fā)錯(cuò)的單詞,識別詞典也將其常見發(fā)音變異 和錯(cuò)誤列入詞典中,確保在考生出現(xiàn)這些常見錯(cuò)誤時(shí),識別器不會因?yàn)榘凑諛?biāo)準(zhǔn)發(fā)音的聲 學(xué)模型得分低而發(fā)生錯(cuò)誤裁減,提高識別器的容錯(cuò)能力,同時(shí),也提高常見錯(cuò)誤的檢測能 力。容錯(cuò)發(fā)音詞典15,是在標(biāo)準(zhǔn)詞典基礎(chǔ)上,根據(jù)教學(xué)評估專家的常見錯(cuò)誤,將容易出現(xiàn)發(fā) 音錯(cuò)誤的詞條錯(cuò)誤發(fā)音樣本添加到標(biāo)準(zhǔn)詞典中,并標(biāo)記為錯(cuò)誤。通過不斷的考試測試和統(tǒng) 計(jì),逐步完善容錯(cuò)發(fā)音詞典15。通過以上三點(diǎn),識別對齊單元1可以在確保足夠高識別率的同時(shí),容納各種類型 考生,實(shí)現(xiàn)閱卷評估特征提取的客觀公平性??谡Z評估特征模塊23 在對口語語音進(jìn)行識別對齊之后,發(fā)音特征和音素模型將 建立起對應(yīng)時(shí)間關(guān)系,根據(jù)對應(yīng)好的結(jié)果計(jì)算相應(yīng)的口語評估特征,還需要標(biāo)準(zhǔn)發(fā)音模型 25、容錯(cuò)發(fā)音詞典15、評估量化指標(biāo)模塊21的支持,具體如下標(biāo)準(zhǔn)發(fā)音模型25 采用標(biāo)準(zhǔn)發(fā)音語音訓(xùn)練標(biāo)準(zhǔn)發(fā)音模型,作為考生發(fā)音的目標(biāo)要 求,用于計(jì)算考生發(fā)音和標(biāo)準(zhǔn)語音的相似程度;標(biāo)準(zhǔn)發(fā)音模型25的訓(xùn)練,和通用聲學(xué)模型 14訓(xùn)練方法相同,主要區(qū)別在于所采用的訓(xùn)練語料不同通用聲學(xué)模型14的訓(xùn)練語料,采 用普通的語料庫,只要發(fā)音沒有明顯錯(cuò)誤就可以;標(biāo)準(zhǔn)發(fā)音模型25的訓(xùn)練語料,需要發(fā)音 相對比較標(biāo)準(zhǔn)的語料進(jìn)行訓(xùn)練,代表考查對象中水平相對比較高的人群,確保評估發(fā)音時(shí), 具有較好的參照價(jià)值;容錯(cuò)發(fā)音詞典15 和識別對齊單元1 一樣,是用于描述口語詞匯和發(fā)音音素的對 應(yīng)關(guān)系的文件,包含常見的發(fā)音變異和發(fā)音錯(cuò)誤標(biāo)注信息,如果識別對齊過程發(fā)現(xiàn)這些常 見發(fā)音錯(cuò)誤出現(xiàn),則會計(jì)算常見發(fā)音錯(cuò)誤的個(gè)數(shù);評估量化指標(biāo)模塊21 提取評估特征,需要和評估量化指標(biāo)對比,因此,口語評估 專家在描述定量指標(biāo)時(shí),給出需要檢測的量化評估指標(biāo),如連讀、失去爆破、同化,重讀弱 讀,語氣語調(diào),意群停頓等,計(jì)算機(jī)將根據(jù)專家標(biāo)注的量化評估指標(biāo)(考點(diǎn)),統(tǒng)計(jì)這些指標(biāo) 的完成情況,以比例形式衡量考生的相應(yīng)評估層面的水平;評估標(biāo)準(zhǔn)模塊22,包括量化評估指標(biāo)的提取門限和評估診斷的權(quán)重。量化評估指 標(biāo)的提取門限主要是針對發(fā)音質(zhì)量評估特征,通過與標(biāo)準(zhǔn)發(fā)音模型25對比,計(jì)算發(fā)音有缺 陷的音素比例。不同的檢測門限,代表不同的檢測要求檢測門限越高,代表對發(fā)音準(zhǔn)確度 的要求越高;檢測門限越低,表示對發(fā)音準(zhǔn)確性的要求越低。檢測門限,實(shí)際上就是以標(biāo)準(zhǔn) 發(fā)音模型25為基準(zhǔn)的聲學(xué)后驗(yàn)概率的門限。在確定以上四個(gè)評估特征提取需要的參數(shù)之后,就可以根據(jù)識別對齊后的語音, 進(jìn)行評估特征提取,其主要步驟如下檢測內(nèi)容完整性指標(biāo)比對答題范圍和要求,計(jì)算口語答題的完成程度,通常用真 實(shí)完成的單詞和要求完成的單詞比例描述,例如,朗讀題中為清晰讀完的單詞比例,話題簡述題型中為準(zhǔn)確敘述的單詞與要求的比例等,計(jì)算公式如下
<formula>formula see original document page 13</formula>在計(jì)算過程中,如果語句或者單詞重復(fù),自動(dòng)以完成得較好的一次為準(zhǔn)。檢測發(fā)音準(zhǔn)確性指標(biāo)在完成的內(nèi)容中,計(jì)算單詞發(fā)音的平均聲學(xué)后驗(yàn)概率和發(fā) 音有問題的音素、單詞比例(特定檢測門限下),計(jì)算方法如下
<formula>formula see original document page 13</formula>其中,GOP(Goodness of Pronunciation)是發(fā)音和標(biāo)準(zhǔn)模型匹配的后驗(yàn)概率 平均值,N是整個(gè)完成的音素個(gè)數(shù),E是N中根據(jù)特定檢測門限計(jì)算的錯(cuò)誤音素個(gè)數(shù), logP(phonek)是第k個(gè)音素(phone)的對數(shù)后驗(yàn)概率,ts,te為Phonek的起始和終止幀數(shù), Q為所有與Phonek競爭的音素。這樣,每個(gè)音素的對數(shù)后驗(yàn)概率,就是每幀的對數(shù)后驗(yàn)概率 的時(shí)間平均,而整個(gè)語篇的發(fā)音后驗(yàn)概率,就是這些音素對數(shù)后驗(yàn)概率的算術(shù)平均值。如果 以對數(shù)后驗(yàn)概率作為檢測發(fā)音錯(cuò)誤的依據(jù),則E就是對數(shù)后驗(yàn)概率小于特定門限的音素個(gè) 數(shù)。檢測句子流利性指標(biāo)計(jì)算有效平均語速,插入、猶豫、重復(fù)、修正比例,連讀、失去 爆破、同化比例,重讀弱讀、意群停頓、語氣語調(diào)等,計(jì)算方法如下F = MX aM+LX aL+KX ak
<formula>formula see original document page 13</formula>
重讀弱讀、意群停頓、語氣語調(diào)正確個(gè)數(shù) “重讀弱讀、意群?!Z氣運(yùn)調(diào)標(biāo)注不贏Χ /0其中,F(xiàn)為整理流利度,包括不流利度M(MiSCUeS,猶豫、重復(fù)、修正、插入等比例), 連貫度L(連讀、失爆、同化完成比例),節(jié)奏K(重讀弱讀、意群停頓、語氣語調(diào)等完成比例) 三個(gè)方面,權(quán)重分別為a M,a κ,通過專家設(shè)定或者訓(xùn)練得到。這里有效語速S目前沒有 作為流利度的硬性指標(biāo)加入流利度中,作為一個(gè)參考值給出,因?yàn)橥ǔ5目谡Z考試中,對語速的要求往往不是非常嚴(yán)格,只要能在規(guī)定時(shí)間內(nèi)完成答題就可以。如果需要特別注重語 速平穩(wěn)等,也可以作為一個(gè)指標(biāo)計(jì)算流利度。另外,韻律評估特征K,一般考試要求都不高, 通常包含到流利性特征F中計(jì)算。評估診斷模塊24 在提取上述口語評估特征之后,根據(jù)調(diào)整后的評估標(biāo)準(zhǔn)模塊 22,就可以得到最終的評估結(jié)果,一個(gè)最簡單的評估方法就是線性加權(quán)組合得到Score = (IX α χ+ΡΧ α p+FX α F) XScale其中,I、P、F就是上面得到的內(nèi)容完整度、發(fā)音準(zhǔn)確度和句子流利度評估特征,αΙ αρ, α F分別為其權(quán)重,通過專家設(shè)置或數(shù)據(jù)擬合得到;Scale是評分的分制,可根據(jù)具 體需要設(shè)置。除了線性加權(quán)方法,還可以用混合高斯模型(Gaussian Mixture Model,GMM), 支持向量機(jī)(SupportVector Machine, SVM),多層感知機(jī)(Multi-Layer Prec印tron,MLP) 或決策樹(Decision Tree)等分類方法實(shí)現(xiàn)。這些分類器都有成熟的訓(xùn)練方法,其缺點(diǎn)是 不夠直觀,必須依靠數(shù)據(jù)驅(qū)動(dòng)方法實(shí)現(xiàn),很難由專家知識指定和調(diào)整參數(shù)。為了提高數(shù)據(jù)擬 合精度,也可以考慮將上述方法進(jìn)行融合提高性能。標(biāo)準(zhǔn)調(diào)整單元3與量化評估單元2連接標(biāo)準(zhǔn)調(diào)整單元3是由考試組織機(jī)構(gòu)根據(jù) 考試的對象、目的和要求,適當(dāng)調(diào)整評估標(biāo)準(zhǔn),用以更好地達(dá)到考試目的;所述評估標(biāo)準(zhǔn)的 調(diào)整是利用一組考生樣本,通過對專家評估結(jié)果進(jìn)行數(shù)據(jù)擬合的方法,得到相應(yīng)的評估門 限和權(quán)重,根據(jù)考試對象、目的和要求調(diào)整評估特征的門限以及評估重點(diǎn)的調(diào)整;所述評估 權(quán)重和門限是對小學(xué)生、初中生、高中生、大學(xué)生、專業(yè)人員的完整性、準(zhǔn)確性、流利性和韻 律性要求設(shè)定不相同的評估權(quán)重和發(fā)音錯(cuò)誤檢測門限。評估標(biāo)準(zhǔn)的調(diào)整包含兩個(gè)基本方面,一是調(diào)評估特征提取的門限控制,例如,降低 或者提高發(fā)音準(zhǔn)確度的檢測標(biāo)準(zhǔn)要求,改變口語準(zhǔn)確性評估特征本身的范圍;二是改變不 同評估特征的權(quán)重,改變考查的重點(diǎn),以上兩個(gè)方法可以結(jié)合使用。首先,評估特征提取門 限可以比較直觀地調(diào)整,控制錯(cuò)誤檢測的要求嚴(yán)格程度。而評估特征的權(quán)重調(diào)整,通過以下 步驟實(shí)現(xiàn)對考生試卷進(jìn)行抽樣,隨機(jī)抽取反映不同考生情況的約300名考生;請當(dāng)?shù)乜谡Z評估專家討論評估標(biāo)準(zhǔn),并對以上考生進(jìn)行獨(dú)立評估,每位考生至少5 名專家評估;綜合專家評估結(jié)果,對每份考生答卷給出一個(gè)最終的評分;綜合的方法,可以是簡 單的對專家評分計(jì)算算術(shù)平均值,也可以綜合專家意見,統(tǒng)一復(fù)評得到最終比較一致認(rèn)可 的評分;將最終得到考生答卷和專家評估結(jié)果輸入系統(tǒng),用參數(shù)估計(jì)方法,調(diào)整評估標(biāo)準(zhǔn), 得到最終的評估權(quán)重參數(shù)。具體的調(diào)整方法,和選擇的評分策略有關(guān)線性加權(quán)系統(tǒng)用最小均方差等算法估計(jì)最優(yōu)權(quán)重;GMM系統(tǒng)用EM(Expectation-Maximization)算法迭代估計(jì)均值和方差等;SVM系統(tǒng)用數(shù)值優(yōu)化方法尋找最優(yōu)支持向量組;決策樹系統(tǒng)用分裂算法尋找最優(yōu)分裂策略。通過上述步驟,就可以實(shí)現(xiàn)基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估,在保證客觀公證性 的同時(shí),可以根據(jù)不同考試對象、目標(biāo)和要求,根據(jù)相關(guān)專家意見統(tǒng)一調(diào)整系統(tǒng)的評估標(biāo) 準(zhǔn)。
以上所述,僅為本發(fā)明中的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在 本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),其特征在于系統(tǒng)包括識別對齊單元、量化評估單元和標(biāo)準(zhǔn)調(diào)整單元,其中識別對齊單元接收口語語音信息、答題范圍和評估指標(biāo)信息,對輸入口語語音信息進(jìn)行識別和對齊,將口語語音信息生成文字,并將文字和語音進(jìn)行對齊;標(biāo)準(zhǔn)調(diào)整單元,是由考試組織機(jī)構(gòu)根據(jù)具體考試對象、目標(biāo)和要求進(jìn)行量化評估標(biāo)準(zhǔn)調(diào)整,生成并輸出最終的量化評估標(biāo)準(zhǔn);量化評估單元分別與識別對齊單元和標(biāo)準(zhǔn)調(diào)整單元連接,量化評估單元接收評估量化指標(biāo)信息、標(biāo)準(zhǔn)調(diào)整單元輸出的量化評估標(biāo)準(zhǔn)信息和識別對齊單元輸出的文字識別對齊信息,根據(jù)所述三個(gè)信息提取口語評估特征,進(jìn)行自動(dòng)化評估和診斷,生成評估結(jié)果和診斷報(bào)告信息;系統(tǒng)通過采用統(tǒng)一的客觀量化指標(biāo)和標(biāo)準(zhǔn),對口語語音進(jìn)行自動(dòng)化評估,實(shí)現(xiàn)口語評估的客觀公證性,并提供基于量化信息的診斷報(bào)告。
2.根據(jù)權(quán)利要求1所述基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),其特征在于,所述標(biāo)準(zhǔn) 調(diào)整單元,是由考試組織機(jī)構(gòu)根據(jù)考試的對象、目的和要求,適當(dāng)調(diào)整評估標(biāo)準(zhǔn),用以更好 地達(dá)到考試目的;所述評估標(biāo)準(zhǔn)的調(diào)整是利用一組考生樣本,通過對專家評估結(jié)果進(jìn)行數(shù) 據(jù)擬合的方法,得到相應(yīng)的評估門限和權(quán)重,根據(jù)考試對象、目的和要求調(diào)整評估特征的門 限以及評估重點(diǎn)的調(diào)整;所述評估權(quán)重和門限是對小學(xué)生、初中生、高中生、大學(xué)生、專業(yè)人 員的完整性、準(zhǔn)確性、流利性和韻律性要求設(shè)定不相同的評估權(quán)重和發(fā)音錯(cuò)誤檢測門限。
3.根據(jù)權(quán)利要求1所述基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),其特征在于,所述識別 對齊單元包括通用聲學(xué)模型是從大規(guī)模帶內(nèi)容標(biāo)注的口語語料訓(xùn)練得到,用于描述音素的發(fā)音特征 分布的文件;容錯(cuò)發(fā)音詞典是用于描述口語詞匯和發(fā)音音素的對應(yīng)關(guān)系的文件,包含常見的發(fā)音變 異和發(fā)音錯(cuò)誤標(biāo)注信息;語言模型,根據(jù)口語試題的答題范圍信息,生成語言模型文件,并包含常見的語法和用 詞錯(cuò)誤信息;語音特征模塊,接收口語語音信息,生成口語語音倒譜特征參數(shù)信息;識別對齊模塊分別讀取通用聲學(xué)模型、容錯(cuò)發(fā)音詞典和語言模型,與語音特征模塊連 接,接收語音特征模塊輸出的口語語音倒譜特征參數(shù)信息,利用幀同步搜索算法將口語語 音倒譜特征參數(shù)信息,在容錯(cuò)發(fā)音詞典和語言模型約束下,與通用聲學(xué)模型進(jìn)行動(dòng)態(tài)匹配, 輸出識別文字信息和對齊結(jié)果信息。
4.根據(jù)權(quán)利要求3所述基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),其特征在于,所述通用 聲學(xué)模型包含各地口音的訓(xùn)練語料,訓(xùn)練得到的性別相關(guān)模型,采用最小音素錯(cuò)誤區(qū)分度 訓(xùn)練準(zhǔn)則和異方差線性區(qū)分性建模方法訓(xùn)練得到,確保聲學(xué)匹配性能和識別效果。
5.根據(jù)權(quán)利要求3所述基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),其特征在于,所述容錯(cuò) 發(fā)音詞典,采用通用的標(biāo)準(zhǔn)發(fā)音詞典,加上常見的口語發(fā)音變異和發(fā)音錯(cuò)誤,用于提高對真 實(shí)口語語音的識別和對齊準(zhǔn)確性。
6.根據(jù)權(quán)利要求3所述基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),其特征在于,所述語言 模型為N元文法模型,根據(jù)口語評估專家設(shè)定的口語答題范圍,動(dòng)態(tài)生成語言模型,提高識別準(zhǔn)確率,答題范圍由口語評估專家設(shè)置,語言模型中包含常見的語法和用詞錯(cuò)誤。
7.根據(jù)權(quán)利要求3所述基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),其特征在于,所述語音 特征模塊,是用13維感知線性預(yù)測特征,加上一階和二階差分,構(gòu)成39維語音特征向量。
8.根據(jù)權(quán)利要求3所述基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),其特征在于,所述識別 對齊模塊是基于幀同步搜索算法進(jìn)行識別和對齊。
9.根據(jù)權(quán)利要求1所述基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),其特征在于,所述量化 評估單元包括容錯(cuò)發(fā)音詞典是用于描述口語詞匯和發(fā)音音素的對應(yīng)關(guān)系的文件,包含常見的發(fā)音變 異和發(fā)音錯(cuò)誤標(biāo)注信息;標(biāo)準(zhǔn)發(fā)音模型由發(fā)音標(biāo)準(zhǔn)的語音訓(xùn)練得到,用于計(jì)算發(fā)音的準(zhǔn)確度,將輸入語音特征 和標(biāo)準(zhǔn)發(fā)音模型比對,計(jì)算發(fā)音準(zhǔn)確度,以及發(fā)音有缺陷的單詞比例;評估量化指標(biāo)模塊是根據(jù)口語評估專家設(shè)定的答題范圍和評估指標(biāo),生成特定口語試 題對應(yīng)的評估量化指標(biāo),不同的口語試題,所關(guān)注的評估量化指標(biāo)重點(diǎn)不同,評估量化指標(biāo) 可分為完整性、準(zhǔn)確性、流利性和韻律性四類;評估標(biāo)準(zhǔn)模塊是口語評估專家輸入的默認(rèn)量化評估標(biāo)準(zhǔn),允許考試組織結(jié)構(gòu)根據(jù)具體 的考試對象、目的和要求,通過標(biāo)準(zhǔn)調(diào)整單元,進(jìn)行適當(dāng)調(diào)整并生成最終的量化指標(biāo)評估標(biāo) 準(zhǔn);口語評估特征模塊與識別對齊模塊、評估量化指標(biāo)模塊、容錯(cuò)發(fā)音詞典和標(biāo)準(zhǔn)發(fā)音模 型連接,根據(jù)評估量化指標(biāo)模塊的指標(biāo)要求,從識別對齊好的口語語音中提取評估用的完 整性、準(zhǔn)確性、流利性和韻律性相關(guān)的量化指標(biāo);評估診斷模塊分別與口語評估特征模塊和評估標(biāo)準(zhǔn)模塊連接,根據(jù)評估標(biāo)準(zhǔn)模塊輸出 的最終量化指標(biāo)評估標(biāo)準(zhǔn),和提取到的完整性、準(zhǔn)確性、流利性和韻律性相關(guān)的量化口語評 估指標(biāo),通過特征映射方法進(jìn)行最終的評估,并給出相應(yīng)的診斷報(bào)告。
10.根據(jù)權(quán)利要求9所述基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),其特征在于,所述口語 評估特征模塊包括完整性、準(zhǔn)確性、流利性和韻律性四個(gè)層面,用于評估口語語音的內(nèi)容、 語法、發(fā)音、重音、語速、連貫、重復(fù)、語氣、語調(diào)、連讀、失去爆破、同化、停頓指標(biāo);四個(gè)評估 層面的口語量化評估計(jì)算如下內(nèi)容完整性是計(jì)算完成答題要求的程度,所述答題要求的程度在識別對齊的基礎(chǔ)上, 利用標(biāo)準(zhǔn)發(fā)音模型比對,計(jì)算各單詞發(fā)音的后驗(yàn)概率,后驗(yàn)概率高于特定門限的作為有效 答題部分,統(tǒng)計(jì)有效答題語音和要求的答題內(nèi)容的比例;口語準(zhǔn)確性是計(jì)算朗讀中單詞發(fā)音和標(biāo)準(zhǔn)模型的匹配程度,發(fā)音有明顯問題的單詞比 例,話題簡述中語法錯(cuò)誤;所述口語準(zhǔn)確性分為兩個(gè)部分一個(gè)是總體的發(fā)音良好程度,用 單詞發(fā)音的平均對數(shù)后驗(yàn)概率表示;利用后驗(yàn)概率設(shè)置門限、或者支持向量機(jī)檢測發(fā)音錯(cuò) 誤率,統(tǒng)計(jì)發(fā)音有問題和缺陷的單詞比例,在識別對齊過程中,采用容錯(cuò)發(fā)音詞典和包含語 法、用詞錯(cuò)誤的答題范圍生成的語言模型,用于對常見發(fā)音和用詞錯(cuò)誤進(jìn)行檢測;口語流利性是計(jì)算平均有效語速、插入數(shù)量、連讀、失去爆破和同化等單詞連貫情況, 在識別對齊之后,所述語速由單詞的個(gè)數(shù)和語句的持續(xù)時(shí)間比值計(jì)算,語速以篇章為單位 統(tǒng)計(jì)句子一級的平均語速;口語答題中的猶豫、重復(fù)、修正數(shù)量從識別對齊好的語音上統(tǒng) 計(jì);口語答題中的連讀、失去爆破和同化,在發(fā)音詞典中已經(jīng)加入,并根據(jù)維特比對齊的結(jié)果判斷是否被采用,并統(tǒng)計(jì)其個(gè)數(shù)。口語韻律性是計(jì)算意群停頓、重讀弱讀、語氣語調(diào)的口語特征;所述意群停頓從識別對齊的語音上計(jì)算,在合理意群停頓上靜音的持續(xù)時(shí)間是否達(dá)到停頓的要求,以及在非合理 停頓的地方出現(xiàn)異常停頓的個(gè)數(shù);重讀弱讀計(jì)算是根據(jù)發(fā)音的語調(diào)、相對強(qiáng)度和持續(xù)時(shí)間, 判斷是否為有效重讀和弱讀;語氣語調(diào)是根據(jù)基音曲線的走向,判斷考生朗讀是否注意語 氣語調(diào)變化,在升降調(diào)的地方是否應(yīng)用得當(dāng)。
全文摘要
本發(fā)明為基于客觀標(biāo)準(zhǔn)的自動(dòng)化口語評估系統(tǒng),包括識別對齊單元、量化評估單元和標(biāo)準(zhǔn)調(diào)整單元,識別對齊單元接收口語語音信息、答題范圍和評估指標(biāo)信息,對輸入口語語音信息進(jìn)行識別和對齊,將口語語音信息生成文字,并將文字和語音進(jìn)行對齊;標(biāo)準(zhǔn)調(diào)整單元,是由考試組織機(jī)構(gòu)根據(jù)具體考試對象、目標(biāo)和要求進(jìn)行量化評估標(biāo)準(zhǔn)調(diào)整,生成并輸出最終的量化評估標(biāo)準(zhǔn);量化評估單元分別與識別對齊單元和標(biāo)準(zhǔn)調(diào)整單元連接,量化評估單元接收評估量化指標(biāo)信息、標(biāo)準(zhǔn)調(diào)整單元輸出的量化評估標(biāo)準(zhǔn)信息和識別對齊單元輸出的文字識別對齊信息,根據(jù)所述三個(gè)信息提取口語評估特征,進(jìn)行自動(dòng)化評估和診斷,生成評估結(jié)果和診斷報(bào)告信息。
文檔編號G09B19/06GK101826263SQ200910078868
公開日2010年9月8日 申請日期2009年3月4日 優(yōu)先權(quán)日2009年3月4日
發(fā)明者徐波, 李鵬, 梁家恩, 王士進(jìn), 高鵬 申請人:中國科學(xué)院自動(dòng)化研究所