欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于標(biāo)注所識(shí)別文本的部分的語(yǔ)音識(shí)別設(shè)備的制作方法

文檔序號(hào):2819660閱讀:263來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):用于標(biāo)注所識(shí)別文本的部分的語(yǔ)音識(shí)別設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種用于將口語(yǔ)文本轉(zhuǎn)錄成所識(shí)別文本以及用于對(duì)所識(shí)別文本的被非正確識(shí)別的部分進(jìn)行編輯的轉(zhuǎn)錄設(shè)備,其中口語(yǔ)文本每個(gè)部分的鏈接信息標(biāo)記(flag)相聯(lián)系的所識(shí)別文本。
本發(fā)明還涉及一種用于將口語(yǔ)文本轉(zhuǎn)錄成所識(shí)別文本以及用于編輯所述所識(shí)別文本的被非正確識(shí)別的部分的轉(zhuǎn)錄方法,其中口語(yǔ)文本每個(gè)部分的鏈接信息標(biāo)記相聯(lián)系的所識(shí)別文本。
背景技術(shù)
這種類(lèi)型的轉(zhuǎn)錄設(shè)備和轉(zhuǎn)錄這種類(lèi)型的方法從專(zhuān)利US 5,031,113中已知,其中公開(kāi)了一種聽(tīng)寫(xiě)設(shè)備。已知的聽(tīng)寫(xiě)設(shè)備由計(jì)算機(jī)形成,所述計(jì)算機(jī)運(yùn)行語(yǔ)音識(shí)別軟件及文本處理軟件。已知聽(tīng)寫(xiě)設(shè)備的使用者可以對(duì)著被連接到計(jì)算機(jī)的話筒說(shuō)出口語(yǔ)文本。形成轉(zhuǎn)錄設(shè)備的語(yǔ)音識(shí)別軟件執(zhí)行轉(zhuǎn)錄方法并且通過(guò)這樣做將所識(shí)別的字分配給口語(yǔ)文本的每個(gè)口語(yǔ)字,其結(jié)果是獲得口語(yǔ)文本的所識(shí)別文本。同樣,作為轉(zhuǎn)錄方法的一部分,鏈接信息被加以確定,即其標(biāo)記針對(duì)口語(yǔ)文本的每個(gè)口語(yǔ)字而被識(shí)別的所識(shí)別文本的字。
已知的聽(tīng)寫(xiě)設(shè)備還包含用于自動(dòng)確定和存儲(chǔ)標(biāo)注信息的標(biāo)注裝置。所識(shí)別文本的一個(gè)或更多個(gè)字可例如在這種情況下被識(shí)別為命令,所述命令例如在格式化所述所識(shí)別文本時(shí)將被執(zhí)行。因此在所識(shí)別文本中的字序列“…next word bold”可以被翻譯成用于格式化緊接在所識(shí)別文本后面的字的命令。這些已知的標(biāo)注裝置被加以設(shè)置用于命令標(biāo)注信息的自動(dòng)確定和存儲(chǔ),所述命令標(biāo)注信息標(biāo)注所識(shí)別文本中具有這樣公共特征的那些字序列,即它們可以被用作用于格式化所識(shí)別文本的字的命令。
已知的聽(tīng)寫(xiě)設(shè)備還運(yùn)行文本處理軟件且因此形成校正設(shè)備,借此校正設(shè)備被非正確識(shí)別的字可以被編輯。出于這個(gè)目的,校正設(shè)備的使用者可以啟動(dòng)校正設(shè)備的同步再現(xiàn)模式,其中口語(yǔ)文本從聲學(xué)上被再現(xiàn),并且與此同步由鏈接信息所標(biāo)記的所識(shí)別文本的字從視覺(jué)上被加亮(即被標(biāo)識(shí))。同步再現(xiàn)模式在實(shí)踐中已經(jīng)被證實(shí)對(duì)于校正由語(yǔ)音識(shí)別設(shè)備所識(shí)別的文本尤其有利。
在實(shí)踐中已經(jīng)發(fā)現(xiàn)許多使用者難以記住一命令的正確字序列。因此例如他們說(shuō)“…next word should be bold”(下個(gè)字應(yīng)該為粗體),但是標(biāo)注裝置并沒(méi)有將這個(gè)字序列識(shí)別為命令且因此對(duì)此并不標(biāo)注。當(dāng)校正這個(gè)所識(shí)別文本時(shí)使用者因此必須從所識(shí)別文本中刪除整個(gè)字序列并且手動(dòng)格式化緊接所述序列的字,其相當(dāng)費(fèi)時(shí)。還存在與同步再現(xiàn)模式相聯(lián)系所出現(xiàn)的一個(gè)缺點(diǎn),即在通過(guò)這種方法已經(jīng)對(duì)所識(shí)別文本加以校正之后,已經(jīng)被從所識(shí)別文本中刪除的這個(gè)字序列的口語(yǔ)文本的鏈接信息或者指向所識(shí)別文本中非正確的字,或者根本并不指向其中的任何字,其引起任何后來(lái)的同步再現(xiàn)錯(cuò)誤且讓使用者迷惑。

發(fā)明內(nèi)容
本發(fā)明的一個(gè)目的是提供在上面首段落中所定義類(lèi)型的轉(zhuǎn)錄設(shè)備以及在上面第二段落中所定義類(lèi)型的轉(zhuǎn)錄方法,其中上面所說(shuō)明的缺點(diǎn)得以避免。
為了取得上面所指示的目的,在這種類(lèi)型的轉(zhuǎn)錄設(shè)備中提供根據(jù)本發(fā)明的特點(diǎn),以便于所述轉(zhuǎn)錄設(shè)備可以以下面所詳細(xì)說(shuō)明的方式被表征。
一種轉(zhuǎn)錄設(shè)備,其用于將口語(yǔ)文本轉(zhuǎn)錄成所識(shí)別文本以及用于對(duì)所識(shí)別文本的被非正確識(shí)別的部分進(jìn)行編輯,其中口語(yǔ)文本每部分的鏈接信息標(biāo)記相聯(lián)系的所識(shí)別文本,具有用于將所接收的口語(yǔ)文本轉(zhuǎn)錄成所識(shí)別文本且用于產(chǎn)生鏈接信息的語(yǔ)音識(shí)別裝置,以及具有用于存儲(chǔ)口語(yǔ)文本、所識(shí)別文本和鏈接信息的存儲(chǔ)器裝置,以及具有用于自動(dòng)地確定標(biāo)注信息且用于在所述存儲(chǔ)器裝置中存儲(chǔ)所確定的所述標(biāo)注信息的標(biāo)注裝置,所述標(biāo)注信息標(biāo)記具有為所有被標(biāo)注的文本部分所共有的特定特征的所識(shí)別文本部分及/或口語(yǔ)文本部分,其中所述標(biāo)注裝置具有用于手動(dòng)錄入標(biāo)注信息的輸入裝置,以允許也具有這個(gè)公共特征的所識(shí)別或口語(yǔ)文本的另外部分被標(biāo)注有這個(gè)標(biāo)注信息;并且具有用于統(tǒng)一處理被標(biāo)注的文本部分的處理裝置。
為了取得上述所指示的目的,在上述類(lèi)型的轉(zhuǎn)錄方法中提供根據(jù)本發(fā)明的特點(diǎn),以便于所述轉(zhuǎn)錄方法可以以下面所詳細(xì)說(shuō)明的方式被表征。
一種轉(zhuǎn)錄方法,其用于將口語(yǔ)文本轉(zhuǎn)錄成所識(shí)別文本以及用于對(duì)所識(shí)別文本的被非正確識(shí)別的部分進(jìn)行編輯,其中口語(yǔ)文本每部分的鏈接信息標(biāo)記相聯(lián)系的所識(shí)別文本,以及其中下述步驟被加以執(zhí)行將所接收的口語(yǔ)文本轉(zhuǎn)錄成所識(shí)別文本且產(chǎn)生鏈接信息;存儲(chǔ)口語(yǔ)文本、所識(shí)別文本和鏈接信息;自動(dòng)確定標(biāo)注信息且存儲(chǔ)所確定的所述標(biāo)注信息,所述標(biāo)注信息標(biāo)記具有為所有被標(biāo)注的文本部分所共有的特定特征的所識(shí)別文本部分及/或口語(yǔ)文本部分;手動(dòng)錄入標(biāo)注信息,以允許也具有這個(gè)公共特征的所識(shí)別或口語(yǔ)文本的另外部分被標(biāo)注有這個(gè)標(biāo)注信息;以及統(tǒng)一處理被標(biāo)注的文本部分。
根據(jù)本發(fā)明的特點(diǎn)取得使用者能夠手動(dòng)地將部分所識(shí)別文本及/或口語(yǔ)文本標(biāo)注有下述標(biāo)注信息,所述標(biāo)注信息與某些另外部分的所識(shí)別文本從前可能已經(jīng)被自動(dòng)標(biāo)注的標(biāo)注信息相同。在后來(lái)的處理操作中,那些被自動(dòng)或手動(dòng)加以標(biāo)注的具有公共特征的文本部分可以通過(guò)處理裝置以統(tǒng)一的方法被處理。被標(biāo)注的文本部分的公共特征可例如在這種情況下是在所識(shí)別文本中被標(biāo)注的字序列被分配給一命令或被標(biāo)記為頭部;被標(biāo)注的所識(shí)別文本部分被鏈接信息分配到包含猶豫聲音、暫停、不清楚的口語(yǔ)文本部分或文本的冗余部分如被重復(fù)字的口語(yǔ)文本部分。
結(jié)果是取得下述優(yōu)點(diǎn),即已經(jīng)被自動(dòng)標(biāo)注的文本部分可以利用手動(dòng)標(biāo)注被補(bǔ)充,這樣具有特定特征的所有被標(biāo)注的口語(yǔ)文本部分及/或所識(shí)別文本部分可以通過(guò)統(tǒng)一方法在后來(lái)的處理操作中被加以處理。因此,例如,由語(yǔ)音識(shí)別裝置難以識(shí)別(即可能在識(shí)別中有大量錯(cuò)誤)的所有文本部分以及由校正人員在同步再現(xiàn)模式中被手動(dòng)識(shí)別為困難的所有文本部分可以通過(guò)統(tǒng)一方法被標(biāo)注,以為了用于核查的目的使口語(yǔ)文本的作者參考這些被標(biāo)注的文本部分。通過(guò)相同的方法,不同的序列字可被標(biāo)注有這樣的標(biāo)注信息,所述標(biāo)注信息與標(biāo)注裝置已經(jīng)用以自動(dòng)標(biāo)注被分配有一命令的序列字的標(biāo)注信息相同,結(jié)果是所述命令也被分配給這些被手動(dòng)標(biāo)注的文本部分。
權(quán)利要求2的實(shí)施提供了這樣的優(yōu)點(diǎn),即已經(jīng)被自動(dòng)及手動(dòng)標(biāo)注的文本部分可以針對(duì)參數(shù)適配進(jìn)行評(píng)估,借此參數(shù)適配所識(shí)別文本的質(zhì)量可以得到改善。同樣,通過(guò)手動(dòng)標(biāo)注命令標(biāo)注信息,所識(shí)別文本中的字序列可以被分配給命令,然后在適配期間所述序列字被添加到標(biāo)注裝置中的命令集合中,并且下次將被自動(dòng)標(biāo)注。
權(quán)利要求3和權(quán)利要求10的實(shí)施提供了這樣的優(yōu)點(diǎn),即例如,被自動(dòng)以及還被手動(dòng)標(biāo)注為猶豫聲音的所有文本部分在同步再現(xiàn)模式中從聲學(xué)上并不被再現(xiàn)并且在所識(shí)別文本的光學(xué)再現(xiàn)期間是隱藏的。結(jié)果是所識(shí)別文本可以更高效地被顯著校正,因?yàn)樵诼晫W(xué)再現(xiàn)時(shí)時(shí)間被節(jié)省且使用者可以專(zhuān)心于所識(shí)別文本的重要部分。
權(quán)利要求4和11的實(shí)施提供了這樣的優(yōu)點(diǎn),即當(dāng)同步再現(xiàn)模式被啟動(dòng)時(shí),已經(jīng)從聲學(xué)上被再現(xiàn)且從視覺(jué)上被標(biāo)注至少一次的那些所識(shí)別文本部分及/或口語(yǔ)文本部分通過(guò)標(biāo)注裝置被自動(dòng)地標(biāo)注有再現(xiàn)標(biāo)注信息。為了使校正更容易,在同步再現(xiàn)已經(jīng)被標(biāo)注有再現(xiàn)標(biāo)注信息的文本部分期間,轉(zhuǎn)錄設(shè)備因此有利地具有從聲學(xué)上再現(xiàn)例如所有的猶豫聲音和被重復(fù)字的能力。結(jié)果是根據(jù)本發(fā)明的校正設(shè)備的使用者可以更高效地顯著校正所識(shí)別文本。
權(quán)利要求5的實(shí)施提供了這樣的優(yōu)點(diǎn),即替代文本被顯示在所識(shí)別文本內(nèi)其中已經(jīng)得到抑制的被標(biāo)注文本部分所處在的位置。如果這個(gè)替代信息標(biāo)記已經(jīng)得到抑制的被標(biāo)注文本部分的特征,則其尤為有利。
權(quán)利要求6的實(shí)施提供了這樣的優(yōu)點(diǎn),即使用者可以以簡(jiǎn)單的方法選擇當(dāng)時(shí)更為有利的所識(shí)別文本的顯示方式。
權(quán)利要求7的實(shí)施提供了這樣的優(yōu)點(diǎn),即有可以切換到顯示文本模塊的進(jìn)一步有利的方式。
權(quán)利要求8和權(quán)利要求12的實(shí)施提供了這樣的優(yōu)點(diǎn),即具有多個(gè)特征的文本部分可以被標(biāo)注有適當(dāng)?shù)牟煌?xiàng)的標(biāo)注信息。一部分文本可例如被標(biāo)注為頭部并且包括猶豫聲音。在這種情況下猶豫聲音將既被標(biāo)注有頭部標(biāo)注信息又被標(biāo)注有猶豫聲音標(biāo)注信息,并且因此將在后來(lái)的對(duì)口語(yǔ)和所識(shí)別文本中的頭部進(jìn)行編輯期間以及在對(duì)這些文本中的猶豫聲音進(jìn)行編輯期間被加以編輯。
現(xiàn)在參考附圖將對(duì)本發(fā)明更詳細(xì)地加以說(shuō)明,所述附圖示出單個(gè)實(shí)施例,但本發(fā)明并不被局限于此。


圖1示出一種用于將口語(yǔ)文本轉(zhuǎn)錄成所識(shí)別文本的轉(zhuǎn)錄設(shè)備,其中校正設(shè)備被提供以用于校正所述所識(shí)別文本。
圖2以符號(hào)形式示出口語(yǔ)文本、由轉(zhuǎn)錄設(shè)備所識(shí)別的對(duì)應(yīng)文本、以及標(biāo)記針對(duì)口語(yǔ)文本每個(gè)音頻段的所識(shí)別文本的相聯(lián)系段的鏈接信息。
圖3示出被存儲(chǔ)在所述轉(zhuǎn)錄設(shè)備的命令存儲(chǔ)器級(jí)(stage)中的命令表。
圖4示出被存儲(chǔ)在所述轉(zhuǎn)錄設(shè)備的存儲(chǔ)器裝置中的標(biāo)注表。
圖5以符號(hào)形式示出由所述轉(zhuǎn)錄設(shè)備的使用者所說(shuō)出的五個(gè)文本實(shí)例。
圖6以符號(hào)形式示出針對(duì)口語(yǔ)文本的五個(gè)實(shí)例由所述轉(zhuǎn)錄設(shè)備的語(yǔ)音識(shí)別裝置所識(shí)別的文本,其中部分所識(shí)別文本已經(jīng)被語(yǔ)音識(shí)別裝置的第一標(biāo)注級(jí)自動(dòng)地標(biāo)注且使用者利用第二標(biāo)注級(jí)已經(jīng)手動(dòng)標(biāo)注了文本的另外部分。
圖7以符號(hào)形式示出針對(duì)五個(gè)實(shí)例由所述轉(zhuǎn)錄設(shè)備的校正設(shè)備所顯示的文本,其中所識(shí)別文本的被自動(dòng)和手動(dòng)標(biāo)注的文本作為替代文本被顯示。
圖8以符號(hào)形式示出當(dāng)被標(biāo)注的文本部分的所有替代文本被加以抑制時(shí)由校正設(shè)備所顯示的文本。
圖9以符號(hào)形式示出在口語(yǔ)及所識(shí)別文本的第一和后來(lái)第二同步再現(xiàn)期間哪些部分文本被加以再現(xiàn)。
具體實(shí)施例方式
圖1示出一種轉(zhuǎn)錄設(shè)備1,其用于將口語(yǔ)文本GT轉(zhuǎn)錄成所識(shí)別文本ET并且用于對(duì)未被正確地識(shí)別的所識(shí)別文本ET部分進(jìn)行編輯。轉(zhuǎn)錄設(shè)備1由運(yùn)行語(yǔ)音識(shí)別軟件且形成語(yǔ)音識(shí)別設(shè)備2的第一計(jì)算機(jī)以及第二和第三計(jì)算機(jī)形成,所述第二和第三計(jì)算機(jī)的每個(gè)運(yùn)行文本處理軟件且形成用來(lái)校正還一直未被正確識(shí)別的文本部分的第一校正設(shè)備3和第二校正設(shè)備4??商峒暗氖歉鶕?jù)本發(fā)明的轉(zhuǎn)錄設(shè)備還可以由形成語(yǔ)音識(shí)別設(shè)備及校正設(shè)備兩者的僅一個(gè)計(jì)算機(jī)形成,然后所述計(jì)算機(jī)將不得不運(yùn)行語(yǔ)音識(shí)別軟件和文本處理軟件兩者。
被連接到形成語(yǔ)音識(shí)別設(shè)備2的第一計(jì)算機(jī)上的是話筒5,從所述話筒5可以發(fā)射表示口語(yǔ)文本GT的音頻信號(hào)A。語(yǔ)音識(shí)別設(shè)備2包含A/D轉(zhuǎn)換器6、語(yǔ)音識(shí)別裝置7、存儲(chǔ)器裝置8、參數(shù)存儲(chǔ)器裝置9、命令存儲(chǔ)器裝置10和適配級(jí)11。由話筒5所發(fā)射的音頻信號(hào)A可以被饋送到A/D轉(zhuǎn)換器6,所述A/D轉(zhuǎn)換器將音頻信號(hào)A轉(zhuǎn)換成數(shù)字音頻數(shù)據(jù)AD。
表示口語(yǔ)文本GT的音頻數(shù)據(jù)AD可以被饋送到語(yǔ)音識(shí)別裝置7且由此可以被存儲(chǔ)在存儲(chǔ)器裝置8中。當(dāng)語(yǔ)音識(shí)別過(guò)程正在由語(yǔ)音識(shí)別裝置7所執(zhí)行時(shí),語(yǔ)音識(shí)別裝置7被加以設(shè)置以確定所識(shí)別文本ET,在這樣做時(shí)被存儲(chǔ)在參數(shù)存儲(chǔ)器裝置9中的參數(shù)信息PI被加以考慮。參數(shù)信息PI在這種情況下包含詞匯信息、語(yǔ)言模型信息及聲學(xué)信息。
詞匯信息包含可以由語(yǔ)音識(shí)別裝置7以及相聯(lián)系的音素序列所識(shí)別的所有字。語(yǔ)言模型信息包含在口語(yǔ)文本GT語(yǔ)言中常見(jiàn)的與字序列有關(guān)的統(tǒng)計(jì)信息。聲學(xué)信息包含有關(guān)轉(zhuǎn)錄設(shè)備1使用者發(fā)音的特殊特點(diǎn)及有關(guān)話筒5和A/D轉(zhuǎn)換器6的聲學(xué)特征的信息。
US專(zhuān)利5,031,113的公開(kāi)被認(rèn)為是被結(jié)合進(jìn)本發(fā)明的公開(kāi)內(nèi)容以作為參考,并且從這種類(lèi)型的參數(shù)信息PI的觀點(diǎn)來(lái)看由于語(yǔ)音識(shí)別過(guò)程的性能被公開(kāi)在所述US專(zhuān)利中,所以在此將不對(duì)其進(jìn)行詳細(xì)說(shuō)明。語(yǔ)音識(shí)別過(guò)程的結(jié)果是包含所識(shí)別文本ET的文本數(shù)據(jù)可以被語(yǔ)音識(shí)別裝置7存儲(chǔ)在存儲(chǔ)器裝置8中。
在語(yǔ)音識(shí)別過(guò)程的執(zhí)行期間,鏈接信息LI也可以由語(yǔ)音識(shí)別裝置7加以確定,其中所述鏈接信息LI標(biāo)記針對(duì)口語(yǔ)文本GT的每部分由語(yǔ)音識(shí)別裝置7所識(shí)別的相聯(lián)系文本ET。鏈接信息LI的產(chǎn)生同樣被公開(kāi)在US專(zhuān)利5,031,113中,為此在此未詳細(xì)對(duì)其加以討論。
在圖2中,以符號(hào)形式示出沿著時(shí)間軸t由作者,即語(yǔ)音識(shí)別設(shè)備2的使用者對(duì)話筒5所說(shuō)出的文本GT。由語(yǔ)音識(shí)別裝置7針對(duì)這個(gè)口語(yǔ)文本GT所識(shí)別的文本ET也被示出。當(dāng)語(yǔ)音識(shí)別過(guò)程正在被執(zhí)行時(shí),口語(yǔ)文本GT被分成包含相聯(lián)系的聲學(xué)信息的音頻段AS。這種類(lèi)型的相聯(lián)系的聲學(xué)信息可例如是字、兩個(gè)字之間的稍長(zhǎng)的語(yǔ)音暫停,即被稱(chēng)為猶豫聲音如“aah”或“mm”,或噪音。
鏈接信息LI標(biāo)記口語(yǔ)文本GT的每個(gè)音頻段AS及所識(shí)別文本ET的相聯(lián)系段TS的開(kāi)始和結(jié)束。例如第一音頻段AS1包含針對(duì)口語(yǔ)文本GT第一字“The”的持續(xù)1.5秒的聲學(xué)信息,以及由鏈接信息LI所分配的第一文本段TS1包含由語(yǔ)音識(shí)別裝置7所識(shí)別的字“The”的文本。
命令存儲(chǔ)器級(jí)10存儲(chǔ)被語(yǔ)音識(shí)別設(shè)備2識(shí)別為命令的字序列。被存儲(chǔ)在命令存儲(chǔ)器級(jí)10中的一部分命令表BT被示于圖3中。通過(guò)參考所述命令表BT,語(yǔ)音識(shí)別裝置7將例如字序列“next word bold”識(shí)別為所識(shí)別文本ET中的下個(gè)字即將被顯示成黑體的命令。命令號(hào)BL12被分配給命令表BT中的這個(gè)命令。字序列“insert text of module 1”(插入模塊1的文本)同樣被識(shí)別為命令,在這種情況下來(lái)自被存儲(chǔ)在命令存儲(chǔ)器級(jí)10內(nèi)位置“2341”上的存儲(chǔ)器位置處的文本模塊的標(biāo)準(zhǔn)文本即將被插入進(jìn)所識(shí)別文本ET。
語(yǔ)音識(shí)別裝置7進(jìn)一步包括第一標(biāo)注級(jí)12,其被設(shè)置成用于自動(dòng)確定標(biāo)注信息MI的不同項(xiàng)且用于在存儲(chǔ)器裝置8中存儲(chǔ)被如此標(biāo)注的標(biāo)注信息MI的項(xiàng),所述標(biāo)注信息MI的項(xiàng)標(biāo)記具有為所有被如此標(biāo)注的文本部分所共有的某些特征的所識(shí)別文本ET部分和口語(yǔ)文本GT部分。字“自動(dòng)的”在這個(gè)環(huán)境中被理解為意味著“轉(zhuǎn)錄設(shè)備1的使用者沒(méi)有任何動(dòng)作”。第一標(biāo)注級(jí)12被設(shè)置成用于自動(dòng)標(biāo)注帶有暫停標(biāo)注信息PMI的稍長(zhǎng)語(yǔ)音暫停、帶有猶豫聲音標(biāo)注信息HMI的猶豫聲音、帶有命令標(biāo)注信息CMI的命令標(biāo)注信息、帶有重復(fù)標(biāo)注信息RMI的被重復(fù)字、帶有日期標(biāo)注信息DMI的日期、以及帶有噪音標(biāo)注信息GMI的噪音。
圖4示出被存儲(chǔ)在存儲(chǔ)器裝置8中的標(biāo)注表MT,其中由第一標(biāo)注級(jí)12所自動(dòng)確定的標(biāo)注信息MI的表項(xiàng)被第一標(biāo)注級(jí)12錄入。為了所識(shí)別文本ET中命令的自動(dòng)標(biāo)注,第一標(biāo)注級(jí)12將被包含在命令表BT中的字序列與被包含在所識(shí)別文本ET中的字序列進(jìn)行比較。當(dāng)發(fā)現(xiàn)被包含在命令表BT中的字序列處在所識(shí)別文本ET中時(shí),則第一標(biāo)注級(jí)12將標(biāo)識(shí)這個(gè)字序列的所識(shí)別文本ET中的那些文本段TS、外加相聯(lián)系的命令號(hào)BI作為命令標(biāo)注信息CMI錄入在標(biāo)注表MT中。這在下面參考應(yīng)用實(shí)例被更詳細(xì)地加以說(shuō)明。
可提及的是還有可能在每種情況下使口語(yǔ)文本GT的適當(dāng)音頻段AS被錄入,而不是在標(biāo)注表MT中標(biāo)識(shí)所識(shí)別文本ET的某些文本段TS。在每種情況下相聯(lián)系的音頻段AS和文本段TS可以借助于鏈接信息LI被加以確定。
語(yǔ)音識(shí)別裝置7被設(shè)置成識(shí)別兩個(gè)字之間的語(yǔ)音暫停(沉默)并且第一標(biāo)注級(jí)12被設(shè)置成自動(dòng)標(biāo)注與帶有標(biāo)注表MT中暫停標(biāo)注信息PMI的口語(yǔ)文本GT相對(duì)應(yīng)的音頻段AS。
第一標(biāo)注級(jí)12被設(shè)置成將被存儲(chǔ)在第一標(biāo)注級(jí)12的猶豫聲音(例如“aah”或“mhh”)與被包含在所識(shí)別文本ET中的字進(jìn)行比較,且設(shè)置成將包含這種猶豫聲音的所識(shí)別文本ET的文本段TS自動(dòng)標(biāo)注有猶豫聲音標(biāo)注信息ZMI。
第一標(biāo)注級(jí)12還被設(shè)置成將口語(yǔ)文本GT的音頻段AS自動(dòng)標(biāo)注有噪音標(biāo)注信息GMI,如果這些音頻段AS包含噪音和/或聲音。出于這個(gè)目的,標(biāo)注級(jí)12包含能夠?qū)⒃胍艉?或聲音區(qū)分于包含字的音頻段的噪音探測(cè)器。
為了將所識(shí)別文本ET的被重復(fù)字標(biāo)注有重復(fù)標(biāo)注信息RMI,第一標(biāo)注級(jí)12被設(shè)置成比較所識(shí)別文本ET中彼此跟隨的字或字序列。標(biāo)注表MT還包含日期標(biāo)注信息DMI,其在下面參考應(yīng)用實(shí)例被更詳細(xì)地加以說(shuō)明。
轉(zhuǎn)錄設(shè)備1的第一校正設(shè)備3包括再現(xiàn)裝置13,所述再現(xiàn)裝置13連同存儲(chǔ)器裝置8和命令存儲(chǔ)器級(jí)10由運(yùn)行文本處理軟件的第二計(jì)算機(jī)所形成。還被連接到第二計(jì)算機(jī)上的是監(jiān)視器14、鍵盤(pán)15和揚(yáng)聲器16,其同樣與第一校正設(shè)備3相聯(lián)系。當(dāng)同步再現(xiàn)模式在第一校正設(shè)備3中被啟動(dòng)時(shí),再現(xiàn)裝置13被設(shè)置成用于口語(yǔ)文本GT的聲學(xué)再現(xiàn)且用于由鏈接信息LI所標(biāo)記的相聯(lián)系的所識(shí)別文本的同步視覺(jué)或光學(xué)標(biāo)注。
在啟動(dòng)的同步再現(xiàn)模式中校正所識(shí)別文本ET再次被公開(kāi)在US專(zhuān)利5,031,113中,并且已經(jīng)被證實(shí)在實(shí)踐中非常有利。在這種情況下,校正者,即正在校正所識(shí)別文本ET的第一校正設(shè)備3的使用者,可以同時(shí)聆聽(tīng)由作者對(duì)著話筒5所說(shuō)的文本GT,并且檢查或編輯由語(yǔ)音識(shí)別裝置7為其所識(shí)別的文本ET。被識(shí)別的文本ET從光學(xué)上被顯示在監(jiān)視器14上且由語(yǔ)音識(shí)別裝置7針對(duì)剛剛從聲學(xué)上被再現(xiàn)的口語(yǔ)字而被識(shí)別的字,從光學(xué)上被再現(xiàn)裝置13標(biāo)注且相應(yīng)地被顯示在監(jiān)視器14上。校正者可以啟動(dòng)、中斷且停用同步再現(xiàn)模式并且利用鍵盤(pán)15編輯所識(shí)別的文本ET。
第二校正設(shè)備4的結(jié)構(gòu)基本上與圖1中詳細(xì)示出的第一校正設(shè)備3的結(jié)構(gòu)相同,為此第二校正設(shè)備4在圖1中僅被示為一方框。然而,第二校正設(shè)備4從物理上與語(yǔ)音識(shí)別設(shè)備2分開(kāi),為此第二校正設(shè)備4此外具有存儲(chǔ)器裝置和命令存儲(chǔ)器裝置,其中在利用第一校正設(shè)備3所校正的識(shí)別文本ET被編輯之前,被存儲(chǔ)在存儲(chǔ)器裝置8和命令存儲(chǔ)器級(jí)10中的信息被存儲(chǔ)。
第二校正設(shè)備4例如可被檢查者,即第二校正設(shè)備4的使用者使用,在被存儲(chǔ)在存儲(chǔ)器裝置8中的所識(shí)別文本ET已經(jīng)由校正者加以校正之后,所述檢查者檢查由校正者所完成工作的質(zhì)量。出于這個(gè)目的檢查者檢查是否校正者已經(jīng)錯(cuò)過(guò)所識(shí)別文本ET中的任何錯(cuò)誤。這樣的檢查者主要由轉(zhuǎn)錄公司采用,其通過(guò)隨機(jī)檢查被校正的所識(shí)別文本來(lái)確保被轉(zhuǎn)錄文本的質(zhì)量。參考轉(zhuǎn)錄設(shè)備1的應(yīng)用實(shí)例,這被加以詳細(xì)說(shuō)明。
轉(zhuǎn)錄設(shè)備1的再現(xiàn)裝置13進(jìn)一步包括第二標(biāo)注級(jí)17,所述第二標(biāo)注級(jí)17連同鍵盤(pán)15和第一標(biāo)注級(jí)12形成用于自動(dòng)和手動(dòng)標(biāo)注部分口語(yǔ)文本GT或所識(shí)別文本ET的標(biāo)注裝置。對(duì)于第二標(biāo)注級(jí)17,當(dāng)校正者校正所識(shí)別文本ET時(shí),其有機(jī)會(huì)來(lái)手動(dòng)地標(biāo)注未被自動(dòng)加以標(biāo)注的文本的另外部分。
部分文本的這個(gè)手動(dòng)標(biāo)注可一方面被用來(lái)手動(dòng)地標(biāo)注具有與已經(jīng)被自動(dòng)標(biāo)注的文本部分相同特征的部分所識(shí)別文本,以允許參數(shù)信息PI或被存儲(chǔ)在命令表BT中的信息借助于適配級(jí)11被加以適配。這個(gè)適配取得下次第一標(biāo)注級(jí)12將能夠自動(dòng)標(biāo)注已經(jīng)被手動(dòng)標(biāo)注的文本部分。此外,伴隨著每個(gè)適配,語(yǔ)音識(shí)別設(shè)備2的識(shí)別率得到改善。結(jié)果是獲得這樣的優(yōu)點(diǎn),即轉(zhuǎn)錄設(shè)備可以減少隨著每個(gè)進(jìn)一步的使用校正者不得不做的越來(lái)越多的工作。
部分文本的這個(gè)手動(dòng)標(biāo)注另一方面被用來(lái)將部分文本標(biāo)注成被刪除,其隨后將不再出現(xiàn)在被傳送到作者的所識(shí)別文本中但盡管如此并沒(méi)有被完全刪除。將一部分文本標(biāo)注為被刪除具有這樣的優(yōu)點(diǎn),即在較后階段若需要,則這樣的文本部分可以被重新包括在所識(shí)別文本中,并且檢查者可以檢查這些部分文本被刪除是否是正確的。然而,特別有利地是,由口語(yǔ)文本GT和所識(shí)別文本ET之間的鏈接信息L I所提供的校正完全保持不變,因?yàn)閷?shí)際上沒(méi)有所識(shí)別文本部分被刪除。因此,當(dāng)同步再現(xiàn)模式被啟動(dòng)時(shí),雖然被標(biāo)注為被刪除的部分口語(yǔ)文本GT從聲學(xué)上被再現(xiàn),但是替代文本而不是被刪除的文本部分可以從光學(xué)上被標(biāo)注,這在下面被詳細(xì)加以說(shuō)明。
利用手動(dòng)標(biāo)注具有相同特征的文本部分對(duì)自動(dòng)標(biāo)注部分文本的這個(gè)補(bǔ)充提供了進(jìn)一步的優(yōu)點(diǎn),即經(jīng)編輯的所識(shí)別文本ET可以進(jìn)一步以特別高效的方法被編輯。因此,例如,被標(biāo)注有日期的所有所識(shí)別文本部分可以特別高效地被均勻地修正,下面對(duì)此加以詳細(xì)說(shuō)明。
標(biāo)注裝置的第二標(biāo)注級(jí)17也被設(shè)置成用于在存儲(chǔ)器裝置8中存儲(chǔ)再現(xiàn)標(biāo)注信息WMI,所述再現(xiàn)標(biāo)注信息WMI標(biāo)記在啟動(dòng)的同步再現(xiàn)模式下被再現(xiàn)裝置13已經(jīng)至少再現(xiàn)一次的那些所識(shí)別文本ET部分和/或口語(yǔ)文本GT部分。
結(jié)果是,獲得這樣的優(yōu)點(diǎn),即通過(guò)評(píng)估被包含在標(biāo)注表MT中的再現(xiàn)標(biāo)注信息WMI,再現(xiàn)裝置13既能夠從視覺(jué)上標(biāo)注借助于同步再現(xiàn)模式已經(jīng)被校正一次的所識(shí)別文本部分又能夠從聲學(xué)上標(biāo)注相聯(lián)系的口語(yǔ)文本GT部分。結(jié)果是根據(jù)本發(fā)明的校正設(shè)備的使用者能夠顯著更高效地校正所識(shí)別文本,其參考應(yīng)用實(shí)例在下面被加以詳細(xì)說(shuō)明。
再現(xiàn)裝置13進(jìn)一步被設(shè)置成當(dāng)同步再現(xiàn)模式被啟動(dòng)時(shí)用來(lái)抑制所不希望的口語(yǔ)文本GT部分的聲學(xué)再現(xiàn),所述所不希望的部分由被存儲(chǔ)在存儲(chǔ)器裝置8中的抑制信息進(jìn)行標(biāo)記。這是這樣的情況,即校正者可以使用鍵盤(pán)15來(lái)設(shè)定被包含在標(biāo)注表MT中的標(biāo)注信息MI的哪些項(xiàng)即將被用作抑制信息。使用者可,例如選擇暫停標(biāo)注信息PMI和猶豫聲音標(biāo)注信息HMI作為抑制信息,這樣當(dāng)口語(yǔ)文本GT第一次被回放時(shí)如此被標(biāo)注的文本部分得到抑制。參考應(yīng)用實(shí)例這被詳細(xì)加以說(shuō)明。
現(xiàn)在將在下面參考圖3至9所示的應(yīng)用實(shí)例詳細(xì)解釋轉(zhuǎn)錄設(shè)備1的優(yōu)點(diǎn)。圖5示出由作者對(duì)著話筒5所說(shuō)的五部分文本GT。圖6示出由語(yǔ)音識(shí)別裝置7針對(duì)所述五部分口述文本GT所識(shí)別的文本ET,其中部分所識(shí)別文本ET已經(jīng)被第一標(biāo)注級(jí)12自動(dòng)加以標(biāo)注。同樣在圖6中所示的還有借助于第二標(biāo)注級(jí)17由校正者手動(dòng)標(biāo)注的文本部分。圖7示出以如此形式的所識(shí)別文本ET,其中被自動(dòng)和手動(dòng)標(biāo)注的文本部分被示出由替代文本來(lái)代替。圖8示出以其中所有被標(biāo)注的文本部分已經(jīng)得到抑制的形式的所識(shí)別文本ET,所識(shí)別文本以所述形式被傳送到作者。
在第一實(shí)例中,作者想要對(duì)著話筒說(shuō)文本“…company PHILIPS”且同時(shí)將字“PHILIPS”標(biāo)注為黑體。然而,在字“company”之后,作者簡(jiǎn)單地沉思到針對(duì)黑體格式化命令確切地用什么措詞并且當(dāng)他如此做時(shí)他發(fā)出猶豫聲音“aah”,正如許多作者一樣。然后作者說(shuō)出“boldnext”,但當(dāng)他如此做時(shí)他想到這個(gè)命令的正確字序列是“next wordbold”,為此他說(shuō)“no”。然后他說(shuō)出正確的命令“next word bold”,并且繼續(xù)帶有字“PHILIPS”的文本。
正如從圖6中可以看出,語(yǔ)音識(shí)別裝置7識(shí)別音頻段AS3的文本段TS3=“aah”并且在標(biāo)注表MT的第四行中第一標(biāo)注級(jí)12自動(dòng)將這個(gè)猶豫聲音標(biāo)注有猶豫聲音標(biāo)注信息HMI。替代文本“<hes>”而不是猶豫聲音被示于圖6中,其允許校正者看到猶豫聲音在此刻已經(jīng)得到標(biāo)注。如果當(dāng)編輯所識(shí)別文本ET時(shí),校正者將再現(xiàn)裝置13的文本光標(biāo)放置在這個(gè)替代文本上面,然后由語(yǔ)音識(shí)別裝置7所識(shí)別的猶豫聲音被顯示。結(jié)果是,取得這樣的優(yōu)點(diǎn),即當(dāng)校正時(shí),校正者可以專(zhuān)心于所識(shí)別文本ET的實(shí)質(zhì)部分,但是如果他想要了解在此作者發(fā)出什么猶豫聲音以便于他可以校正相鄰于所述猶豫聲音的字時(shí),他能夠在任何時(shí)候看到這個(gè)聲音。
同樣,語(yǔ)音識(shí)別裝置7現(xiàn)在已經(jīng)為音頻段AS7-AS9識(shí)別出由文本段TS7-TS9所形成的字序列“next word bold”,在命令表BT中具有命令號(hào)BI12的命令已經(jīng)被分配給所述文本段TS7-TS9。第一標(biāo)注級(jí)12有利地自動(dòng)錄入這些文本段以及在標(biāo)注表MT第四行中作為命令標(biāo)注信息CMI的這個(gè)命令號(hào)。在圖6中,替代文本“<com>”而不是這些文本段被示出,其結(jié)果是獲得上述提到的優(yōu)點(diǎn)。同樣,命令BI12得到執(zhí)行,且形成針對(duì)音頻段AS10被識(shí)別的文本段TS10的字“PHILIPS”被顯示為黑體。
通過(guò)使用鍵盤(pán)15和第二標(biāo)注級(jí)17,校正者現(xiàn)在將文本段TS4和TS5標(biāo)注為具有命令號(hào)BI12的命令,這樣下次字序列“bold next”將被第一標(biāo)注級(jí)12自動(dòng)識(shí)別為命令。在圖7中這部分文本同樣由命令的替代文本“<com>”來(lái)表示。
通過(guò)使用命令號(hào)BI12,第二標(biāo)注級(jí)17將這個(gè)字序列TS4+TS5作為命令標(biāo)注信息CMI錄入在標(biāo)注表MT的第五行中。當(dāng)適應(yīng)模式在語(yǔ)音識(shí)別設(shè)備2中被啟動(dòng)時(shí),適配級(jí)11從存儲(chǔ)器裝置8中讀取新的命令標(biāo)注信息CMI,并且將具有命令號(hào)BI12的命令進(jìn)一步錄入在命令表BT中。
這給出這樣的優(yōu)點(diǎn),即校正者可以以特別的便利和效率將進(jìn)一步的字序列定義為命令,在適配模式下所述字序列由語(yǔ)音識(shí)別設(shè)備2接收。當(dāng)語(yǔ)音識(shí)別過(guò)程接下來(lái)被執(zhí)行時(shí),字序列“bold next”將因此被自動(dòng)地識(shí)別為命令。
借助于鍵盤(pán)15和第二標(biāo)注級(jí)17,現(xiàn)在校正者繼續(xù)將文本段TS6“no”標(biāo)注為被刪除文本,因?yàn)樗呀?jīng)看出作者無(wú)心地說(shuō)出這個(gè)字并且它將不被包括在傳送給作者的最終文本中。這個(gè)被刪除文本的替代文本“<skip>”被示于圖7中。
可提及的是校正者還可以將文本段TS4-TS6標(biāo)注為被刪除文本,因?yàn)榫哂忻钐?hào)BI12的命令不應(yīng)該出現(xiàn)兩次。
將文本段TS6手動(dòng)標(biāo)注為被刪除文本給出這樣的優(yōu)點(diǎn),即甚至在例如利用第二校正設(shè)備4所執(zhí)行的后來(lái)的同步再現(xiàn)模式期間,由鏈接信息LI所提供的相關(guān)性將被完全地保留,并且因此同步再現(xiàn)將沒(méi)有任何錯(cuò)誤地發(fā)生。
圖8示出在第一實(shí)例中最終被傳送到作者的所識(shí)別文本“…company PHILIPS...”,盡管存在猶豫聲音、一個(gè)無(wú)心的口語(yǔ)字及錯(cuò)誤的命令,但是所述文本仍是作者所真正意味的。
在第二實(shí)例中,作者想要對(duì)著話筒說(shuō)的文本是“…I fixed theleft leg…”,但是在這種情況下在音頻段AS20之后他沉思,并且保持安靜三秒鐘,這被第一標(biāo)注級(jí)12自動(dòng)識(shí)別為暫停且將其作為暫停標(biāo)注信息PMI錄入到標(biāo)注表MT中。這個(gè)沉思暫停的替代文本“<sil>”被示于圖6中。
緊接此暫停之后,作者重復(fù)字“T”,其被第一標(biāo)注級(jí)12自動(dòng)識(shí)別為被重復(fù)字且作為重復(fù)標(biāo)注信息RMI被錄入在標(biāo)注表MT中。文本段TS22的替代文本“<rep>”被示于圖6中。
緊接此被重復(fù)字之后,作者說(shuō)出“fixed the left”,然后做出另一沉思暫停,并且最終說(shuō)出“the left leg”。沉思暫停再次被第一標(biāo)注級(jí)12自動(dòng)標(biāo)注,但是重復(fù)字“the left”不可能被自動(dòng)加以識(shí)別和標(biāo)注。校正者現(xiàn)在手動(dòng)地將文本段TS26-TS28標(biāo)注為被重復(fù)字,因此導(dǎo)致對(duì)應(yīng)的重復(fù)標(biāo)注信息RMI被錄入在標(biāo)注表MT中。
圖8示出在第二實(shí)例中最終被傳送到作者的所識(shí)別文本“…theleft’leg”,并且盡管存在被重復(fù)字和沉思暫停,但是那由此仍是作者所真正意味的。除了自動(dòng)標(biāo)注以外所執(zhí)行的手動(dòng)標(biāo)注的結(jié)果是所有被重復(fù)的字被標(biāo)注在所識(shí)別文本中,并且隨著進(jìn)一步的處理它們可能例如全部在顯示器上被抑制或被用于適配模式。
在第三實(shí)例中,作者對(duì)著話筒5想要說(shuō)的文本是“…and companyPHILIPS will...”,但是在字“and”之后他不得不打噴嚏。因此音頻段AS51包含當(dāng)作者打噴嚏時(shí)所發(fā)郵的噪音。語(yǔ)音識(shí)別裝置7無(wú)法識(shí)別這個(gè)音頻段AS51的字,并且因?yàn)檫@第一標(biāo)注級(jí)12自動(dòng)地將這個(gè)音頻段AS51標(biāo)注為具有噪音標(biāo)注信息GMI的噪音并將它如此錄入到標(biāo)注表MT中。替代文本“<non sp>”被示于圖6中。
緊接他的打噴嚏之后,作者花費(fèi)五秒才找到他的手帕且然后擤鼻子。音頻段AS52反過(guò)來(lái)被自動(dòng)地被標(biāo)注為暫停且將被如此錄入到標(biāo)注表MT中。當(dāng)作者擤鼻子時(shí)發(fā)出的噪音類(lèi)似于噪音“tata”,并且為此語(yǔ)音識(shí)別裝置7不正確地將字“that”識(shí)別為文本段TS53。
有利地,當(dāng)同步再現(xiàn)模式被啟動(dòng)時(shí)立即識(shí)別出這個(gè)錯(cuò)誤的校正者能夠手動(dòng)地將文本段TS53標(biāo)注為帶有噪音標(biāo)注信息GMI的噪音。由此獲得這樣的優(yōu)點(diǎn),即在第三實(shí)例中在所識(shí)別文本ET中的全部噪音事實(shí)上被如此標(biāo)注且在處理的進(jìn)一步階段期間可以用相同的方法被全部加以處理。第一標(biāo)注級(jí)12的噪音探測(cè)器12可例如被適配于這些被標(biāo)注的文本部分,以便于這樣的噪音可以在將來(lái)被自動(dòng)地加以識(shí)別。
在第四實(shí)例中,當(dāng)作者實(shí)際上正在口述的同時(shí),其希望向所識(shí)別文本ET中插入在命令存儲(chǔ)器級(jí)10中以“module 1”的名義作為文本模塊被存儲(chǔ)的標(biāo)準(zhǔn)文本。出于這個(gè)目的作者口述“...is the best.Inserttest module one.All...”。被識(shí)別的文本段TS73-TS76被識(shí)別為帶有命令號(hào)BI13的命令且替代文本“<module 1>”被示于圖6中。
這給出這樣的優(yōu)點(diǎn),即文本模塊已經(jīng)以特別簡(jiǎn)單的方法被自動(dòng)插入在所識(shí)別文本ET中。在這種情況下校正者或檢查者可以有利地在三種顯示類(lèi)型之中加以選擇。他可看到被實(shí)際識(shí)別的文本-文本段TS73-TS76,或替代文本,或在圖8中所看到的從命令存儲(chǔ)器級(jí)10被添加的標(biāo)準(zhǔn)文本。
在第五實(shí)例中,作者對(duì)著話筒5所說(shuō)的文本是“...tenth of Octobertwo thousand and one...”。本應(yīng)該已經(jīng)被第一標(biāo)注級(jí)12自動(dòng)識(shí)別且標(biāo)注為日期的字序列本應(yīng)該是“October tenth two thousand and one”。然而,所說(shuō)的字序列沒(méi)有被識(shí)別為日期,并且為此校正者將文本段TS80-TS86標(biāo)注為帶有日期標(biāo)注信息量DMI的日期。
這給出這樣的優(yōu)點(diǎn),即在所識(shí)別文本中已經(jīng)被自動(dòng)或手動(dòng)標(biāo)注為日期的所有文本部分可以在隨后的處理操作中以特別簡(jiǎn)便和統(tǒng)一的方法被改變。為此,校正者可例如選擇被標(biāo)注有日期標(biāo)注信息DMI的全部日期即將以格式“MM.DD.YYYY”被顯示。
現(xiàn)在將參考圖9解釋第一校正設(shè)備3的應(yīng)用實(shí)例。在這個(gè)實(shí)例中假設(shè)校正者啟動(dòng)同步再現(xiàn)模式,基于此口語(yǔ)文本GT和所識(shí)別文本ET分別從音頻段AS1和文本段TS1開(kāi)始被第一次同步地再現(xiàn)。從符號(hào)上這由箭頭P1來(lái)表示。校正者以如此方法配置再現(xiàn)裝置13,以便于在第一再現(xiàn)期間被標(biāo)注有暫停標(biāo)注信息PMI、猶豫聲音標(biāo)注信息HMI和噪音標(biāo)注信息GMI的那些文本部分的音頻段從聲學(xué)上沒(méi)有被再現(xiàn)。這允許校正者特別快速地再現(xiàn)口語(yǔ)文本GT并且與此同時(shí)更多地校正所識(shí)別文本ET。
在再現(xiàn)期間,標(biāo)注表MT中的再現(xiàn)標(biāo)注信息WMI被連續(xù)地更新。音頻段AS53(作者擤鼻子)剛一從聲學(xué)上被再現(xiàn)且文本段TS53剛一從視頻上被標(biāo)注時(shí),校正者就看出字“that”還一直沒(méi)有被正確地加以識(shí)別。在此時(shí)文本光標(biāo)的位置在圖9中從符號(hào)上被指示為P2。然而,由于校正者并不肯定什么本應(yīng)該真正地被識(shí)別,所以他再次啟動(dòng)從音頻段AS50開(kāi)始的同步再現(xiàn)模式。在圖9中這從符號(hào)上由箭頭P3指示。
現(xiàn)在再現(xiàn)裝置13從被錄入在標(biāo)注表MT第四行中的再現(xiàn)標(biāo)注信息WMI中識(shí)別出音頻段AS1至AS53已經(jīng)在同步再現(xiàn)模式中被再次再現(xiàn)且因此從聲學(xué)上再現(xiàn)所有的音頻段AS50至AS53。在圖9中這從符號(hào)上被指示為箭頭P4。它僅從音頻段S54的再現(xiàn)開(kāi)始-見(jiàn)箭頭P5-即被標(biāo)注的文本(PMI,GMI,HMI)將在聲學(xué)再現(xiàn)期間再次被抑制。
這給出這樣的優(yōu)點(diǎn),即在其中校正者需要全部標(biāo)注信息可用以使他能夠正確地校正所識(shí)別文本ET的口述中的那些通路中,口述的全部音頻段AS被再現(xiàn)。在校正者可以通過(guò)聆聽(tīng)它們僅一次而進(jìn)行校正的其它通路中,不必要的音頻段AS被加以抑制。
類(lèi)似地,當(dāng)所識(shí)別文本ET被第一次再現(xiàn)時(shí),被標(biāo)注的文本部分的替代文本可有利地被加以顯示,并且僅當(dāng)再現(xiàn)被重復(fù)時(shí)使得自動(dòng)切換到實(shí)際上被加以識(shí)別的文本ET。
在同步再現(xiàn)模式中已經(jīng)被再次再現(xiàn)的文本部分的自動(dòng)標(biāo)注產(chǎn)生進(jìn)一步的顯著優(yōu)點(diǎn)。檢查者的工作正是要通過(guò)隨機(jī)取樣來(lái)確定校正者對(duì)所識(shí)別文本ET加以校正做得如何。在這方面再現(xiàn)標(biāo)注信息WMI對(duì)檢查者非常有幫助。這是因?yàn)闄z查者可以立即識(shí)別到借助于同步再現(xiàn)模式哪些文本部分已經(jīng)被檢查并且哪些文本部分已經(jīng)被跳過(guò)且因此有可能根本未被檢查。檢查者因此可以對(duì)沒(méi)有被標(biāo)注有再現(xiàn)標(biāo)注信息WMI的文本部分進(jìn)行特殊檢查,來(lái)看是否在所識(shí)別文本ET中存在任何錯(cuò)誤。
如果校正者在工作時(shí)被中斷在隨后時(shí)刻想要繼續(xù)進(jìn)行時(shí),再現(xiàn)標(biāo)注信息WMI還是有利的。由再現(xiàn)標(biāo)注信息WMI所標(biāo)記的文本的聲學(xué)標(biāo)注(例如作為口語(yǔ)文本背景的連續(xù)音調(diào))或視頻標(biāo)注(例如以相反字符(reverse characters)所示的所識(shí)別文本)的結(jié)果是校正者可以立即進(jìn)行其工作。
第一校正設(shè)備3還具有定位裝置18,其被加以提供以便于若同步再現(xiàn)模式被中斷以校正被非正確識(shí)別的字時(shí),其允許標(biāo)注文本輸入位置的文本光標(biāo)被定位,所述定位裝置18被設(shè)置成將文本光標(biāo)定位在當(dāng)同步再現(xiàn)模式被中斷時(shí)刻所識(shí)別文本ET中被加以標(biāo)注的字的上游的N個(gè)字處,如果所識(shí)別文本的這個(gè)部分已經(jīng)被標(biāo)注有再現(xiàn)標(biāo)注信息WMI,以及定位裝置18被設(shè)置成將文本光標(biāo)定位于當(dāng)同步再現(xiàn)模式被中斷時(shí)刻在所識(shí)別文本ET中被加以標(biāo)注的字的上游的M個(gè)字處,如果所識(shí)別文本ET的這個(gè)部分還一直未被標(biāo)注有再現(xiàn)標(biāo)注信息WMI。
所定義的數(shù)量可例如是M=3及N=1,其結(jié)果是當(dāng)在所識(shí)別文本中第一次發(fā)現(xiàn)被非正確識(shí)別的字時(shí)則允許校正者有較長(zhǎng)的沉思時(shí)間。這些安排是尤其有利的,因?yàn)橐坏┩皆佻F(xiàn)模式已經(jīng)被中斷則文本光標(biāo)通常已經(jīng)被定位在被非正確地識(shí)別的字上,并且手動(dòng)定位文本光標(biāo)所花的時(shí)間可以被節(jié)省。對(duì)本領(lǐng)域那些普通技術(shù)人員很顯然地是這將做出M和N有利值的許多其它組合。
如果定位裝置18被設(shè)置成自教式則將尤為有利。在這種情況下在同步再現(xiàn)模式已經(jīng)被中斷之后定位裝置18將從校正者所做出的定位錄入中確定N和M和最佳值(即文本光標(biāo)向前兩個(gè)字或向后五個(gè)字)并且將連續(xù)地將它們適配于使用者的沉思時(shí)間。
適配級(jí)11還可被用來(lái)適配被存儲(chǔ)在參數(shù)存儲(chǔ)器裝置9內(nèi)的參數(shù)信息PI。這給出這樣的優(yōu)點(diǎn),即語(yǔ)音識(shí)別裝置7的識(shí)別率被穩(wěn)定地加以改善且較少錯(cuò)誤被包含在所識(shí)別文本ET中。
正如從上述應(yīng)用實(shí)例中可以看到,單獨(dú)的音頻段或文本段可以由標(biāo)注信息MI的一個(gè)或甚至多個(gè)項(xiàng)進(jìn)行標(biāo)注。這允許所識(shí)別文本以有利的方式在所謂的等級(jí)下被加以處理。這是這樣的情況,即例如被包含在命令中的猶豫聲音可以與所識(shí)別文本ET中被標(biāo)注為猶豫聲音的所有其它部分相同的方法被編輯(即被抑制、被刪除、替代文本被顯示、所識(shí)別文本被顯示)。這也并不干涉包含猶豫聲音的命令的編輯。如果部分文本被標(biāo)注有多項(xiàng)標(biāo)注信息MI,則因此有可能使這些等級(jí)被從光學(xué)上加以顯示。
可提及的是根據(jù)本發(fā)明的自動(dòng)和手動(dòng)的文本標(biāo)注可利用標(biāo)注信息MI的多個(gè)不同項(xiàng)被完成。這種類(lèi)型的標(biāo)注信息MI項(xiàng)可例如是AutoPunctuation(自動(dòng)標(biāo)點(diǎn)),Silence(沉默),Nonspeech(沒(méi)有語(yǔ)音),Noise(噪音),Music(音樂(lè)),Spelling(拼寫(xiě)),Hesitation(暫停),Insertion(插入),NumberFormating(號(hào)格式化),DateFormating(日期格式化),HeaderFormating(頭部格式化),EnumerationFormating(枚舉格式化),QuantityFormating(數(shù)量格式化),SelfCorrection(自校正),PhraseRepetition(短語(yǔ)重復(fù)),Stutter(結(jié)巴),Discursiveness(離題的),SpellingSequence(拼寫(xiě)序列),RedundantPhrase(冗余短語(yǔ)),NotUnderstood(不理解),Remark(注釋),Deletion(刪除),Command(命令)。
可提及的是標(biāo)注部分文本并不是如上面所解釋必須借助于表格來(lái)完成,而是可作為選擇地以樹(shù)結(jié)構(gòu)的形式發(fā)生。在這種情況下反過(guò)來(lái)包含進(jìn)一步被標(biāo)注的文本段的被標(biāo)注文本段可以類(lèi)似于樹(shù)的形式被顯示在分支上。
可提及的是自動(dòng)標(biāo)注可甚至在語(yǔ)音識(shí)別過(guò)程正在被執(zhí)行的同時(shí)發(fā)生而不是在其之后發(fā)生。
可提及的是例如,僅由語(yǔ)音識(shí)別裝置7識(shí)別起來(lái)困難(即,可能在識(shí)別中有大量錯(cuò)誤)的所有文本部分可以被第一標(biāo)注級(jí)12自動(dòng)地標(biāo)注,并且在同步再現(xiàn)模式中被校正者識(shí)別為有難度的所有文本部分可以被手動(dòng)地標(biāo)注,以為了用于檢查目的警告檢查者或口語(yǔ)文本的作者注意這些被標(biāo)注的文本部分。這是傳遞與所識(shí)別文本有關(guān)信息的尤為有利的方法。
權(quán)利要求
1.一種轉(zhuǎn)錄設(shè)備(1),其用于將口語(yǔ)文本(GT)轉(zhuǎn)錄成所識(shí)別文本(ET)并且用于編輯所識(shí)別文本(ET)中被非正確識(shí)別的部分,其中用于口語(yǔ)文本(GT)每部分的鏈接信息(LI)對(duì)相聯(lián)系的所識(shí)別文本(ET)進(jìn)行標(biāo)記,具有語(yǔ)音識(shí)別裝置(2),其用于將所接收的口語(yǔ)文本(GT)轉(zhuǎn)錄成所識(shí)別文本(ET)并且用于產(chǎn)生鏈接信息(LI),以及具有存儲(chǔ)器裝置(8),其用于存儲(chǔ)口語(yǔ)文本(GT)、所識(shí)別文本(ET)及鏈接信息(LI),以及具有標(biāo)注裝置(12,15,17),其用于自動(dòng)地確定標(biāo)注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)并且用于在存儲(chǔ)器裝置(8)中存儲(chǔ)所確定的標(biāo)注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI),所述標(biāo)注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)標(biāo)記具有為所有被標(biāo)注的文本部分所共有的特定特征的部分所識(shí)別文本(ET)或部分口語(yǔ)文本(GT),其中所述標(biāo)注裝置(12,15,17)具有用于手動(dòng)錄入標(biāo)注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)的輸入裝置(15,17),以允許也具有這個(gè)公共特征的所識(shí)別的或口語(yǔ)文本的另外部分被以這個(gè)標(biāo)注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)標(biāo)注,以及具有處理裝置(13),其用于統(tǒng)一處理被標(biāo)注的文本部分。
2.根據(jù)權(quán)利要求1的轉(zhuǎn)錄設(shè)備(1),其中,為了允許語(yǔ)音識(shí)別裝置(2)的參數(shù)(PI)得到適配,適配級(jí)(11)被加以提供,其被設(shè)置成用于評(píng)估被自動(dòng)和手動(dòng)加以標(biāo)注的文本部分,所述被標(biāo)注的文本部分具有公共的特征。
3.根據(jù)權(quán)利要求1的轉(zhuǎn)錄設(shè)備(1),其中再現(xiàn)裝置(13)被設(shè)置成當(dāng)同步再現(xiàn)模式在轉(zhuǎn)錄設(shè)備(1)中被啟動(dòng)時(shí)用于口語(yǔ)文本(GT)的聲學(xué)再現(xiàn)以及相聯(lián)系的所識(shí)別文本(ET)的同步視覺(jué)標(biāo)注,所述文本(ET)由鏈接信息(LI)進(jìn)行標(biāo)記且從光學(xué)上被再現(xiàn),以及其中被自動(dòng)或手動(dòng)加以標(biāo)注的文本部分的聲學(xué)或光學(xué)再現(xiàn)可以得到抑制。
4.根據(jù)權(quán)利要求3的轉(zhuǎn)錄設(shè)備(1),其中所述標(biāo)注裝置(12,15,17)被設(shè)置成用于自動(dòng)確定且在存儲(chǔ)器裝置(8)中存儲(chǔ)再現(xiàn)標(biāo)注信息(WMI),所述再現(xiàn)標(biāo)注信息(WMI)標(biāo)記當(dāng)同步再現(xiàn)模式被啟動(dòng)時(shí)被再現(xiàn)裝置(13)至少再現(xiàn)一次的那些所識(shí)別文本(ET)部分和/或口語(yǔ)文本(GT)部分。
5.根據(jù)權(quán)利要求3的轉(zhuǎn)錄設(shè)備(1),其中所述再現(xiàn)裝置(13)被設(shè)置成用于光學(xué)再現(xiàn)得到抑制的被標(biāo)注的所識(shí)別文本(ET)部分的替代文本。
6.根據(jù)權(quán)利要求5的轉(zhuǎn)錄設(shè)備(1),其中所述再現(xiàn)裝置(13)可以在替代文本的光學(xué)顯示和被標(biāo)注的文本部分的光學(xué)顯示之間被切換。
7.根據(jù)權(quán)利要求6的轉(zhuǎn)錄設(shè)備(1),其中對(duì)于形成文本模塊的被標(biāo)注的文本部分,可以進(jìn)行到為下一個(gè)模塊而定義的文本的光學(xué)顯示的附加切換。
8.根據(jù)權(quán)利要求1的轉(zhuǎn)錄設(shè)備(1),其中所述標(biāo)注裝置(12,15,17)被設(shè)置成當(dāng)一部分口語(yǔ)或所識(shí)別文本具有由標(biāo)注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)項(xiàng)所標(biāo)記的至少兩個(gè)公共特征時(shí),用于將這個(gè)被標(biāo)注的文本部分標(biāo)注有至少兩個(gè)不同的標(biāo)注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)項(xiàng)。
9.一種將口語(yǔ)文本(GT)轉(zhuǎn)錄成所識(shí)別文本(ET)以及編輯所識(shí)別文本(ET)中被非正確識(shí)別的部分的方法,其中口語(yǔ)文本(GT)每部分的鏈接信息(LI)標(biāo)記相聯(lián)系的所識(shí)別文本(ET)并且其中下述步驟被加以執(zhí)行將所接收的口語(yǔ)文本(GT)轉(zhuǎn)錄成所識(shí)別文本(ET)以及產(chǎn)生鏈接信息(LI);存儲(chǔ)口語(yǔ)文本(GT)、所識(shí)別文本(ET)和鏈接信息(LI);自動(dòng)確定標(biāo)注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)以及存儲(chǔ)所確定的標(biāo)注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI),所述標(biāo)注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)標(biāo)記具有為所有被標(biāo)注的文本部分所共有的特定特征的所識(shí)別文本(ET)部分和/或口語(yǔ)文本部分;手動(dòng)錄入標(biāo)注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)以允許也具有這個(gè)公共特征的所識(shí)別的或口語(yǔ)文本的另外部分被標(biāo)注有這個(gè)標(biāo)注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI);以及統(tǒng)一處理被標(biāo)注的文本部分。
10.根據(jù)權(quán)利要求9的轉(zhuǎn)錄方法,其中下述進(jìn)一步的步驟被加以執(zhí)行當(dāng)同步再現(xiàn)模式被啟動(dòng)時(shí),聲學(xué)再現(xiàn)口語(yǔ)文本(GT)以及同步視覺(jué)標(biāo)注由鏈接信息(LI)所標(biāo)記且光學(xué)被再現(xiàn)的相聯(lián)系的所識(shí)別文本(ET),同時(shí)自動(dòng)或手動(dòng)被標(biāo)注的文本部分的聲學(xué)或光學(xué)再現(xiàn)可以得到抑制。
11.根據(jù)權(quán)利要求9的轉(zhuǎn)錄方法,其中下述進(jìn)一步的步驟被加以執(zhí)行自動(dòng)確定且存儲(chǔ)再現(xiàn)標(biāo)注信息(WMI),所述再現(xiàn)標(biāo)注信息(WMI)標(biāo)記在被啟動(dòng)的同步再現(xiàn)模式之前所識(shí)別文本(ET)和/或口語(yǔ)文本中被再現(xiàn)至少一次的那些部分。
12.根據(jù)權(quán)利要求9的轉(zhuǎn)錄方法,其中下述進(jìn)一步的步驟被加以執(zhí)行當(dāng)一部分口語(yǔ)或所識(shí)別文本具有由標(biāo)注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)項(xiàng)所標(biāo)記的至少兩個(gè)公共特性時(shí),將這個(gè)被標(biāo)注的文本部分以至少兩個(gè)不同的標(biāo)注信息(CMI,PMI,HMI,GMI,DMI,RMI,WMI)項(xiàng)來(lái)標(biāo)注。
全文摘要
在一種用于將口語(yǔ)文本(GT)轉(zhuǎn)錄成所識(shí)別文本(ET)以及用于編輯所識(shí)別文本(ET)中被非正確識(shí)別的部分的轉(zhuǎn)錄設(shè)備(1)中,標(biāo)注裝置(12,15,17)被提供,以便于被設(shè)置成用于對(duì)具有公共特征的口語(yǔ)文本(GT)部分和/或所識(shí)別文本(ET)部分進(jìn)行部分自動(dòng)標(biāo)注和部分手動(dòng)標(biāo)注。結(jié)果是,具有公共特征的被標(biāo)注的文本部分的后來(lái)的統(tǒng)一處理變?yōu)榭赡堋?br> 文檔編號(hào)G10L15/00GK1568500SQ02820209
公開(kāi)日2005年1月19日 申請(qǐng)日期2002年10月7日 優(yōu)先權(quán)日2001年10月12日
發(fā)明者H·F·巴托斯克, K·拉吉 申請(qǐng)人:皇家飛利浦電子股份有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
中江县| 松滋市| 田林县| 北票市| 元阳县| 新乡市| 靖远县| 寻乌县| 大渡口区| 古田县| 上林县| 乃东县| 正安县| 左贡县| 宜州市| 衡东县| 木兰县| 定陶县| 长宁区| 凤凰县| 韶关市| 平泉县| 武宣县| 滦南县| 江门市| 清镇市| 淮北市| 孟津县| 胶南市| 池州市| 和田县| 花莲市| 子洲县| 简阳市| 洛隆县| 家居| 普安县| 巴彦淖尔市| 磐石市| 蓝山县| 嘉鱼县|