欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于語(yǔ)音分析的說(shuō)話者表征的制作方法

文檔序號(hào):2823185閱讀:461來(lái)源:國(guó)知局
專利名稱:基于語(yǔ)音分析的說(shuō)話者表征的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及語(yǔ)音分析領(lǐng)域,特別是使用語(yǔ)音的韻律特征判斷人在特定環(huán)境下的行 為、心理和語(yǔ)言風(fēng)格特征。
背景技術(shù)
語(yǔ)音分析是用于處理人類語(yǔ)音以揭露其意義的電腦化方法的一個(gè)統(tǒng)稱。語(yǔ)音分析 通常歸類于語(yǔ)言科學(xué)中的語(yǔ)音學(xué)的一部分。語(yǔ)音分析可以分為兩種主要的方法第一種方法致力于通過(guò)學(xué)習(xí)文字、音節(jié)和音 素的發(fā)音和句子的排列來(lái)揭露語(yǔ)音內(nèi)容。許多語(yǔ)音識(shí)別應(yīng)用,比如“語(yǔ)音文字轉(zhuǎn)換”或者“文 字識(shí)別”,均使用了此方法來(lái)提取語(yǔ)音的內(nèi)容。第二種方法為語(yǔ)音的韻律分析,其致力于分析語(yǔ)音的非音段(非詞語(yǔ)、非內(nèi)容)的 特征,比如語(yǔ)調(diào)、語(yǔ)速、感情的強(qiáng)烈程度、重音和節(jié)奏,以研究人們的說(shuō)話方式。這里所述的說(shuō)話方式提供了語(yǔ)音的“旋律”,所述“旋律”有助于深入理解語(yǔ)音的 整體意義和背景。比如,人們通過(guò)一個(gè)句尾的升調(diào)來(lái)感知一個(gè)問(wèn)句。腔調(diào)是經(jīng)典的關(guān)于韻 律語(yǔ)音參數(shù)如何改變說(shuō)話發(fā)音的一個(gè)例子。演員們改變他們的腔調(diào)使其聽(tīng)起來(lái)象是某個(gè)角 色。韻律還存在著性別差異,例如,女性通常有比男性更高頻率的聲調(diào)。許多時(shí)候,韻律特 征改變了言語(yǔ)的意思我們可以通過(guò)改變發(fā)音方式(韻律)將一個(gè)同樣的句子演繹成帶有懷 疑、諷刺或者其它簡(jiǎn)單意思的句子。說(shuō)話語(yǔ)調(diào)的韻律特征還包含了關(guān)于講話者的情感信息。這可以在這些年來(lái)的研究 文獻(xiàn)中看到。這是非常直觀的一一個(gè)激動(dòng)的人在打應(yīng)急服務(wù)電話時(shí)的語(yǔ)速通常都是非???的,他的聲音會(huì)是緊張的、帶呼吸聲的、有波動(dòng)的等等。另一方面,一個(gè)處于悲傷失望中的人 會(huì)傾向于比較緩慢地說(shuō)話,缺乏活力并帶有長(zhǎng)停頓以及類似特征。這些特征均反應(yīng)在語(yǔ)音 的韻律特征上。已經(jīng)有數(shù)個(gè)關(guān)于使用韻律上的語(yǔ)音特征自動(dòng)分析講話者的情感狀態(tài)的專利被公 開(kāi)。其中,Pertrushin的美國(guó)專利6151571和Slaney的美國(guó)專利6173260用于分類不同 的情感狀態(tài),Degani和Zamir的歐洲專利1423846用于確認(rèn)普通的情緒喚起。所有的專利 在這里組成一個(gè)整體作為參考。人們嘗試把說(shuō)話者的個(gè)性和談話的韻律特征關(guān)聯(lián)到一起。Bogdashevsky的美國(guó)專 利6006188描述了這樣一種方法,所述方法測(cè)定帶有類似性格類型的人們的語(yǔ)音特征(根 據(jù)已知的心理感覺(jué)測(cè)驗(yàn)),然后使用檢測(cè)到的特征進(jìn)行性格類型分類。言談反映個(gè)性這一觀 點(diǎn)是講得通的而且非常直觀比如我們可以想象一個(gè)性格內(nèi)向的人的講話方式是溫和而且 猶豫的,這與性格外向的人的響亮而且沖動(dòng)的講話方式是相反的。將性格和講話方式結(jié)合到一起很好地反映了我們對(duì)于言談廣泛地表達(dá)了個(gè)人特 征的理解。然而,此觀點(diǎn)的缺陷在于其具體實(shí)施。性格代表了一個(gè)人穩(wěn)定的特征,這樣其應(yīng) 該被始終如一地評(píng)估。這意味著說(shuō)話者的反映其性格的講話方式應(yīng)該在不斷改變的環(huán)境、 多變的心理狀態(tài)和不同的背景下保持始終如一。這并不符合實(shí)際講話方式會(huì)被環(huán)境因素嚴(yán)重影響,例如,已經(jīng)證明了情緒狀態(tài)和講話腔調(diào)之間的牢固關(guān)系。即使上述例子中的性格 內(nèi)向的人也會(huì)時(shí)不時(shí)變得憤怒,此時(shí)他的講話方式(和他的韻律上的語(yǔ)音特征)會(huì)發(fā)生極大 的改變并且變得類似于一個(gè)性格開(kāi)朗外向的人的講話方式。在統(tǒng)計(jì)上,如果我們?cè)u(píng)估性格 內(nèi)向的人在不同的場(chǎng)合的講話方式,我們或許會(huì)發(fā)現(xiàn)他的性格和講話方式之間存在著可觀 的聯(lián)系。我們只有在與參考數(shù)據(jù)被采集的情況非常類似的情況下的言談進(jìn)行采樣,結(jié)果才 有可能是可靠的。但這樣做當(dāng)環(huán)境因素在其間起主導(dǎo)作用時(shí)是不符合實(shí)際的。在實(shí)際生活 中,環(huán)境因素頻繁地影響我們的言談。這樣,基于語(yǔ)音韻律的性格評(píng)估并不能作為一種與環(huán) 境無(wú)關(guān)的方法。

發(fā)明內(nèi)容
本發(fā)明提出了一計(jì)算機(jī)執(zhí)行方法、數(shù)據(jù)處理系統(tǒng)、計(jì)算機(jī)程序的產(chǎn)品和裝置,它們 通過(guò)分析講話者的語(yǔ)調(diào)以確定講話者在特定情形和背景下的當(dāng)前行為和心理特征,同時(shí)還 確定了說(shuō)話者當(dāng)前說(shuō)話風(fēng)格。所述分析基于計(jì)算說(shuō)話者的基本音調(diào)和振幅參數(shù)的特有的二階導(dǎo)數(shù)(secondary derivative),當(dāng)其整體使用時(shí)標(biāo)示了說(shuō)話者在特定環(huán)境和背景下的當(dāng)前行為、心理和說(shuō)話 風(fēng)格特征。對(duì)當(dāng)前行為、心理和講話風(fēng)格特征的分類通過(guò)將說(shuō)話者的評(píng)估了的第二語(yǔ)音參數(shù) 與預(yù)先得到的數(shù)據(jù)進(jìn)行比較而得以實(shí)現(xiàn),所述預(yù)先得到的數(shù)據(jù)代表了在一定范圍的環(huán)境和 背景下不同的行為、心理和講話風(fēng)格特征的所述第二語(yǔ)音參數(shù)值以及所述參數(shù)值的組合。本發(fā)明的提供了一個(gè)普遍的并與說(shuō)話者無(wú)關(guān)的方法,通過(guò)分析一個(gè)人在特定環(huán)境 下的語(yǔ)音韻律特征,以確定其當(dāng)前行為、心理和講話風(fēng)格特征。講話者的性格特征可以與短 暫的、與環(huán)境相關(guān)的參數(shù)相關(guān),又或者是與穩(wěn)定的、與環(huán)境無(wú)關(guān)的參數(shù),比如性格,相關(guān)。本 發(fā)明的實(shí)施方案能夠確定一個(gè)人當(dāng)前聽(tīng)起來(lái)是坦率的、開(kāi)朗的、公正的、富有表情的還是含 蓄的,但不能確定這些特征是否反映了其內(nèi)在性格或者特定的環(huán)境和背景。出于不同的信 息反饋、培訓(xùn)和交流的目的,此類信息會(huì)對(duì)于分析人們本身是極其有用的。在不同的實(shí)施方案中,本發(fā)明可以作為用于描繪人們的環(huán)境行為、心理和講話風(fēng) 格特征的一計(jì)算機(jī)執(zhí)行方法、數(shù)據(jù)處理系統(tǒng)、計(jì)算機(jī)程序產(chǎn)品和裝置。


依照其后的具體實(shí)施方案的說(shuō)明,本發(fā)明的主題會(huì)變得更加清晰易懂,所述說(shuō)明 以舉例的方式提出,并參考相關(guān)附圖(附圖,或者簡(jiǎn)單的“圖”),而且只用于討論本發(fā)明的目 的,其中
圖1是一個(gè)概括性的流程圖,其顯示了根據(jù)本發(fā)明所提出的方法,獲取和構(gòu)成用于對(duì) 不同的行為、心理和講話風(fēng)格特征進(jìn)行分類的語(yǔ)音參數(shù)參考數(shù)據(jù)庫(kù)的各個(gè)步驟;
圖2是一個(gè)概括性的流程圖,其顯示了在本發(fā)明的具體實(shí)施方案中,使用參考數(shù)據(jù)庫(kù) 分析當(dāng)前講話者的語(yǔ)音語(yǔ)調(diào)和確定其在特定的環(huán)境下其行為、心理和講話風(fēng)格的特征的各 個(gè)步驟;
圖3是一個(gè)概括性的流程圖,其顯示了根據(jù)本發(fā)明所提出的方法,在一些實(shí)施方案中 可能實(shí)行的一些額外的可選步驟;圖4是本發(fā)明的具體實(shí)施方案中的一種數(shù)據(jù)處理系統(tǒng)的框架示意圖; 圖5是本發(fā)明的具體實(shí)施方案中的一種裝置的框架示意圖。結(jié)合附圖和以下詳細(xì)說(shuō)明,本領(lǐng)域技術(shù)人員會(huì)更易于理解本發(fā)明是如何實(shí)現(xiàn)的。
具體實(shí)施例方式
在詳盡解釋本發(fā)明之前,詳細(xì)說(shuō)明一下在下文中所用到某些術(shù)語(yǔ)是相當(dāng)有用的。在這里所使用的術(shù)語(yǔ)“環(huán)境”指的是與說(shuō)話者的當(dāng)前狀況相關(guān)的特征。相反地,環(huán) 境特征并不能證明說(shuō)話者通常都處于此類環(huán)境。比如,一個(gè)環(huán)境特征可以是“說(shuō)話者聽(tīng)起來(lái) 是自信的”(現(xiàn)在),或者“說(shuō)話者聽(tīng)起來(lái)是含蓄的”,或者“說(shuō)話者聽(tīng)起來(lái)是有計(jì)劃的”諸如 此類。但這并不代表說(shuō)話者就其本質(zhì)而言通常是自信、含蓄或者有計(jì)劃的,這只是根據(jù)說(shuō)話 者當(dāng)前的語(yǔ)調(diào)而得出的其目前所處于的狀態(tài)。顯然地,同一個(gè)說(shuō)話者在不同的環(huán)境中可能 會(huì)聽(tīng)起來(lái)有所不同。這里所使用的術(shù)語(yǔ)“背景”被定義為代表環(huán)境的普遍特征(所述特征可以影響言 談),所述特征來(lái)源與于說(shuō)話者的個(gè)人背景,包括文化、語(yǔ)言、口音、年齡等等,或者環(huán)境設(shè)定 的特殊屬性,比如交談或者獨(dú)白、朗讀或者自由發(fā)言、正常說(shuō)話或者處于身體運(yùn)動(dòng)、角色扮 演、講課、演講或者處于有壓力的環(huán)境中一格斗、緊急事件、球賽或者其它。這里所使用的術(shù)語(yǔ)“說(shuō)話風(fēng)格”在本發(fā)明中指的是典型的說(shuō)話方式,代表一組行為 和心理特征,并傾向于在某些環(huán)境中使用。比如,有表現(xiàn)力的說(shuō)話風(fēng)格、有計(jì)劃的說(shuō)話風(fēng)格、 坦率的說(shuō)話風(fēng)格等等。人們傾向于根據(jù)特定的環(huán)境和背景改變他們的說(shuō)話方式。這里所使用的術(shù)語(yǔ)“通信系統(tǒng)”在本發(fā)明中指的是任何能傳輸聲音的語(yǔ)音通信系 統(tǒng)。這些系統(tǒng)可以是,例如,有線或者無(wú)線電話系統(tǒng)、蜂窩通信網(wǎng)絡(luò)、基于網(wǎng)頁(yè)的通信系統(tǒng)、 其它IP網(wǎng)絡(luò)電話系統(tǒng)、電話局通訊系統(tǒng)等等。在接著的具體描述中,許多細(xì)節(jié)會(huì)被詳盡的描述以對(duì)本發(fā)明提供一個(gè)全面的認(rèn) 識(shí)。然而,必須明白本發(fā)明可以不使用這些特征細(xì)節(jié)。在另外一些例子中,公知的方法、程 序、部件和電路并沒(méi)有被詳細(xì)描述,以避免使本發(fā)明的主體模糊不清。本發(fā)明在它的一些具體實(shí)施方案中公開(kāi)了一種基于語(yǔ)音分析技術(shù)并用于確定說(shuō) 話者的環(huán)境行為、心理和說(shuō)話風(fēng)格特征的計(jì)算機(jī)執(zhí)行的方法、數(shù)據(jù)處理系統(tǒng)、裝置和計(jì)算機(jī) 程序產(chǎn)品。本發(fā)明的基礎(chǔ)在于本發(fā)明認(rèn)為說(shuō)話方式不僅反映了說(shuō)話者的情緒狀態(tài),還反映了 其行為和心理特征的更廣的范圍。許多所述的行為和心理特征并不是情緒方面的,但可以 通過(guò)說(shuō)話方式所表達(dá)出來(lái),舉例來(lái)說(shuō)坦率、自信、開(kāi)放、富有表現(xiàn)力、猶豫、含蓄、威嚴(yán)、控 制、計(jì)劃性、耐心、不耐心等等。本發(fā)明致力于分析這些包括在言語(yǔ)中的行為、心理和說(shuō)話風(fēng) 格特征。在本發(fā)明的具體實(shí)施方案中,本發(fā)明的實(shí)施考慮到在說(shuō)話方式中所述特征主要反 映了一種環(huán)境相關(guān)的性質(zhì)而不是穩(wěn)定的始終如一的性質(zhì)。某些時(shí)候一種行為特征會(huì)與環(huán)境 背景相關(guān),有些時(shí)候會(huì)與說(shuō)話者的情緒狀態(tài)相關(guān),有些時(shí)候會(huì)與說(shuō)話者的性格相關(guān),而許多 時(shí)候與以上因素的集合相關(guān)。舉例來(lái)說(shuō),一種直率自信的說(shuō)話方式可以以一段在比賽中(背 景)的教練與運(yùn)動(dòng)員之間的標(biāo)準(zhǔn)對(duì)話為特征,或者其可以與一個(gè)處于憤怒中(情緒)的不滿 意的顧客的對(duì)話相關(guān)聯(lián)。當(dāng)然,在其它案例中,其可以反映說(shuō)話者的自信的性格。語(yǔ)音韻律 參數(shù)(反映語(yǔ)速、語(yǔ)調(diào)、語(yǔ)氣等等)可以標(biāo)示當(dāng)前的語(yǔ)音,但這些參數(shù)并不能指出其特定的背景或者區(qū)分是否與環(huán)境或者性格相關(guān)。因此,本發(fā)明有兩個(gè)主要基礎(chǔ)語(yǔ)音的韻律特征廣泛地反映了說(shuō)話者的行為、心理 特征;這些特征在說(shuō)話方式中的表現(xiàn)有著強(qiáng)烈的環(huán)境天性,即,其主要指明了說(shuō)話者的當(dāng)前 狀態(tài)。這樣,本發(fā)明的目的在于提供一個(gè)普遍的、與說(shuō)話者無(wú)關(guān)的方法,通過(guò)分析人們?cè)?一個(gè)特定環(huán)境中的語(yǔ)音的韻律特征以確定其當(dāng)前行為和心理特征。有優(yōu)勢(shì)的是,本發(fā)明可以用于為人們提供他們?cè)诓煌沫h(huán)境中的行為和心理特征 的反饋,以作為各種不同的職業(yè)、教育、治療和休閑娛樂(lè)應(yīng)用的一部分。本發(fā)明還可以為某 些人提供見(jiàn)解,這些人致力于研究如何能更好地與他人相溝通,這些研究基于對(duì)研究對(duì)象 的當(dāng)前行為和心理特征的理解,并出于多種商業(yè)的、職業(yè)、教育、治療和休閑娛樂(lè)的目的。本發(fā)明所克服的一項(xiàng)挑戰(zhàn)在于提取和檢測(cè)行為和心理特征的指示性參數(shù),所述參 數(shù)是與說(shuō)話者無(wú)關(guān)的。人們?cè)谒麄兏髯缘捻嵚烧Z(yǔ)音特征(其典型的音高、語(yǔ)調(diào)、語(yǔ)速等等)上 是不同的。他們?cè)谒麄兏髯员磉_(dá)行為和心理特征的方式上也是不同的。比如,一個(gè)人可能 會(huì)通過(guò)改變語(yǔ)氣強(qiáng)烈程度來(lái)表達(dá)其充滿信心,而另一個(gè)可能會(huì)通過(guò)改變語(yǔ)速等等來(lái)達(dá)到同 樣的效果。實(shí)現(xiàn)一個(gè)說(shuō)話者無(wú)關(guān)的數(shù)據(jù)處理需要克服這些在行為和心理特征的韻律表達(dá)上 的個(gè)人差異。本發(fā)明通過(guò)使用在語(yǔ)音的基本語(yǔ)調(diào)和振幅參數(shù)中提取的第二語(yǔ)音參數(shù)以分析韻 律特征而實(shí)現(xiàn)與說(shuō)話者無(wú)關(guān)的數(shù)據(jù)處理。這些第二參數(shù)是語(yǔ)音語(yǔ)調(diào)中的多種不同的統(tǒng)計(jì)指 示特征的升調(diào)、降調(diào)和平聲片段。這些特有的第二參數(shù)受到個(gè)人語(yǔ)調(diào)影響較小,因此更能在 本質(zhì)上指明說(shuō)話者的行為和心理特征。本發(fā)明的另一特征在于說(shuō)話風(fēng)格。當(dāng)在經(jīng)驗(yàn)上檢驗(yàn)多個(gè)行為和心理特征的說(shuō)話方 式時(shí),明顯地,可以分類成數(shù)個(gè)所述的特征串以構(gòu)成可區(qū)別的說(shuō)話風(fēng)格。在聆聽(tīng)語(yǔ)音并將語(yǔ) 音分類時(shí)這變得非常明顯某些行為和心理特征傾向于與相同語(yǔ)調(diào)(相同環(huán)境)頻繁出現(xiàn), 暗示它們是相關(guān)聯(lián)的。另外,當(dāng)分析它們的韻律特征時(shí),某些行為和心理特征相對(duì)其它來(lái)說(shuō) 更為相似,再次暗示著它們的相互關(guān)系。以下是一些可能的這樣的說(shuō)話風(fēng)格的例子。一種風(fēng)格可能會(huì)被稱為“被動(dòng)的”或 者“穩(wěn)定的”說(shuō)話風(fēng)格,包含有例如反應(yīng)敏捷的、開(kāi)放的、健談的、富有表現(xiàn)力的等等之類的 行為和心理特征。另一種風(fēng)格可以被稱為“自信的”,包含有例如坦率的、頤指氣使的、語(yǔ)速 極快的、大聲的、活潑的等等之類的特征。還有另外一種稱為“有計(jì)劃的”風(fēng)格,包含有例如 善于分析的、非情緒化的、克制的、含蓄的、有條理的等等之類的特征。這些說(shuō)話風(fēng)格在此處 僅作為例子。自然地,其它幾種說(shuō)話風(fēng)格也可以被語(yǔ)音的韻律特征所描述。在這里非常有必要強(qiáng)調(diào)這些說(shuō)話風(fēng)格同時(shí)帶有非常強(qiáng)的環(huán)境天性。盡管這些說(shuō) 話風(fēng)格不時(shí)可以代表一個(gè)較為穩(wěn)定的說(shuō)話者的特征,很多時(shí)候它們可以代表當(dāng)前的互動(dòng)方 式,或者說(shuō)話者與特定的環(huán)境或者背景相關(guān)的當(dāng)前內(nèi)部狀態(tài)。同一個(gè)人經(jīng)常會(huì)在不同的背 景環(huán)境中切換其說(shuō)話風(fēng)格。通過(guò)語(yǔ)音分析確定所述說(shuō)話風(fēng)格對(duì)以上所述的潛在的應(yīng)用是非常有優(yōu)勢(shì)的,因?yàn)?其能為所分析的環(huán)境提供更為深入的見(jiàn)解。這樣,本發(fā)明的另一目的在于通過(guò)分析人們?cè)谔囟ōh(huán)境下的語(yǔ)音韻律特征提供一 個(gè)普遍的、與說(shuō)話者無(wú)關(guān)的方法以確定某人的當(dāng)前說(shuō)話風(fēng)格。
本發(fā)明的實(shí)施方式受益于三個(gè)與普通語(yǔ)音韻律分析方法不同的方面。第一個(gè)方面 是極大地開(kāi)拓說(shuō)話者的能通過(guò)韻律語(yǔ)音分析而被確定的個(gè)人特征的范圍。在說(shuō)話者的情緒 狀態(tài)之外還可以確定多種說(shuō)話者的行為和心理特征,所述情緒狀態(tài)是語(yǔ)音分析在過(guò)去的主 要應(yīng)用。第二個(gè)不同之處在于說(shuō)話者的當(dāng)前的、環(huán)境的和行為上的屬性和他或她相對(duì)應(yīng)的 語(yǔ)音特征之間的聯(lián)系。第三個(gè)不同之處在于其使用在語(yǔ)音的基本的頻率和振幅參數(shù)中萃取 的特有的第二參數(shù),以達(dá)到與說(shuō)話者無(wú)關(guān)的數(shù)據(jù)處理。使用這些特有的第二參數(shù)及其組合 使克服語(yǔ)音表達(dá)中的個(gè)人差異成為可能,這樣,類似的行為和心理特征可以在不同人的語(yǔ) 音特征中得到類似的體現(xiàn)。圖1是一個(gè)概括性的流程圖,其顯示了在本發(fā)明的具體實(shí)施方案中,建立用于對(duì) 不同的行為、心理和講話風(fēng)格的特征進(jìn)行分類的語(yǔ)音參數(shù)參考數(shù)據(jù)庫(kù)的方法的各個(gè)步驟。 所述方法包括人工選擇某一語(yǔ)境,比如某一語(yǔ)言,文化或者特有的環(huán)境設(shè)定1010 ;人工選 擇要分析的處于所選擇語(yǔ)境中的行為、心理和說(shuō)話風(fēng)格特征1020 ;獲得人們?cè)谒x擇的語(yǔ) 境中的多個(gè)語(yǔ)音語(yǔ)調(diào)1030 ;將語(yǔ)音語(yǔ)調(diào)人工分成代表類似行為、心理和說(shuō)話方式特征的組 1040。這可以使用合適并公知的評(píng)估方法,比如專家等級(jí)評(píng)定、同等評(píng)價(jià)法、自我評(píng)價(jià)法、目 標(biāo)測(cè)試等等,或者任何其它在社會(huì)和行為科學(xué)中使用和公知的評(píng)估方法。作為例子而言,所 述的環(huán)境特征可以是坦率、自信、反應(yīng)敏捷、開(kāi)放、富有表現(xiàn)力、猶豫、含蓄、頤指氣使、克制、 有計(jì)劃、耐心、不耐心、投入的或者其它在語(yǔ)音中得以表達(dá)或反映的環(huán)境行為和心理的特 征。作為例子而言,所述說(shuō)話風(fēng)格可以是一種“被動(dòng)的”或“穩(wěn)定的”說(shuō)話風(fēng)格,包括數(shù)種行 為和心理特征,比如遲鈍、安靜、穩(wěn)重、鎮(zhèn)靜、猶豫等等,或者一種“暢談的”說(shuō)話風(fēng)格,比如反 應(yīng)敏捷、開(kāi)放、健談、富有表現(xiàn)力等特征,或者一種“自信的”說(shuō)話風(fēng)格,包括坦率、頤指氣使、 快節(jié)奏、大聲、活躍等特征,或者是一種“有計(jì)劃的”說(shuō)話方式,包括善于分析、非情緒化、克 制、含蓄、有條理等特征。在本發(fā)明的一些實(shí)施方案中,所述數(shù)據(jù)庫(kù)可以包含有代表任何數(shù) 量的(一個(gè)或者多個(gè))行為、心理和說(shuō)話風(fēng)格特征的語(yǔ)音特征。所述方法還包括將所述代 表類似行為、心理和說(shuō)話風(fēng)格特征的組中的每一語(yǔ)音片段預(yù)處理成無(wú)聲和有聲部分1050 ; 將有聲語(yǔ)音片段分成一串長(zhǎng)度相同的塊,所述塊帶有包括音調(diào)和振幅參數(shù)的基本語(yǔ)音參數(shù) 1060;從基本語(yǔ)音參數(shù)中導(dǎo)出多個(gè)第二語(yǔ)音參數(shù),所述第二語(yǔ)音參數(shù)包括所述塊串內(nèi)的每 一時(shí)間單位內(nèi)所包含的平聲、升調(diào)和降調(diào)趨勢(shì)片段的總和以及所述平聲、升調(diào)、降調(diào)趨勢(shì)片 段的平均長(zhǎng)度1070 ;然后從所述導(dǎo)出的第二參數(shù)中確定每組語(yǔ)音所獨(dú)有的第二語(yǔ)音參數(shù)、 參數(shù)組合以及參數(shù)的值1080,所述參數(shù)是組內(nèi)語(yǔ)音片段所共有的并且代表了每一組語(yǔ)音的 典型行為、心理或者說(shuō)話風(fēng)格的特征。我們必須明白使用數(shù)據(jù)庫(kù)只不過(guò)是本發(fā)明的一種實(shí) 施方式,所述語(yǔ)音參數(shù)以及它們?cè)谔囟ū尘跋碌乃鶎?duì)應(yīng)的行為心理特征的集合可以以任何 表現(xiàn)作為參比的語(yǔ)音參數(shù)的方式存儲(chǔ)。數(shù)據(jù)庫(kù)或參數(shù)庫(kù)能夠采用不同方式存儲(chǔ),或者不用 實(shí)際的軟件數(shù)據(jù)庫(kù)而通過(guò)計(jì)算機(jī)程序作為參比使用
在本發(fā)明的一些實(shí)施方式中,導(dǎo)出多個(gè)第二語(yǔ)音參數(shù)的步驟集中于從一個(gè)列表中選擇 參數(shù),所述列表包括平均停頓長(zhǎng)度、單位時(shí)間內(nèi)的總停頓長(zhǎng)度、平均短沉默長(zhǎng)度、單位時(shí) 間內(nèi)短沉默的總長(zhǎng)度、平聲片段的平均長(zhǎng)度、單位時(shí)間內(nèi)平聲的總長(zhǎng)度、升調(diào)片段的平均長(zhǎng) 度、單位時(shí)間內(nèi)升調(diào)的總長(zhǎng)度、降調(diào)片段的平均長(zhǎng)度、單位時(shí)間內(nèi)降調(diào)的總長(zhǎng)度、平聲片段 的平均振幅偏移、升調(diào)片段的平均振幅偏移、降調(diào)片段的平均振幅偏移、單位時(shí)間內(nèi)的音調(diào) 差異和范圍、單位時(shí)間內(nèi)的音調(diào)斜率、語(yǔ)音信號(hào)的時(shí)間頻譜形狀以及頻譜包絡(luò)線樣式以及升調(diào)、降調(diào)和平聲聲調(diào)趨勢(shì)的時(shí)間順序樣式。圖2是一個(gè)概括性的流程圖,其顯示了在本發(fā)明的具體實(shí)施方案中,使用參考數(shù) 據(jù)庫(kù)分析當(dāng)前講話者的語(yǔ)音語(yǔ)調(diào)和確定其在特定的環(huán)境下其行為、心理和講話風(fēng)格的特征 的電腦實(shí)施方法的各個(gè)步驟。所述方法包括建立一個(gè)語(yǔ)音參數(shù)參考數(shù)據(jù)庫(kù)以根據(jù)不同的 講話者的行為、心理和說(shuō)話風(fēng)格特征對(duì)語(yǔ)音語(yǔ)調(diào)進(jìn)行分類2010 ;獲得說(shuō)話者在一個(gè)特定環(huán) 境和背景下的語(yǔ)音語(yǔ)調(diào)2020 ;對(duì)所獲得語(yǔ)調(diào)進(jìn)行預(yù)處理成,獲得無(wú)聲和有聲片段并把有聲 部分分成一串相同長(zhǎng)度的塊2030,所述塊帶有基本的語(yǔ)音參數(shù),所述參數(shù)包括音調(diào)和振幅 參數(shù);從所述基本參數(shù)中導(dǎo)出多個(gè)第二語(yǔ)音參數(shù)2040,所述第二語(yǔ)音參數(shù)包括在所述塊串 內(nèi)的單位時(shí)間的平聲、升調(diào)和降調(diào)趨勢(shì)語(yǔ)調(diào)的總長(zhǎng)度和平均長(zhǎng)度;根據(jù)語(yǔ)音語(yǔ)調(diào)內(nèi)的第二 參數(shù)計(jì)算具有代表性的環(huán)境行為、心理和說(shuō)話風(fēng)格特征的特有語(yǔ)音參數(shù)、其組合以及所述 參數(shù)的值2050 ;通過(guò)將計(jì)算出的參數(shù)和預(yù)定義的參考數(shù)據(jù)庫(kù)進(jìn)行比較對(duì)環(huán)境行為、心理和 說(shuō)話風(fēng)格等特征進(jìn)行判斷和評(píng)估2060 ;然后輸出分析結(jié)果2070。與數(shù)據(jù)庫(kù)的建立相類似,在本發(fā)明的一些實(shí)施方式中,對(duì)多個(gè)第二參數(shù)的導(dǎo)出集 中于在一個(gè)列表中對(duì)參數(shù)進(jìn)行選擇,此列表包括參數(shù)平均停頓長(zhǎng)度、單位時(shí)間內(nèi)的總停頓 長(zhǎng)度、平均短沉默長(zhǎng)度、單位時(shí)間內(nèi)短沉默的總長(zhǎng)度、平聲片段的平均長(zhǎng)度、單位時(shí)間內(nèi)平 聲的總長(zhǎng)度、升調(diào)片段的平均長(zhǎng)度、單位時(shí)間內(nèi)升調(diào)的總長(zhǎng)度、降調(diào)片段的平均長(zhǎng)度、單位 時(shí)間內(nèi)降調(diào)的總長(zhǎng)度、平聲片段的平均振幅偏移、升調(diào)片段的平均振幅偏移、降調(diào)片段的平 均振幅偏移、單位時(shí)間內(nèi)的音調(diào)差異和范圍、單位時(shí)間內(nèi)的音調(diào)斜率、語(yǔ)音信號(hào)的時(shí)間頻譜 形狀以及頻譜包絡(luò)樣式,以及升調(diào)、降調(diào)和平聲聲調(diào)趨勢(shì)的時(shí)間順序樣式。圖3是一個(gè)概括性的流程圖,其顯示了根據(jù)本發(fā)明所提出的計(jì)算機(jī)執(zhí)行方法,在 其一些實(shí)施方案中可能實(shí)行的一些額外的可選步驟,所述步驟用于分析說(shuō)話者在特定環(huán)境 和背景下的語(yǔ)音語(yǔ)調(diào)并確定所述說(shuō)話者在所所述特定環(huán)境和背景下的行為、心理和說(shuō)話風(fēng) 格的特征。根據(jù)本發(fā)明的一些具體實(shí)施方式
,所述分析方法還包括在語(yǔ)音參數(shù)參考數(shù)據(jù)庫(kù)內(nèi) 預(yù)提取當(dāng)前被分析的說(shuō)話者的語(yǔ)音樣本以識(shí)別說(shuō)話者獨(dú)有的說(shuō)話方式的步驟3010,這樣 對(duì)說(shuō)話者的當(dāng)前分析就會(huì)成為說(shuō)話者相關(guān)而不是與說(shuō)話者無(wú)關(guān),以增加對(duì)說(shuō)話者的環(huán)境行 為、心理和說(shuō)話風(fēng)格特征確定和評(píng)估的準(zhǔn)確性。根據(jù)本發(fā)明的一些具體實(shí)施方式
,所述分析方法還包括重復(fù)分析同一說(shuō)話者在多 個(gè)不同環(huán)境中的語(yǔ)音,然后提取其在不同環(huán)境中的重復(fù)的和普遍的說(shuō)話方式的步驟3020, 以確定說(shuō)話者的個(gè)性特征并將它們從環(huán)境特征中區(qū)別開(kāi)來(lái)。在本發(fā)明的一些具體實(shí)施方式
中,所述分析方法還包括通過(guò)語(yǔ)音分析使用情緒檢 測(cè)以將說(shuō)話者的當(dāng)前情緒狀態(tài)和環(huán)境狀態(tài)區(qū)別開(kāi)來(lái)的步驟3030,以增加環(huán)境行為、心理和 說(shuō)話風(fēng)格的特征確定和評(píng)估的準(zhǔn)確性。在本發(fā)明的一些具體實(shí)施方式
中,所述分析方法還包括使用基于語(yǔ)音識(shí)別的語(yǔ)音 文字及內(nèi)容的分析步驟3040,與語(yǔ)音的韻律分析構(gòu)成互補(bǔ),以增加環(huán)境行為、心理和說(shuō)話方 式特征的確定和評(píng)估的準(zhǔn)確性。在本發(fā)明的一些具體實(shí)施方式
中,所述分析方法還包括通過(guò)對(duì)說(shuō)話者的視覺(jué)分 析,使用身體語(yǔ)言分析的步驟3050,與語(yǔ)音分析形成互補(bǔ),以增加環(huán)境行為、心理和說(shuō)話方 式特征的確定和評(píng)估的準(zhǔn)確性。
12CN 102124515 A
說(shuō)明書(shū)
7/11 頁(yè)在本發(fā)明的一些具體實(shí)施方式
中,所述分析方法還包括提供基于使用進(jìn)行中的說(shuō) 話者的行為、心理和說(shuō)話方式的特征分析的學(xué)習(xí)系統(tǒng)以提高語(yǔ)音參數(shù)參考數(shù)據(jù)庫(kù)和分類處 理的準(zhǔn)確性。在本發(fā)明的一些具體實(shí)施方式
中,所述分析方法還針對(duì)了包括多個(gè)說(shuō)話者的語(yǔ)音 語(yǔ)調(diào),其中所述方法還包括區(qū)別開(kāi)多個(gè)說(shuō)話者的聲音,所述方法的每次執(zhí)行只對(duì)應(yīng)單獨(dú)的 一個(gè)說(shuō)話者。圖4是一個(gè)框架示意圖,根據(jù)本發(fā)明的一些實(shí)施方式其顯示了一個(gè)分析說(shuō)話者語(yǔ) 音語(yǔ)調(diào)并確定其在特定環(huán)境下的行為、心理以及說(shuō)話風(fēng)格特征的數(shù)據(jù)處理系統(tǒng)。所述系統(tǒng) 4000包括對(duì)說(shuō)話者的聲音進(jìn)行采樣或者直接取得聲音樣本的語(yǔ)音輸入單元4010、一與所 述語(yǔ)音輸入單元4010相連接以對(duì)語(yǔ)音輸入進(jìn)行預(yù)處理的預(yù)處理單元4020、一與所述預(yù)處 理單元4020相連接的主處理單元4030、一主指示信號(hào)輸出單元4040 ;以及一與所述主處理 單元4030相連接的說(shuō)話者參考數(shù)據(jù)庫(kù)4050。運(yùn)行時(shí),語(yǔ)音輸入單元4010用于對(duì)處于特定環(huán)境或背景的說(shuō)話者的語(yǔ)音進(jìn)行采 樣或者取得語(yǔ)音采樣信號(hào);預(yù)處理單元4020用于對(duì)采樣了的語(yǔ)音信號(hào)進(jìn)行處理,以取得無(wú) 聲和有聲部分語(yǔ)音并把有聲部分分成一串長(zhǎng)度相同的塊,所述塊帶有基本語(yǔ)音參數(shù),包括 語(yǔ)調(diào)和振幅參數(shù)。進(jìn)一步,數(shù)據(jù)庫(kù)4050用于存儲(chǔ)行為、心理和說(shuō)話風(fēng)格的分類以及其具有 代表性的第二語(yǔ)音參數(shù)和參數(shù)的組合,其中這些參數(shù)從一個(gè)列表中選擇,此列表包括平均 停頓長(zhǎng)度、單位時(shí)間內(nèi)的總停頓長(zhǎng)度、平均短沉默長(zhǎng)度、單位時(shí)間內(nèi)短沉默的總長(zhǎng)度、平聲 片段的平均長(zhǎng)度、單位時(shí)間內(nèi)平聲的總長(zhǎng)度、升調(diào)片段的平均長(zhǎng)度、單位時(shí)間內(nèi)升調(diào)的總長(zhǎng) 度、降調(diào)片段的平均長(zhǎng)度、單位時(shí)間內(nèi)降調(diào)的總長(zhǎng)度、平聲片段的平均振幅偏移、升調(diào)片段 的平均振幅偏移、降調(diào)片段的平均振幅偏移、單位時(shí)間內(nèi)的音調(diào)差異和范圍、單位時(shí)間內(nèi)的 音調(diào)斜率、語(yǔ)音信號(hào)的時(shí)間頻譜形狀以及頻譜包絡(luò)樣式,以及聲調(diào)、降調(diào)和平聲聲調(diào)趨勢(shì)的 時(shí)間順序樣式;進(jìn)一步,主處理單元4030用于從當(dāng)前分析的語(yǔ)音語(yǔ)調(diào)中取得多個(gè)從包含有 所述第二語(yǔ)音參數(shù)目錄中選擇的第二語(yǔ)音參數(shù)的值;所述主處理單元4030還用于從所述 語(yǔ)音語(yǔ)調(diào)的第二參數(shù)中計(jì)算環(huán)境行為、心理和說(shuō)話風(fēng)格特征的特有的并具代表性的參數(shù)、 參數(shù)的組合以及它們的值;所述主處理單元還用于通過(guò)將所述參數(shù)與預(yù)定義的語(yǔ)音參數(shù)的 參考數(shù)據(jù)庫(kù)進(jìn)行比較以對(duì)環(huán)境行為、心理和說(shuō)話風(fēng)格特征進(jìn)行確定和評(píng)估。最后,主指示單 元4040用于輸出分析結(jié)果。在本發(fā)明的一些具體實(shí)施方式
中,輸出單元4040包括了至少一個(gè)以下接口 視 覺(jué)、音頻、存儲(chǔ)、文字、監(jiān)測(cè)設(shè)備接口、互聯(lián)網(wǎng)接口、本地和遠(yuǎn)程設(shè)備或者計(jì)算機(jī)接口、跨網(wǎng)絡(luò) 接口、有線、無(wú)線或者蜂窩電話接口、電腦游戲接口、玩具接口、個(gè)人電子記事本接口,以及 電子輸出設(shè)備接口。在本發(fā)明的一些具體實(shí)施方式
中,系統(tǒng)4000在通信系統(tǒng)內(nèi)實(shí)施,所述通信系統(tǒng)選 自一組群包括語(yǔ)音通信系統(tǒng)、無(wú)線或者有線通信系統(tǒng)、蜂窩通信網(wǎng)絡(luò)、基于網(wǎng)頁(yè)的通信系 統(tǒng)、其它IP語(yǔ)音通信系統(tǒng),以及電話局通信系統(tǒng)。在本發(fā)明的一些具體實(shí)施方式
中,系統(tǒng)4000可用于至少一個(gè)以下用途自我反 饋、自我了解、娛樂(lè)、行為訓(xùn)練、銷售優(yōu)化、客戶服務(wù)優(yōu)化、客戶和商業(yè)智能、防衛(wèi)和安全應(yīng) 用、商業(yè)協(xié)商、廣告、提親、約會(huì)、消遣、游戲、玩具、輔導(dǎo)、人力資源應(yīng)用、行政培訓(xùn)、雇員和職 業(yè)培訓(xùn)、心理和教育應(yīng)用,以及醫(yī)學(xué)應(yīng)用。
在本發(fā)明的一些具體實(shí)施方式
中,數(shù)據(jù)庫(kù)4050還包括預(yù)先得到的當(dāng)前分析的說(shuō) 話者的語(yǔ)音樣本以識(shí)別所述說(shuō)話者獨(dú)有的語(yǔ)音樣式,這樣對(duì)所述說(shuō)話者的當(dāng)前分析會(huì)成為 說(shuō)話者相關(guān)的而不是說(shuō)話者無(wú)關(guān)的,以增加環(huán)境行為、心理和說(shuō)話方式特征的確定和評(píng)估 的準(zhǔn)確性。在本發(fā)明的一些具體實(shí)施方式
中,系統(tǒng)4000還用于重復(fù)地分析同一說(shuō)話者在數(shù) 個(gè)不同環(huán)境中的語(yǔ)音樣本,并提取其在不同環(huán)境中重復(fù)出現(xiàn)的具有普遍性的說(shuō)話方式,以 確定所述說(shuō)話者的個(gè)性特征并將這些個(gè)性特征與環(huán)境特征分開(kāi)來(lái)。在本發(fā)明的一些具體實(shí)施方式
中,所述系統(tǒng)4000還使用基于語(yǔ)音分析的情緒檢 測(cè)以將當(dāng)前情緒狀態(tài)從環(huán)境特征中區(qū)別開(kāi)來(lái),以增加環(huán)境行為、心理和說(shuō)話方式特征的確 定和評(píng)估的準(zhǔn)確性。在本發(fā)明的一些具體實(shí)施方式
中,所述系統(tǒng)4000還使用基于語(yǔ)音識(shí)別技術(shù)的語(yǔ) 音文字和內(nèi)容的分析,與韻律語(yǔ)音分析形成互補(bǔ),以增加環(huán)境行為、心理和說(shuō)話方式特征的 確定和評(píng)估的準(zhǔn)確性。在本發(fā)明的一些具體實(shí)施方式
中,所述系統(tǒng)4000還使用了基于說(shuō)話者的視覺(jué)分 析的身體語(yǔ)言分析,與語(yǔ)音分析形成互補(bǔ),以增加環(huán)境行為、心理和說(shuō)話方式的特征確定和 評(píng)估的準(zhǔn)確性。在本發(fā)明的一些具體實(shí)施方式
中,所述系統(tǒng)4000還提供了基于使用進(jìn)行中的說(shuō) 話者的行為、心理和說(shuō)話方式特征分析的學(xué)習(xí)系統(tǒng),以增強(qiáng)語(yǔ)音參數(shù)參考數(shù)據(jù)庫(kù)和分類處理。在本發(fā)明的一些具體實(shí)施方式
中,所述系統(tǒng)4000還關(guān)注包含有多個(gè)說(shuō)話者的語(yǔ) 音語(yǔ)調(diào),其中所述系統(tǒng)4000用于區(qū)分開(kāi)多個(gè)說(shuō)話者的聲音并且其每次執(zhí)行只單獨(dú)分析一 個(gè)說(shuō)話者。圖5是一個(gè)概括性的系統(tǒng)方框圖,其顯示了一個(gè)在本發(fā)明的一些實(shí)施方式中的用 于通過(guò)分析一個(gè)說(shuō)話者的語(yǔ)音語(yǔ)調(diào)而確定其在一個(gè)特定的環(huán)境和背景下的行為、心理和說(shuō) 話方式特征的裝置。裝置5000包括一用于對(duì)說(shuō)話者的語(yǔ)音進(jìn)行采樣或者取得語(yǔ)音采樣 信號(hào)的語(yǔ)音輸入單元5010、一與所述語(yǔ)音輸入單元5010相連接并用于對(duì)從語(yǔ)音輸入單元 5010輸入的采樣信號(hào)進(jìn)行預(yù)處理的預(yù)處理單元5020、一與所述預(yù)處理單元5020相連接的 主處理單元5030 ;以及一與所述主處理單元5030相連接的主指示信號(hào)輸出單元5040。運(yùn)行時(shí),語(yǔ)音輸入單元5010用于對(duì)說(shuō)話者的在某特定環(huán)境和背景下的語(yǔ)音進(jìn)行 采樣或者直接取得語(yǔ)音采樣信號(hào);預(yù)處理單元5020用于對(duì)采樣的語(yǔ)音信號(hào)進(jìn)行預(yù)處理,以 取得無(wú)聲和有聲兩個(gè)部分信號(hào)并把有聲部分分成一串長(zhǎng)度相同的塊。所述塊帶有基本的語(yǔ) 音參數(shù),所述參數(shù)包括語(yǔ)調(diào)和振幅參數(shù)。進(jìn)一步,所述裝置5000與一個(gè)用于存儲(chǔ)說(shuō)話者的 行為、心理和和說(shuō)話方式分類以及它們的具代表性的第二語(yǔ)音參數(shù)、所述參數(shù)組合的參考 數(shù)據(jù)庫(kù)相關(guān)聯(lián),其中這些參數(shù)從一個(gè)參數(shù)目錄中選出,所述參數(shù)目錄包括平均停頓長(zhǎng)度、 單位時(shí)間內(nèi)的總停頓長(zhǎng)度、平均短沉默長(zhǎng)度、單位時(shí)間內(nèi)短沉默的總長(zhǎng)度、平聲片段的平均 長(zhǎng)度、單位時(shí)間內(nèi)平聲的總長(zhǎng)度、升調(diào)片段的平均長(zhǎng)度、單位時(shí)間內(nèi)升調(diào)的總長(zhǎng)度、降調(diào)片 段的平均長(zhǎng)度、單位時(shí)間內(nèi)降調(diào)的總長(zhǎng)度、平聲片段的平均振幅偏移、升調(diào)片段的平均振幅 偏移、降調(diào)片段的平均振幅偏移、單位時(shí)間內(nèi)的音調(diào)差異和范圍、單位時(shí)間內(nèi)的音調(diào)斜率、 語(yǔ)音信號(hào)的時(shí)間頻譜形狀以及頻譜包絡(luò)樣式,以及聲調(diào)、降調(diào)和平聲聲調(diào)趨勢(shì)的時(shí)間順序樣式。進(jìn)一步,所述主處理單元5030還用于從當(dāng)前分析的語(yǔ)音語(yǔ)調(diào)中根據(jù)所述第二語(yǔ) 音參數(shù)列表取得多個(gè)第二語(yǔ)音參數(shù)。主處理單元5030還用于計(jì)算環(huán)境行為、心理和說(shuō)話風(fēng) 格特征的獨(dú)有并具有代表性的語(yǔ)音參數(shù)、參數(shù)的組合以及所述參數(shù)的值;所述主處理單元 5030還能用于通過(guò)將計(jì)算出的參數(shù)與預(yù)定義的參考數(shù)據(jù)庫(kù)進(jìn)行比較以對(duì)語(yǔ)音語(yǔ)調(diào)中的環(huán) 境行為、心理和說(shuō)話方式特征進(jìn)行確定和評(píng)估。最后,主指示信號(hào)輸出單元5040用于輸出 分析結(jié)果。在本發(fā)明的一些具體實(shí)施方式
中,所述裝置5000包含有至少一個(gè)以下用途自我 反饋、自我了解、娛樂(lè)、行為訓(xùn)練、銷售優(yōu)化、客戶服務(wù)優(yōu)化、客戶和商業(yè)智能、防衛(wèi)和安全應(yīng) 用、商業(yè)協(xié)商、廣告、提親、約會(huì)、消遣、游戲、玩具、輔導(dǎo)、人力資源應(yīng)用、行政培訓(xùn)、雇員和職 業(yè)培訓(xùn)、心理和教育應(yīng)用,以及醫(yī)學(xué)應(yīng)用。在本發(fā)明的一些具體實(shí)施方式
中,所述裝置5000選自一個(gè)列表,所述列表包括 聲音通信設(shè)備、有線或者無(wú)線聲音設(shè)備、蜂窩通信設(shè)備、聯(lián)網(wǎng)的(或非聯(lián)網(wǎng)的)個(gè)人掌上電腦 (PDA)、錄音設(shè)備、個(gè)人電腦和服務(wù)器。在本發(fā)明的一些具體實(shí)施方式
中,所述輸出單元5040包括至少一個(gè)以下接口 視 覺(jué)、音頻、存儲(chǔ)、文字、監(jiān)測(cè)設(shè)備接口、互聯(lián)網(wǎng)接口、本地和遠(yuǎn)程設(shè)備或者計(jì)算機(jī)接口、跨網(wǎng)絡(luò) 接口、有線、無(wú)線或者蜂窩電話接口、電腦游戲接口、玩具接口、個(gè)人電子記事本接口,以及 電子輸出設(shè)備接口。在本發(fā)明的一些具體實(shí)施方式
中,本發(fā)明的所述計(jì)算機(jī)執(zhí)行方法、數(shù)據(jù)處理系統(tǒng)、 和計(jì)算機(jī)程序產(chǎn)品可以在一個(gè)有線或者無(wú)線的通訊系統(tǒng)中實(shí)施。特別地,本發(fā)明可以在一 個(gè)蜂窩通信系統(tǒng)中實(shí)施。本發(fā)明在一些實(shí)施方案中也可以用于實(shí)時(shí)環(huán)境中,或者可選地,用 于離線語(yǔ)音分析系統(tǒng)。在一些實(shí)施方式中,本發(fā)明可以為多個(gè)架構(gòu)。比如,提供一個(gè)執(zhí)行以上所述的步驟 的中心分析模塊,以處理經(jīng)過(guò)一個(gè)處于任何物理位置的蜂窩電話服務(wù)商的中心服務(wù)器的電
話語(yǔ)音數(shù)據(jù)。在另外一些實(shí)施方式中,本發(fā)明可以作為一個(gè)單機(jī)模塊實(shí)施,所述單機(jī)模塊可以 作為軟件或者硬件整合到一個(gè)通信裝置中,比如語(yǔ)音通信設(shè)備。例如,提供一個(gè)分析模塊以 執(zhí)行以上步驟,以處理經(jīng)過(guò)特定用戶的蜂窩電話設(shè)備的語(yǔ)音數(shù)據(jù)。可選地,本發(fā)明的實(shí)施可以用于,但不局限于,分析處于對(duì)話中的說(shuō)話者中的一個(gè) 或者全部,以用于自我反饋、自我了解、娛樂(lè)、行為訓(xùn)練、銷售優(yōu)化、客戶服務(wù)優(yōu)化、客戶和商 業(yè)智能、防衛(wèi)和安全應(yīng)用、商業(yè)協(xié)商、廣告、提親、約會(huì)、消遣、游戲、玩具、輔導(dǎo)、人力資源應(yīng) 用、行政培訓(xùn)、雇員和職業(yè)培訓(xùn)、心理和教育應(yīng)用,以及醫(yī)學(xué)應(yīng)用等等。在一些實(shí)施方式中,本發(fā)明的所述計(jì)算機(jī)執(zhí)行方法、數(shù)據(jù)處理系統(tǒng)、裝置和計(jì)算機(jī) 程序產(chǎn)品可以在電話中心和呼叫中心的實(shí)時(shí)或者離線對(duì)話語(yǔ)音分析中實(shí)施,以改進(jìn)其服 務(wù),銷售、客戶服務(wù)、培訓(xùn)及其它組織目的。在一些實(shí)施方式中,本發(fā)明提供了有線電話對(duì)話的實(shí)時(shí)和離線語(yǔ)音分析,分析對(duì) 話中的一個(gè)或者全部說(shuō)話者,以達(dá)到與以上所述相同的目的。在一些實(shí)施方式中,本發(fā)明提供了基于網(wǎng)頁(yè)對(duì)話的實(shí)時(shí)和離線語(yǔ)音分析,分析對(duì) 話中的其中一方或者兩方,以達(dá)到與以上所述相同的目的。
在一些實(shí)施方式中,本發(fā)明提供了面對(duì)面對(duì)話的實(shí)時(shí)和離線語(yǔ)音分析,分析其中 一方或者兩方,以達(dá)到與以上所述相同的目的。在一些實(shí)施方式中,本發(fā)明提供了任何錄音的實(shí)時(shí)和離線語(yǔ)音分析,無(wú)論是對(duì)話 還是觀眾前的個(gè)人演講,分析其中一方或者兩方,以達(dá)到與以上所述相同的目的。有優(yōu)勢(shì)的是,對(duì)人們的交流、心理、個(gè)人和行為的特征的評(píng)估為不同的應(yīng)用提供了 重大的意義。首先,其為說(shuō)話者本身提供了評(píng)估數(shù)據(jù),因此促進(jìn)了認(rèn)識(shí)、發(fā)展和不同的學(xué)習(xí) 用途。另外,對(duì)于那些想從說(shuō)話者中學(xué)到些什么,或者幫助說(shuō)話者,又或者為了更好地與說(shuō) 話者互動(dòng),以達(dá)到不同目的的人們來(lái)說(shuō),這些目的可以是個(gè)人、商業(yè)、教育、職業(yè)、醫(yī)學(xué)、心理 上的等等,所述評(píng)估數(shù)據(jù)是非常重要的。在本發(fā)明的一些實(shí)施方式中,所述系統(tǒng)可以在數(shù)字電子電路,或者電腦硬件、固 件、軟件或者它們的組合中實(shí)施。本發(fā)明可以在一個(gè)或者多個(gè)可在可編程系統(tǒng)上執(zhí)行的計(jì)算機(jī)程序中實(shí)施,所述可 編程系統(tǒng)包括至少一個(gè)可以接收和傳輸數(shù)據(jù)和指令的可編程處理器、一存儲(chǔ)系統(tǒng)、至少一 個(gè)輸入設(shè)備,和至少一個(gè)輸出設(shè)備。計(jì)算機(jī)程序是一組可以在電腦中直接或者間接使用的 以執(zhí)行某一活動(dòng)或者帶來(lái)某一結(jié)果的指令。計(jì)算機(jī)程序可以使用任何計(jì)算機(jī)語(yǔ)言編寫(xiě),包 括匯編或者解釋語(yǔ)言,其可以部署為任何形式,包括單機(jī)程序或者作為一個(gè)模塊、組件、子 程序、或者其它適用于電腦環(huán)境的形式。適用于執(zhí)行指令程序的處理器包括,舉例來(lái)說(shuō),數(shù)字信號(hào)處理器(DSP)、普通用途 的微處理器以及任何電腦的單核或多核處理器。一般說(shuō)來(lái),處理器從只讀存儲(chǔ)器或/和隨 機(jī)存取存儲(chǔ)器中接收指令和數(shù)據(jù)。計(jì)算機(jī)系統(tǒng)的核心組件包括執(zhí)行指令的處理器和一個(gè)或 者多個(gè)存儲(chǔ)指令和數(shù)據(jù)的存儲(chǔ)器。一般說(shuō)來(lái),一臺(tái)電腦還包括一個(gè)或者多個(gè)用于存儲(chǔ)數(shù)據(jù) 文件的大容量數(shù)據(jù)存儲(chǔ)設(shè)備;這些設(shè)備包括磁盤(pán),比如內(nèi)置硬盤(pán)或者可移動(dòng)硬盤(pán);磁光碟 和光盤(pán)。適用于承載電腦程序指令和數(shù)據(jù)的存儲(chǔ)設(shè)備包括任何形式的非易失性存儲(chǔ)器,比 如屬于半導(dǎo)體存儲(chǔ)器設(shè)備的EPROM、EEPROM或閃存設(shè)備;屬于磁盤(pán)的內(nèi)置硬盤(pán)或外置硬盤(pán); 光磁盤(pán);⑶-ROM或者DVD-ROM設(shè)備。所述處理器和存儲(chǔ)器可以通過(guò)ASICs (專用接口集成 電路)得到補(bǔ)充或者合成一體。在以上的說(shuō)明中,一個(gè)實(shí)施方式是本發(fā)明的一個(gè)例子或者一個(gè)具體實(shí)施。“一種實(shí) 施方式”、“一個(gè)實(shí)施方式”或者“多個(gè)實(shí)施方式”的不同表示并不是必須得指向相同的實(shí)施 方式。盡管本發(fā)明的許多不同的特征可能在單一的實(shí)施方式中的得以描述,所述特征也 可以單獨(dú)或者以任何合適的組合形式而得以實(shí)施,本發(fā)明也可以在一單一的實(shí)施方式中實(shí) 現(xiàn)。在說(shuō)明書(shū)中提及的“一些實(shí)施方式”、“一種實(shí)施方式”、“一個(gè)實(shí)施方式”或者“其它 實(shí)施方式”意味著一個(gè)特定的與所述實(shí)施方式相聯(lián)系的特征、結(jié)構(gòu)或者性質(zhì)被包括在至少 一些具體實(shí)施中,但并不必須是所有的實(shí)施方式。應(yīng)明白這里所使用的說(shuō)法和術(shù)語(yǔ)并不用于限制用途而是用于描述的用途。結(jié)合附屬的詳細(xì)說(shuō)明、圖表和范例,本發(fā)明的原理和用途可以得到更好的說(shuō)明。應(yīng)明白這里詳細(xì)描述的細(xì)節(jié)并不構(gòu)成對(duì)本發(fā)明應(yīng)用的限制。另外,還需明白本發(fā)明可以通過(guò)不同的方式得以貫徹或者實(shí)施,因而本發(fā)明除了以上所述的實(shí)施方式外,其還可以通過(guò)其它的方式得以實(shí)施。應(yīng)明白術(shù)語(yǔ)“包括”、“包含”、“由…組成”以及其語(yǔ)法上的變更并不排除額外的一 個(gè)或者多個(gè)組件、特征、步驟或者上述個(gè)體的組合,因而所述術(shù)語(yǔ)只是用于具體說(shuō)明組件、 特征以及步驟。如果所述說(shuō)明書(shū)或者權(quán)利要求提及“一額外的”組件,這并不妨礙超過(guò)一個(gè)額外的
組件存在。應(yīng)明白在權(quán)利要求或說(shuō)明書(shū)中提及“一個(gè)”部件時(shí),這并不意味著只有一個(gè)此類部 件。應(yīng)明白在說(shuō)明書(shū)中陳述到一個(gè)部件、特征、結(jié)構(gòu)或者特性“可能”、“可以”被包括在 內(nèi)時(shí),所述特定的部件、特征、結(jié)構(gòu)或特性并不必須被包括在內(nèi)。在應(yīng)用時(shí),盡管狀態(tài)圖、流程圖或者兩者都被用于描述實(shí)施方案,本發(fā)明并不被限 制在此類圖表中或者其相應(yīng)的描述中。舉例來(lái)說(shuō),流程并不需要經(jīng)過(guò)所有所描述的步驟或 者狀態(tài),或者按照與所描述或顯示的流程完全相同的順序進(jìn)行。本發(fā)明所提出的方法可以通過(guò)人工、自動(dòng)或者所述兩者的組合執(zhí)行或者完成所選 擇的步驟或者任務(wù)而得以實(shí)施。所述術(shù)語(yǔ)“方法”可以為用于完成一個(gè)特定任務(wù)的方式、手段、技巧和程序,這些方 式、手段、技巧和程序是公知的或者是由本發(fā)明所屬于的技術(shù)領(lǐng)域中的從業(yè)者從公知的方 式、手段、技巧和程序中可較為容易地發(fā)展出來(lái)的。在權(quán)利要求和說(shuō)明書(shū)中出現(xiàn)的所述說(shuō)明、例子、方法和材料并不能解釋為限制性 的而應(yīng)解釋為只是解說(shuō)性的。此中使用的技術(shù)和科學(xué)術(shù)語(yǔ)的意思通常可以被本發(fā)明所屬的技術(shù)領(lǐng)域中的技術(shù) 人員所理解,否則會(huì)被明確定義。本發(fā)明可以使用與以上所描述的相當(dāng)?shù)姆椒ê筒牧显谠囼?yàn)和實(shí)踐中實(shí)施。任何出版物,包括在本說(shuō)明書(shū)中所引用或涉及的專利、專利應(yīng)用和文章,于此整體 引入本說(shuō)明書(shū),如同此中每一被特別和單獨(dú)指出的出版物。另外,在本發(fā)明的一些具體實(shí)施 方式中對(duì)任何參考文獻(xiàn)的引用和驗(yàn)證都不應(yīng)被解釋為承認(rèn)所述文獻(xiàn)為本發(fā)明的現(xiàn)有技術(shù)。本說(shuō)明書(shū)結(jié)合數(shù)量有限的具體實(shí)施方式
對(duì)本發(fā)明進(jìn)行了說(shuō)明,但這些實(shí)施方式不 應(yīng)被理解成對(duì)本發(fā)明的限制,而應(yīng)該被理解為本發(fā)明的一些實(shí)施范例。其它可能的變更、修 改和應(yīng)用也處于本發(fā)明的保護(hù)范圍內(nèi)。相應(yīng)地,本發(fā)明的范圍不應(yīng)被所描述的實(shí)施內(nèi)容所 限制,而應(yīng)該被附屬的權(quán)利要求以及其合法的等同物所界定。
權(quán)利要求
1.一種建立用于根據(jù)不同的行為、心理和說(shuō)話風(fēng)格的特征以對(duì)語(yǔ)音語(yǔ)調(diào)進(jìn)行分類的語(yǔ) 音參數(shù)參考數(shù)據(jù)庫(kù)的計(jì)算機(jī)執(zhí)行方法,所述計(jì)算機(jī)執(zhí)行方法包括人工選擇某一語(yǔ)境;人工選擇要分析的并處于所選擇語(yǔ)境中的行為、心理和說(shuō)話風(fēng)格特征; 獲得人們?cè)谒x擇的語(yǔ)境中的多個(gè)語(yǔ)音語(yǔ)調(diào); 將語(yǔ)音語(yǔ)調(diào)人工分成代表類似行為、心理和說(shuō)話風(fēng)格特征的組; 將所述代表類似行為、心理和說(shuō)話風(fēng)格特征的組中的每一段語(yǔ)音預(yù)處理成無(wú)聲和有聲 片段;將有聲語(yǔ)音片段分成一串長(zhǎng)度相同的塊,所述塊帶有包括有音調(diào)和振幅參數(shù)的基本語(yǔ) 音參數(shù);從基本語(yǔ)音參數(shù)中導(dǎo)出多個(gè)第二語(yǔ)音參數(shù),其中所述選擇的多個(gè)語(yǔ)音參數(shù)包括以下參 數(shù)中至少一個(gè)所述塊串內(nèi)的每一時(shí)間單位內(nèi)所包含的平聲、升調(diào)和降調(diào)趨勢(shì)片段的總和, 以及所述塊串內(nèi)的平聲、升調(diào)和降調(diào)趨勢(shì)片段的平均長(zhǎng)度;和從所述第二參數(shù)中確定每組語(yǔ)音所特有的第二語(yǔ)音參數(shù)、參數(shù)的組合和所述參數(shù)的 值,其中所述特有的第二參數(shù)是所述組內(nèi)語(yǔ)音片段所共有并代表了每一組語(yǔ)音的典型行 為、心理或者說(shuō)話風(fēng)格特征。
2.根據(jù)權(quán)利要求1所述的方法,其中導(dǎo)出的多個(gè)第二語(yǔ)音參數(shù)包括以下參數(shù)中的至少 一項(xiàng)平均停頓長(zhǎng)度、單位時(shí)間內(nèi)的總停頓長(zhǎng)度、短時(shí)沉默的平均長(zhǎng)度、單位時(shí)間內(nèi)短時(shí)沉 默的總長(zhǎng)度、平聲片段的平均長(zhǎng)度、單位時(shí)間內(nèi)平聲片段的總長(zhǎng)度、升調(diào)片段的平均長(zhǎng)度、 單位時(shí)間內(nèi)升調(diào)片段的總長(zhǎng)度、降調(diào)片段的平均長(zhǎng)度、單位時(shí)間內(nèi)降調(diào)片段的總長(zhǎng)度、平聲 片段的平均振幅偏移、升調(diào)片段的平均振幅偏移、降調(diào)片段的平均振幅偏移、單位時(shí)間內(nèi)的 音調(diào)差異和范圍、單位時(shí)間內(nèi)的音調(diào)斜率、語(yǔ)音信號(hào)的時(shí)間頻譜形狀和頻譜包絡(luò)樣式,以及 平聲、升調(diào)和降調(diào)趨勢(shì)的時(shí)間順序樣式。
3.一種分析說(shuō)話者在特定環(huán)境和背景下的語(yǔ)音語(yǔ)調(diào)并確定說(shuō)話者在所述特定的環(huán)境 下的行為、心理和說(shuō)話風(fēng)格特征的計(jì)算機(jī)執(zhí)行方法,所述計(jì)算機(jī)執(zhí)行方法包括建立一個(gè)語(yǔ)音參數(shù)參考數(shù)據(jù)庫(kù)以根據(jù)不同的行為、心理和說(shuō)話風(fēng)格特征對(duì)語(yǔ)音語(yǔ)調(diào)進(jìn) 行分類;獲得說(shuō)話者在一個(gè)特定環(huán)境和背景下的語(yǔ)音語(yǔ)調(diào);將所獲得語(yǔ)音語(yǔ)調(diào)預(yù)處理成無(wú)聲和有聲片段并把有聲片段分成一串相同長(zhǎng)度的塊,所 述塊帶有包括音調(diào)和振幅參數(shù)的基本語(yǔ)音參數(shù);和從所述基本參數(shù)中導(dǎo)出多個(gè)第二語(yǔ)音參數(shù),其中所述多個(gè)選擇的語(yǔ)音參數(shù)包括以下參 數(shù)中至少一個(gè)所述塊串內(nèi)的每一時(shí)間單位內(nèi)所包含的平聲、升調(diào)和降調(diào)趨勢(shì)片段的總和, 以及所述塊串內(nèi)的平聲、升調(diào)和降調(diào)趨勢(shì)片段的平均長(zhǎng)度;根據(jù)語(yǔ)音語(yǔ)調(diào)內(nèi)的所述第二參數(shù)計(jì)算具有代表性的環(huán)境行為、心理和說(shuō)話風(fēng)格特征的 特有語(yǔ)音參數(shù)、參數(shù)的組合以及所述參數(shù)的值;通過(guò)將計(jì)算出的參數(shù)與預(yù)定義的參考數(shù)據(jù)庫(kù)進(jìn)行比較對(duì)環(huán)境行為、心理和說(shuō)話風(fēng)格的 特征進(jìn)行判斷和評(píng)估; 輸出判斷和評(píng)估結(jié)果。
4.根據(jù)權(quán)利要求3所述的方法,其中所導(dǎo)出的多個(gè)第二語(yǔ)音參數(shù)包括以下參數(shù)中的至少一項(xiàng)平均停頓長(zhǎng)度、單位時(shí)間內(nèi)的總停頓長(zhǎng)度、短時(shí)沉默的平均長(zhǎng)度、單位時(shí)間內(nèi)短 時(shí)沉默的總長(zhǎng)度、平聲片段的平均長(zhǎng)度、單位時(shí)間內(nèi)平聲片段的總長(zhǎng)度、升調(diào)片段的平均長(zhǎng) 度、單位時(shí)間內(nèi)升調(diào)片段的總長(zhǎng)度、降調(diào)片段的平均長(zhǎng)度、單位時(shí)間內(nèi)降調(diào)片段的總長(zhǎng)度、 平聲片段的平均振幅偏移、升調(diào)片段的平均振幅偏移、降調(diào)片段的平均振幅偏移、單位時(shí)間 內(nèi)的音調(diào)差異和范圍、單位時(shí)間內(nèi)的音調(diào)斜率、語(yǔ)音信號(hào)的時(shí)間頻譜形狀和頻譜包絡(luò)樣式, 以及平聲、升調(diào)和降調(diào)趨勢(shì)的時(shí)間順序樣式。
5.根據(jù)權(quán)利要求4所述的方法,其中建立一個(gè)對(duì)語(yǔ)音語(yǔ)調(diào)進(jìn)行分類的語(yǔ)音參數(shù)參考數(shù) 據(jù)庫(kù)包括人工選擇某一語(yǔ)境;人工選擇所要分析的并處于所選擇語(yǔ)境中的行為、心理和說(shuō)話風(fēng)格特征;獲得人們?cè)谒x擇的語(yǔ)境中的多個(gè)語(yǔ)音語(yǔ)調(diào);將語(yǔ)音語(yǔ)調(diào)人工分成代表類似行為、心理和說(shuō)話風(fēng)格特征的組;將所述代表類似行為、心理和說(shuō)話風(fēng)格特征的組中的每一段語(yǔ)音預(yù)處理成無(wú)聲和有聲 片段;將有聲語(yǔ)音片段分成一串長(zhǎng)度相同的塊,所述塊帶有包括有音調(diào)和振幅參數(shù)的基本語(yǔ) 音參數(shù);導(dǎo)出多個(gè)第二語(yǔ)音參數(shù),其中所述多個(gè)選擇的語(yǔ)音參數(shù)包括以下參數(shù)中至少一個(gè)平 均停頓長(zhǎng)度、單位時(shí)間內(nèi)的總停頓長(zhǎng)度、短時(shí)沉默的平均長(zhǎng)度、單位時(shí)間內(nèi)短時(shí)沉默的總長(zhǎng) 度、平聲片段的平均長(zhǎng)度、單位時(shí)間內(nèi)平聲片段的總長(zhǎng)度、升調(diào)片段的平均長(zhǎng)度、單位時(shí)間 內(nèi)升調(diào)片段的總長(zhǎng)度、降調(diào)片段的平均長(zhǎng)度、單位時(shí)間內(nèi)降調(diào)片段的總長(zhǎng)度、平聲片段的平 均振幅偏移、升調(diào)片段的平均振幅偏移、降調(diào)片段的平均振幅偏移、單位時(shí)間內(nèi)的音調(diào)差異 和范圍、單位時(shí)間內(nèi)的音調(diào)斜率、語(yǔ)音信號(hào)的時(shí)間頻譜形狀和頻譜包絡(luò)樣式,以及平聲、升 調(diào)和降調(diào)趨勢(shì)的時(shí)間順序樣式;和從所述第二語(yǔ)音參數(shù)中確定每組所特有的第二語(yǔ)音參數(shù)、參數(shù)的組合和所述參數(shù)的 值,其中所述特有的第二參數(shù)是所述組內(nèi)語(yǔ)音片段所共有的并代表了每一組語(yǔ)音的典型行 為、心理或者說(shuō)話風(fēng)格特征。
6.根據(jù)權(quán)利要求5所述的方法,其還包含有預(yù)先獲得的包括在語(yǔ)音參數(shù)參考數(shù)據(jù)庫(kù)內(nèi) 的當(dāng)前分析的說(shuō)話者的語(yǔ)音樣本,以識(shí)別說(shuō)話者獨(dú)有的說(shuō)話方式,這樣對(duì)說(shuō)話者的當(dāng)前分 析就會(huì)成為說(shuō)話者相關(guān)的而不是說(shuō)話者無(wú)關(guān)的,以增加說(shuō)話者的環(huán)境行為、心理和說(shuō)話風(fēng) 格特征確認(rèn)和評(píng)估的準(zhǔn)確性。
7.根據(jù)權(quán)利要求5所述的方法,其還包括對(duì)在不同環(huán)境中的同一說(shuō)話者進(jìn)行分析,并 進(jìn)一步提取其在不同環(huán)境中重復(fù)出現(xiàn)并具有普遍性的語(yǔ)音樣式,以確認(rèn)所述說(shuō)話者的個(gè)性 特征并將所述個(gè)性特征與環(huán)境特征區(qū)別開(kāi)來(lái)。
8.根據(jù)權(quán)利要求5所述的方法,其還包括使用基于語(yǔ)音分析的情緒檢測(cè)以將說(shuō)話者的 當(dāng)前情緒狀態(tài)同環(huán)境特征區(qū)分開(kāi)來(lái),以增加說(shuō)話者的環(huán)境行為、心理和說(shuō)話風(fēng)格特征確認(rèn) 和評(píng)估的準(zhǔn)確性。
9.根據(jù)權(quán)利要求5所述的方法,其還包括使用基于語(yǔ)音識(shí)別技術(shù)的語(yǔ)音文字和內(nèi)容分 析,與韻律語(yǔ)音分析形成互補(bǔ),以增加說(shuō)話者的環(huán)境行為、心理和說(shuō)話風(fēng)格特征確認(rèn)和評(píng)估 的準(zhǔn)確性。
10.根據(jù)權(quán)利要求5所述的方法,其還包括使用基于說(shuō)話者的視覺(jué)分析的身體語(yǔ)言分 析,與語(yǔ)音分析形成互補(bǔ),以增加說(shuō)話者的環(huán)境行為、心理和說(shuō)話風(fēng)格特征確認(rèn)和評(píng)估的準(zhǔn) 確性。
11.根據(jù)權(quán)利要求5所述的方法,其還包括使用進(jìn)行中的說(shuō)話者行為、心理和說(shuō)話風(fēng)格 特征分析提供學(xué)習(xí)系統(tǒng)的特性,以改進(jìn)語(yǔ)音參數(shù)參考數(shù)據(jù)庫(kù)和分類處理。
12.根據(jù)權(quán)利要求5所述的方法,其還關(guān)注包括有多個(gè)說(shuō)話者的語(yǔ)音語(yǔ)調(diào),其中所述方 法還包括將多個(gè)說(shuō)話者的聲音區(qū)別開(kāi)來(lái)而且所述方法的每一次執(zhí)行只單獨(dú)分析一個(gè)說(shuō)話者ο
13.一種用于分析一說(shuō)話者在特定的環(huán)境和背景下的語(yǔ)音語(yǔ)調(diào)并確定所述說(shuō)話者在所 述特定環(huán)境和背景下的行為、心理和說(shuō)話風(fēng)格特征的數(shù)據(jù)處理系統(tǒng),所述系統(tǒng)包括一語(yǔ)音輸入單元,其用于對(duì)說(shuō)話者的聲音進(jìn)行采樣或者接收說(shuō)話者的聲音樣本信號(hào);一與所述語(yǔ)音輸入單元相連接以對(duì)從語(yǔ)音輸入單元輸入的語(yǔ)音樣本進(jìn)行預(yù)處理的預(yù) 處理單元;一與所述預(yù)處理單元相連接的主處理單元;與所述主處理單元相連接的輸出單元以及說(shuō)話者參考數(shù)據(jù)庫(kù);其中所述預(yù)處理單元用于對(duì)語(yǔ)音的采樣信號(hào)進(jìn)行預(yù)處理,以取得無(wú)聲和有聲語(yǔ)音片段并把有聲片段分成一串長(zhǎng) 度相同的塊,所述塊帶有包括有語(yǔ)調(diào)和振幅參數(shù)的基本語(yǔ)音參數(shù);其中所述數(shù)據(jù)庫(kù)用于根據(jù)基于其特有的第二語(yǔ)音參數(shù)以及所述參數(shù)的集合的行為、心 理和說(shuō)話風(fēng)格特征對(duì)語(yǔ)音語(yǔ)調(diào)進(jìn)行分類,其中所選的多個(gè)特有的第二語(yǔ)音參數(shù)包括一下參 數(shù)中的至少一項(xiàng)平均停頓長(zhǎng)度、單位時(shí)間內(nèi)的總停頓長(zhǎng)度、平均短沉默長(zhǎng)度、單位時(shí)間內(nèi) 短沉默的總長(zhǎng)度、平聲片段的平均長(zhǎng)度、單位時(shí)間內(nèi)平聲的總長(zhǎng)度、升調(diào)片段的平均長(zhǎng)度、 單位時(shí)間內(nèi)升調(diào)的總長(zhǎng)度、降調(diào)片段的平均長(zhǎng)度、單位時(shí)間內(nèi)降調(diào)的總長(zhǎng)度、平聲片段的平 均振幅偏移、升調(diào)片段的平均振幅偏移、降調(diào)片段的平均振幅偏移、單位時(shí)間內(nèi)的音調(diào)差異 和范圍、單位時(shí)間內(nèi)的音調(diào)斜率、語(yǔ)音信號(hào)的時(shí)間頻譜形狀以及頻譜包絡(luò)樣式,以及聲調(diào)、 降調(diào)和平聲聲調(diào)趨勢(shì)的時(shí)間順序樣式; 其中所述主處理單元用于從當(dāng)前分析的語(yǔ)音語(yǔ)調(diào)中導(dǎo)出多個(gè)從包含有所述第二語(yǔ)音參數(shù)的列表中選擇的第二 語(yǔ)音參數(shù);根據(jù)所述語(yǔ)音語(yǔ)調(diào)的第二參數(shù)計(jì)算出具代表性的環(huán)境行為、心理和說(shuō)話風(fēng)格特征所特 有的參數(shù)、參數(shù)的組合以及所述參數(shù)的值;通過(guò)將所述參數(shù)與預(yù)定義的第二語(yǔ)音參數(shù)的參考數(shù)據(jù)庫(kù)進(jìn)行比較以對(duì)環(huán)境行為、心理 和說(shuō)話風(fēng)格特征進(jìn)行確定和評(píng)估;其中所述輸出單元用于輸出分析結(jié)果。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中所述輸出單元包括以下接口中至少一種視覺(jué)、 音頻、存儲(chǔ)、文字、監(jiān)測(cè)設(shè)備接口、互聯(lián)網(wǎng)接口、本地和遠(yuǎn)程設(shè)備或者計(jì)算機(jī)接口、跨網(wǎng)絡(luò)接 口、有線、無(wú)線或者蜂窩電話接口、電腦游戲接口、玩具接口、個(gè)人電子記事本接口、以及電 子輸出設(shè)備接口。
15.根據(jù)權(quán)利要求13所述系統(tǒng),其中所述系統(tǒng)可以在通信系統(tǒng)內(nèi)實(shí)施,所述通信系統(tǒng) 選自一組群包括語(yǔ)音通信系統(tǒng)、無(wú)線或者有線電話系統(tǒng)、蜂窩通信網(wǎng)絡(luò)、基于網(wǎng)頁(yè)的通信 系統(tǒng)、其它IP語(yǔ)音通信系統(tǒng),或電話局通信系統(tǒng)。
16.根據(jù)權(quán)利要求13所述系統(tǒng),其中所述系統(tǒng)可以用于至少一個(gè)以下用途自我反饋、 自我了解、娛樂(lè)、行為訓(xùn)練、銷售優(yōu)化、客戶服務(wù)優(yōu)化、客戶和商業(yè)智能、防衛(wèi)和安全應(yīng)用、商 業(yè)協(xié)商、廣告、提親、約會(huì)、消遣、游戲、玩具、輔導(dǎo)、人力資源應(yīng)用、行政培訓(xùn)、雇員和職業(yè)培 訓(xùn)、心理和教育應(yīng)用,以及醫(yī)學(xué)應(yīng)用。
17.根據(jù)權(quán)利要求13所述系統(tǒng),其中所述數(shù)據(jù)庫(kù)還包括預(yù)先得到的當(dāng)前分析的說(shuō)話者 的語(yǔ)音樣本以識(shí)別所述說(shuō)話者獨(dú)有的說(shuō)話方式,這樣對(duì)所述說(shuō)話者的當(dāng)前分析會(huì)成為說(shuō)話 者相關(guān)的而不是說(shuō)話者無(wú)關(guān)的,以增加環(huán)境行為、心理和說(shuō)話方式特征確定和評(píng)估的準(zhǔn)確 性。
18.根據(jù)權(quán)利要求13所述系統(tǒng),其中所述系統(tǒng)還用于重復(fù)地分析同一說(shuō)話者在數(shù)個(gè)不 同環(huán)境中的語(yǔ)音樣本,并提取其在不同環(huán)境中重復(fù)出現(xiàn)的具有普遍性的語(yǔ)音樣式,以確定 所述說(shuō)話者的個(gè)性特征并將這些個(gè)性特征與環(huán)境特征區(qū)分開(kāi)來(lái)。
19.根據(jù)權(quán)利要求13所述系統(tǒng),其中所述系統(tǒng)還使用基于語(yǔ)音分析的情緒檢測(cè)以將當(dāng) 前情緒狀態(tài)從環(huán)境特征中區(qū)別開(kāi)來(lái),以增加環(huán)境行為、心理和說(shuō)話風(fēng)格特征確定和評(píng)估的 準(zhǔn)確性。
20.根據(jù)權(quán)利要求13所述系統(tǒng),其中所述系統(tǒng)還使用基于語(yǔ)音識(shí)別技術(shù)的語(yǔ)音文字和 內(nèi)容分析,與韻律語(yǔ)音分析形成互補(bǔ),以增加環(huán)境行為、心理和說(shuō)話風(fēng)格特征確定和評(píng)估的 準(zhǔn)確性。
21.根據(jù)權(quán)利要求13所述系統(tǒng),其中所述系統(tǒng)還使用了基于說(shuō)話者的視覺(jué)分析的身體 語(yǔ)言分析,與語(yǔ)音分析形成互補(bǔ),以增加環(huán)境行為、心理和說(shuō)話方式的特征確定和評(píng)估的準(zhǔn) 確性。
22.根據(jù)權(quán)利要求13所述系統(tǒng),其中所述系統(tǒng)還提供了基于使用進(jìn)行中的說(shuō)話者的行 為、心理和說(shuō)話風(fēng)格特征分析的學(xué)習(xí)系統(tǒng)特性,以改進(jìn)語(yǔ)音參數(shù)參考數(shù)據(jù)庫(kù)和分類處理。
23.根據(jù)權(quán)利要求13所述系統(tǒng),其中所述系統(tǒng)還關(guān)注包含有多個(gè)說(shuō)話者的語(yǔ)音語(yǔ)調(diào), 其中所述系統(tǒng)用于區(qū)分多個(gè)說(shuō)話者的聲音并每次執(zhí)行只單獨(dú)分析一個(gè)說(shuō)話者。
24.一種用于通過(guò)分析一個(gè)說(shuō)話者的語(yǔ)音語(yǔ)調(diào)而確定其在一個(gè)特定的環(huán)境和背景下的 行為、心理和說(shuō)話風(fēng)格特征的裝置,所述裝置包括一用于對(duì)說(shuō)話者的語(yǔ)音進(jìn)行采樣或者取得語(yǔ)音采樣信號(hào)的語(yǔ)音輸入單元;一與所述語(yǔ)音輸入單元相連接并用于對(duì)從語(yǔ)音輸入單元輸入的采樣信號(hào)進(jìn)行預(yù)處理 的預(yù)處理單元;一與所述預(yù)處理單元相連接的主處理單元;以及一與所述主處理單元相連接的主指示信號(hào)輸出單元;其中所述預(yù)處理單元用于對(duì)采樣的語(yǔ)音信號(hào)進(jìn)行預(yù)處理,以取得無(wú)聲和有聲語(yǔ)音片段并把有聲片段分成一串長(zhǎng) 度相同的塊,所述塊帶有包括有語(yǔ)調(diào)和振幅參數(shù)的基本語(yǔ)音參數(shù);其中所述裝置與一個(gè)參考數(shù)據(jù)庫(kù)相關(guān)聯(lián),所述數(shù)據(jù)庫(kù)用于根據(jù)基于其特有的第二語(yǔ)音 參數(shù)以及所述參數(shù)的集合的行為、心理和說(shuō)話風(fēng)格特征對(duì)語(yǔ)音語(yǔ)調(diào)進(jìn)行分類,其中所選的多個(gè)特有的第二語(yǔ)音參數(shù)包括一下參數(shù)中的至少一項(xiàng)平均停頓長(zhǎng)度、單位時(shí)間內(nèi)的總停 頓長(zhǎng)度、平均短沉默長(zhǎng)度、單位時(shí)間內(nèi)短沉默的總長(zhǎng)度、平聲片段的平均長(zhǎng)度、單位時(shí)間內(nèi) 平聲的總長(zhǎng)度、升調(diào)片段的平均長(zhǎng)度、單位時(shí)間內(nèi)升調(diào)的總長(zhǎng)度、降調(diào)片段的平均長(zhǎng)度、單 位時(shí)間內(nèi)降調(diào)的總長(zhǎng)度、平聲片段的平均振幅偏移、升調(diào)片段的平均振幅偏移、降調(diào)片段的 平均振幅偏移、單位時(shí)間內(nèi)的音調(diào)差異和范圍、單位時(shí)間內(nèi)的音調(diào)斜率、語(yǔ)音信號(hào)的時(shí)間頻 譜形狀以及頻譜包絡(luò)樣式,以及聲調(diào)、降調(diào)和平聲聲調(diào)趨勢(shì)的時(shí)間順序樣式;其中所述主處理單元用于從當(dāng)前分析的語(yǔ)音語(yǔ)調(diào)中導(dǎo)出多個(gè)從包含有所述第二語(yǔ)音參數(shù)的列表中選擇的第二 語(yǔ)音參數(shù);根據(jù)所述語(yǔ)音語(yǔ)調(diào)的第二參數(shù)計(jì)算出具代表性的環(huán)境行為、心理和說(shuō)話風(fēng)格特征的特 有的參數(shù)、參數(shù)的組合以及它們的值;通過(guò)將所述參數(shù)與預(yù)定義的第二語(yǔ)音參數(shù)的參考數(shù) 據(jù)庫(kù)進(jìn)行比較以對(duì)環(huán)境行為、心理和說(shuō)話風(fēng)格特征進(jìn)行確定和評(píng)估;其中所述主指示信號(hào)輸出單元用于輸出分析結(jié)果。
25.根據(jù)權(quán)利要求M所述的裝置,其中所述裝置包含有至少一個(gè)以下用途自我反饋、 自我了解、娛樂(lè)、行為訓(xùn)練、銷售優(yōu)化、客戶服務(wù)優(yōu)化、客戶和商業(yè)智能、防衛(wèi)和安全應(yīng)用、商 業(yè)協(xié)商、廣告、提親、約會(huì)、消遣、游戲、玩具、輔導(dǎo)、人力資源應(yīng)用、行政培訓(xùn)、雇員和職業(yè)培 訓(xùn)、心理和教育應(yīng)用,以及醫(yī)學(xué)應(yīng)用。
26.根據(jù)權(quán)利要求M所述的裝置,其中所述裝置選自一個(gè)列表,所述列表包括聲音 通信設(shè)備、有線或者無(wú)線聲音設(shè)備、蜂窩通信設(shè)備、聯(lián)網(wǎng)的個(gè)人掌上電腦(PDA)、非聯(lián)網(wǎng)的 PDA、錄音設(shè)備、個(gè)人電腦和服務(wù)器。
27.根據(jù)權(quán)利要求M所述的裝置,其中所述輸出單元包括至少一個(gè)以下接口視覺(jué)、音 頻、存儲(chǔ)、文字、監(jiān)測(cè)設(shè)備接口、互聯(lián)網(wǎng)接口、本地和遠(yuǎn)程設(shè)備或者計(jì)算機(jī)接口、跨網(wǎng)絡(luò)接口、 有線、無(wú)線或者蜂窩電話接口、電腦游戲接口、玩具接口、個(gè)人電子記事本接口,以及電子輸 出設(shè)備接口。
全文摘要
本發(fā)明公開(kāi)了一種用于通過(guò)對(duì)說(shuō)話者在某一特定環(huán)境和背景下的語(yǔ)音語(yǔ)調(diào)進(jìn)行分析以確定說(shuō)話者在所述特定環(huán)境和背景下的當(dāng)前行為、心理和說(shuō)話風(fēng)格特征的計(jì)算機(jī)執(zhí)行方法、數(shù)據(jù)處理系統(tǒng)、裝置和計(jì)算機(jī)程序產(chǎn)品。所述分析計(jì)算了語(yǔ)音語(yǔ)調(diào)的包含有語(yǔ)調(diào)和振幅參數(shù)的基本語(yǔ)音參數(shù)的特有的二階導(dǎo)數(shù),并將這些特有參數(shù)與已得到的標(biāo)示不同行為、心理和說(shuō)話風(fēng)格特征的參考語(yǔ)音數(shù)據(jù)相比較。本方法包括所述語(yǔ)音參數(shù)參考分類數(shù)據(jù)庫(kù)的構(gòu)成,以及對(duì)說(shuō)話者的語(yǔ)音語(yǔ)調(diào)的分析以確定所述說(shuō)話者在特定的環(huán)境里的當(dāng)前行為、心理和說(shuō)話風(fēng)格的特征。
文檔編號(hào)G10L15/06GK102124515SQ200980132034
公開(kāi)日2011年7月13日 申請(qǐng)日期2009年6月17日 優(yōu)先權(quán)日2008年6月17日
發(fā)明者依賽·扎姆爾, 尤阿伍·德加尼 申請(qǐng)人:聲感有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
池州市| 富平县| 双桥区| 灌南县| 清河县| 滨海县| 盘山县| 庐江县| 曲靖市| 金秀| 贡嘎县| 定州市| 通化市| 青田县| 寿宁县| 辽宁省| 深圳市| 海宁市| 炉霍县| 宿迁市| 稻城县| 基隆市| 嘉定区| 莱芜市| 巴林左旗| 伊金霍洛旗| 布尔津县| 姜堰市| 贡山| 杭锦旗| 巩留县| 丹棱县| 剑阁县| 高安市| 新泰市| 银川市| 叶城县| 林周县| 沾益县| 余干县| 海淀区|