定時間閾值是范圍在100毫秒到1000毫秒的時間量。在一些實施例中,預定時間閾值是一段時間,其持續(xù)時間選自I秒到10秒的范圍。在一些實施例中,預定時間閾值是5秒到40秒的范圍。在一些實施例中,預定時間閾值是10、20、30、40、50、60、70或80毫秒,或者大于I秒。
[0070]應(yīng)該理解,描述圖5中操作的特定次序僅僅是示例性的,并且不旨在指示所述次序是可以執(zhí)行操作的唯一次序。本領(lǐng)域普通技術(shù)人員將認識到各種方式來對這里所述的操作進行重新排序。此外,應(yīng)該注意:這里所述的關(guān)于方法500的(這里結(jié)合圖5所述的)其他處理的細節(jié)還可以相似方式適用于上面結(jié)合圖4所述的方法400。例如,上面參考方法500所述的語音數(shù)據(jù)及其接收、語音及其輸出、語音的調(diào)整或丟棄、以及語音重疊可以具有以下中的一個或多個特征:這里參考方法400所述的語音數(shù)據(jù)及其接收、語音及其輸出、語音的調(diào)整或丟棄、以及語音重疊。為了簡短,這里不再重復這些細節(jié)。
[0071]圖6圖示了根據(jù)一些實施例處理并發(fā)語音的示例。如圖6中所示,四個講話者(講話者1-4)通過一個或多個客戶端102在相同或大約相同時間(時間=Tl)講話。來自講話者1-4的語音數(shù)據(jù)(SP 1-4)一一包括音頻和/或視頻信息,以及對應(yīng)元數(shù)據(jù)一一然后被發(fā)射到調(diào)度服務(wù)器106。調(diào)度服務(wù)器106處理語音數(shù)據(jù)并且有調(diào)整或無調(diào)整地輸出語音。
[0072]如圖6中所示,SP I (講話者I的語音)在時間=T2或大約在該時間輸出。在一些實施例中,T2等于Tl。換句話說,SP I當被接收時輸出(例如,沒有延遲)。在其他實施例中,T2在Tl之后。在一些情形中,Tl和T2之間的時間間隔來自非人工延遲(或內(nèi)在延遲),諸如網(wǎng)絡(luò)等待時間(諸如通信網(wǎng)絡(luò)104(圖1)內(nèi)的等待時間),和/或設(shè)備等待時間(諸如調(diào)度服務(wù)器106或客戶端102內(nèi)的處理等待時間)。在其他情形中,Tl和T2之間的時間間隔來自人工延遲,諸如調(diào)度服務(wù)器106有意或故意增加的延遲。
[0073]在SP I的輸出之后,也輸出SP 2(講話者2的語音)。在這個示例中,在SP I之后立即輸出SP 2,例如,以最小化系統(tǒng)空閑,或者獲取特定通信用途,諸如保持語音之間的連貫。在其他實施例中,在SP I的結(jié)尾和SP 2的開始之間添加人工延遲,例如,以提供清晰度。
[0074]如圖6中所示,在輸出SP 2之后,SP 3和SP 4在同時或大約同時輸出,作為并發(fā)或重疊語音。在一些實施例中,允許預定義程度的并發(fā)或重疊,例如,當語音音量高時,以便增加吞吐量。在一些實施例中,預定義程度的并發(fā)是可修改的,由客戶端102的用戶通過瀏覽器106或會議應(yīng)用108中顯示的接口控件(例如,按鈕),或者由調(diào)度服務(wù)器106,根據(jù)調(diào)度參數(shù)130和/或語音元數(shù)據(jù)來控制。參看圖6,在一些可替換實施例中,丟棄SP 3或SP4。
[0075]圖7圖示了根據(jù)一些實施例處理并發(fā)語音的第二示例。在這個示例中,為了處理并發(fā)語音,根據(jù)語音元數(shù)據(jù)延遲或丟棄特定語音。
[0076]如圖7中所示,三個講話者(講話者1-3)在同時或大約同時講話(時間=T1)。來自講話者1-3的語音數(shù)據(jù)(SP 1-3)一一包括音頻和/或視頻信息,以及對應(yīng)元數(shù)據(jù)一一被發(fā)射到調(diào)度服務(wù)器106。調(diào)度服務(wù)器106處理語音數(shù)據(jù),并且以各種調(diào)整輸出對應(yīng)語音。
[0077]基于所接收到的語音數(shù)據(jù),調(diào)度服務(wù)器106將SP 2 (來自講話者2的語音)分類為主語音。根據(jù)這個分類,SP 2首先被輸出,沒有調(diào)整(例如,原樣)。在一些實施例中,語音的分類至少部分地基于語音數(shù)據(jù)。例如,如果語音的內(nèi)容包括滿足預定義重要準則集的術(shù)語,則語音被分類為主語音。在另一示例中,如果語音元數(shù)據(jù)包括滿足預定義重要準則集合的信息(例如,語音的長度或語音的定時),則語音被分類為主語音。在其他實施例中,語音分類根據(jù)語音數(shù)據(jù)而做出,諸如基于預先存在的講話者之間的關(guān)系。例如,SP 2被分類為主語音,因為講話者2在組織中是講話者I和3的上級。
[0078]在SP 2的輸出之前或期間,調(diào)度服務(wù)器106將SP I分類為打斷語音,因為SP 2重疊SP I即主語音的較早部分。在一些實施例中,打斷語音被丟棄或延遲,直到檢測到主語音內(nèi)的暫停。這里,因為SP I不包括暫停,而且因為SP 2重疊SP I的較早部分(打斷SP I “太早”),SP 2被丟棄(被示為“X”)。
[0079]在一些實施例中,在預定的語音管理策略集合下,語音被調(diào)度服務(wù)器106丟棄。在一些實施例中,語音管理策略集合包括確定語音為打斷語音且重疊主語音的較早部分(例如,打斷太早)。在其他實施例中,語音管理策略包括確定語音被延遲了多于預定時間量。在實現(xiàn)中,當語音處于用于調(diào)度輸出的隊列中,語音管理策略包括確定語音處于輸出隊列中已多于預定時間量。換句話說,當語音被認為“舊”時就被丟棄。在一些情形中,舊語音被丟棄是因為其可能由于會談焦點的推移而已變得與會話無關(guān)。在一些實施例中,當語音被延遲多于I秒、多于5秒、多于10秒、多于20秒或多于I分鐘時就被認為是舊的。
[0080]在一些實施例中,語音還響應(yīng)于特定用戶輸入,諸如用戶點擊瀏覽器106或會議應(yīng)用108中的“丟棄”按鈕,而被丟棄。在一些情形中,通過防止重要語音在早期階段被打斷從而不必在其完全傳遞之前被重復,丟棄語音增加了通信有效性和語音清晰度。
[0081]在SP 2的輸出之前或期間,調(diào)度服務(wù)器106還確定SP 3重疊SP 2的較后部分。根據(jù)這一確定,SP 3在SP 2之后調(diào)整輸出。在這個示例中,調(diào)度服務(wù)器106有意地或故意地使SP 3(講話者3的語音)的輸出延遲時間間隔DLYl (702)。在一些實施例中,有意添加的延遲量與語音的內(nèi)容或分類成比例。例如,重要語音和打斷語音之間希望具有更大的延遲,以便向聽眾給出足夠時間來消化重要語音的內(nèi)容。但是,在另一示例中,在陳述與對其的澄清之間希望具有較小的延遲或沒有延遲,以便最小化混淆。
[0082]圖8圖示了根據(jù)一些實施例處理并發(fā)語音的第三示例。在這個示例中,根據(jù)講話者角色,并且通過修改后的延遲,處理并發(fā)語音。
[0083]如圖8中所示,具有不同角色的四個講話者一一主講話者、打斷講話者、高優(yōu)先級講話者和低優(yōu)先級講話者一一在同時或大約同時(時間=Tl)講話。在一些實施例中,講話者角色是獨立于語音數(shù)據(jù)而確定的,例如基于預先存在的講話者之間的關(guān)系。在其他實施例中,至少部分地基于語音數(shù)據(jù),諸如語音的內(nèi)容、與語音相關(guān)聯(lián)的時間戳、語音的長度和語音的分類而確定講話者角色。在一些實施例中,語音優(yōu)先級是從講話者角色或講話者優(yōu)先級導出的。
[0084]在圖8中所示的示例中,SP 2(主講話者的語音)被接收和輸出,而沒有調(diào)整。SPI (打斷講話者的語音)被丟棄(“X”),因為其通過重疊SP 2的較早部分而與主講話者相干擾。
[0085]在一些實施例中,具有與預定義閾值優(yōu)先級相等或更高的優(yōu)先級的語音不被丟棄,即使該語音重疊主語音。例如,SP 3 (高優(yōu)先級講話者的語音)不被丟棄,盡管SP 3(像SP I)也重疊SP 2的一部分。因為SP 3來自高優(yōu)先級的講話者,調(diào)度服務(wù)器106在SP 2之后輸出SP 3,而不是丟棄SP 3。類似地,SP 4(低優(yōu)先級講話者的語音)也不被丟棄。在一些實施例中,較高優(yōu)先級語音在較低優(yōu)先級語音之前輸出。例如,SP 4在SP 3之后被輸出,因為SP 3比SP 4具有更高優(yōu)先級。
[0086]在一些實施例中,根據(jù)確定主語音超過預定長度,在主語音之后輸出的語音通過縮短其中所包括的延遲而調(diào)整(例如,去除主語音內(nèi)的暫停)。在一個這樣的示例中,SP 3和SP 4都包括暫停:分別是DLY 3 (802)和DLY 4 (804)。因為SP 3和SP 4都在SP 2 (主語音)之后輸出,并且SP 2超過預定閾值長度,SP 3和SP 4內(nèi)的暫停一一DLY 3(802)和DLY 4(804)——分別被縮短為DLY 3’ (806)和DLY 4’(808)。該方法不僅通過丟棄打斷語音而增加了語音清晰度,而且通過在低優(yōu)先級語音之前輸出高優(yōu)先級語音而增強了用戶體驗。在一些實施例中,預定閾值長度是范圍在100毫秒到1000毫秒的時間量。在一些實施例中,預定閾值長度是一段時間,其持續(xù)時間選自I秒到10秒的范圍。在一些實施例中,預定閾值長度的范圍為5秒到40秒。在一些實施例中,預定閾值長度為10、20、30、40、50、60、70或80毫秒,或者大于I秒。
[0087]在一些實施例中,在客戶端102處,瀏覽器150或會議應(yīng)用108的用戶接口(“Π”)根據(jù)講話者角色而被確定。例如,在一些實現(xiàn)中,主講話者的用戶接口包括“丟棄”按鈕,當被點擊時,丟棄另一講話者的正在進行的語音(由此使得主講話者能夠在主講話者覺得合適的任何時候打斷其他講話者)。在一些實現(xiàn)中,根據(jù)確定講話者被分類為打斷講話者或低優(yōu)先級講話者,該講話者的瀏覽器150或會議應(yīng)用108中的“丟棄”按鈕變得不可用(例如,“變灰”),由此避免打斷講話者或低優(yōu)先級講話者能干擾主講話者或高優(yōu)先級講話者的情形。
[0088]在一些實施例中,瀏覽器150或會議應(yīng)用108的用戶接口還包括一個或多個用戶控件,所述一個或多個用戶控件提供會議系統(tǒng)的使用信息和/或會話中參與者或語音的狀態(tài)信息。在一些實現(xiàn)中,使用信息包括:當前等待輸出的語音的數(shù)量(例如,輸出隊列的大小)。在一些實施例中,包括使用信息的轉(zhuǎn)換。例如,輸出隊列的大小被轉(zhuǎn)換并顯示為當前等待輸出的語音的總長度(例如,當輸出隊列接近滿時為10秒,或當隊列接近空時為10毫秒)。
[0089]會話中參與者或語音的狀態(tài)信息在一些實現(xiàn)中包括:延遲語音在輸出隊列中的位置(例如,在延遲語音之前相同輸出隊列中語音的數(shù)目),被延遲特定講話者語音的數(shù)目(例如,對于低優(yōu)先級講話者,語音的數(shù)目或長度被延遲),指示未來語音是否將“覆寫”特定參與者的延遲語音的信息(例如,表示低優(yōu)先級講話者的圖標上的閃紅燈,表示如果參會者現(xiàn)在講話,特定參與者的語音將使得低優(yōu)先級講話者的延遲語音被進一步延遲或甚至丟棄),指示延遲的語音是否正被丟棄的信息(例如,快閃紅燈指示延遲的語音正被丟棄),指示當前被延遲的參與者的語音的數(shù)目接近或已經(jīng)超出閾值數(shù)目的信息(例如,計數(shù)器或進度條,指示輸出隊列有多么“擁擠”),指示未來語音將被延遲的可能性的信息(例如,慢速閃黃燈指示,如果參與者現(xiàn)在講話,參與者的語音將可能被延遲),以及指示實時轉(zhuǎn)錄是否可用于會議系統(tǒng)的參與者的信息(例如,“聊天窗口中的轉(zhuǎn)錄”按鈕是否可點擊或“變灰”)。
[0090]提供使用或狀態(tài)信息(或反饋)的用戶控件的顯示減少用戶挫折,因為用戶變得知道其語音的狀態(tài),和/或相同會話中其他參與者的語音的狀態(tài),由此增強會議系統(tǒng)的用戶體驗。
[0091]圖9圖示了根據(jù)一些實施例處理并發(fā)語音的第四示例。在這個示例中,根據(jù)講話者角色來處理并發(fā)語音,并且具有重疊輸出。
[0092]在圖9中所示的示例中,兩個講話者,主講話者和打斷講話者,在同時或大約同時講話。語音數(shù)據(jù)被發(fā)射到調(diào)度服務(wù)器106以處理和調(diào)度輸出。如上所討論的,可以至少部分地基于語音數(shù)據(jù)或獨立于語音數(shù)據(jù)來確定講話者角色和語音優(yōu)先級。
[0093]在這個示例中,因為SP I是來自主講話者的語音,所以SP I先輸出并且沒有修改或調(diào)整。根據(jù)確定SP I的長度超過預定閾值長度且在SP I內(nèi)沒有暫停,SP 2 (來自打斷講話者的語音)與SP I的一部分并發(fā)輸出。換句話說,在主講話者已被講出太長而沒有暫?;蛞V沟嫩E象的情形中,另一講話者的語音可以被輸出,盡管其將重疊主語音的一部分。這個方法確保來自講話者的語音,而不管