自動(dòng)創(chuàng)建文本數(shù)據(jù)與音頻數(shù)據(jù)之間的映射的制作方法
【專利摘要】提供了一種用于創(chuàng)建映射的技術(shù),該映射將音頻數(shù)據(jù)(例如,音頻書)中的位置映射到文本數(shù)據(jù)(例如,電子書)中對(duì)應(yīng)的位置。提供了一種用于使用音頻數(shù)據(jù)與文本數(shù)據(jù)之間映射的技術(shù),無論該映射是自動(dòng)還是手動(dòng)創(chuàng)建的。映射可以用于書簽切換,其中在數(shù)字作品的一個(gè)版本(例如,電子書)中建立的書簽用于標(biāo)識(shí)該作品的另一版本(例如,音頻書)中的對(duì)應(yīng)位置。備選地,映射可以用于播放對(duì)應(yīng)于用戶選擇的文本的音頻。備選地,映射可以用于響應(yīng)于對(duì)應(yīng)于文本的音頻被播放自動(dòng)突出顯示該文本。備選地,映射可以用于確定一個(gè)媒體上下文中創(chuàng)建的注釋將在另一媒體上下文中消費(fèi)的位置。
【專利說明】自動(dòng)創(chuàng)建文本數(shù)據(jù)與音頻數(shù)據(jù)之間的映射
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通過分析音頻數(shù)據(jù)以檢測(cè)其中反映的詞語并且將所述詞語與文檔中的詞語進(jìn)行比較來自動(dòng)創(chuàng)建文本數(shù)據(jù)與音頻數(shù)據(jù)之間的映射。
【發(fā)明內(nèi)容】
[0002]根據(jù)某些實(shí)施方式,提供了一種方法,該方法包括:接收反映針對(duì)其而存在文本版本的作品的可聽版本的音頻數(shù)據(jù);執(zhí)行對(duì)音頻數(shù)據(jù)的語音至文本分析,以生成針對(duì)音頻數(shù)據(jù)的部分的文本;并且基于針對(duì)音頻數(shù)據(jù)的部分而生成的文本,生成音頻數(shù)據(jù)中的多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射。該方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
[0003]在某些實(shí)施方式中,生成針對(duì)音頻數(shù)據(jù)的部分的文本包括:至少部分地基于作品的文本上下文生成針對(duì)音頻數(shù)據(jù)的部分的文本。在某些實(shí)施方式中,至少部分地基于作品的文本上下文生成針對(duì)音頻數(shù)據(jù)的部分的文本包括至少部分地基于在作品的文本版本中使用的語法的一個(gè)或多個(gè)規(guī)則生成文本。在某些實(shí)施方式中,至少部分地基于作品的文本上下文生成針對(duì)音頻數(shù)據(jù)的部分的文本包括基于哪些詞語在作品的文本版本或其子集中,來限制所述部分可以被轉(zhuǎn)譯成哪些詞語。在某些實(shí)施方式中,基于哪些詞語在作品的文本版本中來限制所述部分可以被轉(zhuǎn)譯成哪些詞語包括針對(duì)音頻數(shù)據(jù)的給定部分,標(biāo)識(shí)作品的文本版本中對(duì)應(yīng)于給定部分的子部分,并且僅將詞語限制為作品的文本版本的子部分中的那些詞語。在某些實(shí)施方式中,標(biāo)識(shí)作品的文本版本中的子部分包括維持作品的文本版本中與音頻數(shù)據(jù)中的語音至文本分析的當(dāng)前音頻位置相對(duì)應(yīng)的當(dāng)前文本位置;并且作品的文本版本的子部分是與當(dāng)前文本位置相關(guān)聯(lián)的部分。
[0004]在某些實(shí)施方式中,所述部分包括對(duì)應(yīng)于個(gè)體詞語的部分,并且映射將對(duì)應(yīng)于個(gè)體詞語的部分的位置映射到作品的文本版本中的個(gè)體詞語。在某些實(shí)施方式中,所述部分包括對(duì)應(yīng)于個(gè)體語句的部分,并且映射將對(duì)應(yīng)于個(gè)體語句的部分的位置映射到作品的文本版本中的個(gè)體語句。在某些實(shí)施方式中,所述部分包括對(duì)應(yīng)于固定量的數(shù)據(jù)的部分,并且映射將對(duì)應(yīng)于固定量的數(shù)據(jù)的部分映射到作品的文本版本中的對(duì)應(yīng)位置。
[0005]在某些實(shí)施方式中,生成映射包括:(I)將錨點(diǎn)嵌入音頻數(shù)據(jù)中;(2)將錨點(diǎn)嵌入作品的文本版本中;或者(3)將映射存儲(chǔ)在與音頻數(shù)據(jù)或作品的文本版本相關(guān)聯(lián)存儲(chǔ)的媒體覆蓋(media overlay)中。
[0006]在某些實(shí)施方式中,多個(gè)文本位置的一個(gè)或多個(gè)位置中的每個(gè)位置指示作品的文本版本中的相對(duì)位置。在某些實(shí)施方式中,多個(gè)文本位置中的一個(gè)文本位置指示作品的文本版本中的相對(duì)位置,并且多個(gè)文本位置中的另一文本位置指示距該相對(duì)位置的絕對(duì)位置。在某些實(shí)施方式中,多個(gè)文本位置的一個(gè)或多個(gè)位置中的每個(gè)位置指示作品的文本版本內(nèi)的錨點(diǎn)。
[0007]根據(jù)某些實(shí)施方式,提供了一種方法,該方法包括:接收作品的文本版本;執(zhí)行對(duì)該文本版本的文本至語音分析以生成第一音頻數(shù)據(jù);基于該第一音頻數(shù)據(jù)和文本版本,生成該第一音頻數(shù)據(jù)中的第一多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的第一映射;接收反映針對(duì)其而存在文本版本的作品的可聽版本的第二音頻數(shù)據(jù);并且基于(I)第一音頻數(shù)據(jù)與第二音頻數(shù)據(jù)之間的比較以及(2)第一映射,生成第二音頻數(shù)據(jù)中的第二多個(gè)音頻位置與作品的文本版本中的多個(gè)文本位置之間的第二映射。該方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
[0008]根據(jù)某些實(shí)施方式,提供了一種方法,該方法包括接收音頻輸入;執(zhí)行對(duì)該音頻輸入的語音至文本分析,以生成針對(duì)該音頻輸入的部分的文本;確定針對(duì)該音頻輸入的部分而生成的文本是否與當(dāng)前顯示的文本匹配;以及響應(yīng)于確定該文本與當(dāng)前顯示的文本匹配,使得當(dāng)前顯示的文本被突出顯示。該方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
[0009]根據(jù)某些實(shí)施方式,提供了一種電子設(shè)備,該電子設(shè)備包括音頻數(shù)據(jù)接收單元,被配置用于接收反映針對(duì)其而存在文本版本的作品的可聽版本的音頻數(shù)據(jù)。該電子設(shè)備還包括耦合至該音頻數(shù)據(jù)接收單元的處理單元。該處理單元被配置為:執(zhí)行對(duì)音頻數(shù)據(jù)的語音至文本分析以生成針對(duì)音頻數(shù)據(jù)的部分的文本;并且基于針對(duì)音頻數(shù)據(jù)的部分而生成的文本,生成音頻數(shù)據(jù)中的多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射。
[0010]根據(jù)某些實(shí)施方式,提供了一種電子設(shè)備,該電子設(shè)備包括文本接收單元,被配置用于接收作品的文本版本。該電子設(shè)備還包括耦合至該文本接收單元的處理單元,該處理單元被配置為:執(zhí)行對(duì)該文本版本的文本至語音分析,以生成第一音頻數(shù)據(jù);并且基于第一音頻數(shù)據(jù)和文本版本,生成第一音頻數(shù)據(jù)中的第一多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的第一映射。該電子設(shè)備還包括音頻數(shù)據(jù)接收單元,被配置用于接收反映針對(duì)其而存在文本版本的作品的可聽版本的第二音頻數(shù)據(jù)。該處理單元進(jìn)一步被配置為基于(I)第一音頻數(shù)據(jù)與第二音頻數(shù)據(jù)之間的比較以及(2)第一映射,生成第二音頻數(shù)據(jù)中的第二多個(gè)音頻位置與作品的文本版本中的多個(gè)文本位置之間的第二映射。
[0011]根據(jù)某些實(shí)施方式,提供了一種電子設(shè)備,該電子設(shè)備包括音頻接收單元,被配置用于接收音頻輸入。該電子設(shè)備還包括耦合至該音頻接收單元的處理單元。該處理單元被配置為執(zhí)行對(duì)該音頻輸入的語音至文本分析,以生成針對(duì)該音頻輸入的部分的文本;確定針對(duì)該音頻輸入的部分而生成的文本是否與當(dāng)前顯示的文本匹配;以及響應(yīng)于確定該文本與當(dāng)前顯示的文本匹配,使得當(dāng)前顯示的文本被突出顯示。
[0012]根據(jù)某些實(shí)施方式,提供了一種方法,該方法包括:獲取指示作品的文本版本內(nèi)的指定位置的位置數(shù)據(jù);檢查作品的音頻版本中的多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射以用于:確定多個(gè)文本位置中對(duì)應(yīng)于指定位置的特定文本位置,并且基于該特定文本位置,確定多個(gè)音頻位置中對(duì)應(yīng)于特定文本位置的特定音頻位置。該方法包括向媒體播放器提供基于特定文本位置而確定的特定音頻位置,以使得媒體播放器將特定音頻位置建立為音頻數(shù)據(jù)的當(dāng)前回放位置。該方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
[0013]在某些實(shí)施方式中,獲取包括服務(wù)器通過網(wǎng)絡(luò)從第一設(shè)備接收位置數(shù)據(jù);檢查與提供由服務(wù)器執(zhí)行;以及提供包括服務(wù)器向執(zhí)行媒體播放器的第二設(shè)備發(fā)送特定音頻位置。在某些實(shí)施方式中,第二設(shè)備和第一設(shè)備是相同設(shè)備。在某些實(shí)施方式中,獲取、檢查與提供由被配置為顯示作品的文本版本以及執(zhí)行媒體播放器的計(jì)算設(shè)備執(zhí)行。在某些實(shí)施方式中,方法進(jìn)一步包括在被配置為顯示作品的文本版本的設(shè)備處,確定位置數(shù)據(jù)而不需要來自設(shè)備的用戶的輸入。
[0014]在某些實(shí)施方式中,該方法進(jìn)一步包括從用戶接收輸入;并且響應(yīng)于接收到輸入,基于該輸入確定位置數(shù)據(jù)。在某些實(shí)施方式中,向媒體播放器提供特定音頻位置包括:向媒體播放器提供特定音頻位置以使得該媒體播放器處理開始于當(dāng)前回放位置的音頻數(shù)據(jù),該處理使得媒體播放器從經(jīng)處理的音頻數(shù)據(jù)生成音頻;并且使得所述媒體播放器處理所述音頻數(shù)據(jù)是響應(yīng)于接收到輸入而執(zhí)行的。
[0015]在某些實(shí)施方式中,輸入選擇作品的文本版本中的多個(gè)詞語;指定位置是第一指定位置;位置數(shù)據(jù)還指示作品的文本版本內(nèi)的、不同于第一指定位置的第二指定位置;檢查進(jìn)一步包括檢查映射以用于:確定多個(gè)文本位置中對(duì)應(yīng)于第二指定位置的第二特定文本位置,并且基于該第二特定文本位置,確定多個(gè)音頻位置中對(duì)應(yīng)于第二特定文本位置的第二特定音頻位置;以及向媒體播放器提供特定音頻位置包括向媒體播放器提供第二特定音頻位置,以使得該媒體播放器在當(dāng)前回放位置到達(dá)或接近第二特定音頻位置時(shí)停止處理音頻數(shù)據(jù)。
[0016]在某些實(shí)施方式中,該方法進(jìn)一步包括:獲取基于來自用戶的輸入的注釋數(shù)據(jù);與指定位置相關(guān)聯(lián)地存儲(chǔ)注釋數(shù)據(jù);以及使得關(guān)于該注釋數(shù)據(jù)的信息被顯示。在某些實(shí)施方式中,使得關(guān)于特定音頻位置和注釋數(shù)據(jù)的信息被顯示包括:確定音頻數(shù)據(jù)的當(dāng)前回放位置何時(shí)處于或接近特定音頻位置;以及響應(yīng)于確定音頻數(shù)據(jù)的當(dāng)前回放位置處于或接近特定音頻位置,使得關(guān)于注釋數(shù)據(jù)的信息被顯示。
[0017]在某些實(shí)施方式中,注釋數(shù)據(jù)包括文本數(shù)據(jù);以及使得關(guān)于注釋數(shù)據(jù)的信息被顯示包括顯示該文本數(shù)據(jù)。在某些實(shí)施方式中,注釋數(shù)據(jù)包括話音數(shù)據(jù);以及使得關(guān)于注釋數(shù)據(jù)的信息被顯示包括處理該話音數(shù)據(jù)以生成音頻。
[0018]根據(jù)某些實(shí)施方式,提供了一種電子設(shè)備,該電子設(shè)備包括位置數(shù)據(jù)獲取單元,被配置用于獲取指示作品的文本版本內(nèi)的指定位置的位置數(shù)據(jù)。該電子設(shè)備還包括耦合至該位置數(shù)據(jù)獲取單元的處理單元。該處理單元被配置為檢查作品的音頻版本中的多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射以用于:確定多個(gè)文本位置中對(duì)應(yīng)于指定位置的特定文本位置,并且基于該特定文本位置,確定多個(gè)音頻位置中對(duì)應(yīng)于特定文本位置的特定音頻位置;以及向媒體播放器提供基于特定文本位置而確定的特定音頻位置,以使得媒體播放器將特定音頻位置建立為音頻數(shù)據(jù)的當(dāng)前回放位置。
[0019]根據(jù)某些實(shí)施方式,提供了一種方法,該方法包括獲取指示音頻數(shù)據(jù)內(nèi)的指定位置的位置數(shù)據(jù);檢查音頻數(shù)據(jù)中的多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射以用于:確定多個(gè)音頻位置中對(duì)應(yīng)于指定位置的特定音頻位置,并且基于該特定音頻位置,確定多個(gè)文本位置中對(duì)應(yīng)于該特定音頻位置的特定文本位置;以及使得媒體播放器顯示關(guān)于該特定文本位置的信息。該方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
[0020]在某些實(shí)施方式中,獲取包括服務(wù)器通過網(wǎng)絡(luò)從第一設(shè)備接收位置數(shù)據(jù);檢查與使得由服務(wù)器執(zhí)行;以及使得包括服務(wù)器向執(zhí)行媒體播放器的第二設(shè)備發(fā)送特定文本位置。在某些實(shí)施方式中,第二設(shè)備和第一設(shè)備是相同設(shè)備。在某些實(shí)施方式中,獲取、檢查與使得由被配置為顯示作品的文本版本以及執(zhí)行媒體播放器的計(jì)算設(shè)備執(zhí)行。在某些實(shí)施方式中,該方法進(jìn)一步包括在被配置為處理音頻數(shù)據(jù)的設(shè)備處,確定位置數(shù)據(jù)而不需要來自設(shè)備的用戶的輸入。[0021]在某些實(shí)施方式中,該方法進(jìn)一步包括:從用戶接收輸入;并且響應(yīng)于接收到輸入,基于該輸入確定位置數(shù)據(jù)。在某些實(shí)施方式中,使得包括使得媒體播放器顯示作品的文本版本中對(duì)應(yīng)于該特定文本位置的一部分;以及使得媒體播放器顯示作品的文本版本的一部分是響應(yīng)于接收到該輸入而被執(zhí)行的。
[0022]在某些實(shí)施方式中,輸入選擇音頻數(shù)據(jù)的節(jié)段;指定位置是第一指定位置;位置數(shù)據(jù)還指示音頻數(shù)據(jù)內(nèi)的、不同于該第一指定位置的第二指定位置;檢查進(jìn)一步包括檢查映射以用于:確定多個(gè)音頻位置中對(duì)應(yīng)于第二指定位置的第二特定音頻位置,并且基于該第二特定音頻位置,確定多個(gè)文本位置中對(duì)應(yīng)于該第二特定音頻位置的第二特定文本位置;以及使得媒體播放器顯示關(guān)于特定文本位置的信息進(jìn)一步包括使得媒體播放器顯示關(guān)于該第二特定文本位置的信息。
[0023]在某些實(shí)施方式中,指定位置對(duì)應(yīng)于音頻數(shù)據(jù)中的當(dāng)前回放位置;使得在指定位置處的音頻數(shù)據(jù)被處理并且生成音頻時(shí)被執(zhí)行;以及使得包括使得第二媒體播放器突出顯示作品的文本版本內(nèi)的特定文本位置處或附近的文本。
[0024]在某些實(shí)施方式中,該方法進(jìn)一步包括:獲取基于來自用戶的輸入的注釋數(shù)據(jù);與指定位置相關(guān)聯(lián)地存儲(chǔ)注釋數(shù)據(jù);以及使得關(guān)于該注釋數(shù)據(jù)的信息被顯示。在某些實(shí)施方式中,使得關(guān)于特定音頻位置和注釋數(shù)據(jù)的信息被顯示包括:確定作品的文本版本中對(duì)應(yīng)于特定文本位置的一部分何時(shí)被顯示;以及響應(yīng)于確定作品的文本版本中對(duì)應(yīng)于特定文本位置的一部分被顯示,使得關(guān)于注釋數(shù)據(jù)的信息被顯示。
[0025]在某些實(shí)施方式中,注釋數(shù)據(jù)包括文本數(shù)據(jù);以及使得關(guān)于注釋數(shù)據(jù)的信息被顯示包括使得該文本數(shù)據(jù)被顯示。在某些實(shí)施方式中,注釋數(shù)據(jù)包括話音數(shù)據(jù);以及使得關(guān)于注釋數(shù)據(jù)的信息被顯示包括使得該話音數(shù)據(jù)被處理以生成音頻。
[0026]根據(jù)某些實(shí)施方式,提供了一種方法,該方法包括在作品的音頻版本的回放期間:獲取指示音頻版本內(nèi)的指定位置的位置數(shù)據(jù),并且基于該指定位置確定作品的文本版本中與暫停數(shù)據(jù)相關(guān)聯(lián)的特定文本位置,所述暫停數(shù)據(jù)指示何時(shí)暫停音頻版本的回放;以及響應(yīng)于確定特定文本位置與暫停數(shù)據(jù)相關(guān)聯(lián),暫停音頻版本的回放。該方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
[0027]在某些實(shí)施方式中,暫停數(shù)據(jù)在作品的文本版本內(nèi)。在某些實(shí)施方式中,確定特定文本位置包括:檢查音頻數(shù)據(jù)中的多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射以用于:確定多個(gè)音頻位置中對(duì)應(yīng)于指定位置的特定音頻位置,并且基于該特定音頻位置,確定多個(gè)文本位置中對(duì)應(yīng)于特定音頻位置的特定文本位置。
[0028]在某些實(shí)施方式中,暫停數(shù)據(jù)對(duì)應(yīng)于在作品的文本版本中反映的頁面的結(jié)束。在某些實(shí)施方式中,暫停數(shù)據(jù)對(duì)應(yīng)于作品的文本版本內(nèi)的、緊鄰不包括文本的圖片之前的位置。
[0029]在某些實(shí)施方式中,該方法進(jìn)一步包括響應(yīng)于接收到用戶輸入而繼續(xù)音頻版本的回放。在某些實(shí)施方式中,該方法進(jìn)一步包括響應(yīng)于自音頻版本的回放被暫停起特定時(shí)間量的流逝繼續(xù)音頻版本的回放。
[0030]根據(jù)某些實(shí)施方式,提供了一種方法,該方法包括在作品的音頻版本的回放期間:獲取指示音頻版本內(nèi)的指定位置的位置數(shù)據(jù),以及基于該指定位置確定作品的文本版本中與頁面結(jié)束數(shù)據(jù)相關(guān)聯(lián)的特定文本位置,所述頁面結(jié)束數(shù)據(jù)指示在所述作品的文本版本中反映的第一頁面的結(jié)束;以及響應(yīng)于確定特定文本位置與頁面結(jié)束數(shù)據(jù)相關(guān)聯(lián),自動(dòng)使得第一頁面停止被顯示并且使得第一頁面之后的第二頁面被顯示。該方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
[0031]在某些實(shí)施方式中,該方法進(jìn)一步包括檢查音頻數(shù)據(jù)中的多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射以用于:確定多個(gè)音頻位置中對(duì)應(yīng)于指定位置的特定音頻位置以及基于該特定音頻位置,確定多個(gè)文本位置中對(duì)應(yīng)于特定音頻位置的特定文本位置。
[0032]根據(jù)某些實(shí)施方式,提供了一種電子設(shè)備,該電子設(shè)備包括位置獲取單元,被配置用于獲取指示音頻數(shù)據(jù)內(nèi)的指定位置的位置數(shù)據(jù)。該電子設(shè)備還包括耦合至該位置獲取單元的處理單元。該處理單元被配置為:檢查音頻數(shù)據(jù)中的多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射以用于:確定多個(gè)音頻位置中對(duì)應(yīng)于指定位置的特定音頻位置,以及基于該特定音頻位置,確定多個(gè)文本位置中對(duì)應(yīng)于該特定音頻位置的特定文本位置;以及使得媒體播放器顯示關(guān)于特定文本位置的信息。
[0033]根據(jù)某些實(shí)施方式,提供了一種電子設(shè)備,該電子設(shè)備包括位置獲取單元,被配置用于在作品的音頻版本的回放期間獲取指示音頻版本內(nèi)的指定位置的位置數(shù)據(jù)。該電子設(shè)備還包括耦合至該位置獲取單元的處理單元,該處理單元被配置為在作品的音頻版本的回放期間:基于該指定位置確定作品的文本版本中與頁面結(jié)束數(shù)據(jù)相關(guān)聯(lián)的特定文本位置,所述頁面結(jié)束數(shù)據(jù)指示在作品的文本版本中反映的第一頁面的結(jié)束;并且響應(yīng)于確定特定文本位置與頁面結(jié)束數(shù)據(jù)相關(guān)聯(lián),自動(dòng)使得第一頁面停止被顯示并且使得第一頁面之后的第二頁面被顯示。
[0034]根據(jù)某些實(shí)施方式,提供了一種方法,該方法包括在作品的第一版本被處理時(shí),獲取基于來自用戶的輸入的注釋數(shù)據(jù);存儲(chǔ)將該注釋數(shù)據(jù)與作品相關(guān)聯(lián)的關(guān)聯(lián)數(shù)據(jù);以及在作品的第二版本被處理時(shí),使得關(guān)于注釋數(shù)據(jù)的信息被顯示,其中第二版本與第一版本不同;以及其中該方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
[0035]在某些實(shí)施方式中,獲取包括確定指示作品的第一版本內(nèi)的指定位置的位置數(shù)據(jù);存儲(chǔ)包括與作品相關(guān)聯(lián)地存儲(chǔ)的位置數(shù)據(jù);指定位置對(duì)應(yīng)于作品的第二版本內(nèi)的特定位置;以及使得包括使得關(guān)于注釋數(shù)據(jù)的信息與第二版本中的特定位置相關(guān)聯(lián)地被顯示。
[0036]在某些實(shí)施方式中,第一版本是作品的音頻版本,并且第二版本是作品的文本版本;使得關(guān)于注釋數(shù)據(jù)的信息被顯示包括:確定作品的文本版本中對(duì)應(yīng)于特定位置的一部分何時(shí)被顯示;以及響應(yīng)于確定作品的文本版本中對(duì)應(yīng)于特定位置的一部分被播放,使得關(guān)于注釋數(shù)據(jù)的信息被顯示。在某些實(shí)施方式中,第一版本是作品的文本版本并且第二版本是作品的音頻版本;使得關(guān)于注釋數(shù)據(jù)的信息被顯示包括:確定作品的音頻版本中對(duì)應(yīng)于該特定位置的一部分何時(shí)被播放;以及響應(yīng)于確定作品的音頻版本中對(duì)應(yīng)于該特定位置的一部分被播放,使得關(guān)于注釋數(shù)據(jù)的信息被顯示。
[0037]在某些實(shí)施方式中,注釋數(shù)據(jù)包括文本數(shù)據(jù);以及使得關(guān)于注釋數(shù)據(jù)的信息被顯示包括使得文本數(shù)據(jù)被顯示。在某些實(shí)施方式中,注釋數(shù)據(jù)包括話音數(shù)據(jù);以及使得關(guān)于注釋數(shù)據(jù)的信息被顯示包括使得話音數(shù)據(jù)被處理以生成音頻。
[0038]根據(jù)某些實(shí)施方式,提供了一種電子設(shè)備,該電子設(shè)備包括注釋獲取單元,被配置用于在作品的第一版本被處理時(shí),獲取基于來自用戶的輸入的注釋數(shù)據(jù);以及耦合至該注釋獲取單元和關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)單元的處理單元,該處理單元被配置用于:使得將該注釋數(shù)據(jù)與作品相關(guān)聯(lián)的關(guān)聯(lián)數(shù)據(jù)被存儲(chǔ);以及在作品的第二版本被處理時(shí),使得關(guān)于注釋數(shù)據(jù)的信息被顯示,其中第二版本與第一版本不同。
[0039]在某些實(shí)施方式中,提供了一種方法,該方法包括接收在作品的第一版本內(nèi)建立第一書簽的數(shù)據(jù)。該方法進(jìn)一步包括檢查作品的第一版本中的多個(gè)第一位置與作品的第二版本中對(duì)應(yīng)的多個(gè)第二位置之間的映射以用于:確定多個(gè)第一位置中對(duì)應(yīng)于第一書簽的特定第一位置,以及基于該特定第一位置,確定多個(gè)第二位置中對(duì)應(yīng)于該特定第一位置的特定第二位置;其中作品的第一版本與作品的第二版本不同。該方法進(jìn)一步包括使得將特定第二位置建立為作品的第二版本內(nèi)的第二書簽的數(shù)據(jù)被存儲(chǔ);其中該方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
[0040]在某些實(shí)施方式中,接收包括服務(wù)器通過網(wǎng)絡(luò)從第一設(shè)備接收輸入;檢查由服務(wù)器執(zhí)行;并且使得包括服務(wù)器向第二設(shè)備發(fā)送特定第二位置。在某些實(shí)施方式中,第一設(shè)備和第二設(shè)備是不同的設(shè)備。在某些實(shí)施方式中,作品的第一版本是作品的音頻版本或作品的文本版本中的一個(gè),并且作品的第二版本是音頻版本或文本版本中的另一個(gè)。
[0041]根據(jù)某些實(shí)施方式,提供了一種電子設(shè)備,該電子設(shè)備包括數(shù)據(jù)接收單元,被配置用于接收在作品的第一版本內(nèi)建立第一書簽的數(shù)據(jù)。該電子設(shè)備還包括耦合至該數(shù)據(jù)接收單元的處理單元,該處理單元被配置用于:檢查作品的第一版本中的多個(gè)第一位置與作品的第二版本中對(duì)應(yīng)的多個(gè)第二位置之間的映射以用于:確定多個(gè)第一位置中對(duì)應(yīng)于第一書簽的特定第一位置,以及基于該特定第一位置,確定多個(gè)第二位置中對(duì)應(yīng)于該特定第一位置的特定第二位置;其中作品的第一版本與作品的第二版本不同。該處理單元還被配置用于使得將特定第二位置建立為作品的第二版本內(nèi)的第二書簽的數(shù)據(jù)被存儲(chǔ)。
[0042]根據(jù)某些實(shí)施方式,提供了一種方法,該方法包括使得作品的文本的一部分被設(shè)備顯示;在該文本的一部分被顯示時(shí):在該設(shè)備處接收來自用戶的音頻輸入。該方法進(jìn)一步包括響應(yīng)于接收到該音頻輸入:分析該音頻輸入以標(biāo)識(shí)一個(gè)或多個(gè)詞語;確定該一個(gè)或多個(gè)詞語是否被映在該文本的一部分中;以及響應(yīng)于確定該一個(gè)或多個(gè)詞語反映在該文本的一部分中,使得可視指示被設(shè)備顯示。在某些實(shí)施方式中,使得可視指示被顯示包括使得對(duì)應(yīng)于該一個(gè)或多個(gè)詞語的文本數(shù)據(jù)被突出顯示。
[0043]根據(jù)某些實(shí)施方式,提供了一種電子設(shè)備,該電子設(shè)備包括處理單元,被配置用于使得作品的文本的一部分被設(shè)備顯示;以及音頻接收單元,耦合至該處理單元并且被配置用于在該設(shè)備處接收來自用戶的音頻輸入。該處理單元進(jìn)一步被配置用于響應(yīng)于在音頻接收單元處接收到該音頻輸入:分析該音頻輸入以標(biāo)識(shí)一個(gè)或多個(gè)詞語;確定該一個(gè)或多個(gè)詞語是否被反映在該文本的一部分中;以及響應(yīng)于確定該一個(gè)或多個(gè)詞語被反映在該文本的一部分中,使得可視指示被設(shè)備顯示。
[0044]根據(jù)某些實(shí)施方式,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有供電子設(shè)備的一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序,該一個(gè)或多個(gè)程序包括用于執(zhí)行任意上述方法的指令。根據(jù)某些實(shí)施方式,提供了 一種電子設(shè)備,該電子設(shè)備包括用于執(zhí)行任意上述方法的裝置。在某些實(shí)施方式中,提供了 一種電子設(shè)備,該電子設(shè)備包括一個(gè)或多個(gè)處理器以及存儲(chǔ)有供該一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序的存儲(chǔ)器,該一個(gè)或多個(gè)程序包括用于執(zhí)行任意上述方法的指令。在某些實(shí)施方式中,提供了用于在電子設(shè)備中使用的信息處理設(shè)備,該信息處理設(shè)備包括用于執(zhí)行任意上述方法的裝置。
【背景技術(shù)】
[0045]隨著手持電子設(shè)備成本的增加以及對(duì)數(shù)字內(nèi)容的大量需求,曾經(jīng)在印刷媒體上出版的創(chuàng)作作品逐漸變成作為數(shù)字媒體可用。例如,數(shù)字書(也被稱為“電子書”)連同被稱為電子書閱讀器(或“電子閱讀器”)的專用手持電子設(shè)備逐漸變得流行。同樣,其他手持設(shè)備(諸如平板計(jì)算機(jī)和智能手機(jī))雖然沒有單獨(dú)設(shè)計(jì)為電子閱讀器,但是其具有操作為電子閱讀器的能力。
[0046]電子書被格式化的常用標(biāo)準(zhǔn)是EPUB標(biāo)準(zhǔn)(“電子出版物”的簡(jiǎn)稱),其作為國際數(shù)字出版論壇(IDPF)的免費(fèi)開放電子書標(biāo)準(zhǔn)。EPUB文件使用XHTML1.1 (或DTBook)來構(gòu)建書的內(nèi)容。版式和布局使用CSS的子集(被稱為OPS樣式表)執(zhí)行。
[0047]針對(duì)某些已寫作品,尤其是那些變得流行的作品,創(chuàng)建所述已寫作品的音頻版本。例如,創(chuàng)建名人(或具有動(dòng)聽嗓音的人)閱讀已寫作品的記錄并且使其可供購買,無論是在線還是在實(shí)體店。
[0048]客戶購買電子書以及該電子書的音頻版本(或“音頻書”)兩者并非不常見。在某些情況下,用戶閱讀電子書的全部?jī)?nèi)容并且然后期望收聽該音頻書。在其他情況下,用戶基于其周圍環(huán)境在閱讀與收聽該書之間轉(zhuǎn)變。例如,在從事運(yùn)動(dòng)或上下班驅(qū)車時(shí),用戶將傾向于收聽書的音頻版本。另一方面,在上床之前在沙發(fā)上休息時(shí),用戶將傾向于閱讀書的電子書版本。遺憾地是,此類轉(zhuǎn)變可能是痛苦的,這是因?yàn)橛脩舯仨毣叵肫鹚V乖陔娮訒奈恢貌⑶沂謩?dòng)定位在音頻書中的開始位置,反之亦然。即使用戶清楚地回想起在該用戶停止時(shí)書中正在發(fā)生的事情,此類轉(zhuǎn)變可能仍然是痛苦的,這是因?yàn)橹勒诎l(fā)生的事情并不能使得找到電子書或音頻書中對(duì)應(yīng)于那些正在發(fā)生的事情的一部分變得容易。因此,在電子書與音頻書之間切換可能非常耗時(shí)。
[0049]規(guī)范“EPUB Media 0verlays3.0”定義了用于表示同步文本和音頻出版物的SMIL(同步多媒體集成語言)、分組文檔、EPUB樣式表和EPUB內(nèi)容文檔的使用。出版物的預(yù)記錄敘述可以被表示為一系列音頻節(jié)段(clip),每個(gè)音頻節(jié)段對(duì)應(yīng)于文本的一部分。組成預(yù)記錄敘述的一系列音頻節(jié)段中的每個(gè)單個(gè)音頻節(jié)段通常表示單個(gè)短語或段落,但推斷不出相對(duì)其他節(jié)段或文檔文本的順序。媒體覆蓋通過使用SMIL標(biāo)記將結(jié)構(gòu)化音頻敘述連結(jié)到EPUB內(nèi)容文檔中的其對(duì)應(yīng)文本來解決此同步問題。媒體覆蓋是SMIL3.0中允許這些節(jié)段的回放序列被定義的簡(jiǎn)化子集。
[0050]遺憾地是,創(chuàng)建媒體覆蓋文件需要大量手動(dòng)處理。因此,作品的音頻版本與文本版本之間的映射的粒度非常粗糙。例如,媒體覆蓋文件可以將電子書中每個(gè)段落的開始處與該書的音頻版本中的對(duì)應(yīng)位置相關(guān)聯(lián)。媒體覆蓋文件(尤其是針對(duì)小說的媒體覆蓋文件)不包含以任意更細(xì)化級(jí)粒度(諸如基于逐詞)的映射的原因是創(chuàng)建此類高粒度媒體覆蓋文件可能花費(fèi)無法計(jì)量的人力勞動(dòng)時(shí)間。
[0051]本部分中描述的方法是可以購買的方法,但未必是先前已經(jīng)構(gòu)想或購買的方法。因此,除非另行指出,不應(yīng)當(dāng)僅憑借本部分的包含的內(nèi)容就假設(shè)本部分中描述的任意方法屬于現(xiàn)有技術(shù)。【專利附圖】
【附圖說明】
[0052]在附圖中:
[0053]圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施方式描繪用于自動(dòng)創(chuàng)建文本數(shù)據(jù)與音頻數(shù)據(jù)之間的映射的過程的流程圖;
[0054]圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施方式描繪在生成文本數(shù)據(jù)與音頻數(shù)據(jù)之間的映射中涉及的音頻至文本相關(guān)器的過程的框圖;
[0055]圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施方式描繪用于使用這些情形中一個(gè)或多個(gè)情形中的映射的過程的流程圖;
[0056]圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施方式可以用于實(shí)現(xiàn)某些這里所述過程的示例系統(tǒng)400的框圖;
[0057]圖5A至圖5B是根據(jù)本發(fā)明的一個(gè)實(shí)施方式描繪用于書簽切換的過程的流程圖;
[0058]圖6是根據(jù)本發(fā)明的一個(gè)實(shí)施方式描繪用于在作品的音頻版本播放時(shí)使得來自該作品的文本版本中的文本被突出顯示的過程的流程圖;
[0059]圖7是根據(jù)本發(fā)明的一個(gè)實(shí)施方式描繪用于響應(yīng)于來自用戶的音頻輸入突出顯示被顯示的文本的過程的流程圖;
[0060]圖8A至圖SB是根據(jù)本發(fā)明的一個(gè)實(shí)施方式描繪用于將注釋從一個(gè)媒體上下文轉(zhuǎn)移到另一媒體上下文的過程的流程圖;以及
[0061]圖9是其上可以實(shí)現(xiàn)本發(fā)明的一個(gè)實(shí)施方式的計(jì)算機(jī)系統(tǒng)的框圖。
[0062]圖10至圖18是根據(jù)某些實(shí)施方式的電子設(shè)備的功能框圖。
【具體實(shí)施方式】
[0063]在以下描述中,出于解釋的目的,闡述了若干具體細(xì)節(jié)以便提供對(duì)本發(fā)明的透徹理解。然而,應(yīng)當(dāng)理解,本發(fā)明可以不需要這些具體細(xì)節(jié)而被實(shí)踐。在其他實(shí)例中,已知結(jié)構(gòu)和設(shè)備以框圖形式示出以便避免對(duì)本發(fā)明的不必要混淆。
[0064]自動(dòng)生成音頻至文本映射的概述
[0065]根據(jù)一種方法,映射被自動(dòng)創(chuàng)建,其中映射將作品的音頻版本(例如,音頻書)內(nèi)的位置與作品的文本版本(例如,電子書)中的對(duì)應(yīng)位置映射。該映射通過對(duì)音頻版本執(zhí)行語音至文本分析以標(biāo)識(shí)音頻版本中反映的詞語來創(chuàng)建。將所標(biāo)識(shí)的詞語與作品的文本版本中對(duì)應(yīng)的詞語匹配。該映射將所標(biāo)的識(shí)詞語的(音頻版本內(nèi)的)位置與該作品的文本版本中找到所標(biāo)識(shí)詞語的位置相關(guān)聯(lián)。
[0066]音頻版本格式
[0067]音頻數(shù)據(jù)反映作品的文本版本(諸如書、網(wǎng)頁、小冊(cè)子、傳單等)的文本的可聽閱讀。音頻數(shù)據(jù)可以被存儲(chǔ)在一個(gè)或多個(gè)音頻文件中。該一個(gè)或多個(gè)音頻文件可以為許多文件格式之一。音頻文件格式的非限制示例包括AAC、MP3、WAV和PCM。
[0068]文本版本格式
[0069]類似地,音頻數(shù)據(jù)被映射到的文本數(shù)據(jù)可以以許多文檔文件格式之一存儲(chǔ)。文檔文件格式的非限制示例包括DOC、TXT、PDF、RTF、HTML、XHTML和EPUB。
[0070]典型的EPUB文檔伴隨有以下文檔,該文檔(a)列出了每個(gè)XHTML內(nèi)容文檔,并且(b)指示了 XHTML內(nèi)容文檔的順序。例如,如果書包括20個(gè)章節(jié),則針對(duì)該書的EPUB文檔可以具有20個(gè)不同的XHTML文檔,針對(duì)每個(gè)章節(jié)一個(gè)XHTML文檔。伴隨EPUB文檔的文件標(biāo)識(shí)XHTML文檔中與書中章節(jié)的順序?qū)?yīng)的順序。因此,單個(gè)(邏輯)文檔(EPUB文檔或另一類型的文檔)可以包括多個(gè)數(shù)據(jù)項(xiàng)或文件。
[0071]文本數(shù)據(jù)中反映的詞語或字符可以為一種或多種語言。例如,文本數(shù)據(jù)的一部分可以是英語而文本數(shù)據(jù)的另一部分可以是法語。雖然這里提供的是英語詞語的示例,但是本發(fā)明的各實(shí)施方式可以應(yīng)用于其他語言,包括基于字符的語言。
[0072]映射中的音頻位置和文本位置
[0073]如本文所述,映射包括映射記錄集,其中每個(gè)映射記錄將音頻位置與文本位置相關(guān)聯(lián)。
[0074]每個(gè)音頻位置標(biāo)識(shí)音頻數(shù)據(jù)中的位置。音頻位置可以指示音頻數(shù)據(jù)內(nèi)的絕對(duì)位置、音頻數(shù)據(jù)內(nèi)的相對(duì)位置或者絕對(duì)位置與相對(duì)位置的組合。作為絕對(duì)位置的示例,音頻位置可以指示去往音頻數(shù)據(jù)中的時(shí)間偏移(例如,指示4小時(shí)32分鐘24秒的04:32:24)或者時(shí)間范圍,如上文示例A中所示。作為相對(duì)位置的示例,音頻位置可以指示章節(jié)號(hào)、段落號(hào)和行號(hào)。作為絕對(duì)位置和相對(duì)位置的組合的示例,音頻位置可以指示章節(jié)號(hào)以及由該章節(jié)號(hào)指示的去往章節(jié)中的時(shí)間偏移。
[0075]類似地,每個(gè)文本位置指示文本數(shù)據(jù)(諸如作品的文本版本)中的位置。文本位置可以指示作品的 文本版本內(nèi)的絕對(duì)位置,作品的文本版本內(nèi)的相對(duì)位置,或者絕對(duì)位置和相對(duì)位置的組合。作為絕對(duì)位置的示例,文本位置可以指示作品的文本版本中的字節(jié)偏移和/或作品的文本版本內(nèi)的“錨點(diǎn)”。錨點(diǎn)是文本數(shù)據(jù)內(nèi)標(biāo)識(shí)文本的特定位置或部分的元數(shù)據(jù)。錨點(diǎn)可以與文本數(shù)據(jù)中向終端用戶顯示的文本分離存儲(chǔ)或者可以存儲(chǔ)在向終端用戶顯示的文本之中。例如,文本數(shù)據(jù)可以包括以下語句:“Why did the chicken〈iname= “123”/ >cross the road?”,其中“<i name= “123”/ >”是錨點(diǎn)。當(dāng)將該語句向用戶顯示時(shí),用戶僅看到“Why did the chicken cross the road?”類似地,相同的語句可以具有多個(gè)錨點(diǎn)如下:“〈i name= “123” / >ffhy<i name= “124” / >did<i name= “125” />the〈i name= “126” / >chicken〈i name= “127” / >cross<i name= “128” / >the〈iname= “129” / >road?”在此示例中,在語句中的每個(gè)詞語之前存在錨點(diǎn)。
[0076]作為相對(duì)位置的示例,文本位置可以指示頁面號(hào)、章節(jié)號(hào)、段落號(hào)和/或行號(hào)。作為絕對(duì)位置和相對(duì)位置的組合的示例,文本位置可以指示章節(jié)號(hào)以及該章節(jié)號(hào)指示的去往章節(jié)中的錨點(diǎn)。
[0077]在標(biāo)題為“EPUB Media 0verlays3.0”的規(guī)范中提供了如何表示文本位置和音頻位置的示例,該規(guī)范定義了 SMIL(同步多媒體集成語言)、EPUB樣式表和EPUB內(nèi)容文檔的使用。將文本位置與音頻位置相關(guān)聯(lián)并且在規(guī)范中提供的關(guān)聯(lián)的示例如下:
[0078]〈par〉
[0079]〈text src=" chapterl.xhtml#sentencel" / >
[0080]〈audio src=" chapterl_audi0.mp3" clipBegin=" 23s"clipEnd=〃 45s〃 / >
[0081]< / par〉
[0082]示例 A
[0083]在示例A中,“par”元素包括兩個(gè)子元素:“text”元素和“audio”元素。文本元素包括標(biāo)識(shí)XHTML文檔內(nèi)包含書的第一章節(jié)的內(nèi)容的特定語句的屬性“src”。音頻元素包括標(biāo)識(shí)包含書的第一章節(jié)的音頻版本的音頻文件的“src”屬性,標(biāo)識(shí)音頻文件內(nèi)音頻節(jié)段開始位置的“clipBegin”屬性,以及標(biāo)識(shí)音頻文件內(nèi)音頻節(jié)段結(jié)束位置的“clipEnd”屬性。因此,音頻文件中23秒至45秒對(duì)應(yīng)于書中章節(jié)I的第一語句。
[0084]創(chuàng)建文本與音頻之間的映射
[0085]根據(jù)一個(gè)實(shí)施方式,作品的文本版本與相同作品的音頻版本之間的映射被自動(dòng)生成。由于該映射是自動(dòng)生成的,因此映射可以使用比實(shí)際使用手動(dòng)文本至音頻映射技術(shù)細(xì)化得多的粒度。每個(gè)自動(dòng)生成的文本至音頻映射包括多個(gè)映射記錄,其中每個(gè)映射記錄將文本版本中的文本位置與音頻版本中的音頻位置相關(guān)聯(lián)。
[0086]圖1是描繪了根據(jù)本發(fā)明的一個(gè)實(shí)施方式用于自動(dòng)創(chuàng)建作品的文本版本與相同作品的音頻版本之間的映射的過程100的流程圖。在步驟110,語音至文本分析器接收反映作品的音頻版本的音頻數(shù)據(jù)。在步驟120,當(dāng)語音至文本分析器執(zhí)行音頻數(shù)據(jù)的分析時(shí),語音至文本分析器生成針對(duì)音頻數(shù)據(jù)的部分的文本。在步驟130,基于針對(duì)音頻數(shù)據(jù)的部分生成的文本,語音至文本分析器生成音頻數(shù)據(jù)中的多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射。
[0087]步驟130可以包括語音至文本分析器將生成的文本與作品的文本版本中的文本進(jìn)行比較,以確定所生成文本在作品的文本版本中所處的位置。針對(duì)在作品的文本版本中找到的生成的文本的每個(gè)部分,語音至文本分析器將(I)指示音頻數(shù)據(jù)的對(duì)應(yīng)部分在該音頻數(shù)據(jù)內(nèi)被找到的音頻位置與(2)指示文本的該部分在作品的文本版本內(nèi)被找到的文本位置相關(guān)聯(lián)。
[0088]文本上下文
[0089]每個(gè)文檔具有“文本上下文”。作品的文本版本的文本上下文包括作品的文本版本的內(nèi)在特性(例如,書寫作品的文本版本的語言、作品的文本版本使用的特定詞語、作品的文本版本使用的語法和標(biāo)點(diǎn)、作品的文本版本組織的方式等),以及作品的外部特性(例如,創(chuàng)作該作品的時(shí)期、作品所屬的流派、作品的作者等)。
[0090]不同的作品可以具有顯著不同的文本上下文。例如,經(jīng)典英國小說中使用的語法可能與現(xiàn)代詩的語法有很大差別。因此,雖然某個(gè)詞語順序可能遵循一個(gè)語法的規(guī)則,但相同詞語順序可能違反另一語法的規(guī)則。類似地,經(jīng)典英國小說與現(xiàn)代詩兩者中使用的語法可能不同于(或其中缺少)一個(gè)青少年向另一個(gè)青少年發(fā)送的文本消息中采用的語法。
[0091]如上文所述,這里描述的一個(gè)技術(shù)通過執(zhí)行作品的音頻版本的語音至文本轉(zhuǎn)換來自動(dòng)創(chuàng)建作品的音頻版本與相同作品的文本版本之間細(xì)化粒度映射。在一個(gè)實(shí)施方式中,作品的文本上下文用于增加對(duì)作品的音頻版本執(zhí)行的語音至文本分析的準(zhǔn)確性。例如,為了確定作品中采用的語法,語音至文本分析器(或另一過程)可以在執(zhí)行語音至文本分析之前分析作品的文本版本。語音至文本分析器繼而可以利用因此獲取的語法信息來增加作品的音頻版本的語音至文本分析的準(zhǔn)確性。
[0092]代替或除了基于作品的文本版本自動(dòng)確定作品的語法,用戶可以提供標(biāo)識(shí)遵循作品作者的一個(gè)或多個(gè)語法規(guī)則的輸入。與所標(biāo)識(shí)語法相關(guān)聯(lián)的規(guī)則被輸入至語音至文本分析器以用于在識(shí)別作品的音頻版本中的詞語方面輔助該分析器。
[0093]基于文本版本限制候選字典
[0094]通常,語音至文本分析器必須被配置或設(shè)計(jì)為識(shí)別英語中的幾乎每個(gè)詞語,并且可選地識(shí)別其他語言中的某些詞語。因此,語音至文本分析器必須具有對(duì)大型詞典的訪問。在語音至文本操作期間語音至文本分析器可以從中選擇詞語的字典這里被稱為語音至文本分析器的“候選字典”。典型候選字典中唯一詞語(unique word)的數(shù)目近似500,000。
[0095]在一個(gè)實(shí)施方式中,當(dāng)執(zhí)行對(duì)作品的音頻版本的語音至文本分析時(shí)考慮來自該作品的文本版本的文本。具體地,在一個(gè)實(shí)施方式中,在對(duì)作品的音頻版本的語音至文本分析期間,由語音至文本分析器使用的候選字典局限于該作品的文本版本中詞語的特定集合。換言之,在對(duì)作品的音頻版本執(zhí)行語音至文本操作期間那些被認(rèn)為是“候選”的詞語只是那些確實(shí)出現(xiàn)在該作品的文本版本中的詞語。
[0096]通過將特定作品語音至文本轉(zhuǎn)譯中使用的候選字典限制為在該作品的文本版本中出現(xiàn)的那些詞語,語音至文本操作可以被顯著改進(jìn)。例如,假設(shè)特定作品中唯一詞語的數(shù)目是20,OOO0常規(guī)語音至文本分析器可能難于確定音頻的特定部分對(duì)應(yīng)于500,000詞語候選字典中的哪些具體詞語。然而,當(dāng)僅考慮該作品的文本版本中的20,000個(gè)唯一詞語時(shí),音頻的相同部分可能明確地對(duì)應(yīng)于一個(gè)特定詞語。因此,通過此類小得多的可能詞語的字典,語音至文本分析器的準(zhǔn)確性可以被顯著提高。
[0097]基于當(dāng)前位置限制候選字典
[0098]為了提高準(zhǔn)確性,候選字典可能被局限于甚至比作品的文本版本中所有詞語更少的詞語。在一個(gè)實(shí)施方式中,候選字典被限制為那些在作品的文本版本的特定部分中找到的詞語。例如,在作品的語音至文本轉(zhuǎn)譯期間,可以近似追蹤轉(zhuǎn)譯操作相對(duì)于作品的文本版本的“當(dāng)前轉(zhuǎn)譯位置”。例如,此類追蹤可以通過將(a)目前為止在語音至文本操作期間已經(jīng)生成的文本與(b)作品的文本版本進(jìn)行比較來執(zhí)行。
[0099]一旦當(dāng)前轉(zhuǎn)譯位置被確定,候選字典可以基于當(dāng)前轉(zhuǎn)譯位置被進(jìn)一步局限。例如,在一個(gè)實(shí)施方式中,候選字典被限制于僅在作品的文本版本內(nèi)當(dāng)前轉(zhuǎn)譯位置之后出現(xiàn)的那些詞語。因此,在當(dāng)前轉(zhuǎn)譯位置之前找到的但其后沒有找到的詞語有效地從候選字典中移除。此類移除可以增加語音至文本分析器的準(zhǔn)確性,這是由于候選字典越小,語音至文本分析器將音頻數(shù)據(jù)的一部分轉(zhuǎn)譯成錯(cuò)誤詞語的可能性越小。
[0100]作為另一示例,在語音至文本分析之前,音頻書和數(shù)字書可以被劃分成若干節(jié)段或部分。音頻書可以與音頻部分映射相關(guān)聯(lián),并且數(shù)字書可以與文本部分映射相關(guān)聯(lián)。例如,音頻部分映射和文本部分映射可以標(biāo)識(shí)每個(gè)章節(jié)開始或結(jié)束的位置。這些相應(yīng)的映射可以由語音至文本分析器使用以限制候選字典。例如,如果語音至文本分析器基于音頻部分映射確定該語音至文本分析器正在分析音頻書的第四章節(jié),則該語音至文本分析器使用文本部分映射來標(biāo)識(shí)該數(shù)字書的第四章節(jié)并且將候選字典限制于該第四章節(jié)中找到的詞語。
[0101]在一個(gè)相關(guān)實(shí)施方式中,語音至文本分析器采用隨當(dāng)前轉(zhuǎn)譯位置移動(dòng)而移動(dòng)的滑動(dòng)窗口。當(dāng)語音至文本分析器分析音頻數(shù)據(jù)時(shí),該語音至文本分析器移動(dòng)“跨”作品的文本版本的滑動(dòng)窗口。該滑動(dòng)窗口指示作品的文本版本內(nèi)的兩個(gè)位置。例如,滑動(dòng)窗口的邊界可以是(a)進(jìn)行當(dāng)前轉(zhuǎn)譯位置的段落的開始以及(b)在在當(dāng)前轉(zhuǎn)譯位置之后的第三段落的結(jié)束。候選字典被局限于僅在這兩個(gè)位置之間出現(xiàn)的那些詞語。
[0102]雖然上文給出了特定示例,但是窗口可以跨越作品的文本版本內(nèi)的任意文本量。例如,窗口可以跨越絕對(duì)文本量,諸如60個(gè)字符。作為另一示例,窗口可以跨越作品的文本版本的相對(duì)文本量,諸如十個(gè)詞語、文本的三“行”、2個(gè)語句或者文本的I “頁”。在相對(duì)量情形下,語音至文本分析器可以使用作品的文本版本內(nèi)的格式數(shù)據(jù)來確定作品的文本版本中的多少構(gòu)成行或頁。例如,作品的文本版本可以包括指示作品的文本版本的內(nèi)容內(nèi)頁面開始或頁面結(jié)束的頁面指示符(例如,以HTML或XML標(biāo)簽的形式)。
[0103]在一個(gè)實(shí)施方式中,窗口的開始對(duì)應(yīng)于當(dāng)前轉(zhuǎn)譯位置。例如,語音至文本分析器維持指示作品的文本版本中最近匹配詞語的當(dāng)前文本位置,并且維持指示音頻數(shù)據(jù)中最近標(biāo)識(shí)詞語的當(dāng)前音頻位置。除非敘述者(其聲音被反映在該音頻數(shù)據(jù)中)誤讀了作品的文本版本的文本,添加他/她自己的內(nèi)容,或者在記錄期間跳過了作品的文本版本的部分,否則語音至文本分析器在音頻數(shù)據(jù)中檢測(cè)到的下一詞語(即,當(dāng)前音頻位置之后)最有可能是作品的文本版本中的下一詞語(即,當(dāng)前文本位置之后)。維持上述兩個(gè)位置可以顯著提高語音至文本轉(zhuǎn)譯的準(zhǔn)確性。
[0104]使用音頻至音頻的相關(guān)性創(chuàng)建映射
[0105]在一個(gè)實(shí)施方式中,語音至文本生成器和音頻至文本相關(guān)器用于自動(dòng)創(chuàng)建作品的音頻版本與作品的文本版本之間的映射。圖2是描繪這些分析器和用于生成映射的數(shù)據(jù)的框圖。作品的文本版本210 (諸如EPUB文檔)被輸入至文本至語音生成器220。文本至語音生成器220可以以軟件、硬件或硬件和軟件的組合實(shí)現(xiàn)。無論以軟件還是硬件實(shí)現(xiàn),文本至語音生成器220可以在單個(gè)計(jì)算設(shè)備上實(shí)現(xiàn)或者可以分布在多個(gè)計(jì)算設(shè)備中。
[0106]文本至語音生成器220基于文檔210生成音頻數(shù)據(jù)230。在生成音頻數(shù)據(jù)230期間,文本至語音生成器220(或未示出的另一部件)創(chuàng)建音頻至文檔映射240。音頻至文檔映射240將文檔210內(nèi)的多個(gè)文本位置映射到所生成的音頻數(shù)據(jù)230內(nèi)的對(duì)應(yīng)音頻位置。
[0107]例如,假設(shè)文本至語音生成器220針對(duì)位于文檔210內(nèi)的位置Y的詞語生成音頻數(shù)據(jù)。進(jìn)一步假設(shè)針對(duì)該詞語生成的音頻數(shù)據(jù)位于音頻數(shù)據(jù)230內(nèi)的位置X處。為了反映文檔210內(nèi)該詞語的位置與音頻數(shù)據(jù)230中對(duì)應(yīng)的音頻的位置之間的相關(guān)性,可以在位置X與位置Y之間創(chuàng)建映射。
[0108]由于文本至語音生成器220知道當(dāng)生成音頻的詞語或短語時(shí)對(duì)應(yīng)的詞語或短語出現(xiàn)在文檔210中的位置,因此對(duì)應(yīng)詞語或短語之間的每個(gè)映射可以容易地被生成。
[0109]音頻至文本相關(guān)器260接受生成的音頻數(shù)據(jù)230、音頻書250和音頻至文檔映射240作為輸入。音頻至文本相關(guān)器260執(zhí)行兩個(gè)主要步驟:音頻至音頻的相關(guān)性步驟和查找步驟。針對(duì)音頻至音頻的相關(guān)性步驟,音頻至文本相關(guān)器260將生成的音頻數(shù)據(jù)230與音頻書250進(jìn)行比較以確定音頻數(shù)據(jù)230中的部分與音頻書250中的部分之間的相關(guān)性。例如,音頻至文本相關(guān)器260可以針對(duì)音頻數(shù)據(jù)230中呈現(xiàn)的每個(gè)詞語確定音頻書250中對(duì)應(yīng)的詞語的位置。
[0110]出于建立相關(guān)性的目的,音頻數(shù)據(jù)230被劃分的粒度可以在各實(shí)現(xiàn)方式之間變化。例如,相關(guān)性可以建立在音頻數(shù)據(jù)230中的每個(gè)詞語與音頻書250中的每個(gè)對(duì)應(yīng)詞語之間。備選地,相關(guān)性可以基于固定持續(xù)時(shí)間間隔(例如,針對(duì)每I分鐘音頻一個(gè)映射)建立。作為另一備選,相關(guān)性可以針對(duì)基于其他標(biāo)準(zhǔn)建立的音頻的部分建立,諸如在段落或章節(jié)邊界、顯著停頓(例如,大于3秒鐘的靜音)或者基于音頻書250中數(shù)據(jù)的其他位置(諸如,音頻書250內(nèi)的音頻標(biāo)記)。
[0111]在音頻數(shù)據(jù)230的一部分與音頻書250的一部分之間的相關(guān)性被標(biāo)識(shí)之后,音頻至文本相關(guān)器260使用音頻至文檔映射240來標(biāo)識(shí)對(duì)應(yīng)于生成的音頻數(shù)據(jù)230內(nèi)的音頻位置的文本位置(映射240中所指示)。音頻至文本相關(guān)器260繼而將文本位置與音頻書250內(nèi)的音頻位置相關(guān)聯(lián)以創(chuàng)建文檔至音頻映射270中記錄的映射。
[0112]例如,假設(shè)音頻書250中(位于位置Z)的一部分匹配所生成的音頻數(shù)據(jù)230中位于位置X處的一部分?;趯⑽恢肵與文檔210中的位置Y相關(guān)的映射記錄(在音頻至文檔映射240中),文檔至音頻映射270中的映射記錄可以被創(chuàng)建用于將音頻書250中的位置Z與文檔210內(nèi)的位置Y相關(guān)。
[0113]音頻至文本相關(guān)器260針對(duì)音頻數(shù)據(jù)230的每個(gè)部分重復(fù)執(zhí)行音頻至音頻的相關(guān)性步驟和查找步驟。因此,文檔至音頻映射270包括多個(gè)映射記錄,每個(gè)映射記錄將文檔210內(nèi)的位置映射到音頻書250內(nèi)的位置。
[0114]在一個(gè)實(shí)施方式中,針對(duì)音頻數(shù)據(jù)230的每個(gè)部分的查找步驟緊隨在針對(duì)音頻的該部分的音頻至音頻的相關(guān)性之后。因此,可以在處理音頻數(shù)據(jù)230的下一部分之前針對(duì)音頻數(shù)據(jù)230的每個(gè)部分創(chuàng)建文檔至音頻映射270。備選地,可以在執(zhí)行任意查找步驟之前,針對(duì)音頻數(shù)據(jù)230的部分或所有部分執(zhí)行音頻至音頻的相關(guān)性步驟。在建立了所有的音頻至音頻的相關(guān)性之后,針對(duì)所有部分的查找步驟可以批量執(zhí)行。
[0115]映射粒度
[0116]映射具有若干屬性,其中之一是映射的大小,其是指映射中映射記錄的數(shù)目。映射的另一屬性是映射的“粒度”。該映射的“粒度”是指映射中與數(shù)字作品的大小相關(guān)的映射記錄的數(shù)目。因此,映射的粒度可以從一個(gè)數(shù)字作品向另一數(shù)字作品變化。例如,針對(duì)包括200 “頁”的數(shù)字書的第一映射包括僅針對(duì)該數(shù)字書中每個(gè)段落的映射記錄。因此,第一映射可以包括1000個(gè)映射記錄。另一方面,針對(duì)包括20頁的數(shù)字“兒童”書的第二映射包括針對(duì)該兒童書中每個(gè)詞語的映射記錄。因此,該第二映射可以包括800個(gè)映射記錄。雖然第一映射包括比第二映射更多的映射記錄,但是第二映射的粒度比第一映射的粒度更細(xì)化。
[0117]在一個(gè)實(shí)施方式中,映射的粒度可以基于去往生成該映射的語音至文本分析器的輸入決定。例如,用戶可以在使得語音至文本分析器生成映射之前指定具體粒度。具體粒度的非限制示例包括:
[0118]-詞語粒度(即,針對(duì)每個(gè)詞語的關(guān)聯(lián)),
[0119]-語句粒度(即,針對(duì)每個(gè)語句的關(guān)聯(lián)),
[0120]-段落粒度(即,針對(duì)每個(gè)段落的關(guān)聯(lián)),
[0121]-10詞語粒度(即,針對(duì)數(shù)字作品中每10個(gè)詞語部分的映射)
[0122]-10秒粒度(即,針對(duì)音頻每10秒的映射)
[0123]作為另一示例,用戶可以指定數(shù)字作品的類型(例如,小說、兒童書、短故事),并且語音至文本分析器(或另一過程)基于該作品的類型確定粒度。例如,兒童書可以與詞語粒度相關(guān)聯(lián),而小說可以與語句粒度相關(guān)聯(lián)。
[0124]映射的粒度甚至可以在同一數(shù)字作品內(nèi)變化。例如,針對(duì)數(shù)字書頭三個(gè)章節(jié)的映射可以具有語句粒度,而針對(duì)該數(shù)字書的剩余章節(jié)的映射具有詞語粒度。
[0125]文本至音頻轉(zhuǎn)變期間的即時(shí)映射生成
[0126]在許多情況下,雖然音頻至文本映射將在用戶需要依賴該音頻至文本映射之前生成,但是在一個(gè)實(shí)施方式中,音頻至文本映射在用戶開始在其設(shè)備上消耗音頻數(shù)據(jù)和/或文本數(shù)據(jù)運(yùn)行時(shí)或之后生成。例如,用戶使用平板計(jì)算機(jī)讀取數(shù)字書的文本版本。該平板計(jì)算機(jī)保持追蹤數(shù)字書中平板計(jì)算機(jī)已經(jīng)向用戶顯示的最近頁面或部分。該最近頁面或部分由“文本書簽”標(biāo)識(shí)。
[0127]稍后,用戶選擇播放該同一作品的音頻書版本?;胤旁O(shè)備可以是其上用戶閱讀數(shù)字書的同一平板計(jì)算機(jī)或另一設(shè)備。不考慮其上播放音頻書的設(shè)備,獲取文本書簽,并且語音文本分析關(guān)于音頻書的至少一部分來執(zhí)行。在語音文本分析期間,生成“臨時(shí)”映射記錄用于建立生成文本與音頻書中對(duì)應(yīng)的位置之間的相關(guān)性。
[0128]一旦生成文本及相關(guān)性記錄,文本至文本的比較用于確定對(duì)應(yīng)于文本書簽的所生成的文本。繼而,臨時(shí)映射記錄用于標(biāo)識(shí)對(duì)應(yīng)于所生成的文本中與該文本書簽對(duì)應(yīng)的一部分的音頻書中的一部分。音頻書的回放繼而從該位置開始。
[0129]音頻書上執(zhí)行語音至文本分析的一部分可以被限制為對(duì)應(yīng)于文本書簽的一部分。例如,音頻部分映射可能已經(jīng)存在,用于指示音頻書開始和/或結(jié)束的某個(gè)部分。例如,音頻部分映射可以指示每個(gè)章節(jié)的開始位置,一個(gè)或多個(gè)頁面的開始位置等。此類音頻部分映射可以有助于確定語音至文本分析的開始位置,使得不需要對(duì)整個(gè)音頻書執(zhí)行語音至文本分析。例如,如果文本書簽指示數(shù)字書中第12章節(jié)的位置,并且與該音頻數(shù)據(jù)相關(guān)聯(lián)的音頻部分映射標(biāo)識(shí)音頻數(shù)據(jù)中該第12章節(jié)的開始位置,繼而不需要對(duì)該音頻書頭11個(gè)章節(jié)中的任意章節(jié)執(zhí)行語音至文本分析。例如,音頻數(shù)據(jù)可以由20個(gè)音頻文件組成,針對(duì)每個(gè)章節(jié)一個(gè)音頻文件。因此,只有對(duì)應(yīng)于第12章節(jié)的音頻文件是語音至文本分析器的輸入。
[0130]音頻至文本轉(zhuǎn)變期間的即時(shí)映射生成
[0131]映射記錄可以即時(shí)生成以促進(jìn)音頻至文本轉(zhuǎn)變以及文本至音頻轉(zhuǎn)變。例如,假設(shè)用戶正在使用智能電話收聽音頻書。該智能電話保持追蹤音頻書中正在播放的當(dāng)前位置。該當(dāng)前位置由“音頻書簽”標(biāo)識(shí)。稍后,用戶拿起平板計(jì)算機(jī)并且選擇音頻書的數(shù)字書版本來顯示。平板計(jì)算機(jī)接收該音頻書簽(例如,從相對(duì)于該平板計(jì)算機(jī)和智能電話遠(yuǎn)程的中央服務(wù)器),執(zhí)行該音頻書至少一部分的語音至文本分析,并且標(biāo)識(shí)對(duì)應(yīng)于該音頻書文本版本中與該音頻書簽對(duì)應(yīng)的文本部分的音頻書中的一部分。該平板計(jì)算機(jī)繼而開始顯示該文本版本中所標(biāo)識(shí)的部分。
[0132]音頻書上執(zhí)行語音至文本分析的一部分可以被限制為對(duì)應(yīng)于音頻書簽的一部分。例如,在音頻書中跨越該音頻書中音頻書簽之前的一個(gè)或多個(gè)時(shí)間段(例如,秒)和/或該音頻書中音頻書簽之后的一個(gè)或多個(gè)時(shí)間段的一部分上執(zhí)行語音至文本分析。該部分上由語音至文本分析產(chǎn)生的文本與文本版本中的文本進(jìn)行比較來定位所產(chǎn)生的文本中的一系列詞語或短語匹配文本版本中文本的位置。
[0133]如果存在指示文本版本開始或結(jié)束的某個(gè)位置的文本部分映射并且音頻書簽可以用于標(biāo)識(shí)該文本部分映射中的部分,則文本版本中的大部分不需要被分析以便定位所產(chǎn)生的文本中的一系列詞語或短語匹配文本版本中文本的位置。例如,如果音頻書簽指示音頻書第3章節(jié)中的位置并且與該數(shù)字書相關(guān)聯(lián)的文本部分映射標(biāo)識(shí)該第3章節(jié)在文本版本中開始的位置,則不需要對(duì)該音頻書頭兩個(gè)章節(jié)中的任意章節(jié)或者該音頻書第3章節(jié)之后的任意章節(jié)執(zhí)行語音至文本分析。
[0134]音頻至文本映射的使用概述[0135]根據(jù)一個(gè)方法,映射(手動(dòng)或自動(dòng)創(chuàng)建)用于標(biāo)識(shí)數(shù)字作品的音頻版本(例如,音頻書)中與該數(shù)字作品的文本版本(例如,電子書)中的位置對(duì)應(yīng)的位置。例如,映射可以用于基于音頻書中建立的“書簽”來標(biāo)識(shí)電子書中的位置。作為另一示例,映射可以用于在人們閱讀的文本的音頻記錄正被播放時(shí)標(biāo)識(shí)對(duì)應(yīng)于該音頻記錄的所顯示的文本,并且使得該標(biāo)識(shí)的文本被突出顯示。因此,當(dāng)音頻書正被播放時(shí),電子書閱讀器的用戶可以進(jìn)行跟隨,這是由于電子書閱讀器突出顯示對(duì)應(yīng)的文本。作為另一示例,映射可以用于標(biāo)識(shí)音頻數(shù)據(jù)中的位置,并且響應(yīng)于從電子書選擇所顯示的文本的輸入播放在該位置的音頻。因此,用戶可以選擇電子書中的詞語,此選擇使得對(duì)應(yīng)于該詞語的音頻被播放。作為另一示例,用戶可以在“消費(fèi)”(例如,閱讀或收聽)數(shù)字作品的一個(gè)版本(例如,電子書)時(shí)創(chuàng)建注釋,并且使得該注釋在用戶消費(fèi)該數(shù)字作品的另一版本(例如,音頻書)時(shí)被消費(fèi)。因此,用戶可以在電子書的“頁面”上做筆記,并且可以在收聽該電子書的音頻書時(shí)查看所述筆記。類似地,用戶可以在收聽音頻書時(shí)做筆記,繼而可以在閱讀對(duì)應(yīng)的電子書時(shí)查看該筆記。
[0136]圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施方式描述用于使用這些情形中一個(gè)或多個(gè)情形中的映射的過程的流程圖。
[0137]在步驟310,獲取指示第一媒體產(chǎn)品中指定位置的位置數(shù)據(jù)。該第一媒體產(chǎn)品可以是作品的文本版本,或者對(duì)應(yīng)于該作品的文本版本的音頻數(shù)據(jù)。此步驟可以由消費(fèi)該第一媒體產(chǎn)品的設(shè)備(由用戶操作)執(zhí)行。備選地,該步驟可以由相對(duì)于消費(fèi)該第一媒體產(chǎn)品的設(shè)備距離較遠(yuǎn)的服務(wù)器執(zhí)行。因此,設(shè)備使用通信協(xié)議通過網(wǎng)絡(luò)向服務(wù)器發(fā)送位置數(shù)據(jù)。
[0138]在步驟320,映射被檢查用于確定對(duì)應(yīng)于指定位置的第一媒體位置。類似地,此部分可以由消費(fèi)第一媒體產(chǎn)品的設(shè)備或者相對(duì)于該設(shè)備距離較遠(yuǎn)的服務(wù)器執(zhí)行。
[0139]在步驟330,確定對(duì)應(yīng)于第一媒體位置并且在該映射中指示的第二媒體位置。例如,如果指定位置是音頻“書簽”,則第一媒體位置是映射中指示的音頻位置,并且第二媒體位置是與該映射中音頻位置相關(guān)聯(lián)的文本位置。類似地,例如,如果指定位置是文本“書簽”,則第一媒體位置是該映射中指示的文本位置,并且第二媒體位置是與該映射中文本位置相關(guān)聯(lián)的音頻位置。
[0140]在步驟340,第二媒體產(chǎn)品基于第二媒體位置進(jìn)行處理。例如,如果第二媒體產(chǎn)品是音頻數(shù)據(jù),則第二媒體位置是音頻位置并且被用作音頻數(shù)據(jù)中的當(dāng)前回放位置。作為另一示例,如果第二媒體產(chǎn)品是作品的文本版本,則第二媒體位置是文本位置并且用于確定顯示作品的文本版本中的哪些部分。
[0141]下文提供了指定情形中使用過程300的示例。
[0142]架構(gòu)概述
[0143]上文提到并且在下文詳細(xì)描述的每個(gè)示例情形可以包括一個(gè)或多個(gè)計(jì)算設(shè)備。圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施方式可以用于實(shí)現(xiàn)某些這里所述過程的示例系統(tǒng)400的框圖。系統(tǒng)400包括終端用戶設(shè)備410、中間設(shè)備420和終端用戶設(shè)備430。終端用戶設(shè)備410和430的非限制示例包括臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、智能電話、平板計(jì)算機(jī)和其他手持計(jì)算設(shè)備。
[0144]如圖4所示,設(shè)備410存儲(chǔ)數(shù)字媒體產(chǎn)品402并且執(zhí)行文本媒體播放器412和音頻媒體播放器414。文本媒體播放器412被配置為處理電子文本數(shù)據(jù)并且使得設(shè)備410顯示文本(例如,在設(shè)備410的觸摸屏上,未示出)。因此,如果數(shù)字媒體產(chǎn)品402是電子書,則文本媒體播放器412可以被配置為處理數(shù)字媒體產(chǎn)品402,只要數(shù)字媒體產(chǎn)品402是以文本媒體播放器412被配置能夠處理的文本格式。設(shè)備410可以執(zhí)行被配置為處理其他類型數(shù)據(jù)(諸如視頻)的一個(gè)或多個(gè)其他媒體播放器(未示出)。
[0145]類似地,音頻媒體播放器414被配置為處理音頻數(shù)據(jù),并且使得設(shè)備410生成音頻(例如,經(jīng)由設(shè)備410上的揚(yáng)聲器,未示出)。因此,如果數(shù)字媒體產(chǎn)品402是音頻書,則音頻媒體播放器414可以被配置為處理數(shù)字媒體產(chǎn)品402,只要數(shù)字媒體產(chǎn)品402是以音頻媒體播放器414被配置能夠處理的音頻格式。無論產(chǎn)品402是電子書還是音頻書,產(chǎn)品402可以包括多個(gè)文件,無論是音頻文件還是文本文件。
[0146]設(shè)備430類似地存儲(chǔ)數(shù)字媒體產(chǎn)品404并執(zhí)行音頻媒體播放器432,其被配置為處理音頻數(shù)據(jù)并且使得設(shè)備430生成音頻。設(shè)備430可以執(zhí)行一個(gè)或多個(gè)其他媒體播放器(未示出),其被配置為處理其他類型的媒體,諸如視頻和文本。
[0147]中間設(shè)備420存儲(chǔ)將音頻數(shù)據(jù)中的音頻位置映射到文本數(shù)據(jù)中的文本位置的映射406。例如,映射406可以將數(shù)字媒體產(chǎn)品404中的音頻位置映射至數(shù)字媒體產(chǎn)品402中的文本位置。雖然沒有在圖4中示出,但是中間設(shè)備420可以存儲(chǔ)多個(gè)映射,一個(gè)映射用于音頻數(shù)據(jù)和文本數(shù)據(jù)的每個(gè)對(duì)應(yīng)集。同樣,中間設(shè)備420可以與未示出的許多終端用戶設(shè)備交互。
[0148]同樣,中間設(shè)備420可以存儲(chǔ)用戶可以經(jīng)由其相應(yīng)設(shè)備訪問的數(shù)字媒體產(chǎn)品。因此,設(shè)備(例如,設(shè)備430)可以向中間設(shè)備420請(qǐng)求數(shù)字媒體產(chǎn)品,而不是存儲(chǔ)數(shù)字媒體產(chǎn)品的本地拷貝。
[0149]附加地,中間設(shè)備420可以存儲(chǔ)將用戶的一個(gè)或多個(gè)設(shè)備與單個(gè)賬戶相關(guān)聯(lián)的賬戶數(shù)據(jù)。因此,此類賬戶數(shù)據(jù)可以指示設(shè)備410和430被同一用戶注冊(cè)在同一賬戶下。中間設(shè)備420還可以存儲(chǔ)將賬戶與特定用戶擁有(或購買)的一個(gè)或多個(gè)數(shù)字媒體產(chǎn)品相關(guān)聯(lián)的賬戶產(chǎn)品關(guān)聯(lián)數(shù)據(jù)。因此,中間設(shè)備420可以通過確定賬戶產(chǎn)品關(guān)聯(lián)數(shù)據(jù)是否指示設(shè)備430和特定數(shù)字媒體產(chǎn)品與該同一賬戶相關(guān)聯(lián)來驗(yàn)證設(shè)備430可以訪問該特定數(shù)字媒體
女口
廣叩ο
[0150]雖然僅描繪了兩個(gè)終端用戶設(shè)備,但是終端用戶可以擁有并操作消費(fèi)數(shù)字媒體產(chǎn)品(諸如電子書或音頻書)的更多或更少的設(shè)備。類似地,雖然僅描繪了單個(gè)中間設(shè)備420,但是擁有并操作中間設(shè)備420的實(shí)體可以操作多個(gè)設(shè)備,其中每個(gè)設(shè)備提供相同的服務(wù)或者可以一起操作來向終端用戶設(shè)備410和430的用戶提供服務(wù)。
[0151]中間設(shè)備420與終端用戶設(shè)備410和430之間的通信可以經(jīng)由網(wǎng)絡(luò)440進(jìn)行。網(wǎng)絡(luò)440可以由在各計(jì)算設(shè)備之間提供數(shù)據(jù)交換的任意介質(zhì)或機(jī)制實(shí)現(xiàn)。此類網(wǎng)絡(luò)的示例包括但不限于諸如局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、以太網(wǎng)或因特網(wǎng)、或者一個(gè)或多個(gè)陸地、衛(wèi)星或無線鏈路之類的網(wǎng)絡(luò)。該網(wǎng)絡(luò)可以包括諸如上文所述網(wǎng)絡(luò)的組合。網(wǎng)絡(luò)可以根據(jù)傳輸控制協(xié)議(TCP)、用戶數(shù)據(jù)報(bào)協(xié)議(UDP)和/或網(wǎng)際協(xié)議(IP)傳輸數(shù)據(jù)。
[0152]映射的存儲(chǔ)位置
[0153]映射可以與生成該生成的文本數(shù)據(jù)和音頻數(shù)據(jù)分開存儲(chǔ)。例如,如圖4所示,映射406與數(shù)字媒體產(chǎn)品402和404分開存儲(chǔ),即使映射406可以用于基于一個(gè)數(shù)字媒體產(chǎn)品中的媒體位置標(biāo)識(shí)另一數(shù)字媒體產(chǎn)品中的媒體位置。事實(shí)上,映射406被存儲(chǔ)在與分別存儲(chǔ)數(shù)字媒體產(chǎn)品402和404分開的計(jì)算設(shè)備(中間設(shè)備420)上。[0154]附加地或備選地,映射可以被存儲(chǔ)為對(duì)應(yīng)的文本數(shù)據(jù)的一部分。例如,映射406可以被存儲(chǔ)在數(shù)字媒體產(chǎn)品402中。然而,雖然映射被存儲(chǔ)為文本數(shù)據(jù)的一部分,但是該映射可以不向消費(fèi)該文本數(shù)據(jù)的終端用戶顯示。附加地或備選地,映射可以被存儲(chǔ)為音頻數(shù)據(jù)的一部分。例如,映射406可以被存儲(chǔ)在數(shù)字媒體產(chǎn)品404中。
[0155]書簽切換
[0156]“書簽切換”是指在數(shù)字作品的一個(gè)版本中建立指定位置(或者“書簽”),并且使用該書簽找到該數(shù)字作品的另一版本中的對(duì)應(yīng)位置。存在兩類書簽切換:文本至音頻(TA)書簽切換和音頻至文本(AT)書簽切換。TA書簽切換包括使用電子書中建立的文本書簽標(biāo)識(shí)音頻書中對(duì)應(yīng)的音頻位置。相反地,這里被稱為AT書簽切換的另一類書簽切換包括使用音頻書中建立的音頻書簽標(biāo)識(shí)電子書中對(duì)應(yīng)的文本位置。
[0157]文本至音頻書簽切換
[0158]圖5A是根據(jù)本發(fā)明的一個(gè)實(shí)施方式描繪用于TA書簽切換的過程500的流程圖。圖5A使用圖4中所示系統(tǒng)400的元件進(jìn)行描述。
[0159]在步驟502,文本媒體播放器412 (例如,電子閱讀器)確定數(shù)字媒體產(chǎn)品402 (例如,電子書)中的文本書簽。設(shè)備410向設(shè)備410的用戶顯示數(shù)字媒體產(chǎn)品402中的內(nèi)容。
[0160]文本書簽可以響應(yīng)于用戶的輸入進(jìn)行確定。例如,用戶可以觸摸設(shè)備410的觸摸屏上的區(qū)域。設(shè)備410的顯示器在該區(qū)域或該區(qū)域附近顯示一個(gè)或多個(gè)詞語。響應(yīng)于輸入,文本媒體播放器412確定最靠近該區(qū)域的一個(gè)或多個(gè)詞語。文本媒體播放器412基于確定的一個(gè)或多個(gè)詞語確定文本書簽。
[0161]備選地,文本書簽基于向用戶顯示的最后一個(gè)文本數(shù)據(jù)進(jìn)行確定。例如,數(shù)字媒體產(chǎn)品402可以包括200個(gè)電子“頁面”,并且頁面110是顯示的最后一個(gè)頁面。文本媒體播放器412可以確定頁面110是顯示的最后一個(gè)頁面。文本媒體播放器412可以將頁面110建立為文本書簽,或者可以將頁面110開始處的點(diǎn)建立為文本書簽,這是由于可能無法知道用戶停止閱讀的位置。安全的做法是假設(shè)用戶最好閱讀的是頁面109上的最后一個(gè)語句,該語句可以在頁面109或頁面110上結(jié)束。因此,文本媒體播放器412可以將下一語句(其在頁面110上開始)的開始處建立為文本書簽。然而,如果映射的粒度是段落級(jí),則文本媒體播放器412可以將頁面109上最后一段的開始處建立為文本書簽。類似地,如果映射的粒度是語句級(jí),則文本媒體播放器412可以將包括頁面110的章節(jié)的開始處建立為文本書簽。
[0162]在步驟504,文本媒體播放器412通過網(wǎng)絡(luò)440向中間設(shè)備420發(fā)送指示文本書簽的數(shù)據(jù)。中間設(shè)備420可以存儲(chǔ)與設(shè)備410和/或設(shè)備410的用戶的賬戶相關(guān)聯(lián)的文本書簽。在步驟502之前,用戶已經(jīng)建立了中間設(shè)備420的操作者的賬戶。用戶繼而使用該操作者注冊(cè)一個(gè)或多個(gè)設(shè)備(包括設(shè)備410)。該注冊(cè)使得一個(gè)或多個(gè)設(shè)備中的每個(gè)設(shè)備與用戶的賬戶相關(guān)聯(lián)。
[0163]一個(gè)或多個(gè)因素可以使得文本媒體播放器412向中間設(shè)備420發(fā)送文本書簽。此類因素可以包括退出(或關(guān)閉)文本媒體播放器412,由用戶建立文本書簽,或者當(dāng)收聽與針對(duì)其建立文本書簽的作品的文本版本對(duì)應(yīng)的音頻書時(shí)由用戶明確指示保持該文本書簽用于使用。
[0164]如先前所指出,中間設(shè)備420具有對(duì)映射406的訪問(例如,存儲(chǔ)),在此示例中,該映射406將數(shù)字媒體產(chǎn)品404中的多個(gè)音頻位置與數(shù)字媒體產(chǎn)品402中的多個(gè)文本位置映射。
[0165]在步驟506,中間設(shè)備420檢查映射406用于確定多個(gè)文本位置中對(duì)應(yīng)于文本書簽的特定文本位置。該文本書簽可能沒有準(zhǔn)確地匹配映射406中的多個(gè)文本位置中的任意文本位置。然而,中間設(shè)備420可以選擇最靠近該文本書簽的文本位置。備選地,中間設(shè)備420可以選擇緊鄰該文本書簽之前的文本位置,該文本位置可以是最靠近該文本書簽的文本位置或者不是最靠近該文本書簽的文本位置。例如,如果文本書簽指示第5章節(jié)第3段第5個(gè)語句并且映射406中最靠近的文本位置是(I)第5章節(jié)第3段第I個(gè)語句,以及(2)第5章節(jié)第3段第6個(gè)語句,則選擇文本位置(I)。
[0166]在步驟508,一旦映射中的特定文本位置被標(biāo)識(shí),則中間設(shè)備420確定映射406中對(duì)應(yīng)于該特定文本位置的特定音頻位置。
[0167]在步驟510,中間設(shè)備420向設(shè)備430發(fā)送該特定音頻位置,其在此示例中不同于設(shè)備410。例如,設(shè)備410可以是平板計(jì)算機(jī),而設(shè)備430可以是智能電話。在相關(guān)實(shí)施方式中,沒有包括設(shè)備430。因此,中間設(shè)備420可以向設(shè)備410發(fā)送該特定音頻位置。
[0168]步驟510可以被自動(dòng)執(zhí)行,S卩,響應(yīng)于中間設(shè)備420確定該特定音頻位置。備選地,步驟510 (或步驟506)可以響應(yīng)于從設(shè)備430接收設(shè)備430將要處理數(shù)字媒體產(chǎn)品404的指示而執(zhí)行。該指示可以是針對(duì)與文本書簽對(duì)應(yīng)的音頻位置的請(qǐng)求。
[0169]在步驟512,音頻媒體播放器432將特定音頻位置建立為數(shù)字媒體產(chǎn)品404中音頻數(shù)據(jù)的當(dāng)前回放位置。此建立操作可以響應(yīng)于從中間設(shè)備420接收特定音頻位置而執(zhí)行。因?yàn)楫?dāng)前回放位置變成特定音頻位置,因此音頻媒體播放器432不要求播放音頻數(shù)據(jù)中特定音頻位置之前的任意音頻。例如,如果特定音頻位置指示2:56:03 (2小時(shí),56分,3秒),則音頻媒體播放器432將該音頻數(shù)據(jù)中的該時(shí)間建立為當(dāng)前回放位置。因此,如果設(shè)備430的用戶選擇設(shè)備430上的“播放”按鈕(圖形的或物理的),則音頻媒體播放器430開始處理在2:56:03標(biāo)記的音頻數(shù)據(jù)。
[0170]在一個(gè)備選實(shí)施方式中,設(shè)備410存儲(chǔ)映射406 (或其拷貝)。因此,代替步驟504-508,文本媒體播放器412檢查映射406以確定多個(gè)文本位置中對(duì)應(yīng)于文本書簽的特定文本位置。繼而,文本媒體播放器412確定映射406中對(duì)應(yīng)于特定文本位置的特定音頻位置。文本媒體播放器412繼而可以使得該特定音頻位置被發(fā)送至中間設(shè)備420以允許設(shè)備430獲取該特定音頻位置,并且將音頻數(shù)據(jù)中的當(dāng)前播放位置建立成特定音頻位置。文本媒體播放器412還可以使得特定文本位置(或文本書簽)被發(fā)送至中間設(shè)備420以允許設(shè)備410(或其他設(shè)備,未示出)稍后獲取該特定文本位置以允許在其他設(shè)備上執(zhí)行的另一文本媒體播放器顯示數(shù)字媒體產(chǎn)品402的另一拷貝的一部分(例如,一頁),其中該部分對(duì)應(yīng)于特定文本位置。
[0171]在另一備選實(shí)施方式中,不包括中間設(shè)備420和設(shè)備430。因此,不執(zhí)行步驟504和510。因此,設(shè)備410執(zhí)行圖5A中的所有其他步驟,包括步驟506和508。
[0172]音頻至文本書簽切換
[0173]圖5B是根據(jù)本發(fā)明的一個(gè)實(shí)施方式描繪用于AT書簽切換的過程550的流程圖。類似于圖5A,圖5B使用圖4中所示系統(tǒng)400的元件進(jìn)行描述。
[0174]在步驟552,音頻媒體播放器432確定數(shù)字媒體產(chǎn)品404 (例如,音頻書)中的音頻書簽。
[0175]音頻書簽可以響應(yīng)于來自用戶的輸入而確定。例如,用戶可以例如通過選擇設(shè)備430的觸摸屏上顯示的“停止”按鈕來停止音頻數(shù)據(jù)的回放。音頻媒體播放器432確定數(shù)字媒體產(chǎn)品404的音頻數(shù)據(jù)中對(duì)應(yīng)于回放停止的位置。因此,音頻書簽可以簡(jiǎn)單地作為用戶停止收聽從數(shù)字媒體產(chǎn)品404生成的音頻的最后位置。附件地或備選地,用戶可以選擇設(shè)備430觸摸屏上的一個(gè)或多個(gè)圖形按鈕以將數(shù)字媒體產(chǎn)品404中的特定位置建立為音頻書簽。例如,設(shè)備430顯示對(duì)應(yīng)于數(shù)字媒體產(chǎn)品404中音頻數(shù)據(jù)長(zhǎng)度的時(shí)間軸。用戶可以選擇該時(shí)間軸上的位置,繼而提供由音頻媒體播放器432用于建立音頻書簽的一個(gè)或多個(gè)附加輸入。
[0176]在步驟554,設(shè)備430通過網(wǎng)絡(luò)440向中間設(shè)備420發(fā)送指示音頻書簽的數(shù)據(jù)。該中間設(shè)備420可以存儲(chǔ)與設(shè)備430和/或設(shè)備430的用戶的賬戶相關(guān)聯(lián)的音頻書簽。在步驟552之前,用戶建立了中間設(shè)備420的操作者的賬戶。用戶繼而使用該操作者注冊(cè)一個(gè)或多個(gè)設(shè)備(包括設(shè)備430)。該注冊(cè)使得一個(gè)或多個(gè)設(shè)備中的每個(gè)設(shè)備與用戶的賬戶相關(guān)聯(lián)。
[0177]中間設(shè)備420還具有對(duì)映射406的訪問(例如,存儲(chǔ))。映射406將數(shù)字媒體產(chǎn)品404的音頻數(shù)據(jù)中的多個(gè)音頻位置與數(shù)字媒體產(chǎn)品402的文本數(shù)據(jù)中的多個(gè)文本位置映射。
[0178]一個(gè)或多個(gè)因素可以使得音頻媒體播放器432向中間設(shè)備420發(fā)送音頻書簽。此類因素可以包括退出(或關(guān)閉)音頻媒體播放器432,由用戶建立音頻書簽,或者當(dāng)顯示與針對(duì)其建立音頻書簽的數(shù)字媒體產(chǎn)品404對(duì)應(yīng)的作品的文本版本的部分(反映在數(shù)字媒體產(chǎn)品402中)時(shí)由用戶明確指示保持該音頻書簽用于使用。
[0179]在步驟556,中間設(shè)備420檢查映射406以確定多個(gè)音頻位置中對(duì)應(yīng)于音頻書簽的特定音頻位置。該音頻書簽可能沒有準(zhǔn)確地匹配映射406中的多個(gè)音頻位置中的任意音頻位置。然而,中間設(shè)備420可以選擇最靠近該音頻書簽的音頻位置。備選地,中間設(shè)備420可以選擇緊鄰該音頻書簽之前的音頻位置,該音頻位置可以是最靠近該音頻書簽的音頻位置或者不是最靠近該音頻書簽的音頻位置。例如,如果音頻書簽指示02:43:19(或2小時(shí),43分,19秒)并且映射406中最靠近的音頻位置是(I) 02:41:07,以及(2) 02:43:56,則選擇音頻位置(I),即便音頻位置(2)最靠近該音頻書簽。
[0180]在步驟558,一旦映射中的特定音頻位置被標(biāo)識(shí),則中間設(shè)備420確定映射406中對(duì)應(yīng)于該特定音頻位置的特定文本位置。
[0181]在步驟560,中間設(shè)備420向設(shè)備410發(fā)送該特定文本位置,其在此示例中不同于設(shè)備430。例如,設(shè)備410可以是平板計(jì)算機(jī),而設(shè)備430可以是智能電話,其被配置為處理音頻數(shù)據(jù)并生成可聽聲音。
[0182]步驟560可以被自動(dòng)執(zhí)行,即,響應(yīng)于中間設(shè)備420確定該特定文本位置。備選地,步驟560 (或步驟556)可以響應(yīng)于從設(shè)備410接收設(shè)備410將要處理數(shù)字媒體產(chǎn)品402的指示而執(zhí)行。該指示可以是針對(duì)與音頻書簽對(duì)應(yīng)的文本位置的請(qǐng)求。
[0183]在步驟562,文本媒體播放器412顯示關(guān)于特定文本位置的信息。步驟562可以響應(yīng)于從中間設(shè)備420接收該特定文本位置而執(zhí)行。設(shè)備410不要求顯示數(shù)字媒體產(chǎn)品402中反映的作品的文本版本中特定文本位置之前的任意內(nèi)容。例如,如果特定文本位置指示第3章節(jié)第2段第4個(gè)語句,則設(shè)備410顯示包括該語句的頁面。文本媒體播放器412可以使得標(biāo)記顯示在頁面的特定文本位置,用于可視地向設(shè)備410的用戶指示從頁面中的什么位置開始閱讀。因此,用戶能夠立即從與音頻書中敘述者說出的最后詞語對(duì)應(yīng)的位置開始閱讀該作品的文本版本。
[0184]在一個(gè)備選實(shí)施方式中,設(shè)備410存儲(chǔ)映射406。因此,代替步驟556-560,在步驟554之后(其中設(shè)備430向中間設(shè)備420發(fā)送指示音頻書簽的數(shù)據(jù)),中間設(shè)備420向設(shè)備410發(fā)送該音頻書簽。繼而,文本媒體播放器412檢查映射406以確定多個(gè)音頻位置中對(duì)應(yīng)于該音頻書簽的特定音頻位置。繼而,文本媒體播放器412確定映射406中對(duì)應(yīng)于特定音頻位置的特定文本位置。如上所述,該備選處理繼而前進(jìn)至步驟562。
[0185]在另一備選實(shí)施方式中,不包括中間設(shè)備420。因此,不執(zhí)行步驟554和560。因此,設(shè)備430執(zhí)行圖5B中的所有其他步驟,包括步驟556和558。
[0186]響應(yīng)于播放音頻突出顯示文本
[0187]在一個(gè)實(shí)施方式中,當(dāng)播放對(duì)應(yīng)于作品的文本版本的音頻數(shù)據(jù)時(shí),該作品的文本版本一部分中的文本被突出顯示或“點(diǎn)亮”。如先前所指出,音頻數(shù)據(jù)是作品的文本版本的音頻版本,并且可以反映由人類用戶對(duì)文本版本中文本的閱讀。如這里所使用的,“突出顯示”文本是指媒體播放器(例如,“電子閱讀器”)視覺上將該文本與同該突出顯示的文本同時(shí)顯示的其他文本區(qū)分。突出顯示文本可以包括改變文本的字體,改變文本的字形(例如,斜體、黑體、下劃線),改變文本的大小,改變文本的顏色,改變文本的背景顏色,或者創(chuàng)建與該文本相關(guān)聯(lián)的動(dòng)畫。創(chuàng)建動(dòng)畫的一個(gè)示例為使得文本(或該文本的背景)閃爍或者改變顏色。創(chuàng)建動(dòng)畫的另一示例是創(chuàng)建在該文本的上面、下面或周圍出現(xiàn)的圖形。例如,響應(yīng)于媒體播放器檢測(cè)并播放詞語“烤箱”,該媒體播放器在顯示文本中的詞語“烤箱”上顯示烤箱圖像。動(dòng)畫的另一示例是彈跳球,其當(dāng)播放的音頻數(shù)據(jù)中檢測(cè)到文本的一部分(例如,詞語、音節(jié)或字母)時(shí),在該部分上“彈跳”。
[0188]圖6是根據(jù)本發(fā)明的一個(gè)實(shí)施方式描繪用于在作品的音頻版本播放時(shí)使得該作品的文本版本中的文本被突出顯示的過程600的流程圖。
[0189]在步驟610,確定音頻版本的音頻數(shù)據(jù)的當(dāng)前回放位置(其不斷地改變)。該步驟可以由在用戶設(shè)備上執(zhí)行的媒體播放器執(zhí)行。該媒體播放器處理該音頻數(shù)據(jù)以為用戶生成音頻。
[0190]在步驟620,基于當(dāng)前回放位置,標(biāo)識(shí)映射中的映射記錄。當(dāng)前回放位置可以匹配或近乎匹配該映射記錄中標(biāo)識(shí)的音頻位置。
[0191]如果媒體播放器具有對(duì)映射的訪問,則步驟620可以由該媒體播放器執(zhí)行,其中該映射將音頻數(shù)據(jù)中多個(gè)音頻位置與該作品的文本版本中多個(gè)文本位置映射。備選地,步驟620可以由用戶設(shè)備上執(zhí)行的另一過程或者通過網(wǎng)絡(luò)從該用戶設(shè)備接收當(dāng)前回放位置的服務(wù)器執(zhí)行。
[0192]在步驟630,標(biāo)識(shí)映射記錄中標(biāo)識(shí)的文本位置。
[0193]在步驟640,使得作品的文本版本中對(duì)應(yīng)于該文本位置的一部分被突出顯示。該步驟可以由媒體播放器或者在用戶設(shè)備上執(zhí)行的另一軟件應(yīng)用來執(zhí)行。如果服務(wù)器執(zhí)行查找步驟(620和630),則步驟640可以進(jìn)一步包括服務(wù)器向用戶設(shè)備發(fā)送文本位置。作為響應(yīng),媒體播放器或另一軟件應(yīng)用接受該文本位置作為輸入并且使得對(duì)應(yīng)的文本被突出顯/Jn ο
[0194]在另一實(shí)施方式中,映射中由媒體播放器標(biāo)識(shí)的不同文本位置與不同類型的突出顯示相關(guān)聯(lián)。例如,映射中的一個(gè)文本位置可以與字體顏色從黑色到紅色的改變相關(guān)聯(lián),而映射中的另一文本位置可以與動(dòng)畫(諸如示出一張吐司“彈”出烤箱的烤箱圖形)。因此,映射中的每個(gè)映射記錄可以包括指示由對(duì)應(yīng)文本位置標(biāo)識(shí)的文本如何被突出顯示的“突出顯示數(shù)據(jù)”。因此,針對(duì)映射中媒體播放器標(biāo)識(shí)并且包括突出顯示數(shù)據(jù)的每個(gè)映射記錄,媒體播放器使用該突出顯示數(shù)據(jù)確定如何突出顯示文本。如果映射記錄不包括突出顯示數(shù)據(jù),則媒體播放器可以不突出顯示該對(duì)應(yīng)的文本。備選地,如果映射中的映射記錄不包括突出顯示數(shù)據(jù),則媒體播放器使用“缺省”突出顯示技術(shù)(例如,加粗文本)來突出顯示文本。
[0195]基于音頻輸入突出顯示文本
[0196]圖7是根據(jù)本發(fā)明的一個(gè)實(shí)施方式描繪用于響應(yīng)于用戶的音頻輸入突出顯示被顯示的文本的過程700的流程圖。在此實(shí)施方式中,不要求映射。音頻輸入用于突出顯示同時(shí)向用戶顯示的作品的文本版本的一部分中的文本。
[0197]在步驟710,接收音頻輸入。該音頻輸入可以基于用戶大聲閱讀作品的文本版本中的文本。該音頻輸入可以由顯示文本版本的一部分的設(shè)備接收。該設(shè)備可以向用戶提示大聲閱讀詞語、短語或整個(gè)語句。該提示可以是視覺上或聽覺上的。作為視覺提示的一個(gè)示例,在設(shè)備顯示下劃線語句時(shí)或僅在其之前,設(shè)備可以使得以下文本被顯示:“請(qǐng)閱讀下劃線文本”。作為聽覺提示的一個(gè)示例,設(shè)備可以使得計(jì)算機(jī)生成的話音閱讀“請(qǐng)閱讀下劃線文本”,或者使得預(yù)記錄的人類話音被播放,其中預(yù)記錄的人類話音提供相同指令。
[0198]在步驟720,對(duì)音頻輸入執(zhí)行語音至文本分析以檢測(cè)音頻輸入中反映的一個(gè)或多個(gè)詞語。
[0199]在步驟730,針對(duì)音頻輸入中反映的每個(gè)檢測(cè)到的詞語,將該檢測(cè)到的詞語與特定詞語集合相比較。該特定詞語集合可以是計(jì)算設(shè)備(例如,電子閱讀器)當(dāng)前顯示的所有詞語。備選地,特定詞語集合可以是向用戶提示閱讀的所有詞語。
[0200]在步驟740,針對(duì)匹配特定集合中詞語的每個(gè)檢測(cè)到的詞語,設(shè)備使得該匹配詞語關(guān)出顯不。
[0201]過程700中描繪的步驟可以由顯示作品的文本版本中文本的單個(gè)計(jì)算設(shè)備執(zhí)行。備選地,過程700中描繪的步驟可以由與顯示文本版本中文本的計(jì)算設(shè)備不同的一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。例如,步驟710中來自用戶的音頻輸入可以通過網(wǎng)絡(luò)從用戶的設(shè)備向執(zhí)行語音至文本分析的網(wǎng)絡(luò)服務(wù)器發(fā)送。該網(wǎng)絡(luò)服務(wù)器繼而可以向用戶設(shè)備發(fā)送突出現(xiàn)實(shí)的數(shù)據(jù)以使得用戶設(shè)備突出顯示適當(dāng)?shù)奈谋尽?br>
[0202]響應(yīng)于文本選擇播放音頻
[0203]在一個(gè)實(shí)施方式中,顯示作品的文本版本的部分的媒體播放器的用戶可以選擇所顯示文本的部分,并且使得對(duì)應(yīng)的音頻被播放。例如,如果數(shù)字書中顯示的詞語是“donut”并且用戶選擇了該詞語(例如,通過觸摸媒體播放器觸摸屏上顯示該詞語的一部分),則“donut”的音頻可以被播放。
[0204]將作品的文本版本中的文本位置與音頻數(shù)據(jù)中的音頻位置映射的映射用于標(biāo)識(shí)音頻數(shù)據(jù)中對(duì)應(yīng)于該選定文本的一部分。用戶可以選擇單個(gè)詞語、短語、甚至一個(gè)或多個(gè)語句。響應(yīng)于選擇所顯示的文本的一部分的輸入,媒體播放器可以標(biāo)識(shí)一個(gè)或多個(gè)文本位置。例如,媒體播放器可以標(biāo)識(shí)對(duì)應(yīng)于選定部分的單個(gè)文本位置,即使該選定部分包括多個(gè)行或語句。所標(biāo)識(shí)的文本位置可以對(duì)應(yīng)于選定部分的開始。作為另一示例,媒體播放器可以標(biāo)識(shí)對(duì)應(yīng)于選定部分開始的第一文本位置以及對(duì)應(yīng)于選定部分結(jié)束的第二文本位置。
[0205]媒體播放器使用所標(biāo)識(shí)的文本位置查找映射中的映射記錄,其指示最靠近(或在前最靠近)所標(biāo)識(shí)的文本位置的文本位置。媒體播放器使用映射記錄中指示的音頻位置來標(biāo)識(shí)音頻數(shù)據(jù)中開始處理該音頻數(shù)據(jù)的位置以便生成音頻。如果只標(biāo)識(shí)了單個(gè)文本位置,則可以只播放該音頻位置處或附近的詞語或聲音。因此,在播放詞語或聲音之后,媒體播放器停止播放更多的音頻。備選地,媒體播放器開始在該音頻位處或附近播放并且不停止播放該音頻位置后的音頻,直到(a)到達(dá)該音頻數(shù)據(jù)的結(jié)束,(b)來自用戶的進(jìn)一步輸入(例如,“停止”按鈕的選擇),或者(C)音頻數(shù)據(jù)中預(yù)先設(shè)計(jì)的停止點(diǎn)(例如,要求進(jìn)一步輸入來進(jìn)行的頁面或章節(jié)中的結(jié)束)。
[0206]如果媒體播放器基于選定部分標(biāo)識(shí)了兩個(gè)文本位置,則兩個(gè)音頻位置被標(biāo)識(shí)并且可以用于標(biāo)識(shí)開始播放以及停止播放對(duì)應(yīng)音頻的位置。
[0207]在一個(gè)實(shí)施方式中,由音頻位置標(biāo)識(shí)的音頻數(shù)據(jù)可以被緩慢(即,以緩慢的回放速度)或連續(xù)播放而不超前音頻數(shù)據(jù)中的當(dāng)前回放位置。例如,如果平板計(jì)算機(jī)的用戶通過使用其手指觸摸該平板計(jì)算機(jī)的觸摸屏選擇所顯示的詞語“two”并且連續(xù)觸摸該顯示的詞語(即,不抬起其手指并且不移動(dòng)其手指至另一顯示的詞語),則平板計(jì)算機(jī)播放對(duì)應(yīng)的音頻,從而創(chuàng)建由閱讀詞語“twoooooooooooooooo”反映的聲音。
[0208]在類似實(shí)施方式中,用戶拖拽其手指跨過媒體播放器觸摸屏上顯示的文本的速度使得對(duì)應(yīng)的音頻被以相同或相似速度播放。例如,用戶選擇所顯示的詞語“donut”中的字母“d”,然后緩慢地移動(dòng)其手指跨過所顯示的詞語。響應(yīng)于此輸入,媒體播放器標(biāo)識(shí)對(duì)應(yīng)的音頻數(shù)據(jù)(使用映射),并且以用戶移動(dòng)其手指的相同速度播放對(duì)應(yīng)的音頻。因此,媒體播放器創(chuàng)建聽上去如同作品的文本版本的文本的閱讀器對(duì)詞語“donut”發(fā)音如“dooooooonnnnnnuuuuuut,,的音步頁。
[0209]在類似實(shí)施方式中,用戶“觸摸”觸摸屏上顯示的詞語的時(shí)間指示播放該詞語音頻版本的快慢。例如,用戶手指對(duì)所顯示的詞語的快速叩擊使得對(duì)應(yīng)音頻以正常速度播放,而用戶保持其手指按下所選定的詞語大于I秒鐘使得對(duì)應(yīng)的音頻以I/2正常速度播放。
[0210]轉(zhuǎn)移用戶注釋
[0211]在一個(gè)實(shí)施方式中,用戶開始對(duì)數(shù)字作品的一個(gè)媒體版本(例如,音頻)創(chuàng)建注釋,并且使得該注釋與該數(shù)字作品的另一媒體版本(例如,文本)相關(guān)聯(lián)。因此,當(dāng)注釋可以在一類媒體的上下文中創(chuàng)建時(shí),該注釋可以在另一類媒體的上下文中被消費(fèi)。其中注釋被創(chuàng)建或消費(fèi)的“上下文”是指當(dāng)創(chuàng)建或消費(fèi)發(fā)生時(shí)正在顯示的文本或播放的音頻。
[0212]雖然以下示例包括在創(chuàng)建注釋時(shí)確定音頻中的位置或文本位置,但是本發(fā)明的某些實(shí)施方式不受此限制。例如,在音頻上下文中創(chuàng)建注釋時(shí)音頻文件中的當(dāng)前回放位置不在消費(fèi)文本上下文中的注釋時(shí)使用。相反,注釋的指示可以在對(duì)應(yīng)的文本版本的開始或結(jié)束處或者對(duì)應(yīng)的文本版本的每個(gè)“頁面”上由設(shè)備顯示。作為另一示例,在文本上下文中創(chuàng)建注釋時(shí)顯示的文本不在消耗音頻上下文中的注釋時(shí)使用。相反,注釋的指示可以在對(duì)應(yīng)的音頻版本的開始或結(jié)束處或者在對(duì)應(yīng)的音頻版本被播放時(shí)不斷地由設(shè)備顯示。對(duì)于視覺指示的附加或備選,可以播放注釋的聽覺指示。例如,“蜂鳴聲”與音頻軌道同時(shí)播放,通過此方式該蜂鳴聲與音頻軌道均可以被聽到。
[0213]圖8A至圖SB是根據(jù)本發(fā)明的一個(gè)實(shí)施方式描繪用于將注釋從一個(gè)媒體上下文轉(zhuǎn)移到另一媒體上下文的過程的流程圖。具體地,圖8A是描繪用于創(chuàng)建“文本”上下文中的注釋并且消費(fèi)“音頻”上下文中的注釋的過程800的流程圖,而圖SB是描繪用于創(chuàng)建“音頻”上下文中的注釋并且消費(fèi)“文本”上下文中的注釋的過程850的流程圖。注釋的創(chuàng)建和消費(fèi)可以發(fā)生在同一計(jì)算設(shè)備(例如,設(shè)備410)或者單獨(dú)計(jì)算設(shè)備(例如,設(shè)備410和430)上。圖8A描述了其中注釋在設(shè)備410上創(chuàng)建并且消費(fèi)的情形,而圖SB描述了其中注釋在設(shè)備410上創(chuàng)建并且稍后在設(shè)備430上消費(fèi)的情形。
[0214]在圖8A的步驟802,在設(shè)備410上執(zhí)行的文本媒體播放器412使得來自數(shù)字媒體產(chǎn)品402的文本被顯示。
[0215]在步驟804,文本媒體播放器412確定數(shù)字媒體產(chǎn)品402中反映的作品的文本版本中的文本位置。該文本位置最終與注釋相關(guān)聯(lián)存儲(chǔ)。文本位置可以通過各種方式確定。例如,文本媒體播放器412可以接收選擇所顯示的文本中文本位置的輸入。該輸入可以是用戶觸摸設(shè)備410的觸摸屏(顯示文本)一段時(shí)間。該輸入可以選擇特定詞語、多個(gè)詞語、頁面的開始或結(jié)束、語句之前或之后等。輸入還可以包括首先選擇按鈕,該按鈕使得文本媒體播放器412變?yōu)槠渲凶⑨尶梢员粍?chuàng)建并且與文本位置相關(guān)聯(lián)的“創(chuàng)建注釋”模式。
[0216]作為確定文本位置的另一示例,文本媒體播放器412基于(數(shù)字媒體產(chǎn)品402中反映的)作品的文本版本正被顯示的部分自動(dòng)(不需要用戶輸入)確定文本位置。例如,如果設(shè)備410正顯示作品的文本版本的頁面20,則注釋將與頁面20相關(guān)聯(lián)。
[0217]在步驟806,文本媒體播放器412接收選擇可以在觸摸屏上顯示的“創(chuàng)建注釋”按鈕的輸入。此按鈕可以響應(yīng)于步驟804中選擇文本位置的輸入而顯示,其中例如用戶對(duì)觸摸屏觸摸一段時(shí)間(諸如一秒鐘)。
[0218]雖然步驟804被描繪為在步驟806之前發(fā)生,備選地,“創(chuàng)建注釋”按鈕的選擇可以在確定文本位置之前發(fā)生。
[0219]在步驟808,文本媒體播放器412接收用于創(chuàng)建注釋數(shù)據(jù)的輸入。該輸入可以是話音數(shù)據(jù)(諸如用戶向設(shè)備410的麥克風(fēng)說出)或者文本數(shù)據(jù)(諸如用戶選擇鍵盤上的按鍵,無論是物理的或圖形的)。如果注釋數(shù)據(jù)是話音數(shù)據(jù),則文本媒體播放器412 (或另一過程)可以對(duì)該話音數(shù)據(jù)執(zhí)行語音至文本分析以創(chuàng)建該話音數(shù)據(jù)的文本版本。
[0220]在步驟810,文本媒體播放器412將注釋數(shù)據(jù)與文本位置相關(guān)聯(lián)存儲(chǔ)。文本媒體播放器412使用映射(例如,映射406的拷貝)標(biāo)識(shí)映射中最靠近該文本位置的特定文本位置。繼而,使用映射,文本媒體播放器標(biāo)識(shí)對(duì)應(yīng)于特定文本位置的音頻位置。
[0221]步驟810的備選,文本媒體播放器412通過網(wǎng)絡(luò)440向中間設(shè)備420發(fā)送注釋數(shù)據(jù)和文本位置。作為響應(yīng),中間設(shè)備420將該注釋數(shù)據(jù)與文本位置相關(guān)聯(lián)存儲(chǔ)。中間設(shè)備420使用映射(例如,映射406)標(biāo)識(shí)映射406中最靠近該文本位置的特定文本位置。繼而,使用映射406,中間設(shè)備420標(biāo)識(shí)對(duì)應(yīng)于特定文本位置的音頻位置。中間設(shè)備420通過網(wǎng)絡(luò)440向設(shè)備410發(fā)送所標(biāo)識(shí)的音頻位置。中間設(shè)備420可以響應(yīng)于設(shè)備410對(duì)某個(gè)音頻數(shù)據(jù)和/或與某個(gè)音頻數(shù)據(jù)相關(guān)聯(lián)的注釋的請(qǐng)求發(fā)送所標(biāo)識(shí)的音頻位置。例如,響應(yīng)于對(duì)“雙城記”音頻書版本的請(qǐng)求,中間設(shè)備420確定是否存在與該音頻書相關(guān)聯(lián)的任意注釋數(shù)據(jù),并且如果存在,則向設(shè)備410發(fā)送該注釋數(shù)據(jù)。[0222]步驟810還可以包括存儲(chǔ)指示注釋何時(shí)被創(chuàng)建的日期和/或時(shí)間信息。在音頻上下文中消費(fèi)該注釋時(shí),此信息可以稍后顯示。
[0223]在步驟812,音頻媒體播放器414通過處理數(shù)字媒體產(chǎn)品404的音頻數(shù)據(jù)來播放音頻,其在此示例中(雖然未示出),可以存儲(chǔ)在設(shè)備410上或者可以通過網(wǎng)絡(luò)440從中間設(shè)備420流傳輸至設(shè)備410。
[0224]在步驟814,音頻媒體播放器414確定音頻數(shù)據(jù)中當(dāng)前回放位置何時(shí)匹配或近乎匹配使用映射406在步驟810中標(biāo)識(shí)的音頻位置。備選地,音頻媒體播放器414可以使得指示注釋可獲取的數(shù)據(jù)被顯示,如步驟812中所指示,不需要考慮該當(dāng)前回放位置所處的位置以及不需要播放任意音頻。換言之,步驟812是不必要的。例如,用戶可以開始音頻媒體播放器414并且使得音頻媒體播放器414加載數(shù)字媒體產(chǎn)品404的音頻數(shù)據(jù)。音頻媒體播放器414確定該注釋數(shù)據(jù)與該音頻數(shù)據(jù)相關(guān)聯(lián)。音頻媒體播放器414使得關(guān)于音頻數(shù)據(jù)的信息(例如,題目、藝術(shù)家、流派、長(zhǎng)度等)被顯示,而不需要生成與該音頻數(shù)據(jù)相關(guān)聯(lián)的任何音頻。該信息可以包括對(duì)該注釋數(shù)據(jù)以及關(guān)于音頻數(shù)據(jù)中與該注釋數(shù)據(jù)相關(guān)聯(lián)的位置的信息的引用,其中該位置對(duì)應(yīng)于步驟810中標(biāo)識(shí)的音頻位置。
[0225]在步驟816,音頻媒體播放器414消費(fèi)注釋數(shù)據(jù)。如果該注釋數(shù)據(jù)是話音數(shù)據(jù),則消費(fèi)該注釋數(shù)據(jù)可以包括處理該話音數(shù)據(jù)以生成音頻或者將該話音數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù)并且顯示該文本數(shù)據(jù)。如果注釋數(shù)據(jù)是文本數(shù)據(jù),則消費(fèi)該注釋數(shù)據(jù)可以包括例如在顯示播放的音頻數(shù)據(jù)的屬性的GUI的側(cè)板中或者與該GUI分開出現(xiàn)的新窗口中顯示該文本數(shù)據(jù)。屬性的非限制性示例包括音頻數(shù)據(jù)的時(shí)間長(zhǎng)度,當(dāng)前回放位置,其可以指示音頻數(shù)據(jù)中的絕對(duì)位置(例如,時(shí)間偏移)或者音頻數(shù)據(jù)中的相對(duì)位置(例如,章節(jié)或部分號(hào)),音頻數(shù)據(jù)的波形,以及數(shù)字作品的標(biāo)題。
[0226]圖8B描繪了先前指出的情形,其中注釋在設(shè)備430上創(chuàng)建并且稍后在設(shè)備410上消費(fèi)。
[0227]在步驟852,音頻媒體播放器432處理來自數(shù)字媒體產(chǎn)品404的音頻數(shù)據(jù)以播放音頻。
[0228]在步驟854,音頻媒體播放器432確定音頻數(shù)據(jù)中的音頻位置。該音頻位置最終與注釋相關(guān)聯(lián)存儲(chǔ)。該音頻位置可以通過多種方式確定。例如,音頻媒體播放器432可以接收選擇音頻數(shù)據(jù)中音頻位置的輸入。該輸入可以是用戶觸摸設(shè)備430的觸摸屏(顯示音頻數(shù)據(jù)的屬性)一段時(shí)間。該輸入可以選擇反映音頻數(shù)據(jù)的長(zhǎng)度的時(shí)間軸中的絕對(duì)位置或者音頻數(shù)據(jù)中的相對(duì)位置,諸如章節(jié)號(hào)和段落號(hào)。該輸入還可以包括首先選擇按鈕,該按鈕使得音頻媒體播放器432變?yōu)槠渲凶⑨尶梢员粍?chuàng)建并且與音頻位置相關(guān)聯(lián)的“創(chuàng)建注釋”模式。
[0229]作為確定音頻位置的另一示例,音頻媒體播放器432基于音頻數(shù)據(jù)中正被處理的部分自動(dòng)(不需要用戶輸入)確定音頻位置。例如,如果音頻媒體播放器432正在處理音頻數(shù)據(jù)中對(duì)應(yīng)于反映在數(shù)字媒體產(chǎn)品404中的數(shù)字作品的章節(jié)20的一部分,則音頻媒體播放器432確定該音頻位置至少在章節(jié)20中的某個(gè)位置。
[0230]在步驟856,音頻媒體播放器432接收選擇可以在設(shè)備430的觸摸屏上顯示的“創(chuàng)建注釋”按鈕的輸入。此按鈕可以響應(yīng)于步驟854中選擇音頻位置的輸入而被顯示,其中例如用戶連續(xù)觸敏該觸摸屏一段時(shí)間,諸如一秒鐘。[0231]雖然步驟854被描繪為發(fā)生在步驟856之前,但是備選地,選擇“創(chuàng)建注釋”按鈕可以在確定音頻位置之前。
[0232]在步驟858,第一媒體播放器接收用于創(chuàng)建注釋數(shù)據(jù)的輸入,類似于步驟808。
[0233]在步驟860,音頻媒體播放器432將注釋數(shù)據(jù)與該音頻位置相關(guān)聯(lián)存儲(chǔ)。音頻媒體播放器432使用映射(例如,映射406)標(biāo)識(shí)映射中最靠近步驟854中確定的音頻位置的特定音頻位置。繼而,使用該映射,音頻媒體播放器432標(biāo)識(shí)對(duì)應(yīng)于特定音頻位置的文本位置。
[0234]對(duì)步驟860的備選,音頻媒體播放器432通過網(wǎng)絡(luò)400向中間設(shè)備420發(fā)送注釋數(shù)據(jù)和音頻位置。作為響應(yīng),中間設(shè)備420將注釋數(shù)據(jù)與音頻位置相關(guān)聯(lián)存儲(chǔ)。中間設(shè)備420使用映射406標(biāo)識(shí)映射中最靠近步驟854中確定的音頻位置的特定音頻位置。因此,適應(yīng)映射406,中間設(shè)備420標(biāo)識(shí)對(duì)應(yīng)于該特定音頻位置的文本位置。中間設(shè)備420通過網(wǎng)絡(luò)440向設(shè)備410發(fā)送標(biāo)識(shí)的文本位置。中間設(shè)備420可以響應(yīng)于設(shè)備410對(duì)某個(gè)文本數(shù)據(jù)和/或與某個(gè)文本數(shù)據(jù)相關(guān)聯(lián)的注釋的請(qǐng)求發(fā)送標(biāo)識(shí)的文本位置。例如,響應(yīng)于對(duì)“憤怒的葡萄”數(shù)字書的請(qǐng)求,中間設(shè)備420確定是否存在與該數(shù)字書相關(guān)聯(lián)的注釋數(shù)據(jù),并且如果存在,則向設(shè)備430發(fā)送該注釋數(shù)據(jù)。
[0235]步驟860還可以包括存儲(chǔ)指示注釋何時(shí)被創(chuàng)建的日期和/或時(shí)間信息。在文本上下文中消費(fèi)該注釋時(shí),此信息可以稍后顯示。
[0236]在步驟862,設(shè)備410顯示與數(shù)字媒體產(chǎn)品402相關(guān)聯(lián)的文本數(shù)據(jù),其是數(shù)字媒體產(chǎn)品404的文本版本。設(shè)備410基于數(shù)字媒體產(chǎn)品402的本地存儲(chǔ)拷貝顯示數(shù)字媒體產(chǎn)品402的文本數(shù)據(jù),或者如果本地存儲(chǔ)拷貝不存在,則可以在文本數(shù)據(jù)從中間設(shè)備420流傳輸時(shí)顯示該文本數(shù)據(jù)。
[0237]在步驟864,設(shè)備410確定作品(反映在數(shù)字媒體產(chǎn)品402中)的文本版本中包括文本位置(在步驟860中標(biāo)識(shí))的一部分何時(shí)被顯示。備選地,設(shè)備410可以顯示指示注釋可獲取的數(shù)據(jù),不需要考慮作品的文本版本中被顯示的部分(如果有的話)。
[0238]在步驟866,文本媒體播放器412消費(fèi)注釋數(shù)據(jù)。如果該注釋數(shù)據(jù)是話音數(shù)據(jù),則消費(fèi)該注釋數(shù)據(jù)可以包括顯示該話音數(shù)據(jù)或?qū)⒃撛捯魯?shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù)并且顯示該文本數(shù)據(jù)。如果注釋數(shù)據(jù)是文本數(shù)據(jù),則消費(fèi)該注釋數(shù)據(jù)可以包括例如在顯示作品的文本版本的一部分的GUI的側(cè)板中或者與該GUI分開出現(xiàn)的新窗口中顯示該文本數(shù)據(jù)。
[0239]大聲閱讀特征
[0240]如上文所述,媒體播放器的用戶可以查看作品的文本版本同時(shí)收聽該作品的音頻版本。此情形在這里被稱為“大聲閱讀”情形。當(dāng)媒體播放器當(dāng)前顯示作品的文本版本的一部分并且播放作品的音頻版本的一部分時(shí),媒體播放器被認(rèn)為是處于“大聲閱讀模式”。
[0241]在一個(gè)實(shí)施方式中,媒體播放器視覺上指示該媒體播放器是否處于大聲閱讀模式。處于大聲閱讀模式的視覺指示可以是出現(xiàn)在媒體播放器屏幕上某個(gè)位置的圖標(biāo)或圖形。例如,在敘述者“角色”的圖像由媒體播放器顯示并且在媒體播放器處于大聲閱讀模式時(shí)在由媒體播放器顯示的每個(gè)頁面上進(jìn)行動(dòng)畫。
[0242]當(dāng)媒體播放器處于大聲閱讀模式時(shí),用戶可以選擇經(jīng)由媒體播放器提供并且與該此情形相關(guān)聯(lián)的多個(gè)設(shè)置。
[0243]處于大聲閱讀模式的設(shè)置的一個(gè)示例是動(dòng)畫頁面翻動(dòng)設(shè)置。如果媒體播放器在動(dòng)畫頁面翻動(dòng)設(shè)置下操作,則當(dāng)音頻數(shù)據(jù)中當(dāng)前回放位置對(duì)應(yīng)于由媒體播放器顯示的頁面的結(jié)束時(shí),頁面自動(dòng)“翻動(dòng)”,即不需要用戶輸入?!胺瓌?dòng)”數(shù)字頁面包括停止顯示第一頁面并且顯示該第一頁面后的第二頁面。此“翻動(dòng)”可以包括顯示使得出現(xiàn)第一頁面是正在翻動(dòng)的實(shí)際頁面的圖形。因此,在自動(dòng)頁面翻動(dòng)設(shè)置下,媒體播放器確定音頻數(shù)據(jù)的當(dāng)前回放位置何時(shí)對(duì)應(yīng)于所顯示的頁面上的最后一個(gè)詞語。此確定可能通過使用映射將當(dāng)前音頻位置轉(zhuǎn)譯成當(dāng)前文本位置進(jìn)行,如這里所述,該映射存儲(chǔ)在媒體播放器上或者遠(yuǎn)離媒體播放器的服務(wù)器上。
[0244]處于大聲閱讀模式的設(shè)置的一個(gè)示例是頁面結(jié)束設(shè)置。如果媒體播放器在頁面結(jié)束設(shè)置下操作,則媒體播放器檢測(cè)音頻數(shù)據(jù)的當(dāng)前回放位置何時(shí)對(duì)應(yīng)于該媒體播放器顯示的頁面結(jié)束處的文本。響應(yīng)于該檢測(cè),媒體播放器使得音頻數(shù)據(jù)的回放停止。只有來自媒體播放器的用戶的輸入使得該媒體播放器繼續(xù)處理該音頻數(shù)據(jù)。同樣,該輸入可以使得媒體播放器“翻動(dòng)”頁面。此輸入可以是話音輸入或者經(jīng)由媒體播放器的觸摸屏的輸入。
[0245]處于大聲閱讀模式的設(shè)置的一個(gè)示例是書控制設(shè)置。如果媒體播放器在該書控制設(shè)置下操作,則與作品的文本版本相關(guān)聯(lián)的數(shù)據(jù)(例如,元數(shù)據(jù))用于控制對(duì)應(yīng)音頻數(shù)據(jù)的回放。因此,某些數(shù)據(jù)(諸如,文本數(shù)據(jù)或映射中的標(biāo)簽)指示何時(shí)暫?;蛲V挂纛l數(shù)據(jù)的回放,而不考慮頁面位置。例如,兒童書的文本版本可能具有多個(gè)對(duì)象圖片的頁面,其中之一是蘋果。該兒童書的音頻版本可能會(huì)問“你能找到蘋果嗎?”,并且文本版本中對(duì)應(yīng)于該問句結(jié)束的一部分具有指示何時(shí)暫停音頻回放的標(biāo)簽(或其他數(shù)據(jù))。媒體播放器讀取該標(biāo)簽,并且作為響應(yīng),暫?;胤胖钡絹碜杂脩舻母郊虞斎耄T如用戶選擇媒體播放器觸摸屏上所顯示的蘋果。備選地,與音頻版本和文本版本相關(guān)聯(lián)的映射可以包括指示何時(shí)暫停音頻的暫停數(shù)據(jù)。因此,在媒體播放器檢測(cè)暫停數(shù)據(jù)而音頻版本的當(dāng)前回放位置正在改變時(shí),媒體播放器暫停該回放直到用戶提供輸入,諸如叩擊觸摸屏上所顯示的蘋果。一旦用戶提供了請(qǐng)求的輸入,則恢復(fù)音頻版本的回放。
[0246]自動(dòng)暫停音頻數(shù)據(jù)的回放
[0247]在某些情形(不同于如上文所述處于結(jié)束頁面設(shè)置的頁面結(jié)束處),當(dāng)作品的文本版本的一部分正被顯示時(shí),自動(dòng)暫停該作品的音頻版本的回放可能是有益的。例如,針對(duì)某些作品,文本版本包含圖片。具體地,作品的文本版本的頁面可以包括只有圖片而不具有任意文本,或者可以包括圖片和文本而文本版本中的其他頁面不包括任意圖片。在此情形下,停止播放作品的音頻版本以允許用戶安靜地分析該圖片可能是有益的。
[0248]在一個(gè)實(shí)施方式中,作品的文本版本包括指示作品的音頻版本的回放何時(shí)應(yīng)當(dāng)被停止的“暫停標(biāo)簽”。例如,暫停標(biāo)簽可以在文本版本中的圖片之前或者可以緊接在文本版本中問句之后。因此,暫停標(biāo)簽可以對(duì)應(yīng)于作品的文本版本中的特定文本位置。媒體播放器(或遠(yuǎn)程服務(wù)器)基于映射確定作品的音頻版本的當(dāng)前回放何時(shí)對(duì)應(yīng)于特定文本版本。響應(yīng)于該確定,媒體播放器暫停音頻數(shù)據(jù)的回放。該暫??梢允穷A(yù)先確定的(諸如三秒鐘),在這之后媒體播放器自動(dòng)開始再次播放該音頻數(shù)據(jù)(即,不需要進(jìn)一步的用戶輸入)。備選地,用于暫停的時(shí)間量可以基于暫停標(biāo)簽本身中的信息或者文本版本元數(shù)據(jù)中的信息確定,其中所述信息指示時(shí)間量(諸如,五秒鐘),在這之后媒體播放器自動(dòng)再次從媒體播放器停止回放處播放該音頻數(shù)據(jù)。備選地,媒體播放器接收使得該媒體播放器在其暫?;胤胖罄^續(xù)播放作品的音頻版本的用戶輸入。該用戶輸入可以要求繼續(xù)回放或者可以用于縮短暫停時(shí)間。
[0249]在相關(guān)實(shí)施方式中,與作品的音頻版本和文本版本相關(guān)聯(lián)的映射可以包括指示音頻版本中暫停某個(gè)時(shí)間量或者直到接收用戶輸入的位置的暫停數(shù)據(jù)。例如,當(dāng)媒體播放器處理作品的音頻版本時(shí),該媒體播放器保持追蹤音頻版本中的當(dāng)前回放位置。當(dāng)該當(dāng)前回放位置在映射中對(duì)應(yīng)于與暫停數(shù)據(jù)相關(guān)聯(lián)的音頻位置時(shí),媒體播放器暫停音頻數(shù)據(jù)的回放。
[0250]硬件概述
[0251]根據(jù)一個(gè)實(shí)施方式,這里所述技術(shù)由一個(gè)或多個(gè)專用計(jì)算設(shè)備實(shí)現(xiàn)。該專用計(jì)算設(shè)備可以被硬連線以執(zhí)行所述技術(shù),或者可以包括數(shù)字電子設(shè)備,諸如被持續(xù)編程用于執(zhí)行所述技術(shù)的一個(gè)或多個(gè)專用集成電路(ASIC)或現(xiàn)場(chǎng)可編程門陣列(FPGA),或者可以包括編程用于依照固件、存儲(chǔ)器、其他存儲(chǔ)或組合中的程序指令執(zhí)行所述技術(shù)的一個(gè)或多個(gè)通用硬件處理器。此類專用計(jì)算設(shè)備還可以將定制硬連線邏輯、ASIC或FPGA與定制編程組合以完成所述技術(shù)。專用計(jì)算設(shè)備可以是臺(tái)式計(jì)算機(jī)系統(tǒng)、便攜式計(jì)算機(jī)系統(tǒng)、手持設(shè)備、聯(lián)網(wǎng)設(shè)備或并入硬連線和/或程序邏輯以實(shí)現(xiàn)所述技術(shù)的任意其他設(shè)備。
[0252]例如,圖9是其上可以實(shí)現(xiàn)本發(fā)明的一個(gè)實(shí)施方式的計(jì)算機(jī)系統(tǒng)900的框圖。計(jì)算機(jī)系統(tǒng)900包括用于通信信息的總線902或其他通信機(jī)制,以及與總線902耦合用于處理信息的硬件處理器904。硬件處理器904例如可以是通用微處理器。
[0253]計(jì)算機(jī)系統(tǒng)900還包括耦合至總線902用于存儲(chǔ)供處理器904執(zhí)行的指令和信息的主存儲(chǔ)器906,諸如隨機(jī)訪問存儲(chǔ)器(RAM)或其他動(dòng)態(tài)存儲(chǔ)設(shè)備。主存儲(chǔ)器906還可以用于存儲(chǔ)在供處理器904執(zhí)行的指令的執(zhí)行期間的臨時(shí)變量或其他中間信息。此類指令在被存儲(chǔ)至處理器904可訪問的非瞬態(tài)存儲(chǔ)介質(zhì)中時(shí),使得計(jì)算機(jī)系統(tǒng)900呈現(xiàn)為定制用于執(zhí)行指令中指定的操作的專用機(jī)器。
[0254]計(jì)算機(jī)系統(tǒng)900進(jìn)一步包括耦合至總線902用于為處理器904存儲(chǔ)靜態(tài)信息和指令的只讀存儲(chǔ)器(ROM) 908或其他靜態(tài)存儲(chǔ)設(shè)備。存儲(chǔ)設(shè)備910 (諸如磁盤或光盤)被提供并且耦合至總線902用于存儲(chǔ)信息和指令。
[0255]計(jì)算機(jī)系統(tǒng)900可以經(jīng)由總線902耦合至顯示器912 (諸如陰極射線管(CRT))用于向計(jì)算機(jī)用戶顯示信息。包括字母數(shù)字和其他按鍵的輸入設(shè)備914被耦合至總線902用于向處理器904通信信息和命令選擇。另一類用戶輸入設(shè)備是光標(biāo)控件916,諸如用于向處理器904通信方向信息和命令選擇并且用于控制顯示器912上的光標(biāo)移動(dòng)的鼠標(biāo)、追蹤球或光標(biāo)方向鍵。此輸入設(shè)備通常具有兩個(gè)軸(第一軸(例如,X)和第二軸(例如,y))中的兩個(gè)自由度,允許設(shè)備指定平面中的位置。
[0256]計(jì)算機(jī)系統(tǒng)900可以使用定制硬件邏輯、一個(gè)或多個(gè)ASIC或FPGA、固件和/或程序邏輯來實(shí)現(xiàn)這里所述的技術(shù),其與計(jì)算機(jī)系統(tǒng)組合使得或編程計(jì)算機(jī)系統(tǒng)900成為專用機(jī)器。根據(jù)一個(gè)實(shí)施方式,這里的技術(shù)響應(yīng)于處理器904執(zhí)行主存儲(chǔ)器906中包含的一個(gè)或多個(gè)指令的一個(gè)或多個(gè)序列由計(jì)算機(jī)系統(tǒng)900執(zhí)行。此類指令可以從另一存儲(chǔ)介質(zhì)(諸如存儲(chǔ)設(shè)備910)讀取至主存儲(chǔ)器906。主存儲(chǔ)器906中包含的指令序列的執(zhí)行使得處理器904執(zhí)行這里所述的處理步驟。在備選實(shí)施方式中,硬連線電路可以代替軟件指令或與其組合使用。
[0257]這里使用的術(shù)語“存儲(chǔ)介質(zhì)”是指存儲(chǔ)使得機(jī)器以特定方式操作的數(shù)據(jù)和/或指令的任意非瞬態(tài)介質(zhì)。此類存儲(chǔ)介質(zhì)可以包括非易失性介質(zhì)和/或易失性介質(zhì)。非易失性介質(zhì)例如包括光盤或磁盤,諸如存儲(chǔ)設(shè)備910。易失性介質(zhì)包括動(dòng)態(tài)存儲(chǔ)器,諸如主存儲(chǔ)器906。存儲(chǔ)介質(zhì)的常見形式例如包括軟盤、軟性盤、硬盤、固態(tài)驅(qū)動(dòng)器、磁帶、或任意其他磁數(shù)據(jù)存儲(chǔ)介質(zhì)、CD-ROM、任意其他光數(shù)據(jù)存儲(chǔ)介質(zhì)、具有孔圖案的任意物理介質(zhì)、RAM、PROM、和EPROM、FLASH-EPROM、NVRAM、任意其他存儲(chǔ)器芯片或卡盤。
[0258]存儲(chǔ)介質(zhì)具有不同的形式但是可以結(jié)合傳輸介質(zhì)使用。傳輸介質(zhì)參與在存儲(chǔ)介質(zhì)之間傳輸信息。例如,傳輸介質(zhì)包括同軸電纜、銅線和光纖,包括包含總線902的線。傳輸介質(zhì)還可以采用聲波或光波的形式,諸如在無線電波和紅外線數(shù)據(jù)通信期間生成的波。
[0259]在承載一個(gè)或多個(gè)指令的一個(gè)或多個(gè)序列至處理器904用于執(zhí)行的過程中包括各種形式的介質(zhì)。例如,指令可以最初承載在遠(yuǎn)程計(jì)算機(jī)的磁盤或固態(tài)驅(qū)動(dòng)器上。遠(yuǎn)程計(jì)算機(jī)可以將指令加載至其動(dòng)態(tài)存儲(chǔ)器并且使用調(diào)制解調(diào)器通過電話線發(fā)送該指令。計(jì)算機(jī)系統(tǒng)900的本地調(diào)制解調(diào)器可以接收電話線上的數(shù)據(jù)并且使用紅外線發(fā)射器將該數(shù)據(jù)轉(zhuǎn)換成紅外線信號(hào)。紅外線檢測(cè)器可以接收紅外線信號(hào)中承載的數(shù)據(jù),并且適當(dāng)?shù)碾娐房梢詫?shù)據(jù)置于總線902上。總線902將該數(shù)據(jù)承載至主存儲(chǔ)器906,從中處理器904獲取并執(zhí)行指令。由主存儲(chǔ)器906接收的指令可以在由處理器904執(zhí)行之前或之后選擇性地存儲(chǔ)在存儲(chǔ)設(shè)備910上。
[0260]計(jì)算機(jī)系統(tǒng)900還包括耦合至總線902的通信接口 918。通信接口 918提供耦合至與本地網(wǎng)絡(luò)922連接的網(wǎng)絡(luò)鏈路920的雙向數(shù)據(jù)通信。例如,通信接口 918可以是綜合數(shù)據(jù)業(yè)務(wù)網(wǎng)(ISDN)卡、電纜調(diào)制解調(diào)器、衛(wèi)星調(diào)制解調(diào)器、或者用于向?qū)?yīng)類型的電話線提供數(shù)據(jù)通信連接的調(diào)制解調(diào)器。作為另一示例,通信接口 918可以是局域網(wǎng)(LAN)卡用于向可兼容LAN提供數(shù)據(jù)通信連接。還可以實(shí)現(xiàn)無線鏈路。在任意此類實(shí)現(xiàn)方式中,通信接口 918發(fā)送并接收承載表示各種類型信息的數(shù)字?jǐn)?shù)據(jù)流的電信號(hào)、電磁信號(hào)或光信號(hào)。
[0261]網(wǎng)絡(luò)鏈路920通常通過一個(gè)或多個(gè)網(wǎng)絡(luò)向其他數(shù)據(jù)設(shè)備提供數(shù)據(jù)通信。例如,網(wǎng)絡(luò)鏈路920可以通過本地網(wǎng)絡(luò)922向主機(jī)計(jì)算機(jī)924或者由因特網(wǎng)服務(wù)提供商(ISP)926運(yùn)營的數(shù)據(jù)設(shè)備提供連接。ISP926反過來通過現(xiàn)在通常被稱為“因特網(wǎng)”928的世界范圍分組數(shù)據(jù)通信網(wǎng)絡(luò)提供數(shù)據(jù)通信服務(wù)。本地網(wǎng)絡(luò)922和因特網(wǎng)928均使用承載數(shù)字?jǐn)?shù)據(jù)流的電信號(hào)、電磁信號(hào)或光信號(hào)。通過各種網(wǎng)絡(luò)的信號(hào)以及網(wǎng)絡(luò)鏈路920上通過通信接口 918的信號(hào)(其承載來往于計(jì)算機(jī)系統(tǒng)900的數(shù)字?jǐn)?shù)據(jù))是傳輸介質(zhì)的示例形式。
[0262]計(jì)算機(jī)系統(tǒng)900可以通過網(wǎng)絡(luò)、網(wǎng)絡(luò)鏈路920和通信接口 918發(fā)送消息并接收數(shù)據(jù)(包括程序代碼)。在因特網(wǎng)示例中,服務(wù)器930可以通過因特網(wǎng)928、ISP926、本地網(wǎng)絡(luò)922和通信接口 918傳輸對(duì)應(yīng)用程序的請(qǐng)求代碼。
[0263]該接收到的代碼可以在其被接收時(shí)由處理器904執(zhí)行,和/或存儲(chǔ)至存儲(chǔ)系統(tǒng)910或其他非易失性存儲(chǔ)用于稍后執(zhí)行。
[0264]根據(jù)某些實(shí)施方式,圖10至圖15示出了根據(jù)上文所述發(fā)明的原理的電子設(shè)備1000-1500的功能框圖。設(shè)備的功能框圖可以通過硬件、軟件或硬件和軟件的組合來實(shí)現(xiàn)以實(shí)行本發(fā)明的原理。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解圖10至圖15中描述的功能塊可以組合或分成子塊以實(shí)現(xiàn)上文所述本發(fā)明的原理。因此,這里的描述可以支持這里所述功能塊的任意可能的組合或分離或進(jìn)一步限定。
[0265]如圖10所示,電子設(shè)備1000包括音頻數(shù)據(jù)接收單元1002,被配置為接收反映針對(duì)其而存在文本版本的作品的音頻版本的音頻數(shù)據(jù)。電子設(shè)備1000還包括耦合至該音頻數(shù)據(jù)接收單元1002的處理單元1006。在某些實(shí)施方式中,處理單元1006包括語音至文本單元1008和映射單元1010。
[0266]處理單元1006被配置為執(zhí)行對(duì)音頻數(shù)據(jù)的語音至文本分析以生成針對(duì)音頻數(shù)據(jù)部分的文本(例如,通過語音至文本單元1008);以及基于針對(duì)音頻數(shù)據(jù)的部分生成的文本,生成音頻數(shù)據(jù)中多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射(例如,通過映射單元1010)。
[0267]如圖11所示,電子設(shè)備1100包括文本接收單元1102,被配置為接收作品的文本版本。電子設(shè)備1100還包括音頻數(shù)據(jù)接收單元1104,被配置為接收反映針對(duì)其而存在文本版本的作品的音頻版本的第二音頻數(shù)據(jù)。該電子設(shè)備1100還包括耦合至該文本接收單元1102的處理單元1106。在某些實(shí)施方式中,處理單元1106包括文本至語音單元1108和映射單元1110。
[0268]處理單元1106被配置為執(zhí)行對(duì)文本版本的文本至語音分析以生成第一音頻數(shù)據(jù)(例如,通過文本至語音單元1108);并且基于該第一音頻數(shù)據(jù)和文本版本,生成第一音頻數(shù)據(jù)中第一多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的第一映射(例如,通過映射單元1110)。處理單元1106進(jìn)一步被配置為基于(I)第一音頻數(shù)據(jù)與第二音頻數(shù)據(jù)之間的比較以及(2)第一映射,生成第二音頻數(shù)據(jù)中第二多個(gè)音頻位置與作品的文本版本中多個(gè)文本位置之間的第二映射(例如,通過映射單元1110)。
[0269]如圖12所示,電子設(shè)備1200包括音頻接收單元1202,被配置為接收音頻輸入。該電子設(shè)備1200還包括耦合至該音頻接收單元1202的處理單元1206。在某些實(shí)施方式中,處理單元1206包括語音至文本單元1208、文本匹配單元1209和顯示器控制單元1210。
[0270]處理單元1206被配置為執(zhí)行對(duì)音頻輸入的語音至文本分析以生成針對(duì)音頻輸入的部分的文本(例如,通過語音至文本單元1208);確定針對(duì)音頻輸入部分生成的文本是否匹配當(dāng)前顯示的文本(例如,通過文本匹配單元1209);以及響應(yīng)于確定所述文本匹配當(dāng)前顯示的文本,使得當(dāng)前顯示的文本突出顯示(例如,通過顯示器控制單元1210)。
[0271]如圖13所示,電子設(shè)備1300包括位置數(shù)據(jù)獲取單元1302,被配置為獲取指示作品的文本版本中指定位置的位置數(shù)據(jù)。該電子設(shè)備1300還包括耦合至該位置數(shù)據(jù)獲取單元1302的處理單元1306。在某些實(shí)施方式中,處理單元1306包括映射檢查單元1308。
[0272]處理單元1306被配置為檢查作品的音頻版本中多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射(例如,通過映射檢查單元1308):確定多個(gè)文本位置中對(duì)應(yīng)于指定位置的特定文本位置,并且基于該特定文本位置確定多個(gè)音頻位置中對(duì)應(yīng)于該特定文本位置的特定音頻位置。處理單元1306還被配置為向媒體播放器提供基于特定文本位置確定的特定音頻位置以使得媒體播放器將該特定音頻位置建立為音頻數(shù)據(jù)的當(dāng)前回放位置。
[0273]如圖14所示,電子設(shè)備1400包括位置獲取單元1402,被配置為獲取指示音頻數(shù)據(jù)中指定位置的位置數(shù)據(jù)。該電子設(shè)備還包括耦合至該位置獲取單元1402的處理單元1406。在某些實(shí)施方式中,處理單元1406包括映射檢查單元1408和顯示器控制單元1410。
[0274]處理單元1406被配置為檢查音頻數(shù)據(jù)中多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射(例如,通過映射檢查單元1408):確定多個(gè)音頻位置中對(duì)應(yīng)于指定位置的特定音頻位置,并且基于該特定音頻位置確定多個(gè)文本位置中對(duì)應(yīng)于該特定音頻位置的特定文本位置。處理單元1406還被配置為使得媒體播放器顯示關(guān)于該特定文本位置的信息(例如,通過顯示器控制單元1410)。
[0275]如圖15所示,電子設(shè)備1500包括位置獲取單元1502,被配置為獲取在作品的音頻版本的回放期間指示該音頻版本中指定位置的位置數(shù)據(jù)。該電子設(shè)備1500還包括耦合至該位置獲取單元1502的處理單元1506。在某些實(shí)施方式中,該處理單元1506包括文本位置確定單元1508和顯示器控制單元1510。
[0276]處理單元1506被配置為在作品的音頻版本的回放期間:基于指定位置確定作品的文本版本中與頁面結(jié)束數(shù)據(jù)相關(guān)聯(lián)的特定文本位置(例如,通過文本位置確定單元1508),頁面結(jié)束數(shù)據(jù)指示在作品的文本版本中反映的第一頁面的結(jié)束;以及響應(yīng)于確定該特定文本位置與頁面結(jié)束數(shù)據(jù)相關(guān)聯(lián),自動(dòng)使得第一頁面停止顯示并且使得該第一頁面后的第二頁面被顯示(例如,通過顯示器控制單元1510)。
[0277]如圖16所示,電子設(shè)備1600包括注釋獲取單元1602,被配置為在作品的第一版本被處理時(shí)獲取基于來自用戶的輸入的注釋數(shù)據(jù)。該電子設(shè)備1600還包括關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)單元1603。該電子設(shè)備1600還包括耦合至該注釋獲取單元1602和關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)單元1603的處理單元1606。在某些實(shí)施方式中,處理單元1606包括顯示器控制單元1610。
[0278]處理單元1606被配置為使得將注釋數(shù)據(jù)與作品相關(guān)聯(lián)的關(guān)聯(lián)數(shù)據(jù)被存儲(chǔ)(例如,在關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)單元1603中);以及當(dāng)作品的第二版本被處理時(shí),使得關(guān)于注釋數(shù)據(jù)的信息被顯示(例如,通過顯示器控制單元1610),其中第二版本與第一版本不同。
[0279]如圖17所示,電子設(shè)備1700包括數(shù)據(jù)接收單元1702,被配置為接收建立作品第一版本中第一書簽的數(shù)據(jù)。電子設(shè)備1700還包括位置數(shù)據(jù)存儲(chǔ)單元1703。電子設(shè)備1700還包括耦合至數(shù)據(jù)接收單元1702和位置數(shù)據(jù)存儲(chǔ)單元1703的處理單元1706。在某些實(shí)施方式中,處理單元1706包括映射檢查單元1708。
[0280]處理單元1706被配置為檢查作品的第一版本中多個(gè)第一位置與作品的第二版本中對(duì)應(yīng)的多個(gè)第二位置之間的映射(例如,通過映射檢查單元1708)用于:確定多個(gè)第一位置中對(duì)應(yīng)于第一書簽的特定第一位置,并且基于該特定第一位置,確定多個(gè)第二位置中對(duì)應(yīng)于該特定第一位置的特定第二位置,其中作品的第一版本與作品的第二版本不同;使得將該特定第二位置建立為作品的第二版本中的第二書簽的數(shù)據(jù)被存儲(chǔ)(例如,在位置數(shù)據(jù)存儲(chǔ)單元1703中)。
[0281]如圖18所示,電子設(shè)備1800包括音頻接收單元1802,被配置為在設(shè)備接收來自用戶的音頻輸入。電子設(shè)備1800還包括耦合至該音頻接收單元1802的處理單元1806。在某些實(shí)施方式中,處理單元1806包括詞語分析單元1808和顯示器控制單元1810。
[0282]處理單元1806被配置為使得作品的文本的一部分被設(shè)備顯示(例如,通過顯示器控制單元1810);以及響應(yīng)于在音頻接收單元接收音頻輸入:分析該音頻輸入以標(biāo)識(shí)一個(gè)或多個(gè)詞語(例如,通過詞語分析單元1808);確定一個(gè)或多個(gè)詞語是否被反映在文本的該部分中(例如,通過詞語分析單元1808);以及響應(yīng)于確定該一個(gè)或多個(gè)詞語反映在文本的該部分中,使得視覺指示由設(shè)備顯示(例如,通過顯示器控制單元1810)。
[0283]在之前說明書中,本發(fā)明的各實(shí)施方式已經(jīng)參考可以在實(shí)現(xiàn)方式之間變化的若干特定細(xì)節(jié)進(jìn)行了描述。因此,本說明書和附圖被認(rèn)為是說明性而不是限制性。本發(fā)明范圍內(nèi)的獨(dú)有指示(即 申請(qǐng)人:期望的本發(fā)明的范圍)是以包括任意隨后修正的特定形式隨本申請(qǐng)發(fā)布的權(quán)利要求集合的文字等效范圍。
【權(quán)利要求】
1.一種方法,包括: 接收反映針對(duì)其而存在文本版本的作品的可聽版本的音頻數(shù)據(jù); 執(zhí)行對(duì)所述音頻數(shù)據(jù)的語音至文本分析,以生成針對(duì)所述音頻數(shù)據(jù)的部分的文本;以及 基于針對(duì)所述音頻數(shù)據(jù)的所述部分而生成的所述文本,生成所述音頻數(shù)據(jù)中的多個(gè)音頻位置與所述作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射; 其中所述方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
2.根據(jù)權(quán)利要求1所述的方法,其中生成針對(duì)所述音頻數(shù)據(jù)的部分的文本包括:至少部分地基于所述作品的文本上下文生成針對(duì)所述音頻數(shù)據(jù)的部分的文本。
3.根據(jù)權(quán)利要求2所述的方法,其中至少部分地基于所述作品的文本上下文生成針對(duì)所述音頻數(shù)據(jù)的部分的文本包括:至少部分地基于在所述作品的所述文本版本中使用的語法的一個(gè)或多個(gè)規(guī)則生成文本。
4.根據(jù)權(quán)利要求2所述的方法,其中至少部分地基于所述作品的文本上下文生成針對(duì)所述音頻數(shù)據(jù)的部分的文本包括:基于哪些詞語在所述作品的所述文本版本或其子集中,來限制所述部分能夠被轉(zhuǎn)譯成哪些詞語。
5.根據(jù)權(quán)利要求4所述的方法,其中基于哪些詞語在所述作品的所述文本版本中來限制所述部分能夠被轉(zhuǎn)譯成 哪些詞語包括:針對(duì)所述音頻數(shù)據(jù)的給定部分,標(biāo)識(shí)所述作品的所述文本版本中對(duì)應(yīng)于所述給定部分的子部分,并且僅將所述詞語限制為所述作品的所述文本版本的所述子部分中的那些詞語。
6.根據(jù)權(quán)利要求5所述的方法,其中: 標(biāo)識(shí)所述作品的所述文本版本中的所述子部分包括:維持所述作品的所述文本版本中與所述音頻數(shù)據(jù)中的所述語音至文本分析的當(dāng)前音頻位置相對(duì)應(yīng)的當(dāng)前文本位置;并且 所述作品的所述文本版本的所述子部分是與所述當(dāng)前文本位置相關(guān)聯(lián)的部分。
7.根據(jù)權(quán)利要求1-6中任意一項(xiàng)所述的方法,其中所述部分包括對(duì)應(yīng)于個(gè)體詞語的部分,并且所述映射將對(duì)應(yīng)于個(gè)體詞語的所述部分的位置映射到所述作品的所述文本版本中的個(gè)體詞語。
8.根據(jù)權(quán)利要求1-6中任意一項(xiàng)所述的方法,其中所述部分包括對(duì)應(yīng)于個(gè)體語句的部分,并且所述映射將對(duì)應(yīng)于個(gè)體語句的所述部分的位置映射到所述作品的所述文本版本中的個(gè)體語句。
9.根據(jù)權(quán)利要求1-6中任意一項(xiàng)所述的方法,其中所述部分包括對(duì)應(yīng)于固定量的數(shù)據(jù)的部分,并且所述映射將對(duì)應(yīng)于固定量的數(shù)據(jù)的所述部分的位置映射到所述作品的所述文本版本中的對(duì)應(yīng)位置。
10.根據(jù)權(quán)利要求1-9中任意一項(xiàng)所述的方法,其中生成所述映射包括:(I)將錨點(diǎn)嵌入所述音頻數(shù)據(jù)中;(2)將錨點(diǎn)嵌入所述作品的所述文本版本中;或者(3)將所述映射存儲(chǔ)在與所述音頻數(shù)據(jù)或所述作品的所述文本版本相關(guān)聯(lián)存儲(chǔ)的媒體覆蓋中。
11.根據(jù)權(quán)利要求1-10中任意一項(xiàng)所述的方法,其中所述多個(gè)文本位置的一個(gè)或多個(gè)位置中的每個(gè)位置指示所述作品的所述文本版本中的相對(duì)位置。
12.根據(jù)權(quán)利要求1-10中任意一項(xiàng)所述的方法,其中所述多個(gè)文本位置中的一個(gè)文本位置指示所述作品的所述文本版本中的相對(duì)位置,并且所述多個(gè)文本位置中的另一文本位置指示距所述相對(duì)位置的絕對(duì)位置。
13.根據(jù)權(quán)利要求1-10中任意一項(xiàng)所述的方法,其中所述多個(gè)文本位置的一個(gè)或多個(gè)位置中的每個(gè)位置指示所述作品的所述文本版本內(nèi)的錨點(diǎn)。
14.一種方法,包括: 接收作品的文本版本; 執(zhí)行對(duì)所述文本版本的文本至語音分析以生成第一音頻數(shù)據(jù); 基于所述第一音頻數(shù)據(jù)和所述文本版本,生成所述第一音頻數(shù)據(jù)中的第一多個(gè)音頻位置與所述作品的所述文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的第一映射; 接收反映針對(duì)其而存在所述文本版本的所述作品的可聽版本的第二音頻數(shù)據(jù);以及基于(I)所述第一音頻數(shù)據(jù)與所述第二音頻數(shù)據(jù)之間的比較以及(2)所述第一映射,生成所述第二音頻數(shù)據(jù)中的第二多個(gè)音頻位置與所述作品的所述文本版本中的所述多個(gè)文本位置之間的第二映射; 其中所述方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
15.一種方法,包括: 接收音頻輸入; 執(zhí)行對(duì)所述音頻輸入的語音至文本分析,以生成針對(duì)所述音頻輸入的部分的文本; 確定針對(duì)所述音頻輸入的部分而生成的所述文本是否與當(dāng)前顯示的文本匹配;以及 響應(yīng)于確定所述文本與當(dāng)前顯示的文本匹配,使得所述當(dāng)前顯示的文本被突出顯示; 其中所述方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。`
16.—種電子設(shè)備,包括: 音頻數(shù)據(jù)接收單元,被配置用于接收反映針對(duì)其而存在文本版本的作品的可聽版本的音頻數(shù)據(jù);以及 耦合至所述音頻數(shù)據(jù)接收單元的處理單元,所述處理單元被配置為: 執(zhí)行對(duì)所述音頻數(shù)據(jù)的語音至文本分析,以生成針對(duì)所述音頻數(shù)據(jù)的部分的文本;以及 基于針對(duì)所述音頻數(shù)據(jù)的所述部分而生成的所述文本,生成所述音頻數(shù)據(jù)中的多個(gè)音頻位置與所述作品的所述文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射。
17.—種電子設(shè)備,包括: 文本接收單元,被配置用于接收作品的文本版本;以及 耦合至所述文本接收單元的處理單元,所述處理單元被配置為: 執(zhí)行對(duì)所述文本版本的文本至語音分析,以生成第一音頻數(shù)據(jù);以及基于所述第一音頻數(shù)據(jù)和所述文本版本,生成所述第一音頻數(shù)據(jù)中的第一多個(gè)音頻位置與所述作品的所述文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射; 音頻數(shù)據(jù)接收單元,被配置用于接收反映針對(duì)其而存在所述文本版本的所述作品的可聽版本的第二音頻數(shù)據(jù); 所述處理單元進(jìn)一步被配置為:基于(I)所述第一音頻數(shù)據(jù)與所述第二音頻數(shù)據(jù)之間的比較以及(2)所述第一映射,生成所述第二音頻數(shù)據(jù)中的第二多個(gè)音頻位置與所述作品的所述文本版本中的所述多個(gè)文本位置之間的第二映射。
18.—種電子設(shè)備,包括: 音頻接收單元,被配置用于接收音頻輸入;以及 耦合至所述音頻接收單元的處理單元,所述處理單元被配置為: 執(zhí)行對(duì)所述音頻輸入的語音至文本分析,以生成針對(duì)所述音頻輸入的部分的文本; 確定針對(duì)所述音頻輸入的部分而生成的所述文本是否與當(dāng)前顯示的文本匹配;以及 響應(yīng)于確定所述文本與當(dāng)前顯示的文本匹配,使得所述當(dāng)前顯示的文本被突出顯示。
19.一種電子設(shè)備,包括一個(gè)或多個(gè)處理器以及存儲(chǔ)有供所述一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序的存儲(chǔ)器,所述一個(gè)或多個(gè)程序包括用于執(zhí)行權(quán)利要求1-15中任意一項(xiàng)所述的方法的指令。
20.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有供電子設(shè)備的一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序包括用于執(zhí)行權(quán)利要求1-15中任意一項(xiàng)所述的方法的指令。
21.一種電子設(shè)備,包括用于執(zhí)行權(quán)利要求1-15中任意一項(xiàng)所述的方法的裝置。
22.—種用于電子設(shè)備中的信息處理設(shè)備,包括用于執(zhí)行權(quán)利要求1-15中任意一項(xiàng)所述的方法的裝置。
23.—種方法,包括: 獲取指示作品的文本版本內(nèi)的指定位置的位置數(shù)據(jù); 檢查所述作品的音頻版本中的多個(gè)音頻位置與所述作品的所述文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射以用于: 確定所述多個(gè)文本位置中對(duì)應(yīng)于所述指定位置的特定文本位置,以及基于所述特定文本位置,確定所述多個(gè)音頻位置中對(duì)應(yīng)于所述特定文本位置的特定音頻位置; 向媒體播放器提供基于所述特定文本位置而確定的所述特定音頻位置,以使得所述媒體播放器將所述特定音頻位置建立為所述音頻數(shù)據(jù)的當(dāng)前回放位置; 其中所述方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
24.根據(jù)權(quán)利要求23所述的方法,其中: 獲取包括服務(wù)器通過網(wǎng)絡(luò)從第一設(shè)備接收所述位置數(shù)據(jù); 檢查與提供由所述服務(wù)器執(zhí)行;以及 提供包括所述服務(wù)器向執(zhí)行所述媒體播放器的第二設(shè)備發(fā)送所述特定音頻位置。
25.根據(jù)權(quán)利要求24所述的方法,其中所述第二設(shè)備和所述第一設(shè)備是相同設(shè)備。
26.根據(jù)權(quán)利要求23所述的方法,其中獲取、檢查與提供由被配置為顯示所述作品的所述文本版本以及執(zhí)行所述媒體播放器的計(jì)算設(shè)備執(zhí)行。
27.根據(jù)權(quán)利要求23所述的方法,進(jìn)一步包括:在被配置為顯示所述作品的所述文本版本的設(shè)備處,確定所述位置數(shù)據(jù)而不需要來自所述設(shè)備的用戶的輸入。
28.根據(jù)權(quán)利要求23-27中任意一項(xiàng)所述的方法,進(jìn)一步包括: 從用戶接收輸入;以及 響應(yīng)于接收到所述輸入,基于所述輸入確定所述位置數(shù)據(jù)。
29.根據(jù)權(quán)利要求28所述的方法,其中: 向所述媒體播放器提供所述特定音頻位置包括:向所述媒體播放器提供所述特定音頻位置以使得所述媒體播放器處理開始于所述當(dāng)前回放位置的所述音頻數(shù)據(jù),所述處理使得所述媒體播放器從經(jīng)處理的所述音頻數(shù)據(jù)生成音頻;并且 使得所述媒體播放器處理所述音頻數(shù)據(jù)是響應(yīng)于接收到所述輸入而執(zhí)行的。
30.根據(jù)權(quán)利要求29所述的方法,其中: 所述輸入選擇所述作品的所述文本版本中的多個(gè)詞語; 所述指定位置是第一指定位置; 所述位置數(shù)據(jù)還指示所述作品的所述文本版本內(nèi)的、不同于所述第一指定位置的第二指定位置; 檢查進(jìn)一步包括檢查所述映射以用于: 確定所述多個(gè)文本位置中對(duì)應(yīng)于所述第二指定位置的第二特定文本位置,以及基于所述第二特定文本位置,確定所述多個(gè)音頻位置中對(duì)應(yīng)于所述第二特定文本位置的第二特定音頻位置;以及 向所述媒體播放器提供所述特定音頻位置包括:向所述媒體播放器提供所述第二特定音頻位置,以使得所述媒體播放器在所述當(dāng)前回放位置到達(dá)或接近所述第二特定音頻位置時(shí)停止處理所述音頻數(shù)據(jù)。
31.根據(jù)權(quán)利 要求23-30中任意一項(xiàng)所述的方法,進(jìn)一步包括: 獲取基于來自用戶的輸入的注釋數(shù)據(jù); 與所述指定位置相關(guān)聯(lián)地存儲(chǔ)所述注釋數(shù)據(jù);以及 使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示。
32.根據(jù)權(quán)利要求31所述的方法,其中使得關(guān)于所述特定音頻位置和所述注釋數(shù)據(jù)的信息被顯示包括: 確定所述音頻數(shù)據(jù)的當(dāng)前回放位置何時(shí)處于或接近所述特定音頻位置;以及響應(yīng)于確定所述音頻數(shù)據(jù)的所述當(dāng)前回放位置處于或接近所述特定音頻位置,使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示。
33.根據(jù)權(quán)利要求31-32中任意一項(xiàng)所述的方法,其中: 所述注釋數(shù)據(jù)包括文本數(shù)據(jù);以及 使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示包括顯示所述文本數(shù)據(jù)。
34.根據(jù)權(quán)利要求31-33中任意一項(xiàng)所述的方法,其中: 所述注釋數(shù)據(jù)包括話音數(shù)據(jù);以及 使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示包括處理所述話音數(shù)據(jù)以生成音頻。
35.一種電子設(shè)備,包括一個(gè)或多個(gè)處理器以及存儲(chǔ)有供所述一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序的存儲(chǔ)器,所述一個(gè)或多個(gè)程序包括用于執(zhí)行權(quán)利要求23-34中任意一項(xiàng)所述的方法的指令。
36.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有供電子設(shè)備的一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序包括用于執(zhí)行權(quán)利要求23-34中任意一項(xiàng)所述的方法的指令。
37.一種電子設(shè)備,包括用于執(zhí)行權(quán)利要求23-34中任意一項(xiàng)所述的方法的裝置。
38.一種用于電子設(shè)備中的信息處理設(shè)備,包括用于執(zhí)行權(quán)利要求23-34中任意一項(xiàng)所述的方法的裝置。
39.一種電子設(shè)備,包括: 位置數(shù)據(jù)獲取單元,被配置用于獲取指示作品的文本版本內(nèi)的指定位置的位置數(shù)據(jù);以及 耦合至所述位置數(shù)據(jù)獲取單元的處理單元,所述處理單元被配置為: 檢查所述作品的音頻版本中的多個(gè)音頻位置與所述作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射以用于: 確定所述多個(gè)文本位置中對(duì)應(yīng)于所述指定位置的特定文本位置,以及基于所述特定文本位置,確定所述多個(gè)音頻位置中對(duì)應(yīng)于所述特定文本位置的特定音頻位置; 向媒體播放器提供基于所述特定文本位置而確定的所述特定音頻位置,以使得所述媒體播放器將所述特定音頻位置建立為所述音頻數(shù)據(jù)的當(dāng)前回放位置。
40.一種方法,包括: 獲取指示音頻數(shù)據(jù)內(nèi)的指定位置的位置數(shù)據(jù); 檢查所述音頻數(shù)據(jù)中的多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射以用于: 確定所述多個(gè)音頻位置中對(duì)應(yīng)于所述指定位置的特定音頻位置,以及基于所述特定音頻位置,確定所述多個(gè)文本位置中對(duì)應(yīng)于所述特定音頻位置的特定文本位置; 使得媒體播放器顯示關(guān)于所述特定文本位置的信息; 其中所述方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
41.根據(jù)權(quán)利要求40所述的方法,其中: 獲取包括服務(wù)器通過網(wǎng)絡(luò)從第一設(shè)備接收所述位置數(shù)據(jù); 檢查與使得由所述服務(wù)器執(zhí)行; 使得包括所述服務(wù)器向執(zhí)行所述媒體播放器的第二設(shè)備發(fā)送所述特定文本位置。
42.根據(jù)權(quán)利要求41所述的方法,其中所述第二設(shè)備和所述第一設(shè)備是相同設(shè)備。
43.根據(jù)權(quán)利要求40所述的方法,其中獲取、檢查與使得由被配置為顯示所述作品的所述文本版本以及執(zhí)行所述媒體播放器的計(jì)算設(shè)備執(zhí)行。
44.根據(jù)權(quán)利要求40所述的方法,進(jìn)一步包括在被配置為處理所述音頻數(shù)據(jù)的設(shè)備處,確定所述位置數(shù)據(jù)而不需要來自所述設(shè)備的用戶的輸入。
45.根據(jù)權(quán)利要求40-44中任意一項(xiàng)所述的方法,進(jìn)一步包括: 從用戶接收輸入;以及 響應(yīng)于接收到所述輸入,基于所述輸入確定所述位置數(shù)據(jù)。
46.根據(jù)權(quán)利要求45所述的方法,其中: 使得包括使得所述媒體播放器顯示所述作品的文本版本中對(duì)應(yīng)于所述特定文本位置的一部分;以及 使得所述媒體播放器顯示所述作品的所述文本版本的所述一部分是響應(yīng)于接收到所述輸入而被執(zhí)行的。
47.根據(jù)權(quán)利要求46所述的方法,其中: 所述輸入選擇所述音頻數(shù)據(jù)的節(jié)段;所述指定位置是第一指定位置; 所述位置數(shù)據(jù)還指示所述音頻數(shù)據(jù)內(nèi)的、不同于所述第一指定位置的第二指定位置; 檢查進(jìn)一步包括檢查所述映射以用于: 確定所述多個(gè)音頻位置中對(duì)應(yīng)于所述第二指定位置的第二特定音頻位置,以及基于所述第二特定音頻位置,確定所述多個(gè)文本位置中對(duì)應(yīng)于所述第二特定音頻位置的第二特定文本位置; 使得媒體播放器顯示關(guān)于所述特定文本位置的信息進(jìn)一步包括使得所述媒體播放器顯示關(guān)于所述第二特定文本位置的信息。
48.根據(jù)權(quán)利要求40-47中任意一項(xiàng)所述的方法,其中: 所述指定位置對(duì)應(yīng)于所述音頻數(shù)據(jù)中的當(dāng)前回放位置; 使得在所述指定位置處的所述音頻數(shù)據(jù)被處理并且生成音頻時(shí)被執(zhí)行; 使得包括使得第二媒體播放器突出顯示所述作品的文本版本內(nèi)的特定文本位置處或附近的文本。
49.根據(jù)權(quán)利要求40-48中任意一項(xiàng)所述的方法,進(jìn)一步包括: 獲取基于來自用戶的輸入的注釋數(shù)據(jù); 與所述指定位置相關(guān)聯(lián)地存儲(chǔ)所述注釋數(shù)據(jù);以及 使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示。
50.根據(jù)權(quán)利要求49所述的方法,其中使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示包括: 確定所述作品的所述文本版本中對(duì)應(yīng)于所述特定文本位置的一部分何時(shí)被顯示;以及 響應(yīng)于確定所述作品的所述文本版本中對(duì)應(yīng)于所述特定文本位置的一部分被顯示,使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示。
51.根據(jù)權(quán)利要求49-50中任意一項(xiàng)所述的方法,其中: 所述注釋數(shù)據(jù)包括文本數(shù)據(jù);以及 使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示包括使得所述文本數(shù)據(jù)被顯示。
52.根據(jù)權(quán)利要求49-51中任意一項(xiàng)所述的方法,其中: 所述注釋數(shù)據(jù)包括話音數(shù)據(jù);以及 使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示包括使得所述話音數(shù)據(jù)被處理以生成音頻。
53.—種方法,包括: 在作品的音頻版本的回放期間: 獲取指示所述音頻版本內(nèi)的指定位置的位置數(shù)據(jù),以及 基于所述指定位置確定所述作品的文本版本中與暫停數(shù)據(jù)相關(guān)聯(lián)的特定文本位置,所述暫停數(shù)據(jù)指示何時(shí)暫停所述音頻版本的回放;以及 響應(yīng)于確定所述特定文本位置與暫停數(shù)據(jù)相關(guān)聯(lián),暫停所述音頻版本的回放; 其中所述方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
54.根據(jù)權(quán)利要求53所述的方法,其中所述暫停數(shù)據(jù)在所述作品的所述文本版本內(nèi)。
55.根據(jù)權(quán)利要求53-54中任意一項(xiàng)所述的方法,其中確定所述特定文本位置包括: 檢查所述音頻數(shù)據(jù)中的多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射以用于: 確定所述多個(gè)音頻位置中對(duì)應(yīng)于所述指定位置的特定音頻位置,以及基于所述特定音頻位置,確定所述多個(gè)文本位置中對(duì)應(yīng)于所述特定音頻位置的所述特定文本位置。
56.根據(jù)權(quán)利要求53-55中任意一項(xiàng)所述的方法,其中所述暫停數(shù)據(jù)對(duì)應(yīng)于在所述作品的所述文本版本中反映的頁面的結(jié)束。
57.根據(jù)權(quán)利要求53-55中任意一項(xiàng)所述的方法,其中所述暫停數(shù)據(jù)對(duì)應(yīng)于所述作品的文本版本內(nèi)的、緊鄰不包括文本的圖片之前的位置。
58.根據(jù)權(quán)利要求53-57中任意一項(xiàng)所述的方法,進(jìn)一步包括:響應(yīng)于接收到用戶輸入而繼續(xù)所述音頻版本的回放。
59.根據(jù)權(quán)利要求53-57中任意一項(xiàng)所述的方法,進(jìn)一步包括:響應(yīng)于自所述音頻版本的回放被暫停起特定時(shí)間量的流逝而繼續(xù)所述音頻版本的回放。
60.—種方法,包括: 在作品的音頻版本的回放期間: 獲取指示所述音頻版本內(nèi)的指定位置的位置數(shù)據(jù),以及 基于所述指定位置確定所述作品的文本版本中與頁面結(jié)束數(shù)據(jù)相關(guān)聯(lián)的特定文本位置,所述頁面結(jié)束數(shù)據(jù)指示在所述作品的文本版本中反映的第一頁面的結(jié)束;以及 響應(yīng)于確定所述特定文本位置與所述頁面結(jié)束數(shù)據(jù)相關(guān)聯(lián),自動(dòng)使得所述第一頁面停止被顯示并且使得所述第一頁面之后的第二頁面被顯示; 其中所述方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
61.根據(jù)權(quán)利要求60所述的方法,其中確定所述特定文本位置包括: 檢查所述音頻數(shù)據(jù)中的多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射以用于: 確定所述多個(gè)音頻位置中對(duì)應(yīng)于所述指定位置的特定音頻位置,以及 基于所述特定音頻位置,確定所述多個(gè)文本位置中對(duì)應(yīng)于所述特定音頻位置的特定文本位置。
62.—種電子設(shè)備,包括一個(gè)或多個(gè)處理器以及存儲(chǔ)有供所述一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序的存儲(chǔ)器,所述一個(gè)或多個(gè)程序包括用于執(zhí)行權(quán)利要求40-61中任意一項(xiàng)所述的方法的指令。
63.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有供電子設(shè)備的一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序包括用于執(zhí)行權(quán)利要求40-61中任意一項(xiàng)所述的方法的指令。
64.—種電子設(shè)備,包括用于執(zhí)行權(quán)利要求40-61中任意一項(xiàng)所述的方法的裝置。
65.—種用于電子設(shè)備中的信息處理設(shè)備,包括用于執(zhí)行權(quán)利要求40-61中任意一項(xiàng)所述的方法的裝置。
66.—種電子設(shè)備,包括: 位置獲取單元 ,被配置用于獲取指示音頻數(shù)據(jù)內(nèi)的指定位置的位置數(shù)據(jù);以及 耦合至所述位置獲取單元的處理單元,所述處理單元被配置為: 檢查所述音頻數(shù)據(jù)中的多個(gè)音頻位置與作品的文本版本中對(duì)應(yīng)的多個(gè)文本位置之間的映射以用于: 確定所述多個(gè)音頻位置中對(duì)應(yīng)于所述指定位置的特定音頻位置,以及基于所述特定音頻位置,確定所述多個(gè)文本位置中對(duì)應(yīng)于所述特定音頻位置的特定文本位置;使得媒體播放器顯示關(guān)于所述特定文本位置的信息。
67.—種電子設(shè)備,包括: 位置獲取單元,被配置用于在作品的音頻版本的回放期間獲取指示所述音頻版本內(nèi)的指定位置的位置數(shù)據(jù);以及 耦合至所述位置獲取單元的處理單元,所述處理單元被配置為在作品的音頻版本的回放期間: 基于所述指定位置確定所述作品的文本版本中與頁面結(jié)束數(shù)據(jù)相關(guān)聯(lián)的特定文本位置,所述頁面結(jié)束數(shù)據(jù)指示在所述作品的所述文本版本中反映的第一頁面的結(jié)束;以及響應(yīng)于確定所述特定文本位置與所述頁面結(jié)束數(shù)據(jù)相關(guān)聯(lián),自動(dòng)使得所述第一頁面停止被顯示并且使得所述第一頁面之后的第二頁面被顯示。
68.一種方法,包括: 在作品的第一版本被處理時(shí),獲取基于來自用戶的輸入的注釋數(shù)據(jù); 存儲(chǔ)將所述注釋數(shù)據(jù)與所述作品相關(guān)聯(lián)的關(guān)聯(lián)數(shù)據(jù);以及 在所述作品的第二版本被處理時(shí),使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示,其中所述第二版本與所述第一版本不同; 其中所述方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
69.根據(jù)權(quán)利要求68所述的方法,其中: 獲取包括確定指示所述作品的所述`第一版本內(nèi)的指定位置的位置數(shù)據(jù); 存儲(chǔ)包括與所述作品相關(guān)聯(lián)地存儲(chǔ)所述位置數(shù)據(jù); 所述指定位置對(duì)應(yīng)于所述作品的所述第二版本內(nèi)的特定位置;以及使得包括使得關(guān)于所述注釋數(shù)據(jù)的所述信息與所述第二版本中的所述特定位置相關(guān)聯(lián)地被顯示。
70.根據(jù)權(quán)利要求69所述的方法,其中: 所述第一版本是所述作品的音頻版本,并且所述第二版本是所述作品的文本版本; 使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示包括: 確定所述作品的所述文本版本中對(duì)應(yīng)于所述特定位置的一部分何時(shí)被顯示;以及響應(yīng)于確定所述作品的所述文本版本中對(duì)應(yīng)于所述特定位置的一部分被顯示,使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示。
71.根據(jù)權(quán)利要求69所述的方法,其中: 所述第一版本是所述作品的文本版本,并且所述第二版本是所述作品的音頻版本; 使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示包括: 確定所述作品的所述音頻版本中對(duì)應(yīng)于所述特定位置的一部分何時(shí)被播放;以及響應(yīng)于確定所述作品的所述音頻版本中對(duì)應(yīng)于所述特定位置的一部分被播放,使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示。
72.根據(jù)權(quán)利要求68-71中任意一項(xiàng)所述的方法,其中: 所述注釋數(shù)據(jù)包括文本數(shù)據(jù);以及 使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示包括使得所述文本數(shù)據(jù)被顯示。
73.根據(jù)權(quán)利要求68-71中任意一項(xiàng)所述的方法,其中:所述注釋數(shù)據(jù)包括話音數(shù)據(jù);以及 使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示包括使得所述話音數(shù)據(jù)被處理以生成音頻。
74.—種電子設(shè)備,包括一個(gè)或多個(gè)處理器以及存儲(chǔ)有供所述一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序的存儲(chǔ)器,所述一個(gè)或多個(gè)程序包括用于執(zhí)行權(quán)利要求68-73中任意一項(xiàng)所述的方法的指令。
75.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有供電子設(shè)備的一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序包括用于執(zhí)行權(quán)利要求68-73中任意一項(xiàng)所述的方法的指令。
76.—種電子設(shè)備,包括用于執(zhí)行權(quán)利要求68-73中任意一項(xiàng)所述的方法的裝置。
77.—種用于電子設(shè)備中的信息處理設(shè)備,包括用于執(zhí)行權(quán)利要求68-73中任意一項(xiàng)所述的方法的裝置。
78.—種電子設(shè)備,包括: 注釋獲取單元,被配置用于在作品的第一版本被處理時(shí),獲取基于來自用戶的輸入的注釋數(shù)據(jù);以及 耦合至所述注釋獲取單元和關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)單元的處理單元,所述處理單元被配置用于: 使得將所述注釋數(shù)據(jù)與所述作品相關(guān)聯(lián)的關(guān)聯(lián)數(shù)據(jù)被存儲(chǔ);以及在所述作品的第二版本被處理時(shí) ,使得關(guān)于所述注釋數(shù)據(jù)的信息被顯示,其中所述第二版本與所述第一版本不同。
79.—種方法,包括: 接收在作品的第一版本內(nèi)建立第一書簽的數(shù)據(jù); 檢查所述作品的所述第一版本中的多個(gè)第一位置與所述作品的第二版本中對(duì)應(yīng)的多個(gè)第二位置之間的映射以用于: 確定所述多個(gè)第一位置中對(duì)應(yīng)于所述第一書簽的特定第一位置,以及基于所述特定第一位置,確定所述多個(gè)第二位置中對(duì)應(yīng)于所述特定第一位置的特定第二位置; 其中所述作品的所述第一版本與所述作品的所述第二版本不同; 使得將所述特定第二位置建立為所述作品的所述第二版本內(nèi)的第二書簽的數(shù)據(jù)被存儲(chǔ); 其中所述方法由一個(gè)或多個(gè)計(jì)算設(shè)備執(zhí)行。
80.根據(jù)權(quán)利要求79所述的方法,其中: 接收包括服務(wù)器通過網(wǎng)絡(luò)從第一設(shè)備接收輸入; 檢查由所述服務(wù)器執(zhí)行;并且 使得包括所述服務(wù)器向第二設(shè)備發(fā)送所述特定第二位置。
81.根據(jù)權(quán)利要求80所述的方法,其中所述第一設(shè)備和所述第二設(shè)備是不同的設(shè)備。
82.根據(jù)權(quán)利要求78-81中任意一項(xiàng)所述的方法,其中所述作品的所述第一版本是所述作品的音頻版本或所述作品的文本版本中的一個(gè),并且所述作品的所述第二版本是所述音頻版本或所述文本版本中的另一個(gè)。
83.一種電子設(shè)備,包括一個(gè)或多個(gè)處理器以及存儲(chǔ)有供所述一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序的存儲(chǔ)器,所述一個(gè)或多個(gè)程序包括用于執(zhí)行權(quán)利要求79-82中任意一項(xiàng)所述的方法的指令。
84.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有供電子設(shè)備的一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序包括用于執(zhí)行權(quán)利要求79-82中任意一項(xiàng)所述的方法的指令。
85.一種電子設(shè)備,包括用于執(zhí)行權(quán)利要求79-82中任意一項(xiàng)所述的方法的裝置。
86.—種用于電子設(shè)備中的信息處理設(shè)備,包括用于執(zhí)行權(quán)利要求79-82中任意一項(xiàng)所述的方法的裝置。
87.—種電子設(shè)備,包括: 數(shù)據(jù)接收單元,被配置用于接收在作品的第一版本內(nèi)建立第一書簽的數(shù)據(jù);以及 耦合至所述數(shù)據(jù)接收單元的處理單元,所述處理單元被配置用于: 檢查所述作品的所述第一版本中的多個(gè)第一位置與所述作品的第二版本中對(duì)應(yīng)的多個(gè)第二位置之間的映射以用于: 確定所述多個(gè)第一位置中對(duì)應(yīng)于所述第一書簽的特定第一位置,以及基于所述特定第一位置,確定所述多個(gè)第二位置中對(duì)應(yīng)于所述特定第一位置的特定第二位置; 其中所述作品的所述第一版本與所述作品的所述第二版本不同;以及 使得將所述特定第二位置建立為所述作品的所述第二版本內(nèi)的第二書簽的數(shù)據(jù)被存儲(chǔ)。
88.一種方法,包括: 使得作品的文本的一部分被設(shè)備顯示; 在所述文本的一部分被顯示時(shí): 在所述設(shè)備處接收來自用戶的音頻輸入; 響應(yīng)于接收到所述音頻輸入: 分析所述音頻輸入以標(biāo)識(shí)一個(gè)或多個(gè)詞語; 確定所述一個(gè)或多個(gè)詞語是否被反映在所述文本的一部分中;以及響應(yīng)于確定所述一個(gè)或多個(gè)詞語被反映在所述文本的所述一部分中,使得可視指示被所述設(shè)備顯示。
89.根據(jù)權(quán)利要求88所述的方法,其中使得所述可視指示被顯示包括使得對(duì)應(yīng)于所述一個(gè)或多個(gè)詞語的文本數(shù)據(jù)被突出顯示。
90.—種電子設(shè)備,包括一個(gè)或多個(gè)處理器以及存儲(chǔ)有供所述一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序的存儲(chǔ)器,所述一個(gè)或多個(gè)程序包括用于執(zhí)行權(quán)利要求88-89中任意一項(xiàng)所述的方法的指令。
91.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有供電子設(shè)備的一個(gè)或多個(gè)處理器執(zhí)行的一個(gè)或多個(gè)程序,所述一個(gè)或多個(gè)程序包括用于執(zhí)行權(quán)利要求88-89中任意一項(xiàng)所述的方法的指令。
92.一種電子設(shè)備,包括用于執(zhí)行權(quán)利要求88-89中任意一項(xiàng)所述的方法的裝置。
93.—種用于電子設(shè)備中的信息處理設(shè)備,包括用于執(zhí)行權(quán)利要求88-89中任意一項(xiàng)所述的方法的裝置。
94.一種電子設(shè)備,包括: 處理單元,被配置用于使得作品的文本的一部分被設(shè)備顯示; 音頻接收單元,耦合至所述處理單元,并且被配置用于在所述設(shè)備處接收來自用戶的音頻輸入;以及 所述處理單元進(jìn)一步被配置用于響應(yīng)于在所述音頻接收單元處接收到所述音頻輸Λ: 分析所述音頻輸入以標(biāo)識(shí)一個(gè)或多個(gè)詞語; 確定所述一個(gè)或多個(gè)詞語是否被反映在所述文本的一部分中;響應(yīng)于確定所述一個(gè)或多個(gè)詞語被反映在所述文本的所述一部分中,使得可視指示被所述設(shè)備顯示。
【文檔編號(hào)】G06F3/00GK103703431SQ201280036281
【公開日】2014年4月2日 申請(qǐng)日期:2012年6月4日 優(yōu)先權(quán)日:2011年6月3日
【發(fā)明者】曹翔, A·C·坎尼斯特拉羅, G·S·羅賓, C·M·多爾蒂, M·B·哈杰, R·沃爾什 申請(qǐng)人:蘋果公司