欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)據(jù)處理方法及裝置與流程

文檔序號(hào):11620630閱讀:253來(lái)源:國(guó)知局
數(shù)據(jù)處理方法及裝置與流程

本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種數(shù)據(jù)處理方法及裝置。



背景技術(shù):

隨著對(duì)核心競(jìng)爭(zhēng)力的深入認(rèn)識(shí)與調(diào)整,客戶服務(wù)的能力已經(jīng)成為企業(yè)最核心的價(jià)值之一,客戶服務(wù)中心應(yīng)運(yùn)而生??蛻舴?wù)中心是又稱為呼叫中心(callcenter)或電話營(yíng)銷(telemarketing),它基于cti(computertelephonyintegration,即計(jì)算機(jī)電話集成)技術(shù)充分利用通信網(wǎng)和計(jì)算機(jī)網(wǎng)的多項(xiàng)功能集成并與企業(yè)連為一體的一個(gè)完整的綜合信息服務(wù)系統(tǒng)。客戶服務(wù)中心是企業(yè)與客戶間交流的直接窗口,在交流過(guò)程中產(chǎn)生的用于信息交互的數(shù)據(jù)對(duì)于整個(gè)企業(yè)的銷售、調(diào)度、管理、人員考核、增值起到非常重要的統(tǒng)一協(xié)調(diào)作用。

因此,為了有效利用交流過(guò)程中產(chǎn)生的信息交互的數(shù)據(jù),需要將該數(shù)據(jù)進(jìn)行處理,以便于利用該數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,挖掘該數(shù)據(jù)中的有效信息。

在現(xiàn)有技術(shù)中,對(duì)于該交流過(guò)程中產(chǎn)生的信息交互的數(shù)據(jù),通常是按照該數(shù)據(jù)在信息交互的時(shí)間先后順序,將該數(shù)據(jù)統(tǒng)一處理。但是,在數(shù)據(jù)處理過(guò)程中,并未收集圖像和語(yǔ)音數(shù)據(jù),并且,在數(shù)據(jù)處理過(guò)程中,通常使用的方法是各數(shù)據(jù)獨(dú)立存儲(chǔ),分散管理,會(huì)形成“數(shù)據(jù)孤島”,不利于數(shù)據(jù)處理和利用。

針對(duì)上述相關(guān)技術(shù)對(duì)多種類型的數(shù)據(jù)進(jìn)行統(tǒng)一處理導(dǎo)致數(shù)據(jù)處理效率較低的問(wèn)題,目前尚未提出有效的解決方案。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理方法及裝置,以至少解決相關(guān)技術(shù)對(duì)多種類型的數(shù)據(jù)進(jìn)行統(tǒng)一處理導(dǎo)致數(shù)據(jù)處理效率較低的技術(shù)問(wèn)題。

根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種數(shù)據(jù)處理方法,包括:獲取待處理數(shù)據(jù),其中,所述待處理數(shù)據(jù)為用于反映目標(biāo)對(duì)象的工單信息的數(shù)據(jù),所述待處理數(shù)據(jù)的數(shù)據(jù)類型至少包括目標(biāo)數(shù)據(jù)類型;確定所述目標(biāo)數(shù)據(jù)類型對(duì)應(yīng)的目標(biāo)數(shù)據(jù)劃分方式;按照所述目標(biāo)數(shù)據(jù)劃分方式對(duì)數(shù)據(jù)類型為所述目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分。

進(jìn)一步地,所述目標(biāo)數(shù)據(jù)類型包括以下至少之一:圖像格式數(shù)據(jù);語(yǔ)音格式數(shù)據(jù);結(jié)構(gòu)化文本格式數(shù)據(jù)。

進(jìn)一步地,在所述目標(biāo)數(shù)據(jù)類型為所述圖像格式數(shù)據(jù)的情況下,所述目標(biāo)數(shù)據(jù)劃分方式為按照幾何形狀對(duì)所述圖像格式數(shù)據(jù)進(jìn)行切分的方式;在所述目標(biāo)數(shù)據(jù)類型為所述語(yǔ)音格式數(shù)據(jù)的情況下,所述目標(biāo)數(shù)據(jù)劃分方式為將數(shù)據(jù)量低于預(yù)定閾值的所述語(yǔ)音格式數(shù)據(jù)進(jìn)行合并的方式;在所述目標(biāo)數(shù)據(jù)類型為所述結(jié)構(gòu)化文本格式數(shù)據(jù)的情況下,所述目標(biāo)數(shù)據(jù)劃分方式為將所述結(jié)構(gòu)化文本格式數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)表進(jìn)行拆分的方式。

進(jìn)一步地,在所述目標(biāo)數(shù)據(jù)類型為所述語(yǔ)音格式數(shù)據(jù)的情況下,其中,所述按照所述目標(biāo)數(shù)據(jù)劃分方式對(duì)數(shù)據(jù)類型為所述目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分包括:獲取所述語(yǔ)音格式數(shù)據(jù)的數(shù)據(jù)量;判斷所述語(yǔ)音格式數(shù)據(jù)的數(shù)據(jù)量是否低于預(yù)定閾值;在所述語(yǔ)音格式數(shù)據(jù)的數(shù)據(jù)量低于所述預(yù)定閾值的情況下,則將所述語(yǔ)音格式數(shù)據(jù)確定為待合并語(yǔ)音格式數(shù)據(jù);將所述待合并語(yǔ)音格式數(shù)據(jù)進(jìn)行合并處理。

進(jìn)一步地,所述將所述待合并語(yǔ)音格式數(shù)據(jù)進(jìn)行合并處理包括:對(duì)所述待合并語(yǔ)音格式數(shù)據(jù)執(zhí)行以下合并操作,得到語(yǔ)音格式數(shù)據(jù)塊,直至所述語(yǔ)音格式數(shù)據(jù)塊的數(shù)據(jù)量不低于所述預(yù)定閾值,其中,所述待合并語(yǔ)音格式數(shù)據(jù)在執(zhí)行所述合并操作時(shí)標(biāo)記為當(dāng)前語(yǔ)音格式數(shù)據(jù):將所述當(dāng)前語(yǔ)音格式數(shù)據(jù)合并至所述語(yǔ)音格式數(shù)據(jù)塊;判斷所述語(yǔ)音格式數(shù)據(jù)塊的數(shù)據(jù)量是否低于所述預(yù)定閾值;在所述語(yǔ)音格式數(shù)據(jù)塊的數(shù)據(jù)量低于所述預(yù)定閾值的情況下,將下一個(gè)語(yǔ)音格式數(shù)據(jù)確定為所述當(dāng)前語(yǔ)音格式數(shù)據(jù)。

進(jìn)一步地,在所述按照所述目標(biāo)數(shù)據(jù)劃分方式對(duì)數(shù)據(jù)類型為所述目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分之后,所述方法還包括:將數(shù)據(jù)類型為所述目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行劃分后得到的目標(biāo)數(shù)據(jù)塊存儲(chǔ)在目標(biāo)數(shù)據(jù)庫(kù)。

進(jìn)一步地,在所述將數(shù)據(jù)類型為所述目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行劃分后得到的目標(biāo)數(shù)據(jù)塊存儲(chǔ)在目標(biāo)數(shù)據(jù)庫(kù)之后,所述方法還包括:在所述目標(biāo)數(shù)據(jù)庫(kù)中為數(shù)據(jù)類型為所述目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)設(shè)置目標(biāo)索引方式。

根據(jù)本發(fā)明實(shí)施例的另一方面,還提供了一種數(shù)據(jù)處理裝置,包括:獲取單元,用于獲取待處理數(shù)據(jù),其中,所述待處理數(shù)據(jù)為用于反映目標(biāo)對(duì)象的工單信息的數(shù)據(jù),所述待處理數(shù)據(jù)的數(shù)據(jù)類型至少包括目標(biāo)數(shù)據(jù)類型;確定單元,用于確定所述目標(biāo)數(shù)據(jù)類型對(duì)應(yīng)的目標(biāo)數(shù)據(jù)劃分方式;劃分單元,用于按照所述目標(biāo)數(shù)據(jù)劃分方式對(duì)數(shù)據(jù)類型為所述目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分。

進(jìn)一步地,所述目標(biāo)數(shù)據(jù)類型包括以下至少之一:圖像格式數(shù)據(jù);語(yǔ)音格式數(shù)據(jù);結(jié)構(gòu)化文本格式數(shù)據(jù)。

進(jìn)一步地,圖像劃分模塊,用于在所述目標(biāo)數(shù)據(jù)類型為所述圖像格式數(shù)據(jù)的情況下,所述目標(biāo)數(shù)據(jù)劃分方式為按照幾何形狀對(duì)所述圖像格式數(shù)據(jù)進(jìn)行切分的方式;語(yǔ)音劃分模塊,用于在所述目標(biāo)數(shù)據(jù)類型為所述語(yǔ)音格式數(shù)據(jù)的情況下,所述目標(biāo)數(shù)據(jù)劃分方式為將數(shù)據(jù)量低于預(yù)定閾值的所述語(yǔ)音格式數(shù)據(jù)進(jìn)行合并的方式;文本劃分模塊,用于在所述目標(biāo)數(shù)據(jù)類型為所述結(jié)構(gòu)化文本格式數(shù)據(jù)的情況下,所述目標(biāo)數(shù)據(jù)劃分方式為將所述結(jié)構(gòu)化文本格式數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)表進(jìn)行拆分的方式。

進(jìn)一步地,在所述目標(biāo)數(shù)據(jù)類型為所述語(yǔ)音格式數(shù)據(jù)的情況下,其中,所述劃分單元包括:獲取模塊,用于獲取所述語(yǔ)音格式數(shù)據(jù)的數(shù)據(jù)量;判斷模塊,用于判斷所述語(yǔ)音格式數(shù)據(jù)的數(shù)據(jù)量是否低于預(yù)定閾值;確定模塊,用于在所述語(yǔ)音格式數(shù)據(jù)的數(shù)據(jù)量低于所述預(yù)定閾值的情況下,則將所述語(yǔ)音格式數(shù)據(jù)確定為待合并語(yǔ)音格式數(shù)據(jù);合并模塊,用于將所述待合并語(yǔ)音格式數(shù)據(jù)進(jìn)行合并處理。

進(jìn)一步地,所述合并模塊包括:對(duì)所述待合并語(yǔ)音格式數(shù)據(jù)執(zhí)行以下合并操作,得到語(yǔ)音格式數(shù)據(jù)塊,直至所述語(yǔ)音格式數(shù)據(jù)塊的數(shù)據(jù)量不低于所述預(yù)定閾值,其中,所述待合并語(yǔ)音格式數(shù)據(jù)在執(zhí)行所述合并操作時(shí)標(biāo)記為當(dāng)前語(yǔ)音格式數(shù)據(jù):合并子模塊,用于將所述當(dāng)前語(yǔ)音格式數(shù)據(jù)合并至所述語(yǔ)音格式數(shù)據(jù)塊;判斷子模塊,用于判斷所述語(yǔ)音格式數(shù)據(jù)塊的數(shù)據(jù)量是否低于所述預(yù)定閾值;確定子模塊,用于在所述語(yǔ)音格式數(shù)據(jù)塊的數(shù)據(jù)量低于所述預(yù)定閾值的情況下,將下一個(gè)語(yǔ)音格式數(shù)據(jù)確定為所述當(dāng)前語(yǔ)音格式數(shù)據(jù)。

進(jìn)一步地,在所述劃分單元之后,所述裝置還包括:存儲(chǔ)模塊,用于將數(shù)據(jù)類型為所述目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行劃分后得到的目標(biāo)數(shù)據(jù)塊存儲(chǔ)在目標(biāo)數(shù)據(jù)庫(kù)。

進(jìn)一步地,在所述存儲(chǔ)模塊之后,所述裝置還包括:索引模塊,用于在所述目標(biāo)數(shù)據(jù)庫(kù)中為數(shù)據(jù)類型為所述目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)設(shè)置目標(biāo)索引方式。

在本發(fā)明實(shí)施例中,獲取用于反映目標(biāo)對(duì)象的工單信息的待處理數(shù)據(jù),以及該待處理數(shù)據(jù)對(duì)應(yīng)的目標(biāo)數(shù)據(jù)類型,并根據(jù)獲取的待處理數(shù)據(jù)的目標(biāo)數(shù)據(jù)類型確定該目標(biāo)數(shù)據(jù)類型對(duì)應(yīng)的目標(biāo)數(shù)據(jù)劃分方式,再將數(shù)據(jù)類型為目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)按照目標(biāo)數(shù)據(jù)劃分方式進(jìn)行數(shù)據(jù)劃分。采用本發(fā)明,按照多種類型的數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)劃分方式,將各種類型的數(shù)據(jù)分別處理,達(dá)到了對(duì)不同種類型的數(shù)據(jù)進(jìn)行不同的處理的目的,從而實(shí)現(xiàn)了提高數(shù)據(jù)處理效率的技術(shù)效果,進(jìn)而解決了相關(guān)技術(shù)對(duì)多種類型的數(shù)據(jù)進(jìn)行統(tǒng)一處理導(dǎo)致數(shù)據(jù)處理效率較低的技術(shù)問(wèn)題。

附圖說(shuō)明

此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:

圖1是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)處理方法的流程圖;

圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的hadoop集群環(huán)境示意圖;

圖3(a)是根據(jù)本發(fā)明實(shí)施例的一種可選的水平切分圖像格式數(shù)據(jù)的示意圖;

圖3(b)是根據(jù)本發(fā)明實(shí)施例的一種可選的豎直切分圖像格式數(shù)據(jù)的示意圖;

圖3(c)是根據(jù)本發(fā)明實(shí)施例的一種可選的矩形塊切分圖像格式數(shù)據(jù)的示意圖;

圖3(d)是根據(jù)本發(fā)明實(shí)施例的一種可選的不規(guī)則切分圖像格式數(shù)據(jù)的示意圖;

圖4是根據(jù)本發(fā)明實(shí)施例的一種可選的語(yǔ)音格式數(shù)據(jù)合并方式的示意圖;

圖5是根據(jù)本發(fā)明實(shí)施例的一種可選的圖像格式數(shù)據(jù)的索引方式的示意圖;

圖6是根據(jù)本發(fā)明實(shí)施例的一種可選的工單信息的數(shù)據(jù)的存儲(chǔ)的示意圖;

圖7是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)處理裝置的示意圖。

具體實(shí)施方式

為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。

需要說(shuō)明的是,本發(fā)明的說(shuō)明書(shū)和權(quán)利要求書(shū)及上述附圖中的術(shù)語(yǔ)“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤4送?,術(shù)語(yǔ)“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒(méi)有清楚地列出的或?qū)τ谶@些過(guò)程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。

根據(jù)本發(fā)明實(shí)施例,提供了一種數(shù)據(jù)處理方法實(shí)施例,需要說(shuō)明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。

圖1是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)處理方法的流程圖,如圖1所示,該方法包括如下步驟:

步驟s102,獲取待處理數(shù)據(jù),其中,待處理數(shù)據(jù)為用于反映目標(biāo)對(duì)象的工單信息的數(shù)據(jù),待處理數(shù)據(jù)的數(shù)據(jù)類型至少包括目標(biāo)數(shù)據(jù)類型;

步驟s104,確定目標(biāo)數(shù)據(jù)類型對(duì)應(yīng)的目標(biāo)數(shù)據(jù)劃分方式;

步驟s106,按照目標(biāo)數(shù)據(jù)劃分方式對(duì)數(shù)據(jù)類型為目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分。

通過(guò)上述步驟,獲取用于反映目標(biāo)對(duì)象的工單信息的待處理數(shù)據(jù),以及該待處理數(shù)據(jù)對(duì)應(yīng)的目標(biāo)數(shù)據(jù)類型,并根據(jù)獲取的待處理數(shù)據(jù)的目標(biāo)數(shù)據(jù)類型確定該目標(biāo)數(shù)據(jù)類型對(duì)應(yīng)的目標(biāo)數(shù)據(jù)劃分方式,再將數(shù)據(jù)類型為目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)按照目標(biāo)數(shù)據(jù)劃分方式進(jìn)行數(shù)據(jù)劃分。采用本發(fā)明,按照多種類型的數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)劃分方式,將各種類型的數(shù)據(jù)分別處理,達(dá)到了對(duì)不同種類型的數(shù)據(jù)進(jìn)行不同的處理的目的,從而實(shí)現(xiàn)了提高數(shù)據(jù)處理效率的技術(shù)效果,進(jìn)而解決了相關(guān)技術(shù)對(duì)多種類型的數(shù)據(jù)進(jìn)行統(tǒng)一處理導(dǎo)致數(shù)據(jù)處理效率較低的技術(shù)問(wèn)題。

在步驟s102提供的方案中,待處理數(shù)據(jù)是用于反映目標(biāo)對(duì)象的工單信息的數(shù)據(jù)。工單信息是企業(yè)中的傳輸工作指令或者工作內(nèi)容的信息,例如,企業(yè)通過(guò)客戶服務(wù)中心與客戶進(jìn)行交流,在交流過(guò)程中會(huì)產(chǎn)生即用交流的數(shù)據(jù)信息,該數(shù)據(jù)信息可以是客戶語(yǔ)音文件、出錯(cuò)界面截圖、工單描述文本、客戶反饋文本等多種數(shù)據(jù)信息,則該數(shù)據(jù)信息即為工單信息的數(shù)據(jù),發(fā)出該工單信息的數(shù)據(jù)的對(duì)象即為目標(biāo)對(duì)象。

在一種可選的實(shí)施例中,待處理數(shù)據(jù)至少包括目標(biāo)數(shù)據(jù)類型,該目標(biāo)數(shù)據(jù)類型可以是某種預(yù)定格式數(shù)據(jù),例如,該目標(biāo)數(shù)據(jù)類型可以是圖像格式數(shù)據(jù),該目標(biāo)數(shù)據(jù)類型可以是結(jié)構(gòu)化文本格式數(shù)據(jù),該目標(biāo)數(shù)據(jù)類型可以是語(yǔ)音格式數(shù)據(jù)。

在步驟s104提供的方案中,不同的目標(biāo)數(shù)據(jù)類型對(duì)應(yīng)著不同的目標(biāo)數(shù)據(jù)劃分方式,通過(guò)目標(biāo)數(shù)據(jù)的類型,可以確定該目標(biāo)數(shù)據(jù)對(duì)應(yīng)的目標(biāo)數(shù)據(jù)劃分方式。例如,在目標(biāo)數(shù)據(jù)的類型是圖像格式數(shù)據(jù)的情況下,可以該圖像格式數(shù)據(jù)對(duì)應(yīng)的目標(biāo)數(shù)據(jù)劃分方式是水平切分。

在步驟s106提供的方案中,將數(shù)據(jù)類型為目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)按照該目標(biāo)數(shù)據(jù)類型對(duì)應(yīng)的目標(biāo)數(shù)據(jù)劃分方式,對(duì)目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分。

作為一種可選的實(shí)施例,目標(biāo)數(shù)據(jù)類型可以包括以下至少之一:圖像格式數(shù)據(jù);語(yǔ)音格式數(shù)據(jù);結(jié)構(gòu)化文本格式數(shù)據(jù)。采用本發(fā)明,按照待處理數(shù)據(jù)的格式確定目標(biāo)數(shù)據(jù)類型,可以使目標(biāo)數(shù)據(jù)類型包括圖像格式數(shù)據(jù),語(yǔ)音格式數(shù)據(jù),以及結(jié)構(gòu)化文本格式數(shù)據(jù),不同格式的數(shù)據(jù)具有不同的數(shù)據(jù)特性,因此,不同格式的數(shù)據(jù)對(duì)應(yīng)的處理方式也不同,按照數(shù)據(jù)的格式確定目標(biāo)數(shù)據(jù)類型可以包括圖像格式數(shù)據(jù);語(yǔ)音格式數(shù)據(jù);結(jié)構(gòu)化文本格式數(shù)據(jù),從而可以針對(duì)不同的格式設(shè)置對(duì)應(yīng)的劃分方式,便于對(duì)不同目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)確定與對(duì)應(yīng)的數(shù)據(jù)目標(biāo)劃分方式。

作為一種可選的實(shí)施例,在目標(biāo)數(shù)據(jù)類型為圖像格式數(shù)據(jù)的情況下,目標(biāo)數(shù)據(jù)劃分方式為按照幾何形狀對(duì)圖像格式數(shù)據(jù)進(jìn)行切分的方式;在目標(biāo)數(shù)據(jù)類型為語(yǔ)音格式數(shù)據(jù)的情況下,目標(biāo)數(shù)據(jù)劃分方式為將數(shù)據(jù)量低于預(yù)定閾值的語(yǔ)音格式數(shù)據(jù)進(jìn)行合并的方式;在目標(biāo)數(shù)據(jù)類型為結(jié)構(gòu)化文本格式數(shù)據(jù)的情況下,目標(biāo)數(shù)據(jù)劃分方式為將結(jié)構(gòu)化文本格式數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)表進(jìn)行拆分的方式。采用本發(fā)明,可以根據(jù)不同的目標(biāo)數(shù)據(jù)類型,確定不同的數(shù)據(jù)處理方式,便于對(duì)不同類型的數(shù)據(jù)進(jìn)行處理,從而提高數(shù)據(jù)的處理效率。

可選地,在目標(biāo)數(shù)據(jù)類型為圖像格式數(shù)據(jù)的情況下,可以將圖像格式數(shù)據(jù)通過(guò)水平切分、豎直切分、矩形塊切分、或者不規(guī)則切分等方式,將圖像格式的數(shù)據(jù)劃分為多個(gè)幾何形狀的數(shù)據(jù),從而將一個(gè)信息容量較大的數(shù)據(jù)劃分為多個(gè)信息容量較小的數(shù)據(jù),方便數(shù)據(jù)的處理。

可選地,在目標(biāo)數(shù)據(jù)類型為結(jié)構(gòu)化文本格式數(shù)據(jù)的情況下,可以將該結(jié)構(gòu)化文本格式數(shù)據(jù)存入對(duì)應(yīng)的數(shù)據(jù)表中,再將與該結(jié)構(gòu)化文本格式數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)表進(jìn)行拆分,得出多個(gè)子數(shù)據(jù)表,從而將一個(gè)信息容量較大的數(shù)據(jù)劃分為多個(gè)信息容量較小的數(shù)據(jù),方便數(shù)據(jù)的處理。

作為一種可選的實(shí)施例,在目標(biāo)數(shù)據(jù)類型為語(yǔ)音格式數(shù)據(jù)的情況下,其中,按照目標(biāo)數(shù)據(jù)劃分方式對(duì)數(shù)據(jù)類型為目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分可以包括:獲取語(yǔ)音格式數(shù)據(jù)的數(shù)據(jù)量;判斷語(yǔ)音格式數(shù)據(jù)的數(shù)據(jù)量是否低于預(yù)定閾值;在語(yǔ)音格式數(shù)據(jù)的數(shù)據(jù)量低于預(yù)定閾值的情況下,則將語(yǔ)音格式數(shù)據(jù)確定為待合并語(yǔ)音格式數(shù)據(jù);將待合并語(yǔ)音格式數(shù)據(jù)進(jìn)行合并處理。采用本發(fā)明,通過(guò)判斷語(yǔ)音格式數(shù)據(jù)的數(shù)據(jù)量,將數(shù)據(jù)量低于預(yù)定閾值的語(yǔ)音格式數(shù)據(jù)進(jìn)行合并處理,得到數(shù)據(jù)量高于預(yù)定閾值的語(yǔ)音格式數(shù)據(jù),可以實(shí)現(xiàn)對(duì)數(shù)據(jù)量較小的語(yǔ)音格式數(shù)據(jù)的整合,減少了語(yǔ)音格式數(shù)據(jù)的個(gè)數(shù),方便數(shù)據(jù)的處理。

作為一種可選的實(shí)施例,將待合并語(yǔ)音格式數(shù)據(jù)進(jìn)行合并處理可以包括:對(duì)待合并語(yǔ)音格式數(shù)據(jù)執(zhí)行以下合并操作,得到語(yǔ)音格式數(shù)據(jù)塊,直至語(yǔ)音格式數(shù)據(jù)塊的數(shù)據(jù)量不低于預(yù)定閾值,其中,待合并語(yǔ)音格式數(shù)據(jù)在執(zhí)行合并操作時(shí)標(biāo)記為當(dāng)前語(yǔ)音格式數(shù)據(jù):將當(dāng)前語(yǔ)音格式數(shù)據(jù)合并至語(yǔ)音格式數(shù)據(jù)塊;判斷語(yǔ)音格式數(shù)據(jù)塊的數(shù)據(jù)量是否低于預(yù)定閾值;在語(yǔ)音格式數(shù)據(jù)塊的數(shù)據(jù)量低于預(yù)定閾值的情況下,將下一個(gè)語(yǔ)音格式數(shù)據(jù)確定為當(dāng)前語(yǔ)音格式數(shù)據(jù)。采用本發(fā)明,通過(guò)將數(shù)據(jù)量低于預(yù)定閾值的語(yǔ)音格式數(shù)據(jù)合并為數(shù)據(jù)量高于預(yù)定閾值的語(yǔ)音格式數(shù)據(jù),實(shí)現(xiàn)對(duì)數(shù)據(jù)量較小的語(yǔ)音格式數(shù)據(jù)的整合,減少了語(yǔ)音格式數(shù)據(jù)的個(gè)數(shù),方便數(shù)據(jù)的處理。

作為一種可選的實(shí)施例,在按照目標(biāo)數(shù)據(jù)劃分方式對(duì)數(shù)據(jù)類型為目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分之后,該實(shí)施例還可以包括:將數(shù)據(jù)類型為目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行劃分后得到的目標(biāo)數(shù)據(jù)塊存儲(chǔ)在目標(biāo)數(shù)據(jù)庫(kù)。采用本發(fā)明,按照目標(biāo)數(shù)據(jù)類型對(duì)應(yīng)的目標(biāo)數(shù)據(jù)劃分方式,將目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分之后,得到目標(biāo)數(shù)據(jù)塊,在將該目標(biāo)數(shù)據(jù)塊存儲(chǔ)在目標(biāo)數(shù)據(jù)庫(kù)中,方便數(shù)據(jù)的處理。

可選地,將劃分后得到的目標(biāo)數(shù)據(jù)塊存儲(chǔ)在目標(biāo)數(shù)據(jù)庫(kù),可以根據(jù)目標(biāo)數(shù)據(jù)塊對(duì)應(yīng)的目標(biāo)數(shù)據(jù)類型確定目標(biāo)數(shù)據(jù)塊對(duì)應(yīng)的目標(biāo)數(shù)據(jù)庫(kù),將目標(biāo)數(shù)據(jù)塊存儲(chǔ)在對(duì)應(yīng)的目標(biāo)數(shù)據(jù)庫(kù)中。

作為一種可選的實(shí)施例,在將數(shù)據(jù)類型為目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行劃分后得到的目標(biāo)數(shù)據(jù)塊存儲(chǔ)在目標(biāo)數(shù)據(jù)庫(kù)之后,該實(shí)施例還可以包括:在目標(biāo)數(shù)據(jù)庫(kù)中為數(shù)據(jù)類型為目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)設(shè)置目標(biāo)索引方式。采用本發(fā)明,可以根據(jù)存儲(chǔ)在目標(biāo)數(shù)據(jù)庫(kù)的目標(biāo)數(shù)據(jù)塊對(duì)應(yīng)的目標(biāo)數(shù)據(jù)類型,設(shè)置對(duì)應(yīng)的目標(biāo)索引方式,有針對(duì)性地使用特定的目標(biāo)索引方式查詢目標(biāo)數(shù)據(jù)塊,可以提高索引的速度。

本發(fā)明還提供了一種優(yōu)選實(shí)施例,該優(yōu)選實(shí)施例提供了一種應(yīng)用在多元異構(gòu)工單大數(shù)據(jù)分布式存儲(chǔ)與分析平臺(tái)的數(shù)據(jù)處理方法。

在企業(yè)中,隨著業(yè)務(wù)的不斷開(kāi)展,工單數(shù)量呈幾何級(jí)數(shù)倍增,客戶服務(wù)中心積累了大量的工單信息數(shù)據(jù),包括客戶語(yǔ)音文件、出錯(cuò)界面截圖、工單描述文本、客戶反饋文本等多源異構(gòu)的數(shù)據(jù)信息。這些數(shù)據(jù)可以被作為主要數(shù)據(jù)源,為數(shù)據(jù)分析提供數(shù)據(jù)支撐。例如,通過(guò)分析客戶反饋文本信息和處理工單總數(shù),可以對(duì)客服人員的服務(wù)質(zhì)量進(jìn)行客觀評(píng)價(jià),評(píng)定客服人員能力等級(jí),起到非常重要的統(tǒng)一協(xié)調(diào)作用。

但是,若工單信息的數(shù)據(jù)缺乏統(tǒng)一的采集和存儲(chǔ)的標(biāo)準(zhǔn)及規(guī)范,針對(duì)該數(shù)據(jù)的研究便會(huì)采用各自獨(dú)立存儲(chǔ)、分散管理的方式,從而形成“數(shù)據(jù)孤島”,不利于數(shù)據(jù)處理,以及數(shù)據(jù)的利用。

針對(duì)的工單信息的數(shù)據(jù)采用各自獨(dú)立存儲(chǔ)、分散管理的方式,導(dǎo)致數(shù)據(jù)處理效率低,數(shù)據(jù)利用度較低等問(wèn)題,可以根據(jù)多源異構(gòu)工單信息的數(shù)據(jù)具有海量性、異構(gòu)性、復(fù)雜性、以及動(dòng)態(tài)性的特點(diǎn),進(jìn)行數(shù)據(jù)處理。具體過(guò)程如下:

1、根據(jù)多源異構(gòu)工單信息的數(shù)據(jù)的特點(diǎn),在hadoop集群環(huán)境上建立工單信息的數(shù)據(jù)的融合存儲(chǔ)模型;

2、在融合存儲(chǔ)模型的基礎(chǔ)上,為每類數(shù)據(jù)建立合適的索引方式,提高數(shù)據(jù)查詢的效率;

3、基于融合存儲(chǔ)模型,以及對(duì)應(yīng)的索引方式進(jìn)行數(shù)據(jù)分析,并在web端界面上直觀顯示數(shù)據(jù)分析結(jié)果。

需要要說(shuō)明的是,hadoop是一個(gè)開(kāi)源的分布式系統(tǒng)基礎(chǔ)架構(gòu),提供高吞吐量來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序,充分利用集群的計(jì)算功能進(jìn)行高速運(yùn)算和存儲(chǔ)。

圖2是根據(jù)本發(fā)明實(shí)施例的一種可選的hadoop集群環(huán)境示意圖,如圖2所示,該集群環(huán)境可以包括:服務(wù)器端和web端,其中,在服務(wù)器端hadoop集群可以包括一臺(tái)主服務(wù)器與多臺(tái)副服務(wù)器,主服務(wù)器與副服務(wù)器通過(guò)網(wǎng)絡(luò)連接;在web端界面上顯示工單類型統(tǒng)計(jì)分析、工單事由統(tǒng)計(jì)分析、模塊故障次數(shù)排行、客戶接單量排行、以及客服服務(wù)排行等分析結(jié)果。

作為一種可選的實(shí)施例,數(shù)據(jù)處理的具體方式如下:

(1)可以在linux下搭建基于hdfs分布式文件的hadoop集群環(huán)境,將工單信息的數(shù)據(jù)按照數(shù)據(jù)格式進(jìn)行分類。

需要說(shuō)明的是,linux是一個(gè)性能穩(wěn)定的多用戶網(wǎng)絡(luò)操作系統(tǒng)。hdfs,全稱hsdoopdistributedfilesystem,中文名稱為分布式文件系統(tǒng),是一種被設(shè)計(jì)成適合運(yùn)行在通用硬件上的分布式文件系統(tǒng)。

可選地,將工單信息的數(shù)據(jù)按照數(shù)據(jù)格式進(jìn)行分類,可以分為wav格式的語(yǔ)音格式數(shù)據(jù)、jpg格式的圖像格式數(shù)據(jù)、結(jié)構(gòu)化文本格式數(shù)據(jù)。

(2)在海量數(shù)據(jù)并行計(jì)算中,數(shù)據(jù)塊的劃分是并行化處理的重要部分,數(shù)據(jù)塊劃分的方式、數(shù)據(jù)分塊的大小與并行計(jì)算效率有著密切聯(lián)系。為了提升工單數(shù)據(jù)的檢索速率,針對(duì)不同類型的工單信息的數(shù)據(jù)可以采用不同的數(shù)據(jù)塊劃分方式。

1)劃分jpg格式的圖像格式數(shù)據(jù)。

圖3(a)是根據(jù)本發(fā)明實(shí)施例的一種可選的水平切分圖像格式數(shù)據(jù)的示意圖,如圖3(a)所示,對(duì)于jpg格式的圖像數(shù)據(jù),可以采用水平切分的方式對(duì)圖像進(jìn)行切分。

圖3(b)是根據(jù)本發(fā)明實(shí)施例的一種可選的豎直切分圖像格式數(shù)據(jù)的示意圖,如圖3(b)所示,對(duì)于jpg格式的圖像數(shù)據(jù),可以采用豎直切分的方式對(duì)圖像進(jìn)行切分。

圖3(c)是根據(jù)本發(fā)明實(shí)施例的一種可選的矩形塊切分圖像格式數(shù)據(jù)的示意圖,如圖3(c)所示,對(duì)于jpg格式的圖像數(shù)據(jù),可以采用矩形塊切分的方式對(duì)圖像進(jìn)行切分。

圖3(d)是根據(jù)本發(fā)明實(shí)施例的一種可選的不規(guī)則切分圖像格式數(shù)據(jù)的示意圖,如圖3(d)所示,對(duì)于jpg格式的圖像數(shù)據(jù),可以采用不規(guī)則切分的方式對(duì)圖像進(jìn)行切分。

2)劃分wav格式的語(yǔ)音格式數(shù)據(jù)。

wav語(yǔ)音文件通常比較小,若客戶通話時(shí)間不足5分鐘,相應(yīng)的語(yǔ)音格式數(shù)據(jù)的數(shù)據(jù)量不足5m。hadoop集群利用namenode主節(jié)點(diǎn)存儲(chǔ)集群中數(shù)據(jù)塊的信息元數(shù)據(jù),存儲(chǔ)不足5m的“小文件”時(shí),namenode節(jié)點(diǎn)的運(yùn)行壓力急劇上升。因此,采用數(shù)據(jù)合并策略將wav語(yǔ)音“小文件”進(jìn)行合并。

需要說(shuō)明的是,namenode是管理系統(tǒng)文件的命名空間,它維護(hù)著文件系統(tǒng)樹(shù)及整棵樹(shù)內(nèi)所有的文件和目錄。

圖4是根據(jù)本發(fā)明實(shí)施例的一種可選的語(yǔ)音格式數(shù)據(jù)合并方式的示意圖,如圖4所示,編號(hào)1至7為低于閾值的語(yǔ)音格式數(shù)據(jù),其中,圖形的高度表示語(yǔ)音格式數(shù)據(jù)的數(shù)據(jù)量,將編號(hào)為1、2、以及3的語(yǔ)音文件合并,將編號(hào)為5和6的語(yǔ)音文件合并,將編號(hào)為4和7的語(yǔ)音文件合并,均可組成數(shù)據(jù)量高于閾值的語(yǔ)音格式數(shù)據(jù)塊。

可選地,將語(yǔ)音格式數(shù)據(jù)塊的合并信息、對(duì)應(yīng)工單號(hào)等元數(shù)據(jù)信息存入hbase數(shù)據(jù)庫(kù)中。

需要說(shuō)明的是,hbase,全稱hadoopdatabase,是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng)。

3)劃分結(jié)構(gòu)化文本格式數(shù)據(jù)。

對(duì)于結(jié)構(gòu)化工單信息數(shù)據(jù),直接將其存入hbase數(shù)據(jù)庫(kù)生成數(shù)據(jù)表,對(duì)數(shù)據(jù)表進(jìn)行拆分,然后以hfile文件形式存儲(chǔ)到hdfs上。

需要說(shuō)明的是,hfile是hbase存儲(chǔ)數(shù)據(jù)的文件組織形式。

(3)進(jìn)行hdfs下的分片索引研究,為每一類數(shù)據(jù)構(gòu)建合適的索引方式。

圖5是根據(jù)本發(fā)明實(shí)施例的一種可選的圖像格式數(shù)據(jù)的索引方式的示意圖,如圖5所示,對(duì)于圖像格式數(shù)據(jù),嘗試面向影像金字塔的四叉樹(shù)空間索引,以block(數(shù)據(jù)庫(kù)中的最小存儲(chǔ)和處理單位)逐層索引,其中,數(shù)據(jù)中包括多個(gè)block,每個(gè)block按照層級(jí)順序依次編號(hào),例如,第n層(leveln),block編號(hào)為b0;第n+1層(leveln+1),block編號(hào)為b01、b02、b03、b04。

可選地,對(duì)于結(jié)構(gòu)化工單數(shù)據(jù),可以在hbase數(shù)據(jù)庫(kù)中建立多級(jí)索引,如可以對(duì)工單編號(hào)進(jìn)行索引之前,先進(jìn)行以地區(qū)為基準(zhǔn)的索引,然后進(jìn)行以系統(tǒng)為基準(zhǔn)的索引,再進(jìn)行以模塊為基準(zhǔn)的索引,形成工單信息的3級(jí)索引,以提高索引的速度。

(4)通過(guò)對(duì)工單信息的數(shù)據(jù)進(jìn)行分析,實(shí)現(xiàn)工單類型統(tǒng)計(jì)、工單事由統(tǒng)計(jì)、模塊故障次數(shù)排行、客服接單量排行、客服服務(wù)排行等數(shù)據(jù)分析,并在web端展示分析結(jié)果。

圖6是根據(jù)本發(fā)明實(shí)施例的一種可選的工單信息的數(shù)據(jù)的存儲(chǔ)的示意圖,如圖6所示,hdfs客戶端讀取數(shù)據(jù)塊的請(qǐng)求,并將該請(qǐng)求發(fā)送至hdfs,hdfs根據(jù)該請(qǐng)求hbase中獲取數(shù)據(jù)塊名,并在節(jié)點(diǎn)命名中獲取數(shù)據(jù)塊所在數(shù)據(jù)節(jié)點(diǎn),然后通過(guò)hdfs訪問(wèn)接口從多個(gè)數(shù)據(jù)節(jié)點(diǎn)中讀取所請(qǐng)求數(shù)據(jù)塊,在讀取完成后hdfs訪問(wèn)接口向hdfs客戶端發(fā)出關(guān)閉連接的指示。

如圖6所述,在hdfs中記錄有工單信息的數(shù)據(jù)的多個(gè)格式類型,如語(yǔ)音格式數(shù)據(jù)、圖像格式數(shù)據(jù)、結(jié)構(gòu)化文本格式數(shù)據(jù),其中,圖像格式數(shù)據(jù)包括出錯(cuò)界面截圖,語(yǔ)音格式數(shù)據(jù)包括客戶問(wèn)詢語(yǔ)音和客服服務(wù)語(yǔ)音,結(jié)構(gòu)化文本格式數(shù)據(jù)包括工單文本信息以及根據(jù)數(shù)據(jù)表生成的工單文本信息。

如圖6所述,在hbase中記錄有工單信息的數(shù)據(jù)的多個(gè)格式類型的信息,如語(yǔ)音格式數(shù)據(jù)、圖像格式數(shù)據(jù)、結(jié)構(gòu)化文本格式數(shù)據(jù),其中,圖形格式的數(shù)據(jù)包括數(shù)據(jù)塊信息、所處行列號(hào)、以及對(duì)應(yīng)工單號(hào)等信息;結(jié)構(gòu)化文本格式數(shù)據(jù)包括數(shù)據(jù)子表信息、以及字表編號(hào)等信息;語(yǔ)音格式數(shù)據(jù)中包括語(yǔ)音分塊信息、語(yǔ)音塊編號(hào)、以及對(duì)應(yīng)工單號(hào)等信息。

如圖6所述,每個(gè)數(shù)據(jù)塊節(jié)點(diǎn)中包括數(shù)據(jù)塊和副本,每個(gè)數(shù)據(jù)塊均為數(shù)據(jù)庫(kù)中的最小存儲(chǔ)和處理單位。

根據(jù)本發(fā)明實(shí)施例,還提供了一種數(shù)據(jù)處理裝置實(shí)施例,需要說(shuō)明的是,該數(shù)據(jù)處理裝置可以用于執(zhí)行本發(fā)明實(shí)施例中的數(shù)據(jù)處理方法,本發(fā)明實(shí)施例中的數(shù)據(jù)處理方法可以在該數(shù)據(jù)處理裝置中執(zhí)行。

圖7是根據(jù)本發(fā)明實(shí)施例的一種可選的數(shù)據(jù)處理裝置的示意圖,如圖7所示,該裝置可以包括:獲取單元71,用于獲取待處理數(shù)據(jù),其中,待處理數(shù)據(jù)為用于反映目標(biāo)對(duì)象的工單信息的數(shù)據(jù),待處理數(shù)據(jù)的數(shù)據(jù)類型至少包括目標(biāo)數(shù)據(jù)類型;確定單元73,用于確定目標(biāo)數(shù)據(jù)類型對(duì)應(yīng)的目標(biāo)數(shù)據(jù)劃分方式;劃分單元75,用于按照目標(biāo)數(shù)據(jù)劃分方式對(duì)數(shù)據(jù)類型為目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分。

需要說(shuō)明的是,該實(shí)施例中的獲取單元71可以用于執(zhí)行本申請(qǐng)實(shí)施例中的步驟s102,該實(shí)施例中的確定單元73可以用于執(zhí)行本申請(qǐng)實(shí)施例中的步驟s104,該實(shí)施例中的劃分單元75可以用于執(zhí)行本申請(qǐng)實(shí)施例中的步驟s106。上述模塊與對(duì)應(yīng)的步驟所實(shí)現(xiàn)的示例和應(yīng)用場(chǎng)景相同,但不限于上述實(shí)施例所公開(kāi)的內(nèi)容。

通過(guò)上述實(shí)施例,獲取用于反映目標(biāo)對(duì)象的工單信息的待處理數(shù)據(jù),以及該待處理數(shù)據(jù)對(duì)應(yīng)的目標(biāo)數(shù)據(jù)類型,并根據(jù)獲取的待處理數(shù)據(jù)的目標(biāo)數(shù)據(jù)類型確定該目標(biāo)數(shù)據(jù)類型對(duì)應(yīng)的目標(biāo)數(shù)據(jù)劃分方式,再將數(shù)據(jù)類型為目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)按照目標(biāo)數(shù)據(jù)劃分方式進(jìn)行數(shù)據(jù)劃分。采用本發(fā)明,按照多種類型的數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)劃分方式,將各種類型的數(shù)據(jù)分別處理,達(dá)到了對(duì)不同種類型的數(shù)據(jù)進(jìn)行不同的處理的目的,從而實(shí)現(xiàn)了提高數(shù)據(jù)處理效率的技術(shù)效果,進(jìn)而解決了相關(guān)技術(shù)對(duì)多種類型的數(shù)據(jù)進(jìn)行統(tǒng)一處理導(dǎo)致數(shù)據(jù)處理效率較低的技術(shù)問(wèn)題。

作為一種可選的實(shí)施例,目標(biāo)數(shù)據(jù)類型可以包括以下至少之一:圖像格式數(shù)據(jù);語(yǔ)音格式數(shù)據(jù);結(jié)構(gòu)化文本格式數(shù)據(jù)。

作為一種可選的實(shí)施例,圖像劃分模塊,用于在目標(biāo)數(shù)據(jù)類型為圖像格式數(shù)據(jù)的情況下,目標(biāo)數(shù)據(jù)劃分方式為按照幾何形狀對(duì)圖像格式數(shù)據(jù)進(jìn)行切分的方式;語(yǔ)音劃分模塊,用于在目標(biāo)數(shù)據(jù)類型為語(yǔ)音格式數(shù)據(jù)的情況下,目標(biāo)數(shù)據(jù)劃分方式為將數(shù)據(jù)量低于預(yù)定閾值的語(yǔ)音格式數(shù)據(jù)進(jìn)行合并的方式;文本劃分模塊,用于在目標(biāo)數(shù)據(jù)類型為結(jié)構(gòu)化文本格式數(shù)據(jù)的情況下,目標(biāo)數(shù)據(jù)劃分方式為將結(jié)構(gòu)化文本格式數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)表進(jìn)行拆分的方式。

作為一種可選的實(shí)施例,在目標(biāo)數(shù)據(jù)類型為語(yǔ)音格式數(shù)據(jù)的情況下,其中,劃分單元可以包括:獲取模塊,用于獲取語(yǔ)音格式數(shù)據(jù)的數(shù)據(jù)量;判斷模塊,用于判斷語(yǔ)音格式數(shù)據(jù)的數(shù)據(jù)量是否低于預(yù)定閾值;確定模塊,用于在語(yǔ)音格式數(shù)據(jù)的數(shù)據(jù)量低于預(yù)定閾值的情況下,則將語(yǔ)音格式數(shù)據(jù)確定為待合并語(yǔ)音格式數(shù)據(jù);合并模塊,用于將待合并語(yǔ)音格式數(shù)據(jù)進(jìn)行合并處理。

作為一種可選的實(shí)施例,合并模塊可以包括:對(duì)待合并語(yǔ)音格式數(shù)據(jù)執(zhí)行以下合并操作,得到語(yǔ)音格式數(shù)據(jù)塊,直至語(yǔ)音格式數(shù)據(jù)塊的數(shù)據(jù)量不低于預(yù)定閾值,其中,待合并語(yǔ)音格式數(shù)據(jù)在執(zhí)行合并操作時(shí)標(biāo)記為當(dāng)前語(yǔ)音格式數(shù)據(jù):合并子模塊,用于將當(dāng)前語(yǔ)音格式數(shù)據(jù)合并至語(yǔ)音格式數(shù)據(jù)塊;判斷子模塊,用于判斷語(yǔ)音格式數(shù)據(jù)塊的數(shù)據(jù)量是否低于預(yù)定閾值;確定子模塊,用于在語(yǔ)音格式數(shù)據(jù)塊的數(shù)據(jù)量低于預(yù)定閾值的情況下,將下一個(gè)語(yǔ)音格式數(shù)據(jù)確定為當(dāng)前語(yǔ)音格式數(shù)據(jù)。

作為一種可選的實(shí)施例,在劃分單元之后,該實(shí)施例還可以包括:存儲(chǔ)模塊,用于將數(shù)據(jù)類型為目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)進(jìn)行劃分后得到的目標(biāo)數(shù)據(jù)塊存儲(chǔ)在目標(biāo)數(shù)據(jù)庫(kù)。

作為一種可選的實(shí)施例,在存儲(chǔ)模塊之后,該實(shí)施例還可以包括:索引模塊,用于在目標(biāo)數(shù)據(jù)庫(kù)中為數(shù)據(jù)類型為目標(biāo)數(shù)據(jù)類型的數(shù)據(jù)設(shè)置目標(biāo)索引方式。

上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。

在本發(fā)明的上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見(jiàn)其他實(shí)施例的相關(guān)描述。

在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過(guò)其它的方式實(shí)現(xiàn)。其中,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。

所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。

另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。

所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可為個(gè)人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、移動(dòng)硬盤、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。

以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
邵武市| 呼和浩特市| 石河子市| 宁夏| 三江| 达拉特旗| 合作市| 赤水市| 杭锦旗| 师宗县| 台南市| 广丰县| 南木林县| 长武县| 宁乡县| 名山县| 汾阳市| 西乌| 菏泽市| 北票市| 水城县| 滦南县| 泸州市| 朔州市| 大理市| 湘阴县| 安庆市| 平山县| 烟台市| 平果县| 资中县| 乳山市| 岳阳县| 汝南县| 绥阳县| 葫芦岛市| 沈丘县| 手游| 西峡县| 林周县| 安西县|