欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多源數(shù)據(jù)融合方法和裝置與流程

文檔序號:12906156閱讀:635來源:國知局
一種多源數(shù)據(jù)融合方法和裝置與流程

本公開涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種多源數(shù)據(jù)融合方法和裝置。



背景技術(shù):

在對一個(gè)實(shí)體進(jìn)行數(shù)據(jù)分析時(shí),需要獲取到描述該實(shí)體的大量屬性數(shù)據(jù),這些屬性數(shù)據(jù)可以包括多種來源,例如,來源于用戶自己輸入的信息,或者來源于網(wǎng)絡(luò)爬蟲采集,或者來源于多家不同的渠道商。不同來源的數(shù)據(jù)可以具有不同的數(shù)據(jù)標(biāo)準(zhǔn),對于同一個(gè)實(shí)體的描述可能不同,比如,假設(shè)兩個(gè)數(shù)據(jù)來源實(shí)際上是對同一實(shí)體的描述,但是這兩個(gè)來源的描述中對該實(shí)體的名稱描述不同或者地址描述不同。

在對實(shí)體進(jìn)行數(shù)據(jù)分析時(shí),可以將描述同一實(shí)體的大量屬性數(shù)據(jù)都關(guān)聯(lián)至該實(shí)體,即進(jìn)行該實(shí)體的多源數(shù)據(jù)融合,然后再根據(jù)這些多源數(shù)據(jù)對該實(shí)體進(jìn)行分析。需要提供能夠更準(zhǔn)確的將同一實(shí)體的多源數(shù)據(jù)進(jìn)行融合的方案。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本說明書實(shí)施例提供一種多源數(shù)據(jù)融合方法和裝置,以準(zhǔn)確快速的進(jìn)行多源數(shù)據(jù)融合。

具體地,本公開是通過如下技術(shù)方案實(shí)現(xiàn)的:

第一方面,提供一種多源數(shù)據(jù)融合方法,所述方法用于由數(shù)據(jù)集中獲取屬于同一實(shí)體的數(shù)據(jù),所述數(shù)據(jù)集包括屬于多個(gè)實(shí)體的數(shù)據(jù),每個(gè)實(shí)體的數(shù)據(jù)包括至少一個(gè)實(shí)體屬性;所述方法包括:

對于任一個(gè)實(shí)體,分別獲取每個(gè)實(shí)體屬性的至少一個(gè)關(guān)聯(lián)屬性;

獲得兩個(gè)實(shí)體的所述關(guān)聯(lián)屬性的屬性相似度;

若所述屬性相似度大于相似度閾值,則確定所述兩個(gè)實(shí)體是同一實(shí)體,將所述兩個(gè)實(shí)體的實(shí)體屬性均關(guān)聯(lián)至所述同一實(shí)體。

第二方面,提供一種多源數(shù)據(jù)融合裝置,所述裝置用于由數(shù)據(jù)集中獲取屬于同一實(shí)體的數(shù)據(jù),所述數(shù)據(jù)集包括屬于多個(gè)實(shí)體的數(shù)據(jù),每個(gè)實(shí)體的數(shù)據(jù)包括至少一個(gè)實(shí)體屬性;所述裝置包括:

屬性獲取模塊,用于對于任一個(gè)實(shí)體,分別獲取每個(gè)實(shí)體屬性的至少一個(gè)關(guān)聯(lián)屬性;

相似度計(jì)算模塊,用于獲得兩個(gè)實(shí)體的所述關(guān)聯(lián)屬性的屬性相似度;

關(guān)聯(lián)處理模塊,用于若所述屬性相似度大于相似度閾值,則確定所述兩個(gè)實(shí)體是同一實(shí)體,將所述兩個(gè)實(shí)體的實(shí)體屬性均關(guān)聯(lián)至所述同一實(shí)體。

本說明書實(shí)施例提供的多源數(shù)據(jù)融合方法和裝置,通過基于實(shí)體屬性的關(guān)聯(lián)屬性構(gòu)建相似度計(jì)算方式,用以衡量兩個(gè)實(shí)體之間的相似性關(guān)系,使得實(shí)體屬性描述的不同不會影響相同實(shí)體的識別,可以快速準(zhǔn)確的完成對同一實(shí)體的多源數(shù)據(jù)的獲?。粚τ跀?shù)據(jù)格式不同的多源數(shù)據(jù)之間有了一種有效的衡量方式,能夠?qū)崿F(xiàn)同一實(shí)體數(shù)據(jù)的識別與融合,從而使得實(shí)體的數(shù)據(jù)更加完善。

附圖說明

為了更清楚地說明本說明書一個(gè)或多個(gè)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本說明書一個(gè)或多個(gè)實(shí)施例中記載的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本說明書一個(gè)或多個(gè)實(shí)施例提供的圖數(shù)據(jù)庫的部分示意圖;

圖2為本說明書一個(gè)或多個(gè)實(shí)施例提供的多源數(shù)據(jù)融合方法的流程示意圖;

圖3為本說明書一個(gè)或多個(gè)實(shí)施例提供的多源數(shù)據(jù)融合裝置的結(jié)構(gòu)示意圖;

圖4為本說明書一個(gè)或多個(gè)實(shí)施例提供的多源數(shù)據(jù)融合裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

為了使本技術(shù)領(lǐng)域的人員更好地理解本說明書一個(gè)或多個(gè)實(shí)施例中的技術(shù)方案,下面將結(jié)合本說明書一個(gè)或多個(gè)實(shí)施例中的附圖,對本說明書一個(gè)或多個(gè)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是一部分實(shí)施例,而不是全部的實(shí)施例。基于本說明書一個(gè)或多個(gè)實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本公開保護(hù)的范圍。

在數(shù)據(jù)分析時(shí),經(jīng)常涉及到采集來源于多種渠道的同一實(shí)體的數(shù)據(jù),根據(jù)這些數(shù)據(jù)對該實(shí)體進(jìn)行較為準(zhǔn)確的業(yè)務(wù)分析。實(shí)際實(shí)施中,上述多種來源的數(shù)據(jù)即使都是對同一實(shí)體的特征描述,也可能描述方式不同。例如,同一個(gè)實(shí)體門店,在來源l1中的名稱是m,在來源l2中的名稱是n,其實(shí)名稱m和n都是指代同一個(gè)門店,只是字面描述不同;又例如,上述同一個(gè)實(shí)體門店,在來源l1和來源l2中對門店地址的描述也可能不同。

在進(jìn)行多源數(shù)據(jù)融合時(shí),需要獲取到屬于同一實(shí)體的數(shù)據(jù),并將這些數(shù)據(jù)都關(guān)聯(lián)至該同一實(shí)體,以備根據(jù)這些數(shù)據(jù)對實(shí)體進(jìn)行分析。然而上述例子中提到的不同來源的數(shù)據(jù),由于對實(shí)體的描述方式不一致,導(dǎo)致可能無法關(guān)聯(lián)至同一實(shí)體。本說明書一個(gè)或多個(gè)實(shí)施例提供的多源數(shù)據(jù)融合方法,將用于解決這一問題,使得即使實(shí)體描述方式不同也能夠?qū)⑼粚?shí)體的數(shù)據(jù)進(jìn)行關(guān)聯(lián)。

本說明書一個(gè)或多個(gè)實(shí)施例的多源數(shù)據(jù)融合方法中,將涉及到“實(shí)體屬性”和“關(guān)聯(lián)屬性”。其中,實(shí)體屬性即由各個(gè)數(shù)據(jù)來源中采集到的一個(gè)實(shí)體的直接屬性,而關(guān)聯(lián)屬性可以是與實(shí)體屬性相關(guān)的其他屬性。如下舉例:

例如,一個(gè)實(shí)體屬性可以是某個(gè)實(shí)體門店的地址。而該“地址”對應(yīng)的“經(jīng)緯度坐標(biāo)”是“地址”的關(guān)聯(lián)屬性,或者,“地址所屬的省市區(qū)信息”也是“地址”的關(guān)聯(lián)屬性。

又例如,一個(gè)實(shí)體屬性可以是某個(gè)實(shí)體門店的聯(lián)系電話。而該“聯(lián)系電話對應(yīng)的號碼所屬省份”是“聯(lián)系電話”的關(guān)聯(lián)屬性;或者,“該聯(lián)系電話對應(yīng)的常用收貨人姓名”也是“聯(lián)系電話”的關(guān)聯(lián)屬性;又或者,“該聯(lián)系電話對應(yīng)的聯(lián)系郵箱”也是“聯(lián)系電話”的關(guān)聯(lián)屬性。

關(guān)聯(lián)屬性的獲取方式可以有多種,可以是其他實(shí)體的實(shí)體屬性,或者可以是由歷史收集的大數(shù)據(jù)信息中得到,比如,可以由收集存儲的歷史交易數(shù)據(jù)中,得到某個(gè)聯(lián)系電話對應(yīng)的常用收貨地址、或者常用收貨人姓名等信息。一個(gè)實(shí)體屬性對應(yīng)的關(guān)聯(lián)屬性的數(shù)量可以是至少一個(gè)。

為了后續(xù)處理中獲取關(guān)聯(lián)屬性的快速和方便,可以預(yù)先建立一個(gè)圖數(shù)據(jù)庫。圖1示例了圖數(shù)據(jù)庫的一部分,圖數(shù)據(jù)庫中可以包括多個(gè)屬性節(jié)點(diǎn),例如圖1中的屬性節(jié)點(diǎn)11、屬性節(jié)點(diǎn)12、屬性節(jié)點(diǎn)13和屬性節(jié)點(diǎn)14等。并且,存在關(guān)聯(lián)關(guān)系的屬性節(jié)點(diǎn)之間以邊連接,例如,屬性節(jié)點(diǎn)11和屬性節(jié)點(diǎn)12之間以邊連接,表示號碼所歸省份與號碼是有關(guān)系的;沒有關(guān)聯(lián)關(guān)系的屬性節(jié)點(diǎn)之間可以不以邊連接。

圖數(shù)據(jù)庫中用于連接屬性節(jié)點(diǎn)的邊,可以輔助快速查找某一個(gè)屬性節(jié)點(diǎn)相關(guān)聯(lián)的屬性節(jié)點(diǎn),應(yīng)用于關(guān)聯(lián)屬性的查找中。例如,假設(shè)屬性節(jié)點(diǎn)11是一個(gè)實(shí)體屬性,那么可以根據(jù)節(jié)點(diǎn)連接關(guān)系,將與屬性節(jié)點(diǎn)11邊連接的至少一個(gè)屬性節(jié)點(diǎn)對應(yīng)的屬性,都確定為聯(lián)系電話的關(guān)聯(lián)屬性,比如,號碼所歸省份、號碼對應(yīng)的常用收貨人姓名等,都是聯(lián)系電話的關(guān)聯(lián)屬性。圖數(shù)據(jù)庫的建立,即可以應(yīng)用其他實(shí)體的實(shí)體屬性或者歷史收集的大數(shù)據(jù)信息來構(gòu)建。

在上述說明“實(shí)體屬性”和“關(guān)聯(lián)屬性”的基礎(chǔ)上,如下結(jié)合圖2描述本說明書一個(gè)或多個(gè)實(shí)施例的多源數(shù)據(jù)融合方法,在該方法中,將基于不同實(shí)體之間的“關(guān)聯(lián)屬性”的相似度的計(jì)算,來衡量實(shí)體之間的相似性。如前面提到的,不同實(shí)體的描述方式可能不同(這里的不同實(shí)體只是用于表示不同的數(shù)據(jù)來源,實(shí)際可能是同一實(shí)體),這種不同通常是實(shí)體的“實(shí)體屬性”的描述不同,而本例子的方法中的實(shí)體相似性判斷不依據(jù)實(shí)體屬性而是依據(jù)關(guān)聯(lián)屬性,從而實(shí)體屬性的不同描述不會導(dǎo)致實(shí)體差異的誤判,而實(shí)體相似通常會有更高的關(guān)聯(lián)屬性相似度。

在步驟202中,將數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行數(shù)據(jù)格式統(tǒng)一化處理。

對多源異構(gòu)數(shù)據(jù)集,可以進(jìn)行標(biāo)準(zhǔn)化和結(jié)構(gòu)化預(yù)處理,以便規(guī)范化實(shí)體的描述屬性。由于數(shù)據(jù)來源不同,信息的描述方式可能不同,數(shù)據(jù)的格式標(biāo)準(zhǔn)也可能不同,例如英文字母大小寫、分隔符、簡繁體等,需要進(jìn)行統(tǒng)一處理,提升數(shù)據(jù)質(zhì)量。對于實(shí)體信息可以進(jìn)行相應(yīng)的數(shù)據(jù)模型構(gòu)建,例如,對于門店可以確定門店的標(biāo)準(zhǔn)屬性范圍,例如電話、營業(yè)執(zhí)照、地址等信息,盡可能多的提取有價(jià)值的信息。

在步驟204中,將符合預(yù)定條件的不同實(shí)體的數(shù)據(jù),分入同一數(shù)據(jù)集。

為了避免后續(xù)相似度計(jì)算造成的笛卡爾積導(dǎo)致數(shù)據(jù)計(jì)算量膨脹,可以對數(shù)據(jù)集進(jìn)行一個(gè)初步分類,將實(shí)體相似的可能性更高的數(shù)據(jù)聚集在一起,這一過程可以稱為數(shù)據(jù)分桶。例如,對于唯一特征完全一致的實(shí)體可以直接判定為同一實(shí)體,例如門店名稱、營業(yè)執(zhí)照號等。而對于剩余未被直接認(rèn)定一致的數(shù)據(jù)可以通過強(qiáng)規(guī)則分類桶進(jìn)行初步分類,比如,可以將符合預(yù)定條件的不同實(shí)體的數(shù)據(jù),分入同一數(shù)據(jù)集,例如,被分到同一個(gè)數(shù)據(jù)集內(nèi)的門店實(shí)體所在城市一致,座機(jī)號碼區(qū)域一致,或者門店服務(wù)類型(美食、服務(wù)、購物)一致。

而強(qiáng)規(guī)則分類桶的多個(gè)預(yù)定條件,可以分批次執(zhí)行,例如,在具體實(shí)施中,可以先按照門店所在城市一致劃分一個(gè)數(shù)據(jù)集,對該數(shù)據(jù)集執(zhí)行步驟206至210的處理,提取出同一實(shí)體的數(shù)據(jù);而后對該數(shù)據(jù)集的剩余數(shù)據(jù),可以再按照座機(jī)號碼區(qū)域一致得到一個(gè)子數(shù)據(jù)集,對該子數(shù)據(jù)集再次執(zhí)行步驟206至210的處理,提取出同一實(shí)體的數(shù)據(jù)。

在步驟206中,對于任一個(gè)實(shí)體,分別獲取每個(gè)實(shí)體屬性的至少一個(gè)關(guān)聯(lián)屬性。本步驟可以在圖1示例的圖數(shù)據(jù)庫中,根據(jù)屬性節(jié)點(diǎn)之間的連接關(guān)系,查找與實(shí)體屬性相關(guān)的至少一個(gè)關(guān)聯(lián)屬性。比如,可以先在圖數(shù)據(jù)庫中找到某一個(gè)實(shí)體屬性,該實(shí)體屬性是圖數(shù)據(jù)庫中的其中一個(gè)屬性節(jié)點(diǎn),再將與該實(shí)體屬性邊連接的至少一個(gè)屬性節(jié)點(diǎn)的屬性,作為其關(guān)聯(lián)屬性。

在步驟208中,獲得兩個(gè)實(shí)體的所述關(guān)聯(lián)屬性的屬性相似度。

例如,假設(shè)實(shí)體a分別有屬性a0,a1…an,實(shí)體b有屬性b0,b1…bn。通常,a0和b0可以是相同的屬性只是取值不同,比如,都是手機(jī)號,只是手機(jī)號碼不同。同樣,a1和b1也是相同的屬性,比如,兩者都是門店地址,只是具體的地址信息不同。本例子中,可以將類似“a0和b0”、“a1和b1”的屬性對稱為兩個(gè)實(shí)體的“對應(yīng)實(shí)體屬性”,即指代的是同一實(shí)體屬性。

再以其中一個(gè)對應(yīng)實(shí)體屬性為例,“a0和b0”,假設(shè)屬性a0的關(guān)聯(lián)屬性包括:α0,α1,…αn;屬性b0的關(guān)聯(lián)屬性包括:β0,β1,…βn。類似的,α0和β0可以是相同的屬性只是取值不同,比如,都是手機(jī)號關(guān)聯(lián)的郵箱,只是郵箱不同。本例子可以將類似“α0和β0”的屬性對稱為“對應(yīng)關(guān)聯(lián)屬性”,即指代的是同一關(guān)聯(lián)屬性,并且“α0和β0”是“對應(yīng)實(shí)體屬性”“a0和b0”的其中一個(gè)“對應(yīng)關(guān)聯(lián)屬性”。

基于上述的“對應(yīng)實(shí)體屬性”和“對應(yīng)關(guān)聯(lián)屬性”的概念,如下說明如何計(jì)算兩個(gè)實(shí)體的屬性相似度。

可以分別計(jì)算任兩個(gè)對應(yīng)關(guān)聯(lián)屬性之間的屬性相似度,計(jì)算公式可以如下面的公式(1)所示。αi與βi是兩個(gè)對應(yīng)關(guān)聯(lián)屬性,當(dāng)αi不等于βi時(shí),相似度為0,當(dāng)αi=βi時(shí),相似度e-n/θ。其中,e為自然底數(shù),n為該對應(yīng)關(guān)聯(lián)屬性關(guān)聯(lián)的其他屬性值個(gè)數(shù),例如,a0,b0為手機(jī)號,α0,β0為該手機(jī)號關(guān)聯(lián)的郵箱,當(dāng)α0=β0時(shí),發(fā)現(xiàn)該郵箱有4個(gè)手機(jī)號與其有關(guān)系,則n=4。θ為集中度調(diào)節(jié)參數(shù),對于熱點(diǎn)數(shù)據(jù),例如手機(jī)對應(yīng)的城市信息,一個(gè)城市可能對應(yīng)非常多關(guān)聯(lián)手機(jī)號,則θ值可以設(shè)置的較大,反之,如郵箱等數(shù)據(jù)重復(fù)可能性不高則θ值可設(shè)置較小。

對于任一對應(yīng)實(shí)體屬性的任一對應(yīng)關(guān)聯(lián)屬性,都可以按照公式(1)進(jìn)行計(jì)算。比如,對于其中一對應(yīng)實(shí)體屬性“a0和b0”,可以計(jì)算α0和β0的屬性相似度,可以計(jì)算α1和β1的屬性相似度,等。

接著,可以根據(jù)對應(yīng)關(guān)聯(lián)屬性之間的屬性相似度、以及對應(yīng)實(shí)體屬性的屬性權(quán)重,得到兩個(gè)實(shí)體的屬性相似度。

比如,可以參見公式(2)所示,示例的是實(shí)體a與實(shí)體b的屬性相似度sim(a,b)的計(jì)算。其中,m為a,b的有效屬性個(gè)數(shù),即對應(yīng)屬性都有值。上述的例子中,實(shí)體a分別有屬性a0,a1…an,實(shí)體b有屬性b0,b1…bn。假設(shè)a1和b1至少一個(gè)沒有獲取到屬性值,那么這個(gè)屬性是無效屬性,a0和b0均能獲取到屬性值,則為有效屬性,最多n個(gè)有效屬性。對于其中一對“對應(yīng)實(shí)體屬性”(例如,a0和b0)來說,n為該對應(yīng)實(shí)體屬性的有效對應(yīng)關(guān)聯(lián)屬性的個(gè)數(shù),同理,假設(shè)屬性a0的關(guān)聯(lián)屬性包括:α0,α1,…αn;屬性b0的關(guān)聯(lián)屬性包括:β0,β1,…βn,最多有n個(gè)有效的對應(yīng)關(guān)聯(lián)屬性。

ωj為“對應(yīng)關(guān)聯(lián)屬性”(例如,“αi,βi”)關(guān)聯(lián)的“對應(yīng)實(shí)體屬性”(例如,a0和b0)的屬性權(quán)重,對于重要的對應(yīng)實(shí)體屬性可以設(shè)置權(quán)重較高,對于非重要的對應(yīng)實(shí)體屬性可以設(shè)置權(quán)重較低。表示某一“對應(yīng)實(shí)體屬性”關(guān)聯(lián)的“對應(yīng)關(guān)聯(lián)屬性”的屬性相似度的平均值。

在步驟210中,若所述屬性相似度大于相似度閾值,則確定所述兩個(gè)實(shí)體是同一實(shí)體,將所述兩個(gè)實(shí)體的實(shí)體屬性均關(guān)聯(lián)至所述同一實(shí)體。

例如,當(dāng)sim(a,b)的值大于閾值σ時(shí),可以認(rèn)為兩者是同一實(shí)體。識別到兩個(gè)是同一實(shí)體后,可以將這兩個(gè)實(shí)體的實(shí)體屬性均關(guān)聯(lián)至同一實(shí)體。

本例子的多源數(shù)據(jù)融合方法,通過基于實(shí)體屬性的關(guān)聯(lián)屬性構(gòu)建相似度計(jì)算方式,用以衡量兩個(gè)實(shí)體之間的相似性關(guān)系,使得實(shí)體屬性描述的不同不會影響相同實(shí)體的識別,可以快速準(zhǔn)確的完成對同一實(shí)體的多源數(shù)據(jù)的獲??;對于數(shù)據(jù)格式不同的多源數(shù)據(jù)之間有了一種有效的衡量方式,能夠?qū)崿F(xiàn)同一實(shí)體數(shù)據(jù)的識別與融合,從而使得實(shí)體的數(shù)據(jù)更加完善。

上述圖2所示流程中的各個(gè)步驟,其執(zhí)行順序不限制于流程圖中的順序。此外,各個(gè)步驟的描述,可以實(shí)現(xiàn)為軟件、硬件或者其結(jié)合的形式,例如,本領(lǐng)域技術(shù)人員可以將其實(shí)現(xiàn)為軟件代碼的形式,可以為能夠?qū)崿F(xiàn)所述步驟對應(yīng)的邏輯功能的計(jì)算機(jī)可執(zhí)行指令。當(dāng)其以軟件的方式實(shí)現(xiàn)時(shí),所述的可執(zhí)行指令可以存儲在存儲器中,并被設(shè)備中的處理器執(zhí)行。

例如,對應(yīng)于上述方法,本說明書一個(gè)或多個(gè)實(shí)施例同時(shí)提供一種數(shù)據(jù)處理設(shè)備,該設(shè)備可以包括處理器、存儲器、以及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)指令,所述處理器通過執(zhí)行所述指令,用于實(shí)現(xiàn)如下步驟:對于任一個(gè)實(shí)體,分別獲取每個(gè)實(shí)體屬性的至少一個(gè)關(guān)聯(lián)屬性;獲得兩個(gè)實(shí)體的所述關(guān)聯(lián)屬性的屬性相似度;若所述屬性相似度大于相似度閾值,則確定所述兩個(gè)實(shí)體是同一實(shí)體,將所述兩個(gè)實(shí)體的實(shí)體屬性均關(guān)聯(lián)至同一實(shí)體。

本說明書一個(gè)或多個(gè)實(shí)施例還提供了一種多源數(shù)據(jù)融合裝置,該裝置可以應(yīng)用于實(shí)現(xiàn)本說明書一個(gè)或多個(gè)實(shí)施例的多源數(shù)據(jù)融合方法。如圖3所示,該裝置可以包括:屬性獲取模塊31、相似度計(jì)算模塊32和關(guān)聯(lián)處理模塊33。

屬性獲取模塊31,用于對于任一個(gè)實(shí)體,分別獲取每個(gè)實(shí)體屬性的至少一個(gè)關(guān)聯(lián)屬性;

相似度計(jì)算模塊32,用于獲得兩個(gè)實(shí)體的所述關(guān)聯(lián)屬性的屬性相似度;

關(guān)聯(lián)處理模塊33,用于若所述屬性相似度大于相似度閾值,則確定所述兩個(gè)實(shí)體是同一實(shí)體,將所述兩個(gè)實(shí)體的實(shí)體屬性均關(guān)聯(lián)至所述同一實(shí)體。

在一個(gè)例子中,屬性獲取模塊31,具體用于:由預(yù)先建立的圖數(shù)據(jù)庫中獲取所述實(shí)體屬性,所述實(shí)體屬性是所述圖數(shù)據(jù)庫中的其中一個(gè)屬性節(jié)點(diǎn),所述圖數(shù)據(jù)庫中包括多個(gè)屬性節(jié)點(diǎn),存在關(guān)聯(lián)關(guān)系的屬性節(jié)點(diǎn)之間以邊連接;將與所述實(shí)體屬性邊連接的至少一個(gè)屬性節(jié)點(diǎn)對應(yīng)的屬性,確定為所述實(shí)體屬性的關(guān)聯(lián)屬性。

在一個(gè)例子中,相似度計(jì)算模塊32,具體用于:對于兩個(gè)實(shí)體的對應(yīng)實(shí)體屬性,確定所述對應(yīng)實(shí)體屬性的對應(yīng)關(guān)聯(lián)屬性;分別計(jì)算任兩個(gè)對應(yīng)關(guān)聯(lián)屬性之間的屬性相似度;根據(jù)所述對應(yīng)關(guān)聯(lián)屬性之間的屬性相似度、以及所述對應(yīng)實(shí)體屬性的屬性權(quán)重,得到所述兩個(gè)實(shí)體的所述屬性相似度。

在一個(gè)例子中,如圖4所示,該裝置還可以包括:數(shù)據(jù)分類模塊34,用于將符合預(yù)定條件的不同實(shí)體的數(shù)據(jù),分入同一數(shù)據(jù)集。

在一個(gè)例子中,如圖4所示,該裝置還可以包括:數(shù)據(jù)預(yù)處理模塊35,用于將所述數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行數(shù)據(jù)格式統(tǒng)一化處理。

上述實(shí)施例闡明的裝置或模塊,具體可以由計(jì)算機(jī)芯片或?qū)嶓w實(shí)現(xiàn),或者由具有某種功能的產(chǎn)品來實(shí)現(xiàn)。一種典型的實(shí)現(xiàn)設(shè)備為計(jì)算機(jī),計(jì)算機(jī)的具體形式可以是個(gè)人計(jì)算機(jī)、膝上型計(jì)算機(jī)、蜂窩電話、相機(jī)電話、智能電話、個(gè)人數(shù)字助理、媒體播放器、導(dǎo)航設(shè)備、電子郵件收發(fā)設(shè)備、游戲控制臺、平板計(jì)算機(jī)、可穿戴設(shè)備或者這些設(shè)備中的任意幾種設(shè)備的組合。

為了描述的方便,描述以上裝置時(shí)以功能分為各種模塊分別描述。當(dāng)然,在實(shí)施本說明書一個(gè)或多個(gè)實(shí)施例時(shí)可以把各模塊的功能在同一個(gè)或多個(gè)軟件和/或硬件中實(shí)現(xiàn)。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本說明書的一個(gè)或多個(gè)實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本說明書的一個(gè)或多個(gè)實(shí)施例可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本說明書的一個(gè)或多個(gè)實(shí)施例可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、cd-rom、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

還需要說明的是,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設(shè)備中還存在另外的相同要素。

本說明書一個(gè)或多個(gè)實(shí)施例可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本說明書一個(gè)或多個(gè)實(shí)施例,在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲介質(zhì)中。

本說明書一個(gè)或多個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對于數(shù)據(jù)處理設(shè)備實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。

以上所述僅為本說明書一個(gè)或多個(gè)實(shí)施例而已,并不用以限制本公開,凡在本公開的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本公開保護(hù)的范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
育儿| 内江市| 建昌县| 闽清县| 昌吉市| 伊吾县| 荔波县| 竹溪县| 瑞昌市| 基隆市| 仙游县| 荆门市| 彭山县| 阿合奇县| 三穗县| 长垣县| 湟中县| 竹山县| 吉林市| 常州市| 德钦县| 苏尼特右旗| 出国| 梓潼县| 丹寨县| 浮梁县| 公主岭市| 朔州市| 中宁县| 钟山县| 屏山县| 永州市| 齐河县| 临洮县| 昌乐县| 江山市| 马尔康县| 岳普湖县| 朝阳县| 辽中县| 万州区|