確定用戶標(biāo)識(shí)的關(guān)聯(lián)性的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及信息匹配技術(shù)領(lǐng)域,尤其涉及一種確定用 戶標(biāo)識(shí)的關(guān)聯(lián)性的方法和裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各種網(wǎng)絡(luò)平臺(tái),例如網(wǎng)絡(luò)社交平臺(tái)(如QQ社交平臺(tái))、搜索 平臺(tái)(如必應(yīng)搜索平臺(tái))、網(wǎng)上交易平臺(tái)(如京東商城)等等,逐漸成為人們生活的重要組成 部分。用戶可以通過(guò)相同或不同的賬號(hào)或終端設(shè)備等訪問(wèn)各種網(wǎng)絡(luò)平臺(tái)。這些賬號(hào)或終端 設(shè)備的標(biāo)識(shí)信息等可以用用戶標(biāo)識(shí)(i d e n t i f i c a t i ο η,ID)來(lái)表示。對(duì)這些用戶標(biāo)識(shí)之間的 關(guān)聯(lián)性進(jìn)行分析,具有應(yīng)用于各種領(lǐng)域的重要意義,例如網(wǎng)頁(yè)廣告推送、網(wǎng)絡(luò)社交平臺(tái)中的 好友推薦、犯罪分子追蹤等等。
[0003] 現(xiàn)有的確定用戶標(biāo)識(shí)的關(guān)聯(lián)性的方法中,通常將用戶標(biāo)識(shí)兩兩之間的屬性信息相 匹配從而確定其是否相關(guān)聯(lián)。然而,這種匹配方法,往往通過(guò)已確定關(guān)聯(lián)性的用戶標(biāo)識(shí)預(yù)先 訓(xùn)練的模型對(duì)待確定關(guān)聯(lián)性的用戶標(biāo)識(shí)進(jìn)行預(yù)測(cè),建立在已確定關(guān)聯(lián)性的用戶標(biāo)識(shí)之間的 關(guān)聯(lián)關(guān)系與待確定關(guān)聯(lián)性的用戶標(biāo)識(shí)之間的關(guān)聯(lián)關(guān)系具有相同的規(guī)律和分布的假設(shè)基礎(chǔ) 上。因此,這種匹配方法沒有考慮待確定關(guān)聯(lián)性的用戶標(biāo)識(shí)之間的關(guān)聯(lián)關(guān)系對(duì)預(yù)測(cè)模型的 影響,導(dǎo)致在上述假設(shè)不成立時(shí),確定的用戶標(biāo)識(shí)的關(guān)聯(lián)性準(zhǔn)確度不高。
【發(fā)明內(nèi)容】
[0004] 本申請(qǐng)的目的在于提出一種改進(jìn)的方法和裝置,來(lái)解決以上【背景技術(shù)】部分提到的 技術(shù)問(wèn)題。
[0005] -方面,本申請(qǐng)?zhí)峁┝艘环N確定用戶標(biāo)識(shí)的關(guān)聯(lián)性的方法,所述方法包括:分別提 取待確定關(guān)聯(lián)性的多組用戶標(biāo)識(shí)的相似度向量,其中,每組用戶標(biāo)識(shí)包括至少兩個(gè)用戶標(biāo) 識(shí);利用預(yù)先訓(xùn)練的關(guān)聯(lián)度模型將各個(gè)相似度向量進(jìn)行計(jì)算分別得到第一關(guān)聯(lián)度;基于所 述第一關(guān)聯(lián)度對(duì)所述待確定關(guān)聯(lián)性的多組用戶標(biāo)識(shí)分別生成預(yù)確定關(guān)聯(lián)關(guān)系;根據(jù)所述預(yù) 確定關(guān)聯(lián)關(guān)系,將所述待確定關(guān)聯(lián)性的多組用戶標(biāo)識(shí)作為更新樣本集對(duì)所述關(guān)聯(lián)度模型更 新得到預(yù)測(cè)模型;對(duì)待確定關(guān)聯(lián)性的各組用戶標(biāo)識(shí),分別利用所述預(yù)測(cè)模型對(duì)所述相似度 向量進(jìn)行計(jì)算得到第二關(guān)聯(lián)度;對(duì)于第二關(guān)聯(lián)度大于預(yù)設(shè)閾值的各組用戶標(biāo)識(shí),確定組內(nèi) 的用戶標(biāo)識(shí)間具有關(guān)聯(lián)性。
[0006] 在一些實(shí)施例中,所述分別提取待確定關(guān)聯(lián)性的多組用戶標(biāo)識(shí)的相似度向量包 括:針對(duì)各組用戶標(biāo)識(shí),執(zhí)行如下步驟:獲取每個(gè)用戶標(biāo)識(shí)的屬性信息;對(duì)所述屬性信息中 的每一項(xiàng),計(jì)算用戶標(biāo)識(shí)之間的屬性相似度;由所述屬性相似度生成所述相似度向量。
[0007] 在一些實(shí)施例中,所述基于所述第一關(guān)聯(lián)度對(duì)所述待確定關(guān)聯(lián)性的多組用戶標(biāo)識(shí) 分別生成預(yù)確定關(guān)聯(lián)關(guān)系包括:對(duì)所述第一關(guān)聯(lián)度通過(guò)聚類算法進(jìn)行分類,以將所述待確 定關(guān)聯(lián)性的多組用戶標(biāo)識(shí)分為兩類;根據(jù)分類結(jié)果對(duì)所述多組用戶標(biāo)識(shí)生成預(yù)確定關(guān)聯(lián)關(guān) 系。
[0008] 在一些實(shí)施例中,所述聚類算法的聚類中心通過(guò)迭代方法計(jì)算得到,具體方法包 括:查找步驟:遍歷待確定關(guān)聯(lián)性的各組用戶標(biāo)識(shí),查找使下列函數(shù)具有最小值的一組用戶 標(biāo)識(shí),加入集合c (1):
[0009]
[0010] 其中,x(1)表示第i組用戶標(biāo)識(shí)的相似度向量此表示集合c(1)所代表聚類的聚類中 心的相似度向量;表示第i組用戶標(biāo)識(shí)的第一關(guān)聯(lián)度; 11.,#)表示集 合c(1)所代表聚類的聚類中心的第一關(guān)聯(lián)度;λ表示第一關(guān)聯(lián)度的權(quán)重;計(jì)算步驟:對(duì)于集合 c(1)中的至少一組用戶標(biāo)識(shí),計(jì)算各組用戶標(biāo)識(shí)的相似度向量的平均值,具體計(jì)算公式為:
[0011]
[0012] 迭代步驟:用所述平均值作為集合c(1)所代表聚類的聚類中心的相似度向量,重復(fù) 以上查找步驟和計(jì)算步驟,直至集合c (1)穩(wěn)定;確定步驟:將使集合c(1)穩(wěn)定時(shí)的μ」確定為集 合c(1)所代表聚類的聚類中心的第一關(guān)聯(lián)度。
[0013] 在一些實(shí)施例中,λ包括將作為驗(yàn)證樣本集的多組用戶標(biāo)識(shí)分成兩類時(shí),使得生成 的預(yù)確定關(guān)聯(lián)關(guān)系與已知的關(guān)聯(lián)關(guān)系的匹配度最高時(shí)的取值。
[0014] 在一些實(shí)施例中,仏(J = 11 )由所述關(guān)聯(lián)度模型將4進(jìn)行計(jì)算得到。
[0015] 在一些實(shí)施例中,所述根據(jù)分類結(jié)果對(duì)所述多組用戶標(biāo)識(shí)生成預(yù)確定關(guān)聯(lián)關(guān)系包 括:對(duì)兩類中每一類待確定關(guān)聯(lián)性的多組用戶標(biāo)識(shí),將各個(gè)第一關(guān)聯(lián)度與預(yù)設(shè)的關(guān)聯(lián)度閾 值相比較;如果大于預(yù)設(shè)的關(guān)聯(lián)度閾值的第一關(guān)聯(lián)度個(gè)數(shù)超過(guò)小于預(yù)設(shè)的關(guān)聯(lián)度閾值的第 一關(guān)聯(lián)度個(gè)數(shù),確定該類中待確定關(guān)聯(lián)性的多組用戶標(biāo)識(shí)的預(yù)確定關(guān)聯(lián)關(guān)系都為具有關(guān)聯(lián) 性。
[0016] 第二方面,本申請(qǐng)?zhí)峁┝艘环N確定用戶標(biāo)識(shí)的關(guān)聯(lián)性的裝置,所述裝置包括:提取 模塊,配置用于分別提取待確定關(guān)聯(lián)性的多組用戶標(biāo)識(shí)的相似度向量,其中,每組用戶標(biāo)識(shí) 包括至少兩個(gè)用戶標(biāo)識(shí);第一計(jì)算模塊,配置用于利用預(yù)先訓(xùn)練的關(guān)聯(lián)度模型將各個(gè)相似 度向量進(jìn)行計(jì)算分別得到第一關(guān)聯(lián)度;生成模塊,配置用于基于所述第一關(guān)聯(lián)度對(duì)所述待 確定關(guān)聯(lián)性的多組用戶標(biāo)識(shí)分別生成預(yù)確定關(guān)聯(lián)關(guān)系;更新模塊,配置用于根據(jù)預(yù)確定的 關(guān)聯(lián)關(guān)系,將所述待確定關(guān)聯(lián)性的多組用戶標(biāo)識(shí)作為更新樣本集對(duì)所述關(guān)聯(lián)度模型更新得 到預(yù)測(cè)模型;第二計(jì)算模塊,配置用于對(duì)待確定關(guān)聯(lián)性的各組用戶標(biāo)識(shí),分別利用所述預(yù)測(cè) 模型對(duì)所述相似度向量進(jìn)行計(jì)算得到第二關(guān)聯(lián)度;確定模塊,配置用于對(duì)于第二關(guān)聯(lián)度大 于預(yù)設(shè)閾值的各組用戶標(biāo)識(shí),確定組內(nèi)的用戶標(biāo)識(shí)間具有關(guān)聯(lián)性。
[0017] 在一些實(shí)施例中,所述提取模塊包括針對(duì)各組用戶標(biāo)識(shí)進(jìn)行處理的以下單元:獲 取單元,配置用于獲取每個(gè)用戶標(biāo)識(shí)的屬性信息;計(jì)算單元,配置用于對(duì)所述屬性信息中的 每一項(xiàng),計(jì)算用戶標(biāo)識(shí)之間的屬性相似度;生成單元,配置用于由所述屬性相似度生成所述 相似度向量。
[0018] 在一些實(shí)施例中,生成模塊包括:分類單元,配置用于對(duì)所述第一關(guān)聯(lián)度通過(guò)聚類 算法進(jìn)行分類,以將所述待確定關(guān)聯(lián)性的多組用戶標(biāo)識(shí)分為兩類;生成單元,配置用于根據(jù) 分類結(jié)果對(duì)所述多組用戶標(biāo)識(shí)生成預(yù)確定關(guān)聯(lián)關(guān)系。
[0019] 在一些實(shí)施例中,所述分類單元還包括:查找子單元:遍歷待確定關(guān)聯(lián)性的各組用 戶標(biāo)識(shí),查找使下列函數(shù)具有最小值的一組用戶標(biāo)識(shí),加入集合c (1):
[0020]
[0021] 其中,x(1)表示第i組用戶標(biāo)識(shí)的相似度向量;^表示集合c(1)所代表聚類的聚類中 心的相似度向量;辦=11 表示第i組用戶標(biāo)識(shí)的第一關(guān)聯(lián)度;=11 y#)表示集 合c(1)所代表聚類的聚類中心的第一關(guān)聯(lián)度;λ表示第一關(guān)聯(lián)度的權(quán)重;計(jì)算子單元:對(duì)于集 合c(1)中的至少一組用戶標(biāo)識(shí),計(jì)算各組用戶標(biāo)識(shí)的相似度向量的平均值,具體計(jì)算公式 為:
[0022]
[0023]迭代子單元:用所述平均值作為集合c(1)所代表聚類的聚類中心的相似度向量,重 復(fù)以上查找步驟和計(jì)算步驟,直至集合c(1)穩(wěn)定;確定子單元:將使集合c(1)穩(wěn)定時(shí)的μ」確定 為集合c (1)所代表聚類的聚類中心的第一關(guān)聯(lián)度。
[0024]在一些實(shí)施例中,λ包括將作為驗(yàn)證樣本集的多組用戶標(biāo)識(shí)分成兩類時(shí),使得生成 的預(yù)確定關(guān)聯(lián)關(guān)系與已知的關(guān)聯(lián)關(guān)系的匹配度最高時(shí)的取值。
[0025] 在一些實(shí)施例中,A、()' = 11 X(~)由所述關(guān)聯(lián)度模型將…進(jìn)行計(jì)算得到。
[0026] 在一些實(shí)施例中,所述生成單元還配置用于:對(duì)兩類中每一類待確定關(guān)聯(lián)性的多 組用戶標(biāo)識(shí),將各個(gè)第一關(guān)聯(lián)度與預(yù)設(shè)的關(guān)聯(lián)度閾值相比較;如果大于預(yù)設(shè)的關(guān)聯(lián)度閾值 的第一關(guān)聯(lián)度個(gè)數(shù)超過(guò)小于預(yù)設(shè)的關(guān)聯(lián)度閾值的第一關(guān)聯(lián)度個(gè)數(shù),確定該類中待確定關(guān)聯(lián) 性的多組用戶標(biāo)識(shí)的預(yù)確定關(guān)聯(lián)關(guān)系都為具有關(guān)聯(lián)性。
[0027] 本申請(qǐng)?zhí)峁┑拇_定用戶標(biāo)識(shí)的關(guān)聯(lián)性的方法和裝置,通過(guò)分別提取待確定關(guān)聯(lián)性 的多組用戶標(biāo)識(shí)相似度向量,然后利用預(yù)先訓(xùn)練的關(guān)聯(lián)度模型將上述相似度向量進(jìn)行計(jì)算 得到第一關(guān)聯(lián)度,接著基于第一關(guān)聯(lián)度對(duì)待確定關(guān)聯(lián)性的多組用戶標(biāo)識(shí)分別生成預(yù)確定關(guān) 聯(lián)關(guān)系,然后根據(jù)預(yù)確定的關(guān)聯(lián)關(guān)系,將待確定關(guān)聯(lián)性的多組用戶標(biāo)識(shí)作為更新樣本集對(duì) 關(guān)聯(lián)度模型更新得到預(yù)測(cè)模型,然后對(duì)待確定關(guān)聯(lián)性的各組用戶標(biāo)識(shí),分別利用預(yù)測(cè)模型 對(duì)上述相似度向量進(jìn)行計(jì)算得到第二關(guān)聯(lián)度,并對(duì)于第二關(guān)聯(lián)度大于預(yù)設(shè)閾值的各組用戶 標(biāo)識(shí),確定組內(nèi)的用戶標(biāo)識(shí)間具有關(guān)聯(lián)性,由于通過(guò)基于關(guān)聯(lián)度模型對(duì)待確定關(guān)聯(lián)性的多 組用戶標(biāo)識(shí)生成的預(yù)確定關(guān)聯(lián)關(guān)系對(duì)關(guān)聯(lián)度模型進(jìn)行更新,并通過(guò)更新得到的預(yù)測(cè)模型對(duì) 待確定關(guān)聯(lián)性的多組用戶標(biāo)識(shí)的關(guān)聯(lián)性進(jìn)行確定,從而充分考慮待確定關(guān)聯(lián)性的多組用戶 標(biāo)識(shí)對(duì)預(yù)先訓(xùn)練的關(guān)聯(lián)度模型的影響,提高了確定用戶標(biāo)識(shí)的關(guān)聯(lián)性的準(zhǔn)確性。
【附圖說(shuō)明】
[0028] 通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例的詳細(xì)描述,本申請(qǐng)的其它特 征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0029]圖1示出了可以應(yīng)用本申請(qǐng)實(shí)施例的示例性系統(tǒng)架構(gòu);
[0030] 圖2是根據(jù)本申請(qǐng)的確定用戶