商戶(hù)的商圈信息的標(biāo)定的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,涉及基于消費(fèi)交易數(shù)據(jù)的處理來(lái)標(biāo)定商戶(hù)的商 圈信息,尤其涉及通過(guò)對(duì)消費(fèi)交易數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘計(jì)算得到商戶(hù)關(guān)聯(lián)關(guān)系信息、并 基于該關(guān)聯(lián)關(guān)系信息來(lái)標(biāo)定商戶(hù)的商圈信息。
【背景技術(shù)】
[0002] 城市中通常按照商業(yè)區(qū)域范圍來(lái)劃分商圈,存在各種級(jí)別的商圈,例如核心商 圈、次級(jí)商圈和邊緣商圈等。商戶(hù)的位置信息通常通過(guò)商圈信息的形式來(lái)表述,例如,通常 會(huì)將某個(gè)商戶(hù)歸屬于某一商圈,從而標(biāo)定該商戶(hù)的商圈信息。
[0003] 商戶(hù)的商圈信息是開(kāi)展針對(duì)商戶(hù)的分析以及提供針對(duì)商戶(hù)的服務(wù)的重要依據(jù),并 且在現(xiàn)在商業(yè)社會(huì)中越來(lái)越重要。然而,實(shí)際上的大部分涉及商戶(hù)的數(shù)據(jù)集合中,很多商戶(hù) 的商圈信息都是不全面的,甚至是錯(cuò)誤的,那么標(biāo)定這部分缺失的商圈信息就成了一項(xiàng)必 要工作。
[0004] 當(dāng)前,眾多商戶(hù)數(shù)據(jù)的持有者們?cè)诮⑸虘?hù)信息方面大多采用人工錄入的方式來(lái) 實(shí)現(xiàn)。這種通過(guò)人工錄入商戶(hù)的商圈信息,其最直接的缺點(diǎn)就是工作量龐雜巨大,需要耗費(fèi) 大量的人力成本和時(shí)間成本;第二個(gè)缺點(diǎn)就是商圈信息的錄入標(biāo)準(zhǔn)不可控,不同的人可能 采用不同的標(biāo)準(zhǔn)來(lái)錄入商圈信息,這給后續(xù)過(guò)程中對(duì)數(shù)據(jù)的清洗和分析帶來(lái)了困難;第三 個(gè)缺點(diǎn)是商戶(hù)位置信息的錄入質(zhì)量不可控,在人工錄入的背景下,很多商戶(hù)都會(huì)出現(xiàn)提供 錯(cuò)誤商圈信息的現(xiàn)象,并且還會(huì)出現(xiàn)由于錄入者的失誤或者主觀(guān)錯(cuò)誤導(dǎo)致的商戶(hù)的商圈信 息錯(cuò)誤或遺漏。
[0005] 有鑒于此,亟需提出一種方案來(lái)自動(dòng)化、高效、準(zhǔn)確地標(biāo)定商戶(hù)的商圈信息,或者 標(biāo)定所遺漏的商戶(hù)的商圈信息、或修正商戶(hù)的錯(cuò)誤的商圈信息。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的之一在于,實(shí)現(xiàn)對(duì)商戶(hù)的商圈信息的自動(dòng)化標(biāo)定。
[0007] 本發(fā)明的又一目的在于,提高對(duì)商戶(hù)的商圈信息的標(biāo)定的準(zhǔn)確性。
[0008] 本發(fā)明的又一目的在于,提高對(duì)商戶(hù)的商圈信息的標(biāo)定效率。
[0009] 為實(shí)現(xiàn)以上目的或者其他目的,本發(fā)明提供以下技術(shù)方案。
[0010] 按照本發(fā)明的一方面,提供一種標(biāo)定商戶(hù)的商圈信息的方法,其包括步驟: 對(duì)消費(fèi)用戶(hù)的消費(fèi)交易數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則的挖掘計(jì)算處理,以獲取商戶(hù)之間的關(guān)聯(lián)關(guān) 系信息; 基于所述關(guān)聯(lián)關(guān)系信息以及所述商戶(hù)中的至少部分商戶(hù)的已標(biāo)定的商圈信息,計(jì)算所 述商戶(hù)中商圈信息未標(biāo)定的商戶(hù)相對(duì)若干商圈的從屬率;以及 基于每個(gè)所述商戶(hù)的從屬率標(biāo)定其商圈信息。
[0011] 根據(jù)本發(fā)明一實(shí)施例的標(biāo)定商戶(hù)的商圈信息的方法,其中,所述獲取關(guān)聯(lián)關(guān)系信 息的步驟包括: 將對(duì)應(yīng)屬于同一消費(fèi)用戶(hù)的消費(fèi)交易數(shù)據(jù)進(jìn)行歸并,將歸并的消費(fèi)交易數(shù)據(jù)中涉及的 所有商戶(hù)列出以形成對(duì)應(yīng)該消費(fèi)用戶(hù)的商戶(hù)組數(shù)據(jù); 以每個(gè)所述商戶(hù)組數(shù)據(jù)為項(xiàng)集、對(duì)所有項(xiàng)集進(jìn)行所述關(guān)聯(lián)規(guī)則的挖掘計(jì)算處理,獲取 所述商戶(hù)之間的1-頻繁項(xiàng)集、2-頻繁項(xiàng)集以及每個(gè)所述1-頻繁項(xiàng)集和2-頻繁項(xiàng)集分別所 出現(xiàn)的頻次(/);以及 至少基于所述2-頻繁項(xiàng)集構(gòu)建其中涉及到的商戶(hù)的關(guān)聯(lián)關(guān)系網(wǎng),并存儲(chǔ)以邊集數(shù)組 表示的所述關(guān)聯(lián)關(guān)系網(wǎng)中的"邊"對(duì)應(yīng)的第一商戶(hù)(A)和第二商戶(hù)(B)之間的關(guān)聯(lián)關(guān)系信 肩、。
[0012] 優(yōu)選地,所述第一商戶(hù)(A)和第二商戶(hù)(B)之間對(duì)應(yīng)的所述邊集數(shù)組為: 〈第一商戶(hù)(A),第二商戶(hù)(B),關(guān)聯(lián)強(qiáng)度r#>和/或〈第二商戶(hù)(B),第一商戶(hù)(A),關(guān) 聯(lián)強(qiáng)度 其中,關(guān)聯(lián)強(qiáng)度r#通過(guò)以下關(guān)系式(1)計(jì)算:
其中,為所述第一商戶(hù)A和第二商戶(hù)B對(duì)應(yīng)的2-頻繁項(xiàng)集出現(xiàn)的頻次,/^和&分 別為第一商戶(hù)A和第二商戶(hù)B對(duì)應(yīng)的1-頻繁項(xiàng)集出現(xiàn)的頻次,Λ為所有的商戶(hù)組數(shù)據(jù)的總 數(shù)。
[0013] 可選地,所述關(guān)聯(lián)規(guī)則的挖掘計(jì)算是基于Apriori或FP-Growth算法進(jìn)行的。
[0014] 根據(jù)本發(fā)明又一實(shí)施例的標(biāo)定商戶(hù)的商圈信息的方法,其中,計(jì)算所述從屬率的 步驟中使用獨(dú)立瀑布模型來(lái)計(jì)算。
[0015] 在之前所述任一實(shí)施例的方法中,計(jì)算所述從屬率的步驟包括步驟: 假設(shè)所述第一商戶(hù)(A)為已標(biāo)定商圈信息的商戶(hù)并且所述第一商戶(hù)相對(duì)其所標(biāo)定的商 圈的從屬率為4,計(jì)算所述第二商戶(hù)(B)相對(duì)該商圈的從屬率隊(duì),其中B1通過(guò)以下關(guān)系式 (2)計(jì)算:
其中,為該商圈從屬傳播概率;為是所述第一商戶(hù)相對(duì)其所標(biāo)定的商圈的從屬率;(? 是所述第一商戶(hù)(A)和所述第二商戶(hù)(B)之間的關(guān)聯(lián)強(qiáng)度。
[0016] 在之前所述任一實(shí)施例的方法中,所述商戶(hù)中的至少部分商戶(hù)的已標(biāo)定的商圈信 息的商戶(hù)被定義為所述關(guān)聯(lián)關(guān)系網(wǎng)中的種子節(jié)點(diǎn)。
[0017] 優(yōu)選地,選取每個(gè)商圈中的核心知名商戶(hù)作為該商圈的所述種子節(jié)點(diǎn)。
[0018] 根據(jù)本發(fā)明再一實(shí)施例的標(biāo)定商戶(hù)的商圈信息的方法,其中,基于每個(gè)所述商戶(hù) 的從屬率標(biāo)定其商圈信息的步驟包括: 對(duì)應(yīng)每個(gè)商圈信息未標(biāo)定的商戶(hù)的多個(gè)所述從屬率,取其中最大的從屬率; 判斷所述最大的從屬率是否大于或等于預(yù)定閾值; 在所述最大的從屬率大于或等于預(yù)定閾值時(shí),所述最大的從屬率對(duì)應(yīng)的商圈被標(biāo)定為 該商戶(hù)的商圈信息; 在所述最大的從屬率小于預(yù)定閾值時(shí),則認(rèn)為該商戶(hù)無(wú)明顯的商圈從屬性,放棄對(duì)該 商戶(hù)的商圈信息的標(biāo)定。
[0019] 按照本發(fā)明的又一方面,提供一種標(biāo)定商戶(hù)的商圈信息的裝置,其包括: 第一部件,其用于對(duì)消費(fèi)用戶(hù)的消費(fèi)交易數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則的挖掘計(jì)算處理以獲取商 戶(hù)之間的關(guān)聯(lián)關(guān)系信息; 第二部件,其用于基于所述關(guān)聯(lián)關(guān)系信息以及所述商戶(hù)中的至少部分商戶(hù)的已標(biāo)定的 商圈信息,計(jì)算所述商戶(hù)中商圈信息未標(biāo)定的商戶(hù)相對(duì)若干商圈的從屬率;以及 第三部件,其用于基于每個(gè)所述商戶(hù)的從屬率標(biāo)定其商圈信息。
[0020] 根據(jù)本發(fā)明又一實(shí)施例的標(biāo)定商戶(hù)的商圈信息的裝置,其中,所述第一部件包 括: 第一子部件,其用于將對(duì)應(yīng)屬于同一消費(fèi)用戶(hù)的消費(fèi)交易數(shù)據(jù)進(jìn)行歸并,將歸并的消 費(fèi)交易數(shù)據(jù)中涉及的所有商戶(hù)列出以形成對(duì)應(yīng)該消費(fèi)用戶(hù)的商戶(hù)組數(shù)據(jù); 第二子部件,其用于以每個(gè)所述商戶(hù)組數(shù)據(jù)為項(xiàng)集、對(duì)所有項(xiàng)集進(jìn)行所述關(guān)聯(lián)規(guī)則的 挖掘計(jì)算處理,獲取所述商戶(hù)之間的1-頻繁項(xiàng)集、2-頻繁項(xiàng)集以及每個(gè)所述1-頻繁項(xiàng)集和 2-頻繁項(xiàng)集分別所出現(xiàn)的頻次(/);以及 第三子部件,其用于至少基于所述2-頻繁項(xiàng)集構(gòu)建其中涉及到的商戶(hù)的關(guān)聯(lián)關(guān)系網(wǎng), 并存儲(chǔ)以邊集數(shù)組表示的所述關(guān)聯(lián)關(guān)系網(wǎng)中的"邊"對(duì)應(yīng)的第一商戶(hù)(A)和第二商戶(hù)(B)之 間的關(guān)聯(lián)關(guān)系信息。
[0021] 優(yōu)選地,在所述第三子部件中,所述第一商戶(hù)(A)和第二商戶(hù)(B)之間對(duì)應(yīng)的所述 邊集數(shù)組為: 〈第一商戶(hù)(A),第二商戶(hù)(B),關(guān)聯(lián)強(qiáng)度r#>和/或〈第二商戶(hù)(B),第一商戶(hù)(A),關(guān) 聯(lián)強(qiáng)度 其中,關(guān)聯(lián)強(qiáng)度r#通過(guò)以下關(guān)系式(1)計(jì)算:
其中,為所述第一商戶(hù)A和第二商戶(hù)B對(duì)應(yīng)的2-頻繁項(xiàng)集出現(xiàn)的頻次,力和&分別 為第一商戶(hù)A和第二商戶(hù)B對(duì)應(yīng)的1-頻繁項(xiàng)集出現(xiàn)的頻次,Λ為所有的商戶(hù)組