本申請是分案申請,原案的申請?zhí)柺?01280022936.3,申請日是2012年4月12日,發(fā)明名稱是“確定網(wǎng)絡位置的唯一訪問者”。
相關申請的交叉引用
本申請要求2011年4月12日提交的美國臨時申請第61/474,552號的權益。上述申請的全部內容通過引用包含于此。
本公開主要涉及信息管理,尤其涉及用于確定網(wǎng)絡位置(例如網(wǎng)頁或者網(wǎng)頁集)的唯一訪問者的數(shù)量的系統(tǒng)和方法。
背景技術:
本部分提供不必定是現(xiàn)有技術的與本公開相關的背景信息。
可以以許多方式利用網(wǎng)絡位置的唯一訪問者的數(shù)量以及與這些用戶相關的信息(人口統(tǒng)計信息等)。諸如網(wǎng)頁、流媒體源、聯(lián)網(wǎng)應用或者移動或嵌入式設備等網(wǎng)絡位置可以尋求間接估計其唯一訪問者的數(shù)量,同時保護各個用戶信息的隱私。
技術實現(xiàn)要素:
本部分提供對本公開的一般總結,而不是對其完整范圍或者其所有特征的全面公開。
在本公開的各個實施例中,公開了一種計算機實現(xiàn)的方法。該方法包括:在估計服務器處獲得地理區(qū)域內的網(wǎng)絡用戶的估計數(shù)量、所述地理區(qū)域內的唯一用戶標識符的估計數(shù)量和在所述網(wǎng)絡中的網(wǎng)絡位置處觀測到的來自所述地理區(qū)域的唯一用戶標識符的數(shù)量。該方法還包括:所述估計服務器處至少基于所述地理區(qū)域內的用戶的估計數(shù)量、所述地理區(qū)域內的唯一用戶標識符的估計數(shù)量以及在所述網(wǎng)絡位置處觀測到的來自所述地理區(qū)域的唯一用戶標識符的數(shù)量,利用非線性近似,確定來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量。該方法還包括:將來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量存儲在所述估計服務器處的存儲器上。
在本公開的各個實施例中,公開了一種系統(tǒng),該系統(tǒng)包括:估計服務器處的一個或更多個處理器,可操作以進行多個操作。所述操作包括:獲得地理區(qū)域內的網(wǎng)絡用戶的估計數(shù)量;獲得所述地理區(qū)域內的唯一用戶標識符的估計數(shù)量;以及獲得在所述網(wǎng)絡中的網(wǎng)絡位置處觀測到的來自所述地理區(qū)域的唯一用戶標識符的數(shù)量。所述操作還包括:至少基于所述地理區(qū)域內的用戶的估計數(shù)量、所述地理區(qū)域內的唯一用戶標識符的估計數(shù)量以及在所述網(wǎng)絡位置處觀測到的來自所述地理區(qū)域的唯一用戶標識符的數(shù)量,利用非線性近似,確定來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量。所述操作還包括:將來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量存儲在所述估計服務器處的存儲器上。
在本公開的各個實施例中,公開了一種計算機可讀存儲介質,該計算機可讀存儲介質在其上存儲有指令,當由估計服務器處的處理器執(zhí)行所述指令時,所述計算機可讀存儲介質使所述處理器進行操作。所述操作包括:獲得地理區(qū)域內的網(wǎng)絡用戶的估計數(shù)量;獲得所述地理區(qū)域內的唯一用戶標識符的估計數(shù)量;以及獲得在所述網(wǎng)絡中的網(wǎng)絡位置處觀測到的來自所述地理區(qū)域的唯一用戶標識符的數(shù)量。所述操作還包括:至少基于所述地理區(qū)域內的用戶的估計數(shù)量、所述地理區(qū)域內的唯一用戶標識符的估計數(shù)量以及在所述網(wǎng)絡位置處觀測到的來自所述地理區(qū)域的唯一用戶標識符的數(shù)量,利用非線性近似,確定來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量。所述操作還包括:將來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量存儲在所述估計服務器處的存儲器上。
在本公開的各個實施例中,公開了另一計算機實現(xiàn)的方法。該方法包括:在估計服務器處獲得與地理區(qū)域內的網(wǎng)絡用戶相對應的多個人口統(tǒng)計類別。該方法還包括:對于所述多個人口統(tǒng)計類別中的至少一個人口統(tǒng)計類別:(1)在所述估計服務器處獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量;(2)在所述估計服務器處獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的唯一用戶標識符的估計數(shù)量;(3)在所述估計服務器處獲得在所述網(wǎng)絡中的網(wǎng)絡位置處觀測到的在所述人口統(tǒng)計類別內并且來自所述地理區(qū)域的唯一用戶標識符的數(shù)量;(4)在所述估計服務器處至少基于在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量、在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的唯一用戶標識符的估計數(shù)量以及在所述網(wǎng)絡位置處觀測到的在所述人口統(tǒng)計類別內并且來自所述地理區(qū)域的唯一用戶標識符的數(shù)量,利用非線性近似,確定在所述人口統(tǒng)計類別內并且來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量;以及(5)將所述來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量存儲在所述估計服務器處的存儲器上。
在本公開的各個實施例中,公開了另一系統(tǒng),該系統(tǒng)包括:估計服務器處的一個或更多個處理器,所述一個或更多個處理器可操作以進行多個操作。所述操作包括:獲得與地理區(qū)域內的網(wǎng)絡用戶相對應的多個人口統(tǒng)計類別。所述操作還包括:對于所述多個人口統(tǒng)計類別中的至少一個人口統(tǒng)計類別:(1)獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量;(2)獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的唯一用戶標識符的估計數(shù)量;(3)獲得在所述網(wǎng)絡中的網(wǎng)絡位置處觀測到的在所述人口統(tǒng)計類別內并且來自所述地理區(qū)域的唯一用戶標識符的數(shù)量;(4)至少基于在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量、在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的唯一用戶標識符的估計數(shù)量以及在所述網(wǎng)絡位置處觀測到的在所述人口統(tǒng)計類別內并且來自所述地理區(qū)域的唯一用戶標識符的數(shù)量,利用非線性近似,確定在所述人口統(tǒng)計類別內并且來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量;以及(5)將所述來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量,存儲在所述估計服務器處的存儲器上。
在本公開的各個實施例中,公開了另一計算機可讀存儲介質,該計算機可讀存儲介質在其上存儲有指令,當由估計服務器處的處理器執(zhí)行所述指令時,所述計算機可讀存儲介質使所述處理器進行操作。所述操作包括:獲得與地理區(qū)域內的網(wǎng)絡用戶相對應的多個人口統(tǒng)計類別。所述操作還包括:對于所述多個人口統(tǒng)計類別中的至少一個人口統(tǒng)計類別:(1)獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量;(2)獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的唯一用戶標識符的估計數(shù)量;(3)獲得在所述網(wǎng)絡中的網(wǎng)絡位置處觀測到的在所述人口統(tǒng)計類別內并且來自所述地理區(qū)域的唯一用戶標識符的數(shù)量;(4)至少基于在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量、在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的唯一用戶標識符的估計數(shù)量以及在所述網(wǎng)絡位置處觀測到的在所述人口統(tǒng)計類別內并且來自所述地理區(qū)域的唯一用戶標識符的數(shù)量,利用非線性近似,確定在所述人口統(tǒng)計類別內并且來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量;以及(5)將所述來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量,存儲在所述估計服務器處的存儲器上。
在本公開的各個實施例中,公開了另一計算機實現(xiàn)的方法。該方法包括:在估計服務器處獲得與地理區(qū)域內的網(wǎng)絡用戶相對應的多個人口統(tǒng)計類別。該方法還包括:對于所述多個人口統(tǒng)計類別中的每個人口統(tǒng)計類別:(1)在所述估計服務器處獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量;(2)在所述估計服務器處獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的多個唯一用戶標識符;(3)在所述估計服務器處獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的每個用戶的唯一用戶標識符的數(shù)量的第一分布;(4)在所述估計服務器處創(chuàng)建在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的偽用戶的集合,其中,所述偽用戶的集合包括近似等于在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量的數(shù)量的偽用戶;(5)在所述估計服務器處對所述偽用戶的集合內的每個偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的所述唯一用戶標識符中的至少一個,以創(chuàng)建近似于所述第一分布的每個偽用戶的唯一用戶標識符的數(shù)量的第二分布,以使得對所述偽用戶的集合內的偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內所述多個唯一用戶標識符中的每一個;以及(6)將所述來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量,存儲在所述估計服務器處的存儲器上。
在本公開的各個實施例中,公開了另一系統(tǒng),該系統(tǒng)包括:估計服務器處的一個或更多個處理器,可操作以進行多個操作。所述操作包括:獲得與地理區(qū)域內的網(wǎng)絡用戶相對應的多個人口統(tǒng)計類別。所述操作還包括:對于所述多個人口統(tǒng)計類別中的每個人口統(tǒng)計類別:(1)獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量;(2)獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的多個唯一用戶標識符;(3)獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的每個用戶的唯一用戶標識符的數(shù)量的第一分布;(4)創(chuàng)建在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的偽用戶的集合,其中,所述偽用戶的集合包括近似等于在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量的數(shù)量的偽用戶;(5)對所述偽用戶的集合內的每個偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的所述唯一用戶標識符中的至少一個,以創(chuàng)建近似于所述第一分布的每個偽用戶的唯一用戶標識符的數(shù)量的第二分布,以使得對所述偽用戶的集合內的偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的所述多個唯一用戶標識符中的每一個;以及(6)將所述來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量,存儲在所述估計服務器處的存儲器上。
在本公開的各個實施例中,公開了另一計算機可讀存儲介質,該計算機可讀存儲介質在其上存儲有指令,當由估計服務器處的處理器執(zhí)行所述指令時,所述計算機可讀存儲介質使所述處理器進行操作。所述操作包括:獲得與地理區(qū)域內的網(wǎng)絡用戶相對應的多個人口統(tǒng)計類別。所述操作還包括:對于所述多個人口統(tǒng)計類別中的每個人口統(tǒng)計類別:(1)獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量;(2)所述估計服務器處獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的多個唯一用戶標識符;(3)獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的每個用戶的唯一用戶標識符的數(shù)量的第一分布;(4)創(chuàng)建在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的偽用戶的集合,其中,所述偽用戶的集合包括近似等于在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量的數(shù)量的偽用戶;(5)對所述偽用戶的集合內的每個偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的所述唯一用戶標識符中的至少一個,以創(chuàng)建近似于所述第一分布的每個偽用戶的唯一用戶標識符的數(shù)量的第二分布,以使得對所述偽用戶的集合內的偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內所述多個唯一用戶標識符中的每一個;以及(6)將所述來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量,存儲在所述估計服務器處的存儲器上。
在本公開的各個實施例中,公開了另一計算機實現(xiàn)的方法。該方法包括:在估計服務器處獲得與地理區(qū)域內的網(wǎng)絡用戶相對應的多個人口統(tǒng)計類別。該方法還包括:通過如下步驟,在所述估計服務器處生成多個偽用戶的集合,所述步驟包括:對于所述多個人口統(tǒng)計類別中的每個人口統(tǒng)計類別:(1)在所述估計服務器處獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量;(2)在所述估計服務器處獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的多個唯一用戶標識符;(3)在所述估計服務器處創(chuàng)建在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的偽用戶的集合,其中,所述偽用戶的集合包括近似等于在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量的數(shù)量的偽用戶;以及(4)在所述估計服務器處對所述偽用戶的集合內的每個偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的所述唯一用戶標識符中的至少一個,使得對所述偽用戶的集合內的偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的所述多個唯一用戶標識符中的每一個。該方法還包括:利用所述多個偽用戶的集合,確定來自所述地理區(qū)域的對所述網(wǎng)絡中的網(wǎng)絡位置的唯一訪問者的估計數(shù)量;以及將所述來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量,存儲在所述估計服務器處的存儲器上。
在本公開的各個實施例中,公開了另一系統(tǒng),該系統(tǒng)包括:估計服務器處的一個或更多個處理器,一個或更多個處理器可操作以進行多個操作。所述操作包括:獲得與地理區(qū)域內的網(wǎng)絡用戶相對應的多個人口統(tǒng)計類別。所述操作還包括:通過如下步驟,生成多個偽用戶的集合,所述步驟包括:對于所述多個人口統(tǒng)計類別中的每個人口統(tǒng)計類別:(1)獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量;(2)獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的多個唯一用戶標識符;(3)創(chuàng)建在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的偽用戶的集合,其中,所述偽用戶的集合包括近似等于在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量的數(shù)量的偽用戶;以及(4)對所述偽用戶的集合中的每個偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的所述唯一用戶標識符中的至少一個,以使得對所述偽用戶的集合內的偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的所述多個唯一用戶標識符中的每一個。所述操作還包括:利用所述多個偽用戶的集合,來確定來自所述地理區(qū)域的對所述網(wǎng)絡中的網(wǎng)絡位置的唯一訪問者的估計數(shù)量;以及將所述來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量,存儲在所述估計服務器處的存儲器上。
在本公開的各個實施例中,公開了另一計算機可讀存儲介質,該計算機可讀存儲介質在其上存儲有指令,當由估計服務器處的處理器執(zhí)行所述指令時,所述計算機可讀存儲介質使所述處理器進行操作。所述操作包括:獲得與地理區(qū)域內的網(wǎng)絡用戶相對應的多個人口統(tǒng)計類別。所述操作還包括:通過如下步驟,生成多個偽用戶的集合,所述步驟包括:對于所述多個人口統(tǒng)計類別中的每個人口統(tǒng)計類別:(1)獲得所述人口統(tǒng)計類別內的所述地理區(qū)域內的估計的用戶數(shù)量;(2)獲得所述人口統(tǒng)計類別內的所述地理區(qū)域內的多個唯一用戶標識符;(3)創(chuàng)建所述人口統(tǒng)計類別內的所述地理區(qū)域內的偽用戶的集合,其中,所述偽用戶的集合包括近似等于所述人口統(tǒng)計類別內的所述地理區(qū)域內的估計的用戶數(shù)量的數(shù)量的偽用戶;以及(4)對所述偽用戶的集合中的每個偽用戶分配所述人口統(tǒng)計類別內的所述地理區(qū)域內的所述唯一用戶標識符中的至少一個,使得對所述偽用戶的集合內的偽用戶分配所述人口統(tǒng)計類別內的所述地理區(qū)域內的所述多個唯一用戶標識符中的每一個。所述操作還包括:利用所述多個偽用戶的集合,來確定來自所述地理區(qū)域的所述網(wǎng)絡中的網(wǎng)絡位置的唯一訪問者的估計數(shù)量;以及將所述來自所述地理區(qū)域的所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量,存儲在所述估計服務器處的存儲器上。
在本公開的各個實施例中,公開了另一計算機實現(xiàn)的方法。該方法包括:在估計服務器處獲得與地理區(qū)域內的網(wǎng)絡的用戶相對應的多個人口統(tǒng)計類別。該方法還包括:通過如下步驟,在所述估計服務器處生成多個偽用戶的集合,所述步驟包括:對于所述多個人口統(tǒng)計類別中的每個人口統(tǒng)計類別:(1)在所述估計服務器處獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量;(2)在所述估計服務器處獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的多個唯一用戶標識符;(3)在所述估計服務器處創(chuàng)建在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的偽用戶的集合,其中,所述偽用戶的集合包括近似等于在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量的數(shù)量的偽用戶;以及(4)在所述估計服務器處對所述偽用戶的集合中的每個偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的所述唯一用戶標識符中的至少一個,以使得對所述偽用戶的集合內的偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的所述多個唯一用戶標識符中的每一個。該方法還包括:利用所述多個偽用戶的集合,來確定在至少一個人口統(tǒng)計類別內并且來自所述地理區(qū)域的對所述網(wǎng)絡中的網(wǎng)絡位置的唯一訪問者的估計數(shù)量;以及將所述來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量,存儲在所述估計服務器處的存儲器上。
在本公開的各個實施例中,公開了另一系統(tǒng),該系統(tǒng)包括:估計服務器處的一個或更多個處理器,一個或更多個處理器可操作以進行多個操作。所述操作包括:獲得與地理區(qū)域內的網(wǎng)絡用戶相對應的多個人口統(tǒng)計類別。所述操作還包括:通過如下步驟,生成多個偽用戶的集合,所述步驟包括:對于所述多個人口統(tǒng)計類別中的每個人口統(tǒng)計類別:(1)獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量;(2)獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的多個唯一用戶標識符;(3)創(chuàng)建所述人口統(tǒng)計類別內的所述地理區(qū)域內的偽用戶的集合,其中,所述偽用戶的集合包括近似等于在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量的數(shù)量的偽用戶;以及(4)對所述偽用戶的集合中的每個偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的所述唯一用戶標識符中的至少一個,以使得對所述偽用戶的集合內的偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的所述多個唯一用戶標識符中的每一個。所述操作還包括:利用所述多個偽用戶的集合,來確定在至少一個人口統(tǒng)計類別內并且來自所述地理區(qū)域的所述網(wǎng)絡中的網(wǎng)絡位置的唯一訪問者的估計數(shù)量;以及將所述來自所述地理區(qū)域的所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量,存儲在所述估計服務器處的存儲器上。
在本公開的各個實施例中,公開了另一計算機可讀存儲介質,該計算機可讀存儲介質在其上存儲有指令,當由估計服務器處的處理器執(zhí)行所述指令時,所述計算機可讀存儲介質使所述處理器進行操作。所述操作包括:獲得與地理區(qū)域內的網(wǎng)絡用戶相對應的多個人口統(tǒng)計類別。所述操作還包括:通過如下步驟,生成多個偽用戶的集合,所述步驟包括:對于所述多個人口統(tǒng)計類別中的每個人口統(tǒng)計類別:(1)獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量;(2)獲得在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的多個唯一用戶標識符;(3)創(chuàng)建在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的偽用戶的集合,其中,所述偽用戶的集合包括近似等于在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的用戶的估計數(shù)量的數(shù)量的偽用戶;以及(4)對所述偽用戶的集合中的每個偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的所述唯一用戶標識符中的至少一個,以使得對所述偽用戶的集合內的偽用戶分配在所述人口統(tǒng)計類別內并且在所述地理區(qū)域內的所述多個唯一用戶標識符中的每一個。所述操作還包括:利用所述多個偽用戶的集合,來確定在至少一個人口統(tǒng)計類別內并且來自所述地理區(qū)域的對所述網(wǎng)絡中的網(wǎng)絡位置的唯一訪問者的估計數(shù)量;以及將所述來自所述地理區(qū)域的對所述網(wǎng)絡位置的唯一訪問者的估計數(shù)量,存儲在所述估計服務器處的存儲器上。
根據(jù)這里提供的描述,其它適用的領域將變得明顯。本發(fā)明內容中的描述和具體示例僅旨在用于進行說明,而不旨在限制本公開的范圍。
附圖說明
這里描述的附圖僅用于對選擇的實施例、而不是所有可能實現(xiàn)方式的說明目的,并且不旨在限制本公開的范圍。
圖1是用于確定網(wǎng)絡中的網(wǎng)絡位置的唯一訪問者的數(shù)量的示例系統(tǒng)的框圖;
圖2是網(wǎng)絡的示例用戶的框圖;
圖3是示例地理區(qū)域和相關聯(lián)的統(tǒng)計因素的框圖;
圖4是確定來自地理區(qū)域的對于網(wǎng)絡位置的唯一訪問者的估計數(shù)量的示例方法的流程圖;
圖5是示出根據(jù)網(wǎng)絡的多個用戶創(chuàng)建偽用戶的集合的偽用戶模塊的框圖;
圖6是示出與特定數(shù)量的唯一用戶標識符相關聯(lián)的用戶的數(shù)量的分布的框圖;
圖7是示出與特定數(shù)量的唯一用戶標識符相關聯(lián)的偽用戶的數(shù)量的分布的框圖;
圖8是根據(jù)地理區(qū)域針對多個人口統(tǒng)計類別中的每一個生成一組偽用戶的示例方法的流程圖;
圖9是根據(jù)地理區(qū)域針對多個人口統(tǒng)計類別中的每一個生成一組偽用戶的示例方法的流程圖;以及
圖10是用于確定網(wǎng)絡中的網(wǎng)絡位置的唯一訪問者的數(shù)量的示例裝置的框圖。
在貫穿附圖的若干個視圖,相應的附圖標記指示相應的部分。
具體實施方式
現(xiàn)在,參考附圖,更充分地描述示例實施例。
提供示例實施例,使得本公開是徹底的,并且向本領域技術人員充分傳達范圍。敘述了大量具體細節(jié),例如具體部件、設備和方法的示例,以提供對本公開的實施例的透徹理解。對于本領域技術人員很明顯的是,不一定利用具體細節(jié),可以以許多不同的形式來實施示例實施例,并且都不應當被解釋為限制本公開的范圍。在一些示例實施例中,不詳細描述公知的處理、公知的設備結構和公知的技術。
這里使用的技術僅用于描述特定示例實施例的目的,而不旨在進行限制。除非上下文另外清楚地指出,否則如這里所使用的,單數(shù)形式“一”、“一個”和“該”可能旨在同樣包括復數(shù)形式。術語“和/或”包括列出的相關聯(lián)的項目中的一個或更多個的任意和全部組合。術語“包括”、“包含”、“含有”和“具有”是包含性的,因此指明陳述的特征、整體、步驟、操作、元素和/或部件的存在,但是不排除一個或更多個其它特征、整體、步驟、操作、元素、部件和/或其組的存在或者附加。除非作為執(zhí)行順序明確指出,否則這里描述的方法步驟、處理和操作不應當被解釋為一定需要其按照討論或示出的特定順序執(zhí)行。還應當理解,可以利用附加或者替代步驟。
雖然這里可能使用術語第一、第二、第三等,來描述各種元素、部件、區(qū)域、層和/或部分,但是這些元素、部件、區(qū)域、層和/或部分應當不受這些術語限制。這些術語可能僅用來區(qū)分一個元素、部件、區(qū)域、層或部分與另一區(qū)域、層或部分。除非上下文清楚地指出,否則諸如“第一”、“第二”的術語和其它數(shù)字術語在這里使用時,不暗示序列或者順序。因此,下面討論的第一元素、部件、區(qū)域、層或部分可以被稱為第二元素、部件、區(qū)域、層或部分,而不脫離示例實施例的宗義。
如這里所使用的,術語模塊可能是指專用集成電路(asic);電子電路;組合邏輯電路;場可編程門陣列(fpga);執(zhí)行存儲在聯(lián)網(wǎng)集群或者數(shù)據(jù)中心中的由分布式處理器網(wǎng)絡執(zhí)行的代碼或者處理的處理器(共享、專用或者組);提供所描述的功能的其它合適的部件;或者諸如在片上系統(tǒng)中的上述內容的一部分或全部的組合,術語模塊可能是上述內容的一部分,或者包括上述內容。術語模塊可以包括存儲由一個或更多個處理器執(zhí)行的代碼的存儲器(共享、專用或者組)。
如上面所使用的,術語代碼可以包括軟件、固件、字節(jié)代碼和/或微碼,并且可以是指程序、例程、函數(shù)、類和/或對象。如上面所使用的,術語共享意為使用單個(共享)處理器執(zhí)行來自多個模塊的一部分或所有代碼。另外,可以由單個(共享)存儲器存儲來自多個模塊的一部分或所有代碼。如上面所使用的,術語組意為使用一組處理器來執(zhí)行來自單個模塊的一部分或所有代碼。另外,可以使用一組存儲器來存儲來自單個模塊的一部分或所有代碼。
可以通過由一個或更多個處理器執(zhí)行的一個或更多個計算機程序來實現(xiàn)這里描述的裝置和方法。計算機程序包括存儲在諸如非易失性有形計算機可讀介質的計算機可讀存儲介質上的處理器可執(zhí)行指令。計算機程序還可以包括存儲的數(shù)據(jù)。計算機可讀存儲介質的非限制性示例是非易失性存儲器、磁存儲器和光存儲器。
現(xiàn)在參考圖1,示出了用于確定網(wǎng)絡位置的唯一訪問者的數(shù)量的示例系統(tǒng)100。系統(tǒng)100連接到例如局部網(wǎng)絡、諸如因特網(wǎng)的廣域網(wǎng)或者它們的組合等網(wǎng)絡102。多個單獨用戶104-1、104-2、...、104-m(統(tǒng)稱為用戶104)經(jīng)由網(wǎng)絡102連接到多個單獨網(wǎng)絡位置106-1、106-2、...、106-n(統(tǒng)稱為網(wǎng)絡位置106)。用戶104通過網(wǎng)絡102從網(wǎng)絡位置106存取內容或者“訪問”網(wǎng)絡位置106。網(wǎng)絡位置106的示例包括、但不限于網(wǎng)頁、網(wǎng)頁集、聯(lián)網(wǎng)應用、流媒體源、聯(lián)網(wǎng)設備(移動設備、嵌入式設備等)和其它網(wǎng)絡資源。如這里所使用的,術語“用戶”104不僅可以指單獨的用戶,還指諸如一組個人(例如作為單獨的單元進行行為或者另外動作的個人)等其它實體。
在用戶104訪問一個或更多個網(wǎng)絡位置106時,用戶104可以獲取部分或全部存儲在用戶104的位置(例如在用戶104的計算設備(個人計算機、膝上型電腦、智能電話等)的存儲器中)的諸如cookie(瀏覽器、閃速(flash)本地存儲對象、html5存儲或者其它方式)、應用本地存儲、諸如基于kerberos的票證聯(lián)合識別系統(tǒng)令牌(kerberizedticketfederatedidentitysystemtoken)的身份令牌、表示用戶身份的移動秘鑰等用戶標識符110(圖2)。任選地,用戶標識符110可以包括與其所屬的特定用戶104相關的人口統(tǒng)計信息112或者其它信息,諸如例如特定設備或網(wǎng)絡地址。如這里所使用的,人口統(tǒng)計信息112包括可以對一個或更多個用戶104進行分組的任意信息(年限、收入水平、性別、關注的話題等)。用戶104中的每一個可能獲得許多用戶標識符110。在用戶104訪問特定網(wǎng)絡位置106時,網(wǎng)絡位置106可以觀測存儲在用戶104位置的用戶標識符110。特定網(wǎng)絡位置106可能僅能夠存取與網(wǎng)絡位置106本身相關聯(lián)的用戶標識符110,而不能存取與其它非關聯(lián)網(wǎng)絡位置106相關聯(lián)的用戶標識符110。用戶標識符110可能通過聯(lián)合識別系統(tǒng)或者通過用戶網(wǎng)絡,與一個或更多個網(wǎng)絡位置106直接相關。如下面所描述的,系統(tǒng)100可以利用這些用戶標識符110,來準確地估計網(wǎng)絡位置106的唯一訪問者的數(shù)量,即已經(jīng)從網(wǎng)絡位置106存取信息或者“訪問”網(wǎng)絡位置106的唯一用戶104的數(shù)量。優(yōu)選地,網(wǎng)絡位置106可以利用一種或更多種方法,來保護用戶104和用戶標識符110的保密性,該方法包括、但不限于保密性政策、用戶數(shù)據(jù)的假匿名和掩蔽、對人口統(tǒng)計數(shù)據(jù)和用戶之間的關聯(lián)的限制、用戶數(shù)據(jù)的加密和哈希、時間窗之后數(shù)據(jù)的刪除、非個人用戶數(shù)據(jù)的聚集以及對用戶數(shù)據(jù)共享的限制。
例如可以由網(wǎng)絡位置106直接測量對網(wǎng)絡位置106的訪問(或者“頁面瀏覽”)的數(shù)量。然而,在一些實例中無法直接測量網(wǎng)絡位置106的唯一訪問者的數(shù)量,以及單個用戶104可能多次和/或從多個ip地址訪問網(wǎng)絡位置106、單個用戶104可能與多個唯一用戶標識符110相關聯(lián)、多個用戶104可能從同一ip地址訪問網(wǎng)絡位置106等的事實。因此,可能必須通過利用與唯一訪問者的數(shù)量相關的并且可以直接測量的項目或者對象,來間接估計不可能/不能實行直接測量的對網(wǎng)絡位置106的唯一訪問者的數(shù)量。在一些實施方式中,可以利用在網(wǎng)絡位置106處觀測到的唯一用戶標識符110的數(shù)量,來準確地估計網(wǎng)絡位置106的唯一訪問者的數(shù)量。
現(xiàn)在參考圖3,示出了示例地理區(qū)域120和其關聯(lián)因素的表示。雖然本領域技術人員應當理解,可以利用任意地理區(qū)域120或者子區(qū)域(諸如例如地理邊界、法定邊界、人口統(tǒng)計邊界、郵政編碼或者根據(jù)用戶使用模式推算的地理邊界),但是在該示例中,表示的地理區(qū)域120是美國?;诶鐝淖栽?匿名提供的瀏覽數(shù)據(jù)、普查數(shù)據(jù)和/或其它數(shù)據(jù)源收集的數(shù)據(jù),例如通過統(tǒng)計學或者其它分析,已知或者可以確定地理區(qū)域120的網(wǎng)絡102的估計出的用戶的總數(shù)量122以及地理區(qū)域120的唯一用戶標識符的總數(shù)量124。此外,將地理區(qū)域120專用的參數(shù)α126與地理區(qū)域120相關聯(lián)。如下面所描述的,可以通過非線性近似或者通過對例如由用戶104的虛擬面板108提供的數(shù)據(jù)的分析,來確定地理區(qū)域專用參數(shù)α126。如下面將更充分地描述的,基于這些因素,可以估計來自地理區(qū)域120的對網(wǎng)絡位置106的唯一訪問者的數(shù)量。
在本公開的一些實施例中,利用非線性近似來估計網(wǎng)絡位置106的唯一訪問者的數(shù)量,即從地理區(qū)域120訪問網(wǎng)絡位置106的唯一用戶104的數(shù)量。除了在網(wǎng)絡位置106處觀測到的唯一用戶標識符110的數(shù)量,非線性近似還利用其它因素的數(shù)量,例如地理區(qū)域120內的總用戶數(shù)量122以及地理區(qū)域120內的唯一用戶標識符的總數(shù)量124。已經(jīng)確定可以以1參數(shù)近似(1-parameterapproximation)來利用這些因素,以提供對來自地理區(qū)域120的、對網(wǎng)絡位置106的唯一訪問者的準確估計。由α表示的參數(shù)專用于所關注的地理區(qū)域120,并且如下面所描述的,可以以多種方式得出該參數(shù)。
在一些實施例中,非線性近似利用下面的方程:
其中,“#people”是來自地理區(qū)域120的、網(wǎng)絡位置106的唯一訪問者的估計數(shù)量;“#cookies”是在網(wǎng)絡位置106處觀測到的來自地理區(qū)域120的唯一用戶標識符110(要認識到用戶標識符110可以不是cookie)的數(shù)量;“c”是對地理區(qū)域120內的唯一用戶標識符估計出的總數(shù)量124;“p”是對地理區(qū)域120內的網(wǎng)絡102的用戶估計出的總數(shù)量122;以及“α”是地理區(qū)域120專用的近似的參數(shù)126。
在一些實施例中,系統(tǒng)100利用從地理區(qū)域120內的用戶104的“虛擬面板”108(圖1)收集的信息,來確定地理區(qū)域120內的參數(shù)α126的值。虛擬面板108可以通過直接通信鏈接109、通過網(wǎng)絡102或者兩者與系統(tǒng)100通信。虛擬面板108包括使用提供頁面鏈接分析瀏覽器請求數(shù)據(jù)的一個或更多個應用程序的用戶104,頁面鏈接分析瀏覽器請求數(shù)據(jù)可以用來在保留個人用戶的隱私和其瀏覽歷史的同時,針對用戶的網(wǎng)絡瀏覽歷史數(shù)據(jù)推斷人口。頁面鏈接分析瀏覽器請求數(shù)據(jù)可以包括用戶104的網(wǎng)頁瀏覽歷史(諸如被訪問的網(wǎng)頁的特性)以及與用戶104和由用戶104訪問的網(wǎng)絡位置106相關聯(lián)的其它數(shù)據(jù)。示例虛擬面板108可以提供諸如特定網(wǎng)絡位置的唯一訪問者的數(shù)量等信息。虛擬面板108的示例包括、但不限于瀏覽數(shù)據(jù)或者網(wǎng)絡使用數(shù)據(jù),諸如,例如基于選擇性加入(opt-in)自愿提供、匿名提供或以其它方式提供的使用數(shù)據(jù),等等。然而,注意,瀏覽數(shù)據(jù)不一定等同于網(wǎng)絡位置的唯一訪問者。然而,應當理解,還可以使用收集數(shù)據(jù)的其它方法。虛擬面板108可以包括大量(例如幾千或者幾百萬)的用戶104,這使得系統(tǒng)100能夠確定參數(shù)α126的合適的值。用戶104還可以具有通過個人識別信息或自愿提供的其它個人信息的應用程序模糊化、通過對網(wǎng)絡瀏覽器日志引入噪聲或者通過其它隱私保護機制而保留的隱私。
在各種可選實施例中,例如,對于不能獲得來自用戶104的虛擬面板108的足夠的準確信息的地理區(qū)域120,系統(tǒng)100可以推導出參數(shù)α126的合適的值。例如,可以利用非線性近似來確定參數(shù)α126的值。非線性近似基于估計出的地理區(qū)域120內的用戶的總數(shù)量122、估計出的地理區(qū)域120內的唯一用戶標識符的總數(shù)量124和獨立于所關注的地理區(qū)域120的參數(shù)β。在一些實施例中,用來確定參數(shù)α126的非線性近似利用下面的方程:
其中,“c”是估計出的、地理區(qū)域120內的唯一用戶標識符的總數(shù)量124;“p”是估計出的地理區(qū)域120內的網(wǎng)絡102的用戶的總數(shù)量122;以及“β”是獨立于地理區(qū)域120的模型的參數(shù),該參數(shù)例如可以根據(jù)從虛擬面板108接收到的數(shù)據(jù)來確定。雖然可以從虛擬面板108或者其它形式的數(shù)據(jù)收集來確定參數(shù)β的其它值,但是已經(jīng)確定β=0.75至0.9提供對參數(shù)α126的適當近似。
在一些情形下,可能無法獲得關于特定地理區(qū)域120內的唯一用戶標識符的總數(shù)量124的足夠并且準確的信息。在這種地理區(qū)域120中,非線性近似可以利用下面的方程:
其中,“#people”是估計出的來自地理區(qū)域120的對于網(wǎng)絡位置106的唯一訪問者的數(shù)量;“#cookies”是在網(wǎng)絡位置106處觀測到的來自地理區(qū)域120的唯一用戶標識符110(要認識到用戶標識符110可以不是cookie)的數(shù)量;“p”是估計出的地理區(qū)域120內的網(wǎng)絡102的用戶的總數(shù)量122;以及“k”是獨立于地理區(qū)域120并且表示每個對于適當大小的網(wǎng)絡位置106的唯一訪問者的唯一用戶標識符的數(shù)量124的逆(inverse)的模型的參數(shù)。參數(shù)“k”可以從虛擬面板(諸如虛擬面板108)或者其它形式的數(shù)據(jù)收集來確定。已經(jīng)確定大小相對小的網(wǎng)絡位置106類似地表現(xiàn),并且提供“k”參數(shù)的相對準確的值,該值一般近似等于1?;谠摲匠?3),可以僅基于在網(wǎng)絡位置106處觀測到的來自地理區(qū)域120的唯一用戶標識符110的數(shù)量以及估計出的地理區(qū)域120內的網(wǎng)絡102的用戶的總數(shù)量122,來確定來自地理區(qū)域120的對網(wǎng)絡位置106的唯一訪問者的估計數(shù)量。
在一些實施例中,代替唯一訪問者的總數(shù)量,提供關于網(wǎng)絡位置106的唯一訪問者的附加信息(例如人口統(tǒng)計信息112)、和/或提供來自人口統(tǒng)計類別(或多個類別)的唯一訪問者的數(shù)量是有用的。在各個實施例中,系統(tǒng)100對多個人口統(tǒng)計類別中的每一個應用上述非線性近似,以估計來自該人口統(tǒng)計類別的對網(wǎng)絡位置106的唯一訪問者的數(shù)量。在一些實施例中,非線性近似利用下面的方程:
其中,“#people(x)”是人口統(tǒng)計類別x內的來自地理區(qū)域120的對網(wǎng)絡位置106的唯一訪問者的總估計數(shù)量;“#cookies(x)”是在網(wǎng)絡位置106處觀測到的人口統(tǒng)計類別x內的來自地理區(qū)域120的唯一用戶標識符110的數(shù)量(再一次認識到#cookies(x)可以是cookie之外的用戶標識符);“c(x)”是人口統(tǒng)計類別x內并且地理區(qū)域120內的唯一用戶標識符110的估計的總數(shù)量;“p(x)”是人口統(tǒng)計類別x內并且地理區(qū)域120內的用戶104的估計的總數(shù)量;以及“α”是地理區(qū)域120專用的近似的參數(shù)126。如上所述,參數(shù)α是根據(jù)例如由虛擬面板108收集的代表數(shù)據(jù)確定的,或者基于地理區(qū)域120內的用戶的所估計的總數(shù)量122、地理區(qū)域120內的唯一用戶標識符的所估計的總數(shù)量124和獨立于所關注的地理區(qū)域120的參數(shù)β通過非線性近似估計的依賴于地理區(qū)域的值
如上所述,可能無法獲得關于特定地理區(qū)域120內的唯一用戶標識符的總數(shù)量124的足夠并且準確的信息。此外,可能無法獲得關于特定人口統(tǒng)計類別內的并且特定地理區(qū)域120內的唯一用戶標識符的總數(shù)量124的足夠并且準確的信息。在這些情形下,可以對上面表示為方程(3)的非線性近似進行變形,從而產生下面的方程:
其中,“#people(x)”是人口統(tǒng)計類別x內的來自地理區(qū)域120的對網(wǎng)絡位置106的唯一訪問者的總估計數(shù)量;“#cookies(x)”是在網(wǎng)絡位置106處觀測到的人口統(tǒng)計類別x內的來自地理區(qū)域120的唯一用戶標識符110的數(shù)量(再一次認識到#cookies(x)可以是cookie之外的用戶標識符);“p(x)”是人口統(tǒng)計類別x內的并且地理區(qū)域120內的用戶104的估計的總數(shù)量;以及“k”是獨立于地理區(qū)域120并且表示每個適當大小的網(wǎng)絡位置106的唯一訪問者的唯一用戶標識符數(shù)量124的逆的模型的參數(shù)(上面進行了更充分地描述)。
僅作為示例,讓我們假設對于每一個唯一用戶標識符110,可以確定相關聯(lián)的用戶104的基本人口統(tǒng)計信息。然后,系統(tǒng)100可以針對訪問者識別6個獨立的人口統(tǒng)計類別:(1)25歲以下男性,(2)25至45歲男性,(3)45歲以上男性,(4)25歲以下女性,(5)25至45歲女性,以及(6)45歲以上女性。為了提供對來自這些人口統(tǒng)計類別的地理區(qū)域120內的每一個的唯一訪問者的數(shù)量的估計,系統(tǒng)100可以對人口統(tǒng)計類別中的每一個應用非線性近似(諸如上述非線性近似)。如果例如希望知道為男性的唯一訪問者的數(shù)量,則系統(tǒng)100僅僅對人口統(tǒng)計類別1、2和3的估計值求和,以確定該信息。附加地,網(wǎng)絡位置106的唯一訪問者的總數(shù)量是來自所有人口統(tǒng)計類別的估計值的總和。
雖然通過在每個人口統(tǒng)計類別內進行非線性近似,來估計每個人口統(tǒng)計類別內的訪問者的數(shù)量,提供了對訪問者的數(shù)量的準確估計,但是隨著人口統(tǒng)計類別的數(shù)量和/或每個人口統(tǒng)計類別內的梯度等級的增加,人口統(tǒng)計類別的數(shù)量以及獨立估計的數(shù)量增加。繼續(xù)使用上面具有6個人口統(tǒng)計類別的示例,可以看到添加具有4個等級(年收入(1)$25k以下,(2)$25k至$49,999.99,(3)$50k至$74,999.99,以及(4)$75k+)的“收入水平”人口統(tǒng)計類別,將產生24個獨立的人口統(tǒng)計類別,人口統(tǒng)計類別增加四倍。為了提供關于對網(wǎng)絡位置106的訪問者的人口統(tǒng)計信息的充足的數(shù)據(jù),可以想到提供幾千個獨立的人口統(tǒng)計類別。響應于對于提供網(wǎng)絡位置106的唯一訪問者的數(shù)量的估計的請求,需要在每個人口統(tǒng)計類別內進行上述非線性近似,然后求和。例如,由于與計算的執(zhí)行相關聯(lián)的延遲和所需要的物理資源的增加(盤空間、ram等),在接收到請求時,執(zhí)行通過該請求要求的許多獨立非線性近似可能是不希望或者不實際的。
現(xiàn)在參考圖4,示出了確定來自某地理區(qū)域的對網(wǎng)絡位置106的唯一訪問者的估計數(shù)量的示例方法200的流程圖。在步驟210,例如在估計服務器550處獲得估計出的、地理區(qū)域120內的網(wǎng)絡102的用戶的總數(shù)量122。在步驟220,在估計服務器550處獲得估計出的、地理區(qū)域120內的唯一用戶標識符的總數(shù)量124。在步驟230,由估計服務器550獲得在網(wǎng)絡位置106處觀測到的來自地理區(qū)域120的唯一用戶標識符110的數(shù)量。然后,估計服務器550至少基于估計出的來自地理區(qū)域120的用戶的總數(shù)量122、估計出的來自地理區(qū)域120的唯一用戶標識符的總數(shù)量124以及在網(wǎng)絡位置106處觀測到的來自地理區(qū)域120的唯一用戶標識符110的數(shù)量,利用非線性近似確定來自地理區(qū)域120的對網(wǎng)絡位置106的唯一訪問者的估計數(shù)量(步驟240)。
可以在多個人口統(tǒng)計類別中的一個或更多個內執(zhí)行方法200,以確定該一個或更多個人口統(tǒng)計類別內的來自地理區(qū)域120的對網(wǎng)絡位置106的唯一訪問者的估計數(shù)量。此外,可以結合在步驟240中描述的非線性近似,利用上述方程(1)至(4)中的每一個。
現(xiàn)在參考圖5-7,如下面所描述的,在各個實施例中,本公開提供對于每個人口統(tǒng)計類別內的偽用戶144的集合140的創(chuàng)建,該創(chuàng)建可以用來確定網(wǎng)絡位置106的唯一訪問者的數(shù)量。通過利用偽用戶144的集合140,可以減小與確定對提供對網(wǎng)絡位置106的唯一訪問者的數(shù)量的估計的請求的響應相關聯(lián)的延遲。
可以通過獲得地理區(qū)域120內的每個人口統(tǒng)計類別的每個用戶104的唯一用戶標識符110的數(shù)量的第一分布160(圖6),來創(chuàng)建偽用戶144的集合140。第一分布160可以例如通過虛擬面板108或者其它數(shù)據(jù)收集技術來確定。偽用戶144的集合140基于第一分布160創(chuàng)建,并且集合140包括近似等于在地理區(qū)域120內并且在人口統(tǒng)計類別內的用戶104的數(shù)量(+/-5-10%)的多個偽用戶144。
對集合140內的每個偽用戶144分配在人口統(tǒng)計類別內并且在地理區(qū)域120內的唯一用戶標識符110中的至少一個。例如可以隨機均勻地執(zhí)行對偽用戶144分配唯一用戶標識符110,這可以協(xié)助保留用戶104的隱私,同時還保持系統(tǒng)100在一個或更多個人口統(tǒng)計類別之內提供準確估計的能力。在一些實施例中,在人口統(tǒng)計類別內并且在地理區(qū)域120內的唯一用戶標識符110中的每一個將被分配給偽用戶144。
進行唯一用戶標識符110的分配,以創(chuàng)建地理區(qū)域120內的每個人口統(tǒng)計類別的每個偽用戶144多個唯一用戶標識符110的第二分布165(圖7)??梢砸越频谝环植?60的方式,來創(chuàng)建第二分布165,也就是說,對于任意正整數(shù)“d”,第二分布165具有近似等于第一分布160中的具有“d”個唯一用戶標識符110的用戶104的數(shù)量(+/-5-10%)的、分配了“d”個唯一用戶標識符110的多個偽用戶144。在一些實施例中,如下面所描述的,可以在對第一分布160進行過濾以去除異常的唯一用戶標識符110之后,以近似第一分布160的方式,來創(chuàng)建第二分布165。
在一些實施例中,對偽用戶144的唯一用戶標識符110的分配基于用于創(chuàng)建近似于第一分布160的第二分布165的非線性近似。僅作為示例,該非線性近似利用下面的方程:
其中,“p”是估計出的在人口統(tǒng)計類別內并且地理區(qū)域120內的的用戶104的總數(shù)量;“α”是地理區(qū)域120專用的參數(shù);“k”=1、...、d,其中,“d”是正整數(shù);以及“h(k)”是具有等于k的多個唯一用戶標識符110的偽用戶144的數(shù)量。如上面所詳細描述的,可以根據(jù)從用戶104的虛擬面板108接收到的數(shù)據(jù)或者通過非線性近似來確定參數(shù)α126?!癲”的值可以基于來自虛擬面板108或者其它形式的數(shù)據(jù)收集技術的數(shù)據(jù)來確定。另外,已經(jīng)確定將“d”設置為等于12,對于例如針對從虛擬面板108無法獲得數(shù)據(jù)的地理區(qū)域120提供近似于第一分布160的第二分布165是合理的。在每一種情況下,設置“d”的值,以使得當利用偽用戶144的集合140(或者多個集合)來估計網(wǎng)絡位置106的唯一訪問者的數(shù)量時,網(wǎng)絡位置106的唯一訪問者的估計數(shù)量近似等于網(wǎng)絡位置106的唯一訪問者的實際數(shù)量(+/-5-10%)。
例如,根據(jù)對從虛擬面板108或者其它形式的數(shù)據(jù)收集技術接收到的數(shù)據(jù)的分析已經(jīng)確定,具有等于或大于閾值的多個唯一用戶標識符110的用戶104,可以改變偽用戶144的集合140的創(chuàng)建,以使得當利用改變后的偽用戶144的集合140(或者多個集合)來估計網(wǎng)絡位置106的唯一訪問者的數(shù)量時,網(wǎng)絡位置106的唯一訪問者的估計數(shù)量與網(wǎng)絡位置106的唯一訪問者的實際數(shù)量不同。因為它們不同于“規(guī)范(norm)”,所以可以將這些用戶104和其相關聯(lián)的唯一用戶標識符110歸類為異常數(shù)據(jù)。為了提供對網(wǎng)絡位置106的唯一訪問者的數(shù)量的準確估計,可以在創(chuàng)建偽用戶144的集合140之前,對這些異常用戶104和/或異常唯一用戶標識符110進行過濾(或者去除)。在一些實施例中,閾值等于8個唯一用戶標識符110,然而,可以使用例如通過來自虛擬面板108或者其它形式的數(shù)據(jù)收集技術的數(shù)據(jù)確定的任意合適的閾值。
可以基于一個或更多個因素,將唯一用戶標識符110定義為異常唯一用戶標識符110。例如可以通過諸如支持向量機等機器學習技術,對從虛擬面板108或者其它數(shù)據(jù)收集技術接收到的數(shù)據(jù)進行分析,以確定可以用來識別異常唯一用戶標識符110的因素。例如,可以基于唯一用戶標識符110的年限、唯一用戶標識符110已經(jīng)訪問的網(wǎng)絡位置106的數(shù)量和/或訪問的網(wǎng)絡位置106的類別(社交、購物、新聞、愛好&休閑等),將唯一用戶標識符110歸類為異常的唯一用戶標識符110。已經(jīng)確定,相對最近的創(chuàng)建(即具有年限閾值以下的年限)的唯一用戶標識符110,更可能有資格成為異常的唯一用戶標識符110。此外,訪問了相對小數(shù)量的網(wǎng)絡位置106(即訪問了閾值數(shù)量以下的多個網(wǎng)絡位置106)的唯一用戶標識符110,更可能有資格成為異常的唯一用戶標識符110。另外,唯一用戶標識符110訪問的網(wǎng)絡位置106的類別可以對將唯一用戶標識符110定義作為異常的唯一用戶標識符110進行協(xié)助。僅作為示例,已經(jīng)確定,如果唯一用戶標識符110主要訪問“社交”網(wǎng)絡位置,則唯一用戶標識符110更可能有資格成為異常的唯一用戶標識符110。
例如,估計服務器550可以通過利用偽用戶144的集合140,來確定人口統(tǒng)計類別內的來自地理區(qū)域120的對網(wǎng)絡位置106的唯一訪問者的估計數(shù)量。這可以通過確定所關注的人口統(tǒng)計類別內的、被分配了在網(wǎng)絡位置106處觀測到的唯一用戶標識符110中的至少一個的偽用戶144的數(shù)量來實現(xiàn)。類似地,可以通過確定被分配了在網(wǎng)絡位置106處觀測到的唯一用戶標識符110中的至少一個的所關注的人口統(tǒng)計類別中的每一個內的偽用戶144的數(shù)量,然后對來自每一個類別的這些數(shù)量求和,來確定多個人口統(tǒng)計類別內的、來自地理區(qū)域120的對網(wǎng)絡位置106的唯一訪問者的估計數(shù)量。
現(xiàn)在參考圖8,示出了生成多個人口統(tǒng)計類別中的每一個的來自地理區(qū)域120的偽用戶144的集合140的示例方法300的流程圖。在步驟305,例如,在估計服務器550處獲得與地理區(qū)域120內的網(wǎng)絡102的用戶122相對應的多個“x”人口統(tǒng)計類別。在步驟310,將數(shù)值“y”設置為等于1。數(shù)值“y”對應于“x”個數(shù)量的人口統(tǒng)計類別中的特定人口統(tǒng)計類別。在步驟315,例如在估計服務器550處獲得估計出的在人口統(tǒng)計類別“y”內并且在地理區(qū)域120內的網(wǎng)絡102的用戶的總數(shù)量122。在步驟320,在估計服務器550處獲得估計出的在人口統(tǒng)計類別“y”內并且在地理區(qū)域120內的唯一用戶標識符的總數(shù)量124。
在步驟325,估計服務器550獲得地理區(qū)域120和人口統(tǒng)計類別“y”內的每個用戶104多個唯一用戶標識符110的第一分布160。在步驟330,估計服務器550創(chuàng)建在地理區(qū)域120和人口統(tǒng)計類別“y”內的偽用戶144的集合140。集合140內的偽用戶144的數(shù)量近似(+/-5-10%)等于在地理區(qū)域120內并且在人口統(tǒng)計類別“y”內的用戶104的數(shù)量。在步驟335,估計服務器550例如對集合140內的每個偽用戶144分配在地理區(qū)域120內并且在人口統(tǒng)計類別“y”內的唯一用戶標識符110中的至少一個,以創(chuàng)建近似于第一分布160的每個偽用戶144多個唯一用戶標識符110的第二分布165。在步驟340,該方法例如通過判斷“y”是否等于“x”,來判斷是否針對每個人口統(tǒng)計類別創(chuàng)建了偽用戶144的集合140。如果是,則方法300結束。如果否,則方法300例如通過使“y”遞增1(即“y”=“y”+1),來進行到下一個人口統(tǒng)計類別,并且返回到步驟315。
方法300可以針對地理區(qū)域120內的每個人口統(tǒng)計類別,創(chuàng)建偽用戶144的集合140。此外,可以結合創(chuàng)建和分配步驟330和335利用上面描述的方程(2)和(6)。然后,可以使用這些集合140,來確定在一個或更多個人口統(tǒng)計類別內的來自地理區(qū)域120的對網(wǎng)絡位置106的唯一訪問者的估計數(shù)量。
現(xiàn)在參考圖9,示出了生成多個人口統(tǒng)計類別中的每一個的來自地理區(qū)域120的偽用戶144的集合140的示例方法400的流程圖。在步驟405,例如,在估計服務器550處獲得與地理區(qū)域120內的網(wǎng)絡102的用戶122相對應的多個“x”人口統(tǒng)計類別。在步驟410,將數(shù)值“y”設置為等于1。數(shù)值“y”對應于“x”個數(shù)量的人口統(tǒng)計類別中的特定人口統(tǒng)計類別。在步驟415,例如在估計服務器550處獲得估計出的在人口統(tǒng)計類別“y”內并且在地理區(qū)域120內的網(wǎng)絡102的用戶的總數(shù)量122。在步驟420,在估計服務器550處獲得估計出的在人口統(tǒng)計類別“y”內并且在地理區(qū)域120內的唯一用戶標識符的總數(shù)量124。
在步驟425,估計服務器550創(chuàng)建在地理區(qū)域120和人口統(tǒng)計類別“y”內的偽用戶144的集合140。集合140內的偽用戶144的數(shù)量近似(+/-5-10%)等于在地理區(qū)域120內并且在人口統(tǒng)計類別“y”內的用戶104的數(shù)量。在步驟430,估計服務器550例如對集合140內的每個偽用戶144分配在地理區(qū)域120內并且在人口統(tǒng)計類別“y”內的唯一用戶標識符110中的至少一個。在步驟435,該方法例如通過判斷“y”是否等于“x”,來判斷是否針對每個人口統(tǒng)計類別創(chuàng)建了偽用戶144的集合140。如果否,則方法400例如通過使“y”遞增1(即“y”=“y”+1),來進行到下一個人口統(tǒng)計類別,并且返回到步驟415。
如果在步驟435,判斷為針對每個人口統(tǒng)計類別創(chuàng)建了偽用戶144的集合140(例如通過判斷為“y”等于“x”),則方法400進行到步驟445。在步驟445,估計服務器550利用創(chuàng)建的偽用戶144的集合140,來估計在人口統(tǒng)計類別中的至少一個內的并且來自地理區(qū)域120內的網(wǎng)絡102中的網(wǎng)絡位置106的唯一訪問者的數(shù)量。在步驟445之后,方法400結束。
方法400可以針對地理區(qū)域120內的每個人口統(tǒng)計類別,創(chuàng)建偽用戶144的集合140。此外,可以結合創(chuàng)建和分配步驟425和430,利用上面描述的方程(2)和(6)。然后,可以使用這些集合140,來確定一個或更多個人口統(tǒng)計類別內的來自地理區(qū)域120的對網(wǎng)絡位置106的唯一訪問者的估計數(shù)量。
現(xiàn)在參考圖10,示出了用于實現(xiàn)上述系統(tǒng)100和方法200、300、400的示例裝置500。雖然示出了裝置500包括多個分立模塊和部件,但是本領域技術人員應當理解,可以將這些模塊/部件中的一部分或者全部組合到被配置為執(zhí)行下面描述的由組合的分立模塊/部件執(zhí)行的任務的單個模塊/部件中。
在一些實施例中,裝置500包括用戶信息模塊510、用戶標識符模塊520、觀測用戶標識符模塊530、輸入模塊540和估計服務器550。用戶信息模塊510例如向估計服務器550提供與網(wǎng)絡102的用戶104相關的數(shù)據(jù)集。例如,用戶信息模塊510可以提供估計出的每個地理區(qū)域120內的網(wǎng)絡102的用戶的總數(shù)量122以及與每個地理區(qū)域120內的網(wǎng)絡102的用戶104相關的人口統(tǒng)計信息112。例如,可以根據(jù)自愿/匿名瀏覽數(shù)據(jù)、普查數(shù)據(jù)和/或其它數(shù)據(jù)源,來收集由用戶信息模塊510提供的數(shù)據(jù)集。
用戶標識符模塊520例如向估計服務器550提供與屬于網(wǎng)絡102的用戶104的用戶標識符110相關的數(shù)據(jù)集。例如,用戶標識符模塊520可以提供估計出的每個地理區(qū)域120內的唯一用戶標識符的總數(shù)量124以及與每個地理區(qū)域120內的用戶標識符110相關的人口統(tǒng)計信息112。例如,可以根據(jù)自愿/匿名瀏覽數(shù)據(jù)、普查數(shù)據(jù)和/或其它數(shù)據(jù)源,來收集由用戶標識符模塊520提供的數(shù)據(jù)集。
觀測用戶標識符模塊530例如向估計服務器550提供與由網(wǎng)絡位置106中的至少一個觀測到的用戶標識符110相關的數(shù)據(jù)集。例如,觀測用戶標識符模塊530可以提供在網(wǎng)絡位置106處觀測到的每個地理區(qū)域120內的用戶標識符110的數(shù)量和身份以及與在網(wǎng)絡位置106處觀測到的每個地理區(qū)域120內的用戶標識符110相關的人口統(tǒng)計信息112。輸入模塊540例如可以向估計服務器550提供附加輸入。這些附加輸入的示例包括、但不限于對估計信息、與一個或更多個地理區(qū)域120的參數(shù)α的值相關的信息、與參數(shù)β的值相關的信息以及與異常唯一用戶標識符的識別相關的信息的請求。
估計服務器550可以包括參數(shù)α模塊551、估計模塊553、偽用戶模塊555、過濾模塊557、處理裝置558和存儲器559。這些部件551-559全部被配置為接收由這些部件551-559中的任意一個生成的數(shù)據(jù)/信息,以及用戶信息模塊510、用戶標識符模塊520、觀測用戶標識符模塊530和輸入模塊540向估計服務器550提供的數(shù)據(jù)。處理裝置558可以包括被配置為執(zhí)行諸如與參數(shù)α模塊551、估計模塊553、偽用戶模塊555、過濾模塊557相關地描述的估計服務器550的功能的一個或更多個處理器。應當理解,這些模塊中的任意一個或更多個可以由處理裝置558全部或部分執(zhí)行。向估計服務器550提供或者由估計服務器550生成的信息可以存儲在存儲器559中,和/或例如輸出到另一計算設備。
參數(shù)α模塊551包括每個地理區(qū)域120的參數(shù)α126的值,和/或可以基于上面描述的非線性近似確定參數(shù)α126的值。偽用戶模塊553例如可以基于上面關于圖8-9描述的方法,針對多個人口統(tǒng)計類別中的每一個生成偽用戶144的集合140。在一些實施例中,過濾模塊555可以過濾從用戶信息模塊510、用戶標識符模塊520、觀測用戶標識符模塊530和/或輸入模塊540接收到的數(shù)據(jù),以在如上所述,由偽用戶模塊553創(chuàng)建偽用戶144的集合140之前,去除異常用戶104和/或異常唯一用戶標識符110。
估計模塊553例如可以通過執(zhí)行上面描述的方法200、300、400,基于從用戶信息模塊510、用戶標識符模塊520、觀測用戶標識符模塊530和/或輸入模塊540接收到的信息/數(shù)據(jù),確定網(wǎng)絡位置106的唯一訪問者的估計數(shù)量。估計模塊553可以提供來自多個地理區(qū)域120中的每一個(或者組合)的網(wǎng)絡位置106的唯一訪問者的估計數(shù)量。此外,估計模塊553可以提供多個人口統(tǒng)計類別中的每一個(或者組合)內的網(wǎng)絡位置106的唯一訪問者的估計數(shù)量。
為了進行說明和描述,提供了前述對實施例的描述。其不旨在是窮盡的或者限制本公開。特定實施例的各個元素或特征通常不局限于該特定實施例,而即使未具體示出或描述,也在適當?shù)那闆r下是可互換的,并且可以在選擇的實施例中使用。特定實施例的各個元素或特征還可以以許多方式進行變化。這些變化不被視為脫離了本公開,所有這些變形都旨在包含在本公開的范圍內。