背景技術(shù):
計算設(shè)備通??梢詮奶囟ㄓ脩艚邮赵撚脩舾信d趣的實體的指示。例如,用戶可以使用計算設(shè)備來執(zhí)行對于實體的搜索,所述實體諸如地點、事件、人、商業(yè)、飯店等。用戶還可提供該用戶已經(jīng)參加的事件或者在飯店吃飯的指示,諸如通過使用社交媒體應(yīng)用登記到事件,或者通過將某個事件的指示置于該用戶的日歷中。
技術(shù)實現(xiàn)要素:
在一個示例中,本公開涉及一種方法。該方法可包括:由計算設(shè)備生成包括多個節(jié)點的圖,其中該多個節(jié)點包括表示多個實體的多個實體節(jié)點以及表示多個特征的多個特征節(jié)點,并且其中該多個實體節(jié)點中的每個實體節(jié)點在該圖中連接至該多個特征節(jié)點中的一個或多個特征節(jié)點。該方法可進一步包括:由該計算設(shè)置執(zhí)行標簽傳播來跨該圖傳播多個標簽,以將標簽分布與該多個節(jié)點中的每個節(jié)點相關(guān)聯(lián)。該計算設(shè)備被配置來:接收感興趣特征或感興趣實體中的至少一個的指示,以及對于該感興趣特征或者感興趣實體中的該至少一個,輸出與該感興趣特征或者感興趣實體相關(guān)的一個或多個相關(guān)實體的指示,其中,輸出該一個或多個相關(guān)實體的該指示至少部分地基于與該多個特征節(jié)點中表示該感興趣特征的的一個特征節(jié)點或者該多個實體節(jié)點中表示該感興趣實體的一個實體節(jié)點相關(guān)聯(lián)的相應(yīng)標簽分布。
在另一個示例中,本公開涉及一種包括存儲器和至少一個處理器的計算系統(tǒng)。該至少一個處理器通信地耦合至該存儲器,并且可被配置來:生成將要被存儲在該存儲器中的、包括多個節(jié)點的圖,其中,該多個節(jié)點包括表示多個實體的多個實體節(jié)點以及表示多個特征的多個特征節(jié)點,并且其中該多個實體節(jié)點中的每個實體節(jié)點在該圖中連接至該多個特征節(jié)點中的一個或多個特征節(jié)點;以及執(zhí)行標簽傳播來跨該圖傳播多個標簽以將標簽分布與該多個節(jié)點中的每個節(jié)點相關(guān)聯(lián)。
在另一個示例中,本公開涉及一種方法。該方法可包括:由計算設(shè)備接收感興趣特征或感興趣實體中的至少一個的指示。該方法可進一步包括:至少部分地基于與圖中的多個特征節(jié)點中表示該感興趣特征的一個特征節(jié)點或者圖中的多個實體節(jié)點中表示該感興趣實體的一個實體節(jié)點相關(guān)聯(lián)的相應(yīng)標簽分布,由該計算設(shè)備確定與該感興趣特征或者該感興趣實體相關(guān)的一個或多個相關(guān)的實體,其中,該圖包括多個節(jié)點,其中該多個節(jié)點包括表示多個實體的多個實體節(jié)點以及表示多個特征的多個特征節(jié)點,并且其中該多個實體節(jié)點中的每個實體節(jié)點在該圖中連接至該多個特征節(jié)點中的一個或多個特征節(jié)點,并且其中,多個標簽經(jīng)由標簽傳播跨該圖來被傳播以將標簽分布與該多個節(jié)點中的每個節(jié)點相關(guān)聯(lián)。方法可進一步包括:對于該感興趣特征或者感興趣實體中的該至少一個,由該計算設(shè)備輸出與該感興趣特征或該感興趣實體相關(guān)的一個或多個相關(guān)實體的指示,其中,輸出該一個或多個相關(guān)實體的該指示至少部分地基于與該多個特征節(jié)點中表示該感興趣特征的一個特征節(jié)點或者多個實體節(jié)點中表示該感興趣實體的一個實體節(jié)點相關(guān)聯(lián)的相應(yīng)標簽分布。
在另一個示例中,本公開涉及一種計算系統(tǒng),該計算系統(tǒng)包括存儲器以及至少一個處理器。該至少一個處理器通信地耦合至該存儲器,并且可被配置來:接收感興趣特征或感興趣實體中的至少一個的指示;至少部分地基于與圖中的多個特征節(jié)點中表示該感興趣特征的一個特征節(jié)點或者與圖中的多個實體節(jié)點中表示感興趣實體的一個實體節(jié)點相關(guān)聯(lián)的相應(yīng)標簽分布,確定與該感興趣特征或者感興趣實體相關(guān)的一個或多個相關(guān)實體,其中,該圖包括多個節(jié)點,其中該多個節(jié)點包括表示多個實體的多個實體節(jié)點以及表示多個特征的多個特征節(jié)點,并且其中該多個實體節(jié)點的每個實體節(jié)點在該圖中連接至該多個特征節(jié)點中的一個或多個特征節(jié)點,并且其中,多個標簽經(jīng)由標簽傳播跨該圖來被傳播以將標簽分布與該多個節(jié)點中的每個節(jié)點相關(guān)聯(lián);以及對于該感興趣特征或該感興趣實體中的至少一個,輸出與該感興趣特征或者該感興趣實體相關(guān)的一個或多個相關(guān)實體的指示,其中,輸出該一個或多個相關(guān)實體的該指示至少部分地基于與多個特征節(jié)點中表示該感興趣特征的一個特征節(jié)點或者多個實體節(jié)點中表示該感興趣實體的一個實體節(jié)點相關(guān)聯(lián)的相應(yīng)標簽分布。
在附圖以及下面的描述中闡述了一個或多個示例的細節(jié)。本公開的其他特征、目的、以及優(yōu)點根據(jù)說明書和附圖以及權(quán)利要求書將顯而易見。
附圖說明
圖1是圖示了根據(jù)本公開一個或多個方面的、被配置來確定相關(guān)實體的示例系統(tǒng)的概念圖。
圖2是圖示了根據(jù)本公開一個或多個方面的、被配置來確定一組實體的相關(guān)性水平的示例計算系統(tǒng)的框圖。
圖3a-3c是圖示了根據(jù)本公開方面的、示例排名模塊可構(gòu)造其來執(zhí)行示例性擴展器技術(shù)的示例特征-實體二分圖的框圖。
圖4是圖示了根據(jù)本公開的一個或多個方面的、用于確定相關(guān)實體的示例過程的流程圖。
圖5是圖示了根據(jù)本公開的一個或多個方面的、用于確定相關(guān)實體的示例過程的流程圖。
具體實施方式
大體上,本公開的技術(shù)可以使得計算系統(tǒng)能夠針對實體來確定一個或多個相關(guān)的實體。對于感興趣實體,該計算系統(tǒng)可以確定與該感興趣實體在語義上相關(guān)的一個或多個實體,并且可以至少部分地基于其與該感興趣實體的相關(guān)性來對該一個或多個實體進行排名。因此,如果該計算系統(tǒng)確定用戶對實體感興趣,則該計算系統(tǒng)可以確定該用戶潛在地也可能對與該用戶感興趣的實體在語義上相關(guān)的一個或多個實體感興趣。這樣,計算系統(tǒng)可為用戶提供用戶可能感興趣的所建議實體。
兩個實體的相關(guān)性可以與對第一實體感興趣的隨機用戶也對第二實體感興趣的可能性成比例。該計算系統(tǒng)可確定實體與多個實體中的每個實體的相關(guān)性,并且可至少部分地基于該實體與多個實體中的每個實體相關(guān)的程度來生成該多個實體的經(jīng)排名列表。
圖1是根據(jù)本公開的一個或多個方面的、將系統(tǒng)10圖示為可以被配置來被配置來確定相關(guān)實體的示例系統(tǒng)的概念圖。系統(tǒng)100包括經(jīng)由網(wǎng)絡(luò)12與計算設(shè)備2通信的信息服務(wù)器系統(tǒng)(“iss”)14。計算設(shè)備2可經(jīng)由網(wǎng)絡(luò)12與iss14進行通信,以向iss14提供指示由計算設(shè)備2接收的查詢或者計算設(shè)備2的用戶感興趣的實體的信息。iss14可生成與該查詢或者實體相關(guān)的一個或多個實體的經(jīng)排名列表,并且可將一個或多個實體的經(jīng)排名列表傳輸至計算設(shè)備2。計算設(shè)備2可以經(jīng)由用戶界面設(shè)備4來輸出該一個或多個實體的經(jīng)排名列表,以用于顯示給計算設(shè)備2的用戶。
網(wǎng)絡(luò)12表示任何公用或?qū)S玫耐ㄐ啪W(wǎng)絡(luò)——例如,蜂窩、wi-fi、和/或其他類型的網(wǎng)絡(luò)——以用于在計算系統(tǒng)、服務(wù)器、和計算設(shè)備之間傳送數(shù)據(jù)。網(wǎng)絡(luò)12可以包括一個或多個網(wǎng)絡(luò)中樞、網(wǎng)絡(luò)交換機、網(wǎng)絡(luò)路由器、或者任何其他網(wǎng)絡(luò)器材,其操作地相互耦合從而提供iss14與計算設(shè)備2之間的信息交換。計算設(shè)備2和iss14可使用任何合適的有線或無線通信技術(shù)來跨網(wǎng)絡(luò)12傳送和接收數(shù)據(jù)。在某些示例中,網(wǎng)絡(luò)12可以是互聯(lián)網(wǎng)20。
iss14和計算設(shè)備2可以使用相應(yīng)的網(wǎng)絡(luò)鏈路操作地耦合至網(wǎng)絡(luò)12。將計算設(shè)備2和iss14耦合至網(wǎng)絡(luò)12的鏈路可以是以太網(wǎng)或者其他類型的網(wǎng)絡(luò)連接,并且這樣的連接可以是無線連接和/或有線連接。
計算設(shè)備2表示個體移動或非移動計算設(shè)備。計算設(shè)備2的示例可以包括移動電話、平板電腦、膝上型電腦、桌面型電腦、服務(wù)器、主機、機頂盒、電視、可穿戴式設(shè)備(例如計算機化的手表、計算機化的護目鏡、計算機化的手套)、家用自動化設(shè)備或系統(tǒng)(例如,智能恒溫器或者家庭助手)、個人數(shù)字助理(pda)、便攜式游戲系統(tǒng)、媒體播放器、電子書閱讀器、移動電視平臺、汽車導(dǎo)航和娛樂系統(tǒng),或者被配置來通過網(wǎng)絡(luò),諸如網(wǎng)絡(luò)12接收信息的任何其他類型的移動、非移動、可穿戴以及非可穿戴計算設(shè)備。
計算設(shè)備2包括用戶界面設(shè)備(uid)4以及用戶界面(ui)模塊6。ui模塊6可使用軟件、硬件、固件、或者在相應(yīng)計算設(shè)備2中駐留和/或在該處執(zhí)行的硬件、軟件、和固件的組合來執(zhí)行上述的操作。在某些示例中,計算設(shè)備2可執(zhí)行具有一個或多個處理器或者一個或多個設(shè)備的ui模塊6。在某些示例中,計算設(shè)備2可將ui模塊6執(zhí)行為在底層硬件上執(zhí)行的一個或多個虛擬機。在某些示例中,ui模塊6可執(zhí)行為操作系統(tǒng)或計算平臺的一個或多個服務(wù)。在某些示例中,ui模塊6可執(zhí)行為計算平臺的應(yīng)用層處的一個或多個可執(zhí)行程序。
計算設(shè)備2的uid4可充當計算設(shè)備2的輸入和/或輸出設(shè)備。uid4可使用各種技術(shù)來實現(xiàn)。例如,uid4可充當使用一個或多個存在敏感輸入組件的輸入設(shè)備,諸如電阻式觸摸屏、表面聲波觸摸屏、電容式觸摸屏、投射電容觸摸屏、壓敏屏幕、聲學(xué)脈沖識別觸摸屏、或者其他存在敏感顯示技術(shù)。此外,uid4可以包括麥克風技術(shù)、紅外傳感器技術(shù)、或者用于接收用戶輸入的其他輸入設(shè)備技術(shù)。
uid4可充當使用任何一個或多個顯示組件的輸出(例如顯示)設(shè)備,諸如液晶顯示器(lcd)、點陣顯示器、發(fā)光二極管(led)顯示器、有機發(fā)光二極管(oled)顯示器、電子墨水、或者能夠輸出可視信息給計算設(shè)備2的用戶的類似的單色或彩色顯示器。此外,uid4可以包括揚聲器技術(shù)、觸覺反饋技術(shù)、或者用于輸出信息給用戶的其他輸出設(shè)備技術(shù)。
uid4可包括存在敏感顯示器,其可從計算設(shè)備2的用戶接收觸覺輸入。uid4可以通過檢測來自用戶的一個或多個手勢而接收觸覺輸入的指示(例如,用戶用手指或觸控筆接觸或者指向uid4的一個或多個位置)。例如在存在敏感顯示器處,uid4可將輸出呈現(xiàn)給用戶。uid4可將輸出呈現(xiàn)為圖形用戶界面(例如,用戶界面8),其可與計算設(shè)備2提供的功能相關(guān)聯(lián)。例如,uid4可以呈現(xiàn)計算設(shè)備2的用戶可能感興趣的、與實體集合相關(guān)的各個用戶界面(例如,用戶界面8),所述用戶界面由ui模塊6或者在計算設(shè)備2處執(zhí)行或者可從其訪問的計算平臺、操作系統(tǒng)、應(yīng)用、和/或服務(wù)(例如,電子消息應(yīng)用、互聯(lián)網(wǎng)瀏覽應(yīng)用、移動或桌面型操作系統(tǒng)等等)的其他特征來提供。
ui模塊6可以管理與uid4以及計算設(shè)備2的其他組件的用戶交互——包括與iss14的交互,以便在uid4處提供對一個或多個實體的指示。當計算設(shè)備2的用戶在uid4處查看輸出和/或提供輸入時,ui模塊6可以使得uid4輸出用戶界面——諸如用戶界面8(或者其他示例用戶界面)以供顯示。在用戶與用戶界面進行交互時,ui模塊6和uid4可以從該用戶接收一個或多個對輸入的指示。ui模塊6和uid4可以解釋在uid4處檢測的輸入,并且可以將關(guān)于在uid4處檢測的輸入的信息中繼給在計算設(shè)備2處執(zhí)行的一個或多個關(guān)聯(lián)的平臺、操作系統(tǒng)、應(yīng)用、和/或服務(wù),以例如使得計算設(shè)備2執(zhí)行功能。
ui模塊6可從在計算設(shè)備2處執(zhí)行的一個或多個關(guān)聯(lián)的平臺、操作系統(tǒng)、應(yīng)用、和/或服務(wù)和/或諸如iss14的一個或多個遠程計算系統(tǒng)接收信息和指令。此外,ui模塊6可以充當在計算設(shè)備2處執(zhí)行的一個或多個關(guān)聯(lián)的平臺、操作系統(tǒng)、應(yīng)用、和/或服務(wù)與計算設(shè)備2的各個輸出設(shè)備(例如,揚聲器、led顯示器、音頻和靜電觸覺輸出設(shè)備等等)之間的中介,以利用計算設(shè)備2來產(chǎn)生輸出(例如,圖形、閃光、聲音、觸覺響應(yīng)等)。
ui模塊6可以接收計算設(shè)備2的用戶感興趣的實體的指示。在某些示例中,實體可以是事件、地點、人、商業(yè)、電影、飯店等。例如,計算設(shè)備2的用戶可以使用在計算設(shè)備2上運行的web瀏覽器應(yīng)用,來訪問特定事件的網(wǎng)頁(例如,用于攀巖旅行的網(wǎng)頁),或者“贊(like)”針對特定事件的社交媒體發(fā)布(socialmediapost),其可向ui模塊6指示該用戶對特定事件感興趣。
ui模塊6可以經(jīng)由網(wǎng)絡(luò)12來向iss14發(fā)送對感興趣實體的指示。例如,ui模塊6可以發(fā)送針對實體的網(wǎng)頁的互聯(lián)網(wǎng)地址(例如,統(tǒng)一資源定位符)。作為響應(yīng),ui模塊6可以經(jīng)由網(wǎng)絡(luò)12從iss14接收與感興趣實體最相關(guān)的一個或多個實體的指示。例如,ui模塊6可以接收該一個或多個實體的互聯(lián)網(wǎng)地址。ui模塊6還可從iss14接收該一個或多個實體與感興趣實體的相關(guān)性水平的指示,諸如該一個或多個實體中的每一個與感興趣實體有多相關(guān)的排名或者該一個或多個實體中的每一個與感興趣實體的相關(guān)性水平的數(shù)值量化(例如,從0到1.0)。
uid4可輸出用戶界面8,諸如包括與感興趣實體相關(guān)的一個或多個實體的指示的圖形用戶界面。如圖1所示,如果感興趣實體是徒步旅行,則用戶界面8可以包括攀巖事件、背包行(backpacking)事件、以及洞穴探險(caving)事件以作為與徒步旅行相關(guān)的實體。在圖1的非限定性實例中,uid4可以以與感興趣實體的相關(guān)性的順序來呈現(xiàn)相關(guān)的實體,使得攀巖事件可以是最相關(guān)的實體、背包行事件可以是其次最相關(guān)的實體、以及洞穴探險事件可以是第三最相關(guān)的實體。這樣,uid4可以基于用戶對特定徒步旅行的興趣來呈現(xiàn)計算設(shè)備2的用戶可能感興趣的實體的經(jīng)排名列表。
在圖1的示例中,iss14包括實體模塊16以及排名模塊18。共同地,模塊16和18可以是計算設(shè)備2和連接至網(wǎng)絡(luò)12的其他計算設(shè)備可訪問的相關(guān)實體服務(wù),其用于提供與感興趣實體相關(guān)的一個或多個實體。模塊16和18可使用駐留在iss14中和/或在iss14處執(zhí)行的軟件、硬件、固件、或硬件、軟件、和固件的組合來執(zhí)行所描述的操作。iss14可利用在底層硬件上執(zhí)行的一個或多個處理器、一個或多個設(shè)備、虛擬機來執(zhí)行模塊16和18,和/或?qū)⒛K16和18執(zhí)行為操作系統(tǒng)或計算平臺的一個或多個服務(wù),僅舉幾個非限制性示例。在某些示例中,模塊16和18可以執(zhí)行為iss14的計算平臺的應(yīng)用層處的一個或多個可執(zhí)行程序。
實體模塊16可從互聯(lián)網(wǎng)20檢索和/或接收與實體相關(guān)聯(lián)的互聯(lián)網(wǎng)資源,并且可從相關(guān)聯(lián)的互聯(lián)網(wǎng)資源中提取與實體中的每一個相關(guān)聯(lián)的特征集合。實體模塊16可針對存儲在互聯(lián)網(wǎng)服務(wù)器22(例如web服務(wù)器)上的互聯(lián)網(wǎng)資源——諸如web頁面、社交媒體發(fā)布等來爬取(crawl)互聯(lián)網(wǎng)20,或者可以以其他方式接收互聯(lián)網(wǎng)資源的集合,并且可從這樣的互聯(lián)網(wǎng)資源中提取特征。例如,與徒步旅行相關(guān)聯(lián)的互聯(lián)網(wǎng)資源可以是描述該徒步旅行的web站點或者社交媒體發(fā)布。
在一個示例中,實體模塊16可以從針對實體的一個或多個web頁面提取與該實體相關(guān)聯(lián)的一個或多個特征。與實體相關(guān)聯(lián)的特征可以是描述所關(guān)聯(lián)的實體的場境信息(contextualinformation)。特征可以包括文本,諸如包含在針對該實體的web頁面中的詞、短語等。在某些示例中,特征還可包括圖像、視頻、和其他媒介。實體模塊16可從針對實體的web頁面中提取特征,諸如實體描述、web頁面中的周圍的文本、與實體出現(xiàn)在其上的web頁面相關(guān)聯(lián)的查詢、指向針對該實體的web頁面的錨文本、針對該實體的web頁面的分類學(xué)類別等。
實體模塊16可以將從互聯(lián)網(wǎng)資源中提取的特征以及對實體與特征之間的關(guān)聯(lián)的指示存儲到信息服務(wù)器系統(tǒng)14中的計算機可讀取存儲設(shè)備上,諸如盤、非易失性存儲器等。例如,實體模塊16可以將這樣的特征以及對實體與所述特征之間的關(guān)聯(lián)的指示存儲為一個或多個文檔、數(shù)據(jù)庫條目、或其他結(jié)構(gòu)數(shù)據(jù),包括但不局限于逗號分隔的值、相關(guān)的數(shù)據(jù)庫條目、可擴展標記語言(xml)數(shù)據(jù)、javascript對象表示法(json)數(shù)據(jù)等。
實體模塊16還可在與每個實體相關(guān)聯(lián)的特征集合上執(zhí)行特征準備,所述特征是從與相應(yīng)實體相關(guān)聯(lián)的互聯(lián)網(wǎng)資源提取的。例如,實體模塊16可執(zhí)行停止詞去除,以去除語言中最常見的詞語(例如,英語語言的a、the、is、at、which、on等)。實體模塊16可執(zhí)行特征再加權(quán),以至少部分地基于特征在與實體相關(guān)聯(lián)的互聯(lián)網(wǎng)資源中出現(xiàn)的頻率來對與該實體相關(guān)聯(lián)的特征進行加權(quán)。例如,實體模塊16可對在與該實體相關(guān)聯(lián)的互聯(lián)網(wǎng)資源中較頻繁出現(xiàn)的特征指派較高的權(quán)重。實體模塊16可將實體的特征的這樣的權(quán)重存儲到iss14中的計算機可讀取存儲設(shè)備上,以作為一個或多個文檔、數(shù)據(jù)庫條目、或者其他結(jié)構(gòu)數(shù)據(jù),包括但不局限于逗號分隔的值、關(guān)系數(shù)據(jù)庫條目、xml數(shù)據(jù)、json數(shù)據(jù)等。
排名模塊18可從計算設(shè)備2接收對感興趣實體的指示,至少部分地基于與該感興趣實體相關(guān)的一個或多個實體中的每個實體與該感興趣實體的相關(guān)性水平來確定該一個或多個實體的排名、并且將該一個或多個實體的指示傳輸至計算設(shè)備2。為此,排名模塊18可以確定該感興趣實體與多個其他實體中的每個實體之間的相似性度量,其中該相似性度量可以對應(yīng)于相關(guān)性水平,并且可至少部分地基于該相似性度量來確定該多個其他實體中的哪些與該感興趣實體最相關(guān)。
在一個示例中,排名模塊18可至少部分地基于測量在兩個實體的特征之間相似性度量、并且將該兩個實體的每個特征類型之間的相似性度量進行組合,來確定兩個實體之間的相似性度量。為了確定感興趣實體與目標實體之間的相似性度量,對于與感興趣實體相關(guān)聯(lián)的每個特征類型的特征,排名模塊18可確定感興趣實體的特征類型的特征和目標實體的特征類型的特征之間的相似性度量,并且可以對該實體的特征類型中的每一個的相似性度量進行組合,以確定感興趣實體與目標實體之間的相似性度量。
在另一個示例中,排名模塊18可至少部分地基于兩個實體(例如,感興趣實體和目標實體)是否共享到其他類似實體的連接來確定兩個實體之間的相似性度量。換言之,排名模塊18可因為兩個實體的相關(guān)聯(lián)的特征中的一些在語義上相關(guān)而確定該兩個實體相關(guān),即使該兩個實體不共享相同的特征。
為此,根據(jù)本公開的方面,在各個非限制性示例中,排名模塊18可生成二分圖,其中排名模塊18可通過該圖傳播信息以傳遞語義消息。具體地,二分圖可以包括與多個實體相關(guān)聯(lián)的多個實體節(jié)點,其連接至與多個特征相關(guān)聯(lián)的多個特征節(jié)點,其中該多個實體節(jié)點中的每一個連接至該多個特征節(jié)點中的一個或多個。因此,在該二分圖中,與實體相關(guān)聯(lián)的實體節(jié)點可以連接至與該實體的一個或多個特征相關(guān)聯(lián)的一個或多個特征節(jié)點。
,至少部分地基于二分圖中與一個或多個相關(guān)實體相關(guān)聯(lián)的一個或多個實體節(jié)點之間到與感興趣實體相關(guān)的實體節(jié)點的連接,排名模塊18可針對該感興趣實體來確定一個或多個相關(guān)實體。具體地,排名模塊18可執(zhí)行無監(jiān)督機器學(xué)習——包括以多次迭代來執(zhí)行標簽傳播,以將標簽的分布與二分圖的多個節(jié)點中的每一個相關(guān)聯(lián),如下文關(guān)于圖3a-3c所詳細描述。排名模塊18可執(zhí)行這樣的標簽傳播以作為使目標函數(shù)最小化的優(yōu)化解,來生成與該二分圖的每個節(jié)點相關(guān)聯(lián)的標簽的分布,其中標簽的分布中的每一個包括一個或多個實體的排名的指示,該一個或多個實體與相關(guān)聯(lián)的實體節(jié)點或特征節(jié)點所表示的實體和特征相關(guān)。這樣,對于特定的感興趣實體,排名模塊18可以確定與該感興趣實體相關(guān)的一個或多個實體的排名。
盡管在二分圖方面進行了描述,但本公開的方面可以被實現(xiàn)為表格、數(shù)據(jù)庫、或者其他基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)。因此,二分圖的節(jié)點和邊還可以被實現(xiàn)為數(shù)據(jù)結(jié)構(gòu)的一部分、數(shù)據(jù)庫、表格中的條目、應(yīng)用到表格、數(shù)據(jù)庫的條目或者在其之間應(yīng)用的函數(shù)、變換、或者數(shù)據(jù)、或者其他基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)。因此,該數(shù)據(jù)結(jié)構(gòu)、表格、數(shù)據(jù)庫、函數(shù)、數(shù)據(jù)等可以表示本文所公開的一個或多個二分圖。
排名模塊18可以執(zhí)行上面的技術(shù)來確定感興趣實體與多個其他實體之間的相似性度量(例如相似性分值),并且可以根據(jù)所確定的相似性度量確定多個實體與感興趣實體之間的相關(guān)性排名。排名模塊18可以經(jīng)由網(wǎng)絡(luò)12將與感興趣實體最相關(guān)的實體中的一個或多個的經(jīng)排名列表的指示發(fā)送給計算設(shè)備2。例如,排名模塊18可以向計算設(shè)備2發(fā)送web頁面,其包括指向與最相關(guān)的實體中的一個或多個的經(jīng)排名列表相關(guān)聯(lián)的web頁面的鏈接。因此,在計算設(shè)備2上運行的web瀏覽器可以渲染所接收的web頁面,使得ui設(shè)備4可以呈現(xiàn)用戶界面8,其包括指向與該最相關(guān)的實體中的一個或多個的經(jīng)排名列表相關(guān)聯(lián)的web頁面的鏈接。
根據(jù)本公開的方面,iss14可以生成包括多個節(jié)點的圖,其中該多個節(jié)點包括表示多個實體的多個實體節(jié)點以及表示多個特征的多個特征節(jié)點,并且其中該多個實體節(jié)點中的每一個在圖中連接到該多個特征節(jié)點中的一個或多個。iss14可以執(zhí)行標簽傳播來跨圖來傳播多個標簽,以將標簽的分布與多個節(jié)點中的每一個相關(guān)聯(lián)。iss14可以接收感興趣特征或感興趣實體中的至少一個的指示。對于該感興趣特征或感興趣實體中的至少一個,iss14可以輸出與該感興趣特征或者感興趣實體相關(guān)的一個或多個相關(guān)實體的指示,其中輸出對該一個或多個相關(guān)實體的指示是部分地基于相應(yīng)標簽的分布的,所述相應(yīng)標簽與表示感興趣特征的多個特征節(jié)點中的一個或者表示該感興趣實體的多個實體節(jié)點中的一個相關(guān)聯(lián)。本公開的這些和其他方面在下面被更詳細地討論。
圖2是根據(jù)本公開的一個或多個方面的、將iss14圖示為被配置來確定一組實體的相關(guān)性水平的示例計算系統(tǒng)。圖2僅圖示了iss14的一個特定示例,并且iss14的許多其他示例可以被使用在其他實例中,并且可包括在示例iss14中所包括的組件的子集或者可包括圖2中未示出的附加組件。
iss14向計算設(shè)備2提供了管道(conduit),諸如計算設(shè)備2的計算設(shè)備通過其可訪問相關(guān)的實體服務(wù),以用于自動接收指示感興趣實體或感興趣特征的一個或多個相關(guān)實體的信息。如圖2的示例所示,iss14包括一個或多個處理器44、一個或多個通信單元46、以及一個或多個存儲設(shè)備48。iss14的存儲設(shè)備48包括實體模塊16和排名模塊18。
iss14的存儲設(shè)備48進一步包括特征-實體數(shù)據(jù)存儲52a、圖數(shù)據(jù)存儲52b、排名數(shù)據(jù)存儲52c、以及互聯(lián)網(wǎng)資源數(shù)據(jù)存儲52d(統(tǒng)稱為“數(shù)據(jù)存儲52”)。通信信道50可將組件44、46、和48中的每一個互連,以用于組件間的通信(在物理、通信、和/或操作上)。在某些示例中,通信信道50可包括系統(tǒng)總線、網(wǎng)絡(luò)連接、進程間通信數(shù)據(jù)結(jié)構(gòu)、或者用于傳輸數(shù)據(jù)的任何其他方法。
iss14的一個或多個通信單元46可以通過在諸如圖1的網(wǎng)絡(luò)12或者互聯(lián)網(wǎng)20的一個或多個網(wǎng)絡(luò)上傳送和/或接收網(wǎng)絡(luò)信號來與外部計算設(shè)備——諸如圖1的計算設(shè)備2進行通信。例如,iss14可使用通信單元46跨網(wǎng)絡(luò)12來傳送和/或接收音頻信號,以與計算設(shè)備2交換信息。通信單元46的示例包括網(wǎng)絡(luò)接口卡(例如,諸如以太網(wǎng)卡)、光學(xué)收發(fā)器、射頻收發(fā)器、gps接收器、或者能夠發(fā)送和/或接收信息的任何其他類型的設(shè)備。通信單元46的其他示例可包括短波無線電、蜂窩數(shù)據(jù)無線電、無線以太網(wǎng)網(wǎng)絡(luò)無線電、以及通用串行總線(usb)控制器。
存儲設(shè)備48可以存儲用于在iss14的操作期間進行處理的信息(例如,iss14可以在iss14處存儲模塊16和18在執(zhí)行期間所訪問的數(shù)據(jù))。在某些示例中,存儲設(shè)備48是臨時存儲器,意指存儲設(shè)備48的主要目的不是長期存儲。iss14上的存儲設(shè)備48可以作為易失性存儲器來被配置用于信息的短期存儲來,并且因此在被關(guān)閉電源的情況下不保持存儲的內(nèi)容。易失性存儲器的示例包括隨機存取存儲器(ram)、動態(tài)隨機存取存儲器(dram)、靜態(tài)隨機存取存儲器(sram)、以及本領(lǐng)域公知的其他形式的易失性存儲器。
在某些示例中,存儲設(shè)備48還包括一個或多個計算機可讀取存儲介質(zhì)。存儲設(shè)備48可被配置來比易失性存儲器存儲更大量的信息。存儲設(shè)備48可進一步作為非易失性存儲器空間被配置用于信息的長期存儲,并且在電源開/關(guān)循環(huán)之后保持信息。非易失性存儲器的示例包括磁性硬盤、光盤、軟盤、閃速存儲器、或者電可編程存儲器(eprom)或者電可擦可編程(eeprom)存儲器的形式。存儲設(shè)備48可以存儲與模塊16和18相關(guān)聯(lián)的程序指令和/或數(shù)據(jù)。
一個或多個處理器44可以實現(xiàn)iss14內(nèi)的功能和/或執(zhí)行iss14內(nèi)的指令。例如,iss14上的處理器44可接收和執(zhí)行存儲設(shè)備48所存儲的指令,其執(zhí)行模塊16和18的功能。這些指令在由處理器44執(zhí)行時可以使得iss14在程序執(zhí)行期間在存儲設(shè)備48內(nèi)存儲信息。處理器44可以執(zhí)行模塊16和18的指令,以從多個互聯(lián)網(wǎng)來源提取與多個實體相關(guān)聯(lián)的多個特征,并且確定實體中的每一個之間的相關(guān)性水平,從而針對特定的感興趣實體或感興趣特征輸出一個或多個相關(guān)實體的排名。即,模塊16和18可以是可由處理器44操作以執(zhí)行本文所述的iss14的各個動作或功能。
數(shù)據(jù)存儲52處所存儲的信息可以作為可檢索和/或歸類的結(jié)構(gòu)化數(shù)據(jù)被存儲。例如,一個或多個模塊16和18可將數(shù)據(jù)存儲到數(shù)據(jù)存儲52中。一個或多個模塊16和18也可提供從數(shù)據(jù)存儲52中的一個或多個請求信息的輸入,并且響應(yīng)于該輸入而接收在數(shù)據(jù)存儲52處存儲的信息。iss14可作為基于云的數(shù)據(jù)訪問服務(wù),向連接到網(wǎng)絡(luò)12或者互聯(lián)網(wǎng)20的設(shè)備——諸如計算設(shè)備2提供對存儲在數(shù)據(jù)存儲52處的信息的訪問。當數(shù)據(jù)存儲52包含與個體用戶相關(guān)聯(lián)的信息或者當信息跨多個用戶而通用化時,將該信息鏈接回各個人的所有個人可識別信息——諸如姓名、地址、電話號碼、和/或電子郵件地址都可在被存儲在iss14處之前去除。iss14可進一步對存儲在數(shù)據(jù)存儲52處的信息進行加密,以防止訪問其中存儲的任何信息。此外,如果計算設(shè)備的用戶確定性地同意這樣的信息收集,則iss14僅可存儲與那些用戶相關(guān)聯(lián)的信息。iss14可進一步為用戶提供撤回同意的機會并且在該情況下,iss14可停止收集或者以其他方式保持與該特定用戶相關(guān)聯(lián)的信息。
實體模塊16可諸如經(jīng)由互聯(lián)網(wǎng)20從互聯(lián)網(wǎng)服務(wù)器22檢索、接收、或者以其他方式獲得互聯(lián)網(wǎng)資源以及與該互聯(lián)網(wǎng)資源相關(guān)聯(lián)的資源信息,并且可將該互聯(lián)網(wǎng)資源以及與該互聯(lián)網(wǎng)資源相關(guān)聯(lián)的資源信息存儲到互聯(lián)網(wǎng)數(shù)據(jù)存儲52d中。
在某些示例中,由實體模塊16獲得的互聯(lián)網(wǎng)資源可以是通過針對文檔而爬取互聯(lián)網(wǎng)20來獲得的文檔(例如,web頁面)。在某些示例中,實體模塊16可以不在互聯(lián)網(wǎng)資源數(shù)據(jù)存儲52d中存儲互聯(lián)網(wǎng)資源。相反,可以在別處存儲互聯(lián)網(wǎng)資源,諸如實體模塊16可利用其來經(jīng)由互聯(lián)網(wǎng)20進行通信的一個或多個遠程計算設(shè)備(未示出)上。
與互聯(lián)網(wǎng)資源相關(guān)聯(lián)的資源信息可包括關(guān)于可以沒有被包括在互聯(lián)網(wǎng)資源自身的本體中的互聯(lián)網(wǎng)資源的場境信息。例如,與特定互聯(lián)網(wǎng)資源相關(guān)聯(lián)的資源信息可包括發(fā)布到互聯(lián)網(wǎng)搜索引擎的查詢,其導(dǎo)致經(jīng)由指向在檢索結(jié)果中所包括的互聯(lián)網(wǎng)資源的鏈接來對該互聯(lián)網(wǎng)資源的訪問。在另一示例中,與特定互聯(lián)網(wǎng)資源相關(guān)聯(lián)的資源信息可包括從另一個互聯(lián)網(wǎng)資源指向該互聯(lián)網(wǎng)資源的鏈接的錨文本。在另一示例中,與特定互聯(lián)網(wǎng)資源相關(guān)聯(lián)的資源信息可包括該互聯(lián)網(wǎng)資源的分類學(xué)類別。
由實體模塊16獲得的互聯(lián)網(wǎng)資源可與多個實體相關(guān)聯(lián),使得每個實體可以與一個或多個互聯(lián)網(wǎng)資源相關(guān)聯(lián)。在某些示例中,實體可以是事件、地點、人、商業(yè)、電影、飯店等。實體可進一步與描述、位置、和時間中的一個或多個相關(guān)聯(lián)。在某些示例中,對實體的描述可以是事件標題、商業(yè)名稱等。位置可以是地理位置,諸如事件地點、商業(yè)地點等。在某些示例中,時間可以是事件發(fā)生的時間。
與特定實體相關(guān)聯(lián)的互聯(lián)網(wǎng)資源可以描述該特定實體。例如,如果特定實體是事件,則與該特定實體相關(guān)聯(lián)的互聯(lián)網(wǎng)資源可以是針對該事件的web頁面、關(guān)于該事件的社交媒體發(fā)布、舉辦該事件的場所的web站點等。
實體模塊16可至少從實體模塊16所獲得的互聯(lián)網(wǎng)資源提取多個實體,并且可以對于該多個實體中的每個實體來確定與該特定實體相關(guān)聯(lián)的一個或多個互聯(lián)網(wǎng)資源。對于該多個實體中的每個實體,實體模塊16可以至少從與該特定實體相關(guān)聯(lián)的一個或多個互聯(lián)網(wǎng)資源提取與該實體相關(guān)聯(lián)的一個或多個特征以及與該一個或多個互聯(lián)網(wǎng)資源相關(guān)聯(lián)的資源信息。與該實體相關(guān)聯(lián)的一個或多個特征可包括描述該實體的場境信息。在某些示例中,特征可包括諸如詞、短語、句子等的場境信息。例如,實體模塊16可以從與音樂會相關(guān)聯(lián)的web頁面提取諸如“貝多芬(beethoven)”、“交響樂(symphony)”、“協(xié)奏曲(concerto)”、“管弦樂團(orchestra)”、“指揮(conductor)”、“鋼琴家(pianist)”、“首席小提琴手(concertmaster)”、“小提琴手(violinist)”等的語和短語以作為描述或者以其他方式與該音樂會相關(guān)聯(lián)的特征。
由實體模塊16針對特定實體而提取的特征可以被歸類為一個或多個特征類別,其對應(yīng)于描述相關(guān)聯(lián)的實體的信息的類型。特征類別的集合可以包括標題、周邊、查詢、錨、以及分類學(xué)中的一個或多個。從與該實體相關(guān)聯(lián)的一個或多個互聯(lián)網(wǎng)資源(例如,一個或多個web頁面)的標題或頭部(heading)提取的一個或多個特征可以被歸類為屬于特征標題類別,并且可包括描述該實體的一個或兩個句子。從被包括在一個或多個互聯(lián)網(wǎng)資源中的周邊文本中提取的一個或多個特征——諸如與實體相關(guān)聯(lián)的一個或多個web頁面的主體,可以被歸類為屬于周邊特征類別。
查詢特征類別可包括從被發(fā)布到互聯(lián)網(wǎng)搜索引擎的查詢中提取的一個或多個特征,該查詢導(dǎo)致經(jīng)由指向被包括在搜索結(jié)果中的一個或多個互聯(lián)網(wǎng)資源的鏈接來訪問經(jīng)由實體所關(guān)聯(lián)的一個或多個互聯(lián)網(wǎng)資源。例如,實體模塊16可將導(dǎo)致對音樂會的web頁面的訪問的“古典音樂會(classicalmusicconcerts)”的查詢歸類為屬于查詢特征類別里面的特征“古典”、“音樂”、以及“音樂會”。
錨特征類別可包括從另一互聯(lián)網(wǎng)資源指向與實體相關(guān)聯(lián)的一個或多個互聯(lián)網(wǎng)資源的鏈接的錨文本提取的一個或多個特征。因此,在一個示例中,如果web頁面包含指向針對作為古典音樂會的實體的web頁面的“古典音樂會”錨,則實體模塊16可將“古典音樂會”的錨文本歸類為屬于與該古典音樂會相關(guān)聯(lián)的實體的錨特征類別的特征“古典”和“音樂會”。
分類學(xué)特征類別可以包括從與實體相關(guān)聯(lián)的一個或多個互聯(lián)網(wǎng)資源的分類學(xué)類別提取的一個或多個特征。實體模塊16可以執(zhí)行互聯(lián)網(wǎng)資源的分類學(xué)歸類,來將與該實體相關(guān)聯(lián)的一個或多個互聯(lián)網(wǎng)資源中的每一個標記為與該一個或多個類別相關(guān)聯(lián),從諸如運動和藝術(shù)的較高級別類別到諸如高爾夫和搖滾樂的較低級別類別。
對于每個實體,實體模塊16可以將特征值和與特定實體相關(guān)聯(lián)的每個不同的特征相關(guān)聯(lián)。與關(guān)聯(lián)于實體的特征相關(guān)聯(lián)的特征值可對應(yīng)于從與該實體相關(guān)聯(lián)的一個或多個互聯(lián)網(wǎng)資源以及與該一個或多個互聯(lián)網(wǎng)資源相關(guān)聯(lián)的資源信息提取出相同特征的次數(shù)。例如,對于作為音樂事件的實體,特征“音樂會”可以出現(xiàn)很多次,諸如在一個或多個互聯(lián)網(wǎng)資源的標題以及該互聯(lián)網(wǎng)資源的主體中。通過將資源的單個實例與該實體相關(guān)聯(lián),并且通過向該實體指派特征值——其對應(yīng)于從與該實體相關(guān)聯(lián)的一個或多個互聯(lián)網(wǎng)資源以及與該一個或多個互聯(lián)網(wǎng)資源相關(guān)聯(lián)的資源信息提取出相同特征的次數(shù),實體模塊16可對從與該實體相關(guān)聯(lián)的一個或多個互聯(lián)網(wǎng)資源以及與該一個或多個互聯(lián)網(wǎng)資源相關(guān)聯(lián)的資源信息中多次提取的相同事件進行去重。
作為從互聯(lián)網(wǎng)資源以及從該互聯(lián)網(wǎng)資源所關(guān)聯(lián)的資源信息提取特征的結(jié)果,實體模塊16可將一個或多個特征與多個實體中的每一個相關(guān)聯(lián),其中該一個或多個特征可以是描述或者以其他方式提供對應(yīng)實體的場境信息的文本信息。通過將所述特征歸類為特征類別,每個實體可與該特征類別中的一個或多個相關(guān)聯(lián),并且對于每個所關(guān)聯(lián)的類別,可以與該特征類別中的一個或多個特征相關(guān)聯(lián)。在某些示例中,實體可以與上述的五個特征類別中的每個類別中的特征相關(guān)聯(lián)。在其他示例中,實體可以與少于上述的全部五個特征類別的特征相關(guān)聯(lián)。在附加示例中,實體可以與不同于上述的特征類別的一個或多個附加特征類別中的特征相關(guān)聯(lián)。
對于每個實體,實體模塊16可以執(zhí)行特征處理,以處理從互聯(lián)網(wǎng)資源中提取的實體以及特征。例如,所述特征可包括文本信息,使得實體模塊16可以執(zhí)行對特征的詞干分析(stemming)(例如,應(yīng)用porter詞干器(stemmer))并且將經(jīng)詞干分析的特征變換為一元(unigram)以及二元(bigram)特征。
實體模塊16還可以執(zhí)行實體去重——諸如通過對具有相同名稱或標題的實體進行去重,并且可執(zhí)行特征合并以將與重復(fù)事件相關(guān)聯(lián)的特征合并。如上所討論,與該重復(fù)事件相關(guān)聯(lián)的每個特征可具有相關(guān)聯(lián)的特征值,其可對應(yīng)于那些事件在相應(yīng)特征類別中出現(xiàn)的頻率。例如,如果詞“爵士(jazz)”是在特定事件的周邊特征類別中多次出現(xiàn)的特征,則特征“爵士”的特征值可對應(yīng)于詞“爵士”出現(xiàn)在與該實體相關(guān)聯(lián)的一個或多個互聯(lián)網(wǎng)資源中所包括的周邊文本中的次數(shù)。為了將重復(fù)事件的特征合并,實體模塊16可在待合并的特征落入標題、周邊、查詢、以及錨特征類別下的情況下,將那些特征的特征值確定為兩個實體的相同特征的特征值的和。對于落入分類學(xué)特征類別的實體,實體模塊16也可將待合并的特征的特征值確定為兩個實體的相同特征的特征值中的最大。
作為特征處理的一部分,實體模塊16也可執(zhí)行停止詞去除以及特征再加權(quán)以在信息檢索中減小特征噪聲。停止詞去除可包括全局停止詞去除以及局部停止詞去除。為了執(zhí)行全局停止詞去除,實體模塊16可確定所提取的特征中的每個特征的特征頻率,其可以是與特定特征相關(guān)聯(lián)的實體的數(shù)目。實體模塊16可以確定具有相對高的特征頻率(例如與多于閾值數(shù)目的實體相關(guān)聯(lián)的特征、相關(guān)聯(lián)的特征頻率百分比在前10中的特征等)的特征可以是全局停止詞,并且可以從實體中去除那些特征或者以其他方式將那些特征與實體解除關(guān)聯(lián)。
實體模塊16還可以執(zhí)行局部停止詞去除以去除局部停止詞。局部停止詞可以是特定區(qū)域的實體的頻繁特征,其在執(zhí)行全局停止詞去除之后仍然保持。如上所討論,每個實體可具有相關(guān)聯(lián)的地理位置或地理區(qū)域。例如,當聚焦在諸如紐約的特定位置的實體上時,來自紐約的許多實體可以包含短語“紐約(newyork)”,其在停止詞去除期間可不被去除。對于特定地理位置(例如,紐約),實體模塊16可以執(zhí)行局部停止詞去除,以去除作為該特定地理位置中的實體的特征而頻繁出現(xiàn)的詞或短語。因此,通過確定與地理位置相關(guān)聯(lián)的特定區(qū)域內(nèi)的特征頻率以及去除與該地理位置相關(guān)聯(lián)的停止詞,實體模塊16可針對實體的相關(guān)聯(lián)的地理位置來執(zhí)行局部停止詞去除。
對于每個實體,通過確定與該實體相關(guān)聯(lián)的每個特征的特征權(quán)重——其至少部分地基于相應(yīng)實體的每個特征的特征頻率,實體模塊16可以進一步執(zhí)行與該實體相關(guān)聯(lián)的一個或多個特征的特征再加權(quán)。換言之,實體模塊16可以至少部分地基于與特定實體相關(guān)聯(lián)的特定特征的特征值來對該特定特征進行再加權(quán),因為它關(guān)于該特定實體。如果特征與多個實體相關(guān)聯(lián),則實體模塊16可以對于每個特征-實體對確定單獨的特征權(quán)重,使得這樣的特征可以與多個特征權(quán)重相關(guān)聯(lián),與其相關(guān)聯(lián)的每個實體各有一個特征權(quán)重。
對于每個實體,執(zhí)行特征再加權(quán)可包括按比例減小該實體具有高特征值的頻繁特征以及按比例增大該實體具有低特征值的特征,這是因為即使在執(zhí)行停止詞去除之后還可能存在特征頻率的偏態(tài)分布(skeweddistribution)。對于實體的每個特征的頻率,實體模塊16可以通過對頻率進行對數(shù)擴縮并將經(jīng)對數(shù)擴縮的頻率與其倒排文檔頻率(inversedocumentfrequency)相乘來應(yīng)用對數(shù)標準化的詞頻-倒排文檔頻率(termfrequency-inversedocumentfrequency)(tf-idf),以確定在實體i中特定特征j的權(quán)重,如下:
實體模塊16可以將實體、特征、和從互聯(lián)網(wǎng)資源提取的每個實體的特征類別的關(guān)聯(lián)的指示存儲到實體-特征數(shù)據(jù)存儲52a中,以及與該實體相關(guān)聯(lián)的每個特征的特征權(quán)重。例如,對于作為結(jié)構(gòu)化數(shù)據(jù)的每個實體,實體模塊16可存儲與該結(jié)構(gòu)化數(shù)據(jù)相關(guān)聯(lián)的至少一個或多個特征、該一個或多個特征中的每個特征的特征權(quán)重、以及該一個或多個特征落入的一個或多個特征類別。實體模塊16可進一步將與實體相關(guān)聯(lián)的任何附加信息存儲到特征-實體數(shù)據(jù)存儲52a中,所述附加信息諸如與實體中的每一個相關(guān)聯(lián)的地理位置,或者任何其他合適的信息。
對于特定實體,排名模塊18可確定與該特定實體相關(guān)的一個或多個實體的排名。與該特征實體相關(guān)的一個或多個實體的排名可以是具有與存儲在特征-實體數(shù)據(jù)存儲52a中的一組實體當中的特定實體的最高相關(guān)性水平的一個或多個實體的指示。如果一組實體中的每個實體均具有指示相應(yīng)實體與該特定實體之間的相關(guān)性水平的關(guān)聯(lián)的相似性分值,則與該特定實體相關(guān)的一個或多個實體可以是該實體集合當中關(guān)于該特定實體具有最高相似性分值的一個或多個實體。換言之,給定對該特定實體感興趣的隨機用戶,則與該特定實體相關(guān)的一個或多個實體可以是存儲在特征-實體數(shù)據(jù)存儲52a中的一組實體當中相同隨機用戶會最感興趣的一個或多個實體。
在某些示例中,排名模塊18可以確定被存儲在特征-實體數(shù)據(jù)存儲52a中的實體中的每一個之間的相關(guān)性水平(例如,相似性分值)。因此,在此示例中,對于存儲在特征-實體數(shù)據(jù)存儲52a中的每個實體,排名模塊18可以確定特定實體與存儲在特征-實體數(shù)據(jù)存儲52a中的每個其他實體之間的相關(guān)性水平。
在其他示例中,由于對特定實體感興趣的用戶也可能僅對處于相同地理區(qū)域內(nèi)的其他實體感興趣,不同于確定特征-實體數(shù)據(jù)存儲52a中所存儲的實體中的每一個之間的相關(guān)性水平,排名模塊18作為替代可確定僅在存儲在特征-實體數(shù)據(jù)存儲52a中的、處于相同的地理區(qū)域或位置或者與該相同的地理區(qū)域或位置相關(guān)聯(lián)的實體之間的相關(guān)性。排名模塊18可以至少部分地基于與實體相關(guān)聯(lián)的地理位置來確定該實體是否在相同的地理區(qū)域內(nèi)。這樣,在此示例中,排名模塊18可以確定在特征-實體數(shù)據(jù)存儲52a中所存儲的實體的子集(例如,小于全部)中的每個之間的相關(guān)性水平(例如,相似性分值)。
在一個示例中,排名模塊18可以執(zhí)行組合器(combiner)技術(shù),以確定與一組實體中的每一個相關(guān)的一個或多個實體的排名。排名模塊18可以執(zhí)行組合器技術(shù),以確定存儲在特征-實體數(shù)據(jù)存儲52a中的一組實體中的每個實體之間的相關(guān)性。例如,排名模塊18可以確定存儲在特征-實體數(shù)據(jù)存儲52a中的與相同地理區(qū)域或者地理位置相關(guān)聯(lián)的一組實體中的每個實體之間的相關(guān)性水平。對于可被稱作源實體的特定實體,排名模塊18可以通過確定該源實體與稱作目標實體的另一實體之間的相同特征集合中的特征的相似性水平,來確定該源實體和該目標實體之間的相關(guān)性水平。
假定與源實體和目標實體相關(guān)聯(lián)的k個特征類別的列表,
更具體的,為了確定特定的特征類別的源實體s和目標實體t之間的相似性分值,排名模塊18可以將每個實體視為特征的分布。為此,排名模塊18可以利用jeffreys-kullback-leibler散度——其可以是kullback-leibler散度的對稱版本,來確定源實體和目標實體的特征的分布之間的差異的度量。給定特征集合
排名模塊18可以執(zhí)行組合器技術(shù),以確定k個特征類別中的每一個的源實體s和目標實體t之間的相似性分值為
給定特征類別j,源實體s和目標實體t的相似性分值可以被標示為rj。排名模塊18可以通過倒數(shù)排名融合(reciprocalrankfusion)將源實體s和目標實體t的特征類別中的每一個的相似性分值組合為單個排名列表。給定目標實體t相對于源實體s與相似性分值
因此,通過執(zhí)行組合器技術(shù),排名模塊18可以至少部分地基于兩個實體的特征之間的相似性的聚合來確定兩個實體之間的相關(guān)性水平。如上所討論,排名模塊18可確定在特征-實體數(shù)據(jù)存儲52a中所存儲的實體中的一組實體中的每個實體之間的相關(guān)性水平,并且可以將排名模塊18所確定的一組實體中的每個實體之間的相關(guān)性水平的指示存儲到排名數(shù)據(jù)存儲52c中。例如,排名數(shù)據(jù)存儲52c可以將實體對的指示連同相關(guān)聯(lián)的相關(guān)性水平——諸如相似性分值的指示一起存儲到排名數(shù)據(jù)存儲52c中。
在其他示例中,對于一組實體中的每個實體,排名模塊18可基于在特征-實體數(shù)據(jù)存儲52a中所存儲的實體當中的一組實體中的每個實體之間的相關(guān)性水平來確定與該特定實體相關(guān)的一個或多個實體的排名,諸如具有與該組實體當中的特定實體的最高相關(guān)性水平的一個或多個實體的排名,并且可以將與該組實體中的每個實體相關(guān)的一個或多個實體的排名的這樣的指示存儲到排名數(shù)據(jù)存儲52c中。
這樣,例如,iss14可以從計算設(shè)備2接收對實體的指示,根據(jù)存儲在排名數(shù)據(jù)存儲52c中的數(shù)據(jù)來確定與特定實體相關(guān)的一個或多個實體的排名,并且將與該特定實體相關(guān)的一個或多個實體的排名的指示傳送至計算設(shè)備2。在一個示例中,iss14從計算設(shè)備2接收的實體的指示可以指示與該實體相關(guān)聯(lián)的名稱,諸如“milesdavis”或者“beethoven’s5thsymphony(貝多芬第五交響曲)”。排名模塊18可利用與該實體相關(guān)聯(lián)的名稱來在排名數(shù)據(jù)存儲52c中進行索引,以找出與該名稱相關(guān)聯(lián)的實體,并且可以確定排名數(shù)據(jù)存儲52c內(nèi)、與該特定實體相關(guān)的一個或多個實體的排名的指示被存儲的位置。排名模塊18可檢索與該特定實體相關(guān)的一個或多個實體的排名的指示。iss14可以將與該特定實體相關(guān)的一個或多個實體的排名的所檢索的指示格式化為任何合適的結(jié)構(gòu)化數(shù)據(jù)格式——諸如json或者xml以用于傳送該一個或多個實體的排名的指示,并且可以諸如經(jīng)由網(wǎng)絡(luò)12或互聯(lián)網(wǎng)20將該一個或多個實體的指示輸出至計算設(shè)備2。
在其他示例中,不同于從排名數(shù)據(jù)存儲52c中檢索與該特定實體相關(guān)的一個或多個實體的排名,iss14可以響應(yīng)于例如從計算設(shè)備2接收到對實體的指示而使用本文所述的組合器技術(shù)來在運行中(on-the-fly)確定與該特定實體相關(guān)的一個或多個實體的排名,并使用本文所述的技術(shù)諸如經(jīng)由網(wǎng)絡(luò)12或互聯(lián)網(wǎng)20來將一個或多個實體的排名的指示輸出至計算設(shè)備2。
在另一示例中,iss14可以例如從計算設(shè)備2接收對查詢的指示。查詢可以是文本數(shù)據(jù),諸如詞、短語等,計算設(shè)備2可以接收該查詢以作為輸入。例如,查詢可以是對于與該查詢相關(guān)的一個或多個實體的搜索短語。響應(yīng)于接收對查詢的指示,計算設(shè)備2可以經(jīng)由排名模塊18來確定與該查詢相關(guān)的一個或多個實體的排名,并且可向計算設(shè)備2輸出與該查詢相關(guān)的一個或多個實體的排名的指示。
具體地,響應(yīng)于計算設(shè)備2接收諸如“馬拉松(marathon)”的查詢的指示,排名模塊18可以部分地基于執(zhí)行本文所述的組合器技術(shù)來確定與該搜索短語相關(guān)的一個或多個實體的排名。排名模塊18可以確定均具有與所發(fā)布的查詢匹配的實體名稱或標題的一個或多個實體的集合為種子集合s。使用這些種子實體,排名模塊18可以確定與種子集合s內(nèi)的每個實體相關(guān)的一個或多個實體——包括該種子實體在內(nèi)——為候選實體cs集合。排名模塊18可以通過該候選實體cs集合內(nèi)的候選實體的相應(yīng)相似性分值來對它們進行排名。如果從不同的種子實體中多次檢索到該候選實體集合內(nèi)的實體,則因為排名模塊18確定該實體與種子集合s中的多于一個的實體相關(guān),所以排名模塊18可以對其相似性分值進行合計,以得出該實體的單個相似性分值。更正式地,目標實體t與查詢q的相似性可以被定位為
在另一個示例中,排名模塊18可以執(zhí)行擴展器技術(shù),以確定與一組實體中的每個實體相關(guān)的一個或多個實體的排名。排名模塊18可以執(zhí)行擴展器技術(shù)以確定在特征-實體數(shù)據(jù)存儲52a中所存儲的一組實體中的每個實體之間的相關(guān)性水平。具體地,排名模塊18可以執(zhí)行擴展技術(shù),以至少部分地基于確定給定的一對兩個實體的特征之間的語義相關(guān)性來確定該兩個實體之間的相關(guān)性水平。例如,排名模塊18可以確定如果兩個實體二者都與第三方實體高度相似,則該兩個實體高度相似,即使基于執(zhí)行上文所討論的組合器技術(shù)兩個實體具有相對低的相似性度量。
為此,排名模塊18可以生成特征-實體二分圖(關(guān)于圖3a-3c進行更詳細地描述),其中特征和實體都被表示為節(jié)點。具體地,該圖可包括多個節(jié)點,其包括表示多個特征的特征節(jié)點以及表示多個實體的實體節(jié)點。圖中的實體節(jié)點中的每一個可經(jīng)由均具有邊權(quán)重的一個或多個邊來連接至該特征節(jié)點中的一個或多個,其中如果由該實體節(jié)點表示的實體與由該特征節(jié)點表示的特征相關(guān)聯(lián),則該實體節(jié)點可連接至該特征節(jié)點。
排名模塊18可以將由排名模塊18生成的特征-實體二分圖的指示作為數(shù)據(jù)來存儲到圖數(shù)據(jù)存儲52b中,其可包括一個或多個數(shù)據(jù)結(jié)構(gòu),諸如陣列、數(shù)據(jù)庫記錄、寄存器等。例如,排名模塊18可以將指示多個特征節(jié)點、多個實體節(jié)點、將每個實體節(jié)點連接到所述特征節(jié)點中的一個或多個的一個或多個邊、該一個或多個邊的邊權(quán)重等的數(shù)據(jù)存儲到圖數(shù)據(jù)存儲52b中。在一個示例中,對于特征-實體二分圖的每個實體節(jié)點,排名模塊18可將以下存儲到圖數(shù)據(jù)存儲52b中:指示該實體節(jié)點所表示的實體的數(shù)據(jù)、指示連接到該實體節(jié)點的一個或多個特征節(jié)點的數(shù)據(jù)、和/或?qū)⒃搶嶓w節(jié)點連接至該一個或多個特征節(jié)點中的每一個的一個或多個邊的邊權(quán)重的值。類似地,對于特征-實體二分圖的每個特征節(jié)點,排名模塊18可以將指示特征節(jié)點所表示的特征的數(shù)據(jù)存儲在圖數(shù)據(jù)存儲52b中。
貫穿本公開,術(shù)語特征-實體二分圖或者圖可以與存儲在圖數(shù)據(jù)存儲52b中的指示該特征-實體二分圖的數(shù)據(jù)同義。換言之,盡管本公開可以在特征-實體二分圖上描述由模塊16和18執(zhí)行的操作,但是應(yīng)當理解,模塊16和18實際上可在指示特征-實體二分圖的圖數(shù)據(jù)存儲52b中所存儲的數(shù)據(jù)上進行操作,該數(shù)據(jù)諸如特征節(jié)點、實體節(jié)點、邊、邊權(quán)重、實體節(jié)點中的每一個與特征節(jié)點中的一個或多個之間經(jīng)由邊的連接等,其可組成該特征-實體二分圖。
將實體節(jié)點連接到特征節(jié)點的每個邊可以具有邊權(quán)重,該邊權(quán)重對應(yīng)于特征節(jié)點所表示的特征的特征權(quán)重,該特征節(jié)點與所連接的實體節(jié)點所表示的實體相關(guān)聯(lián),如上面關(guān)于特征再加權(quán)所討論。在某些示例中,在圖中,實體節(jié)點可不連接至其他實體節(jié)點,并且特征節(jié)點可不連接至其他特征節(jié)點。如果實體的特征出現(xiàn)在多個特征類別中,則排名模塊18可以將那些特征疊縮為由連接到表示該實體的實體節(jié)點的單個特征節(jié)點所表示的單個特征。例如,排名模塊18可將對于特定實體被歸類為查詢特征類別和標題特征類別二者的特征“電影(movie)”疊縮為由單個特征節(jié)點表示的單個特征,并且可以將兩個特征中該特征的特征權(quán)重合計為將實體節(jié)點連接至特征節(jié)點的邊的單個邊權(quán)重中,從而減小了特征維度并減輕了特征稀疏性問題。
從概念上來講,排名模塊18可以確定一對實體的相關(guān)性,諸如源實體s和目標實體t之間的相關(guān)性為
換言之,兩個實體節(jié)點可以因為他們都連接到相同的特征節(jié)點而在圖中處于彼此的直接鄰域內(nèi)。然而,基于源實體和目標實體的特征之間的相似性連同由處于表示源實體和目標實體的實體節(jié)點的鄰域內(nèi)的實體節(jié)點表示的另一實體的特征一起,排名模塊18仍然可以確定兩個實體相關(guān),即使它們的相應(yīng)實體節(jié)點并不處于彼此的直接鄰域內(nèi)。因此,對于特定的源實體,即使表示該源實體和目標實體的實體節(jié)點沒有連接至相同的特征節(jié)點,只要表示該源實體和該目標實體的實體節(jié)點與處于表示該源實體和目標實體的實體節(jié)點鄰域內(nèi)的實體節(jié)點所表示的另一實體相關(guān),排名模塊18就可確定該源實體與目標實體相關(guān)。
在生成了特征-實體二分圖后,排名模塊18可以執(zhí)行標簽傳播來跨特征-實體二分圖傳播標簽,以將標簽的分布與該多個節(jié)點中的每個節(jié)點相關(guān)聯(lián),使得圖中的每個節(jié)點可以與標簽的分布相關(guān)聯(lián)。因此,作為標簽傳播的結(jié)果,圖中的每個特征節(jié)點和每個實體節(jié)點可與標簽的分布相關(guān)聯(lián)。如上所討論,跨特征-實體二分圖來執(zhí)行標簽傳播可包括排名模塊18在指示特征-實體二分圖的圖數(shù)據(jù)存儲52b中的數(shù)據(jù)存儲上操作,以執(zhí)行標簽傳播。
排名模塊18跨圖來傳播的標簽中的每一個可指示被表示為該圖中的節(jié)點的實體中的一個,使得與該圖中的節(jié)點相關(guān)聯(lián)的標簽的分布可以是與該特定節(jié)點所表示的實體或特征相關(guān)的一個或多個實體的分布。此外,與圖中的節(jié)點相關(guān)聯(lián)的標簽的分布可以指示在一個或多個實體的分布中的一個或多個實體中的每個實體與由該特定節(jié)點表示的實體或特征的相關(guān)性水平,使得與圖中的節(jié)點相關(guān)聯(lián)的標簽的分布可以是與由特定實體節(jié)點或特征節(jié)點所表示的實體或特征相關(guān)的一個或多個實體的相關(guān)性排名的指示。
為了發(fā)起跨特征-實體二分圖的標簽傳播,排名模塊18可以通過利用多個標簽中的一個對多個實體節(jié)點中的每一個進行播種來將標簽與每個實體節(jié)點相關(guān)聯(lián)。初始與實體節(jié)點相關(guān)聯(lián)的這樣的標簽可以被稱為種子標簽。與特定實體節(jié)點相關(guān)聯(lián)的標簽可以標識由該實體節(jié)點表示的實體,使得排名模塊18所播種的標簽中的每一個標簽可以標識實體節(jié)點中的對應(yīng)實體節(jié)點。每個標簽可以是身份標簽,使得實體可以是其自身的相關(guān)標簽。因此,表示實體a的實體節(jié)點可以與“實體a”的標簽相關(guān)聯(lián),其可以是關(guān)聯(lián)的實體的標題。
排名模塊18可以執(zhí)行標簽傳播,以跨圖來傳播與該實體節(jié)點相關(guān)聯(lián)的標簽,使得每個節(jié)點可以與標簽中的一個或多個的分布相關(guān)聯(lián)。為了執(zhí)行標簽傳播,排名模塊18可以將與圖的每個節(jié)點相關(guān)聯(lián)的標簽的分布確定為使目標函數(shù)最小化的最優(yōu)解。
給定特征-實體二分圖,目標函數(shù)可以同時在圖中全部節(jié)點上的使以下最小化:真實和誘導(dǎo)(induced)的標簽分布之間的平方損失、懲罰具有與該實體節(jié)點不同的標簽分布的相鄰特征節(jié)點的正則項(regularizationterm)、以及將所誘導(dǎo)的標簽分布向在先的分布平滑的正則項,其在實踐中通常是均勻分布。
更具體地,對于具有其特征鄰居
因此,在此示例中,
此外,μnp可以是懲罰相鄰特征節(jié)點的第一正則項,該相鄰特征節(jié)點關(guān)聯(lián)于與實體節(jié)點相關(guān)聯(lián)的標簽分布不同的標簽分布,其中
對于具有其實體鄰居
通過執(zhí)行標簽傳播,排名模塊18可以將圖的實體節(jié)點和特征節(jié)點的標簽分布確定為使整個圖上的目標函數(shù)最小化的最佳解。因此,盡管排名模塊18可能沒有使每個個體實體節(jié)點或特征節(jié)點的目標函數(shù)最小化,但是排名模塊18可以使構(gòu)成圖的特征節(jié)點和實體節(jié)點的總體目標函數(shù)最小化。
排名模塊18可以執(zhí)行無監(jiān)督機器學(xué)習,以執(zhí)行本文所討論的標簽傳播。具體地,給定其中多個實體節(jié)點經(jīng)由具有關(guān)聯(lián)的邊權(quán)重的邊來連接至多個特征節(jié)點的特征-實體二分圖,其中多個實體節(jié)點利用多個標簽來被播種,排名模塊18可以以多次迭代(例如,5次迭代)執(zhí)行標簽傳播而無需附加輸入,以對于該圖的每個節(jié)點確定標簽分布來最小化上述的目標函數(shù)。
通過執(zhí)行標簽傳播,排名模塊18可以將標簽的分布與圖中的每個節(jié)點相關(guān)聯(lián)。與節(jié)點相關(guān)聯(lián)的標簽分布中的每一個可包括與相關(guān)聯(lián)的實體節(jié)點或特征節(jié)點所表示的實體或特征相關(guān)的一個或多個實體的排名的指示。由于圖中的每個標簽可以標識實體節(jié)點所表示的特定實體,因此與節(jié)點相關(guān)聯(lián)的標簽的分布可以指示與該節(jié)點所表示的特定特征或?qū)嶓w相關(guān)的一個或多個實體的實體名稱。此外,與節(jié)點相關(guān)聯(lián)的標簽分布還可指示實體與該節(jié)點所表示的特定特征或?qū)嶓w的相關(guān)性水平。這樣,標簽的分布可以指示與相關(guān)聯(lián)的實體節(jié)點或特征節(jié)點所表示的實體或特征相關(guān)的一個或多個實體的排名。排名模塊18可以將圖中所表示的每個實體和每個特征的指示存儲到排名數(shù)據(jù)存儲52c中,包括與該實體或特征相關(guān)的一個或多個實體的排名的指示(通過相關(guān)性水平)。
因此,iss14可以經(jīng)由網(wǎng)絡(luò)12或互聯(lián)網(wǎng)20從例如計算設(shè)備2接收指示實體或者特征的指示的輸入數(shù)據(jù),根據(jù)存儲在排名數(shù)據(jù)存儲52c中的數(shù)據(jù)來確定與該實體或特征相關(guān)的一個或多個實體的排名的指示,并且將包括與特定實體或特征相關(guān)的一個或多個實體的排名的指示的傳出數(shù)據(jù)傳送至計算設(shè)備2。在一個示例中,對iss14從計算設(shè)備2接收的實體的指示可以指示與該實體相關(guān)聯(lián)的名稱,諸如“milesdavis”或者“beethoven’s5thsymphony”。排名模塊18可以利用與該實體相關(guān)聯(lián)的名稱來在排名數(shù)據(jù)存儲52c中進行索引,以找出與該名稱相關(guān)聯(lián)的實體,并且可以確定排名數(shù)據(jù)存儲52c內(nèi)、與該特定實體相關(guān)的一個或多個實體的排名的指示被存儲的位置。排名模塊18可以檢索與該特定實體相關(guān)的一個或多個實體的排名的指示。iss14可將與該特定實體相關(guān)的一個或多個實體的排名的所檢索的指示格式化為任何合適的結(jié)構(gòu)化數(shù)據(jù)格式——諸如json或者xml以用于傳送該一個或多個實體的排名的指示,并且可諸如經(jīng)由網(wǎng)絡(luò)12或互聯(lián)網(wǎng)20將該一個或多個實體的指示輸出至計算設(shè)備2。
在另一個示例中,iss14可以從例如計算設(shè)備2接收指示查詢的傳入數(shù)據(jù)。查詢可以是文本數(shù)據(jù),諸如詞、短語等,計算設(shè)備2可以接收該查詢以作為輸入。例如,查詢可以是對于與查詢相關(guān)的一個或多個實體的搜索短語。響應(yīng)于接收對該查詢的指示,計算設(shè)備2可經(jīng)由排名模塊18來確定與該查詢相關(guān)的一個或多個實體的排名,并且可將與該查詢相關(guān)的一個或多個實體的排名的指示輸出至計算設(shè)備2。
給定諸如“馬拉松”的對查詢的指示,排名模塊18可確定與該查詢相關(guān)的一個或多個實體的排名。排名模塊18可以將該查詢視為特征,諸如通過將該查詢的文本映射到特征的文本,從而確定
圖3a-3c是均圖示了示例特征-實體二分圖的框圖,排名模塊18可以構(gòu)造該特征-實體二分圖來執(zhí)行根據(jù)本公開的方面的擴展器技術(shù)。如圖3a所示,排名模塊18可以生成包括經(jīng)由邊86a-86f所連接的連接至特征節(jié)點84d-84f的實體節(jié)點84a和84b的特征-實體二分圖80。排名模塊18可以分別利用標簽88a和88b來對實體節(jié)點82a和84b進行播種。邊86a-6f中的每一個可以具有相關(guān)聯(lián)的邊權(quán)重(未示出)。
排名模塊18可以通過運用標簽傳播的構(gòu)思來在圖90上執(zhí)行機器學(xué)習,所述標簽傳播是基于圖的學(xué)習技術(shù),其使用與每個標簽的種子節(jié)點相關(guān)聯(lián)的信息并且以有原則且迭代的方式將這些標簽在該圖上傳播。標簽傳播可利用兩個輸入源:圖80以及種子標簽88a和88b。排名模塊8可以基于圖80上的所提供的圖結(jié)構(gòu)來對種子標簽88a和88b進行傳播,以將圖80中的節(jié)點84a-84f中的每一個的種子標簽的分布關(guān)聯(lián)為使目標函數(shù)最小化的最優(yōu)解。
排名模塊18可以以多個迭代來執(zhí)行標簽傳播,以將圖80中的節(jié)點84a-84f中的每一個的種子標簽的分布關(guān)聯(lián)為使目標函數(shù)最小化的最優(yōu)解。圖3b示出了在圖80上的標簽傳播的第一迭代。如圖3b所示,在標簽傳播的第一迭代之后,排名模塊18可以分別將標簽82a-82f的分布與節(jié)點84a-84f相關(guān)聯(lián)。排名模塊88還可跨圖80來分發(fā)標簽88a和88b,使得標簽8a-82f的分布可以包括標簽88a和88b中的一個或二者的指示。標簽的每個分布可包括對一個或多個相關(guān)實體的指示以及由節(jié)點表示的實體或特征與該一個或多個相關(guān)實體中的每一個之間的相關(guān)性水平的指示。例如,與特征節(jié)點84d相關(guān)聯(lián)的標簽82d的分布包括實體sciencefictionmovies(科幻電影)和scienceficitonfilms(科幻影片)的指示,并且包括那些實體和與特征節(jié)點84d相關(guān)聯(lián)的特征之間的、在0到1.0數(shù)值范圍上的相關(guān)性的指示,其中較大的分值指示較高的相似性水平。
排名模塊18可以進一步在圖80上迭代執(zhí)行標簽傳播。圖3c示出了在圖80上的標簽傳播的進一步迭代。如圖3c所示,在場傳播的進一步迭代之后,排名模塊18可以進一步修改與節(jié)點84a-84f中的一個或多個相關(guān)聯(lián)的標簽分布,以確定使圖80上的目標函數(shù)最小化的優(yōu)化解。例如,節(jié)點82c的分布現(xiàn)在包括實體sciencefictionmovies和scienceficitonfilms的指示,并且包括與特征節(jié)點84d關(guān)聯(lián)的那些實體和特征之間在0到1.0比例上的相關(guān)性指示,其中分值越大表示相似性水平越高。
圖4是圖示根據(jù)本公開的一個或多個方面的、用以確定相關(guān)實體的示例過程的流程圖。在某些示例中,該過程可由圖1和2所示的iss14、實體模塊16、以及排名模塊18中的一個或多個來執(zhí)行。在某些示例中,該過程可利用圖1-2所示的附加模塊或組件來執(zhí)行。僅僅出于說明的目的,在一個示例中,該過程由圖2中所示的iss14來執(zhí)行。如圖4所示,該過程可包括由排名模塊18生成包括多個節(jié)點的圖,諸如圖80,其中該多個節(jié)點包括表示多個實體的多個實體節(jié)點以及表示多個特征的多個特征節(jié)點,并且其中該多個實體節(jié)點中的每一個在圖中連接至該多個特征節(jié)點中的一個或多個上(102)。該過程進一步包括由排名模塊18執(zhí)行標簽傳播來跨圖傳播多個標簽,以將標簽的分布與該多個節(jié)點中的每一個相關(guān)聯(lián)(104)。在某些示例中,iss14可以被配置來接收感興趣特征或感興趣實體中的至少一個的指示。在某些示例中,iss14可以被配置來輸出與該感興趣特征或該感興趣實體相關(guān)的一個或多個相關(guān)實體的指示。
在某些示例中,該過程可進一步包括由排名模塊18利用該多個標簽中的相應(yīng)標簽對該多個實體節(jié)點中的每個節(jié)點進行播種,其中該標簽中的每個標簽標識該多個實體節(jié)點中的對應(yīng)節(jié)點。在某些示例中,執(zhí)行標簽傳播可進一步包括由排名模塊18執(zhí)行標簽傳播,以將與該多個節(jié)點中的每個節(jié)點相關(guān)聯(lián)的標簽的分布確定為使目標函數(shù)最小化的最優(yōu)解。
在某些示例中,該多個特征節(jié)點的針對實體節(jié)點的目標函數(shù)被最小化,并且其中該目標函數(shù)包括:與實體節(jié)點相關(guān)聯(lián)的真實標簽分布和與該實體節(jié)點相關(guān)聯(lián)的經(jīng)學(xué)習標簽分布之間的平方損失;懲罰相鄰特征節(jié)點的第一正則項,該相鄰特征節(jié)點關(guān)聯(lián)于與該實體節(jié)點相關(guān)聯(lián)的標簽分布不同的標簽分布;以及將與該實體節(jié)點相關(guān)聯(lián)的經(jīng)學(xué)習標簽分布向在先的標簽分布平滑的第二正則項。
在某些示例中,該多個特征節(jié)點的針對特征節(jié)點的目標函數(shù)被最小化,并且其中該目標函數(shù)包括:懲罰相鄰實體節(jié)點的第一正則項,該相鄰實體節(jié)點關(guān)聯(lián)于與該特征節(jié)點相關(guān)聯(lián)的標簽分布不同的標簽分布;以及將與該特征節(jié)點相關(guān)聯(lián)的經(jīng)學(xué)習標簽分布向在先的標簽分布平滑的第二正則項。
在某些示例中,標簽分布中的每一個包括與關(guān)聯(lián)的實體節(jié)點或特征節(jié)點所表示的實體或特征相關(guān)的一個或多個實體的排名的指示。在某些示例中,與關(guān)聯(lián)的節(jié)點所表示的實體或特征相關(guān)的一個或多個實體的排名的指示包括:該一個或多個實體中的每一個與關(guān)聯(lián)的實體節(jié)點或特征節(jié)點所表示的實體或特征的相關(guān)性水平的指示。
在某些示例中,該過程進一步包括由排名模塊18經(jīng)由圖的一個或多個邊來將圖中表示對應(yīng)實體的多個實體節(jié)點中的每個節(jié)點和圖中表示與該對應(yīng)實體相關(guān)聯(lián)的一個或多個特征的多個特征節(jié)點中的一個或多個特征節(jié)點連接。在某些示例中,該過程可進一步包括由排名模塊18將一個或多個權(quán)重關(guān)聯(lián)至該一個或多個邊。
在某些示例中,該過程可進一步包括由實體模塊16從與該多個實體相關(guān)聯(lián)的多個互聯(lián)網(wǎng)資源提取與該多個實體相關(guān)聯(lián)的多個特征。在某些示例中,該多個實體與相同地理區(qū)域相關(guān)聯(lián)。
圖5是圖示根據(jù)本公開的一個或多個方面的、用以確定相關(guān)實體的示例過程的流程圖。在某些示例中,該過程可由圖1和2中所示的iss14、實體模塊16、以及排名模塊18中的一個或多個來執(zhí)行。在某些示例中,該過程可利用圖1-2所示的附加模塊或組件來執(zhí)行。僅僅出于說明的目的,在一個示例中,該過程由圖2所示的iss14來執(zhí)行。如圖5所示,該過程可包括由iss14的通信單元46接收感興趣特征或感興趣實體中的至少一個的指示(202)。該過程可進一步包括:由iss14的一個或多個處理器44至少部分地基于圖中表示該感興趣特征的多個特征節(jié)點中的一個或者圖中表示該感興趣實體的多個實體節(jié)點中的一個相關(guān)聯(lián)的相應(yīng)標簽分布,來確定與該感興趣特征或感興趣實體相關(guān)的一個或多個相關(guān)實體,其中該圖包括多個節(jié)點,其中該多個節(jié)點包括表示多個實體的多個實體節(jié)點以及表示多個特征的多個特征節(jié)點,并且其中該多個實體節(jié)點中的每一個在圖中連接到該多個特征節(jié)點中的一個或多個上,并且其中多個標簽經(jīng)由標簽傳播來跨圖上傳播,以將標簽分布與多個節(jié)點中的每個節(jié)點相關(guān)聯(lián)(204)。該過程可進一步包括:對于該感興趣特征或感興趣實體中的至少一個、由iss14的通信單元46輸出與該感興趣特征或感興趣實體相關(guān)的一個或多個相關(guān)實體的指示,其中輸出該一個或多個相關(guān)實體的指示至少部分地基于與表示感興趣特征的多個特征節(jié)點中的一個或表示感興趣實體的多個實體節(jié)點中的一個相關(guān)聯(lián)的相應(yīng)標簽分布(206)。
在某些示例中,接收該感興趣特征或該感興趣實體中的至少一個的指示進一步包括由iss14經(jīng)由網(wǎng)絡(luò)12從遠程計算設(shè)備2接收指示該感興趣特征或該感興趣實體中的至少一個的傳入數(shù)據(jù),并且對于該感興趣特征或感興趣實體中的至少一個,由iss14輸出與該感興趣特征或感興趣實體相關(guān)的一個或多個相關(guān)實體的指示進一步包括由iss14經(jīng)由網(wǎng)絡(luò)12向遠程計算設(shè)備2傳送傳出數(shù)據(jù),該傳出數(shù)據(jù)包括與該感興趣特征或該感興趣實體相關(guān)的一個或多個相關(guān)實體的指示。
在一個或多個示例中,所描述的功能可以以硬件、軟件、固件或其任何組合中實施。如果以軟件實現(xiàn),則所述功能可以作為一個或多個指令或代碼被存儲在計算機可讀介質(zhì)上或者通過計算機可讀介質(zhì)傳送,并由基于硬件的處理單元來執(zhí)行。計算機可讀介質(zhì)可包括:一個或多個計算機可讀存儲媒介或介質(zhì),其對應(yīng)于諸如數(shù)據(jù)存儲介質(zhì)的有形介質(zhì),或者通信介質(zhì),其包括例如根據(jù)通信協(xié)議來促進計算機程序從一個地點傳送至另一個地點的任何介質(zhì)。這樣,計算機可讀介質(zhì)通??蓪?yīng)于:(1)非暫時性的有形計算機可讀存儲介質(zhì);或者(2)諸如信號或載波的通信介質(zhì)。數(shù)據(jù)存儲介質(zhì)可以是任何可用介質(zhì),其可由一個或多個計算機或者一個或多個處理器來訪問以檢索指令、代碼和/或數(shù)據(jù)結(jié)構(gòu),以用于實現(xiàn)本公開所述的技術(shù)。計算機程序產(chǎn)品可包括計算機可讀介質(zhì)。
作為示例而非限制,這樣的計算機可讀存儲介質(zhì)可包括ram、rom、eeprom、cd-rom或者其他光盤存儲、磁盤存儲、或者其他磁存儲設(shè)備、閃存、或者可用于以指令或數(shù)據(jù)結(jié)構(gòu)的形式存儲期望的程序代碼并可由計算機訪問的任何其他存儲介質(zhì)。此外,任何連接被適當?shù)胤Q為計算機可讀介質(zhì)。例如,如果使用同軸線纜、光纖線纜、雙絞線、數(shù)字訂戶線路(dsl)、或者諸如紅外、無線電、以及微波的無線技術(shù)從網(wǎng)站、服務(wù)器或者其它遠程源傳送指令,則同軸線纜、光纖線纜、雙絞線、dsl或者諸如紅外、無線電、以及微波的無線技術(shù)包括在介質(zhì)的定義中。然而,應(yīng)當理解,計算機可讀存儲媒介、介質(zhì)以及數(shù)據(jù)存儲介質(zhì)不包括連接、載波、信號或其他變換介質(zhì),而是涉及非暫時性的、有形存儲介質(zhì)。本文所使用的磁盤或者光盤包括壓縮盤(cd)、激光盤、光盤、數(shù)字多功能盤(dvd)、軟盤和藍光盤(blu-raydics),其中磁盤通常以磁方式來再現(xiàn)數(shù)據(jù),而光盤利用激光來以光學(xué)方式再現(xiàn)數(shù)據(jù)。以上的組合應(yīng)當也應(yīng)當被包括在計算機可讀取介質(zhì)的范圍內(nèi)。
指令可由一個或多個處理器來執(zhí)行,諸如一個或多個數(shù)字信號處理器(dsp)、通用微處理器、專用集成電路(asic)、現(xiàn)場可編程邏輯陣列(fpga)、或者其他等效的集成或分離邏輯電路。因此,本文所使用的術(shù)語“處理器”可以指代前述結(jié)構(gòu)中的任一或者適合實現(xiàn)本文所述的技術(shù)的任何其他結(jié)構(gòu)。此外,在某些方面,本文所述的功能可以在專用硬件和/或軟件模塊中提供。此外,所述技術(shù)可以完全在一個或多個電路或者邏輯元件中實現(xiàn)。
本公開的技術(shù)可以以廣泛多種設(shè)備或裝置實現(xiàn),包括無線送受話器、集成電路(ic)或者ic集合(例如芯片組)。本公開中描述了各個組件、模塊、或單元以強調(diào)被配置來實現(xiàn)所公開技術(shù)的設(shè)備的功能方面,而無需通過不同的硬件單元實現(xiàn)。相反,如上所述,各種單元可以被組合在硬件單元中,或者由協(xié)作硬件單元的集合來提供,包括與合適的軟件和/或固件結(jié)合的上述的一個或多個處理器。
已經(jīng)描述了各個實施例。這些以及其他實施例均落入所附權(quán)利要求書的范圍內(nèi)。