用于提供具有措辭偏好的主題模型的方法、裝置及計算機程序產品的制作方法
【專利摘要】一種用于確定用戶的一個或者多個優(yōu)選措辭的裝置,可以包括處理器和存儲可執(zhí)行計算機程序代碼的存儲器,該可執(zhí)行計算機程序代碼使得裝置至少執(zhí)行包括實施包括與至少一個用戶的一個或者多個措辭偏好相關聯的數據的主題模型的操作。該計算機程序代碼可以進一步使得裝置實施主題模型的訓練模型,以部分基于分析訓練模型的訓練數據而生成措辭偏好。訓練數據包括與一個或者多個確定的主題相關聯的內容。該計算機程序代碼可以進一步使得裝置確定措辭偏好對應于相應用戶的一個或者多個優(yōu)選措辭。還可以提供對應的方法和計算機程序產品。
【專利說明】用于提供具有措辭偏好的主題模型的方法、裝置及計算機程序產品
【技術領域】
[0001]本發(fā)明的示例性實施例總體上涉及主題建模,并且更具體地,涉及用于促進以有效和可靠方式部分基于利用主題模型來生成措辭偏好的方法、裝置和計算機程序產品。
【背景技術】
[0002]現代通信時代已經帶來有線網絡和無線網絡的巨大發(fā)展。計算機網絡、電視網絡和電話網絡受消費者需求刺激正在經歷史無前例的技術發(fā)展。無線和移動網絡技術已經解決相關消費者需求,同時提供信息傳遞的更多靈活性和即時性。
[0003]當前和未來網絡技術繼續(xù)促進信息傳遞的輕松和對用戶的便利性。由于電子通信設備現在普遍存在的性質,所有年齡和教育水平的人們正在利用電子設備與其它個人或者聯系人進行通信、接收服務和/或共享信息、媒體或者其它內容。其中存在增加信息傳遞的輕松的需求的一個領域涉及向移動終端的用戶遞送服務。服務可以是以用戶所需的特定媒介或者通信應用的形式,諸如音樂播放器、游戲機、電子書、短消息、電子郵件、內容共享等。服務也可以是以交互應用的形式,其中用戶可以響應于網絡設備,以便執(zhí)行任務或者達成目標。
[0004]一種這樣的服務可以涉及標識一個或者多個文檔中的主題并且基于標識的主題向用戶提供措辭建議。就這一點而言,主題建模通常是一種類型的用于發(fā)現在文檔匯總中發(fā)生的主題的統(tǒng)計模型。目前,主題模型可以將文檔建模為主題的混合并且每個主題可以由措辭表示。盡管可以從文檔來標識主題,但是文檔的全部或者部分的作者的措辭偏好通常未被考慮。措辭偏好可以與不同人即使在討論相同主題時一般使用不同措辭的概念相關。當前建模方法通常不考慮用戶的措辭偏好。
[0005]就這一點而言,當前主題模型方法通常假定每個措辭客觀地表示文檔的主題。例如,現有的主題模型通常假設相同措辭在關于相同主題進行表達時對于不同用戶是相同的。然而,實際上文檔的每個措辭通常涉及用戶的主觀表達。例如,針對相同主題,不同用戶在基于用戶的措辭偏好討論(多個)相同主題時可能采用不同類型的措辭。
[0006]此外,現有的主題模型通常需要在訓練主題模型所利用的訓練過程開始時知道文檔的主題的數目。然而,這可能具有使得主題模型不靈活并且難以確定主題的問題。
[0007]照此,提供用于實現提供如下主題類型的機制可能是有益的,該主題類型說明不同用戶或者作者的措辭偏好并且該主題類型可以無需在訓練主題模型之前知道主題的數目。
【發(fā)明內容】
[0008]因此提供方法、裝置和計算機程序產品以用于使能提供有效和可靠的主題模型,該主題模型可以確定(多個)用戶的一個或者多個措辭偏好。在一個示例實施例中,可以向裝置的顯示器提供確定的措辭偏好中的一個或者多個措辭偏好以用于由對應的用戶選擇。就這一點而言,示例實施例可以通過考慮一個或者多個用戶的措辭偏好而提供改進的主題模型。此外,示例實施例可以生成一個或者多個個人措辭偏好或者配置文件,以便可以利用措辭偏好/配置文件用于個性化的(多個)應用和/或(多個)服務。此外,示例實施例可以例如在最小化本發(fā)明的實施例的主題模型的混雜度方面是有益的。
[0009]本發(fā)明的示例實施例可以確定標記的措辭通常與(多個)文檔內包括的主題相關聯。就這一點而言,示例實施例的設備可以確定具有使用措辭的不同偏好的用戶趨向于使用不同措辭來表示相同主題。就這一點而言,示例實施例可以確定不同用戶的一個或者多個措辭偏好以獲得對用戶的深入了解。部分基于不同用戶的確定的措辭偏好,本發(fā)明的示例實施例可以向對應的用戶推薦一個或者多個個性化標簽(例如建議優(yōu)選措辭)以用于選擇。響應于個性化標簽的選擇的指示的接收,示例實施例可以包括與對應的用戶的另一標簽或者內容中的個性化標簽相關聯的數據(例如,建議的(多個)措辭)。就這一點而言,示例實施例可以提供更容易、可靠并且更有效的方式,以該方式使得用戶能夠在(多個)文檔內生成與主題相關聯的標簽。
[0010]在一個示例實施例中,提供了一種用于確定(多個)用戶的一個或者多個優(yōu)選措辭的方法。該方法可以包括實施包括與至少一個用戶的一個或者多個措辭偏好相關聯的數據的主題模型。該方法可以進一步包括實施主題模型的訓練模型,以部分基于分析訓練模型的訓練數據生成措辭偏好。訓練數據包括與一個或者多個確定的主題相關聯的內容。該方法可以進一步包括確定措辭偏好對應于相應用戶的一個或者多個優(yōu)選措辭。
[0011]在另一示例實施例中,提供了一種用于確定(多個)用戶的一個或者多個優(yōu)選措辭的裝置。該裝置可以包括處理器和包括計算機程序代碼的存儲器。存儲器和計算機程序代碼可以被配置為利用處理器使得裝置至少執(zhí)行包括實施包括與至少一個用戶的一個或者多個措辭偏好相關聯的數據的主題模型的操作。該計算機程序代碼可以進一步使得裝置實施主題模型的訓練模型,以部分基于分析訓練模型的訓練數據而生成措辭偏好。訓練數據包括與一個或者多個確定的主題相關聯的內容。該計算機程序代碼可以進一步使得裝置確定措辭偏好對應于相應用戶的一個或者多個優(yōu)選措辭。
[0012]本發(fā)明的實施例可以提供更好的用戶體驗,這是由于可以基于用戶的偏好為用戶提供一個或者多個措辭。因此,設備用戶可以享受關于經由設備可訪問的應用和服務的改進的能力。
【專利附圖】
【附圖說明】
[0013]因此已經概括地描述本發(fā)明,現在將參照未必按比例繪制的附圖,并且其中:
[0014]圖1是根據本發(fā)明的一個示例實施例的系統(tǒng)的示意框圖;
[0015]圖2是根據本發(fā)明的一個示例實施例的裝置的示意框圖;
[0016]圖3是圖示根據本發(fā)明的一個示例實施例用于生成措辭偏好的圖形模型的示意圖;
[0017]圖4是圖示根據本發(fā)明的一個示例實施例的具有措辭偏好的主題模型的圖;
[0018]圖5是圖示根據本發(fā)明的一個示例實施例的Gibbs采樣推理過程的圖;
[0019]圖6圖示根據本發(fā)明的一個示例實施例的用于生成一個或者多個措辭偏好以用于提議的選擇的流程圖;以及[0020]圖7圖示根據本發(fā)明的一個示例實施例的用于生成一個或者多個用戶的一個或者多個措辭偏好的流程圖。
【具體實施方式】
[0021]現在將在下文中參照附圖更充分描述本發(fā)明的一些實施例,在附圖中示出本發(fā)明的一些實施例而非所有實施例。實際上,本發(fā)明的各種實施例可以以許多不同形式而體現并且不應當被解釋為限于本文所提出的實施例。相同參考標號貫穿上下文指代相同元件。如本文所使用的,術語“數據”、“內容”、“信息”以及相似術語可以互換使用,以指代能夠根據本發(fā)明的實施例被傳輸、接收和/或存儲的數據。此外,本文所使用的術語“示例性”并非被提供用于傳達任何定性評價,而是僅傳達實施例的說明。因此,任何這樣的術語的使用不應當被認為限制本發(fā)明的實施例的精神和范圍。
[0022]此外,如本文所使用的,術語“電路系統(tǒng)”指代(a)僅硬件電路實施方式(例如模擬電路系統(tǒng)和/或數字電路系統(tǒng)中的實施方式);(b)電路和(多個)計算機程序產品的組合,該計算機程序產品包括存儲在一個或者多個計算機可讀存儲器上的、一起工作以使得裝置執(zhí)行本文所描述的一個或者多個功能的硬件和/或固件指令;以及(C)電路,諸如,例如(多個)微處理器或者(多個)微處理器的一部分,其需要軟件或者固件用于操作,即使該軟件或者固件并非物理存在的?!半娐废到y(tǒng)”的這一定義應用于本文中這一術語的所有使用,包括在任何權利要求中。作為進一步的示例,如本文所使用的,術語“電路系統(tǒng)”也包括如下實施方式,該實施方式包括一個或者多個處理器和/或它們的(多個)部分以及配套軟件和/或固件。作為另一示例,本文使用的術語“電路系統(tǒng)”也包括例如用于移動電話或者服務器中的相似集成電路的基帶集成電路或者應用處理器集成電路、蜂窩網絡設備、其它網絡設備和/或其它計算設備。
[0023]如本文定義的“計算機可讀存儲介質”可以不同于“計算機可讀傳輸介質”,“計算機可讀存儲介質”指代永久的物理或者有形存儲介質(例如,易失性或者非易失性存儲器設備),“計算機可讀傳輸介質”指代電磁信號。
[0024]如本文涉及的“文檔”、“(多個)文檔”以及相似術語可以互換使用并且可以指代和/或可以包括書寫的或者印刷的出版物或者紙張(例如,(多個)數字出版物、(多個)數字紙張)、(多個)圖形、(多個)錄音、(多個)照片、(多個)視頻、文本數據、(多個)文件、(多個)文件系統(tǒng)和其它合適的機制或者包括、存儲和/或通信信息的媒介。在一個示例實施例中,(多個)文檔可以但不必要對應于與(多個)網頁的統(tǒng)一資源定位符(URL)或者內容相關聯的數據。
[0025]如本文所涉及的那樣,“標簽”、“(多個)標簽”、“標記的數據”以及相似術語可以互換使用以指代數據,包括但不限于向一條或者一項信息(例如,元數據)指派的(多個)關鍵詞、(多個)條目等,該信息諸如因特網書簽、數字圖像、數字圖片、視頻、計算機文件等。(多個)標簽的元數據可以描述(多個)條目并且可以允許通過瀏覽、搜索等發(fā)現該條目和/或(多個)標簽。(多個)條目的(多個)創(chuàng)造者(例如,(多個)作者)可以但是不必要通過設備或者以任何其它合適的方式來選擇(多個)標簽。
[0026]圖1圖示總體系統(tǒng)圖,其中示出在示例性通信環(huán)境中的諸如移動終端10設備。如圖1所示,根據本發(fā)明的一個示例實施例的系統(tǒng)的實施例可以包括能夠經由網絡30相互通信的第一通信設備(例如,移動終端10)和第二通信設備20。在一些情況下,本發(fā)明的實施例可以進一步包括一個或者多個額外的通信設備,在圖1中將額外的通信設備之一描繪為第三通信設備25。在一個實施例中,并非所有采用本發(fā)明的實施例的系統(tǒng)可以包括本文中所圖示和/或所描述的所有設備。雖然出于示例目的可以圖示并且在下文中描述移動終端10和/或第二和第三移動設備20和25的實施例,但是其它類型的終端(諸如便攜式數字助理(PDA)、尋呼機、移動電視、移動手機、游戲設備、膝上型計算機、照相機、錄像機、音頻/視頻播放器、收音機、全球定位系統(tǒng)(GPS)設備、藍牙耳機、通用串行總線(USB)設備或者前述的任意組合,以及其它類型的語音和文本通信系統(tǒng))可以容易地采用本發(fā)明的實施例。此外,不移動的設備(諸如服務器和個人計算機)也可以容易地采用本發(fā)明的實施例。
[0027]網絡30可以包括可以經由對應的有線和/或無線接口相互通信的各種不同節(jié)點(第二和第三通信設備20和25可以作為該節(jié)點的示例)、設備或者功能的匯總。照此,圖1的圖示應當被理解為是系統(tǒng)的特定元件的大概視圖示例,并且不是系統(tǒng)或者網絡30的全包括或者具體視圖。盡管并非必需,在一個實施例中,網絡30可以能夠支持根據多個第一代(1G)、第二代(2G)、2.5G、第三代(3G)、3.5G、3.9G、第四代(4G)移動通信協議、長期演進(LTE)等中的任何一個或者多個的通信。在一個實施例中,網絡30可以是點對點(P2P)網絡。
[0028]一個或者多個通信終端(諸如移動終端10以及第二和第三通信設備20和25)可以經由網絡30相互通信,并且每個通信終端可以包括用于向基臺(base site)傳輸信號和用于從基臺接收信號的一個天線或者多個天線,基臺例如可以是作為一個或者多個蜂窩或者移動網絡的一部分的基站或者可以耦合到數據網絡的訪問點,該數據網絡諸如局域網絡(LAN)、城域網絡(MAN)和/或廣域網絡(WAN),該廣域網絡諸如因特網。隨后,諸如處理元件的其它設備(例如個人計算機、服務器計算機等)可以經由網絡30耦合到移動終端10以及第二和第三通信設備20和25。通過直接或者間接將移動終端10以及第二和第三通信設備20和25 (和/或其它設備)連接至網絡30,可以使得移動終端10以及第二和第三通信設備20和25能夠例如根據多個通信協議(包括超文本傳送協議(HTTP)等)與其它設備或者相互通信,以由此分別執(zhí)行移動終端10以及第二和第三通信設備20和25的各種通信或者其它功能。
[0029]此外,盡管在圖1中未示出,但是移動終端10以及第二和第三通信設備20和25可以根據例如射頻(RF)、近場通信(NFC)、藍牙(BT)、紅外線(IR)或者多個不同的有線或者無線通信技術(包括局域網絡(LAN)、無線LAN (WLAN)、全球微波接入互通(WiMAX)、無線保真(WiFi)、超寬帶(UWB)、Wibree技術等)中的任何一個進行通信。照此,可以通過許多不同訪問機制使得移動終端10以及第二和第三通信設備20和25能夠與網絡30通信或者相互通信。例如,可以支持移動訪問機制(諸如寬帶碼分多址(W-CDMA)、CDMA2000、全球移動通信系統(tǒng)(GSM)、通用分組無線服務(GPRS)等)以及無線訪問機制(諸如WLAN、WiMAX等)和固定訪問機制(諸如數字用戶線路(DSL)、線纜調制解調器、以太網等)。
[0030]在一個示例實施例中,第一通信設備(例如,移動終端10)可以是移動通信設備(諸如無線電話)或者其它設備(諸如個人數字助理(PDA)、移動計算設備、照相機、錄像機、音頻/視頻播放器、定位設備、游戲設備、電視設備、無線電設備或者各種其它相似設備或者其組合)。第二通信設備20和第三通信設備25可以是移動或者固定通信設備。然而,在一個示例中,第二通信設備20和第三通信設備25可以是服務器、遠程計算機或者終端(諸如,個人計算機(PC)或者膝上型計算機)。
[0031]在一個示例實施例中,網絡30可以是被布置為智能空間的自組織網絡(ad hoc)或者分布式網絡。因此,設備可以進入和/或離開網絡30并且網絡30的設備可以能夠基于其它設備的進入和/或退出而調節(jié)操作,從而詮釋增加或者減少相應設備或者節(jié)點以及它們的對應能力。
[0032]照此,在一個實施例中,移動終端10可以自己執(zhí)行示例實施例。在另一實施例中,第二和第三通信設備20和25可以促進示例實施例在另一設備(例如移動終端10)處的操作。在又一示例實施例中,可以根本不包括第二通信設備20和第三通信設備25。
[0033]在另一示例實施例中,移動終端以及第二和第三通信設備20和25可以采用能夠采用本發(fā)明的一些實施例的裝置(例如圖2的裝置)。
[0034]圖2圖示用于確定用戶的一個或者多個措辭偏好以用于選擇的裝置的示意框圖?,F在將參照圖2描述本發(fā)明的示例實施例,其中顯示了裝置50的某些元件。例如,可以在移動終端10 (和/或第二通信設備20或者第三通信設備25)上采用圖2的裝置50。備選地,可以在網絡30的網絡設備上體現裝置50。然而,備選地裝置50可以被體現在多個其它設備處,移動和固定二者(諸如上面所列的任何設備)。在一些情況下,可以在設備的組合上采用實施例。因此,可以在單個設備(例如移動終端10)處通過處于分布式方式的多個設備(例如,在P2P網絡中的一個或者多個設備)或者通過處于客戶端/服務器關系的設備來完全地體現本發(fā)明的一個實施例。此外,應當注意到,以下描述的設備或者元件可以并非強制并且因此在某些實施例中可以省略一些設備或者元件。
[0035]現在參照圖2,裝置50可以包括處理器70、用戶接口 67、通信接口 74、存儲器設備76、顯示器85和主題建模(TM)模塊78或者以其他方式與它們通信。在一個示例實施例中,顯示器85可以是觸摸屏顯示器。存儲器設備76可以包括例如易失性和/或非易失性存儲器。例如,存儲器設備76可以是電子存儲設備(例如計算機可讀存儲介質),該電子存儲設備包括被配置為存儲通過機器(例如比如處理器70的計算設備)可取到的數據(例如位)的門。在一個示例實施例中,存儲器設備76可以是非瞬時的有形存儲器設備。存儲器設備76可以被配置為存儲信息、數據、文件、應用、指令等,以用于使得該裝置能夠根據本發(fā)明的示例實施例執(zhí)行各種功能。例如,存儲器設備76可以被配置為緩沖用于由處理器70處理的輸入數據。另外地或者備選地,存儲器設備76可以被配置為存儲用于由處理器70執(zhí)行的指令。作為又一備選,存儲器設備76可以是存儲信息和/或媒體內容(例如,圖像、圖片、視頻等)的多個數據庫中的一個。存儲器設備76也可以存儲一個或者多個文檔以及一個或者多個統(tǒng)一資源定位符(URL)以及任何其它合適的數據。
[0036]在一個實施例中,裝置50可以是被配置為采用本發(fā)明的實施例的移動終端(例如移動終端10)或者固定通信設備或計算設備。然而,在一個實施例中,裝置50可以被體現為芯片或者芯片組。換而言之,裝置50可以包括一個或者多個物理封裝(例如芯片),包括在結構組件(例如基板)上的材料、部件和/或接線。結構組件可以提供物理強度、尺寸保持和/或用于在其上包括的部件電路系統(tǒng)的電交互的限制。裝置50因此在一些情況下可以被配置為在單個芯片上實施本發(fā)明的實施例或者將本發(fā)明的實施例實施為單個“芯片上的系統(tǒng)”。照此,在一些實施例中,芯片或者芯片組可以構成用于執(zhí)行用于提供本文所描述的功能的一個或者多個操作的裝置。另外地或者備選地,芯片或者芯片組可以構成用于關于本文所描述的功能和/或服務使能用戶接口導航的裝置。
[0037]處理器70可以以許多不同方式來體現。例如,處理器可以被體現為各種處理裝置(諸如協處理器、微處理器、控制器、數字信號處理器(DSP)、具有或者不具有配套DSP的處理電路系統(tǒng))、或者包括集成電路(諸如ASIC (專用集成電路)、FPGA (現場可編程門陣列)、微處理器單元(MCU)、硬件加速器、專用計算機芯片等)的各種其它處理設備中的一個或者多個。在一個示例實施例中,處理器70可以被配置為執(zhí)行存儲于存儲器設備76中的指令或者處理器70以其他方式可訪問的指令。同樣的,不管通過硬件或者軟件方法、或者通過其組合進行配置,處理器70可以表示能夠執(zhí)行根據本發(fā)明的實施例的操作而因此被配置的實體(例如,在電路系統(tǒng)中物理地體現)。因此,例如當處理器70被體現為ASIC、FPGA等時,處理器70可以是專門配置的硬件以用于傳導本文所描述的操作。備選地,作為另一示例,當處理器70被體現為軟件指令的執(zhí)行器時,在執(zhí)行指令時,指令可以具體配置處理器70來執(zhí)行本文所描述的算法和操作。然而,在一些情況下,處理器70可以是適合用于通過由用于執(zhí)行本文所描述的算法和操作的指令進一步配置處理器70來采用本發(fā)明的實施例的專用設備(例如移動終端或者網絡設備)的處理器。處理器除了其它部分之外還可以包括被配置為支持處理器70的操作的時鐘、算數邏輯單元(ALU)和邏輯門。
[0038]在一個示例實施例中,處理器70可以被配置為操作連通性程序和/或可以執(zhí)行瀏覽器等的協處理器。就這一點而言,連通性程序可以根據例如無線應用協議(WAP)使得裝置50傳輸和接收網頁內容,諸如基于位置的內容或者其它合適的內容。
[0039]同時,通信接口 74可以是被配置為從網絡和/或與裝置50通信的任何其它設備或者模塊接收數據和/或向其傳輸數據的任何器件,諸如以硬件、計算機程序產品或者硬件和軟件的組合體現的設備或者電路系統(tǒng)。就這一點而言,通信接口 74例如可以包括天線(或者多個天線)以及用于使能與無線通信網絡(例如網絡30)通信的支持硬件和/或軟件。在固定環(huán)境中,通信接口 74可以備選地或者也支持有線通信。照此,通信接口 74可以包括通信調制解調器和/或用于支持經由線纜、數字用戶線路(DSL)、通用串行總線(USB)、以太網或者其它機制的通信的其它硬件/軟件。
[0040]用戶接口 67可以與處理器70通信,以接收在用戶接口 67處的用戶輸入的指示和/或向用戶提供可聽見的、可視的、機械的或者其它輸入。照此,用戶接口 67例如可以包括鍵盤、鼠標、操縱桿、顯示器、觸摸屏、麥克風、揚聲器或者其它輸入/輸出機制。在其中將該裝置體現為服務器或者一些其它網絡設備的示例實施例中,用戶接口 67可以是受限的、遠程定位的或者被排除的。處理器70可以包括被配置為控制用戶接口的一個或者多個元件的至少一些功能的用戶接口電路系統(tǒng),諸如,例如揚聲器、鳴鈴器、麥克風、顯示器等。處理器70和/或包括處理器70的用戶接口電路系統(tǒng)可以被配置為通過計算機程序指令(例如軟件和/或固件)控制用戶接口的一個或者多個元件的一個或者多個功能,該計算機程序指令存儲于處理器70可訪問的存儲器(例如,存儲器設備76等)上。
[0041]在一個示例實施例中,處理器70可以被體現為包括或者以其他方式控制TM模塊78。TM模塊78可以是任何裝置(諸如,根據軟件操作的設備或電路系統(tǒng))或者另外被體現為硬件或者硬件與軟件的組合(例如,在軟件控制下操作的處理器70,處理器70被體現為具體被配置為執(zhí)行本文所描述的操作的ASIC或者FPGA或者其組合),從而由此配置設備或者電路系統(tǒng)來執(zhí)行TM模塊78的對應的操作,如下文所描述的那樣。因此,在其中采用軟件的示例中,執(zhí)行該軟件的設備或者電路系統(tǒng)(在一個示例中,例如為處理器)形成與這樣的裝置相關聯的結構。
[0042]TM模塊78可以利用具有或者包括由于預估(多個)文檔的一個或者多個主題的訓練過程/模型主題模型。TM模塊78也可以使用/實施訓練模型以確定或者預估(多個)文檔的一個或者多個標簽(例如措辭(例如優(yōu)選措辭))。TM模塊78可以利用/實施主題模型以生成一個或者多個用戶的一個或者多個個人措辭偏好(在本文中也被稱為措辭偏好)。
[0043] 通過利用/實施示例實施例的主題模型,TM模塊78可以將(多個)文檔的標簽映射到一個或者多個主題維度,并且TM模塊78可以將標簽(例如評論)以及創(chuàng)建標簽的一個或者多個用戶映射到一個或者多個措辭偏好維度。由于可以將主題和措辭偏好二者在維度上映射到并且連接或者鏈接到標簽,TM模塊78可以利用這個信息來確定從措辭偏好角度的用戶與從主題角度的標簽之間的關系。
[0044]針對在其中可以由TM模塊78確定從措辭偏好角度的不同用戶和從主體角度的標簽之間的關系的方式的示例,出于示例而非限制的目的,考慮如下示例,在該示例中(多個)文檔(例如URL1)可以包括用戶A的標簽A和標簽B并且(多個)另外的文檔(例如URL2)可以包括用戶B的標簽C和標簽E以及用戶C的標簽D和標簽F。在這一實例中,標簽(例如標簽A、標簽B、標簽C、標簽D、標簽E和標簽F)可以但是不必要與相應文檔(例如URL 1,URL2)內的相應用戶的一個或者多個評論相關。
[0045]通過利用與文檔(例如URL 1,URL 2)相關聯的數據,TM模塊78可以訓練示例實施例的主題模型,并且在這一示例中可以獲得以下結果:
[0046]URL 1:主題 A 10%,主題 B 70%,主題 C 20%
[0047]URL 2:主題 A 60%,主題 B 15%,主題 C 25%
[0048]標簽與主題角度的關系
[0049]主題A:標簽A 10%,標簽B 15%,標簽C 20%,標簽D 30%,標簽E 10%,標簽F 15%
[0050]主題B:標簽A 10%,標簽B 35%,標簽C 20%,標簽D 20%,標簽E 10%,標簽F 5%[0051 ] 主題C:標簽A 15%,標簽B 15%,標簽C 20%,標簽D 25%,標簽E 20%,標簽F 5%
[0052]不同用戶與措辭偏好之間的關系
[0053]用戶A:措辭偏好A 20%,措辭偏好B 80%
[0054]用戶B:措辭偏好A 50%,措辭偏好B 50%
[0055]用戶C:措辭偏好A 80%,措辭偏好B 20%
[0056]措辭偏好A:用戶A 20%,用戶B 30%,用戶C 50%
[0057]措辭偏好B:用戶A 40%,用戶B 40%,用戶C 20%
[0058]措辭偏好C:用戶A 35%,用戶B 50%,用戶C 15%
[0059]措辭偏好A:
[0060]主題A::標簽A 10%,標簽B 15%,標簽C 20%,標簽D 30%,標簽E 10%,標簽F 15%[0061 ] 主題B::標簽A 20%,標簽B 5%,標簽C 20%,標簽D 10%,標簽E 30%,標簽F 15%
[0062]主題C::標簽A 20%,標簽B 15%,標簽C 10%,標簽D 30%,標簽E 20%,標簽F 5%
[0063]措辭偏好B:
[0064]主題A::標簽A 10%,標簽B 15%,標簽C20%,標簽D 30%,標簽E 10%,標簽F 15%[0065]主題B::標簽A 40%,標簽B 5%,標簽C10%,標簽D 10%,標簽E 20%,標簽F 15%
[0066]主題C::標簽A 30%,標簽B 25%,標簽C10%,標簽D 20%,標簽E 10%,標簽F 5%
[0067]措辭偏好C:
[0068]主題A::標簽A 5%,標簽B 20%,標簽C 20%,標簽D 30%,標簽E 10%,標簽F 15%
[0069]主題B::標簽A 50%,標簽B 5%,標簽C 10%,標簽D 10%,標簽E 20%,標簽F 5%
[0070]主題C::標簽A 25%,標簽B 10%,標簽C 5%,標簽D 30%,標簽E 25%,標簽F 5%
[0071]照此,TM模塊78可以將標簽和用戶映射到主題和措辭偏好并且可以利用這一映射信息基于相應用戶的措辭偏好向不同用戶推薦個性化標簽(例如,建議或者推薦的優(yōu)選措辭)。
[0072]在示例實施例中,由TM模塊78利用/實施主題模型而生成的(多個)措辭偏好可以在應用訓練模型之后為靜態(tài)。在示例實施例中,TM模塊78可以實施用于生成為靜態(tài)的主題模型的算法(例如成批的推理算 法)。在一個示例實施例中,靜態(tài)的主題模型可以表示在TM模塊78向主題模型應用訓練模型之后不會自動改變的主題模型。在備選示例實施例中,TM模塊78可以在使用主題模型期間使得(多個)措辭偏好能夠隨時間逐漸演進。在這一不例實施例中,TM模塊78可以實施用于利用與(多個)文檔內的一個或者多個用戶的一個或者多個標識標簽相關的新獲得的數據的算法(例如在線推理算法)。TM模塊78可以利用這些標識標簽來隨時間訓練主題模型。
[0073]出于示例而非限制的目的,關于其中TM模塊78可以利用新獲得的數據來訓練示例實施例的主題模型的方式,考慮如下示例,在該示例中諸如URL (例如URL 3)的內容的文檔可以包括獲得的/接收的新數據,諸如用戶B的標簽C和標簽D以及用戶C的標簽D和標簽F。就這一點而言,TM模塊78可以分析并且檢測URL的數據(例如新數據),以確定或者估計URL的主題分布(例如,URL3:主題A 10%,主題B 55%,主題C 35%等),并且然后基于主題分布的這一估計/確定,TM模塊78可以估計/確定:(I)可能對URL3的數據(例如網絡內容)感興趣的另一用戶(例如用戶A),因為TM模塊78利用/實施的主題模塊可能具有與這一用戶(用戶A)感興趣的其它URL相關聯的知識;(2)URL 3的標簽(例如,用戶A可以在URL 3的網頁內容中標記或者輸入數據,諸如標簽A和標簽B,并且TM模塊78可以檢測這些標簽);和/或(3)哪個用戶生成URL 3的內容中的標簽A和標簽B,在一種實例下,其中TM模塊78可以知道標簽A和標簽B由已知用戶生成(例如TM模塊78可以確定用戶A生成標簽A和標簽B)。另外地,TM模塊78可以執(zhí)行另一合適的確定/估計。
[0074]在一個示例實施例中,TM模塊78可以利用一個或者多個用戶的一個或者多個措辭偏好來生成一個或者多個相應用戶配置文件。在一個實施例中,TM模塊78可以但是不必要對用戶配置文件進行分組。TM模塊78可以利用用戶配置文件來優(yōu)化/定制主題模型。例如,TM模塊78可以生成用戶配置文件以包括與相應用戶相關聯的個性化描述。TM模塊78可以利用個性化描述來提供一個或者多個推薦(例如,針對URL的推薦、(多個)推薦標簽(例如,推薦的(多個)措辭等)、預測(例如沒有標識的作者的一條或者多條文本(例如沒有標識的作者的書的章節(jié))的預測)、作者的預測等)或者任何其它合適的數據)。
[0075]為了說明而非限制,考慮其中TM模塊78可以檢查針對用戶C的配置文件數據以確定用戶C的偏好(例如一個或者多個優(yōu)選標簽(例如用戶C的一個或者多個優(yōu)選措辭))的示例。在這一示例實施例中,TM模塊78可以確定在用戶C的配置文件中存在數據,該數據包括但不限于措辭偏好A、措辭偏好B、王題A、王題B、王題C、標簽A、標簽B、標簽C、標簽D、標簽E和標簽F。就這一點而言,以下陳述針對用戶C的一些配置文件數據。
[0076]用戶C:措辭偏好A 80%,措辭偏好B 20%
[0077]措辭偏好A:
[0078]主題A::標簽A 10%,標簽B 15%,標簽C 20%,標簽D 30%,標簽E 10%,標簽F15%
[0079]主題B::標簽A 20%,標簽B 5%,標簽C 20%,標簽D 10%,標簽E 30%,標簽F 15%
[0080]主題C::標簽A 20%,標簽B 15%,標簽C 10%,標簽D 30%,標簽E 20%,標簽F5%
[0081]措辭偏好B:
[0082]主題A::標簽A.10%,標簽B 15%,標簽C20%,標簽D 30%,標簽E 10%,標簽F 15%
[0083]主題B::標簽A 40%,標簽B 5%,標簽C10%,標簽D 10%,標簽E 20%,標簽F 15%[0084]主題C::標簽A 30%,標簽B 25%,標簽C10%,標簽D 20%,標簽E 10%,標簽F
[0085]在這一示例實施例中,在其中TM模塊78可以分析用戶C的配置文件的數據的實例下,TM模塊78例如可以但不必要確定用戶C優(yōu)選使用標簽C (例如優(yōu)選措辭)而非標簽A或者與標簽A不同(例如另一優(yōu)選措辭)以表達主題B (例如特定主題(例如運動、餐館))。
[0086]在一個示例實施例中,TM模塊78可以分析(多個)文檔(例如數字出版物)中的一個或者多個標記的措辭以確定與標記的措辭中的一個或者多個措辭對應的主題。另外地,TM模塊78可以部分基于分析標記的措辭的數據來確定不同用戶的不同措辭偏好,并且如以下更充分描述的,可以向裝置50的用戶建議或者推薦一個或者多個優(yōu)選措辭。
[0087]就這一點而言,在示例實施例中,TM模塊78可以在主題模型之上考慮或者分析用戶的一個或者多個措辭偏好,以便實現更好性能并且也獲得不同用戶的措辭偏好以獲得對用戶和用戶配置文件的深入了解。
[0088]通過利用TM模塊78,裝置50可以在其中一個或者多個用戶希望標記一些數據的實例中提供一個或者多個建議或者推薦。例如,在一個示例實施例中,TM模塊78可以向裝置50的用戶提供一個或者多個措辭推薦。就這一點而言,TM模塊78可以針對其中用戶可以提供評論的每個主題獲得對應用戶的一個或者多個措辭偏好。在其中用戶可以提供關于對應主題(例如運動)的一個或者多個新評論的實例中,TM模塊78可以針對對應用戶可以利用的措辭,提供一個或者多個推薦。由TM模塊78生成的措辭推薦可以基于對應用戶的一個或者多個措辭偏好。TM模塊78可以使得顯示器85能夠向對應用戶示出措辭推薦以用于選擇。通過提供措辭推薦,TM模塊78可以使得對于用戶而言更易于向文檔中輸入(多個)評論。例如,TM模塊78可以使得一個或者多個措辭推薦能夠經由顯示器85被呈現以用于由用戶選擇,并且響應于措辭推薦中的至少一個措辭推薦的選擇的指示,選擇的措辭推薦可以被包括在用戶的、在(多個)對應文檔內的一個或者多個評論(例如(多個)句子)中。
[0089]出于說明而非限制的目的,考慮其中用戶可以利用裝置50來訪問用于提供評論的URL的示例。在這一示例實施例中,用戶可以利用裝置50來訪問URL,諸如與HoustonRockets? 相關聯的 http://www.nba.com/ickets/index_main.html。就這一點而言,用戶可以利用用戶接口 67來將一個或者多個標簽并入到與http://www.nba.com/rockets/index_main.html URL相關聯的網頁的數據(例如博客)的一部分中。例如,假定用戶可以利用用戶接口 67 (例如鍵盤)來生成關于運動員(諸如Yao Ming)在其中進行比賽的籃球比賽的評論。就這一點而言,用戶可以利用裝置50來向網頁上發(fā)布評論或者標簽,諸如“I 1vethe way Yao Ming played in the Rockets win over the Mavericks”和 / 或“I reallyliked Yao Ming/ s performance”。在這一不例中,TM模塊78可以確定URL的主題。例如 TM 模塊 78 可以分析 http://www.nba.com/rockets/index_main.html URL 的數據并且可以確定URL的主題與籃球相關。
[0090]另外地,TM模塊78可以分析用戶的標簽以確定一個或者多個主題。在這一示例中,TM模塊78可以確定與用戶的標簽相關聯的(多個)主題(例如“I love the wayYao Ming played in the Rockets? win over the Mavericks?,,、“I really liked YaoMing/ s performance”)也可以與用戶對Yao Ming的喜愛有關。由此,TM模塊78可以分析標簽的數據并且可以確定用戶在描述Yao Ming中優(yōu)選的一個或者多個措辭。在這一示例中,TM模塊78可以確定用戶在描述對Yao Ming的比賽的喜愛時優(yōu)選使用“l(fā)ike”和“l(fā)ove”。以這一方式,在其中用戶可以利用裝置50的用戶接口 67來發(fā)布關于Yao Ming的表現的另一評論的實例中,TM模塊78可以向用戶推薦用戶利用(多個)優(yōu)選措辭,諸如“l(fā)ike”和“l(fā)ove”。例如,在其中用戶可以提供關于Yao Ming的表現的附加評論(例如標簽)的實例中,TM模塊78可以部分基于用戶的措辭偏好,經由顯示器85向用戶推薦一個或者多個措辭推薦。在收到對措辭推薦(例如,措辭“l(fā)ove”)的選擇時,TM模塊78可以在用戶的評論/標簽中包括與相同的確定主題(例如,對Yao Ming的比賽的喜愛)相關聯的措辭推薦(例如,“I am going to' love' when Yao Ming/ s hits 30points against the Spurs? nextweek,,)。
[0091]在另一示例中,TM模塊78可以確定不同用戶優(yōu)選利用與相同主題(例如,對YaoMing的比賽的喜愛)相關聯的不同措辭。例如,假設TM模塊78分析另一用戶的標簽數據,并且確定這一用戶在描述Yao Ming的表現時優(yōu)選利用諸如“super”和/或“excellent”之類的措辭。就這一點而言,當TM模塊78確定用戶發(fā)表關于相同主題(例如,對于YaoMing的比賽的喜愛)的另一評論時,TM模塊78可以使得顯示器85能夠提供向用戶建議的或者推薦的標簽(例如措辭)以用于選擇。就這一點而言,響應于推薦的選擇的指示,TM模塊78可以在通過裝置50的用戶接口 67輸入的當前評論(例如“I think Yao Mingi sperformance against the Mavericks? was1 excellent1 ”)中包括選擇的措辭推薦(例如 “excellent”)。
[0092]在另一示例實施例中,TM模塊78可以標識在評論特定主題(例如,相同的確定主題)時利用相似優(yōu)選措辭的用戶。就這一點而言,TM模塊78可以關于彼此通知對應用戶并且可以向用戶的裝置發(fā)送消息,該消息指示他們在利用相似措辭評論相同主題并且詢問他們是否想要變成社交網絡服務(例如Facebook?、LinkedIn?、Twitter?、MySpace?等)的朋友。例如,假定多個用戶(例如,至少兩個用戶)關于相同主題可以利用一個或者多個相似措辭以表達他們對于特定事物的感受。就這一點而言,TM模塊78可以生成消息來通知由一個用戶利用的裝置50存在關于特定共同主題(例如,運動、食物等)使用相同類型的措辭的另一用戶。例如,考慮其中一個用戶在利用用戶接口 67來在關于與食物相關的主題的(多個)文檔(例如網頁的內容)中包括評論時可能利用優(yōu)選措辭(例如“The food atRestaurant A in the arena where the Houston Rockets? play was ' delicious.,,)的情形。例如,也考慮另一用戶可能在(多個)文檔內評論相同主題(例如食物)時利用相同措辭或者相同類型的措辭。就這一點而言,TM模塊78可以確定兩個用戶(例如用戶A和用戶B)關于相同主題(例如在Houston Rockets?的運動場的食物)正在使用相同優(yōu)選措辭(例如 “delicious”)。
[0093]由此,TM模塊78可以像一個或者兩個用戶(例如用戶A和用戶B)的裝置50發(fā)送消息,該消息指示他們關于相同事物(例如相同主題(例如食物))具有相似感受。TM模塊78可以向用戶的裝置50發(fā)送消息,從而向用戶推薦他們相互連接為朋友。響應于一個用戶(例如用戶A)選擇的指示的接收,指示他/她想要成為另一用戶(例如用戶B)的朋友,TM模塊78可以向另一用戶(例如用戶B)的裝置50發(fā)送指示朋友請求的消息。響應于另一用戶(例如用戶B)接受該請求,TM模塊78可以將兩個用戶連接為社交網絡服務(例如Facebook?、Linkedln?等)中的朋友。
[0094]在備選示例實施例中,響應于朋友請求的選擇的指示的接收,TM模塊78可以將兩個用戶連接為他們的裝置50的聯系人列表(例如電話簿)中的聯系人。另一方面,在其中另一用戶拒絕朋友請求的實例中,TM模塊78可以向想要成為朋友的用戶(例如用戶A)的裝置發(fā)送指示朋友請求被拒絕的消息。
[0095]現在參照圖3,提供了根據示例實施例用于確定用戶的措辭偏好的圖形模型的說明示意圖。在圖3的示例實施例中,TM模塊78可以確定(多個)用戶具有某個(某些)措辭偏好,由于每個人基于他們的文化、背景、教育等可能具有某個(某些)措辭偏好。在圖3的示例中,響應于分析與(多個)文檔相關聯的數據,TM模塊78可以標識文檔的主題。另外地,在圖3的示例實施例中,TM模塊78可以確定與(多個)標簽(例如評論)相關聯的或者由用戶生成的主題。在圖3的示例中,TM模塊78可以分析與(多個)標簽相關聯的數據并且確定用戶的一個或者多個措辭偏好??梢韵蛴脩籼峁┯脩舻拇朕o偏好用于選擇和/或包括在可以由用戶生成的其它評論/標簽中。
[0096]作為其中TM模塊78可以生成主題模型以及可以在一個或者多個文檔內包括的一個或者多個建議的或者推薦的標簽(例如優(yōu)選措辭)的方式的示例,考慮以下內容。出于說明而非限制的目的,考慮在這一示例實施例中的(多個)文檔可以涉及一個或者多個URL的內容(例如網頁內容)。然而,如上所述,(多個)文檔可以涉及(多個)圖像、(多個)圖片、(多個)照片、(多個)視頻、(多個)文件等或者其它信息,而未脫離本發(fā)明的精神和范圍。在這一示例實施例中,針對每個URL,在其中TM模塊78可以確定存在對URL的內容進行評論的一個或者多個用戶的實例中,TM模塊78可以生成一個或者多個標簽(例如優(yōu)選措辭)用于包括在每個URL中。
[0097]TM模塊78可以用以下方式生成主題模型,以生成(多個)文檔(例如,(多個)URL)的一個或者多個標簽。針對每個URL,TM模塊78可以分析對應的URL的數據并且確定或者生成 URL 的主題。例如,在其中 URL 涉及 http://www.nba.com/rockets/index_main.html的實例中,TM模塊78可以分析URL的數據并且可以確定主題對應于籃球。另外地,TM 模塊 78 可以分析每個 URL (例如 http://www.nba.com/rockets/index_main.html)的數據以檢測由一個或者多個用戶生成的評論或者標簽。出于說明而非限制的目的,與http: //www.nba.com/rockets/index_main.html URL 相關聯的、由 TM 模塊 78 檢測的評論 / 標簽可以是“Yao Ming is an excellent basketball player”、“Yao Ming/ s jumpshot is excellent,,和 / 或“The food at Restaurant B in the arena of the HoustonRockets? is delicious, I recommend it”。針對URL 的每個標簽,TM模塊 78 可以生成(多個)對應評論/標簽的(多個)主題。例如,針對評論/標簽“Yao Ming is an excellentbasketball player”,TM模塊78可以分析該標簽的數據并且確定例如這一標簽的主題對應于“favorite basketball player”。作為另一示例,TM模塊78可以檢查評論/標簽“The food at Restaurant B in the arena of the Houston Rockets? is delicious, Irecommend it”的數據,并且可以確定例如對應的主題涉及“restaurants”。
[0098]TM模塊78可以生成特定用戶的措辭偏好。例如,TM模塊78可以確定特定用戶(例如用戶I)的關于與最喜愛的籃球運動員相關的主題的措辭偏好對應于用于描述他們關于籃球運動員的感受的措辭偏好“excellent”。TM模塊78可以通過分析其中用戶利用措辭 “excellent” 來描述 Yao Ming 的評論 / 標簽 “Yao Ming is an excellent basketballplayer”、“Yao Ming/ s jump shot is excellent”的數據,確定用戶的用于描述用戶關于他們最喜愛籃球運動員的偏好的措辭偏好。另一方面,TM模塊78可以確定另一用戶(例如用戶2)關于與最喜愛籃球運動員相關的主題的(多個)措辭偏好例如對應于用于描述他們關于籃球運動員(例如Yao Ming)的感受的措辭偏好“terrific”。TM模塊78可以通過分析其它評論/標簽(諸如“Yao Ming is a1 terrific' post player”和/或“YaoMing/ s bank shot is' terrific' ”)來確定這一另一用戶(例如用戶2)用于描述用戶關于他們最喜愛籃球運動員的偏好的(多個)措辭偏好,在該評論/標簽中用戶利用優(yōu)選措辭“terrific”來描述Yao Ming的表現。
[0099]另外地,TM模塊78可以根據確定的(多個)主題和確定的(多個)措辭偏好生成一個或者多個標簽。出于說明而非限制的目的,TM模塊78可以基于確定的主題(諸如“favoritebasketball player”)和確定的(多個)措辭偏好(諸如“excellent”)生成(多個)推薦標簽(例如建議的或者推薦的措辭“excellent”)。由此,在其中TM模塊78可以確定裝置50的用戶(例如用戶I)正在利用用戶接口 67來生成將被包括在文檔內的評論/標簽并且評論涉及主題“favorite basketball player”的實例中,TM模塊78可以向用戶建議/推薦標簽(諸如優(yōu)選措辭“excellent”)以用于選擇并且包括在評論中。
[0100]TM模塊78可以使得顯示器85能夠向用戶指示/示出推薦的標簽(例如優(yōu)選措辭“excellent”)以用于包括在評論中。作為示例,考慮其中用戶可以利用用戶輸入接口 67來包括(多個)評論(例如,諸如“Yao Ming played...”)的情形。就這一點而言,由于用戶可能正在利用用戶接口 67來打字輸入句子“Yao Ming played...”,TM模塊78可以(多個)提供推薦的標簽(例如,建議的/優(yōu)選的措辭“excellent”)用于選擇并且包括在句子中。就這一點而言,響應于推薦的標簽的選擇的指示,TM模塊78可以在句子中包括推薦的標簽,使得該句子例如可以指不“Yao Ming played' excellent' in the All Star Game”。
[0101]應當指出,TM模塊78可以基于與訓練模型相關聯的數據確定哪個用戶正在利用某個(某些)措辭偏好。例如,通過利用與訓練模型相關聯的數據,TM模塊78可以確定哪個用戶可能正在利用特定種類或者類型的措辭偏好。由此,在與訓練模型的數據比較時,TM模塊78可以基于與由對應的用戶生成的一個或者多個標簽/評論對應的數據將(多個)用戶標識為利用特定類型的措辭偏好。出于說明而非限制的目的,可以開發(fā)由TM模塊78利用的訓練模型,例如使得能夠響應于與用戶的(多個)標簽/ (多個)評論相關聯的數據的檢測而拼寫餐館的全稱(例如Kentucky Fried Chicken?),這一數據對應于特定用戶(例如用戶A)。另一方面,在例如其中用戶的標簽或者評論的數據指示餐館的名稱是縮寫(例如KFC?)的實例中,TM模塊78利用的訓練模型的數據可以指示例如這一標簽或者評論可能涉及不同用戶(例如用戶B)。
[0102]另外地或者備選地,在一個示例實施例中,TM模塊78除了確定一個或者多個用戶的一個或者多個措辭偏好之外,TM模塊78還可以確定一個或者多個用戶的語法偏好。出于說明而非限制的目的,考慮其中可以寫小說或者原稿而作者未知的情形。在這一示例中,小說/原稿可能寫得具有很好的語法。同樣,在這一示例中,假定用莎士比亞的杰作哈姆雷特使用的語法訓練了語法訓練模型。TM模塊78可以分析小說/原稿的數據并且可以確定語法與莎士比亞使用的語法非常相似。由此,在這一示例中,TM模塊78可以確定小說/原稿是由莎士比亞寫的,這是因為在語法訓練模型中利用的小說/原稿(在這一示例中涉及莎士比亞的哈姆雷特)的語法和措辭選擇非常相似。[0103]TM模塊78可以實施如下所述的示例實施例的主題模型。假設一組文檔(例如URL)D={1,2,...Μ},針對第d個文檔(例如URL),可以存在一組標簽Wd=Iwdl,...,wdNd}。表示為用戶uij$的用戶例如可以標記標簽wij。在一個示例實施例中,TM模塊78的任務可以是使用兩個文檔(例如URL)和它們的確定的(多個)標簽發(fā)掘潛在的主題。理想地,如果所有用戶針對特定主題將使用相同措辭,所有標簽應當是公正的并且應當用于文檔(例如URL)的主題發(fā)掘。在這一情況下,可以假設標簽從圖3的虛線框所示的主題直接生成。
[0104]然而,實際上,不同用戶的措辭偏好通常不同,即使在不同用戶討論相同主題時。鑒于標簽通常由不同用戶進行標注的概念,TM模塊78可以理解標簽通過圖3所示的不同類型的措辭偏好7生成。通過以上述方式分析與標簽和措辭偏好相關聯的數據,TM模塊78可以利用標簽上的措辭偏好生成主題模型,如圖4的圖形主題模型所示的那樣。例如,在圖4的圖形主題模型中,TM模塊78可以確定每個文檔(例如URL)具有利用通過狄利克雷過程(DP)建模的不同用戶的確定措辭偏好、通過分層狄利克雷過程(HDP)建模的潛在主題的混合體。
[0105]可以將在由TM模塊78實施的主題模型下面的生成過程生成為如下:
[0106]針對每個類型的措辭偏好{1,...,m },TM模塊78可以(I)生成Φ, + G~G。另外地,TM模塊78可以(2)生成θ |H~H并且可以(3)生成β I Y~GEM(Y)。另外地,針對每個文檔(例如URL) d e {1,…,M}),TM模塊78可以(a)生成主題比例Jij α0,β~DF ( α0, β )0針對每個標簽ie {l,...,Nd},TM模塊78可以生成:(a)偏好比例δ di={ δ 1;..., δ I ξ 0 ~GEM( ξ 0) ; (b)措辭偏好 kdj I δ di ~Discrete ( δ di) ; (c)標簽的主題 Zdi I d ~DiscreteO d) ; (d)標簽 wdj| zdi, (Φζ)ζ =廣~F L (Φζ—di,k—di)以及(d)用戶(仏二廣~!7“0,—di)。
[0107]TM模塊78可以從基本分布G和H分別采樣似然參數Φ = {Φ1,…,Φ c? }以及Θ={ Θ 1,…,Θ 00 } O其中,針對每個措辭偏好,使用Φ-- = {φ--,I ,…,φ--,}作為似然函數Fl的參數,似然函數Fl是標簽相對主題的分布,并且使用Θ作為似然函數F2的參數,似然函數F2是用戶相對措辭偏好的分布。
[0108]接下來,TM模塊78可以利用具有參數Y的置頂斷開構造(sticking-breakingconstruction) GEM(.)生成混合比例的全局矢量β = {β I,..., β 00 }。如本文所涉及的那樣,GEM可以指代由Ewens (1990)代表置頂斷開構造的作者(例如,Griths、Engen、McCloskey)命名的置頂斷開構造。針對每個文檔(例如URL) d,TM模塊78可以首先生成主題比例3i={>d,l,…,⑴}。并且針對這一文檔(例如URL)的每個標簽i,TM模塊78可能需要生成這一對應標簽的主題和生成這一標簽的用戶的優(yōu)選措辭??梢酝ㄟ^這一對應文檔(例如URL)的主題比例d經由TM模塊78確定標簽zdi的主題。然而,標簽wdi的生成也可能需要用戶udi的措辭偏好kdi。此外,TM模塊78可以從偏好比例δ di采樣這一偏好kdi,其也可以通過置頂斷開構造GEM(.)來確定。由于措辭偏好可能涉及用戶的性格,其可以僅涉及用戶并且可以與文檔(例如URL)無關。接下來,TM模塊78可能需要收集足夠信息,以使用具有指示符zdi和kdi的參數Cpz,k,通過似然函數Fl(.)生成標簽。同時,也可以使用具有指示符kdi的參數0k通過似然函數F2(.)獲得提供或者生成這一標簽的用戶udi。
[0109]在一個不例實施例中,TM模塊78可以利用Gibbs米樣來推理如在圖5的表中給出的和如以下給出的由TM模塊78利用的等式所提供的主題模型。
【權利要求】
1.一種方法,包括: 實施包括與至少一個用戶的一個或者多個措辭偏好相關聯的數據的主題模型; 實施所述主題模型的訓練模型,以部分基于分析所述訓練模型的訓練數據而生成所述措辭偏好,所述訓練數據包括與一個或者多個確定的主題相關聯的內容;以及確定所述措辭偏好對應于相應用戶的一個或者多個優(yōu)選措辭。
2.根據權利要求1所述的方法,進一步包括: 部分基于至少一個文檔內的一個或者多個標簽的新檢測數據而更新所述措辭偏好,所述一個或者多個標簽對應于所述相應用戶中的至少一個相應用戶的標簽。
3.根據權利要求2所述的方法,其中更新包括響應于所述標簽的所述新檢測數據向所述主題模型的所述措辭偏好添加一個或者多個附加優(yōu)選措辭。
4.根據權利要求2所述的方法,進一步包括: 生成與所述相應用戶相關聯的一個或者多個配置文件,其中所述配置文件包括指示對應用戶的至少一個優(yōu)選措辭的數據,所述至少一個優(yōu)選措辭與所述確定的主題中的至少一個確定的主題相關聯;以及 利用所述配置文件中的至少一個配置文件的所述數據來確定相應用戶針對對應確定的主題相對于另一措辭而優(yōu)選利用至少一個措辭。
5.根據權利要求1所述的方法,進一步包括: 確定所述確定的主題中的至少一個確定的主題與至少一個文檔相關聯; 確定與對應于至少一個標簽的數據相關聯的第一主題,所述標簽與用戶的一項或者多項數據相關聯; 部分基于分析所述標簽的數據而確定所述用戶的至少一個優(yōu)選措辭;以及 部分基于所述確定的第一主題和所述優(yōu)選措辭而生成至少一個推薦標簽。
6.根據權利要求5所述的方法,其中所述標簽的所述數據對應于所述用戶的至少一個評論,并且所述優(yōu)選措辭基于分析所述評論中的數據對應于所述用戶的至少一個措辭偏好。
7.根據權利要求5所述的方法,其中所述推薦標簽對應于所述優(yōu)選措辭并且其中所述方法進一步包括: 使能所述推薦標簽的顯示以用于選擇。
8.根據權利要求5所述的方法,進一步包括: 響應于所述選擇的指示的接收而在所述文檔內的第一標簽中包括所述優(yōu)選措辭。
9.根據權利要求8所述的方法,其中包括所述優(yōu)選措辭進一步包括響應于確定所述第一標簽的數據與所述第一主題相關而在所述第一標簽中包括所述優(yōu)選措辭。
10.根據權利要求8所述的方法,進一步包括: 部分基于分析所述文檔內的一個或者多個附加標簽的數據而確定一個或者多個不同優(yōu)選措辭與另一用戶的措辭偏好相關。
11.根據權利要求8所述的方法,進一步包括: 響應于所述附加優(yōu)選措辭的選擇的指示的接收而至少在與所述另一用戶相關聯的第二標簽中包括所述附加優(yōu)選措辭中的至少一個附加優(yōu)選措辭,所述第二標簽的所述數據對應于所述第一主題。
12.根據權利要求5所述的方法,進一步包括: 部分基于對應于與所述訓練模型相關聯的至少一個措辭的所述優(yōu)選措辭而確定所述用戶的標識。
13.根據權利要求5所述的方法,其中所述文檔包括統(tǒng)一資源定位符、圖像、視頻、照片或者文件中的至少一個。
14.一種裝置,包括: 至少一個處理器;以及 至少一個存儲器,包括計算機程序代碼,所述至少一個存儲器和所述計算機程序代碼被配置為利用所述至少一個處理器使得所述裝置至少執(zhí)行以下操作: 實施包括與至少一個用戶的一個或者多個措辭偏好相關聯的數據的主題模型; 實施所述主題模型的訓練模型,以部分基于分析所述訓練模型的訓練數據而生成所述措辭偏好,所述訓練數據包括與一個或者多個確定的主題相關聯的內容;以及確定所述措辭偏好對應于相應用戶的一個或者多個優(yōu)選措辭。
15.根據權利要求14所述的裝置,其中所述存儲器和所述計算機程序代碼被配置為利用所述處理器使得所述裝置: 部分基于至少一個文檔內的一個或者多個標簽的新檢測數據而更新所述措辭偏好,所述一個或者多個標簽對應于所述相應用戶中的至少一個相應用戶的標簽。
16.根據權利要求1 5所述的裝置,其中所述存儲器和所述計算機程序代碼被配置為利用所述處理器使得所述裝置: 通過響應于所述標簽的所述新檢測數據向所述主題模型的所述措辭偏好添加一個或者多個附加優(yōu)選措辭來更新所述措辭偏好。
17.根據權利要求15所述的裝置,其中所述存儲器和所述計算機程序代碼被配置為利用所述處理器使得所述裝置: 生成與所述相應用戶相關聯的一個或者多個配置文件,其中所述配置文件包括指示對應用戶的至少一個優(yōu)選措辭的數據,所述至少一個優(yōu)選措辭與所述確定的主題中的至少一個確定的主題相關聯;以及 利用所述配置文件中的至少一個配置文件的所述數據來確定相應用戶針對對應確定的主題相對于另一措辭而優(yōu)選利用至少一個措辭。
18.根據權利要求14所述的裝置,其中所述存儲器和所述計算機程序代碼被配置為利用所述處理器使得所述裝置: 確定所述確定的主題中的至少一個確定的主題與至少一個文檔相關聯; 確定與對應于至少一個標簽的數據相關聯的第一主題,所述標簽與用戶的一項或者多項數據相關聯; 部分基于分析所述標簽的數據而確定所述用戶的至少一個優(yōu)選措辭;以及 部分基于所述確定的第一主題和所述優(yōu)選措辭而生成至少一個推薦標簽。
19.根據權利要求14所述的裝置,其中所述標簽的所述數據對應于所述用戶的至少一個評論,并且所述優(yōu)選措辭基于分析所述評論中的數據對應于所述用戶的至少一個措辭偏好。
20.根據權利要求14所述的裝置,其中所述推薦標簽對應于所述優(yōu)選措辭并且其中所述存儲器和所述計算機程序代碼進一步被配置為利用所述處理器使得所述裝置: 使能所述推薦標簽的顯示以用于選擇。
21.根據權利要求14所述的裝置,所述存儲器和所述計算機程序代碼被配置為利用所述處理器使得所述裝置: 響應于所述選擇的指示的接收而在所述文檔內的第一標簽中包括所述優(yōu)選措辭。
22.根據權利要求22所述的裝置,其中所述存儲器和所述計算機程序代碼被配置為利用所述處理器使得所述裝置: 通過響應于確定所述第一標簽的數據與所述第一主題相關以在所述第一標簽中包括所述優(yōu)選措辭而包括所述優(yōu)選措辭。
23.根據權利要求22所述的裝置,其中所述存儲器和所述計算機程序代碼被配置為利用所述處理器使得所述裝置: 部分基于分析所述文檔內的一個或者多個附加標簽的數據而確定一個或者多個不同優(yōu)選措辭與另一用戶的措辭偏好相關。
24.根據權利要 求22所述的裝置,其中所述存儲器和所述計算機程序代碼被配置為利用所述處理器使得所述裝置: 響應于所述附加優(yōu)選措辭的選擇的指示的接收而至少在與所述另一用戶相關聯的第二標簽中包括所述附加優(yōu)選措辭中的至少一個附加優(yōu)選措辭,所述第二標簽的所述數據對應于所述第一主題。
25.根據權利要求14所述的裝置,其中所述存儲器和所述計算機程序代碼被配置為利用所述處理器使得所述裝置: 部分基于對應于與所述訓練模型相關聯的至少一個措辭的所述優(yōu)選措辭而確定所述用戶的標識。
26.根據權利要求14所述的裝置,其中所述文檔包括統(tǒng)一資源定位符、圖像、視頻、照片或者文件中的至少一個。
【文檔編號】G06F17/30GK103534699SQ201180070748
【公開日】2014年1月22日 申請日期:2011年5月10日 優(yōu)先權日:2011年5月10日
【發(fā)明者】胡日勒, 李文峰, 田繼雷, 王小捷 申請人:諾基亞公司