本發(fā)明涉及信息分類技術(shù)領(lǐng)域,更具體涉及一種信息分類方法及裝置。
背景技術(shù):
隨著因特網(wǎng)在全球范圍內(nèi)的飛速發(fā)展,網(wǎng)絡(luò)信息越來越多,用戶可能只關(guān)注某一方面的網(wǎng)絡(luò)信息,例如股票類的網(wǎng)絡(luò)信息,某一個(gè)公司的網(wǎng)絡(luò)信息。且不同的用戶關(guān)注的網(wǎng)絡(luò)信息可能不同。
因此,如何對海量的網(wǎng)絡(luò)信息進(jìn)行分類,以便將相應(yīng)類別的網(wǎng)絡(luò)信息提供給具有相應(yīng)需求的用戶變得尤為重要。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供了一種信息分類方法及裝置,以克服現(xiàn)有技術(shù)中沒有對海量的網(wǎng)絡(luò)信息進(jìn)行分類的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種信息分類方法,包括:
將網(wǎng)絡(luò)信息進(jìn)行劃分,獲得詞匯集合,詞匯集合至少包括一個(gè)詞匯;
從所述詞匯集合中,獲得與預(yù)先存儲的各類別信息相匹配的類別詞匯,每一類別信息包括用于表征相應(yīng)類別信息的至少一個(gè)類別詞匯;
計(jì)算所述詞匯集合中包含的每一類別詞匯的權(quán)重,權(quán)重用于表征所述網(wǎng)絡(luò)信息與相應(yīng)類別詞匯的關(guān)聯(lián)程度;
依據(jù)預(yù)先存儲的每一類別信息中各類別詞匯的關(guān)聯(lián)關(guān)系,確定所述詞匯集合包含的所有類別詞匯所屬的目標(biāo)類別信息;
依據(jù)所述詞匯集合包含的所有類別詞匯所屬的目標(biāo)類別信息,以及所述詞匯集合包含的每一類別詞匯相應(yīng)的權(quán)重,計(jì)算每一目標(biāo)類別信息的權(quán)重;
依據(jù)每一目標(biāo)類別信息的權(quán)重,確定所述網(wǎng)絡(luò)信息所屬類別信息。
其中,所述計(jì)算所述詞匯集合中包含的每一類別詞匯的權(quán)重包括:
依據(jù)所述詞匯集合中包含的每一類別詞匯在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)、出現(xiàn)的位置、所述詞匯集合中所有類別詞匯所屬目標(biāo)類別信息的個(gè)數(shù),和,預(yù)先獲得的每一目標(biāo)類別信息的逆向文件頻率中的一個(gè)或多個(gè),計(jì)算每一類別詞匯的權(quán)重,每一目標(biāo)類別信息的逆向文件頻率為待分類的網(wǎng)絡(luò)信息總數(shù)與包含相應(yīng)目標(biāo)類別信息的網(wǎng)絡(luò)信息個(gè)數(shù)的商的對數(shù)。
優(yōu)選地還包括:
通過分類器獲得用于描述所述至少一個(gè)類別信息的所述網(wǎng)絡(luò)信息。
其中,所述依據(jù)每一目標(biāo)類別信息的權(quán)重,確定所述網(wǎng)絡(luò)信息所屬類別信息包括:
判斷每一目標(biāo)類別信息的權(quán)重與第一預(yù)設(shè)閾值的大小關(guān)系;
將大于等于所述第一預(yù)設(shè)閾值的權(quán)重相應(yīng)的目標(biāo)類別信息,確定為所述網(wǎng)絡(luò)信息所屬類別信息。
優(yōu)選地,還包括:
當(dāng)所述詞匯集合中包含的所有類別詞匯所屬目標(biāo)類別信息的個(gè)數(shù)小于等于第二預(yù)設(shè)閾值時(shí),執(zhí)行步驟計(jì)算所述詞匯集合中包含的每一類別詞匯的權(quán)重。
優(yōu)選地,還包括:
獲取用戶關(guān)注的類別信息;
將與用戶關(guān)注的類別信息對應(yīng)的網(wǎng)絡(luò)信息發(fā)送至所述用戶。
其中,所述網(wǎng)絡(luò)信息為股票類信息,每一類別信息包括股票全稱、股票簡稱和股票代碼。
一種信息分類裝置,包括:
第一獲取模塊,用于將網(wǎng)絡(luò)信息進(jìn)行劃分,獲得詞匯集合,詞匯集合至少包括一個(gè)詞匯;
第二獲取模塊,用于從所述詞匯集合中,獲得與預(yù)先存儲的各類別信息相匹配的類別詞匯,每一類別信息包括用于表征相應(yīng)類別信息的至少一個(gè)類別詞匯;
第一計(jì)算模塊,用于計(jì)算所述詞匯集合中包含的每一類別詞匯的權(quán)重,權(quán)重用于表征所述網(wǎng)絡(luò)信息與相應(yīng)類別詞匯的關(guān)聯(lián)程度;
第一確定模塊,用于依據(jù)預(yù)先存儲的每一類別信息中各類別詞匯的關(guān)聯(lián)關(guān)系,確定所述詞匯集合包含的所有類別詞匯所屬的目標(biāo)類別信息;
第二計(jì)算模塊,用于依據(jù)所述詞匯集合包含的所有類別詞匯所屬的目標(biāo)類別信息,以及所述詞匯集合包含的每一類別詞匯相應(yīng)的權(quán)重,計(jì)算每一目標(biāo)類別信息的權(quán)重;
第二確定模塊,用于依據(jù)每一目標(biāo)類別信息的權(quán)重,確定所述網(wǎng)絡(luò)信息所屬類別信息。
其中,所述第一計(jì)算模塊具體用于:
依據(jù)所述詞匯集合中包含的每一類別詞匯在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)、出現(xiàn)的位置、所述詞匯集合中所有類別詞匯所屬目標(biāo)類別信息的個(gè)數(shù),和,預(yù)先獲得的每一目標(biāo)類別信息的逆向文件頻率中的一個(gè)或多個(gè),計(jì)算每一類別詞匯的權(quán)重,每一目標(biāo)類別信息的逆向文件頻率為待分類的網(wǎng)絡(luò)信息總數(shù)與包含相應(yīng)目標(biāo)類別信息的網(wǎng)絡(luò)信息個(gè)數(shù)的商的對數(shù)。
其中,所述第二確定模塊包括:
判斷單元,用于判斷每一目標(biāo)類別信息的權(quán)重與第一預(yù)設(shè)閾值的大小關(guān)系;
確定單元,用于將大于等于所述第一預(yù)設(shè)閾值的權(quán)重相應(yīng)的目標(biāo)類別信息,確定為所述網(wǎng)絡(luò)信息所屬類別信息。
經(jīng)由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例提供了一種信息分類方法中,首先將網(wǎng)絡(luò)信息進(jìn)行劃分,獲得詞匯集合;然后從詞匯集合匯中,獲得與預(yù)先存儲的各類別信息相匹配的類別詞匯;計(jì)算每一類別詞匯的權(quán)重,依據(jù)預(yù)先存儲的每一類別信息中各類別詞匯的關(guān)聯(lián)關(guān)系,確定詞匯集合包含的所有類別詞匯所屬的目標(biāo)類別信息;依據(jù)詞匯集合包含的所有類別詞匯所屬的目標(biāo)類別信息,以及詞匯集合包含的每一類別詞匯相應(yīng)的權(quán)重,計(jì)算每一目標(biāo)類別信息的權(quán)重;最終依據(jù)每一目標(biāo)類別信息的權(quán)重,確定網(wǎng)絡(luò)信息所屬類別信息,從而實(shí)現(xiàn)了對網(wǎng)絡(luò)信息的分類。在進(jìn)行信息推送時(shí),可以將與用戶關(guān)注的類別信息相應(yīng)的網(wǎng)絡(luò)信息推送給用戶。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種信息分類方法的流程示意圖;
圖2為本發(fā)明實(shí)施例提供的一種信息分類裝置的結(jié)構(gòu)示意圖;
圖3為本發(fā)明實(shí)施例提供的一種電子設(shè)備的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
如圖1所示,為本發(fā)明實(shí)施例提供的一種信息分類方法的流程示意圖,該方法包括:
步驟S101:將網(wǎng)絡(luò)信息進(jìn)行劃分,獲得詞匯集合,詞匯集合至少包括一個(gè)詞匯。
本發(fā)明實(shí)施例提供的信息分類方法,可以是對所有的網(wǎng)絡(luò)信息進(jìn)行粗粒度劃分,例如,將網(wǎng)絡(luò)信息劃分為股票類網(wǎng)絡(luò)信息、旅游類網(wǎng)絡(luò)信息、招聘類網(wǎng)絡(luò)信息、美食類網(wǎng)絡(luò)信息或汽車類網(wǎng)絡(luò)信息等等。
也可以對網(wǎng)絡(luò)信息進(jìn)行細(xì)粒度劃分,例如將網(wǎng)絡(luò)信息劃分為關(guān)于平安銀行股票的網(wǎng)絡(luò)信息、關(guān)于中國銀行股票的網(wǎng)絡(luò)信息等等,或者,劃分為關(guān)于故宮旅游的網(wǎng)絡(luò)信息,關(guān)于嶗山旅游的網(wǎng)絡(luò)信息等等。
可以理解的是,包括有相應(yīng)股票詞匯或旅游詞匯的網(wǎng)絡(luò)信息,并不一定是描述該股票或旅游景點(diǎn)的網(wǎng)絡(luò)信息。例如以下網(wǎng)絡(luò)信息。
2月17日,紹興市越城區(qū)靈芝鎮(zhèn)小善村村民裘荷花,展示幾天前在家中翻出的一張60多年前的“XX股票”。這張票證簽發(fā)于1953年,面值4萬元,持有人是裘荷花已經(jīng)過世的公公趙連茂。
盡管上述網(wǎng)絡(luò)信息中包括“XX股票”這一詞匯,但是,該網(wǎng)絡(luò)信息并不是描述XX股票的詳細(xì)內(nèi)容的網(wǎng)絡(luò)信息。這條網(wǎng)絡(luò)新聞對于關(guān)注XX股票跌或升的用戶,沒有任何作用,即用戶并不想看這樣的股票網(wǎng)絡(luò)信息。
因此,優(yōu)選的,為了避免對上述這種網(wǎng)絡(luò)信息進(jìn)行分類,可以在步驟S101之前先對網(wǎng)絡(luò)信息進(jìn)行篩選。即步驟S101中的網(wǎng)絡(luò)信息為描述至少一個(gè)類別信息的網(wǎng)絡(luò)信息。
具體的,可以是通過分類器獲得用于描述所述至少一個(gè)類別信息的所述網(wǎng)絡(luò)信息。
分類器可以是通過樸素貝葉斯的方法訓(xùn)練而成的,假設(shè)需要構(gòu)建用于獲取描述股票的網(wǎng)絡(luò)信息的分類器,即從海量的網(wǎng)絡(luò)信息中,通過該分類器獲得用于描述至少一個(gè)股票的網(wǎng)絡(luò)信息。本發(fā)明實(shí)施例提供但不限于以下訓(xùn)練分類器的實(shí)現(xiàn)方式。
第一階段,獲取已知待分類項(xiàng)集合,待分類項(xiàng)集合包括多個(gè)訓(xùn)練樣本。每一訓(xùn)練樣本所屬的類別是已知的,例如,類別可以為:描述股票的網(wǎng)絡(luò)信息、僅僅包括股票等詞匯,但并未描述股票的網(wǎng)絡(luò)信息等等。
已知每一訓(xùn)練樣本的特征屬性。
第二階段,分類器訓(xùn)練階段。
計(jì)算每個(gè)類別在訓(xùn)練樣本中出現(xiàn)頻率及每個(gè)訓(xùn)練樣本的特征屬性對每個(gè)類別的條件概率估計(jì),并將結(jié)果記錄。
由于每一訓(xùn)練樣本最終所屬類別是已知的,且每個(gè)訓(xùn)練樣本的特征屬性對每個(gè)類別的條件概率估計(jì)是已知的,這樣就可以獲得分類器了。即分類器的輸入是各訓(xùn)練樣本以及各訓(xùn)練樣本的特征屬性,分類器的輸出是訓(xùn)練樣本所屬的類別。
訓(xùn)練樣本的數(shù)量越多,分類器的分類結(jié)果越準(zhǔn)確。
第三階段,應(yīng)用階段。
使用分類器對海量的網(wǎng)絡(luò)信息進(jìn)行篩選,即分類器的輸入是海量的網(wǎng)絡(luò)信息以及各網(wǎng)絡(luò)信息相應(yīng)的特征屬性;分類器的輸出是各網(wǎng)絡(luò)信息為描述股票的網(wǎng)絡(luò)信息,或,僅僅包括股票等詞匯,但并未描述股票的網(wǎng)絡(luò)信息。
這樣,依據(jù)分類器就可以獲得步驟S101中的股票了。
步驟S102:從所述詞匯集合中,獲得與預(yù)先存儲的各類別信息相匹配的類別詞匯,每一類別信息包括用于表征相應(yīng)類別信息的至少一個(gè)類別詞匯。
本發(fā)明實(shí)施例提供的信息分類方法應(yīng)用的場景不同,預(yù)先存儲的類別信息不同。
例如,若應(yīng)用場景為股票分類,此時(shí),每一類別信息可以包括:相應(yīng)股票全稱、相應(yīng)股票簡稱和相應(yīng)股票代碼。例如平安銀行的股票代碼為000001,股票全稱為平安銀行,股票簡稱為payh。
上述“各類別信息”是指各類股票信息,例如平安銀行的股票為一類別信息,中國銀行的股票為另一類別信息。
若應(yīng)用場景為旅游景點(diǎn)分類,此時(shí),每一類別信息可以包括:相應(yīng)旅游景點(diǎn)的名稱、相應(yīng)旅游景點(diǎn)所在的地理位置。例如,故宮(紫禁城)為一旅游景點(diǎn)的名稱,故宮所在的地理位置為北緯:39度54分56.92秒,東經(jīng):116度23分26.93秒。
不同的旅游景點(diǎn)對應(yīng)不同的類別信息。
若應(yīng)用場景為依據(jù)公司對招聘信息分類,此時(shí),每一類別信息可以包括:相應(yīng)公司名稱中文全稱、相應(yīng)公司名稱中文簡稱、相應(yīng)公司名稱英文全稱、相應(yīng)公司名稱英文簡稱。例如,中國銀行的公司名稱中文全稱為中國銀行股份有限公司,公司名稱中文簡稱為中國銀行,公司名稱英文全稱為Bank of China Limited,公司名稱英文簡稱為BOC。
假設(shè),步驟S101中的網(wǎng)絡(luò)信息為:平安銀行成交額30萬元。則將該網(wǎng)絡(luò)信息進(jìn)行劃分后,對應(yīng)的詞匯集合包括:平、平安、平安銀、平安銀行、平安銀行成、平安銀行成交、平安銀行成交額、平安銀行成交額3、平安銀行成交額30、平安銀行成交額30萬、平安銀行成交額30萬元;安、安銀、安銀行、安銀行成、安銀行成交、安銀行成交額、安銀行成交額3、安銀行成交額30、安銀行成交額30萬、安銀行成交額30萬元;銀、銀行、銀行成、銀行成交、銀行成交額、銀行成交額3、銀行成交額30、銀行成交額30萬;行,……,元。
假設(shè)預(yù)先存儲的各類別信息包括平安銀行、000001(平安銀行代碼)、中國銀行,…,等等,則步驟S102中獲得的類別詞匯為平安銀行。
步驟S103:計(jì)算所述詞匯集合中包含的每一類別詞匯的權(quán)重,權(quán)重用于表征所述網(wǎng)絡(luò)信息與相應(yīng)類別詞匯的關(guān)聯(lián)程度。
可以理解的是,類別詞匯的權(quán)重與類別詞匯在網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù),以及出現(xiàn)的位置相關(guān)。
可以依據(jù)每一類別詞匯在網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)和位置,計(jì)算權(quán)重。
步驟S104:依據(jù)預(yù)先存儲的每一類別信息中各類別詞匯的關(guān)聯(lián)關(guān)系,確定所述詞匯集合包含的所有類別詞匯所屬的目標(biāo)類別信息。
假設(shè)步驟S102中詞匯集合包括的所有類別詞匯分別為:平安銀行、000001、payh、中國銀行,則平安銀行、000001、payh這三個(gè)類別詞匯屬于一目標(biāo)類別信息,中國銀行屬于一目標(biāo)類別信息。
步驟S104中之所以稱之為目標(biāo)類別信息,是為了與預(yù)先存儲的各類別信息進(jìn)行區(qū)分,本發(fā)明實(shí)施例中將詞匯集合中各類別詞匯所屬的類別信息,稱為目標(biāo)類別信息。
步驟S105:依據(jù)所述詞匯集合包含的所有類別詞匯所屬的目標(biāo)類別信息,以及所述詞匯集合包含的每一類別詞匯相應(yīng)的權(quán)重,計(jì)算每一目標(biāo)類別信息的權(quán)重。
每一目標(biāo)類別信息的權(quán)重可以為該目標(biāo)類別信息對應(yīng)的各類別詞匯相應(yīng)的權(quán)重之和。
仍以平安銀行、000001、payh為例,則平安銀行這一目標(biāo)類別信息的權(quán)重=平安銀行的權(quán)重+000001的權(quán)重+payh的權(quán)重。
步驟S106:依據(jù)每一目標(biāo)類別信息的權(quán)重,確定所述網(wǎng)絡(luò)信息所屬類別信息。
可以理解的是,權(quán)重越大的目標(biāo)類別信息,為所述網(wǎng)絡(luò)信息所屬類別信息的可能性越大。
本發(fā)明實(shí)施例提供的信息分類方法中,首先將網(wǎng)絡(luò)信息進(jìn)行劃分,獲得詞匯集合;然后從詞匯集合匯中,獲得與預(yù)先存儲的各類別信息相匹配的類別詞匯;計(jì)算每一類別詞匯的權(quán)重,依據(jù)預(yù)先存儲的每一類別信息中各類別詞匯的關(guān)聯(lián)關(guān)系,確定詞匯集合包含的所有類別詞匯所屬的目標(biāo)類別信息;依據(jù)詞匯集合包含的所有類別詞匯所屬的目標(biāo)類別信息,以及詞匯集合包含的每一類別詞匯相應(yīng)的權(quán)重,計(jì)算每一目標(biāo)類別信息的權(quán)重;最終依據(jù)每一目標(biāo)類別信息的權(quán)重,確定網(wǎng)絡(luò)信息所屬類別信息,從而實(shí)現(xiàn)了對網(wǎng)絡(luò)信息的分類。在進(jìn)行信息推送時(shí),可以將與用戶關(guān)注的類別信息相應(yīng)的網(wǎng)絡(luò)信息推送給用戶。
上述信息分類方法實(shí)施例中“計(jì)算詞匯集合中每一類別詞匯的權(quán)重”的方法有多種,本發(fā)明實(shí)施例提供但不限于以下幾種。
第一種:依據(jù)每一類別詞匯在網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)以及位置,確定每一類別詞匯相應(yīng)的權(quán)重。
網(wǎng)絡(luò)信息一般包括標(biāo)題和正文,類別詞匯在網(wǎng)絡(luò)信息中出現(xiàn)的位置可以是指類別詞匯在正文中出現(xiàn),或,類別詞匯在標(biāo)題中出現(xiàn)。
類別詞匯在網(wǎng)絡(luò)中出現(xiàn)的位置還可以是指類別詞匯位于文中的第幾個(gè)詞,若網(wǎng)絡(luò)信息為“平安銀行成交額30萬元”,平安銀行的位置為第1個(gè)詞,即平安銀行在該網(wǎng)絡(luò)信息中出現(xiàn)的位置為1。
優(yōu)選的,類別詞匯在標(biāo)題中出現(xiàn)時(shí)相應(yīng)的權(quán)重,高于在正文中出現(xiàn)時(shí)相應(yīng)的權(quán)重。
類別詞匯的權(quán)重與類別詞匯在網(wǎng)絡(luò)信息中出現(xiàn)次數(shù)呈正相關(guān),與出現(xiàn)的位置呈負(fù)相關(guān)。
正相關(guān)(Positive correlation),是指兩個(gè)變量變動方向相同,一個(gè)變量由大到小或由小到大變化時(shí),另一個(gè)變量亦由大到小或由小到大變化。
負(fù)相關(guān)是指兩個(gè)變量變動方向相反,一各變量由大到小或由小到大變化時(shí),另一個(gè)變量反而由小到大或由大到小變化。
具體的,依據(jù)每一類別詞匯在網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)以及位置,確定每一類別詞匯相應(yīng)的權(quán)重可以包括:
判斷所述詞匯集合中每一類別詞匯在所述網(wǎng)絡(luò)信息中出現(xiàn)的位置;
當(dāng)所述詞匯集合中第一類別詞匯在所述網(wǎng)絡(luò)信息中的標(biāo)題位置時(shí),依據(jù)第一函數(shù)計(jì)算所述第一類別詞匯的權(quán)重,所述第一函數(shù)以相應(yīng)類別詞匯在所述標(biāo)題中的位置為因變量,以權(quán)重為自變量的函數(shù),且所述第一函數(shù)的自變量和因變量為負(fù)相關(guān);
當(dāng)所述詞匯集合中第二類別詞匯在所述網(wǎng)絡(luò)信息的正文中位置時(shí),依據(jù)第二函數(shù)計(jì)算所述第二類別詞匯的權(quán)重,所述第二函數(shù)以相應(yīng)類別詞匯在所述正文中的位置為因變量,以權(quán)重為自變量的函數(shù),且所述第二函數(shù)的自變量和因變量為負(fù)相關(guān)。
第一函數(shù)的具體呈現(xiàn)公式有多種,本發(fā)明實(shí)施例提供但不限于以下公式:
第一函數(shù)的權(quán)重=第一數(shù)值1/位置,其中,第一數(shù)值可以為大于等于1的任意值,假設(shè)第一數(shù)值為2,則第一函數(shù)的權(quán)重=21/位置,仍以平安銀行成交額30萬元為例,假設(shè)平安銀行成交額30萬元為標(biāo)題,則平安銀行在網(wǎng)絡(luò)信息中的位置為1,其權(quán)重=21/1=2。再以“今日新聞平安銀行成交額30萬元”為標(biāo)題為例,平安銀行在該網(wǎng)絡(luò)信息中的位置為5,則平安銀行的權(quán)重=21/5。
第二函數(shù)的具體呈現(xiàn)公式有多種,本發(fā)明實(shí)施例提供但不限于以下公式:
第二函數(shù)的權(quán)重=第二數(shù)值1/位置其中,第二數(shù)值可以為大于等于1的任意值,優(yōu)選的,第二數(shù)值小于第一數(shù)值。假設(shè)第一數(shù)值為1.01,則第一函數(shù)的權(quán)重=1.011/位置,仍以平安銀行成交額30萬元為例,假設(shè)平安銀行成交額30萬元為正文,則平安銀行的權(quán)重=1.011/1=1.01。再以“今日新聞平安銀行成交額30萬元”為正文為例,平安銀行的權(quán)重=1.011/5。
第二種,依據(jù)所述詞匯集合中包含的每一類別詞匯在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)、出現(xiàn)的位置、所述詞匯集合中所有詞匯類別所述目標(biāo)類別信息的個(gè)數(shù),和,預(yù)先獲得的每一目標(biāo)類別信息的逆向文件頻率,計(jì)算每一類別詞匯的權(quán)重。
假設(shè)類別詞匯在網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)以tf表示,出現(xiàn)的位置以position表示,類別詞匯所屬目標(biāo)類別信息的逆向文件頻率用idf表示,網(wǎng)絡(luò)信息中包含的目標(biāo)類別信息的個(gè)數(shù)用freq表示,則該類別詞匯的權(quán)重Score的計(jì)算公式可以如下:
逆向文件頻率(inverse document frequency,idf)是一個(gè)詞語普遍重要性的度量。某一詞語的idf,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到。在本發(fā)明實(shí)施例中,總文件數(shù)目是指待分類的網(wǎng)絡(luò)信息總數(shù);包含該詞語之文件的數(shù)目是指包含相應(yīng)目標(biāo)類別信息的網(wǎng)絡(luò)信息個(gè)數(shù)。具體計(jì)算公式如下:
其中,D為待分類的網(wǎng)絡(luò)信息總數(shù);j:ti∈dj是指包含相應(yīng)目標(biāo)類別信息的網(wǎng)絡(luò)信息個(gè)數(shù)。
第三種,依據(jù)所述詞匯集合中包含的每一類別詞匯在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)、出現(xiàn)的位置、所述詞匯集合中所有詞匯類別所述目標(biāo)類別信息的個(gè)數(shù),和,預(yù)先獲得的每一目標(biāo)類別信息的逆向文件頻率中的一個(gè)或多個(gè),計(jì)算每一類別詞匯的權(quán)重。
可選的,將每一類別詞匯在網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù),確定為該類別詞匯的權(quán)重。
可選的,將每一類別詞匯在網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)與所述詞匯集合中包括的類別詞匯總數(shù)的商,確定為該類別詞匯的權(quán)重。
本發(fā)明實(shí)施例提供的信息分類方法中,“依據(jù)每一目標(biāo)類別信息的權(quán)重,確定所述網(wǎng)絡(luò)信息所屬類別信息”的實(shí)現(xiàn)方式有多種,本發(fā)明實(shí)施例提供但不限于以下幾種。
第一種,將最大權(quán)重對應(yīng)的目標(biāo)類別信息,確定為網(wǎng)絡(luò)信息所屬類別信息。
第二種,判斷每一目標(biāo)類別信息的權(quán)重與第一預(yù)設(shè)閾值的大小關(guān)系;將大于等于所述第一預(yù)設(shè)閾值的權(quán)重相應(yīng)的目標(biāo)類別信息,確定為所述網(wǎng)絡(luò)信息所屬類別信息。
若每一目標(biāo)類別信息的權(quán)重均小于第一預(yù)設(shè)閾值,則說明該網(wǎng)絡(luò)信息只是泛泛說股票,并不是針對某一股票。
可以理解的是,若詞匯集合中包括的所有類別詞匯所述目標(biāo)類別信息的個(gè)數(shù)很多,則也可以說明該網(wǎng)絡(luò)信息只是泛泛說股票,并不是針對某一股票。此時(shí)就無需在執(zhí)行步驟S103和步驟S104了。
即在步驟S103之前還包括:當(dāng)所述詞匯集合中包含的類別詞匯所屬目標(biāo)類別信息的個(gè)數(shù)小于等于第二預(yù)設(shè)閾值時(shí),執(zhí)行步驟S103。
第一預(yù)設(shè)閾值和第二預(yù)設(shè)閾值可以依據(jù)實(shí)際情況而定,例如第二預(yù)設(shè)閾值可以為4。
將網(wǎng)絡(luò)信息進(jìn)行分類之后,還可以執(zhí)行如下步驟:獲取用戶關(guān)注的類別信息;將與用戶關(guān)注的類別信息對應(yīng)的網(wǎng)絡(luò)信息發(fā)送至所述用戶。
本發(fā)明實(shí)施例還提供了一種與信息分類方法對應(yīng)的信息分類裝置,如圖2所示,為本發(fā)明實(shí)施例提供的一種信息分類裝置的結(jié)構(gòu)示意圖,該裝置包括:
第一獲取模塊21,用于將網(wǎng)絡(luò)信息進(jìn)行劃分,獲得詞匯集合,詞匯集合至少包括一個(gè)詞匯;
第二獲取模塊22,用于從所述詞匯集合中,獲得與預(yù)先存儲的各類別信息相匹配的類別詞匯,每一類別信息包括用于表征相應(yīng)類別信息的至少一個(gè)類別詞匯;
第一計(jì)算模塊23,用于計(jì)算所述詞匯集合中包含的每一類別詞匯的權(quán)重,權(quán)重用于表征所述網(wǎng)絡(luò)信息與相應(yīng)類別詞匯的關(guān)聯(lián)程度;
第一確定模塊24,用于依據(jù)預(yù)先存儲的每一類別信息中各類別詞匯的關(guān)聯(lián)關(guān)系,確定所述詞匯集合包含的所有類別詞匯所屬的目標(biāo)類別信息;
第二計(jì)算模塊25,用于依據(jù)所述詞匯集合包含的所有類別詞匯所屬的目標(biāo)類別信息,以及所述詞匯集合包含的每一類別詞匯相應(yīng)的權(quán)重,計(jì)算每一目標(biāo)類別信息的權(quán)重;
第二確定模塊26,用于依據(jù)每一目標(biāo)類別信息的權(quán)重,確定所述網(wǎng)絡(luò)信息所屬類別信息。
可選的,所述第一計(jì)算模塊具體用于:
依據(jù)所述詞匯集合中包含的每一類別詞匯在所述網(wǎng)絡(luò)信息中出現(xiàn)的次數(shù)、出現(xiàn)的位置、所述詞匯集合中所有類別詞匯所屬目標(biāo)類別信息的個(gè)數(shù),和,預(yù)先獲得的每一目標(biāo)類別信息的逆向文件頻率中的一個(gè)或多個(gè),計(jì)算每一類別詞匯的權(quán)重,每一目標(biāo)類別信息的逆向文件頻率為待分類的網(wǎng)絡(luò)信息總數(shù)與包含相應(yīng)目標(biāo)類別信息的網(wǎng)絡(luò)信息個(gè)數(shù)的商的對數(shù)。
可選的,還包括:
第三獲取模塊,用于通過分類器獲得用于描述所述至少一個(gè)類別信息的所述網(wǎng)絡(luò)信息。
可選的,所述第二確定模塊包括:
判斷單元,用于判斷每一目標(biāo)類別信息的權(quán)重與第一預(yù)設(shè)閾值的大小關(guān)系;
確定單元,用于將大于等于所述第一預(yù)設(shè)閾值的權(quán)重相應(yīng)的目標(biāo)類別信息,確定為所述網(wǎng)絡(luò)信息所屬類別信息。
可選的,還包括:
觸發(fā)模塊,用于當(dāng)所述詞匯集合中包含的所有類別詞匯所屬目標(biāo)類別信息的個(gè)數(shù)小于等于第二預(yù)設(shè)閾值時(shí),觸發(fā)第一計(jì)算模塊。
可選的,還包括:
第四獲取模塊,用于獲取用戶關(guān)注的類別信息;
發(fā)送模塊,用于將與用戶關(guān)注的類別信息對應(yīng)的網(wǎng)絡(luò)信息發(fā)送至所述用戶。
本發(fā)明實(shí)施例還提供了一種電子設(shè)備,如圖3所示,為本發(fā)明實(shí)施例提供的一種電子設(shè)備的結(jié)構(gòu)示意圖,該電子設(shè)備包括:處理器31,通信接口32,存儲器33和通信總線34;
其中處理器31、通信接口32、存儲器33通過通信總線34完成相互間的通信;
可選的,通信接口32可以為通信模塊的接口,如GSM模塊的接口;
處理器31,用于執(zhí)行程序;
存儲器33,用于存放程序和數(shù)據(jù);
程序可以包括程序代碼,所述程序代碼包括計(jì)算機(jī)操作指令,數(shù)據(jù)可以包括各類別信息。
處理器31可能是一個(gè)中央處理器CPU,或者是特定集成電路ASIC(Application Specific Integrated Circuit),或者是被配置成實(shí)施本發(fā)明實(shí)施例的一個(gè)或多個(gè)集成電路。
存儲器33可能包含高速RAM存儲器,也可能還包括非易失性存儲器(non-volatile memory),例如至少一個(gè)磁盤存儲器。
其中,程序可具體用于:
將網(wǎng)絡(luò)信息進(jìn)行劃分,獲得詞匯集合,詞匯集合至少包括一個(gè)詞匯;
從所述詞匯集合中,獲得與預(yù)先存儲的各類別信息相匹配的類別詞匯,每一類別信息包括用于表征相應(yīng)類別信息的至少一個(gè)類別詞匯;
計(jì)算所述詞匯集合中包含的每一類別詞匯的權(quán)重,權(quán)重用于表征所述網(wǎng)絡(luò)信息與相應(yīng)類別詞匯的關(guān)聯(lián)程度;
依據(jù)預(yù)先存儲的每一類別信息中各類別詞匯的關(guān)聯(lián)關(guān)系,確定所述詞匯集合包含的所有類別詞匯所屬的目標(biāo)類別信息;
依據(jù)所述詞匯集合包含的所有類別詞匯所屬的目標(biāo)類別信息,以及所述詞匯集合包含的每一類別詞匯相應(yīng)的權(quán)重,計(jì)算每一目標(biāo)類別信息的權(quán)重;
依據(jù)每一目標(biāo)類別信息的權(quán)重,確定所述網(wǎng)絡(luò)信息所屬類別信息。
最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似部分互相參見即可。
對所公開的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本申請。對這些實(shí)施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本申請的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本申請將不會被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。