欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種給應(yīng)用標(biāo)注標(biāo)簽的方法和裝置與流程

文檔序號:11729479閱讀:294來源:國知局
一種給應(yīng)用標(biāo)注標(biāo)簽的方法和裝置與流程

本發(fā)明涉及信息處理技術(shù)領(lǐng)域,具體而言涉及一種給應(yīng)用標(biāo)注標(biāo)簽的方法和裝置。



背景技術(shù):

在應(yīng)用商店或應(yīng)用市場里提供的應(yīng)用都具有1個(gè)或多個(gè)標(biāo)簽,標(biāo)簽的作用是標(biāo)識各種應(yīng)用程序的分類或內(nèi)容,便于用戶查找。而在應(yīng)用商店或應(yīng)用市場運(yùn)營過程中,需要對新加入應(yīng)用庫的應(yīng)用標(biāo)注標(biāo)簽。例如:應(yīng)用商店或應(yīng)用市場剛上線了一個(gè)“貪吃蛇”應(yīng)用,需要給這個(gè)應(yīng)用標(biāo)注標(biāo)簽,可以標(biāo)注標(biāo)簽“休閑游戲”。給新上線的應(yīng)用標(biāo)注標(biāo)簽的傳統(tǒng)方法是通過運(yùn)營人員根據(jù)經(jīng)驗(yàn)判斷該應(yīng)用適合什么樣的標(biāo)簽。這種方法的缺陷有兩個(gè):

1、需要耗費(fèi)巨大的人力成本。對于加入應(yīng)用庫的每一個(gè)新應(yīng)用,運(yùn)營人員都需要去查閱所有標(biāo)簽,找出合適的標(biāo)簽給應(yīng)用標(biāo)注上。

2、準(zhǔn)確性難以保障并且效率低。由于加入應(yīng)用庫的新應(yīng)用眾多,運(yùn)營人員不可能對每一款新應(yīng)用都花時(shí)間去下載、安裝、體驗(yàn),運(yùn)營人員一般是通過應(yīng)用名作為判斷依據(jù),這導(dǎo)致準(zhǔn)確性難以保障;而且靠人工來一個(gè)一個(gè)標(biāo)注標(biāo)簽,效率低。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種給應(yīng)用標(biāo)注標(biāo)簽的方法和裝置,以改善上述問題。

本發(fā)明第一實(shí)施例提供了一種給應(yīng)用標(biāo)注標(biāo)簽的方法,其包括:

從預(yù)置應(yīng)用庫里的每個(gè)應(yīng)用的應(yīng)用描述信息中提取特征詞信息;

將具有相同標(biāo)簽的多個(gè)應(yīng)用的相應(yīng)特征詞信息合并,作為該標(biāo)簽的特征詞信息;

確定每個(gè)標(biāo)簽對歸屬其的每個(gè)特征詞的第一偏好度;

從待標(biāo)注標(biāo)簽的新應(yīng)用的應(yīng)用描述信息中提取特征詞信息;

基于所述第一偏好度和提取出的新應(yīng)用的特征詞信息,確定該新應(yīng)用對標(biāo)簽庫里的每個(gè)標(biāo)簽的第二偏好度;

根據(jù)該第二偏好度按預(yù)設(shè)方式從標(biāo)簽庫里選取相應(yīng)的1個(gè)或多個(gè)標(biāo)簽給該新應(yīng)用標(biāo)注上。

本發(fā)明第二實(shí)施例提供了一種給應(yīng)用標(biāo)注標(biāo)簽的裝置,其包括:

特征詞信息提取單元,用于從預(yù)置應(yīng)用庫里的每個(gè)應(yīng)用的應(yīng)用描述信息中提取特征詞信息,和從待標(biāo)注標(biāo)簽的新應(yīng)用的應(yīng)用描述信息中提取特征詞信息;

標(biāo)簽的特征詞信息確定單元,用于將具有相同標(biāo)簽的多個(gè)應(yīng)用的相應(yīng)特征詞信息合并,作為該標(biāo)簽的特征詞信息;

第一偏好度確定單元,用于確定每個(gè)標(biāo)簽對歸屬其的每個(gè)特征詞的第一偏好度;

第二偏好度確定單元,用于基于所述第一偏好度和提取出的新應(yīng)用的特征詞信息,確定該新應(yīng)用對標(biāo)簽庫里的每個(gè)標(biāo)簽的第二偏好度;

標(biāo)簽標(biāo)注單元,用于根據(jù)該第二偏好度按預(yù)設(shè)方式從標(biāo)簽庫里選取相應(yīng)的1個(gè)或多個(gè)標(biāo)簽給該新應(yīng)用標(biāo)注上。

優(yōu)選的,所述特征詞信息包含特征詞和該特征詞對其所屬應(yīng)用的權(quán)重,首先對應(yīng)用描述信息進(jìn)行分詞處理以提取出特征詞,然后統(tǒng)計(jì)每個(gè)特征詞出現(xiàn)的概率作為該特征詞對其所屬應(yīng)用的權(quán)重。

優(yōu)選的,所述標(biāo)簽的特征詞信息包括特征詞和該特征詞在該標(biāo)簽上的權(quán)重,在合并過程中相同的多個(gè)特征詞合并為1個(gè)特征詞,對每個(gè)特征詞在該標(biāo)簽上的權(quán)重的計(jì)算方法如下:

且i∈a,j∈w

其中:

ft,j表示特征詞j在標(biāo)簽t上的權(quán)重;

wi,j表示特征詞j對預(yù)置應(yīng)用庫里具有標(biāo)簽t的應(yīng)用i的權(quán)重;

a表示預(yù)置應(yīng)用庫里的具有標(biāo)簽t的應(yīng)用集合;

w表示歸屬于應(yīng)用集合a中的應(yīng)用的特征詞集合;

n表示應(yīng)用集合a里的應(yīng)用數(shù)量;

m表示特征詞集合w里的特征詞數(shù)量。

優(yōu)選的,確定所述第一偏好度的方法如下:

其中:

pt,j表示標(biāo)簽t對特征詞j的第一偏好度;

ft,j表示特征詞j在標(biāo)簽t上的權(quán)重;

sj表示特征詞j在從預(yù)置應(yīng)用庫里的所有應(yīng)用的各自應(yīng)用描述信息中所提取的全部特征詞集合中出現(xiàn)的概率,其中:

且i∈aa,j∈aw

其中:

wi,j表示特征詞j對預(yù)置應(yīng)用庫里的應(yīng)用i的權(quán)重;

aa表示預(yù)置應(yīng)用庫里的所有應(yīng)用的集合;

aw表示從所有應(yīng)用的各自應(yīng)用描述信息中所提取的所有特征詞的集合;

n表示應(yīng)用集合aa里的應(yīng)用數(shù)量;

m表示特征詞集合aw里的特征詞數(shù)量。

優(yōu)選的,確定所述第二偏好度的方法如下:

且j∈am

其中:

ri,t表示新應(yīng)用i對標(biāo)簽t的第二偏好度;

pt,j表示標(biāo)簽t對特征詞j的第一偏好度;

wi,j表示從新應(yīng)用i的應(yīng)用描述信息中提取的特征詞j對新應(yīng)用i的權(quán)重;

am表示所獲得的歸屬于標(biāo)簽t的所有特征詞的集合;

m表示歸屬于標(biāo)簽t的特征詞集合里的特征詞數(shù)量。

優(yōu)選的,首先根據(jù)每個(gè)標(biāo)簽對歸屬其的每個(gè)特征詞的第一偏好度按預(yù)設(shè)方式選取一定數(shù)量的特征詞作為相應(yīng)標(biāo)簽的主題特征詞,接著確定所述第二偏好度,方法如下:

且j∈topict

其中:

ri,t表示新應(yīng)用i對標(biāo)簽t的第二偏好度;

pt,j表示標(biāo)簽t對特征詞j的第一偏好度;

wi,j表示從新應(yīng)用i的應(yīng)用描述信息中提取的特征詞j對該新應(yīng)用i的權(quán)重;

topict表示所選取的歸屬于標(biāo)簽t的一定數(shù)量的主題特征詞的集合;

m表示歸屬于標(biāo)簽t的主題特征詞集合里的特征詞數(shù)量。

根據(jù)本發(fā)明的一種給應(yīng)用標(biāo)注標(biāo)簽的方法和裝置,通過應(yīng)用庫里已知的應(yīng)用及其具有的標(biāo)簽,利用用于介紹應(yīng)用的特點(diǎn)和核心功能的應(yīng)用描述信息和分詞技術(shù),在待標(biāo)注標(biāo)簽的新應(yīng)用與標(biāo)簽庫里的標(biāo)簽之間建立了關(guān)聯(lián)性,實(shí)現(xiàn)了自動(dòng)找出適合的1個(gè)或多個(gè)標(biāo)簽給新應(yīng)用標(biāo)注上,降低了人工成本,提高了準(zhǔn)確性和工作效率。

附圖說明

圖1是本發(fā)明實(shí)施例提供的給應(yīng)用標(biāo)注標(biāo)簽的方法的流程圖;

圖2是本發(fā)明實(shí)施例提供的給應(yīng)用標(biāo)注標(biāo)簽的裝置的示意性框圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例和附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。通常在此處附圖中描述和示出的本發(fā)明實(shí)施例的組件可以以各種不同的配置來布置和設(shè)計(jì)。因此,以下對在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍?;诒景l(fā)明的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

為了能夠?qū)崿F(xiàn)自動(dòng)給新入應(yīng)用庫的待標(biāo)注標(biāo)簽的應(yīng)用標(biāo)注標(biāo)簽,需要在待標(biāo)注標(biāo)簽的新應(yīng)用與預(yù)置的標(biāo)簽庫里的標(biāo)簽之間建立起關(guān)聯(lián)性,下面通過實(shí)施例描述的方法利用了應(yīng)用庫里已知的應(yīng)用及其具有的標(biāo)簽、以及用于介紹應(yīng)用的特點(diǎn)和核心功能的應(yīng)用描述信息和分詞技術(shù),建立了在待標(biāo)注標(biāo)簽的新應(yīng)用與預(yù)置的標(biāo)簽庫里的標(biāo)簽之間的關(guān)聯(lián)性,從而實(shí)現(xiàn)自動(dòng)給應(yīng)用標(biāo)注標(biāo)簽的目的。

圖1是本發(fā)明實(shí)施例提供的給應(yīng)用標(biāo)注標(biāo)簽的方法的流程圖。如圖1所示,本發(fā)明的給應(yīng)用標(biāo)注標(biāo)簽的方法包括以下步驟:

s1:從預(yù)置應(yīng)用庫里的每個(gè)應(yīng)用的應(yīng)用描述信息中提取特征詞信息。

通常,在開發(fā)應(yīng)用市場或應(yīng)用商店時(shí)通常都會(huì)預(yù)置應(yīng)用庫,從應(yīng)用市場或應(yīng)用商店下載的第三方應(yīng)用都在保存在該預(yù)置應(yīng)用庫中。另外,應(yīng)用商店或應(yīng)用市場提供的第三方應(yīng)用都具有1個(gè)或多個(gè)標(biāo)簽,這些標(biāo)簽來自于在開發(fā)應(yīng)用商店或應(yīng)用市場時(shí)預(yù)置的標(biāo)簽庫,標(biāo)簽的作用是標(biāo)識各種應(yīng)用程序的分類或內(nèi)容,便于用戶查找。這些對于本領(lǐng)域技術(shù)人員來說是公知常識,這里不對這些常規(guī)技術(shù)做過多介紹。

除此之外,預(yù)置應(yīng)用庫里的每個(gè)應(yīng)用都具有應(yīng)用描述信息,用于介紹該應(yīng)用的特點(diǎn)和核心功能,以便讓用戶了解該應(yīng)用,對該應(yīng)用產(chǎn)生興趣。

本發(fā)明提供的方法首先對應(yīng)用描述信息進(jìn)行分詞處理以提取出特征詞,然后統(tǒng)計(jì)每個(gè)特征詞出現(xiàn)的概率作為該特征詞對其所屬應(yīng)用的權(quán)重。這樣,步驟s1所述的特征詞信息包含特征詞和該特征詞對其所屬應(yīng)用的權(quán)重??梢圆捎帽绢I(lǐng)域公知的分詞技術(shù)來對應(yīng)用描述信息進(jìn)行分詞處理,所提取出的特征詞就是經(jīng)過分詞處理后得到的詞語,或者稱為關(guān)鍵詞。

對某個(gè)應(yīng)用i的描述信息提取的特征詞信息記為wi

wi={w1:pci1,w2:pci2,w3:pci3,…}

其中:w1:pci1,w2:pci2,w3:pci3,…表示特征詞和相應(yīng)的權(quán)重,例如w1表示一個(gè)特征詞,pci1表示該特征詞在該應(yīng)用i上的權(quán)重。

例如:應(yīng)用“搜狗拼音輸入法”的應(yīng)用描述信息為:“打字精準(zhǔn)、界面最個(gè)性的輸入法,擁有全能的輸入法”,對該描述信息分詞處理后得到的特征詞為:”打字、精準(zhǔn)、界面、個(gè)性、輸入法、擁有、全能、輸入法”。那么“搜狗拼音輸入法”的特征詞信息為:

s2:將具有相同標(biāo)簽的多個(gè)應(yīng)用的相應(yīng)特征詞信息合并,作為該標(biāo)簽的特征詞信息。

預(yù)置應(yīng)用庫里的已存在的每個(gè)應(yīng)用都具有1個(gè)或多個(gè)標(biāo)簽,在對每個(gè)應(yīng)用的描述信息提取了歸屬于應(yīng)用的特征詞,將具有相同標(biāo)簽的多個(gè)應(yīng)用所擁有的相應(yīng)特征詞信息進(jìn)行合并,合并后得到的特征詞信息作為該標(biāo)簽的特征詞信息。

所述標(biāo)簽的特征詞信息同樣地包括了特征詞和該特征詞在該標(biāo)簽上的權(quán)重。在多個(gè)特征詞信息的合并過程中相同的多個(gè)特征詞合并為1個(gè)特征詞,對每個(gè)特征詞在該標(biāo)簽上的權(quán)重的計(jì)算方法如下:

且i∈a,j∈w

其中:

ft,j表示特征詞j在標(biāo)簽t上的權(quán)重;

wi,j表示特征詞j對預(yù)置應(yīng)用庫里具有標(biāo)簽t的應(yīng)用i的權(quán)重;

a表示預(yù)置應(yīng)用庫里的具有標(biāo)簽t的應(yīng)用集合;

w表示歸屬于應(yīng)用集合a中的應(yīng)用的特征詞集合;

n表示應(yīng)用集合a里的應(yīng)用數(shù)量;

m表示特征詞集合w里的特征詞數(shù)量。

可知,每個(gè)特征詞在某個(gè)標(biāo)簽上的權(quán)重即為每個(gè)特征詞在歸屬于具有該標(biāo)簽的應(yīng)用集合中的應(yīng)用的特征詞集合中出現(xiàn)的概率。

以標(biāo)簽“直播”為例,假設(shè)具有該標(biāo)簽的應(yīng)用有兩個(gè),分別是“斗魚tv”、“yy”。應(yīng)用“斗魚tv”的特征詞信息為應(yīng)用“yy”的特征詞信息為那么合并后,標(biāo)簽“直播”的特征詞為("游戲","直播","娛樂"),標(biāo)簽“直播”的特征詞信息為:

s3:確定每個(gè)標(biāo)簽對歸屬其的每個(gè)特征詞的第一偏好度。

在得到標(biāo)簽庫里的全部標(biāo)簽的各自特征詞信息(一般可以認(rèn)為預(yù)置應(yīng)用庫里的全部應(yīng)用所具有的標(biāo)簽的集合涵蓋了標(biāo)簽庫里的全部標(biāo)簽),需要建立每個(gè)標(biāo)簽與歸屬其的特征詞之間關(guān)聯(lián)度,在這里以每個(gè)標(biāo)簽對歸屬其的每個(gè)特征詞的第一偏好度作為關(guān)聯(lián)度,確定所述第一偏好度的方法如下:

其中:

pt,j表示標(biāo)簽t對特征詞j的第一偏好度;

ft,j表示特征詞j在標(biāo)簽t上的權(quán)重,即在歸屬于具有標(biāo)簽t的應(yīng)用集合中的應(yīng)用的特征詞集合中出現(xiàn)的概率;

sj表示特征詞j在從預(yù)置應(yīng)用庫里的所有應(yīng)用的各自應(yīng)用描述信息中所提取的全部特征詞集合中出現(xiàn)的概率,其中:

且i∈aa,j∈aw

其中:

wi,j表示特征詞j對預(yù)置應(yīng)用庫里的應(yīng)用i的權(quán)重;

aa表示預(yù)置應(yīng)用庫里的所有應(yīng)用的集合;

aw表示從所有應(yīng)用的各自應(yīng)用描述信息中所提取的所有特征詞的集合;

n表示應(yīng)用集合aa里的應(yīng)用數(shù)量;

m表示特征詞集合aw里的特征詞數(shù)量。

s4:從待標(biāo)注標(biāo)簽的新應(yīng)用的應(yīng)用描述信息中提取特征詞信息。

這里的實(shí)現(xiàn)步驟與步驟s1的實(shí)現(xiàn)方法相同,從待標(biāo)注標(biāo)簽的新應(yīng)用的應(yīng)用描述信息中提取特征詞信息,該特征詞信息包含特征詞和該特征詞對其所屬新應(yīng)用的權(quán)重。同樣可以記為wi

wi={w1:pci1,w2:pci2,w3:pci3,…}。

其它相關(guān)描述可以參見步驟s1的描述,這里不重復(fù)描述了。

s5:基于所述第一偏好度和提取出的新應(yīng)用的特征詞信息,確定該新應(yīng)用對標(biāo)簽庫里的每個(gè)標(biāo)簽的第二偏好度。

當(dāng)有了每個(gè)標(biāo)簽對歸屬其的每個(gè)特征詞的第一偏好度、以及提取的歸屬于新應(yīng)用的特征詞信息,就可以建立起該新應(yīng)用與標(biāo)簽庫里的每個(gè)標(biāo)簽的關(guān)聯(lián)度,在這里以該新應(yīng)用對標(biāo)簽庫里的每個(gè)標(biāo)簽的第二偏好度作為關(guān)聯(lián)度,確定所述第二偏好度的方法如下:

且j∈am

其中:

ri,t表示新應(yīng)用i對標(biāo)簽t的第二偏好度;

pt,j表示標(biāo)簽t對特征詞j的第一偏好度;

wi,j表示從新應(yīng)用i的應(yīng)用描述信息中提取的特征詞j對該新應(yīng)用i的權(quán)重;

am表示所獲得的歸屬于標(biāo)簽t的所有特征詞的集合;

m表示歸屬于標(biāo)簽t的特征詞集合里的特征詞數(shù)量。

從該公式可以看出:將新應(yīng)用i看做是從新應(yīng)用i的應(yīng)用描述信息中提取的不同特征詞j的組合,通過疊加標(biāo)簽t對歸屬于新應(yīng)用i的每個(gè)特征詞的第一偏好度值,得到該新應(yīng)用i對該標(biāo)簽t的第二偏好度。注意,如果歸屬于新應(yīng)用i的某個(gè)特征詞不在歸屬于標(biāo)簽t的特征詞集合里,則標(biāo)簽t對該特征詞的第一偏好度為0。

在該實(shí)施例中,當(dāng)歸屬于標(biāo)簽t的特征詞集合里的特征詞數(shù)量很多時(shí),進(jìn)行查找和累加的次數(shù)也多,會(huì)造成計(jì)算量大。下面介紹一個(gè)優(yōu)選實(shí)施例,根據(jù)第一偏好度值的大小,預(yù)先從歸屬于標(biāo)簽t的特征詞集合里篩選掉一部分特征詞,即將較小第一偏好度值對應(yīng)的特征詞篩選掉,減少了歸屬于標(biāo)簽t的特征詞集合里的特征詞數(shù)量,可以降低計(jì)算量。

在一個(gè)優(yōu)選實(shí)施例中,首先根據(jù)每個(gè)標(biāo)簽對歸屬其的每個(gè)特征詞的第一偏好度按預(yù)設(shè)方式選取一定數(shù)量的特征詞作為相應(yīng)標(biāo)簽的主題特征詞,即所述預(yù)設(shè)方式可以是根據(jù)標(biāo)簽t對歸屬于其的每個(gè)特征詞的第一偏好度的從大到小順序,選取第一偏好度排名在前面的一定數(shù)量的特征詞作為主題特征詞,也可以預(yù)設(shè)一個(gè)閾值,選取大于等于該閾值的多個(gè)第一偏好度所對應(yīng)的相應(yīng)多個(gè)特征詞作為主題特征詞,可以根據(jù)數(shù)據(jù)情況及業(yè)務(wù)場景自行定義,例如選取50個(gè)、100個(gè)、200個(gè)或其它值;接著確定所述第二偏好度,方法如下:

且j∈topict

其中:

ri,t表示新應(yīng)用i對標(biāo)簽t的第二偏好度;

pt,j表示標(biāo)簽t對特征詞j的第一偏好度;

wi,j表示從新應(yīng)用i的應(yīng)用描述信息中提取的特征詞j對該新應(yīng)用i的權(quán)重;

topict表示所選取的歸屬于標(biāo)簽t的一定數(shù)量的主題特征詞的集合;

m表示歸屬于標(biāo)簽t的主題特征詞集合里的特征詞數(shù)量。

s6:根據(jù)該第二偏好度按預(yù)設(shè)方式從標(biāo)簽庫里選取相應(yīng)的1個(gè)或多個(gè)標(biāo)簽給該新應(yīng)用標(biāo)注上。

所述預(yù)設(shè)方式可以采用多種方式。例如,可以根據(jù)新應(yīng)用對每個(gè)標(biāo)簽的第二偏好度值從大到小的順序,選取第二偏好度排名在前面的1個(gè)或多個(gè)標(biāo)簽給該新應(yīng)用標(biāo)注上??梢愿鶕?jù)數(shù)據(jù)情況及業(yè)務(wù)場景自行定義需要標(biāo)注的標(biāo)簽數(shù)量,可以是1-5之間的任意數(shù)量,如1個(gè)、2個(gè)、5個(gè)等,或者還可以更多。

另外,也可以設(shè)置一個(gè)閾值,選取大于等于該閾值的1個(gè)或多個(gè)第二偏好度所對應(yīng)的相應(yīng)1個(gè)或多個(gè)標(biāo)簽給該新應(yīng)用標(biāo)注上??梢愿鶕?jù)數(shù)據(jù)情況及業(yè)務(wù)場景自行定義需要標(biāo)注的標(biāo)簽數(shù)量,可以是1-5之間的任意數(shù)量,如1個(gè)、2個(gè)、5個(gè)等,或者還可以更多。

根據(jù)本發(fā)明的給應(yīng)用標(biāo)注標(biāo)簽的方法,通過應(yīng)用庫里已知的應(yīng)用及其具有的標(biāo)簽,利用用于介紹應(yīng)用的特點(diǎn)和核心功能的應(yīng)用描述信息和分詞技術(shù),在待標(biāo)注標(biāo)簽的新應(yīng)用與預(yù)置的標(biāo)簽庫里的標(biāo)簽之間建立了關(guān)聯(lián)性,實(shí)現(xiàn)了自動(dòng)找出適合的1個(gè)或多個(gè)標(biāo)簽給新應(yīng)用標(biāo)注上,降低了人工成本,提高了準(zhǔn)確性和工作效率。

圖2是本發(fā)明實(shí)施例提供的給應(yīng)用標(biāo)注標(biāo)簽的裝置的示意性框圖。如圖2所示,本發(fā)明的給應(yīng)用標(biāo)注標(biāo)簽的裝置包括:

特征詞信息提取單元,用于從預(yù)置應(yīng)用庫里的每個(gè)應(yīng)用的應(yīng)用描述信息中提取特征詞信息,和從待標(biāo)注標(biāo)簽的新應(yīng)用的應(yīng)用描述信息中提取特征詞信息;

標(biāo)簽的特征詞信息確定單元,用于將具有相同標(biāo)簽的多個(gè)應(yīng)用的相應(yīng)特征詞信息合并,作為該標(biāo)簽的特征詞信息;

第一偏好度確定單元,用于確定每個(gè)標(biāo)簽對歸屬其的每個(gè)特征詞的第一偏好度;

第二偏好度確定單元,用于基于所述第一偏好度和提取出的新應(yīng)用的特征詞信息,確定該新應(yīng)用對標(biāo)簽庫里的每個(gè)標(biāo)簽的第二偏好度;

標(biāo)簽標(biāo)注單元,用于根據(jù)該第二偏好度按預(yù)設(shè)方式從標(biāo)簽庫里選取相應(yīng)的1個(gè)或多個(gè)標(biāo)簽給該新應(yīng)用標(biāo)注上。

這里的按預(yù)設(shè)方式選取1個(gè)或多個(gè)標(biāo)簽的具體實(shí)現(xiàn)方式可以參考前述方法實(shí)施例中描述的實(shí)現(xiàn)方法。

優(yōu)選的,所述特征詞信息提取單元用于首先對應(yīng)用描述信息進(jìn)行分詞處理以提取出特征詞,然后統(tǒng)計(jì)每個(gè)特征詞出現(xiàn)的概率作為該特征詞對其所屬應(yīng)用的權(quán)重。

優(yōu)選的,所述標(biāo)簽的特征詞信息確定單元用于在合并過程中將相同的多個(gè)特征詞合并為1個(gè)特征詞,對每個(gè)特征詞在該標(biāo)簽上的權(quán)重的計(jì)算方法如下:

且i∈a,j∈w

其中:

ft,j表示特征詞j在標(biāo)簽t上的權(quán)重;

wi,j表示特征詞j對預(yù)置應(yīng)用庫里具有標(biāo)簽t的應(yīng)用i的權(quán)重;

a表示預(yù)置應(yīng)用庫里的具有標(biāo)簽t的應(yīng)用集合;

w表示歸屬于應(yīng)用集合a中的應(yīng)用的特征詞集合;

n表示應(yīng)用集合a里的應(yīng)用數(shù)量;

m表示特征詞集合w里的特征詞數(shù)量。

優(yōu)選的,所述第一偏好度確定單元用于確定所述第一偏好度的方法如下:

其中:

pt,j表示標(biāo)簽t對特征詞j的第一偏好度;

ft,j表示特征詞j在標(biāo)簽t上的權(quán)重;

sj表示特征詞j在從預(yù)置應(yīng)用庫里的所有應(yīng)用的各自應(yīng)用描述信息中所提取的全部特征詞集合中出現(xiàn)的概率,其中:

且i∈aa,j∈aw

其中:

wi,j表示特征詞j對預(yù)置應(yīng)用庫里的應(yīng)用i的權(quán)重;

aa表示預(yù)置應(yīng)用庫里的所有應(yīng)用的集合;

aw表示從所有應(yīng)用的各自應(yīng)用描述信息中所提取的所有特征詞的集合;

n表示應(yīng)用集合aa里的應(yīng)用數(shù)量;

m表示特征詞集合aw里的特征詞數(shù)量。

優(yōu)選的,所述第二偏好度確定單元用于確定所述第二偏好度的方法如下:

且j∈am

其中:

ri,t表示新應(yīng)用i對標(biāo)簽r的第二偏好度;

pt,j表示標(biāo)簽t對特征詞j的第一偏好度;

wi,j表示從新應(yīng)用i的應(yīng)用描述信息中提取的特征詞j對該新應(yīng)用i的權(quán)重;

am表示所獲得的歸屬于標(biāo)簽t的所有特征詞的集合;

m表示歸屬于標(biāo)簽t的特征詞集合里的特征詞數(shù)量。

為了降低對所述第二偏好度的計(jì)算量,所述第二偏好度確定單元還用于首先根據(jù)每個(gè)標(biāo)簽對歸屬其的每個(gè)特征詞的第一偏好度按預(yù)設(shè)方式選取一定數(shù)量的特征詞作為相應(yīng)標(biāo)簽的主題特征詞,接著確定所述第二偏好度,方法如下:

且j∈topict

其中:

ri,t表示新應(yīng)用i對標(biāo)簽t的第二偏好度;

pt,j表示標(biāo)簽t對特征詞j的第一偏好度;

wi,j表示從新應(yīng)用i的應(yīng)用描述信息中提取的特征詞j對該新應(yīng)用i的權(quán)重;

topict表示所選取的歸屬于標(biāo)簽t的一定數(shù)量的主題特征詞的集合;

m表示歸屬于標(biāo)簽t的主題特征詞集合里的特征詞數(shù)量。

這里的按預(yù)設(shè)方式選取一定數(shù)量的特征詞作為相應(yīng)標(biāo)簽的主題特征詞的具體實(shí)現(xiàn)方式可以參考前述方法實(shí)施例中描述的實(shí)現(xiàn)方法。

所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,這里結(jié)合產(chǎn)品實(shí)施例描述的裝置的具體工作過程,可以參考前述方法實(shí)施例中的對應(yīng)過程,在此不再重復(fù)描述。

根據(jù)本發(fā)明的給應(yīng)用標(biāo)注標(biāo)簽的裝置,通過應(yīng)用庫里已知的應(yīng)用及其具有的標(biāo)簽,利用用于介紹應(yīng)用的特點(diǎn)和核心功能的應(yīng)用描述信息和分詞技術(shù),在待標(biāo)注標(biāo)簽的新應(yīng)用與預(yù)置的標(biāo)簽庫里的標(biāo)簽之間建立了關(guān)聯(lián)性,實(shí)現(xiàn)了自動(dòng)找出適合的1個(gè)或多個(gè)標(biāo)簽給新應(yīng)用標(biāo)注上,降低了人工成本,提高了準(zhǔn)確性和工作效率。

本發(fā)明實(shí)施例所提供的給應(yīng)用標(biāo)注標(biāo)簽的方法的計(jì)算機(jī)程序產(chǎn)品,包括存儲了程序代碼的計(jì)算機(jī)可讀存儲介質(zhì),所述程序代碼包括的指令可用于執(zhí)行前面方法實(shí)施例中所述的方法,具體實(shí)現(xiàn)可參見方法實(shí)施例,在此不再贅述。

所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲在一個(gè)計(jì)算機(jī)可讀取存儲介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲在一個(gè)存儲介質(zhì)中,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),智能平板電腦,智能手機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:u盤、移動(dòng)硬盤、只讀存儲器(rom)、隨機(jī)存取存儲器(ram)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
龙江县| 皋兰县| 宽城| 乃东县| 马龙县| 澎湖县| 泸州市| 元谋县| 乌审旗| 化隆| 施秉县| 夏邑县| 麻栗坡县| 新河县| 蒲城县| 黄龙县| 石景山区| 巴塘县| 松溪县| 靖江市| 易门县| 大埔县| 太和县| 上杭县| 南昌市| 肇源县| 岚皋县| 南陵县| 乌苏市| 宜宾市| 磐安县| 涪陵区| 泾川县| 福建省| 云梦县| 龙江县| 庆阳市| 克山县| 册亨县| 娱乐| 西华县|