欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

信息處理裝置、信息處理方法以及信息處理設(shè)備與流程

文檔序號(hào):12837170閱讀:199來源:國知局
信息處理裝置、信息處理方法以及信息處理設(shè)備與流程

本公開總體上涉及信息處理領(lǐng)域,具體而言,涉及能夠?qū)⒉煌臋C(jī)器學(xué)習(xí)方法進(jìn)行結(jié)合的信息處理裝置、信息處理方法以及信息處理設(shè)備。



背景技術(shù):

伴隨信息技術(shù)的快速發(fā)展,出現(xiàn)了多種機(jī)器學(xué)習(xí)方法,包括各種監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)方法。

監(jiān)督學(xué)習(xí)方法和非監(jiān)督學(xué)習(xí)方法具有不同的特點(diǎn)和應(yīng)用場(chǎng)景。監(jiān)督學(xué)習(xí)方法的一個(gè)示例是分類器,其需要標(biāo)記樣本數(shù)據(jù)集進(jìn)行訓(xùn)練。非監(jiān)督學(xué)習(xí)方法的示例包括利用隱馬爾科夫模型的預(yù)測(cè)以及聚類等。聚類可將處理對(duì)象聚類到不同的簇中,使得相同簇中的對(duì)象彼此間相似度高于這些對(duì)象與其他簇中的對(duì)象的相似度。

期望能夠?qū)ΜF(xiàn)有的機(jī)器學(xué)習(xí)方法進(jìn)行改進(jìn),以提高機(jī)器學(xué)習(xí)的準(zhǔn)確度或性能。



技術(shù)實(shí)現(xiàn)要素:

在下文中給出了關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。

鑒于現(xiàn)有技術(shù)的缺陷,本發(fā)明的目的之一是提供一種能夠?qū)⒉煌臋C(jī)器學(xué)習(xí)方法進(jìn)行結(jié)合的信息處理裝置、方法以及設(shè)備,以至少解決現(xiàn)有的問題。

根據(jù)本公開的一個(gè)方面,提供一種信息處理裝置,包括:預(yù)分類單元,其利用分類器對(duì)非標(biāo)記樣本數(shù)據(jù)進(jìn)行分類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽;聚類單元,其對(duì)所述非標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類,以獲得所述 非標(biāo)記樣本數(shù)據(jù)的至少一個(gè)簇;標(biāo)簽修改單元,針對(duì)所述至少一個(gè)簇中的每個(gè)簇,利用標(biāo)簽修改優(yōu)化處理,基于該簇中的非標(biāo)記樣本數(shù)據(jù)的一個(gè)或多個(gè)預(yù)分類標(biāo)簽獲得針對(duì)該簇的優(yōu)化標(biāo)簽,并將該簇中的非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽全部修改為該優(yōu)化標(biāo)簽;以及優(yōu)化單元,其利用所述非標(biāo)記樣本數(shù)據(jù)以及所述優(yōu)化標(biāo)簽,對(duì)所述分類器進(jìn)行優(yōu)化。

在上述信息處理裝置中,針對(duì)所述至少一個(gè)簇當(dāng)中的給定簇中的非標(biāo)記樣本數(shù)據(jù),所述預(yù)分類單元獲得了n個(gè)預(yù)分類標(biāo)簽,n為大于等于2的自然數(shù),并且其中,所述標(biāo)簽修改單元通過下述方式針對(duì)給定簇進(jìn)行所述標(biāo)簽修改優(yōu)化處理:基于預(yù)先確定的單個(gè)標(biāo)簽修改增益和/或單個(gè)標(biāo)簽修改損失,針對(duì)該簇中的非標(biāo)記樣本數(shù)據(jù)構(gòu)建標(biāo)簽修改優(yōu)化函數(shù),其中,所述標(biāo)簽修改優(yōu)化函數(shù)與將該簇中的所有非標(biāo)記樣本數(shù)據(jù)的n個(gè)預(yù)分類標(biāo)簽全部修改為作為n個(gè)預(yù)分類標(biāo)簽之一的候選標(biāo)簽的總修改代價(jià)有關(guān);以及基于與所述候選標(biāo)簽相關(guān)聯(lián)的總修改代價(jià),將獲得所述總修改代價(jià)的最優(yōu)化結(jié)果時(shí)的候選標(biāo)簽作為針對(duì)該簇的優(yōu)化標(biāo)簽。

根據(jù)本公開的另一方面,提供一種信息處理方法,包括:利用分類器對(duì)非標(biāo)記樣本數(shù)據(jù)進(jìn)行分類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽;對(duì)所述非標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的至少一個(gè)簇;針對(duì)所述至少一個(gè)簇中的每個(gè)簇,利用標(biāo)簽修改優(yōu)化處理,基于該簇中的非標(biāo)記樣本數(shù)據(jù)的一個(gè)或多個(gè)預(yù)分類標(biāo)簽獲得針對(duì)該簇的優(yōu)化標(biāo)簽,并將該簇中的非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽全部修改為該優(yōu)化標(biāo)簽;以及利用所述非標(biāo)記樣本數(shù)據(jù)以及所述優(yōu)化標(biāo)簽,對(duì)所述分類器進(jìn)行優(yōu)化。

在上述信息處理方法中,針對(duì)所述至少一個(gè)簇當(dāng)中的給定簇中的非標(biāo)記樣本數(shù)據(jù),獲得了n個(gè)預(yù)分類標(biāo)簽,n為大于等于2的自然數(shù),并且其中,通過下述方式針對(duì)給定簇進(jìn)行所述標(biāo)簽修改優(yōu)化處理:基于預(yù)先確定的單個(gè)標(biāo)簽修改增益和/或單個(gè)標(biāo)簽修改損失,針對(duì)該簇中的非標(biāo)記樣本數(shù)據(jù)構(gòu)建標(biāo)簽修改優(yōu)化函數(shù),其中,所述標(biāo)簽修改優(yōu)化函數(shù)與將該簇中的所有非標(biāo)記樣本數(shù)據(jù)的n個(gè)預(yù)分類標(biāo)簽全部修改為作為n個(gè)預(yù)分類標(biāo)簽之一的候選標(biāo)簽的總修改代價(jià)有關(guān);以及基于與所述候選標(biāo)簽相關(guān)聯(lián)的總修改代價(jià),將獲得所述總修改代價(jià)的最優(yōu)化結(jié)果時(shí)的候選標(biāo)簽作為針對(duì)該簇的優(yōu)化標(biāo)簽。

根據(jù)本公開的又一方面,提供一種信息處理設(shè)備,所述設(shè)備包括控制器,所述控制器被配置為:利用分類器對(duì)非標(biāo)記樣本數(shù)據(jù)進(jìn)行分類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽;對(duì)所述非標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類, 以獲得所述非標(biāo)記樣本數(shù)據(jù)的至少一個(gè)簇;針對(duì)所述至少一個(gè)簇中的每個(gè)簇,利用標(biāo)簽修改優(yōu)化處理,基于該簇中的非標(biāo)記樣本數(shù)據(jù)的一個(gè)或多個(gè)預(yù)分類標(biāo)簽獲得針對(duì)該簇的優(yōu)化標(biāo)簽,并將該簇中的非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽全部修改為該優(yōu)化標(biāo)簽;以及利用所述非標(biāo)記樣本數(shù)據(jù)以及所述優(yōu)化標(biāo)簽,對(duì)所述分類器進(jìn)行優(yōu)化。

在上述控制器的處理中,針對(duì)所述至少一個(gè)簇當(dāng)中的給定簇中的非標(biāo)記樣本數(shù)據(jù),獲得了n個(gè)預(yù)分類標(biāo)簽,n為大于等于2的自然數(shù),并且其中,通過下述方式針對(duì)給定簇進(jìn)行所述標(biāo)簽修改優(yōu)化處理:基于預(yù)先確定的單個(gè)標(biāo)簽修改增益和/或單個(gè)標(biāo)簽修改損失,針對(duì)該簇中的非標(biāo)記樣本數(shù)據(jù)構(gòu)建標(biāo)簽修改優(yōu)化函數(shù),其中,所述標(biāo)簽修改優(yōu)化函數(shù)與將該簇中的所有非標(biāo)記樣本數(shù)據(jù)的n個(gè)預(yù)分類標(biāo)簽全部修改為作為n個(gè)預(yù)分類標(biāo)簽之一的候選標(biāo)簽的總修改代價(jià)有關(guān);以及基于與所述候選標(biāo)簽相關(guān)聯(lián)的總修改代價(jià),將獲得所述總修改代價(jià)的最優(yōu)化結(jié)果時(shí)的候選標(biāo)簽作為針對(duì)該簇的優(yōu)化標(biāo)簽。

依據(jù)本公開的其它方面,還提供了一種使得計(jì)算機(jī)用作如上所述的信息處理裝置的程序。

依據(jù)本公開的又一方面,還提供了相應(yīng)的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有能夠由計(jì)算設(shè)備執(zhí)行的計(jì)算機(jī)程序,該計(jì)算機(jī)程序在執(zhí)行時(shí)能夠使計(jì)算設(shè)備執(zhí)行上述信息處理方法。

上述根據(jù)本公開實(shí)施例的各個(gè)方面,至少能夠獲得以下益處:能夠結(jié)合非監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí),利用聚類結(jié)果改進(jìn)分類器的性能。在能夠用于訓(xùn)練分類器的標(biāo)記樣本數(shù)據(jù)數(shù)量有限的情況下,本發(fā)明對(duì)分類器的改進(jìn)尤為有益。

通過以下結(jié)合附圖對(duì)本公開的最佳實(shí)施例的詳細(xì)說明,本公開的這些以及其他優(yōu)點(diǎn)將更加明顯。

附圖說明

本公開可以通過參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下面的詳細(xì)說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進(jìn)一步舉例說明本公開的優(yōu)選實(shí)施例和解釋本公開的原理和優(yōu)點(diǎn)。其中:

圖1是示意性地示出根據(jù)本公開實(shí)施例的信息處理裝置的示例結(jié)構(gòu)的框圖。

圖2是用于說明根據(jù)本公開實(shí)施例的信息處理裝置所進(jìn)行的示例處理的說明圖。

圖3是示意性地示出根據(jù)本公開實(shí)施例的信息處理方法的示例流程的流程圖。

圖4是示意性地示出根據(jù)本公開實(shí)施例的信息處理設(shè)備的示例結(jié)構(gòu)的框圖。

圖5是示出了可用來實(shí)現(xiàn)根據(jù)本公開實(shí)施例的信息處理裝置、方法以及設(shè)備的一種可能的硬件配置的結(jié)構(gòu)簡(jiǎn)圖。

具體實(shí)施方式

在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡(jiǎn)明起見,在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施例的過程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。

在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。

在信息處理領(lǐng)域,期望提高機(jī)器學(xué)習(xí)的準(zhǔn)確度和/或改進(jìn)機(jī)器學(xué)習(xí)方法的性能?;诖?,本公開提出了一種信息處理裝置、方法以及設(shè)備,其能夠結(jié)合監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)方法,以提供具有改進(jìn)的性能的分類器。

根據(jù)本公開的一個(gè)方面,提供了一種信息處理裝置。圖1是示意性地示出根據(jù)本公開實(shí)施例的信息處理裝置的示例結(jié)構(gòu)的框圖。

如圖1所示,信息處理裝置10包括:預(yù)分類單元101,其利用分類器對(duì)非標(biāo)記樣本數(shù)據(jù)進(jìn)行分類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽;聚類單元102,其對(duì)所述非標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的至少一個(gè)簇;標(biāo)簽修改單元103,其針對(duì)所述至少一個(gè)簇中 的每個(gè)簇,利用標(biāo)簽修改優(yōu)化處理,基于該簇中的非標(biāo)記樣本數(shù)據(jù)的一個(gè)或多個(gè)預(yù)分類標(biāo)簽獲得針對(duì)該簇的優(yōu)化標(biāo)簽,并將該簇中的非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽全部修改為該優(yōu)化標(biāo)簽;以及優(yōu)化單元104,其利用所述非標(biāo)記樣本數(shù)據(jù)以及所述優(yōu)化標(biāo)簽,對(duì)所述分類器進(jìn)行優(yōu)化。

更具體地,在上述信息處理裝置10中,針對(duì)所述至少一個(gè)簇當(dāng)中的給定簇中的非標(biāo)記樣本數(shù)據(jù),預(yù)分類單元101獲得了n個(gè)預(yù)分類標(biāo)簽,n為大于等于2的自然數(shù)。此時(shí),標(biāo)簽修改單元103通過下述方式針對(duì)給定簇進(jìn)行所述標(biāo)簽修改優(yōu)化處理:

基于預(yù)先確定的單個(gè)標(biāo)簽修改增益和/或單個(gè)標(biāo)簽修改損失,針對(duì)該簇中的非標(biāo)記樣本數(shù)據(jù)構(gòu)建標(biāo)簽修改優(yōu)化函數(shù),其中,所述標(biāo)簽修改優(yōu)化函數(shù)與將該簇中的所有非標(biāo)記樣本數(shù)據(jù)的n個(gè)預(yù)分類標(biāo)簽全部修改為作為n個(gè)預(yù)分類標(biāo)簽之一的候選標(biāo)簽的總修改代價(jià)有關(guān);以及

基于與所述候選標(biāo)簽相關(guān)聯(lián)的總修改代價(jià),將獲得所述總修改代價(jià)的最優(yōu)化結(jié)果時(shí)的候選標(biāo)簽作為針對(duì)該簇的優(yōu)化標(biāo)簽。

以下結(jié)合具體示例,參照?qǐng)D2描述信息處理裝置10進(jìn)行的示例處理。圖2是用于說明根據(jù)本公開實(shí)施例的信息處理裝置所進(jìn)行的示例處理的說明圖。

為描述簡(jiǎn)明起見,將考慮基于用戶在購物網(wǎng)站的訪問日志將用戶分類為“男性用戶”或“女性用戶”的二分類問題的示例。然而,本領(lǐng)域技術(shù)人員可以了解,本公開實(shí)施例的信息處理裝置10可以針對(duì)各種應(yīng)用、各種分類問題進(jìn)行處理,而不限于此處給出的具體示例。

在本示例中,每份用戶日志可以被視為一份原始的非標(biāo)記樣本數(shù)據(jù),包括訪問開始時(shí)間、訪問結(jié)束時(shí)間、網(wǎng)站訪問記錄等信息。一份這樣的用戶日志的示例如下:

訪問開始時(shí)間:2014-11-1818:56:21,

訪問結(jié)束時(shí)間:2014-11-1819:03:36,

網(wǎng)站訪問記錄(訪問路徑):

a00002/b00006/c00015/d05947/;

a00002/b00006/c00015/d05948/;

a00002/b00006/c00030/d05949/;

a00002/b00006/c00015/d05951/;

a00002/b00006/c00030/d05954/;

a00002/b00006/c00015/d05957/.

上述用戶日志中每個(gè)訪問記錄(訪問路徑)的格式為“類別a/類別b/類別c/類別d/”。出于隱私考慮,網(wǎng)站隱去了每個(gè)類別的具體名稱,而使用包括數(shù)字和字母的編號(hào)來表示。以涉及電腦產(chǎn)品的訪問記錄為例,第一條訪問記錄中的a00002可表示產(chǎn)品大致分類的類別“電腦”,b00006可表示產(chǎn)品細(xì)致分類的類別“平板電腦”,c00015可表示產(chǎn)品品牌的類別“微軟”,d05947可表示產(chǎn)品型號(hào)的類別“surfacepro4(128g)”。類似地,第二條訪問記錄中的d05948可表示產(chǎn)品型號(hào)的另一類別“surfacepro4(256g)”。其他訪問記錄中的路徑信息可以具有類似含義,在此不進(jìn)行重復(fù)描述。

預(yù)分類單元101可以利用分類器從諸如上述用戶日志的原始非標(biāo)記樣本數(shù)據(jù)中提取特征,并基于所提取的特征將樣本數(shù)據(jù)分類為屬于第一類別c1=“男性用戶”或第二類別c2=“女性用戶”。作為示例而非限制,分類器從用戶日志提取的特征可以包括訪問開始時(shí)間、訪問結(jié)束時(shí)間、全部或部分訪問路徑、訪問時(shí)段的長(zhǎng)度、訪問時(shí)段處于工作日還是假期、訪問時(shí)段處于白天還是晚上,等等,在此不再展開描述。

上述分類器可以是利用與諸如上述用戶日志的原始非標(biāo)記樣本數(shù)據(jù)類似、但已被標(biāo)記的標(biāo)記樣本數(shù)據(jù)(也可稱為歷史數(shù)據(jù))來訓(xùn)練獲得的,其能夠基于網(wǎng)站的用戶日志而將用戶分類為“男性用戶”或“女性用戶”。可以通過各種已知的監(jiān)督學(xué)習(xí)方法、根據(jù)選定的評(píng)判標(biāo)準(zhǔn)(例如分類結(jié)果的高準(zhǔn)確率等)來訓(xùn)練得到這樣的分類器。分類器的類型例如可以是貝葉斯分類器,也可以是任意其他類型,比如支持向量機(jī)(svm)、最大熵、隨機(jī)森林、決策樹、神經(jīng)網(wǎng)絡(luò)等類型,在此不再進(jìn)行詳細(xì)描述。

聚類單元102可以利用各種已知的聚類算法,對(duì)作為非標(biāo)記樣本數(shù)據(jù)的、由預(yù)分類單元101利用分類器預(yù)分類的多個(gè)用戶訪問記錄進(jìn)行聚類。聚類算法的示例可以包括k均值聚類算法、clarans分割聚類算法、birch聚類算法、cure聚類算法、基于密度的聚類算法(dbscan)、sting聚類算法等。本領(lǐng)域技術(shù)人員可以根據(jù)應(yīng)用需求、處理負(fù)荷、樣本數(shù)據(jù)本身的特性等各種因素選擇適當(dāng)?shù)木垲愃惴ǎ诖瞬贿M(jìn)行詳細(xì)描述。

在一個(gè)優(yōu)選實(shí)施例中,在聚類單元102的聚類處理中使用的非標(biāo)記樣本數(shù)據(jù)的特征可以與在預(yù)分類單元101的處理中使用的(即在分類器中使用的)非標(biāo)記樣本數(shù)據(jù)的特征相對(duì)應(yīng)或相關(guān)聯(lián),以使得聚類單元102的聚類結(jié)果能夠有效地用于分類器的優(yōu)化。

例如,在本示例的用戶訪問記錄的情況下,作為聚類時(shí)考慮的多個(gè)樣本之間的距離(即,聚類時(shí)所使用的特征),聚類單元102可以考慮多個(gè)用戶日志之間的時(shí)間間隔(例如,多個(gè)用戶日志的訪問開始時(shí)間之間的間隔,或多個(gè)用戶日志的訪問結(jié)束時(shí)間之間的間隔)、多個(gè)用戶日志中的訪問路徑中所包括的特定類別的同現(xiàn)頻率(例如,類別a00002和b00006的同現(xiàn)頻率)等。

圖2中的左圖示出了通過聚類單元102的聚類處理獲得的一個(gè)給定簇的示例。該給定簇中包括10個(gè)非標(biāo)記樣本數(shù)據(jù),預(yù)分類單元101針對(duì)其2個(gè)樣本數(shù)據(jù)獲得了屬于“男性用戶”(第一類別)的預(yù)分類標(biāo)簽,其以實(shí)心圓示出,而針對(duì)另外8個(gè)樣本數(shù)據(jù)獲得了屬于“女性用戶”(第二類別)的預(yù)分類標(biāo)簽,其以空心圓示出。

標(biāo)簽修改單元103可以基于預(yù)分類單元101的預(yù)分類結(jié)果以及聚類單元102的聚類結(jié)果進(jìn)行標(biāo)簽修改優(yōu)化處理,以將給定簇中的非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽全部修改為具有最優(yōu)的總修改代價(jià)的優(yōu)化標(biāo)簽。

在標(biāo)簽修改單元103的標(biāo)簽修改優(yōu)化處理中,使用預(yù)先確定的單個(gè)標(biāo)簽修改增益和/或單個(gè)標(biāo)簽修改損失來構(gòu)建標(biāo)簽修改優(yōu)化函數(shù),以確定與每個(gè)候選標(biāo)簽相關(guān)聯(lián)的總修改代價(jià)。作為示例,將非標(biāo)記樣本數(shù)據(jù)的a標(biāo)簽修改為b標(biāo)簽的單個(gè)標(biāo)簽修改損失可以表示將原本正確的a標(biāo)簽誤改為b標(biāo)簽所帶來的損失;而將非標(biāo)記樣本數(shù)據(jù)的a標(biāo)簽修改為b標(biāo)簽的單個(gè)標(biāo)簽修改增益可以表示將原本錯(cuò)誤的a標(biāo)簽修改為正確的b標(biāo)簽所帶來的增益。

上述的單個(gè)標(biāo)簽修改增益和/或損失可以基于樣本數(shù)據(jù)本身的特性(例如稍后將詳細(xì)描述的基于樣本數(shù)據(jù)的分布特性)和/或基于各種設(shè)計(jì)因素(例如稍后將詳細(xì)描述的基于應(yīng)用需求)等來合理地設(shè)置,以使得最終確定的優(yōu)化標(biāo)簽?zāi)苡欣馗倪M(jìn)分類器的準(zhǔn)確度和/或改進(jìn)分類器的性能。此外,基于應(yīng)用需求、樣本數(shù)據(jù)特性等不同考量,在聚類單元102所獲得的不同簇之間,可以設(shè)置彼此相同或不同的單個(gè)標(biāo)簽修改增益和/或損失。

基于預(yù)先確定的單個(gè)標(biāo)簽修改增益和/或損失,標(biāo)簽修改單元103可以采用任何適當(dāng)?shù)姆绞綐?gòu)建標(biāo)簽修改優(yōu)化函數(shù)(例如采用本領(lǐng)域中已知的構(gòu)建優(yōu)化函數(shù)的方式),只要該函數(shù)能夠表示將給定簇中的所有非標(biāo)記樣本數(shù)據(jù)的n個(gè)預(yù)分類標(biāo)簽全部修改為作為n個(gè)預(yù)分類標(biāo)簽之一的候選標(biāo)簽的總修改代價(jià)即可。

在圖2所示的示例中,針對(duì)圖2中的左圖所示的給定簇,標(biāo)簽修改單元103可以基于將標(biāo)簽從“男性用戶”修改為“女性用戶”的單個(gè)標(biāo)簽修改代價(jià)和/或損失,利用標(biāo)簽修改優(yōu)化函數(shù)計(jì)算將該簇中的10個(gè)樣本數(shù)據(jù)的預(yù)分類標(biāo)簽全部修改為“女性用戶”總修改代價(jià),作為第一總修改代價(jià)。類似地,標(biāo)簽修改單元103可以基于將標(biāo)簽從“女性用戶”修改為“男性用戶”的單個(gè)標(biāo)簽修改代價(jià)和/或損失,利用標(biāo)簽修改優(yōu)化函數(shù)計(jì)算將10個(gè)樣本數(shù)據(jù)的預(yù)分類標(biāo)簽全部修改為“男性用戶”的總修改代價(jià),作為第二總修改代價(jià)。

如果上述第一總修改代價(jià)優(yōu)于第二總修改代價(jià),則標(biāo)簽修改單元103可以將與第一總修改代價(jià)相關(guān)聯(lián)的“女性用戶”標(biāo)簽作為優(yōu)化標(biāo)簽,即,將給定簇中的樣本數(shù)據(jù)的標(biāo)簽全部修改為“女性用戶”,修改結(jié)果如圖2的右上圖所示。反之,則標(biāo)簽修改單元103可以將給定簇中的樣本數(shù)據(jù)的標(biāo)簽全部修改為“男性用戶”標(biāo)簽,修改結(jié)果如圖2的右下圖所示。

在獲得非標(biāo)記樣本數(shù)據(jù)的優(yōu)化標(biāo)簽之后,優(yōu)化單元104可以采用各種已知的分類器優(yōu)化方法對(duì)分類器進(jìn)行優(yōu)化。

在一個(gè)優(yōu)選實(shí)施例中,優(yōu)化單元104可以利用所述非標(biāo)記樣本數(shù)據(jù)以及所述優(yōu)化標(biāo)簽來通過重新訓(xùn)練或增量更新的方式對(duì)所述分類器進(jìn)行優(yōu)化。

例如,在圖2的示例中,優(yōu)化單元104可以將如圖2的右上圖或右下圖所示的帶有修改后的優(yōu)化標(biāo)簽的非標(biāo)記樣本數(shù)據(jù)作為新的標(biāo)記樣本數(shù)據(jù)(其被標(biāo)記的標(biāo)簽即為修改后的優(yōu)化標(biāo)簽)來重新訓(xùn)練分類器,或者以增量更新的方式對(duì)分類器進(jìn)行優(yōu)化。優(yōu)化處理的具體細(xì)節(jié)在此不再描述。

利用上述單元101-104進(jìn)行的處理,信息處理裝置10能夠?qū)⒒诒O(jiān)督學(xué)習(xí)的分類器和基于分監(jiān)督學(xué)習(xí)的聚類這兩種機(jī)器學(xué)習(xí)方式相結(jié)合,從而改進(jìn)分類器的性能。

這種性能改進(jìn)在很多情況下是非常有用的。一方面,訓(xùn)練分類器所需的帶有標(biāo)簽的標(biāo)記樣本數(shù)據(jù)的數(shù)量可能是有限的。另一方面,僅使用不帶 標(biāo)簽的非標(biāo)記樣本數(shù)據(jù)通過聚類等方式獲得分類結(jié)果,則可能不夠準(zhǔn)確。本發(fā)明所提供的信息處理裝置利用聚類結(jié)果改進(jìn)分類器的性能,將這兩種分類方式進(jìn)行結(jié)合,從而特別適合于在標(biāo)記樣本數(shù)據(jù)數(shù)量有限的情況下改進(jìn)分類器的性能。

在一個(gè)優(yōu)選實(shí)施例中,信息處理裝置10的標(biāo)簽修改單元103利用標(biāo)簽修改優(yōu)化函數(shù)來獲得給定簇中的非標(biāo)記樣本數(shù)據(jù)的優(yōu)化標(biāo)簽。為便于描述,在本優(yōu)選實(shí)施中,假設(shè)針對(duì)給定簇中的非標(biāo)記樣本數(shù)據(jù),例如已通過信息處理裝置10的預(yù)分類單元101獲得了n個(gè)預(yù)分類標(biāo)簽(n為大于等于2的自然數(shù))。此時(shí),以小于等于n的、互不相等的自然數(shù)i,j分別表示這n個(gè)預(yù)分類標(biāo)簽中的第i個(gè)預(yù)分類標(biāo)簽和第j個(gè)預(yù)分類標(biāo)簽的編號(hào)(以下也可將第i個(gè)預(yù)分類標(biāo)簽和第j個(gè)預(yù)分類標(biāo)簽分別簡(jiǎn)稱為標(biāo)簽i、標(biāo)簽j),并且以自然數(shù)mi表示該給定簇中具有預(yù)分類標(biāo)簽i的非標(biāo)記樣本數(shù)據(jù)的個(gè)數(shù)。

在進(jìn)行上述假設(shè)的情況下,標(biāo)簽修改單元103通過下述方式構(gòu)建標(biāo)簽修改優(yōu)化函數(shù)以獲得優(yōu)化標(biāo)簽。

首先,針對(duì)n個(gè)預(yù)分類標(biāo)簽中的每個(gè)候選標(biāo)簽j,標(biāo)簽修改單元103通過下述方式計(jì)算與候選標(biāo)簽j相關(guān)聯(lián)的總修改代價(jià):

針對(duì)除候選標(biāo)簽j以外的n-1個(gè)預(yù)分類標(biāo)簽中的每個(gè)標(biāo)簽i,基于將標(biāo)簽i修改為標(biāo)簽j的單個(gè)標(biāo)簽修改增益gij和單個(gè)標(biāo)簽修改損失lij,計(jì)算將所述給定簇中的mi個(gè)非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽從標(biāo)簽i修改為標(biāo)簽j的修改增益gij=mi·gij和修改損失lij=mi·lij,并基于gij和lij計(jì)算修改代價(jià)cij;以及將針對(duì)除候選標(biāo)簽j以外的n-1個(gè)預(yù)分類標(biāo)簽獲得的修改代價(jià)求和,得到與候選標(biāo)簽j相關(guān)聯(lián)的總修改代價(jià)

接下來,基于n個(gè)預(yù)分類標(biāo)簽中的每個(gè)候選標(biāo)簽所關(guān)聯(lián)的總修改代價(jià),標(biāo)簽修改單元103可以構(gòu)建標(biāo)簽修改優(yōu)化函數(shù)并且將滿足的第k個(gè)預(yù)分類標(biāo)簽作為所述優(yōu)化標(biāo)簽。

在標(biāo)簽修改單元103的上述處理中,當(dāng)計(jì)算將給定簇中的mi個(gè)非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽從標(biāo)簽i修改為標(biāo)簽j的修改代價(jià)cij時(shí),作為示例,如果由于單個(gè)標(biāo)簽修改增益gij和單個(gè)標(biāo)簽修改損失lij均設(shè)置為正數(shù)而導(dǎo)致修改增益gij和修改損失lij取值均為正數(shù),則標(biāo)簽修改單元103可以簡(jiǎn)單地將相關(guān)的修改增益gij和修改損失lij之差(或者加權(quán)差)作為修改代價(jià)cij。

本領(lǐng)域技術(shù)人員可以根據(jù)應(yīng)用需求或其他設(shè)計(jì)因素等適當(dāng)?shù)卦O(shè)置基于修改增益gij和修改損失lij獲得修改代價(jià)cij的具體方式(例如,如果由于單個(gè)標(biāo)簽修改增益gij為正數(shù)、單個(gè)標(biāo)簽修改損失lij為負(fù)數(shù)而導(dǎo)致修改增益gij取值為正數(shù)、修改損失lij取值為負(fù)數(shù),則可以設(shè)置修改增益gij和修改損失lij的加權(quán)和作為修改代價(jià)cij),在此不進(jìn)行詳細(xì)說明。

通過標(biāo)簽修改單元103的上述處理而獲得的第k個(gè)預(yù)分類標(biāo)簽是總修改代價(jià)最優(yōu)(例如,通過修改獲得的增益最大和/或通過修改獲得的損失最小)的候選標(biāo)簽,因而標(biāo)簽修改單元103可以將給定簇中的所有非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽全部修改為標(biāo)簽k,并將這些非標(biāo)記樣本數(shù)據(jù)連同其優(yōu)化標(biāo)簽k一同提供給優(yōu)化單元104以對(duì)分類器進(jìn)行優(yōu)化。例如,在上述將修改增益gij和修改損失lij之差作為修改代價(jià)cij的情況下,可以認(rèn)為總修改代價(jià)最大的那個(gè)預(yù)分類標(biāo)簽即為優(yōu)化標(biāo)簽。

為了進(jìn)一步提高分類器的準(zhǔn)確度和/或改進(jìn)應(yīng)用中使用的分類器的性能,在本公開的優(yōu)選實(shí)施例中,進(jìn)一步提供了單個(gè)標(biāo)簽修改增益和/或單個(gè)標(biāo)簽修改損失的優(yōu)選確定方式。

在一個(gè)優(yōu)選實(shí)施例中,所述單個(gè)標(biāo)簽修改增益和/或所述單個(gè)標(biāo)簽修改損失可以是基于所述非標(biāo)記樣本數(shù)據(jù)的分布特性而預(yù)先確定的。

為描述簡(jiǎn)單起見,此處仍以參照?qǐng)D2描述的基于用戶日志數(shù)據(jù)將其分類為“男性用戶”(第一類別c1)和“女性用戶”(第二類別c2)的二分類問題為例。

例如,假設(shè)對(duì)樣本數(shù)據(jù)的在先統(tǒng)計(jì)結(jié)果表明,女性用戶的比例大于男性用戶,則可以把將預(yù)分類標(biāo)簽從“男性用戶”修改為“女性用戶”的單個(gè)標(biāo)簽修改損失l12設(shè)置為大于反向修改的單個(gè)標(biāo)簽修改損失l21。例如,在本示例中,可以設(shè)置l12=3,l21=2。

這樣,在標(biāo)簽修改單元103基于上述單個(gè)修改損失確定總修改代價(jià)、從而得到優(yōu)化標(biāo)簽的過程中,可以盡量避免(或抑制)對(duì)樣本數(shù)量較少的“男性用戶”的預(yù)分類標(biāo)簽的錯(cuò)誤修改,從而有利于在優(yōu)化單元104所進(jìn)行的優(yōu)化分類器處理中改進(jìn)分類器的分類準(zhǔn)確度。

可以基于類似考量而以類似方式設(shè)置將預(yù)分類標(biāo)簽從“男性用戶”修改為“女性用戶”的單個(gè)標(biāo)簽修改增益g12以及反向修改的單個(gè)標(biāo)簽修改增益g21,這里不再詳細(xì)描述。在本示例中,由于已經(jīng)基于樣本數(shù)據(jù)的分布特性設(shè)置了單個(gè)標(biāo)簽修改損失l12=3,l21=2,可以簡(jiǎn)單地將單個(gè)標(biāo)簽修改增益設(shè)置為g12=g21=1。

基于上述的單個(gè)標(biāo)簽修改損失和增益,標(biāo)簽修改單元103可以計(jì)算與每個(gè)候選標(biāo)簽相關(guān)聯(lián)的總修改代價(jià)。

例如,返回參考圖2中左圖所示的給定簇中的10個(gè)非標(biāo)記樣本數(shù)據(jù),其中,2個(gè)樣本數(shù)據(jù)的預(yù)分類標(biāo)簽為“男性用戶”,8個(gè)樣本數(shù)據(jù)的預(yù)分類標(biāo)簽為“女性用戶”。

對(duì)于上述給定簇,標(biāo)簽修改單元103可以計(jì)算將2個(gè)被預(yù)分類為“男性用戶”的樣本數(shù)據(jù)的預(yù)分類標(biāo)簽修改為“女性用戶”的修改增益g12=g12*2=1*2=2,并且計(jì)算上述修改的修改損失l12=l12*2=3*2=6。接著,標(biāo)簽修改單元103可以計(jì)算上述修改增益g12與修改損失l12之差,作為與上述修改相關(guān)聯(lián)的總修改代價(jià)c12=g12-l12=2-6=-4。

類似地,標(biāo)簽修改單元103可以計(jì)算將8個(gè)被預(yù)分類為“女性用戶”的樣本數(shù)據(jù)的預(yù)分類標(biāo)簽修改為“男性用戶”的修改增益g21=g12*8=1*8=8,并且計(jì)算上述修改的修改損失l21=l21*8=2*8=16。接著,標(biāo)簽修改單元103可以計(jì)算上述修改增益g21與修改損失l21之差,作為與上述修改相關(guān)聯(lián)的總修改代價(jià)c21=g21-l21=8-16=-8。

可見,將2個(gè)被預(yù)分類為“男性用戶”的樣本數(shù)據(jù)的預(yù)分類標(biāo)簽修改為“女性用戶”的總修改代價(jià)c12=-4優(yōu)于(即,大于)將8個(gè)被預(yù)分類為“女性用戶”的樣本數(shù)據(jù)的預(yù)分類標(biāo)簽修改為“男性用戶”總修改代價(jià)c21=-8。

因此,標(biāo)簽修改單元103將2個(gè)被預(yù)分類為“男性用戶”的樣本數(shù)據(jù)的預(yù)分類標(biāo)簽修改為“女性用戶”,即得到如圖2的右上圖所示的修改結(jié)果。

利用本優(yōu)選實(shí)施例中基于非標(biāo)記樣本數(shù)據(jù)的分布特性而預(yù)先確定單 個(gè)標(biāo)簽修改增益和/或損失的方式,可以盡量避免(或抑制)對(duì)數(shù)量較少的樣本所對(duì)應(yīng)的預(yù)分類標(biāo)簽的錯(cuò)誤修改,從而有利于在優(yōu)化單元104的優(yōu)化分類器處理中改進(jìn)分類器的分類準(zhǔn)確度。

在另一個(gè)優(yōu)選實(shí)施例中,所述單個(gè)標(biāo)簽修改增益和/或所述單個(gè)標(biāo)簽修改損失可以是基于要使用所述分類器的應(yīng)用的需求而預(yù)先確定的。

例如,可以考慮不同的分類錯(cuò)誤帶來不同風(fēng)險(xiǎn)或代價(jià)的應(yīng)用。在這樣的應(yīng)用中,可以基于預(yù)分類標(biāo)簽的錯(cuò)誤修改所造成的風(fēng)險(xiǎn)或不良后果的等級(jí)而設(shè)置單個(gè)標(biāo)簽修改損失。

上述應(yīng)用的一個(gè)示例可以是諸如用于癌細(xì)胞識(shí)別的醫(yī)學(xué)處理應(yīng)用。在癌細(xì)胞識(shí)別應(yīng)用中,可以利用分類器判定給定細(xì)胞為癌細(xì)胞(第一類別c1)還是正常細(xì)胞(第二類別c2)。分類器把正常細(xì)胞錯(cuò)判為癌細(xì)胞帶來的風(fēng)險(xiǎn)將遠(yuǎn)小于把癌細(xì)胞錯(cuò)判為正常細(xì)胞的風(fēng)險(xiǎn):前一種錯(cuò)判的后果可能是進(jìn)一步的檢查以及病人的精神上的負(fù)擔(dān),而后一種錯(cuò)判則會(huì)使早期的患者失去進(jìn)一步檢查的機(jī)會(huì),延誤患者的治療。在本示例中,可以基于上述錯(cuò)判的不同后果,把將預(yù)分類標(biāo)簽從“癌細(xì)胞”修改為“正常細(xì)胞”的單個(gè)標(biāo)簽修改損失l12設(shè)置為大于反向修改的單個(gè)標(biāo)簽修改損失l21。

類似地,可以考慮不同的分類正確結(jié)果帶來不同益處的應(yīng)用。例如,如果對(duì)某類樣本的正確分類相較于對(duì)其他樣本的正確分類具有更多的益處,則可以將與該樣本類別相關(guān)的單個(gè)標(biāo)簽修改增益設(shè)置得較大。

利用本優(yōu)選實(shí)施例中基于要使用分類器的應(yīng)用的需求而預(yù)先確定單個(gè)標(biāo)簽修改增益和/或損失的方式,可以盡量避免(或抑制)使應(yīng)用性能降低的預(yù)分類標(biāo)簽的錯(cuò)誤修改,從而有利于在優(yōu)化單元104的優(yōu)化分類器處理中改進(jìn)分類器的與應(yīng)用有關(guān)的性能。

注意,上述兩個(gè)優(yōu)選實(shí)施例中預(yù)先確定單個(gè)標(biāo)簽修改增益和/或損失的方式可以彼此結(jié)合,即,可以基于要使用分類器的應(yīng)用的需求以及非標(biāo)記樣本數(shù)據(jù)的分布特性這兩者來共同確定單個(gè)標(biāo)簽修改增益和/或損失。

以上參照?qǐng)D1至圖2描述了根據(jù)本公開實(shí)施例的信息處理裝置及其組成單元以及相關(guān)處理。利用根據(jù)本公開實(shí)施例的信息處理裝置,能夠結(jié)合非監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí),利用聚類結(jié)果改進(jìn)分類器的性能。

根據(jù)本公開的另一個(gè)方面,提供了一種信息處理方法。圖3是示意性地示出根據(jù)本公開實(shí)施例的信息處理方法的示例流程的流程圖。

如圖7所示,信息處理方法30可以包括:預(yù)分類步驟s301,利用分 類器對(duì)非標(biāo)記樣本數(shù)據(jù)進(jìn)行分類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽;聚類步驟s303,對(duì)所述非標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的至少一個(gè)簇;標(biāo)簽修改步驟s305,針對(duì)所述至少一個(gè)簇中的每個(gè)簇,利用標(biāo)簽修改優(yōu)化處理,基于該簇中的非標(biāo)記樣本數(shù)據(jù)的一個(gè)或多個(gè)預(yù)分類標(biāo)簽獲得針對(duì)該簇的優(yōu)化標(biāo)簽,并將該簇中的非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽全部修改為該優(yōu)化標(biāo)簽;以及優(yōu)化步驟s307,利用所述非標(biāo)記樣本數(shù)據(jù)以及所述優(yōu)化標(biāo)簽,對(duì)所述分類器進(jìn)行優(yōu)化。

在信息處理方法30中,針對(duì)所述至少一個(gè)簇當(dāng)中的給定簇中的非標(biāo)記樣本數(shù)據(jù),通過預(yù)分類步驟s301獲得了n個(gè)預(yù)分類標(biāo)簽,n為大于等于2的自然數(shù),并且其中,在標(biāo)簽修改步驟s307中,通過下述方式針對(duì)給定簇進(jìn)行所述標(biāo)簽修改優(yōu)化處理:

基于預(yù)先確定的單個(gè)標(biāo)簽修改增益和/或單個(gè)標(biāo)簽修改損失,針對(duì)該簇中的非標(biāo)記樣本數(shù)據(jù)構(gòu)建標(biāo)簽修改優(yōu)化函數(shù),其中,所述標(biāo)簽修改優(yōu)化函數(shù)與將該簇中的所有非標(biāo)記樣本數(shù)據(jù)的n個(gè)預(yù)分類標(biāo)簽全部修改為作為n個(gè)預(yù)分類標(biāo)簽之一的候選標(biāo)簽的總修改代價(jià)有關(guān);以及

基于與所述候選標(biāo)簽相關(guān)聯(lián)的總修改代價(jià),將獲得所述總修改代價(jià)的最優(yōu)化結(jié)果時(shí)的候選標(biāo)簽作為針對(duì)該簇的優(yōu)化標(biāo)簽。

在一個(gè)優(yōu)選實(shí)施例中,在標(biāo)簽修改步驟s307中利用標(biāo)簽修改優(yōu)化函數(shù)來獲得給定簇中的非標(biāo)記樣本數(shù)據(jù)的優(yōu)化標(biāo)簽。為便于描述,在本優(yōu)選實(shí)施中,假設(shè)針對(duì)給定簇中的非標(biāo)記樣本數(shù)據(jù),例如已通過預(yù)分類步驟s301獲得了n個(gè)預(yù)分類標(biāo)簽(n為大于等于2的自然數(shù))。此時(shí),以小于等于n的、互不相等的自然數(shù)i,j分別表示這n個(gè)預(yù)分類標(biāo)簽中的第i個(gè)預(yù)分類標(biāo)簽和第j個(gè)預(yù)分類標(biāo)簽的編號(hào)(以下也可將第i個(gè)預(yù)分類標(biāo)簽和第j個(gè)預(yù)分類標(biāo)簽分別簡(jiǎn)稱為標(biāo)簽i、標(biāo)簽j),并且以自然數(shù)mi表示該給定簇中具有預(yù)分類標(biāo)簽i的非標(biāo)記樣本數(shù)據(jù)的個(gè)數(shù)。

在進(jìn)行上述假設(shè)的情況下,在標(biāo)簽修改步驟s307中,通過下述方式構(gòu)建標(biāo)簽修改優(yōu)化函數(shù)以獲得優(yōu)化標(biāo)簽。

首先,針對(duì)n個(gè)預(yù)分類標(biāo)簽中的每個(gè)候選標(biāo)簽j,通過下述方式計(jì)算與候選標(biāo)簽j相關(guān)聯(lián)的總修改代價(jià):

針對(duì)除候選標(biāo)簽j以外的n-1個(gè)預(yù)分類標(biāo)簽中的每個(gè)標(biāo)簽i,基于將標(biāo)簽i修改為標(biāo)簽j的單個(gè)標(biāo)簽修改增益gij和單個(gè)標(biāo)簽修改損失lij,計(jì)算 將所述給定簇中的mi個(gè)非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽從標(biāo)簽i修改為標(biāo)簽j的修改增益gij=mi·gij和修改損失lij=mi·lij,并基于gij和lij計(jì)算修改代價(jià)cij;以及將針對(duì)除候選標(biāo)簽j以外的n-1個(gè)預(yù)分類標(biāo)簽獲得的修改代價(jià)求和,得到與候選標(biāo)簽j相關(guān)聯(lián)的總修改代價(jià)

接下來,基于n個(gè)預(yù)分類標(biāo)簽中的每個(gè)候選標(biāo)簽所關(guān)聯(lián)的總修改代價(jià),標(biāo)簽修改單元103可以構(gòu)建標(biāo)簽修改優(yōu)化函數(shù)并且將滿足的第k個(gè)預(yù)分類標(biāo)簽作為所述優(yōu)化標(biāo)簽。

在一個(gè)優(yōu)選實(shí)施例中,所述單個(gè)標(biāo)簽修改增益和/或所述單個(gè)標(biāo)簽修改損失可以是基于要使用所述分類器的應(yīng)用的需求而預(yù)先確定的。

在一個(gè)優(yōu)選實(shí)施例中,所述單個(gè)標(biāo)簽修改增益和/或所述單個(gè)標(biāo)簽修改損失可以是基于所述非標(biāo)記樣本數(shù)據(jù)的分布特性而預(yù)先確定的。

上述信息處理方法30及其各個(gè)步驟可以實(shí)現(xiàn)由以上參照?qǐng)D1至圖2描述的信息處理裝置10及其各個(gè)組成單元進(jìn)行的處理,并實(shí)現(xiàn)類似的效果,在此不再進(jìn)行重復(fù)說明。

根據(jù)本公開的又一個(gè)方面,提供了一種信息處理設(shè)備。圖4是示意性地示出根據(jù)本公開實(shí)施例的信息處理設(shè)備的示例結(jié)構(gòu)的框圖。

如圖4所示,信息處理設(shè)備40可以包括控制器401??刂破?01可以被配置為:利用分類器對(duì)非標(biāo)記樣本數(shù)據(jù)進(jìn)行分類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽;對(duì)所述非標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的至少一個(gè)簇;針對(duì)所述至少一個(gè)簇中的每個(gè)簇,利用標(biāo)簽修改優(yōu)化處理,基于該簇中的非標(biāo)記樣本數(shù)據(jù)的一個(gè)或多個(gè)預(yù)分類標(biāo)簽獲得針對(duì)該簇的優(yōu)化標(biāo)簽,并將該簇中的非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽全部修改為該優(yōu)化標(biāo)簽;以及利用所述非標(biāo)記樣本數(shù)據(jù)以及所述優(yōu)化標(biāo)簽,對(duì)所述分類器進(jìn)行優(yōu)化。

在控制器401的上述處理中,針對(duì)所述至少一個(gè)簇當(dāng)中的給定簇中的 非標(biāo)記樣本數(shù)據(jù),獲得了n個(gè)預(yù)分類標(biāo)簽,n為大于等于2的自然數(shù),并且其中,通過下述方式針對(duì)給定簇進(jìn)行所述標(biāo)簽修改優(yōu)化處理:基于預(yù)先確定的單個(gè)標(biāo)簽修改增益和/或單個(gè)標(biāo)簽修改損失,針對(duì)該簇中的非標(biāo)記樣本數(shù)據(jù)構(gòu)建標(biāo)簽修改優(yōu)化函數(shù),其中,所述標(biāo)簽修改優(yōu)化函數(shù)與將該簇中的所有非標(biāo)記樣本數(shù)據(jù)的n個(gè)預(yù)分類標(biāo)簽全部修改為作為n個(gè)預(yù)分類標(biāo)簽之一的候選標(biāo)簽的總修改代價(jià)有關(guān);以及基于與所述候選標(biāo)簽相關(guān)聯(lián)的總修改代價(jià),將獲得所述總修改代價(jià)的最優(yōu)化結(jié)果時(shí)的候選標(biāo)簽作為針對(duì)該簇的優(yōu)化標(biāo)簽。

信息處理設(shè)備40可以利用任意的專用硬件、專用計(jì)算機(jī)或一般的通用個(gè)人計(jì)算機(jī)來實(shí)現(xiàn),并且控制器401可以利用中央處理單元(cpu)、處理器、專用集成電路等各種適當(dāng)裝置來實(shí)現(xiàn)。

利用信息處理設(shè)備40,可以實(shí)現(xiàn)由以上參照?qǐng)D1至圖2描述的信息處理裝置10及其各個(gè)組成單元進(jìn)行的處理,并且獲取相應(yīng)的效果,在此不進(jìn)行重復(fù)描述。

圖5是示出了可用來實(shí)現(xiàn)根據(jù)本公開實(shí)施例的信息處理裝置、方法以及設(shè)備的一種可能的硬件配置的結(jié)構(gòu)簡(jiǎn)圖。

在圖5中,中央處理單元(cpu)501根據(jù)只讀存儲(chǔ)器(rom)502中存儲(chǔ)的程序或從存儲(chǔ)部分508加載到隨機(jī)存取存儲(chǔ)器(ram)503的程序執(zhí)行各種處理。在ram503中,還根據(jù)需要存儲(chǔ)當(dāng)cpu501執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。cpu501、rom502和ram503經(jīng)由總線504彼此連接。輸入/輸出接口505也連接到總線504。

下述部件也連接到輸入/輸出接口505:輸入部分506(包括鍵盤、鼠標(biāo)等等)、輸出部分507(包括顯示器,例如陰極射線管(crt)、液晶顯示器(lcd)等,和揚(yáng)聲器等)、存儲(chǔ)部分508(包括硬盤等)、通信部分509(包括網(wǎng)絡(luò)接口卡例如lan卡、調(diào)制解調(diào)器等)。通信部分509經(jīng)由網(wǎng)絡(luò)例如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器510也可連接到輸入/輸出接口505??刹鹦督橘|(zhì)511例如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等可以根據(jù)需要被安裝在驅(qū)動(dòng)器510上,使得從中讀出的計(jì)算機(jī)程序可根據(jù)需要被安裝到存儲(chǔ)部分508中。

此外,本公開還提出了一種存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品。上述指令代碼由機(jī)器讀取并執(zhí)行時(shí),可執(zhí)行上述根據(jù)本公開實(shí)施例的信息處理方法。相應(yīng)地,用于承載這種程序產(chǎn)品的例如磁盤、光盤、磁光 盤、半導(dǎo)體存儲(chǔ)器等的各種存儲(chǔ)介質(zhì)也包括在本公開的公開中。

在上面對(duì)本公開具體實(shí)施例的描述中,針對(duì)一種實(shí)施方式描述和/或示出的特征可以以相同或類似的方式在一個(gè)或更多個(gè)其它實(shí)施方式中使用,與其它實(shí)施方式中的特征相組合,或替代其它實(shí)施方式中的特征。

此外,本公開的各實(shí)施例的方法不限于按照說明書中描述的或者附圖中示出的時(shí)間順序來執(zhí)行,也可以按照其他的時(shí)間順序、并行地或獨(dú)立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對(duì)本公開的技術(shù)范圍構(gòu)成限制。

此外,顯然,根據(jù)本公開的上述方法的各個(gè)操作過程也可以以存儲(chǔ)在各種機(jī)器可讀的存儲(chǔ)介質(zhì)中的計(jì)算機(jī)可執(zhí)行程序的方式實(shí)現(xiàn)。

而且,本公開的目的也可以通過下述方式實(shí)現(xiàn):將存儲(chǔ)有上述可執(zhí)行程序代碼的存儲(chǔ)介質(zhì)直接或者間接地提供給系統(tǒng)或設(shè)備,并且該系統(tǒng)或設(shè)備中的計(jì)算機(jī)或者中央處理單元(cpu)讀出并執(zhí)行上述程序代碼。

此時(shí),只要該系統(tǒng)或者設(shè)備具有執(zhí)行程序的功能,則本公開的實(shí)施方式不局限于程序,并且該程序也可以是任意的形式,例如,目標(biāo)程序、解釋器執(zhí)行的程序或者提供給操作系統(tǒng)的腳本程序等。

上述這些機(jī)器可讀存儲(chǔ)介質(zhì)包括但不限于:各種存儲(chǔ)器和存儲(chǔ)單元,半導(dǎo)體設(shè)備,磁盤單元例如光、磁和磁光盤,以及其它適于存儲(chǔ)信息的介質(zhì)等。

另外,客戶信息處理終端通過連接到因特網(wǎng)上的相應(yīng)網(wǎng)站,并且將依據(jù)本公開的計(jì)算機(jī)程序代碼下載和安裝到信息處理終端中然后執(zhí)行該程序,也可以實(shí)現(xiàn)本公開的各實(shí)施例。

綜上,在根據(jù)本公開實(shí)施例中,本公開提供了如下方案,但不限于此:

方案1.一種信息處理裝置,包括:

預(yù)分類單元,其利用分類器對(duì)非標(biāo)記樣本數(shù)據(jù)進(jìn)行分類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽;

聚類單元,其對(duì)所述非標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的至少一個(gè)簇;

標(biāo)簽修改單元,針對(duì)所述至少一個(gè)簇中的每個(gè)簇,利用標(biāo)簽修改優(yōu)化 處理,基于該簇中的非標(biāo)記樣本數(shù)據(jù)的一個(gè)或多個(gè)預(yù)分類標(biāo)簽獲得針對(duì)該簇的優(yōu)化標(biāo)簽,并將該簇中的非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽全部修改為該優(yōu)化標(biāo)簽;以及

優(yōu)化單元,其利用所述非標(biāo)記樣本數(shù)據(jù)以及所述優(yōu)化標(biāo)簽,對(duì)所述分類器進(jìn)行優(yōu)化,

其中,針對(duì)所述至少一個(gè)簇當(dāng)中的給定簇中的非標(biāo)記樣本數(shù)據(jù),所述預(yù)分類單元獲得了n個(gè)預(yù)分類標(biāo)簽,n為大于等于2的自然數(shù),并且其中,所述標(biāo)簽修改單元通過下述方式針對(duì)給定簇進(jìn)行所述標(biāo)簽修改優(yōu)化處理:

基于預(yù)先確定的單個(gè)標(biāo)簽修改增益和/或單個(gè)標(biāo)簽修改損失,針對(duì)該簇中的非標(biāo)記樣本數(shù)據(jù)構(gòu)建標(biāo)簽修改優(yōu)化函數(shù),其中,所述標(biāo)簽修改優(yōu)化函數(shù)與將該簇中的所有非標(biāo)記樣本數(shù)據(jù)的n個(gè)預(yù)分類標(biāo)簽全部修改為作為n個(gè)預(yù)分類標(biāo)簽之一的候選標(biāo)簽的總修改代價(jià)有關(guān);以及

基于與所述候選標(biāo)簽相關(guān)聯(lián)的總修改代價(jià),將獲得所述總修改代價(jià)的最優(yōu)化結(jié)果時(shí)的候選標(biāo)簽作為針對(duì)該簇的優(yōu)化標(biāo)簽。

方案2.如方案1所述的信息處理裝置,其中,所述標(biāo)簽修改單元通過下述方式獲得所述優(yōu)化標(biāo)簽:

針對(duì)n個(gè)預(yù)分類標(biāo)簽中的每個(gè)候選標(biāo)簽j,

針對(duì)除候選標(biāo)簽j以外的n-1個(gè)預(yù)分類標(biāo)簽中的每個(gè)標(biāo)簽i,基于將標(biāo)簽i修改為標(biāo)簽j的單個(gè)標(biāo)簽修改增益gij和單個(gè)標(biāo)簽修改損失lij,計(jì)算將所述給定簇中的mi個(gè)非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽從標(biāo)簽i修改為標(biāo)簽j的修改增益gij=mi·gij和修改損失lij=mi·lij,并基于gij和lij計(jì)算修改代價(jià)cij,以及

將針對(duì)除候選標(biāo)簽j以外的n-1個(gè)預(yù)分類標(biāo)簽獲得的修改代價(jià)求和,得到與候選標(biāo)簽j相關(guān)聯(lián)的總修改代價(jià)

其中i,j為小于等于n的、互不相等的自然數(shù),并且分別表示n個(gè)預(yù)分類標(biāo)簽中的第i個(gè)預(yù)分類標(biāo)簽和第j個(gè)預(yù)分類標(biāo)簽的編號(hào),mi為自然數(shù)并且表示所述給定簇中具有預(yù)分類標(biāo)簽i的非標(biāo)記樣本數(shù)據(jù)的個(gè)數(shù);以及

基于n個(gè)預(yù)分類標(biāo)簽中的每個(gè)候選標(biāo)簽所關(guān)聯(lián)的總修改代價(jià),構(gòu)建標(biāo)簽修改優(yōu)化函數(shù)以及

將滿足的第k個(gè)預(yù)分類標(biāo)簽作為所述優(yōu)化標(biāo)簽。

方案3.如方案1或2所述的信息處理裝置,其中,所述單個(gè)標(biāo)簽修改增益和/或所述單個(gè)標(biāo)簽修改損失是基于要使用所述分類器的應(yīng)用的需求而預(yù)先確定的。

方案4.如方案1或2所述的信息處理裝置,其中,所述單個(gè)標(biāo)簽修改增益和/或所述單個(gè)標(biāo)簽修改損失是基于所述非標(biāo)記樣本數(shù)據(jù)的分布特性而預(yù)先確定的。

方案5.如方案1所述的信息處理裝置,其中,所述優(yōu)化單元利用所述非標(biāo)記樣本數(shù)據(jù)以及所述優(yōu)化標(biāo)簽來通過重新訓(xùn)練或增量更新的方式對(duì)所述分類器進(jìn)行優(yōu)化。

方案6.一種信息處理方法,包括:

利用分類器對(duì)非標(biāo)記樣本數(shù)據(jù)進(jìn)行分類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽;

對(duì)所述非標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的至少一個(gè)簇;

針對(duì)所述至少一個(gè)簇中的每個(gè)簇,利用標(biāo)簽修改優(yōu)化處理,基于該簇中的非標(biāo)記樣本數(shù)據(jù)的一個(gè)或多個(gè)預(yù)分類標(biāo)簽獲得針對(duì)該簇的優(yōu)化標(biāo)簽,并將該簇中的非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽全部修改為該優(yōu)化標(biāo)簽;以及

利用所述非標(biāo)記樣本數(shù)據(jù)以及所述優(yōu)化標(biāo)簽,對(duì)所述分類器進(jìn)行優(yōu)化,

其中,針對(duì)所述至少一個(gè)簇當(dāng)中的給定簇中的非標(biāo)記樣本數(shù)據(jù),獲得 了n個(gè)預(yù)分類標(biāo)簽,n為大于等于2的自然數(shù),并且其中,通過下述方式針對(duì)給定簇進(jìn)行所述標(biāo)簽修改優(yōu)化處理:

基于預(yù)先確定的單個(gè)標(biāo)簽修改增益和/或單個(gè)標(biāo)簽修改損失,針對(duì)該簇中的非標(biāo)記樣本數(shù)據(jù)構(gòu)建標(biāo)簽修改優(yōu)化函數(shù),其中,所述標(biāo)簽修改優(yōu)化函數(shù)與將該簇中的所有非標(biāo)記樣本數(shù)據(jù)的n個(gè)預(yù)分類標(biāo)簽全部修改為作為n個(gè)預(yù)分類標(biāo)簽之一的候選標(biāo)簽的總修改代價(jià)有關(guān);以及

基于與所述候選標(biāo)簽相關(guān)聯(lián)的總修改代價(jià),將獲得所述總修改代價(jià)的最優(yōu)化結(jié)果時(shí)的候選標(biāo)簽作為針對(duì)該簇的優(yōu)化標(biāo)簽。

方案7.如方案6所述的信息處理方法,其中,通過下述方式獲得所述優(yōu)化標(biāo)簽:

針對(duì)n個(gè)預(yù)分類標(biāo)簽中的每個(gè)候選標(biāo)簽j,

針對(duì)除候選標(biāo)簽j以外的n-1個(gè)預(yù)分類標(biāo)簽中的每個(gè)標(biāo)簽i,基于將標(biāo)簽i修改為標(biāo)簽j的單個(gè)標(biāo)簽修改增益gij和單個(gè)標(biāo)簽修改損失lij,計(jì)算將所述給定簇中的mi個(gè)非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽從標(biāo)簽i修改為標(biāo)簽j的修改增益gij=mi·gij和修改損失lij=mi·lij,并基于gij和lij計(jì)算修改代價(jià)cij,以及

將針對(duì)除候選標(biāo)簽j以外的n-1個(gè)預(yù)分類標(biāo)簽獲得的修改代價(jià)求和,得到與候選標(biāo)簽j相關(guān)聯(lián)的總修改代價(jià)

其中i,j為小于等于n的、互不相等的自然數(shù),并且分別表示n個(gè)預(yù)分類標(biāo)簽中的第i個(gè)預(yù)分類標(biāo)簽和第j個(gè)預(yù)分類標(biāo)簽的編號(hào),mi為自然數(shù)并且表示所述給定簇中具有預(yù)分類標(biāo)簽i的非標(biāo)記樣本數(shù)據(jù)的個(gè)數(shù);以及

基于n個(gè)預(yù)分類標(biāo)簽中的每個(gè)候選標(biāo)簽所關(guān)聯(lián)的總修改代價(jià),構(gòu)建標(biāo)簽修改優(yōu)化函數(shù)以及

將滿足的第k個(gè)預(yù)分類標(biāo)簽作為所述優(yōu)化標(biāo)簽。

方案8.如方案6或7所述的信息處理方法,其中,所述單個(gè)標(biāo)簽修改增益和/或所述單個(gè)標(biāo)簽修改損失是基于要使用所述分類器的應(yīng)用的需求而預(yù)先確定的。

方案9.如方案6或7所述的信息處理方法,其中,所述單個(gè)標(biāo)簽修改增益和/或所述單個(gè)標(biāo)簽修改損失是基于所述非標(biāo)記樣本數(shù)據(jù)的分布特性而預(yù)先確定的。

方案10.一種信息處理設(shè)備,包括:

控制器,所述控制器被配置為:

利用分類器對(duì)非標(biāo)記樣本數(shù)據(jù)進(jìn)行分類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽;

對(duì)所述非標(biāo)記樣本數(shù)據(jù)進(jìn)行聚類,以獲得所述非標(biāo)記樣本數(shù)據(jù)的至少一個(gè)簇;

針對(duì)所述至少一個(gè)簇中的每個(gè)簇,利用標(biāo)簽修改優(yōu)化處理,基于該簇中的非標(biāo)記樣本數(shù)據(jù)的一個(gè)或多個(gè)預(yù)分類標(biāo)簽獲得針對(duì)該簇的優(yōu)化標(biāo)簽,并將該簇中的非標(biāo)記樣本數(shù)據(jù)的預(yù)分類標(biāo)簽全部修改為該優(yōu)化標(biāo)簽;以及

利用所述非標(biāo)記樣本數(shù)據(jù)以及所述優(yōu)化標(biāo)簽,對(duì)所述分類器進(jìn)行優(yōu)化,

其中,針對(duì)所述至少一個(gè)簇當(dāng)中的給定簇中的非標(biāo)記樣本數(shù)據(jù),獲得了n個(gè)預(yù)分類標(biāo)簽,n為大于等于2的自然數(shù),并且其中,通過下述方式針對(duì)給定簇進(jìn)行所述標(biāo)簽修改優(yōu)化處理:

基于預(yù)先確定的單個(gè)標(biāo)簽修改增益和/或單個(gè)標(biāo)簽修改損失,針對(duì)該簇中的非標(biāo)記樣本數(shù)據(jù)構(gòu)建標(biāo)簽修改優(yōu)化函數(shù),其中,所述標(biāo)簽修改優(yōu)化函數(shù)與將該簇中的所有非標(biāo)記樣本數(shù)據(jù)的n個(gè)預(yù)分類標(biāo)簽全部修改為作為n個(gè)預(yù)分類標(biāo)簽之一的候選標(biāo)簽的總修改代價(jià)有關(guān);以及

基于與所述候選標(biāo)簽相關(guān)聯(lián)的總修改代價(jià),將獲得所述總修改代價(jià)的最優(yōu)化結(jié)果時(shí)的候選標(biāo)簽作為針對(duì)該簇的優(yōu)化標(biāo)簽。

最后,還需要說明的是,在本公開中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

盡管上面已經(jīng)通過本公開的具體實(shí)施例的描述對(duì)本公開進(jìn)行了披露,但是,應(yīng)該理解,本領(lǐng)域技術(shù)人員可在所附權(quán)利要求的精神和范圍內(nèi)設(shè)計(jì)對(duì)本公開的各種修改、改進(jìn)或者等同物。這些修改、改進(jìn)或者等同物也應(yīng)當(dāng)被認(rèn)為包括在本公開所要求保護(hù)的范圍內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
家居| 松潘县| 海南省| 北宁市| 淮滨县| 石嘴山市| 虞城县| 神木县| 南丹县| 横峰县| 兰考县| 濮阳县| 宜丰县| 嘉义市| 衡水市| 新田县| 罗甸县| 昆山市| 贵港市| 永川市| 思茅市| 元朗区| 花莲市| 航空| 滦平县| 辰溪县| 株洲县| 祁东县| 阿尔山市| 大兴区| 昭平县| 白城市| 会同县| 隆昌县| 江达县| 博白县| 大石桥市| 江孜县| 门源| 江山市| 堆龙德庆县|