求平均值,得到該樣本 的相似度平均值。
[0087] 負(fù)樣本集合構(gòu)建子單元6066被配置為將所有樣本按照計(jì)算得到的相似度平均值 從小到大的順序進(jìn)行排序,取前r個樣本作為負(fù)樣本集合,其中r為正整數(shù),或者取所得到 的相似度平均值小于給定值的所有樣本作為負(fù)樣本集合。
[0088] 圖9是示出圖6中的負(fù)樣本集合構(gòu)建單元606'的另一種示例性配置的框圖。
[0089] 如圖9所示,負(fù)樣本集合構(gòu)建單元606'包括:特征向量構(gòu)建子單元6062'、正參考 向量構(gòu)建子單元6064'、相似度計(jì)算子單元6066'、負(fù)樣本集合構(gòu)建子單元6068'。
[0090] 特征向量構(gòu)建子單元6062'被配置為對樣本集合中的每一個樣本利用訓(xùn)練特征構(gòu) 建特征向量。
[0091] 正參考向量構(gòu)建子單元6064'被配置為利用正樣本集合中的所有正樣本的特征向 量構(gòu)建正參考向量。
[0092] 相似度計(jì)算子單元6066'被配置為將樣本集合去除正樣本集合后的集合中的每一 個樣本的特征向量與正參考向量進(jìn)行比較來計(jì)算相似度。
[0093] 負(fù)樣本集合構(gòu)建子單元6068'被配置為將所有樣本按照計(jì)算得到的相似度從小到 大的順序進(jìn)行排序,取前s個樣本作為負(fù)樣本集合,其中s為正整數(shù),或者取相似度小于給 定值的所有樣本作為負(fù)樣本集合。
[0094] 圖10是示出圖6中的語義關(guān)鍵詞確定單元610的一種示例性配置的框圖。
[0095] 如圖10所示,語義關(guān)鍵詞確定單元610包括:識別模型訓(xùn)練子單元6102、分類子 單元6104、未標(biāo)注樣本集合修改子單元6106、循環(huán)控制子單元6108。
[0096] 識別模型訓(xùn)練子單元6102被配置為使用正樣本集合和負(fù)樣本集合訓(xùn)練語義關(guān)鍵 詞識別模型。
[0097] 分類子單元6104被配置為利用語義關(guān)鍵詞識別模型對未標(biāo)注樣本集合中的樣本 進(jìn)行分類,將未標(biāo)注樣本集合中被識別模型識別為正的樣本加入到正樣本集合中和/或?qū)?未標(biāo)注樣本集合中被語義關(guān)鍵詞識別模型識別為負(fù)的樣本加入到負(fù)樣本集合中。
[0098] 未標(biāo)注樣本集合修改子單元6106被配置為從未標(biāo)注樣本集合中去除被識別模型 識別為正的樣本和/或去除被識別模型識別為負(fù)的樣本。
[0099] 循環(huán)控制子單元6108使用修改后的正樣本集合、負(fù)樣本集合以及未標(biāo)注樣本集 合重復(fù)執(zhí)行以上步驟,直至達(dá)到預(yù)定條件。
[0100] 迭代收斂的預(yù)定條件可以為正樣本的個數(shù)達(dá)到預(yù)定數(shù)目、負(fù)樣本的個數(shù)達(dá)到預(yù)定 數(shù)目、或者未標(biāo)注樣本集合中的數(shù)目不再發(fā)生變化。
[0101] 關(guān)于在文本中確定語義關(guān)鍵詞的裝置600的各個部分的操作和功能的細(xì)節(jié)可以 參照結(jié)合圖1-5描述的本發(fā)明的在文本中確定語義關(guān)鍵詞的方法的實(shí)施例,這里不再詳細(xì) 描述。
[0102] 在此需要說明的是,圖6-10所示的在文本中確定語義關(guān)鍵詞的裝置600及其組成 單元的結(jié)構(gòu)僅僅是示例性的,本領(lǐng)域技術(shù)人員可以根據(jù)需要對圖6-10所示的結(jié)構(gòu)框圖進(jìn) 行修改。
[0103] 本發(fā)明提出一種基于機(jī)器學(xué)習(xí)的語義關(guān)鍵詞挖掘方法,利用互聯(lián)網(wǎng)資源中先驗(yàn)知 識和機(jī)器學(xué)習(xí)方法進(jìn)行語義關(guān)鍵詞挖掘,不需要人工標(biāo)注數(shù)據(jù)。根據(jù)本發(fā)明的語義關(guān)鍵詞 確定方法,利用互聯(lián)網(wǎng)資源中先驗(yàn)知識構(gòu)建正樣本集合,利用樣本集合中的樣本與正樣本 的相似度構(gòu)建負(fù)樣本集合,再使用迭代的語義關(guān)鍵詞識別模型訓(xùn)練方法,從而可以從未標(biāo) 注樣本中識別語義關(guān)鍵詞和非語義關(guān)鍵詞。
[0104] 以上結(jié)合具體實(shí)施例描述了本發(fā)明的基本原理,但是,需要指出的是,對本領(lǐng)域的 普通技術(shù)人員而言,能夠理解本發(fā)明的方法和裝置的全部或者任何步驟或者部件,可以在 任何計(jì)算裝置(包括處理器、存儲介質(zhì)等)或者計(jì)算裝置的網(wǎng)絡(luò)中,以硬件、固件、軟件或者 它們的組合加以實(shí)現(xiàn),這是本領(lǐng)域普通技術(shù)人員在閱讀了本發(fā)明的說明的情況下運(yùn)用他們 的基本編程技能就能實(shí)現(xiàn)的。
[0105] 因此,本發(fā)明的目的還可以通過在任何計(jì)算裝置上運(yùn)行一個程序或者一組程序來 實(shí)現(xiàn)。所述計(jì)算裝置可以是公知的通用裝置。因此,本發(fā)明的目的也可以僅僅通過提供包 含實(shí)現(xiàn)所述方法或者裝置的程序代碼的程序產(chǎn)品來實(shí)現(xiàn)。也就是說,這樣的程序產(chǎn)品也構(gòu) 成本發(fā)明,并且存儲有這樣的程序產(chǎn)品的存儲介質(zhì)也構(gòu)成本發(fā)明。顯然,所述存儲介質(zhì)可以 是任何公知的存儲介質(zhì)或者將來所開發(fā)出來的任何存儲介質(zhì)。
[0106] 在通過軟件和/或固件實(shí)現(xiàn)本發(fā)明的實(shí)施例的情況下,從存儲介質(zhì)或網(wǎng)絡(luò)向具有 專用硬件結(jié)構(gòu)的計(jì)算機(jī),例如圖11所示的通用計(jì)算機(jī)1100安裝構(gòu)成該軟件的程序,該計(jì)算 機(jī)在安裝有各種程序時,能夠執(zhí)行各種功能等等。
[0107] 在圖11中,中央處理單元(CPU) 1101根據(jù)只讀存儲器(ROM) 1102中存儲的程序或 從存儲部分1108加載到隨機(jī)存取存儲器(RAM) 1103的程序執(zhí)行各種處理。在RAMl 103中, 也根據(jù)需要存儲當(dāng)CPU1101執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU110UR0M1102和RAM1103 經(jīng)由總線1104彼此鏈路。輸入/輸出接口 1105也鏈路到總線1104。
[0108] 下述部件鏈路到輸入/輸出接口 1105 :輸入部分1106(包括鍵盤、鼠標(biāo)等等)、輸 出部分1107(包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚(yáng)聲器等)、存 儲部分1108 (包括硬盤等)、通信部分1109 (包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等)。 通信部分1109經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器1110也可鏈路到輸 入/輸出接口 1105。可拆卸介質(zhì)1111比如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等根據(jù)需要 被安裝在驅(qū)動器1110上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲部分1108中。 [0109] 在通過軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲介質(zhì)比如可拆 卸介質(zhì)1111安裝構(gòu)成軟件的程序。
[0110] 本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲介質(zhì)不局限于圖11所示的其中存儲有程 序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)1111??刹鹦督橘|(zhì)1111的例子 包含磁盤(包含軟盤(注冊商標(biāo)))、光盤(包含光盤只讀存儲器(⑶-ROM)和數(shù)字通用盤 (DVD))、磁光盤(包含迷你盤(MD)(注冊商標(biāo)))和半導(dǎo)體存儲器?;蛘撸鎯橘|(zhì)可以是 R0M1102、存儲部分1108中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被 分發(fā)給用戶。
[0111] 本發(fā)明還提出一種存儲有機(jī)器可讀取的指令代碼的程序產(chǎn)品。指令代碼由機(jī)器讀 取并執(zhí)行時,可執(zhí)行上述根據(jù)本發(fā)明實(shí)施例的方法。
[0112] 相應(yīng)地,用于承載上述存儲有機(jī)器可讀取的指令代碼的程序產(chǎn)品的存儲介質(zhì)也包 括在本發(fā)明的公開中。存儲介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等。
[0113] 本領(lǐng)域的普通技術(shù)人員應(yīng)理解,在此所例舉的是示例性的,本發(fā)明并不局限于此。
[0114] 在本說明書中,"第一"、"第二"以及"第N個"等表述是為了將所描述的特征在文 字上區(qū)分開,以清楚地描述本發(fā)明。因此,不應(yīng)將其視為具有任何限定性的含義。
[0115] 作為一個示例,上述方法的各個步驟以及上述設(shè)備的各個組成模塊和/或單元可 以實(shí)施為軟件、固件、硬件或其組合,并作為相應(yīng)設(shè)備中的一部分。上述裝置中各個組成模 塊、單元通過軟件、固件、硬件或其組合的方式進(jìn)行配置時可使用的具體手段或方式為本領(lǐng) 域技術(shù)人員所熟知,在此不再贅述。
[0116] 作為一個示例,在通過軟件或固件實(shí)現(xiàn)的情況下,可以從存儲介質(zhì)或網(wǎng)絡(luò)向具有 專用硬件結(jié)構(gòu)的計(jì)算機(jī)(例如圖11所示的通用計(jì)算機(jī)1100)安裝構(gòu)成該軟件的程序,該計(jì) 算機(jī)在安裝有各種程序時,能夠執(zhí)行各種功能等。
[0117] 在上面對本發(fā)明具體實(shí)施例的描述中,針對一種實(shí)施方式描述和/或示出的特征 可以以相同或類似的方式在一個或更多個其他實(shí)施方式中使用,與其他實(shí)施方式中的特征 相組合,或替代其他實(shí)施方式中的特征。
[0118] 應(yīng)該強(qiáng)調(diào),術(shù)語"包括/包含"在本文使用時指特征、要素、步驟或組件的存在,但 并不排除一個或更多個其他特征、要素、步驟或組件的存在或附加。
[0119] 此外,本發(fā)明的方法不限于按照說明書中描述的時間順序來執(zhí)行,也可以按照其 他的時間順序地、并行地或獨(dú)立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對本發(fā) 明的技術(shù)范圍構(gòu)成限制。
[0120] 本發(fā)明及其優(yōu)點(diǎn),但是應(yīng)當(dāng)理解在不超出由所附的權(quán)利要求所限定的本發(fā)明的精 神和范圍的情況下可以進(jìn)行各種改變、替代和變換。而且,本發(fā)明的范圍不僅限于說明書 所描述的過程、設(shè)備、手段、方法和步驟的具體實(shí)施例。本領(lǐng)域內(nèi)的普通技術(shù)人員