本發(fā)明涉及通信領(lǐng)域,更為具體而言,涉及對象處理方法及裝置。
背景技術(shù):
對象(例如,菜品)的標(biāo)簽是人工定義的有限集合,例如,【川菜】、【祛寒】等。利用標(biāo)簽標(biāo)注對象的技術(shù)是基于對象與標(biāo)簽之間的相似性來確定是否采用該標(biāo)簽來標(biāo)注所述對象。其中的關(guān)鍵技術(shù)是向量的相似度計(jì)算,即基于對象的向量與標(biāo)簽的向量之間的相似度來確定對象與標(biāo)簽之間的相似性。
然而,在現(xiàn)有技術(shù)當(dāng)中,標(biāo)簽的向量通常需要人為構(gòu)造,具體而言,需要人為地給標(biāo)簽確定若干個(gè)關(guān)鍵詞,并給每個(gè)關(guān)鍵詞人為地賦予權(quán)重weight_i,利用這些權(quán)重構(gòu)造出標(biāo)簽tag_i的向量vector_i=[weight_1,weight_2,weight_3,……weight_n],然而,這種人為構(gòu)造標(biāo)簽向量的方法受人為主觀因素的影響,導(dǎo)致其結(jié)果不穩(wěn)定。
技術(shù)實(shí)現(xiàn)要素:
為解決上述技術(shù)問題,本發(fā)明提供了對象處理方法及裝置。
一方面,本發(fā)明的實(shí)施方式提供了一種對象處理方法,所述方法包括:
獲取待標(biāo)注對象的向量;
根據(jù)所述向量與標(biāo)簽下種子對象向量的相似度判斷是否采用所述標(biāo)簽;
若判定為采用所述標(biāo)簽,則通過所述標(biāo)簽標(biāo)注所述待標(biāo)注對象。
在本發(fā)明的實(shí)施方式中,利用標(biāo)簽下的種子對象(具有代表性的典型對象)的向量(即種子對象向量)來取代標(biāo)簽自身的向量,與待標(biāo)注對象的向量進(jìn)行相似度計(jì)算,省去了對標(biāo)簽進(jìn)行向量構(gòu)造的過程,從而有效避免了上述人為構(gòu)造標(biāo)簽向量所帶來的問題。
在本發(fā)明的一些實(shí)施方式中,所述根據(jù)所述向量與標(biāo)簽下種子對象向量的相似度判斷是否采用所述標(biāo)簽包括:
根據(jù)所述相似度計(jì)算所述標(biāo)簽的相似性得分;
確定所述相似性得分的排序位次;
識別所述排序位次是否落入設(shè)定范圍;
若所述排序位次落入設(shè)定范圍,則判定為采用所述標(biāo)簽。
在本發(fā)明的實(shí)施方式中,只有當(dāng)標(biāo)簽的相似性得分的排序位次落入了預(yù)先設(shè)定的范圍時(shí),才判定為采用該標(biāo)簽對待標(biāo)注對象進(jìn)行標(biāo)注,例如,按照相似性得分從高到低的順序?qū)ο嗨菩缘梅诌M(jìn)行排序,只有當(dāng)標(biāo)簽的相似性得分在第1位到第5位之間時(shí),才判定為采用該標(biāo)簽;或者,按照相似性得分從低到高的順序?qū)ο嗨菩缘梅诌M(jìn)行排序,只有當(dāng)標(biāo)簽的相似性得分在最后1位到倒數(shù)第5位之間時(shí),才判定為采用該標(biāo)簽,由此可以提高利用標(biāo)簽標(biāo)注對象的準(zhǔn)確度。
在本發(fā)明的一些實(shí)施方式中,所述方法還包括:
構(gòu)建訓(xùn)練語料,所述訓(xùn)練語料用于獲取所述待標(biāo)注對象的向量。
為了進(jìn)一步提高標(biāo)簽標(biāo)注的準(zhǔn)確度,在本發(fā)明的一些實(shí)施方式中,所述方法還包括:
對所述訓(xùn)練語料執(zhí)行降噪處理。
其中,在本發(fā)明的一些實(shí)施方式中,所述對所述訓(xùn)練語料執(zhí)行降噪處理包括:
對所述訓(xùn)練語料中的對象表征文本執(zhí)行清洗處理;
識別清洗后的對象表征文本是否為噪聲數(shù)據(jù);
若所述清洗后的對象表征文本為噪聲數(shù)據(jù),則將所述清洗后的對象表征文本從所述訓(xùn)練語料中去除。
另一方面,本發(fā)明的實(shí)施方式提供了一種對象處理裝置,所述裝置包括:
獲取模塊,用于獲取待標(biāo)注對象的向量;
判斷模塊,用于根據(jù)所述向量與標(biāo)簽下種子對象向量的相似度判斷是否采用所述標(biāo)簽;
標(biāo)注模塊,用于在判定為采用所述標(biāo)簽的情形下,通過所述標(biāo)簽標(biāo)注所述待標(biāo)注對象。
在本發(fā)明的實(shí)施方式中,利用標(biāo)簽下的種子對象(具有代表性的典型對象)的向量(即種子對象向量)來取代標(biāo)簽自身的向量,與待標(biāo)注對象的向量進(jìn)行相似度計(jì)算,省去了對標(biāo)簽進(jìn)行向量構(gòu)造的過程,從而有效避免了上述人為構(gòu)造標(biāo)簽向量所帶來的問題。
在本發(fā)明的一些實(shí)施方式中,所述判斷模塊包括:
計(jì)算單元,用于根據(jù)所述相似度計(jì)算所述標(biāo)簽的相似性得分;
確定單元,用于確定所述相似性得分的排序位次;
第一識別單元,用于識別所述排序位次是否落入設(shè)定范圍;
判定單元,用于在所述排序位次落入設(shè)定范圍的情形下,判定為采用所述標(biāo)簽。
在本發(fā)明的實(shí)施方式中,只有當(dāng)標(biāo)簽的相似性得分的排序位次落入了預(yù)先設(shè)定的范圍時(shí),才判定為采用該標(biāo)簽對待標(biāo)注對象進(jìn)行標(biāo)注,例如,按照相似性得分從高到低的順序?qū)ο嗨菩缘梅诌M(jìn)行排序,只有當(dāng)標(biāo)簽的相似性得分在第1位到第5位之間時(shí),才判定為采用該標(biāo)簽;或者,按照相似性得分從低到高的順序?qū)ο嗨菩缘梅诌M(jìn)行排序,只有當(dāng)標(biāo)簽的相似性得分在最后1位到倒數(shù)第5位之間時(shí),才判定為采用該標(biāo)簽,由此可以提高利用標(biāo)簽標(biāo)注對象的準(zhǔn)確度。
在本發(fā)明的一些實(shí)施方式中,所述裝置還包括:
構(gòu)建模塊,用于構(gòu)建訓(xùn)練語料,所述訓(xùn)練語料用于獲取所述待標(biāo)注對象的向量。
為了進(jìn)一步提高標(biāo)簽標(biāo)注的準(zhǔn)確度,在本發(fā)明的一些實(shí)施方式中,所述裝置還包括:
降噪模塊,用于對所述訓(xùn)練語料執(zhí)行降噪處理。
其中,在本發(fā)明的一些實(shí)施方式中,所述降噪模塊包括:
清洗單元,用于對所述訓(xùn)練語料中的對象表征文本執(zhí)行清洗處理;
第二識別單元,用于識別清洗后的對象表征文本是否為噪聲數(shù)據(jù);
去除單元,用于在所述清洗后的對象表征文本為噪聲數(shù)據(jù)的情形下,將所述清洗后的對象表征文本從所述訓(xùn)練語料中去除。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是根據(jù)本發(fā)明方法實(shí)施方式1的對象處理方法的流程圖;
圖2示出了圖1所示的處理s12的一種實(shí)施方式;
圖3是根據(jù)本發(fā)明方法實(shí)施方式7的對象處理方法的流程圖;
圖4是根據(jù)本發(fā)明方法實(shí)施方式9的對象處理方法的流程圖;
圖5示出了圖4所示的處理s32的一種實(shí)施方式;
圖6是根據(jù)本發(fā)明裝置實(shí)施方式1的對象處理裝置的結(jié)構(gòu)示意圖;
圖7示出了圖6所示的判斷模塊12的一種實(shí)施方式。
具體實(shí)施方式
以下結(jié)合附圖和具體實(shí)施方式對本發(fā)明的各個(gè)方面進(jìn)行詳細(xì)闡述。其中,在本發(fā)明的各個(gè)具體實(shí)施方式中,眾所周知的模塊、單元及其相互之間的連接、鏈接、通信或操作沒有示出或未作詳細(xì)說明。
并且,所描述的特征、架構(gòu)或功能可在一個(gè)或一個(gè)以上實(shí)施例中以任何方式組合。
此外,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,下述的各種實(shí)施方式只用于舉例說明,而非用于限制本發(fā)明的保護(hù)范圍。本領(lǐng)域的技術(shù)人員還可以容易理解,本文所述和附圖所示的各實(shí)施方式中的模塊或單元或步驟可以按多種不同配置進(jìn)行組合和設(shè)計(jì)。
對于未在本說明書中進(jìn)行具體說明的技術(shù)術(shù)語,除非另有特定說明,都應(yīng)以本領(lǐng)域最寬泛的意思進(jìn)行解釋。
【方法實(shí)施方式1】
圖1是根據(jù)本發(fā)明方法實(shí)施方式1的對象處理方法的流程圖。參見圖1,在本實(shí)施方式中,所述方法包括:
s11:獲取待標(biāo)注對象的向量。
s12:根據(jù)所述向量與標(biāo)簽下種子對象向量的相似度判斷是否采用所述標(biāo)簽。若是,則執(zhí)行s13,若否,則執(zhí)行s14。
s13:通過所述標(biāo)簽標(biāo)注所述待標(biāo)注對象。
s14:結(jié)束當(dāng)前流程。
在本發(fā)明的實(shí)施方式中,利用標(biāo)簽下的種子對象(具有代表性的典型對象)的向量(即種子對象向量)來取代標(biāo)簽自身的向量,與待標(biāo)注對象的向量進(jìn)行相似度計(jì)算,省去了對標(biāo)簽進(jìn)行向量構(gòu)造的過程,從而有效避免了上述人為構(gòu)造標(biāo)簽向量所帶來的問題。
【方法實(shí)施方式2】
本實(shí)施方式所提供的方法包括了方法實(shí)施方式1中的全部內(nèi)容,在此不再贅述。其中,在本實(shí)施方式中,處理s11可以通過下述方式實(shí)現(xiàn):利用神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練出待標(biāo)注對象的向量。
【方法實(shí)施方式3】
本實(shí)施方式所提供的方法包括了方法實(shí)施方式1中的全部內(nèi)容,在此不再贅述。其中,在本實(shí)施方式中,所述種子對象包括:所述標(biāo)簽下置信度大于或等于設(shè)定閾值的已標(biāo)注對象。
在本發(fā)明的實(shí)施方式中,以置信度大于或者等于設(shè)定閾值的已標(biāo)注對象作為相應(yīng)標(biāo)簽下的種子對象,來代表該標(biāo)簽與待標(biāo)注對象進(jìn)行相似度計(jì)算,可以提高該相似度計(jì)算的準(zhǔn)確度。
【方法實(shí)施方式4】
本實(shí)施方式所提供的方法包括了方法實(shí)施方式1中的全部內(nèi)容,在此不再贅述。其中,在本實(shí)施方式中,所述相似度基于所述待標(biāo)注對象的向量與所述種子對象向量的夾角的余弦值計(jì)算得出。
【方法實(shí)施方式5】
本實(shí)施方式所提供的方法包括了方法實(shí)施方式1中的全部內(nèi)容,在此不再贅述。其中,如圖2所示,在本實(shí)施方式中,處理s12通過下述處理實(shí)現(xiàn):
s121:根據(jù)所述相似度計(jì)算所述標(biāo)簽的相似性得分。
其中,基于下述公式計(jì)算所述相似性得分:
score_i表示:標(biāo)簽i的相似性得分。
cos(待標(biāo)注對象,標(biāo)簽i下的每一個(gè)種子對象)表示:待標(biāo)注對象的向量與標(biāo)簽i下的每一個(gè)種子對象的向量的夾角的余弦值,即待標(biāo)注對象的向量與標(biāo)簽i下每一個(gè)種子對象的向量之間的相似度。
s122:確定所述相似性得分的排序位次。
s123:識別所述排序位次是否落入設(shè)定范圍,若是,則執(zhí)行s124,若否,則執(zhí)行s125。
s124:判定為采用所述標(biāo)簽。
s125:判定為不采用所述標(biāo)簽。
在本發(fā)明的實(shí)施方式中,只有當(dāng)標(biāo)簽的相似性得分的排序位次落入了預(yù)先設(shè)定的范圍時(shí),才判定為采用該標(biāo)簽對待標(biāo)注對象進(jìn)行標(biāo)注,例如,按照相似性得分從高到低的順序?qū)ο嗨菩缘梅诌M(jìn)行排序,只有當(dāng)標(biāo)簽的相似性得分在第1位到第5位之間時(shí),才判定為采用該標(biāo)簽;或者,按照相似性得分從低到高的順序?qū)ο嗨菩缘梅诌M(jìn)行排序,只有當(dāng)標(biāo)簽的相似性得分在最后1位到倒數(shù)第5位之間時(shí),才判定為采用該標(biāo)簽,由此可以提高利用標(biāo)簽標(biāo)注對象的準(zhǔn)確度。
【方法實(shí)施方式6】
本實(shí)施方式所提供的方法包括了方法實(shí)施方式2中的全部內(nèi)容,在此不再贅述。其中,在本實(shí)施方式中,所述神經(jīng)網(wǎng)絡(luò)模型包括:word2vec(詞向量訓(xùn)練模型)。
自然語言處理(nlp)相關(guān)任務(wù)中,要將自然語言交給機(jī)器學(xué)習(xí)中的算法來處理,通常需要首先將語言數(shù)學(xué)化,因?yàn)闄C(jī)器不是人,機(jī)器只認(rèn)數(shù)學(xué)符號。向量是人把自然界的東西抽象出來交給機(jī)器處理的東西,基本上可以說向量是人對機(jī)器輸入的主要方式。
傳統(tǒng)的中文文本的向量表示采用下述方式實(shí)現(xiàn):
設(shè)定該中文文本為doc_i,該中文文本doc_i中的所有詞匯集合是個(gè)有限的集合s,其中,term_x表示集合中第x個(gè)元素,集合s的大小為m。對doc_i進(jìn)行中文分詞并去除停詞(例如,【的】【地】【得】這樣的詞)之后,剩余的n個(gè)詞匯組成的集合為s的子集,且n小于等于m。
設(shè)定每個(gè)剩余詞匯的出現(xiàn)次數(shù)為:n_1,n_2,n_3,…,n_n。則可以用一個(gè)m維的向量來表示這個(gè)中文文本doc_i。即在子集中出現(xiàn)的詞匯term_j,在m維向量的對應(yīng)位置上為n_j,在子集中未出現(xiàn)的詞匯,在m維向量的對應(yīng)位置上為0。對k位置的出現(xiàn)次數(shù)用dweight_k進(jìn)行表示。
這樣,中文文本doc_i可以被表示成一個(gè)固定維度的向量:vector_i=[dweight_1,dweight_2,…dweight_k,…dweight_m]
然而,以菜品對象為例,一般菜品對象的對象表征文本(即用于對對象進(jìn)行表征的文本,例如,菜品名稱)在10個(gè)字以內(nèi),然而,針對這樣的短文本,通過上述方式得到的向量會(huì)非常稀疏,最終導(dǎo)致利用標(biāo)簽標(biāo)注對象的準(zhǔn)確度極低。
在本實(shí)施方式中,通過word2vec模型來訓(xùn)練待標(biāo)注的對象的向量。
word2vec是google在2013年年中開源的一款將詞表征為實(shí)數(shù)值向量的高效工具,其利用深度學(xué)習(xí)的思想,可以通過訓(xùn)練,把對文本內(nèi)容的處理簡化為k維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來表示文本語義上的相似度。word2vec輸出的詞向量可以被用來做很多nlp相關(guān)的工作,比如聚類、找同義詞、詞性分析等等。如果換個(gè)思路,把詞當(dāng)作特征,那么word2vec就可以把特征映射到k維向量空間,可以為文本數(shù)據(jù)尋求更加深層次的特征表示。
word2vec使用的是distributedrepresentation(分布式表示)的詞向量表示方式。distributedrepresentation最早由hinton在1986年提出。其基本思想是通過訓(xùn)練將每個(gè)詞映射成k維實(shí)數(shù)向量(k一般為模型中的超參數(shù)),通過詞之間的距離(比如cosine相似度、歐氏距離等)來判斷它們之間的語義相似度。其采用一個(gè)三層的神經(jīng)網(wǎng)絡(luò),輸入層-隱藏層-輸出層。這個(gè)三層神經(jīng)網(wǎng)絡(luò)本身是對語言模型進(jìn)行建模,但也同時(shí)獲得一種單詞在向量空間上的表示,而這個(gè)副作用才是word2vec的真正目標(biāo)。
采用word2vec模型來訓(xùn)練待標(biāo)注的對象的向量,無需對文本進(jìn)行分詞,因此,針對短文本而言可以更加合理、有效、準(zhǔn)確地生成向量,提高標(biāo)簽標(biāo)注的準(zhǔn)確度。
其中,在本發(fā)明的一些實(shí)施方式中,所述word2vec模型包括下述之一:cbow(continuousbag-of-words,連續(xù)詞袋)模型以及skip-gram(跳元)模型。
【方法實(shí)施方式7】
圖3是根據(jù)本發(fā)明方法實(shí)施方式7的對象處理方法的流程圖。參見圖3,所述方法包括:
s21:構(gòu)建訓(xùn)練語料。
其中,所述訓(xùn)練語料包括:包含待標(biāo)注對象在內(nèi)的多個(gè)對象的對象表征文本。
s22:利用word2vec模型通過所述訓(xùn)練語料訓(xùn)練出待標(biāo)注對象的向量。
s23:根據(jù)所述向量與標(biāo)簽下種子對象向量的相似度判斷是否采用所述標(biāo)簽。若是,則執(zhí)行s24,若否,則執(zhí)行s25。
s24:通過所述標(biāo)簽標(biāo)注所述待標(biāo)注對象。
s25:結(jié)束當(dāng)前流程。
【方法實(shí)施方式8】
本實(shí)施方式所提供的方法包括了方法實(shí)施方式7中的全部內(nèi)容,在此不再贅述。其中,在本實(shí)施方式中,處理s21通過下述方式實(shí)現(xiàn):基于對象的分類信息構(gòu)建所述訓(xùn)練語料。
由于在本發(fā)明的實(shí)施方式中,所述訓(xùn)練語料基于對象的分類信息構(gòu)建而成,因此,可以提高所述訓(xùn)練語料中各對象表征文本所表征的對象之間的相關(guān)性,進(jìn)而可以更加準(zhǔn)確地訓(xùn)練出對象的向量。
【方法實(shí)施方式9】
圖4是根據(jù)本發(fā)明方法實(shí)施方式9的對象處理方法的流程圖。參見圖4,所述方法包括:
s31:構(gòu)建訓(xùn)練語料。
其中,所述訓(xùn)練語料包括:包含待標(biāo)注對象在內(nèi)的多個(gè)對象的對象表征文本。
s32:對所述訓(xùn)練語料執(zhí)行降噪處理。
s33:利用word2vec模型通過經(jīng)所述降噪處理后的訓(xùn)練語料訓(xùn)練出待標(biāo)注對象的向量。
s34:根據(jù)所述向量與標(biāo)簽下種子對象向量的相似度判斷是否采用所述標(biāo)簽。若是,則執(zhí)行s35,若否,則執(zhí)行s36。
s35:通過所述標(biāo)簽標(biāo)注所述待標(biāo)注對象。
s36:結(jié)束當(dāng)前流程。
【方法實(shí)施方式10】
本實(shí)施方式所提供的方法包括了方法實(shí)施方式9中的全部內(nèi)容,在此不再贅述。其中,如圖5所示,在本實(shí)施方式中,處理s32通過下述處理實(shí)現(xiàn):
s321:從所述訓(xùn)練語料中選取一個(gè)未被選取過的對象表征文本。
s322:對選取出的對象表征文本執(zhí)行清洗處理。
s323:識別清洗后的對象表征文本是否為噪聲數(shù)據(jù),若是,則執(zhí)行s324,若否,則執(zhí)行s325。
s324:將該清洗后的對象表征文本從所述訓(xùn)練語料中去除。
s325:識別所述訓(xùn)練語料中是否存在未被選取過的對象表征文本,若是,則返回執(zhí)行s321,若否,則執(zhí)行s326。
s326:結(jié)束當(dāng)前流程。
其中,在本發(fā)明的一些實(shí)施方式中,所述清洗處理包括:清洗標(biāo)點(diǎn)符號和/或清洗描述性信息。
其中,所述描述性信息例如包括:單位、括號內(nèi)容、描述前綴等。
【方法實(shí)施方式11】
本實(shí)施方式以待標(biāo)注對象為菜品對象為例,對本實(shí)施方式所提供的對象處理方法的進(jìn)行描述。所述方法包括下述處理:
step1:數(shù)據(jù)預(yù)處理。
為了提升最終結(jié)果的準(zhǔn)確率,首先對全量的菜品庫中的菜品名稱做清洗處理。
清洗的規(guī)則為:去除中文標(biāo)點(diǎn)符號;去除括號及括號內(nèi)容;去除單位;去除描述前綴。
例如,【德州扒雞】與【德州扒雞半只】是相同的菜品,把第二個(gè)菜品名稱去除【半只】。
step2:構(gòu)建訓(xùn)練語料。
在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,需要輸入若干個(gè)由詞組成的序列作為訓(xùn)練語料。在這一處理中,本發(fā)明創(chuàng)新地利用菜品的分類信息,作為訓(xùn)練語料構(gòu)建的依據(jù)。具體而言,本實(shí)施方式中將全量的菜品庫中同一類別下清洗過的菜品名稱作為一個(gè)序列。這樣以來,每個(gè)序列中各詞之間的關(guān)系比較密切。不同類別組成不同的序列作為神經(jīng)網(wǎng)絡(luò)的輸入。
節(jié)選示例如下:
...
布丁巖鹽芝士紅豆oreoq果珍珠小芋圓
珍珠茶拿鐵布丁茶拿鐵紅豆茶拿鐵紅茶拿鐵珍珠茶拿鐵紅豆茶拿鐵布丁茶拿鐵紅茶拿鐵
布丁可可雙柚q果風(fēng)味綠茶芒橙q果風(fēng)味紅茶菠蘿q果風(fēng)味紅茶芒橙q果風(fēng)味綠茶
原味奶茶原味奶茶珍珠奶茶珍珠奶茶大滿貫布丁奶茶大滿貫布丁奶茶oreo曲奇奶茶
...
step3:去掉訓(xùn)練語料中的噪聲數(shù)據(jù)。
step4:訓(xùn)練菜品名稱的向量。
選擇淺層神經(jīng)網(wǎng)絡(luò)中的cbow模型進(jìn)行訓(xùn)練,其中,共現(xiàn)窗口的大小設(shè)置為8,輸出向量維度設(shè)置為20。當(dāng)然,本發(fā)明的實(shí)施方式不限于此,本領(lǐng)域的技術(shù)人員可以根據(jù)實(shí)際需要對共現(xiàn)窗口的大小以及向量維度進(jìn)行其他合理設(shè)置。最終通過所述cbow模型為訓(xùn)練語料中的每一個(gè)菜品名稱訓(xùn)練出一個(gè)20維的向量。節(jié)選示例如下:
...
雪碧-->[2.990189,2.454690,...1.845449]
魚香肉絲-->[-1.587564,-2.352610,...-1.935643]
酸辣土豆絲-->[-0.376799,0.052792,...-3.941500]
...
step5:菜品自動(dòng)標(biāo)簽。
在這一處理中,本發(fā)明采取了種子詞擴(kuò)展的方法。相當(dāng)于在每個(gè)標(biāo)簽下找?guī)讉€(gè)典型的菜品作為種子菜品,利用種子菜品自動(dòng)擴(kuò)展出同標(biāo)簽下其他的菜品。種子菜品的構(gòu)建比較簡單,只要在每個(gè)標(biāo)簽下選取若干個(gè)置信度大于或者等于設(shè)定閾值的菜品即可。節(jié)選示例如下:
對于需要標(biāo)注的菜品,計(jì)算其與標(biāo)簽i下的每一個(gè)種子菜品的相似度,以這些相似度的平均值作為標(biāo)簽i的相似性得分,然后,確定標(biāo)簽i的相似性得分score_i的排序位次,若score_i的排序位次落入設(shè)定范圍內(nèi),則將該標(biāo)簽i作為所述需要標(biāo)注的菜品的標(biāo)簽。
【裝置實(shí)施方式1】
圖6是根據(jù)本發(fā)明裝置實(shí)施方式1的對象處理裝置的結(jié)構(gòu)示意圖。參見圖6,裝置1包括:獲取模塊11、判斷模塊12、以及標(biāo)注模塊13,具體地:
獲取模塊11用于獲取待標(biāo)注對象的向量。
判斷模塊12用于根據(jù)獲取模塊11獲取的向量與標(biāo)簽下種子對象向量的相似度判斷是否采用所述標(biāo)簽。
標(biāo)注模塊13用于在判斷模塊12判定為采用所述標(biāo)簽的情形下,通過所述標(biāo)簽標(biāo)注所述待標(biāo)注對象。
在本發(fā)明的實(shí)施方式中,利用標(biāo)簽下的種子對象(具有代表性的典型對象)的向量(即種子對象向量)來取代標(biāo)簽自身的向量,與待標(biāo)注對象的向量進(jìn)行相似度計(jì)算,省去了對標(biāo)簽進(jìn)行向量構(gòu)造的過程,從而有效避免了上述人為構(gòu)造標(biāo)簽向量所帶來的問題。
【裝置實(shí)施方式2】
本實(shí)施方式所提供的裝置包括了裝置實(shí)施方式1中的全部內(nèi)容,在此不再贅述。其中,在本實(shí)施方式中,獲取模塊11包括:訓(xùn)練單元,該訓(xùn)練單元用于利用神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練出待標(biāo)注對象的向量。
【裝置實(shí)施方式3】
本實(shí)施方式所提供的裝置包括了裝置實(shí)施方式1中的全部內(nèi)容,在此不再贅述。其中,在本實(shí)施方式中,所述種子對象包括:所述標(biāo)簽下置信度大于或等于設(shè)定閾值的已標(biāo)注對象。
在本發(fā)明的實(shí)施方式中,以置信度大于或者等于設(shè)定閾值的已標(biāo)注對象作為相應(yīng)標(biāo)簽下的種子對象,來代表該標(biāo)簽與待標(biāo)注對象進(jìn)行相似度計(jì)算,可以提高該相似度計(jì)算的準(zhǔn)確度。
【裝置實(shí)施方式4】
本實(shí)施方式所提供的裝置包括了裝置實(shí)施方式1中的全部內(nèi)容,在此不再贅述。其中,在本實(shí)施方式中,所述相似度基于所述待標(biāo)注對象的向量與所述種子對象向量的夾角的余弦值計(jì)算得出。
【裝置實(shí)施方式5】
本實(shí)施方式所提供的裝置包括了裝置實(shí)施方式1中的全部內(nèi)容,在此不再贅述。其中,如圖7所示,在本實(shí)施方式中,判斷模塊12包括:計(jì)算單元121、確定單元122、第一識別單元123、以及判定單元124,具體地:
計(jì)算單元121用于根據(jù)所述相似度計(jì)算所述標(biāo)簽的相似性得分。
確定單元122用于確定計(jì)算單元121計(jì)算的相似性得分的排序位次。
第一識別單元123用于識別確定單元122確定的排序位次是否落入設(shè)定范圍。
判定單元124用于在第一識別單元123識別出排序位次落入設(shè)定范圍的情形下,判定為采用所述標(biāo)簽。
在本發(fā)明的實(shí)施方式中,只有當(dāng)標(biāo)簽的相似性得分的排序位次落入了預(yù)先設(shè)定的范圍時(shí),才判定為采用該標(biāo)簽對待標(biāo)注對象進(jìn)行標(biāo)注,例如,按照相似性得分從高到低的順序?qū)ο嗨菩缘梅诌M(jìn)行排序,只有當(dāng)標(biāo)簽的相似性得分在第1位到第5位之間時(shí),才判定為采用該標(biāo)簽;或者,按照相似性得分從低到高的順序?qū)ο嗨菩缘梅诌M(jìn)行排序,只有當(dāng)標(biāo)簽的相似性得分在最后1位到倒數(shù)第5位之間時(shí),才判定為采用該標(biāo)簽,由此可以提高利用標(biāo)簽標(biāo)注對象的準(zhǔn)確度。
【裝置實(shí)施方式6】
本實(shí)施方式所提供的裝置包括了裝置實(shí)施方式2中的全部內(nèi)容,在此不再贅述。其中,在本實(shí)施方式中,所述神經(jīng)網(wǎng)絡(luò)模型包括:word2vec模型。
自然語言處理(nlp)相關(guān)任務(wù)中,要將自然語言交給機(jī)器學(xué)習(xí)中的算法來處理,通常需要首先將語言數(shù)學(xué)化,因?yàn)闄C(jī)器不是人,機(jī)器只認(rèn)數(shù)學(xué)符號。向量是人把自然界的東西抽象出來交給機(jī)器處理的東西,基本上可以說向量是人對機(jī)器輸入的主要方式。
傳統(tǒng)的中文文本的向量表示采用下述方式實(shí)現(xiàn):
設(shè)定該中文文本為doc_i,該中文文本doc_i中的所有詞匯集合是個(gè)有限的集合s,其中,term_x表示集合中第x個(gè)元素,集合s的大小為m。對doc_i進(jìn)行中文分詞并去除停詞(例如,【的】【地】【得】這樣的詞)之后,剩余的n個(gè)詞匯組成的集合為s的子集,且n小于等于m。
設(shè)定每個(gè)剩余詞匯的出現(xiàn)次數(shù)為:n_1,n_2,n_3,…,n_n。則可以用一個(gè)m維的向量來表示這個(gè)中文文本doc_i。即在子集中出現(xiàn)的詞匯term_j,在m維向量的對應(yīng)位置上為n_j,在子集中未出現(xiàn)的詞匯,在m維向量的對應(yīng)位置上為0。對k位置的出現(xiàn)次數(shù)用dweight_k進(jìn)行表示。
這樣,中文文本doc_i可以被表示成一個(gè)固定維度的向量:vector_i=[dweight_1,dweight_2,…dweight_k,…dweight_m]
然而,以菜品對象為例,一般菜品對象的對象表征文本(即用于對對象進(jìn)行表征的文本,例如,菜品名稱)在10個(gè)字以內(nèi),然而,針對這樣的短文本,通過上述方式得到的向量會(huì)非常稀疏,最終導(dǎo)致利用標(biāo)簽標(biāo)注對象的準(zhǔn)確度極低。
在本實(shí)施方式中,通過word2vec模型來訓(xùn)練待標(biāo)注的對象的向量。
word2vec是google在2013年年中開源的一款將詞表征為實(shí)數(shù)值向量的高效工具,其利用深度學(xué)習(xí)的思想,可以通過訓(xùn)練,把對文本內(nèi)容的處理簡化為k維向量空間中的向量運(yùn)算,而向量空間上的相似度可以用來表示文本語義上的相似度。word2vec輸出的詞向量可以被用來做很多nlp相關(guān)的工作,比如聚類、找同義詞、詞性分析等等。如果換個(gè)思路,把詞當(dāng)作特征,那么word2vec就可以把特征映射到k維向量空間,可以為文本數(shù)據(jù)尋求更加深層次的特征表示。
word2vec使用的是distributedrepresentation(分布式表示)的詞向量表示方式。distributedrepresentation最早由hinton在1986年提出。其基本思想是通過訓(xùn)練將每個(gè)詞映射成k維實(shí)數(shù)向量(k一般為模型中的超參數(shù)),通過詞之間的距離(比如cosine相似度、歐氏距離等)來判斷它們之間的語義相似度。其采用一個(gè)三層的神經(jīng)網(wǎng)絡(luò),輸入層-隱藏層-輸出層。這個(gè)三層神經(jīng)網(wǎng)絡(luò)本身是對語言模型進(jìn)行建模,但也同時(shí)獲得一種單詞在向量空間上的表示,而這個(gè)副作用才是word2vec的真正目標(biāo)。
采用word2vec模型來訓(xùn)練待標(biāo)注的對象的向量,無需對文本進(jìn)行分詞,因此,針對短文本而言可以更加合理、有效、準(zhǔn)確地生成向量,提高標(biāo)簽標(biāo)注的準(zhǔn)確度。
其中,在本發(fā)明的一些實(shí)施方式中,所述word2vec模型包括下述之一:cbow模型以及skip-gram模型。
【裝置實(shí)施方式7】
本實(shí)施方式所提供的裝置包括了裝置實(shí)施方式1中的全部內(nèi)容,在此不再贅述。其中,本實(shí)施方式所提供的裝置還包括構(gòu)建模塊,具體地:
所述構(gòu)建模塊用于構(gòu)建訓(xùn)練語料,所述訓(xùn)練語料用于獲取所述待標(biāo)注對象的向量。
【裝置實(shí)施方式8】
本實(shí)施方式所提供的裝置包括了裝置實(shí)施方式7中的全部內(nèi)容,在此不再贅述。其中,在本實(shí)施方式中,所述構(gòu)建模塊包括構(gòu)建單元,具體地,所述構(gòu)建單元用于基于對象的分類信息構(gòu)建所述訓(xùn)練語料。
由于在本發(fā)明的實(shí)施方式中,所述訓(xùn)練語料基于對象的分類信息構(gòu)建而成,因此,可以提高所述訓(xùn)練語料中各對象表征文本所表征的對象之間的相關(guān)性,進(jìn)而可以更加準(zhǔn)確地訓(xùn)練出對象的向量。
【裝置實(shí)施方式9】
本實(shí)施方式所提供的裝置包括了裝置實(shí)施方式7中的全部內(nèi)容,在此不再贅述。其中,本實(shí)施方式所提供的裝置還包括:降噪模塊,具體地:
所述降噪模塊用于對所述訓(xùn)練語料執(zhí)行降噪處理。
由此,可以進(jìn)一步提高標(biāo)簽標(biāo)注的準(zhǔn)確度。
【裝置實(shí)施方式10】
本實(shí)施方式所提供的裝置包括了裝置實(shí)施方式9中的全部內(nèi)容,在此不再贅述。其中,在本實(shí)施方式中,所述降噪模塊包括:清洗單元、第二識別單元、以及去除單元,具體地:
所述清洗單元用于對所述訓(xùn)練語料中的對象表征文本執(zhí)行清洗處理。
所述第二識別單元用于識別清洗單元清洗后的對象表征文本是否為噪聲數(shù)據(jù)。
去除單元用于在第二識別單元識別出所述清洗后的對象表征文本為噪聲數(shù)據(jù)的情形下,將所述清洗后的對象表征文本從所述訓(xùn)練語料中去除。
其中,在本發(fā)明的一些實(shí)施方式中,所述清洗處理包括:清洗標(biāo)點(diǎn)符號和/或清洗描述性信息。
其中,所述描述性信息例如包括:單位、括號內(nèi)容、描述前綴等。
本發(fā)明的實(shí)施方式提供了一種移動(dòng)終端,包括存儲器和處理器;其中,
所述存儲器用于存儲一條或多條計(jì)算機(jī)指令,其中,所述一條或多條計(jì)算機(jī)指令供所述處理器調(diào)用執(zhí)行;
所述處理器用于進(jìn)行如方法實(shí)施方式1至方法實(shí)施方式11中任意一項(xiàng)所述的操作。
此外,本發(fā)明的實(shí)施方式還提供一種計(jì)算機(jī)存儲介質(zhì),所述計(jì)算機(jī)存儲介質(zhì)存儲有一條或多條計(jì)算機(jī)指令,當(dāng)所述一條或多條計(jì)算機(jī)指令被一個(gè)或多個(gè)設(shè)備執(zhí)行時(shí),使得所述設(shè)備執(zhí)行方法實(shí)施方式1至方法實(shí)施方式11中任意一項(xiàng)所述的操作。
本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可全部通過軟件實(shí)現(xiàn),也可借助軟件結(jié)合硬件平臺的方式來實(shí)現(xiàn)?;谶@樣的理解,本發(fā)明的技術(shù)方案對背景技術(shù)做出貢獻(xiàn)的全部或者部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,所述計(jì)算機(jī)軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如rom/ram、磁碟、光盤等,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,智能手機(jī)或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施方式或者實(shí)施方式的某些部分所述的方法。
本文中所使用的“軟件”等詞均指一般意義上的任意類型的計(jì)算機(jī)編碼或者計(jì)算機(jī)可執(zhí)行指令集,可以運(yùn)行所述編碼或者指令集來使計(jì)算機(jī)或其他處理器程序化以執(zhí)行如上所述的本發(fā)明的技術(shù)方案的各個(gè)方面。此外,需要說明的是,根據(jù)實(shí)施方式的一個(gè)方面,在執(zhí)行時(shí)實(shí)施本發(fā)明的技術(shù)方案的方法的一個(gè)或多個(gè)計(jì)算機(jī)程序不必須要在一臺計(jì)算機(jī)或處理器上,而是可以分布于多個(gè)計(jì)算機(jī)或者處理器中的模塊中,以執(zhí)行本發(fā)明的技術(shù)方案的各個(gè)方面。
計(jì)算機(jī)可執(zhí)行指令可以有許多形式,如程序模塊,可以由一臺或多臺計(jì)算機(jī)或是其他設(shè)備執(zhí)行。一般地,程序模塊包括例程、程序、對象、組件以及數(shù)據(jù)結(jié)構(gòu)等等,執(zhí)行特定的任務(wù)或是實(shí)施特定的抽象數(shù)據(jù)類型。特別地,在各種實(shí)施方式中,程序模塊的功能可以根據(jù)各個(gè)不同實(shí)施方式的需要進(jìn)行結(jié)合或者拆分。
并且,本發(fā)明的技術(shù)方案可以體現(xiàn)為一種方法,并且已經(jīng)提供了所述方法的至少一個(gè)示例??梢酝ㄟ^任何一種合適的順序執(zhí)行動(dòng)作,所述動(dòng)作表現(xiàn)為所述方法中的一部分。因此,實(shí)施方式可以構(gòu)造成可以按照與所示出的執(zhí)行順序不同的順序執(zhí)行動(dòng)作,其中,可以包括同時(shí)地執(zhí)行一些動(dòng)作(盡管在示出的實(shí)施方式中,這些動(dòng)作是連續(xù)的)。
本文所給出的和使用的定義,應(yīng)當(dāng)對照字典、通過引用而并入的文檔中的定義、和/或其通常意思進(jìn)行理解。
在權(quán)利要求書中以及上述的說明書中,所有的過度短語,例如“包括”、“具有”、“包含”、“承載”、“具有”、“涉及”、“主要由…組成”以及類似詞語是應(yīng)理解為是開放式的,即,包含但不限于。只有“由……組成”應(yīng)該是封閉或半封閉的過度短語。
本發(fā)明說明書中使用的術(shù)語和措辭僅僅為了舉例說明,并不意味構(gòu)成限定。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,在不脫離所公開的實(shí)施方式的基本原理的前提下,對上述實(shí)施方式中的各細(xì)節(jié)可進(jìn)行各種變化。因此,本發(fā)明的范圍只由權(quán)利要求確定,在權(quán)利要求中,除非另有說明,所有的術(shù)語應(yīng)按最寬泛合理的意思進(jìn)行理解。
本發(fā)明公開a1、一種對象處理方法,包括:
獲取待標(biāo)注對象的向量;
根據(jù)所述向量與標(biāo)簽下種子對象向量的相似度判斷是否采用所述標(biāo)簽;
若判定為采用所述標(biāo)簽,則通過所述標(biāo)簽標(biāo)注所述待標(biāo)注對象。
a2、如a1所述的方法中,所述根據(jù)所述向量與標(biāo)簽下種子對象向量的相似度判斷是否采用所述標(biāo)簽包括:
根據(jù)所述相似度計(jì)算所述標(biāo)簽的相似性得分;
確定所述相似性得分的排序位次;
識別所述排序位次是否落入設(shè)定范圍;
若所述排序位次落入設(shè)定范圍,則判定為采用所述標(biāo)簽。
a3、如a1或a2所述的方法,還包括:
構(gòu)建訓(xùn)練語料,所述訓(xùn)練語料用于獲取所述待標(biāo)注對象的向量。
a4、如a3所述的方法中,所述構(gòu)建訓(xùn)練語料包括:
基于對象的分類信息構(gòu)建所述訓(xùn)練語料。
a5、如a3所述的方法,還包括:
對所述訓(xùn)練語料執(zhí)行降噪處理。
a6、如a5所述的方法中,所述對所述訓(xùn)練語料執(zhí)行降噪處理包括:
對所述訓(xùn)練語料中的對象表征文本執(zhí)行清洗處理;
識別清洗后的對象表征文本是否為噪聲數(shù)據(jù);
若所述清洗后的對象表征文本為噪聲數(shù)據(jù),則將所述清洗后的對象表征文本從所述訓(xùn)練語料中去除。
本發(fā)明還公開了b7、一種對象處理裝置,包括:
獲取模塊,用于獲取待標(biāo)注對象的向量;
判斷模塊,用于根據(jù)所述向量與標(biāo)簽下種子對象向量的相似度判斷是否采用所述標(biāo)簽;
標(biāo)注模塊,用于在判定為采用所述標(biāo)簽的情形下,通過所述標(biāo)簽標(biāo)注所述待標(biāo)注對象。
b8、如b7所述的裝置中,所述判斷模塊包括:
計(jì)算單元,用于根據(jù)所述相似度計(jì)算所述標(biāo)簽的相似性得分;
確定單元,用于確定所述相似性得分的排序位次;
第一識別單元,用于識別所述排序位次是否落入設(shè)定范圍;
判定單元,用于在所述排序位次落入設(shè)定范圍的情形下,判定為采用所述標(biāo)簽。
b9、如b7或b8所述的裝置,還包括:
構(gòu)建模塊,用于構(gòu)建訓(xùn)練語料,所述訓(xùn)練語料用于獲取所述待標(biāo)注對象的向量。
b10、如b9所述的裝置中,所述構(gòu)建模塊包括:
構(gòu)建單元,用于基于對象的分類信息構(gòu)建所述訓(xùn)練語料。
b11、如b9所述的裝置,還包括:
降噪模塊,用于對所述訓(xùn)練語料執(zhí)行降噪處理。
b12、如b11所述的裝置中,所述降噪模塊包括:
清洗單元,用于對所述訓(xùn)練語料中的對象表征文本執(zhí)行清洗處理;
第二識別單元,用于識別清洗后的對象表征文本是否為噪聲數(shù)據(jù);
去除單元,用于在所述清洗后的對象表征文本為噪聲數(shù)據(jù)的情形下,將所述清洗后的對象表征文本從所述訓(xùn)練語料中去除。
本發(fā)明還公開了c13、一種移動(dòng)終端,包括存儲器和處理器;其中,
所述存儲器用于存儲一條或多條計(jì)算機(jī)指令,其中,所述一條或多條計(jì)算機(jī)指令供所述處理器調(diào)用執(zhí)行;
所述處理器用于進(jìn)行如a1至a6中任意一項(xiàng)所述的操作。