欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文本特征提取方法、文本分類方法及裝置與流程

文檔序號:11627702閱讀:379來源:國知局
文本特征提取方法、文本分類方法及裝置與流程
本申請涉及互聯(lián)網(wǎng)數(shù)據(jù)處理
技術(shù)領(lǐng)域
,尤其涉及一種文本特征提取、文本分類方法及裝置。
背景技術(shù)
:隨著微博、社交網(wǎng)站和即時通訊工具等應(yīng)用的發(fā)展,越來越多的信息開始以短文本的形式呈現(xiàn),并且呈爆炸式增長,尤其是大型電子商務(wù)的服務(wù)中心接收到的咨詢。為了高效地處理海量的短文本信息,通常需要先對短文本信息進行自動分類,而后再按照類別對短文本信息進行相應(yīng)的處理,而文本特征提取則是文本分類的重要基礎(chǔ)?,F(xiàn)有的文本特征提取方法大多通過對文本使用分詞算法進行分詞處理后得到文本特征。常見的分詞算法是基于詞典匹配的算法。詞典是基于詞典的匹配算法所必須的數(shù)據(jù)?,F(xiàn)有技術(shù)中,詞典生成都必須依靠人工篩選和分詞器切分,這就使得當面對新的業(yè)務(wù),微博的評論或商品的評論等比較自由的短文本的時候,由于會出現(xiàn)未在已有的分詞器使用的詞典中登錄的新詞語,因此,分詞器就無法切分出正確的詞條,分詞效果就不好。若想取得較好的分詞效果,就要不斷的更新或優(yōu)化詞典和優(yōu)化分詞算法,而且不同的業(yè)務(wù)就要更新或優(yōu)化不同的詞典。例如,針對下表(1)中所示的客戶問題,如果是由比較常規(guī)的分詞器,不知道“支付寶”以及“余額寶”是一個產(chǎn)品,則將在分詞時,會把“支付”和“寶”分開,以及“余額”和“寶”分開,進而把“支付”和“寶”以及“余額”和“寶”作為獨立的特征去參與分類,此時表達的意思就會有問題。此外,針對新的網(wǎng)絡(luò)用語“萌妹紙”、“冷暖男”;分詞器分出的特征為“萌妹”和“紙”,以及“冷”“暖男”,顯然,分詞后表達的意思也是錯誤的。用戶問題不好的特征支付寶付不了款怎么辦支付|寶|付不了款|怎么辦余額寶查不到收益怎么辦余額|寶|查不到|收益|怎么辦充電寶沒有收到貨怎么辦充電|寶|沒有|收到貨|怎么辦你這個萌妹紙你|這個|萌妹|紙?zhí)詫毮銈兙褪抢渑刑詫殀你們|就是|冷|暖男表(1)綜上所述,現(xiàn)有的文本特征提取方法存在過于依賴已有分詞器,無法提取未登錄的詞條等文本特征。技術(shù)實現(xiàn)要素:本申請實施例提供一種文本特征提取、文本分類方法及裝置,用以解決方法存在過于依賴已有分詞器,無法提取未登錄的詞條等文本特征的問題。一種文本特征提取方法,包括:確定待提取文本特征的第一文本,以及至少一個用于提取文本特征的第一滑動窗口和相應(yīng)的滑動步長;針對每一第一滑動窗口,從設(shè)定的初始滑動位置開始,沿著構(gòu)成所述第一文本的字符的排列路徑,以該第一滑動窗口相應(yīng)的滑動步長滑動該第一滑動窗口,并提取滑動過程中該第一滑動窗口內(nèi)的字符串,直至滑過構(gòu)成所述第一文本的各字符;將提取的字符串作為所述第一文本的文本特征輸出。一種文本分類方法,包括:利用文本特征提取方法提取待分類文本中的文本特征,其中,所述文本特征提取方法包括:確定待提取文本特征的第一文本,以及至少一個用于提取文本特征的第一滑動窗口和相應(yīng)的滑動步長;針對每一第一滑動窗口,從設(shè)定的初始滑動位置開始,沿著構(gòu)成所述第一文本的字符的排列路徑,以該第一滑動窗口相應(yīng)的滑動步長滑動該第一滑動窗口,并提取滑動過程中該第一滑動窗口內(nèi)的字符串,直至滑過構(gòu)成所述第一文本的各字符;將提取的字符串作為所述第一文本的文本特征輸出;將提取的待分類文本中的文本特征輸入文本分類模型,得到待分類文本的類別,得到待分類文本的類別,其中,所述文本分類模型為預(yù)先根據(jù)文本樣本對預(yù)置的分類模型進行訓(xùn)練,得到根據(jù)待分類文本的文本特征對該待分類文本進行分類的文本分類模型。一種文本特征提取裝置,包括:確定單元,用于確定待提取文本特征的第一文本,以及至少一個用于提取文本特征的第一滑動窗口和相應(yīng)的滑動步長;第一處理單元,用于針對每一第一滑動窗口,從設(shè)定的初始滑動位置開始,沿著構(gòu)成所述第一文本的字符的排列路徑,以該第一滑動窗口相應(yīng)的滑動步長滑動該第一滑動窗口,并提取滑動過程中該第一滑動窗口內(nèi)的字符串,直至滑過構(gòu)成所述第一文本的各字符;輸出單元,用于將提取的字符串作為所述第一文本的文本特征輸出。一種文本分類裝置,包括:文本特征提取單元,用于利用文本特征提取方法提取待分類文本中的文本特征,其中,所述文本特征提取方法包括:確定待提取文本特征的第一文本,以及至少一個用于提取文本特征的第一滑動窗口和相應(yīng)的滑動步長;針對每一第一滑動窗口,從設(shè)定的初始滑動位置開始,沿著構(gòu)成所述第一文本的字符的排列路徑,以該第一滑動窗口相應(yīng)的滑動步長滑動該第一滑動窗口,并提取滑動過程中該第一滑動窗口內(nèi)的字符串,直至滑過構(gòu)成所述第一文本的各字符;將提取的字符串作為所述第一文本的文本特征輸出;分類單元,用于將提取的待分類文本中的文本特征輸入文本分類模型,得到待分類文本的類別,得到待分類文本的類別,其中,所述文本分類模型為預(yù)先根據(jù)文本樣本對預(yù)置的分類模型進行訓(xùn)練,得到根據(jù)待分類文本的文本特征對該待分類文本進行分類的文本分類模型。本申請實施例中直接利用第一滑動窗口對待提取文本特征的第一文本進行文本特征提取,具體提取過程是針對每一第一滑動窗口,從設(shè)定的初始滑動位置開始,沿著構(gòu)成所述第一文本的字符的排列路徑,以該第一滑動窗口相應(yīng)的滑動步長滑動該第一滑動窗口,并提取滑動過程中該第一滑動窗口內(nèi)的字符串,直至滑過構(gòu)成所述第一文本的各字符。由于是直接利用第一滑動窗口去提取待處理文本特征的文本,不需要使用分詞器去提取,也就不需要更新詞典以及優(yōu)化相應(yīng)的分詞算法,只要第一文本的特征落入第一滑動窗口內(nèi),即可提取該特征,解決了現(xiàn)有的文本特征提取方法存在的過于依賴已有分詞器,無法提取未登錄的詞條等文本特征的問題。附圖說明圖1為本申請實施例一提供的文本特征提取方法的流程圖;圖2為本申請實施例二提供的文本特征提取方法的流程圖;圖3為本申請實施例二提供判斷第一文本中是否包含重復(fù)文本的流程圖;圖4為本申請實施例二提供的判斷第三文本中是否包含單字符串重復(fù)文本的流程圖;圖5為本申請實施例二提供的判斷第四文本中是否包含多字符串重復(fù)文本的流程圖;圖6為本申請實施例三提供的文本分類方法的流程圖;圖7為本申請實施例四提供的文本特征提取裝置的結(jié)構(gòu)示意圖;圖8為本申請實施例五提供的文本分類裝置的結(jié)構(gòu)示意圖。具體實施方式為了清楚地理解本申請的方案,下面首先對本申請實施例中涉及到的概念進行說明:文本分類:也叫classification。對于分類,輸入的訓(xùn)練數(shù)據(jù)有特征(feature),有標簽(label)。所謂的分類算法學(xué)習(xí),其本質(zhì)就是找到特征和標簽間的關(guān)系(mapping)。當有特征而無標簽的未知數(shù)據(jù)輸入時,就可以通過已有的關(guān)系得到未知數(shù)據(jù)標簽。滑動窗口:這個概念來自計算機網(wǎng)絡(luò)協(xié)議tcp中采用滑動窗口來進行傳輸控制,滑動窗口的大小意味著接收方還有多大的緩沖區(qū)可以用于接收數(shù)據(jù)。發(fā)送方可以通過滑動窗口的大小來確定應(yīng)該發(fā)送多少字節(jié)的數(shù)據(jù)。當滑動窗口為0時,發(fā)送方一般不能再發(fā)送數(shù)據(jù)報。而在本文是指在處理文本時,指定一個或多個窗口,窗口的尺寸(大小)是可以指定,窗口從文本開始一直滑動到文本的結(jié)尾,在滑動的過程中,將窗口內(nèi)的內(nèi)容(也即字符串)抽取成出來。在滑動的過程中窗口的大小是可以變化的。特征:人或事物可供識別的特殊的征象或標志。在文本處理中,只一個個的詞或者短文本。特征提?。航o定一個文本,提取特征列表的過程。重復(fù)文本:一個或多個字符串不間斷重復(fù)出現(xiàn)的文本。包括單字符串重復(fù)文本和多字符串重復(fù)文本。例如:對于文本“我的支付寶付不了款,怎么辦怎么辦?????”,其中的“怎么辦怎么辦”即為重復(fù)文本,具體為多字符串重復(fù)文本,“怎么辦”是重復(fù)文本的最小單元;“好好好好好”及“?????”也為重復(fù)文本,具體為單字符重復(fù)文本,一個“好”及“?”構(gòu)成了重復(fù)文本的最小單元。以下結(jié)合說明書附圖對本發(fā)明的優(yōu)選實施例進行說明,應(yīng)當理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。并且在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。實施例一:如圖1所示,其為本申請實施例一提供的文本特征提取方法的流程圖,包括以下步驟:步驟101:確定待提取文本特征的第一文本;其中,可以對已有數(shù)據(jù)進行收集,確定上述第一文本。例如,從即時通訊工具或社交網(wǎng)站中發(fā)表的文本中確定第一文本。可以將即時通訊工具中記錄的每一條聊天記錄作為待提取文本特征的第一文本,通常一條聊天記錄的語句比較短小,直接就可以作為第一文本,例如“我的支付寶付不了款,怎么辦怎么辦?????”;對于比較長的文本,可以依據(jù)文本中出現(xiàn)的標點符號或空格將文本劃分為多個第一文本。在確定第一文本后,還可以對第一文本進行以下幾個方面中任一方面或幾個方面進行處理,處理之后再執(zhí)行步驟102;第一方面:對所述第一文本進行進行公共預(yù)處理,所述公共預(yù)處理包括以下一種或多種的組合:過濾文本中的網(wǎng)絡(luò)地址信息、過濾文本中的設(shè)定日期信息、過濾文本中的錢款信息、過濾文本中的訂單號信息、將文本中的多個空格替換成一個空格。其中,處理文本中的網(wǎng)絡(luò)地址信息是把文本中的網(wǎng)絡(luò)地址信息去掉,處理文本中的設(shè)定日期信息去掉,過濾文本中的訂單號信息去掉。進行上述第一方面的處理,是考慮到文本中的網(wǎng)絡(luò)地址信息、設(shè)定日期信息、錢款信息、訂單號信息是涉及到一系列的數(shù)字及網(wǎng)址符號,即使提取出來,這類文本特征對后續(xù)的文本識別來說意義不大,甚至?xí)罄m(xù)的文本識別造成干擾,因此,這里要濾除這些信息,以減輕后續(xù)文本特征提取的計算量,提高文本特征提取的效率。第二方面:對所述第一文本進行進行自定義預(yù)處理,所述自定義預(yù)處理包括以下一種或多種的組合:過濾文本中的設(shè)定地址和名稱信息、過濾文本中的設(shè)定前綴信息、過濾文本中的設(shè)定后綴信息。在一些業(yè)務(wù)中,文本中一些前綴和后綴、地址和名稱對特征的提取也是沒有意義的。因此,這里要對第一文本根據(jù)業(yè)務(wù)需求和業(yè)務(wù)特點進行自定義預(yù)處理,以減少后續(xù)文本特征提取的計算量,提高文本特征提取的效率。第三方面:確定所述第一文本中包含空格和/或單個標點符號;若包含空格,則用設(shè)定字符對所述第一文本中包含的空格進行替換處理,其中,所述設(shè)定字符為除標點符號和空格外的字符;若包含單個標點符號,則用設(shè)定字符對所述第一文本中包含的空格進行替換處理;若包含空格和單個標點符號,則用設(shè)定字符分別對所述第一文本中包含的空格和單個標點符號進行替換處理。假設(shè)用“ψ”這一設(shè)定字符對上述第一文本“我的支付寶付不了款,怎么辦怎么辦?????”中的單個標點符號進行替換,替換之后即為“我的支付寶付不了款ψ怎么辦怎么辦?????”。實現(xiàn)上述第三方面的核心代碼可以如下代碼1所示:代碼1這里之所以對單個標點符號進行替換,而不是對出現(xiàn)的多個標點符號進行替換,是考慮到多個標點符號通常會表達一些較強烈的情緒,對特征的提取很有意義。例如,一個問號表示疑問,多個問號就表示強烈質(zhì)疑,同樣,一個嘆號表示強調(diào),多個嘆號就表示強烈強調(diào)。由于空格和單個標點符號是對文本的斷句,對文本特征的抽取也是有意義的,這里并不是將空格和單個標點符號進行過濾,而是采用對空格和單個標點符號用設(shè)定字符替換,這樣可以減少標點符號的種類,簡化文本特征提取,提高文本特征提取效率。第四方面:判斷所述第一文本中包含重復(fù)文本,其中,重復(fù)文本包括單字符串重復(fù)文本和多字符串重復(fù)文本;若包含重復(fù)文本,則對所述第一文本進行去重處理,得到第二文本;對“我的支付寶付不了款,怎么辦怎么辦?????”去重處理后,得到的第二文本即為“我的支付寶付不了款,怎么辦?”。由于通常情況下,重復(fù)文本表達的含義與去重后表達的字面含義是相同的,因此,這里將重復(fù)文本進行去重處理,以減少后續(xù)文本特征提取的計算量,提高文本特征提取的效率。步驟102:確定至少一個用于提取文本特征的第一滑動窗口和相應(yīng)的滑動步長,其中,第一滑動窗口的尺寸大于1個字符,滑動步長不小于1個字符;這里,針對漢字,考慮到詞是構(gòu)成文本特征的特征項,而一個詞通常用2個字或3個字(其中,一個漢字就是一個字符)來表達,成語通常用4個字來表達,因此,這里為了能提取出第一文本中的文本特征,可以采用一個尺寸為2個字符、3個字符或者4個字符的第一滑動窗口。也可以采用兩個第一滑動窗口。例如,可以采用一個尺寸為2個字符的第一滑動窗口,另一個尺寸為3個字符的第一滑動窗口;也可以采用一個尺寸為2個字符的第一滑動窗口,另一尺寸為4個字符的第一滑動窗口。還可以采用三個第一滑動窗口。例如,第一個第一滑動窗口的尺寸為2,第二個第一滑動窗口的尺寸為3,第三個第一滑動窗口的尺寸為4。針對外語,第一滑動窗口的最合適的個數(shù)和相應(yīng)的尺寸的大小可以依據(jù)外語本身的特點來進行確定。步驟103:針對每一第一滑動窗口,從設(shè)定的初始滑動位置開始,沿著構(gòu)成所述第一文本的字符的排列路徑,以該第一滑動窗口相應(yīng)的滑動步長滑動該第一滑動窗口,并提取滑動過程中該第一滑動窗口內(nèi)的字符串,直至滑過構(gòu)成所述第一文本的各字符;上述設(shè)定的初始滑動位置可以是第一文本的起始字符所處的位置,也可以是第一文本的結(jié)束字符所處的位置,還可以是第一文本的其他字符所處的位置。上述排列路徑是指從第一文本的起始字符到結(jié)束字符的排列路徑。通常字符按照一定的順序排列之后即可構(gòu)成表達某種含義的文本。具體的,可以通過以下兩種方式來實現(xiàn)步驟103:第一種方式:各第一滑動窗口順次執(zhí)行滑動操作,也即:一個第一滑動窗口按照其對應(yīng)的滑動步長滑過構(gòu)成所述第一文本的各字符(可以是從第一文本的起始字符滑到結(jié)束字符),之后,下一個第一滑動窗口按照其對應(yīng)的滑動步長滑過構(gòu)成所述第一文本的各字符。下面對上述第一種方式進行舉例說明:假設(shè)步驟102中確定的第一滑動窗口的個數(shù)為兩個,尺寸分別為2個字符和3個字符,尺寸為2的第一滑動窗口對應(yīng)的滑動步長為1,尺寸為3的第一滑動窗口對應(yīng)的滑動步長為1;則針對“我的支付寶付不了款”這一第一文本,首先,使用尺寸為2的第一滑動窗口,提取滑動過程中該第一滑動窗口內(nèi)的字符串即為:我的、的支、支付、付寶、付不、不了、了款;其次,使用尺寸為3的第一滑動窗口,提取滑動過程中該第一滑動窗口內(nèi)的字符串即為:我的支、的支付、支付寶、付寶付、寶付不、付不了、不了款。第二種方式:各第一滑動窗口交叉執(zhí)行滑動操作,在采用兩個第一滑動窗口及以上,各第一滑動窗口的尺寸不相同且相應(yīng)的滑動步長均為1個字符,所述設(shè)定的初始滑動位置為所述第一文本的起始字符所在位置;從所述第一文本的起始字符所在位置開始,遍歷所述第一文本中的字符,執(zhí)行以下步驟a1至步驟a5:步驟a1、將當前遍歷的字符所在位置作為各第一滑動窗口的當前開始位置;步驟a2、從尺寸最小的第一滑動窗口的當前結(jié)束位置開始,遍歷每個第一滑動窗口的當前結(jié)束位置,執(zhí)行以下步驟a3至步驟a5,直至尺寸最大的第一滑動窗口的當前結(jié)束位置:步驟a3、判斷當前遍歷的當前結(jié)束位置是否為所述第一文本的結(jié)束字符所在位置,若是,則執(zhí)行步驟a4,若否,則執(zhí)行步驟a5;步驟a4、取出當前開始位置和當前遍歷的當前結(jié)束位置之間的字符串,之后結(jié)束;若需要對由結(jié)束字符構(gòu)成的字符串進行標記,可以在這里的步驟a4中,對取出的字符串前/后加上結(jié)束標記。例如,結(jié)束標記可以為“e-”。步驟a5、取出當前開始位置和當前遍歷的當前結(jié)束位置之間的字符串。若需要對第一文本的由起始字符構(gòu)成的字符串進行標記,可以在這里的步驟a5可以變?yōu)?,判斷當前開始位置是否為第一文本的起始字符所在位置,若是,則對取出的字符串前/后加上起始標記。起始標記可以為“s-”。若不是,則直接執(zhí)行取出當前開始位置和當前遍歷的當前結(jié)束位置之間的字符串。除了在步驟a4和步驟a5中進行起始字符的判斷,還可以在對第一文本進行文本特征提取之后,判斷提取的文本特征的字符串中的字符在第一文本中的位置中是否為起始位置/結(jié)束位置,若是,則可以復(fù)制一份該字符串,并在復(fù)制的字符串前加起始標記/結(jié)束標記。這里對包含第一文本起始位置處的字符(起始字符)的字符串和第一文本結(jié)束位置處的字符(結(jié)束字符)的字符串進行標記,是考慮到通常文本(尤其是短文本)的結(jié)尾和文本的開始位置前后的特征相對于其他位置包含的信息對整個文本來說較為重要,因此,這里對文本結(jié)尾位置的字符串和文本開始位置的字符串進行標記,以便于在后續(xù)文本分類時,對文本結(jié)尾位置和為本結(jié)束位置賦予相對較高的權(quán)重,取得較好的分類效果。下面對上述第二種方式進行舉例說明:假設(shè)步驟102中確定的第一滑動窗口的個數(shù)為兩個,尺寸分別為2個字符和3個字符;則針對“我的支付寶付不了款”這一第一文本,從所述起始字符“我”所在位置開始,遍歷該第一文本中的字符,執(zhí)行上述步驟a1至步驟a5的過程具體如下(由于循環(huán)次數(shù)較多,這里僅以一次循環(huán)的執(zhí)行進行示意說明):步驟a1:將起始字符“我”所在位置作為尺寸為2的第一滑動窗口和尺寸為3的第一滑動窗口的當前開始位置;這里,由于獲知了第一滑動窗口的當前開始位置及尺寸,因此,可以確定尺寸為2的第一滑動窗口的當前結(jié)束位置為“的”字符所處位置,尺寸為3的第一滑動窗口的當前結(jié)束位置為“支”字符所處位置。步驟a2:從尺寸為2的第一滑動窗口的當前結(jié)束位置(“的”字符所處位置)到尺寸為3的第一滑動窗口的當前結(jié)束位置(“支”字符所處位置)開始遍歷;步驟a3:判斷當前遍歷的當前結(jié)束位置(“的”字符所處位置)不為所述第一文本的結(jié)束字符所在位置(“款”字符所在位置),執(zhí)行步驟a5;步驟a5、取出當前開始位置(字符“我”所在位置)和當前遍歷的當前結(jié)束位置(“的”字符所處位置)之間的字符串“我的”;步驟a3:判斷當前遍歷的當前結(jié)束位置(“支”字符所處位置)不為所述第一文本的結(jié)束字符所在位置(最后一個“?”字符所在位置),則執(zhí)行步驟a5;步驟a5、取出當前開始位置(字符“我”所在位置)和當前遍歷的當前結(jié)束位置(“支”字符所處位置)之間的字符串“我的支”;步驟a1:將第二個字符“的”所在位置作為尺寸為2的第一滑動窗口和尺寸為3的第一滑動窗口的當前開始位置……經(jīng)過上述循環(huán)過程,上述第二種方式提取出的字符串即為:我的、我的支、的支、的支付、支付、支付寶、付寶、付寶付、寶付、寶付不、付不、付不了、不了、不了款、了款。上述第二種方式提取出的字符串加上起始標記“s-”和結(jié)束標記“e-”之后即為:s-我的、s-我的支、我的、我的支、的支、的支付、支付、支付寶、付寶、付寶付、寶付、寶付不、付不、付不了、不了、不了款、了款、s-不了款、s-了款。上述第二種方式相對于第一種方式,由于采用的循環(huán)次數(shù)較少,因此,可以提高第一文本的字符串的提取效率。步驟104:將提取的字符串作為所述第一文本的文本特征輸出。這里輸出的文本特征可以以特征列表的形式展現(xiàn),也可以以其他形式展現(xiàn);輸出的文本特征可以作為分類算法的輸入數(shù)據(jù),以進行分類模型的訓(xùn)練以及分類識別。實現(xiàn)上述步驟101至步驟105的核心代碼可以如下代碼2所示:代碼2由對“我的支付寶付不了款”這一文本利用本申請實施例一的文本特征提取方法提取出的文本特征:我的、我的支、的支、的支付、支付、支付寶、付寶、付寶付、寶付、寶付不、付不、付不了、不了、不了款、了款,可知,本申請實施例的方案,提取的特征中包含“支付寶”這個特征,該詞的提取并不依賴于詞典中的登錄,這就為后續(xù)的分類算法提供了較好的基礎(chǔ)。此外,本申請實施例一的方案可以應(yīng)用在分類算法中,也可以應(yīng)用在比較兩段文本的相似度上,利用相似度來確定文本的表達的意思的差別的大小,例如:下表(2)萌妹紙和賣萌妹提取的特征7個只有1個是相同的,基本代表兩者的意思很大不一樣?!袄渑小笔且粋€新詞,“牛暖男”可能是一個人名。兩種的意思也不一樣,提取的7個特征中有3個是一樣。大體可以代表兩段文本的相似度。文本提取的特征萌妹紙b-萌妹萌妹b-萌妹紙e-萌妹紙萌妹紙e-妹紙,妹紙賣萌妹b-賣萌賣萌b-賣萌妹e-賣萌妹賣萌妹e-萌妹萌妹冷暖男b-冷暖冷暖b-冷暖男e-冷暖男冷暖男e-暖男暖男牛暖男b-牛暖牛暖b-牛暖男e-牛暖男牛暖男e-暖男暖男表(2)此外,本申請在下面的實施例二中還提供一種文本特征提取方法,實施例二中的文本特征提取方法主要是針對重復(fù)文本的特征提取方法,可以單獨使用,也可以作為本申請實施例一的基礎(chǔ)上的輔助特征提取方法,以便于從包含重復(fù)文本的第一文本中提取出更多的特征,將實施例一中提取到的文本特征和實施例二中提取到的文本特征共同作為文本分類的依據(jù),使得分類較為準確。這是因為重復(fù)文本通常是表達強調(diào)的含義以及強烈的情緒,是文本分類(尤其是分類中包含文本情緒分類、重要等級分類)中需要考慮的一個重要因素。實施例二如圖2所示,其為本申請實施例二提供的文本特征提取方法的流程圖,包括以下步驟:步驟201:確定待提取文本特征的第一文本;這里與實施例一中的步驟201相同,不再贅述。步驟202:判斷所述第一文本中是否包含重復(fù)文本,若是,則執(zhí)行步驟202,若否,則結(jié)束。其中,重復(fù)文本包括單字符串重復(fù)文本和多字符串重復(fù)文本;步驟203:提取所述第一文本中包含的重復(fù)文本。本申請實施例二中,考慮到重復(fù)文本中通常表達了強調(diào)的含義或者強烈的情緒,因此,將重復(fù)文本單獨提取出來,作為第一文本的文本特征,以客觀、真實地反映第一文本表達的真正含義,使得利用提取出的重復(fù)文本進行文本分類的分類結(jié)果較為準確。上述步驟202至步驟203中,可以先判斷是否包含單字符串重復(fù)文本,之后判斷是否包含多字符串重復(fù)文本;也可以先判斷是否包含多字符串重復(fù)文本,之后判斷是否包含單字符串重復(fù)文本。較佳的,先判斷是否包含單字符串重復(fù)文本,之后判斷是否包含多字符串重復(fù)文本,具體可以包括以下步驟301至步驟301,如圖3所示:步驟301:判斷所述第一文本中是否包含單字符串重復(fù)文本;若是,則執(zhí)行步驟302;若否,則執(zhí)行步驟303;步驟302:提取所述單字符串重復(fù)文本;步驟303:判斷所述第一文本中是否包含多字符串重復(fù)文本,若是,則執(zhí)行步驟304,若否,則結(jié)束。步驟304:提取所述多字符串重復(fù)文本。上述步驟301至步驟304中,先判斷是否包含單字符串重復(fù)文本,后判斷是否包含多字符串重復(fù)文本,也就是說判斷單字符串重復(fù)文本的優(yōu)先級判斷高于字符串重復(fù)文本,這是因為相對于單字符串重復(fù)文本的判定來說,多字符串的判定過程較為復(fù)雜,計算量較大,在進行單字符串重復(fù)文本的判定之后,就可以把文本中單字符串結(jié)束位置之前的文本排除在外,減少多字符串文本判定的計算量。上述較佳的方式可以通過以下步驟b1至步驟b10實現(xiàn),如圖4所示:步驟b1:將所述第一文本的起始字符所在位置作為最小第二滑動窗口的當前開始位置,其中,最小第二滑動窗口的尺寸為2個字符;針對“我的支付寶付不了款,怎么辦怎么辦?????”這一第一文本,步驟b1即為將起始字符“我”所在位置,作為最小第二滑動窗口的當前開始位置,由于這里的最小第二滑動窗口的尺寸為2個字符,因此,最小第二滑動窗口的當前結(jié)束位置即為字符“的”所在位置,也即此時,最小第二滑動窗口中包含的字符為“我”和“的”。字符“支”在最小第二滑動窗口之外。步驟b2:判斷最小第二滑動窗口的當前開始位置距離所述第一文本的結(jié)束字符所在位置是否小于設(shè)定值,該設(shè)定值為最小第二滑動窗口的尺寸減1個字符;若否,則執(zhí)行步驟b3,若是,則結(jié)束;在第一次執(zhí)行步驟b2時,最小第二滑動窗口的當前開始位置距離所述第一文本的結(jié)束字符“?”所在位置是20個字符,因此,不小于1個字符。步驟b3:判斷第三文本中是否包含單字符串重復(fù)文本,所述第三文本為從最小第二滑動窗口的當前開始位置處的字符至第一文本的結(jié)束字符之間的字符,若是,則執(zhí)行步驟b4;若否,則執(zhí)行步驟b6;在第一次執(zhí)行步驟b3時,第三文本和第一文本相同。這里的步驟b3具體可以通過如下步驟b31至步驟b33實現(xiàn),如圖4所示:步驟b31:判斷最小第二滑動窗口的當前開始位置處的字符與最小第二滑動窗口的當前結(jié)束位置處的字符是否相同;若相同,則執(zhí)行步驟b32;若不相同,則執(zhí)行步驟b6;在第一次執(zhí)行步驟b31時,判斷最小第二滑動窗口內(nèi)的“我”和“的”字符不相同,因此,執(zhí)行步驟b6;步驟b32:沿著構(gòu)成第三文本的字符的排列路徑,查找最小第二滑動窗口外的字符中,第一個與最小第二滑動窗口的當前開始位置處的字符不相同的字符,并將找到的不相同的字符所在位置作為單字符串重復(fù)文本的結(jié)束位置處的字符之后的一個字符所在位置;這里,假設(shè)第一文本為“好好好啊,我忙了”,則第一次執(zhí)行步驟b31時,判斷結(jié)果為相同,之后執(zhí)行步驟b32,此時,查找到的第一個與最小第二滑動窗口的當前開始位置處的字符“好”不相同的字符即為字符“啊”,單字符串重復(fù)文本的結(jié)束位置即為第三個字符“好”所在位置。步驟b4:提取第三文本中的單字符串重復(fù)文本,之后執(zhí)行步驟b5;本步驟b4中,在步驟b32中找到了第一個與最小第二滑動窗口的當前開始位置處的字符不相同的字符,提取的第三文本中的單字符串重復(fù)文本即為步驟31中最小第二滑動窗口的當前開始位置處的字符至第一個與最小第二滑動窗口的當前開始位置處的字符不相同的字符之前的一個字符之間的字符。針對步驟b32中的例子,這里步驟b4中提取到的字符即為“好好好”。步驟b5:用單字符串重復(fù)文本的結(jié)束位置處的字符之后相鄰的字符所在位置更新步驟b2中的最小第二滑動窗口的當前開始位置,之后跳轉(zhuǎn)至步驟b2;這里,針對步驟b4中的例子,步驟b5即為將字符“啊”所在位置更新步驟b2中的最小第二滑動窗口的當前開始位置。步驟b6:判斷最小第二滑動窗口的當前開始位置距離所述第一文本的結(jié)束字符所在位置是否小于最小第二滑動窗口的尺寸,若否,則執(zhí)行步驟b7,若是,則執(zhí)行步驟b10;沿用步驟b31中的例子,這里第二滑動窗口當前開始位置為字符“我”所處位置,因此,距離所述第一文本的結(jié)束字符“?”所在位置不小于最小第二滑動窗口的尺寸。步驟b7:判斷第四文本中是否包含多字符串重復(fù)文本,所述第四文本為從最小第二滑動窗口的當前開始位置處的字符至第一文本的結(jié)束字符之間的字符,若是,則執(zhí)行步驟b8,若否,則執(zhí)行步驟b10;沿用步驟b6中的例子,第一次執(zhí)行步驟b7時,第四文本與第一文本也是相同的。這里的步驟b7可以通過如下步驟b701至步驟b712實現(xiàn),如圖5所示:步驟b701至步驟712的基本思想是,從尺寸為2的第二滑動窗口開始,判斷第二滑動窗口內(nèi)字符與窗口外相鄰的兩個字符是否相同,相同時,繼續(xù)進行第二滑動窗口內(nèi)字符與窗口外相鄰的兩個字符后面的兩個字符是否相同,直至不相同時結(jié)束;不相同時,逐步擴大第二滑動窗口的尺寸,判斷尺寸擴大后第二滑動窗口內(nèi)字符與窗口外相鄰的三個字符是否相同,如此循環(huán)。由于循環(huán)次數(shù)較多,這里不再進行舉例,具體可按照步驟b701至步驟b712進行循環(huán),或者將例子代入按照下面的代碼3進行驗證。步驟b701:將第四文本的長度的一半作為最大第二滑動窗口的尺寸;步驟b702:判斷最小第二滑動窗口的當前開始位置是否為第一文本的起始字符所在位置,若是,則執(zhí)行步驟b703;若否,則執(zhí)行步驟b704;步驟b703:用第一文本的起始字符之后相鄰的字符所在位置作為第四文本的起始字符的位置,之后執(zhí)行步驟b705;步驟b704:將最小第二滑動窗口的當前開始位置作為第四文本的起始字符的位置,之后執(zhí)行步驟b705;步驟b705:將最小第二滑動窗口的尺寸作為當前第二窗口的尺寸;之后執(zhí)行步驟706;步驟706:判斷當前第二窗口的尺寸是否不大于步驟701中的最大第二滑動窗口的尺寸;若是,則執(zhí)行步驟b707;若否,則執(zhí)行步驟b713;步驟b707:判斷當前第二滑動窗口中的字符串和第三滑動窗口中的字符串是否相同,其中,第三滑動窗口是當前第二滑動窗口沿著第四文本的排列路徑滑動當前第二滑動窗口的尺寸個字符后得到的滑動窗口;若相同,則執(zhí)行步驟b708;若不相同,則執(zhí)行步驟b711;步驟b708:保存當前第二滑動窗口的字符串和第三滑動窗口中的字符串,之后執(zhí)行步驟b709;這里,為了體現(xiàn)重復(fù)文本中的最小單元的重復(fù)次數(shù),達到強化重復(fù)文本的在分類中的作用,使得分類較為準確,這里還可以第一次執(zhí)行步驟708后(此時即確定最小單元重復(fù)出現(xiàn)),自動擴展第五滑動窗口的大小,第五滑動窗口擴展的算法是:重復(fù)串最小單位(>=2)的n次方或者重復(fù)串的最大長度,利用第五滑動窗口進行重復(fù)文本特征的提取。例1:比如“你好你好”,提取的特征就是“你好”,和“你好你好”。例2:“你好你好你好你好你好你好”提取的特征就是“你好”,“你好你好”,“你好你好你好你好”和“你好你好你好你好你好你好”。例3:“支付寶支付寶支付寶”提取的特征就是“支付寶”,“支付寶支付寶”,和“支付寶支付寶支付寶”。例4:“?????”,提取的特征就是“??”,“????”,和“?????”。例5:“???”提取的特征就是“??”,和“???”。步驟b709:將當前第二滑動窗口沿著第四文本的排列路徑滑動當前第二滑動窗口的尺寸個字符,之后執(zhí)行步驟b710;步驟b710:將當前第二滑動窗口的結(jié)束位置作為第四文本的起始字符的位置,之后執(zhí)行步驟b707;步驟b711:用當前第二滑動窗口的尺寸加1個字符后得到的值更新步驟b707中的當前第二滑動窗口的尺寸,之后執(zhí)行步驟b712;步驟b712:用更新尺寸后的當前第二滑動窗口外至第一文本結(jié)束字符之間的字符的個數(shù)的一半更新步驟b706中的最大第二滑動窗口的尺寸,之后跳轉(zhuǎn)至步驟b706;步驟b713:用第四文本的起始字符的位置處的字符之后相鄰的字符所在位置更新最小第二滑動窗口的當前開始位置,之后跳轉(zhuǎn)至步驟b2。步驟b8:提取第四文本中的多字符串重復(fù)文本,之后執(zhí)行步驟b9;步驟b9:用多字符串重復(fù)文本的結(jié)束位置處的字符之后相鄰的字符所在位置更新步驟b2中的最小第二滑動窗口的當前開始位置,之后跳轉(zhuǎn)至步驟b2;步驟b10:用最小第二滑動窗口的當前開始位置處的字符之后的下一個字符所在位置更新步驟b2中的最小第二滑動窗口的當前開始位置,之后跳轉(zhuǎn)至步驟b2。步驟204:將提取的重復(fù)文本作為所述第一文本的文本特征輸出。實現(xiàn)上述步驟201至步驟204的核心代碼可以如下代碼3所示:代碼3此外,可以將本申請實施例一和實施例二的方案進行有機結(jié)合,以達到最佳的文本特征提取效果。具體地,將代碼1所表示的算法1、代碼3所表示的算法3(也即實施例二中的方案)和代碼2所表示的算法2(也即實施例一中的方案)進行結(jié)合,先用算法1進行處理,之后將算法1的處理結(jié)果輸入再用算法3,算法3進行重復(fù)文本處理,然后算法2將算法3中的重復(fù)文本的最小單位保留,進行文本特征的提取,但重復(fù)的標點信息不保留,避免生成太多標點信息,最后將算法3和算法2輸出的文本特征進行合并。比如,第一文本是“我的支付寶付不了款,怎么辦怎么辦?????”1.先經(jīng)過算法1的處理單個標點,結(jié)果:“我的支付寶付不了款ψ怎么辦怎么辦?????”2.算法3的處理重復(fù)文本,對“我的支付寶付不了款ψ怎么辦怎么辦?????”中的重復(fù)文本抽取出來,得到特征:怎么辦、怎么辦怎么辦、???、?????。3.算法2提取特征文本,會將算法3中重復(fù)文本的最小單位保留,但是重復(fù)標點信息不保留。比如上面的“怎么辦”會保留,重復(fù)的標點不會進入,避免生成太多標點信息。結(jié)果算法2的輸入文本就是:“我的支付寶付不了款ψ怎么辦”。算法3的輸出特征:s-我的、我的、s-我的支、我的支、的支、的支付、支付、支付寶、付寶、付寶付、寶付、寶付不、付不、付不了、不了、不了款、了款、了款ψ、款ψ、款ψ怎、ψ怎、ψ怎么、怎么、e-怎么辦、怎么辦、e-么辦、么辦。4.將算法2和算法3的特征合并,最后得到的特征列表:s-我的、我的、s-我的支、我的支、的支、的支付、支付、支付寶、付寶、付寶付、寶付、寶付不、付不、付不了、不了、不了款、了款、了款ψ、款ψ、款ψ怎、ψ怎、ψ怎么、怎么、e-怎么辦、怎么辦、e-么辦、么辦怎么辦、怎么辦怎么辦、????????。實施例三如圖6所示,其為本申請實施例三提供的文本識別方法的流程圖,包括以下步驟:步驟601:利用文本特征提取方法提取待分類文本中的文本特征;這里的文本特征提取方法可以采用實施例一及實施例二中的任一文本特征提取方法。步驟602:將提取的待分類文本中的文本特征輸入文本分類模型,得到待分類文本的類別;其中,所述文本分類模型為預(yù)先根據(jù)文本樣本對預(yù)置的分類模型進行訓(xùn)練,得到根據(jù)待分類文本的文本特征對該待分類文本進行分類的文本分類模型。上述預(yù)置的分類模型可以為常用的分類算法,例如:樸素貝葉斯分類算法、最大熵法以及k-最近近鄰分類算法等。預(yù)先根據(jù)文本樣本對預(yù)置的分類模型進行訓(xùn)練,得到根據(jù)待分類文本的文本特征對該待分類文本進行分類的文本分類模型,包括:利用所述文本特征提取方法對文本樣本分別進行文本特征提?。焕锰崛〉奈谋緲颖镜奈谋咎卣鲗︻A(yù)置的分類模型進行訓(xùn)練,得到文本分類模型。由于分類模型和訓(xùn)練方法與現(xiàn)有的相同,這里不再詳細說明。下面對本申請實施例三的文本識別方法在一種可能的場景下的應(yīng)用進行說明:目前,用戶越來越多的使用手機上安裝的應(yīng)用軟件(如具有即時通訊功能的軟件)上的服務(wù)中心尋求的實時服務(wù),手機端由于屏幕等因素,用戶的輸入的文本比較隨意和松散。例如,出現(xiàn)很多帶正面情感的新詞,“萌妹紙”,“冷暖男”等。還有手機端客戶不耐煩會輸入很多帶感情色彩的標點,例如質(zhì)問“????!”,“?。。????”?;蛘吒鱾€輸入法帶入的表情等“[:憤怒][:憤怒][:憤怒][:憤怒][:憤怒]”。還有用戶無聊測試的輸入“sfsfsfsf”,“ssskjjkk”。此時,可以利用本申請實施例三的方案,先對接收的來自用戶使用的客戶端的文本,進行特征提取,之后進行文本分類,最后從預(yù)先保存的類別與服務(wù)方式的對應(yīng)關(guān)系中,查找待分類文本的類別對應(yīng)的服務(wù)方式,所述服務(wù)方式為針對分類文本做出響應(yīng)的方式;最后將該待分類文本轉(zhuǎn)發(fā)給查找到的服務(wù)方式所對應(yīng)的服務(wù)設(shè)備??梢砸罁?jù)涉及業(yè)務(wù)的復(fù)雜程度和情緒進行分類;如果用戶的文本分類為復(fù)雜程度較高的類別,比如維權(quán)糾紛等等,可以將該待分類文本轉(zhuǎn)發(fā)給服務(wù)專家所使用的設(shè)備,進而去為用戶提供服務(wù)。同時可以分類出用戶的情緒的是否負面,如果分類結(jié)果為用戶有情緒問題,會向客服發(fā)送提醒消息,提醒客服主要安撫或者升級服務(wù)等級。比如,剛開始是機器人回答客戶的問題,若用戶聊天中出現(xiàn)情緒問題或者罵人等,將轉(zhuǎn)成人工渠道去服務(wù)客戶。實施例四基于與實施例一和實施例二的同一發(fā)明構(gòu)思,本申請實施例四提供一種文本特征提取裝置,其結(jié)構(gòu)示意圖如圖7所示,包括:確定單元71、第一處理單元72和輸出單元73;其中:確定單元71,用于確定待提取文本特征的第一文本,以及至少一個用于提取文本特征的第一滑動窗口和相應(yīng)的滑動步長;第一處理單元72,用于針對每一第一滑動窗口,從設(shè)定的初始滑動位置開始,沿著構(gòu)成所述第一文本的字符的排列路徑,以該第一滑動窗口相應(yīng)的滑動步長滑動該第一滑動窗口,并提取滑動過程中該第一滑動窗口內(nèi)的字符串,直至滑過構(gòu)成所述第一文本的各字符;輸出單元73,用于將提取的字符串作為所述第一文本的文本特征輸出。較佳的,用于提取文本特征的第一滑動窗口的個數(shù)大于1,各第一滑動窗口的尺寸不相同且相應(yīng)的滑動步長均為1個字符,所述設(shè)定的初始滑動位置為所述第一文本的起始字符所在位置;所述第一處理單元72,具體用于從所述第一文本的起始字符所在位置開始,遍歷所述第一文本中的字符,執(zhí)行以下步驟:步驟a1、將當前遍歷的字符所在位置作為各第一滑動窗口的當前開始位置;步驟a2、從尺寸最小的第一滑動窗口的當前結(jié)束位置開始,遍歷每個第一滑動窗口的當前結(jié)束位置,執(zhí)行以下步驟a3至步驟a5,直至尺寸最大的第一滑動窗口的當前結(jié)束位置:步驟a3、判斷當前遍歷的當前結(jié)束位置是否為所述第一文本的結(jié)束字符所在位置,若是,則執(zhí)行步驟a4,若否,則執(zhí)行步驟a5;步驟a4、取出當前開始位置和當前遍歷的當前結(jié)束位置之間的字符串,之后結(jié)束;步驟a5、取出當前開始位置和當前遍歷的當前結(jié)束位置之間的字符串。較佳的,所述裝置還包括:第二處理單元,用于在確定單元確定待提取文本特征的第一文本之后,第一處理單元針對每一第一滑動窗口,從設(shè)定的初始滑動位置開始,沿著構(gòu)成所述第一文本的字符的排列路徑,以該第一滑動窗口相應(yīng)的滑動步長滑動該第一滑動窗口,并提取滑動過程中該第一滑動窗口內(nèi)的字符串,直至滑過構(gòu)成所述第一文本的各字符之前,確定所述第一文本中包含重復(fù)文本,其中,重復(fù)文本包括單字符串重復(fù)文本和多字符串重復(fù)文本;對所述第一文本進行去重處理,得到第二文本;所述第一處理單元,具體用于針對每一第一滑動窗口,從設(shè)定的初始滑動位置開始,沿著構(gòu)成所述第二文本的字符的排列路徑,以該第一滑動窗口相應(yīng)的滑動步長滑動該第一滑動窗口,并提取滑動過程中該第一滑動窗口內(nèi)的字符串,直至滑過構(gòu)成所述第一文本的各字符。較佳的,所述裝置還包括:第三處理單元,用于在確定單元確定待提取文本特征的第一文本之后,第二處理單元對所述第一文本進行去重處理,得到第二文本之前,確定所述第一文本中包含空格和/或單個標點符號;若包含空格,則用設(shè)定字符對所述第一文本中包含的空格進行替換處理,其中,所述設(shè)定字符為除標點符號和空格外的字符;若包含單個標點符號,則用設(shè)定字符對所述第一文本中包含的空格進行替換處理;若包含空格和單個標點符號,則用設(shè)定字符分別對所述第一文本中包含的空格和單個標點符號進行替換處理。較佳的,所述裝置還包括:第四處理單元,用于在確定單元確定待提取文本特征的第一文本之后,若確定所述第一文本中包含重復(fù)文本,則提取所述第一文本中包含的重復(fù)文本,其中,重復(fù)文本包括單字符串重復(fù)文本和多字符串重復(fù)文本;所述輸出單元,還用于將提取的重復(fù)文本作為所述第一文本的文本特征輸出。較佳的,所述第四處理單元,具體用于判斷所述第一文本中是否包含單字符串重復(fù)文本;若包含單字符串重復(fù)文本,則提取所述單字符串重復(fù)文本;若不包含單字符串重復(fù)文本,則判斷所述第一文本中是否包含多字符串重復(fù)文本;若包含多字符串重復(fù)文本,則提取所述多字符串重復(fù)文本。較佳的,所述第四處理單元,具體用于執(zhí)行以下步驟:步驟b1:將所述第一文本的起始字符所在位置作為最小第二滑動窗口的當前開始位置,其中,最小第二滑動窗口的尺寸為2個字符;步驟b2:判斷最小第二滑動窗口的當前開始位置距離所述第一文本的結(jié)束字符所在位置是否小于設(shè)定值,該設(shè)定值為最小第二滑動窗口的尺寸減1個字符;若否,則執(zhí)行步驟b3,若是,則結(jié)束;步驟b3:判斷第三文本中是否包含單字符串重復(fù)文本,所述第三文本為從最小第二滑動窗口的當前開始位置處的字符至第一文本的結(jié)束字符之間的字符,若是,則執(zhí)行步驟b4;若否,則執(zhí)行步驟b6;步驟b4:提取第三文本中的單字符串重復(fù)文本,之后執(zhí)行步驟b5;步驟b5:用單字符串重復(fù)文本的結(jié)束位置處的字符之后相鄰的字符所在位置更新步驟b2中的最小第二滑動窗口的當前開始位置,之后跳轉(zhuǎn)至步驟b2;步驟b6:判斷最小第二滑動窗口的當前開始位置距離所述第一文本的結(jié)束字符所在位置是否小于最小第二滑動窗口的尺寸,若否,則執(zhí)行步驟b7,若是,則執(zhí)行步驟b10;步驟b7:判斷第四文本中是否包含多字符串重復(fù)文本,所述第四文本為從最小第二滑動窗口的當前開始位置處的字符至第一文本的結(jié)束字符之間的字符,若是,則執(zhí)行步驟b8,若否,則執(zhí)行步驟b10;步驟b8:提取第四文本中的多字符串重復(fù)文本,之后執(zhí)行步驟b9;步驟b9:用多字符串重復(fù)文本的結(jié)束位置處的字符之后相鄰的字符所在位置更新步驟b2中的最小第二滑動窗口的當前開始位置,之后跳轉(zhuǎn)至步驟b2;步驟b10:用最小第二滑動窗口的當前開始位置處的字符之后的下一個字符所在位置更新步驟b2中的最小第二滑動窗口的當前開始位置,之后跳轉(zhuǎn)至步驟b2。較佳的,所述第四處理單元,具體用于通過以下步驟執(zhí)行步驟b3:步驟b31:判斷最小第二滑動窗口的當前開始位置處的字符與最小第二滑動窗口的當前結(jié)束位置處的字符是否相同;若相同,則執(zhí)行步驟b32;若不相同,則執(zhí)行步驟b33;步驟b32:沿著構(gòu)成第三文本的字符的排列路徑,查找最小第二滑動窗口外的字符中,第一個與最小第二滑動窗口的當前開始位置處的字符不相同的字符,并將找到的不相同的字符所在位置作為單字符串重復(fù)文本的結(jié)束位置處的字符之后的一個字符所在位置;步驟b33:執(zhí)行判斷最小第二滑動窗口的當前開始位置距離所述第一文本的結(jié)束字符所在位置是否小于最小第二滑動窗口的尺寸的步驟。較佳的,所述第四處理單元,具體用于通過以下步驟執(zhí)行步驟b7:步驟b701:將第四文本的長度的一半作為最大第二滑動窗口的尺寸;步驟b702:判斷最小第二滑動窗口的當前開始位置是否為第一文本的起始字符所在位置,若是,則執(zhí)行步驟b703;若否,則執(zhí)行步驟b704;步驟b703:用第一文本的起始字符之后相鄰的字符所在位置作為第四文本的起始字符的位置,之后執(zhí)行步驟b705;步驟b704:將最小第二滑動窗口的當前開始位置作為第四文本的起始字符的位置,之后執(zhí)行步驟b705;步驟b705:將最小第二滑動窗口的尺寸作為當前第二窗口的尺寸;之后執(zhí)行步驟706;步驟706:判斷當前第二窗口的尺寸是否不大于最大第二滑動窗口的尺寸;若是,則執(zhí)行步驟b707;若否,則執(zhí)行步驟b713;步驟b707:判斷當前第二滑動窗口中的字符串和第三滑動窗口中的字符串是否相同,其中,第三滑動窗口是當前第二滑動窗口沿著第四文本的排列路徑滑動當前第二滑動窗口的尺寸個字符后得到的滑動窗口;若相同,則執(zhí)行步驟b708;若不相同,則執(zhí)行步驟b711;步驟b708:保存當前第二滑動窗口的字符串和第三滑動窗口中的字符串,之后執(zhí)行步驟b709;步驟b709:將當前第二滑動窗口沿著第四文本的排列路徑滑動當前第二滑動窗口的尺寸個字符,之后執(zhí)行步驟b710;步驟b710:將當前第二滑動窗口的結(jié)束位置作為第四文本的起始字符的位置,之后執(zhí)行步驟b707;步驟b711:用當前第二滑動窗口的尺寸加1個字符后得到的值更新步驟b707中的當前第二滑動窗口的尺寸,之后執(zhí)行步驟b712;步驟b712:用更新尺寸后的當前第二滑動窗口外至第一文本結(jié)束字符之間的字符的個數(shù)的一半更新步驟b706中的最大第二滑動窗口的尺寸,之后跳轉(zhuǎn)至步驟b706;步驟b713:用第四文本的起始字符的位置處的字符之后相鄰的字符所在位置更新最小第二滑動窗口的當前開始位置,之后跳轉(zhuǎn)至步驟b2。較佳的,所述裝置還包括:公共預(yù)處理單元,用于在確定單元確定待提取文本特征的第一文本之后,針對每一滑動窗口,第一處理單元從設(shè)定的初始滑動位置開始,沿著構(gòu)成第一文本的字符的排列路徑,以該滑動窗口相應(yīng)的滑動步長滑動該滑動窗口,并提取滑動過程中該滑動窗口內(nèi)的字符串,直至滑過構(gòu)成所述第一文本的各字符之前,對所述第一文本進行進行公共預(yù)處理,所述公共預(yù)處理包括以下一種或多種的組合:過濾文本中的網(wǎng)絡(luò)地址信息、過濾文本中的設(shè)定日期信息、過濾文本中的錢款信息、過濾文本中的訂單號信息、將文本中的多個空格替換成一個空格。較佳的,所述裝置還包括:自定義預(yù)處理單元,用于在確定單元確定待提取文本特征的第一文本之后,針對每一滑動窗口,第一處理單元從設(shè)定的初始滑動位置開始,沿著構(gòu)成第一文本的字符的排列路徑,以該滑動窗口相應(yīng)的滑動步長滑動該滑動窗口,并提取滑動過程中該滑動窗口內(nèi)的字符串,直至滑過構(gòu)成所述第一文本的各字符之前,對所述第一文本進行進行自定義預(yù)處理,所述自定義預(yù)處理包括以下一種或多種的組合:過濾文本中的設(shè)定地址和名稱信息、過濾文本中的設(shè)定前綴信息、過濾文本中的設(shè)定后綴信息。實施例五基于與實施例一、實施例二和實施例三的同一發(fā)明構(gòu)思,本申請實施例四提供一種文本特征提取裝置,其結(jié)構(gòu)示意圖如圖8所示,包括:文本特征提取單元81和分類單元82;其中:文本特征提取單元81,用于利用文本特征提取方法提取待分類文本中的文本特征,其中,所述文本特征提取方法包括:確定待提取文本特征的第一文本,以及至少一個用于提取文本特征的第一滑動窗口和相應(yīng)的滑動步長;針對每一第一滑動窗口,從設(shè)定的初始滑動位置開始,沿著構(gòu)成所述第一文本的字符的排列路徑,以該第一滑動窗口相應(yīng)的滑動步長滑動該第一滑動窗口,并提取滑動過程中該第一滑動窗口內(nèi)的字符串,直至滑過構(gòu)成所述第一文本的各字符;將提取的字符串作為所述第一文本的文本特征輸出;分類單元82,用于將提取的待分類文本中的文本特征輸入文本分類模型,得到待分類文本的類別,得到待分類文本的類別,其中,所述文本分類模型為預(yù)先根據(jù)文本樣本對預(yù)置的分類模型進行訓(xùn)練,得到根據(jù)待分類文本的文本特征對該待分類文本進行分類的文本分類模型。較佳的,所述裝置還包括:訓(xùn)練單元83,用于利用所述文本特征提取方法對文本樣本分別進行文本特征提取;利用提取的文本樣本的文本特征對預(yù)置的分類模型進行訓(xùn)練,得到文本分類模型。較佳的,所述待分類文本為從即時通訊工具中接收到的來自客戶端的文本,所述裝置還包括:查找單元84,用于從預(yù)先保存的類別與服務(wù)方式的對應(yīng)關(guān)系中,查找待分類文本的類別對應(yīng)的服務(wù)方式,所述服務(wù)方式為針對分類文本做出響應(yīng)的方式;發(fā)送單元85,用于將該待分類文本轉(zhuǎn)發(fā)給查找到的服務(wù)方式所對應(yīng)的服務(wù)設(shè)備。上述實施例四和實施例五的具體實現(xiàn)細節(jié),可參照實施例一至實施例三中的方法部分,這里不再贅述。通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明實施例可以通過硬件實現(xiàn),也可以借助軟件加必要的通用硬件平臺的方式實現(xiàn)。基于這樣的理解,本發(fā)明實施例的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個非易失性存儲介質(zhì)(可以是cd-rom,u盤,移動硬盤等)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述的方法。本領(lǐng)域技術(shù)人員可以理解附圖只是一個優(yōu)選實施例的示意圖,附圖中的模塊或流程并不一定是實施本發(fā)明所必須的。本領(lǐng)域技術(shù)人員可以理解實施例中終端中的模塊可以按照實施例描述進行分布于實施例的終端中,也可以進行相應(yīng)變化位于不同于本實施例的一個或多個終端中。上述實施例的模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。當前第1頁12
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
信阳市| 怀来县| 茌平县| 怀集县| 抚宁县| 陆河县| 三明市| 临汾市| 台江县| 荣昌县| 封丘县| 墨江| 雅安市| 辛集市| 和田县| 新郑市| 沁源县| 专栏| 江口县| 疏附县| 临湘市| 安远县| 光泽县| 瓮安县| 县级市| 阜阳市| 中阳县| 华容县| 潞城市| 台山市| 沁阳市| 泰来县| 调兵山市| 黄陵县| 日照市| 德昌县| 东乌| 克东县| 孟连| 民权县| 东乌珠穆沁旗|