欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種問題標簽標注方法及裝置的制作方法

文檔序號:6386353閱讀:160來源:國知局
專利名稱:一種問題標簽標注方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域和計算機技術(shù)領(lǐng)域,尤其涉及一種問題標簽標注方法
及裝置。
背景技術(shù)
互聯(lián)網(wǎng)應用中的知識問答業(yè)務的應用,是指ー個用戶可以在知識問答平臺上提出問題,由其它用戶對該問題進行答復,該用戶也可以瀏覽知識問答平臺上展現(xiàn)的問題,并對其進行答復,該用戶也可以在知識問答平臺上對問題進行搜索,以便了解其欲獲知的問題的答案。為了更高效的對知識問答平臺上的問題進行管理,以及為了使得用戶更方便的使用知識問答平臺,可以對知識問答平臺上展現(xiàn)的問題標注問題標簽,在對問題標注問題標簽之后,即可以對問題進行分類,以及在對問題進行搜索時,可以基于問題標簽進行捜索,以提高搜索效率和準確性。并且,知識問答平臺是用戶根據(jù)自身需求或興趣提出問題,由其他用戶進行回答的互動式知識問答分享平臺。通過對問題標注問題標簽,還可以形成基于標簽的問題集和用戶集,建立問題和相關(guān)用戶的關(guān)聯(lián)關(guān)系,提供在問題標簽下的權(quán)威用戶和興趣用戶,確保問題回答的專業(yè)性和及時性。現(xiàn)有的在知識問答平臺中對問題標注問題標簽,可以采用人工標注的方式,例如,用戶在知識問答平臺上提出問題時,對提出的問題標注問題標簽,也可以由知識問答平臺的后臺管理人員,根據(jù)問題的內(nèi)容對問題標注問題標簽,其中,由于對用戶的行為不可控,所以用戶自主標注的問題標簽可能會不準確,由后臺管理人員標注問題標簽的方式,需要大量的人力,且處理效率較低,當知識問答平臺上存在大量的問題時,無法及時的新提出的問題進行問題標簽的標注。除人工標注的方式外,還可以采用基于標簽庫的方式,即預先將可以作為問題標簽的詞語組成標簽庫,然后從標簽庫中選擇與該問題比較相關(guān)的詞語推薦給用戶,所選擇的詞語可以是作為問題標簽對問題進行標注的次數(shù)較多的詞語,由用戶從推薦詞語中選擇詞語作為問題標簽,對該問題進行標注。然而,在實際使用時,可能由于標簽庫中包括的詞語有限,而無法獲得能夠準確表征該問題的詞語,如果預先在標簽庫中設置大量詞語,則會導致在獲取與該問題相關(guān)的詞語時的計算量較大,浪費處理資源;并且,在選擇標簽庫中的詞語推薦給用戶時,對于標簽庫中新加入的詞語,可能由于其被使用的次數(shù)較少,而一直沒有被選擇。總之,現(xiàn)有技術(shù)中對問題標注問題標簽的方法,無法兼顧標注的及時性以及準確性,且存在標注的問題標簽不夠全面的問題。

發(fā)明內(nèi)容
本發(fā)明實施例提供一種問題標簽標注方法及裝置,用以解決現(xiàn)有技術(shù)中存在的對問題標注問題標簽時不夠及時以及不夠準確和全面的問題。本發(fā)明實施例提供一種問題標簽標注方法,包括對待標注問題進行分詞處理,得到所述待標注問題包括的各問題分詞;從所述各問題分詞中確定詞性為預設詞性的各第一待選問題分詞;基于預設詞性與第一權(quán)重值的對應關(guān)系,根據(jù)所述各第一待選問題分詞的詞性,分別確定所述各第一待選問題分詞的第一權(quán)重值;基于所述各第一待選問題分詞的第一權(quán)重值,從所述各第一待選問題分詞中選擇問題分詞作為問題標簽,對所述待標注問題進行標注。本發(fā)明實施例還提供一種問題標簽標注裝置,包括分詞單元,用于對待標注問題進行分詞處理,得到所述待標注問題包括的各問題分詞;第一分詞選擇単元,用于從所述各問題分詞中確定詞性為預設詞性的各第一待選問題分詞;第一權(quán)重確定單元,用于基于預設詞性與第一權(quán)重值的對應關(guān)系,根據(jù)所述各第一待選問題分詞的詞性,分別確定所述各第一待選問題分詞的第一權(quán)重值;標注單元,用于基于所述各第一待選問題分詞的第一權(quán)重值,從所述各第一待選問題分詞中選擇問題分詞作為問題標簽,對所述待標注問題進行標注。本發(fā)明有益效果包括本發(fā)明實施例提供的方法中,預先設置了可以作為問題標簽的詞語的預設詞性,還預先設置了預設詞性與第一權(quán)重值的對應關(guān)系,在針對待標注問題進行問題標簽標注吋,對待標注問題進行分詞處理,得到該待標注問題包括的各問題分詞,并從各問題分詞中確定詞性為預設詞性的各第一待選問題分詞,然后基于預設詞性與第一權(quán)重值的對應關(guān)系,根據(jù)各第一待選問題分詞的詞性,分別確定各第一待選問題分詞的第一權(quán)重值,以及基于各第一待選問題分詞的第一權(quán)重值,從各第一待選問題分詞中選擇問題分詞作為問題標簽,對該待標注問題進行標注。相比人工標注的方式,不再受限于人為的主觀因素,可以按照統(tǒng)ー的問題標簽選擇標準確定問題標簽,從而提高了準確性,相比人工標注的方式提高了處理效率,即提高了標注的及時性;并且,本方案也不再受限于標簽庫所包括的詞語,只要是問題中出現(xiàn)的詞語,均有可能作為問題標簽,進而提高了標注的全面性。本申請的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本申請而了解。本申請的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。


附圖用來提供對本發(fā)明的進ー步理解,并且構(gòu)成說明書的一部分,與本發(fā)明實施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中圖1為本發(fā)明實施例提供的問題標簽標注方法的流程圖;圖2為本發(fā)明實施例1提供的問題標簽標注方法的流程圖;圖3為本發(fā)明實施例中采用的Trie樹的結(jié)構(gòu)示意圖;圖4為本發(fā)明實施例2提供的問題標簽標注方法的流程圖5為本發(fā)明實施例3提供的問題標簽標注裝置的結(jié)構(gòu)示意圖。
具體實施例方式為了給出提高對問題標注問題標簽的及時性、準確性和全面性的實現(xiàn)方案,本發(fā)明實施例提供了一種問題標簽標注方法及裝置,以下結(jié)合說明書附圖對本發(fā)明的優(yōu)選實施例進行說明,應當理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明,并不用于限定本發(fā)明。并且在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。本發(fā)明實施例提供一種問題標簽標注方法,如圖1所示,包括步驟101、對待標注問題進行分詞處理,得到該待標注問題包括的各問題分詞。步驟102、從該各問題分詞中確定詞性為預設詞性的各第一待選問題分詞。 步驟103、基于預設詞性與第一權(quán)重值的對應關(guān)系,根據(jù)各第一待選問題分詞的詞性,分別確定各第一待選問題分詞的第一權(quán)重值。步驟104、基于各第一待選問題分詞的第一權(quán)重值,從各第一待選問題分詞中選擇問題分詞作為問題標簽,對該待標注問題進行標注。下面結(jié)合附圖,用具體實施例對本發(fā)明提供的方法及裝置進行詳細描述。實施例1 :圖2所示為本發(fā)明實施例1提供的問題標簽標注方法的流程圖,具體包括如下處
理步驟步驟201、對待標注問題進行分詞處理,得到該待標注問題包括的各問題分詞。本步驟中,可以對待標注問題的標題進行分詞處理,也可以對待標注問題的問題內(nèi)容進行分詞處理,所采用的分詞處理的方式,可以為現(xiàn)有技術(shù)中的各種方式,在此不再進行詳細描述。步驟202、確定各問題分詞中在預設標簽庫中存在的各詞語,作為各第二待選問題分詞。本發(fā)明實施例中,為了進一步提高標注問題標簽的準確性和全面性,除基于詞性確定問題標簽外,還可以基于預設標簽庫中的詞語確定問題標簽,即預先設置標簽庫,預設標簽庫中的詞語為可以作為問題標簽的詞語。本步驟中,在確定各問題分詞中在預設標簽庫中存在的各詞語時,可以通過建立Trie樹模型匹配預設標簽庫的方式確定,具體如下首先確定預設標簽庫中各詞語分別對應的字符串,并基于各字符串建立與預設標簽庫對應的Trie樹,Trie樹的根節(jié)點不包括任何內(nèi)容,每個子節(jié)點具有三個屬性,第一個屬性為表征一個字符,第二個屬性為該子節(jié)點的各子節(jié)點的指針,第三個屬性為該子節(jié)點是否為一個字符串的結(jié)束字符,當一個子節(jié)點是ー個字符串的結(jié)束字符時,該子節(jié)點所表征的字符串即為從根節(jié)點到該子節(jié)點的節(jié)點路徑中包括的所有子節(jié)點表征的字符組成的字符串,并且,Trie樹中作為字符串的結(jié)束字符的各子節(jié)點所表征的各字符串與預設標簽庫中包括的各詞語--對應。以四個字符串a(chǎn)bc、d、de和ddc為例,如圖3所示,為所建立的Trie樹的結(jié)構(gòu)示意圖,其中子節(jié)點為NULL時表示該子節(jié)點是ー個字符串的結(jié)束字符。在針對預設標簽庫包括的各詞語建立對應的Trie樹之后,將該Trie樹存入內(nèi)存,為后續(xù)針對問題包括的各問題分詞匹配預設標簽庫中的詞語做準備,通過用空間換時間的方式,利用字符串的公共前綴來降低查詢時間的開銷。在確定各問題分詞是否在預設標簽庫中存在時,可以依次查詢該待標注問題包括的每個問題分詞對應的字符串在該Trie樹中是否存在,如果存在,則表示該問題分詞在預設標簽庫中存在。Trie樹的查詢復雜度為O(Len),其中,L為待查詢字符串的長度。在確定出在預設標簽庫中存在的各第ニ待選問題分詞之后,還可以進ー步的確定各第二待選問題分詞分別在歷史統(tǒng)計的多個問題中出現(xiàn)的次數(shù),用于后續(xù)確定第二權(quán)重值使用。預設標簽庫包括的各詞語和各詞語在歷史統(tǒng)計的多個問題中出現(xiàn)的次數(shù),可以預·先存儲在Hash表中,表中各詞語可以按照GBK編碼方式進行編碼。本步驟為可選步驟。步驟203、從各問題分詞中確定詞性為預設詞性的各詞語,作為各第一待選問題分
;ロo本發(fā)明實施例中,預先設置了ー些預設詞性,詞性為預設詞性的詞語可以作為問題標簽,用于對問題進行標注。例如,預設詞性可以包括所有名詞,如人物名詞、機構(gòu)名詞、處所名詞和專有名詞等,還可以包括部分動詞,如不及物謂詞和名動詞,還可以包括部分形容詞,如名形詞,還可以包括表征時間的詞語,如時間詞語素和時間專指詞。當未執(zhí)行上述步驟202時,本步驟中確定的各第一待選問題分詞可以為各問題分詞中詞性為預設詞性的所有詞語。當執(zhí)行上述步驟202時,本步驟具體可以為,從各問題分詞中除各第二待選問題分詞之外的問題分詞中,確定詞性為預設詞性的各詞語,作為各第一待選問題分詞,即各第一待選問題分詞不屬于預設標簽庫中的詞語。本步驟中,在確定問題分詞的詞性時,可以先確定問題分詞是否為預設詞性,如果是,再進ー步的確定是哪ー種預設詞性,如果不是,則不需要再進ー步確定具體的詞性。本步驟中,可以采用現(xiàn)有技術(shù)中的各種詞性確定方法,例如,可以采用統(tǒng)計方法確定問題分詞的詞性,對于待確定問題分詞,基于統(tǒng)計的方法先確定與其對應的所有待選詞性,然后對每個待選詞性進行打分,并選擇得分最高的詞性作為該待確定問題分詞的詞性,進ー步細節(jié)的處理過程在此不再進行詳細描述。步驟204、基于預設詞性與第一權(quán)重值的對應關(guān)系,根據(jù)各第一待選問題分詞的詞性,分別確定各第一待選問題分詞的第一權(quán)重值。本發(fā)明實施例中,可以預先設置各種預設詞性與第一權(quán)重值的對應關(guān)系,例如,可以將第一權(quán)重值分為三個等級,第一等級最高,對應的預設詞性可以包括時間詞語素、時間專指詞、不及物謂詞;第二等級次之,對應的預設詞性可以包括人物名詞、機構(gòu)名詞、處所名詞和專有名詞等名詞;第三等級再次之,對應的預設詞性可以包括名形詞和名動詞。其中,每個等級對應的第一權(quán)重值可以根據(jù)實際需要進行靈活設置,例如,第一等級對應的第一權(quán)重值可以為2,第二等級對應的第一權(quán)重值可以為1,第三等級對應的第一權(quán)重值可以為0. 3。步驟205、基于各第一待選問題分詞的第一權(quán)重值,從各第一待選問題分詞中選擇問題分詞作為問題標簽,對待標注問題進行標注。
例如,具體可以按照第一權(quán)重值從高到低的順序選擇第一預設數(shù)量的第一待選問題分詞,作為問題標簽,對于第一權(quán)重值相同的情況,可以進行隨機選擇。步驟206、進一步的,當執(zhí)行上述步驟202時,為了提高問題標簽標注的全面性,還可以根據(jù)各第二待選問題分詞分別在歷史統(tǒng)計的多個問題中出現(xiàn)的次數(shù),分別確定各第二待選問題分詞的第二權(quán)重值,其中,出現(xiàn)的次數(shù)越多,第二權(quán)重值越大。步驟207、基于各第二待選問題分詞的第二權(quán)重值,從各第二待選問題分詞中選擇問題分詞作為問題標簽,對該待標注問題進行標注。例如,具體可以按照 第二權(quán)重值從高到低的順序選擇第二預設數(shù)量的第二待選問題分詞,作為問題標簽,對于第二權(quán)重值相同的情況,可以進行隨機選擇。步驟208、為了進一步的提高問題標簽標注的全面性,本步驟中,還可以從預設標簽庫中,確定與從各第二待選問題分詞中選擇的作為問題標簽的第二待選問題分詞的相似度滿足預設相似度條件的詞語,并將滿足預設相似度條件的詞語作為問題標簽,對該待標注問題進行標注。其中,預設相似度條件可以為相似度達到預設相似度閾值,也可以為按照相似度從高到低的順序的位于前第三預設數(shù)量的問題分詞。本步驟中,針對兩個詞語的相似度的確定,可以采用如下方式確定兩個詞語的相似度為兩個詞語的特征向量的相似度,其中,詞語的特征向量的維度為歷史統(tǒng)計的N個問題的數(shù)量,詞語的特征向量的N個分量與N個問題一一對應,針對N個問題中的每個問題,當詞語在該問題中出現(xiàn)時,該詞語的特征向量的與該問題對應的分量的分量值為1,當詞語在該問題中未出現(xiàn)時,該詞語的特征向量的與該問題對應的分量的分量值為O。兩個詞語的特征向量的相似度,具體可以采用余弦相似度進行確定,公式如下
Σλν>!, .ZENeWj其中,S為詞語X和詞語y的特征向量的相似度,Xi為詞語X的第i個分量的分量值,Yi為詞語I的第i個分量的分量值。步驟209、進一步的,為了后續(xù)確定問題標簽時能夠更及時以及更準確,本步驟中,還可以將從各第一待選問題分詞中選擇的作為問題標簽的第一待選問題分詞添加到預設標簽庫中,以在預設標簽庫中補充可以作為問題標簽的詞語,從而使得后續(xù)基于預設標簽庫確定問題標簽時能夠更準確。實施例2:圖4所示為本發(fā)明實施例2提供的問題標簽標注方法的流程圖,具體包括如下處理步驟步驟401、對待標注問題進行分詞處理,得到該待標注問題包括的各問題分詞。本步驟中,可以對待標注問題的標題進行分詞處理,也可以對待標注問題的問題內(nèi)容進行分詞處理,所采用的分詞處理的方式,可以為現(xiàn)有技術(shù)中的各種方式,在此不再進行詳細描述。步驟402、確定各問題分詞中在預設標簽庫中存在的各詞語,作為各第二待選問題分詞。
本發(fā)明實施例中,為了進一步提高標注問題標簽的準確性和全面性,除基于詞性確定問題標簽外,還可以基于預設標簽庫中的詞語確定問題標簽,即預先設置標簽庫,預設標簽庫中的詞語為可以作為問題標簽的詞語。本步驟中,在確定各問題分詞中在預設標簽庫中存在的各詞語時,可以通過建立Trie樹模型匹配預設標簽庫的方式確定,具體可參考上述實施例1中的步驟202中的相關(guān)內(nèi)容,在此不再進行詳細描述。步驟403、根據(jù)各第二待選問題分詞分別在歷史統(tǒng)計的多個問題中出現(xiàn)的次數(shù),分別確定各第二待選問題分詞的第二權(quán)重值,其中,出現(xiàn)的次數(shù)越多,第二權(quán)重值越大。步驟404、從各問題分詞中確定詞性為預設詞性的各詞語,作為各第一待選問題分
ο本發(fā)明實施例中,預先設置了一些預設詞性,詞性為預設詞性的詞語可以作為問題標簽,用于對問題進行標注。例如,預設詞性可以包括所有名詞,如人物名詞、機構(gòu)名詞、處所名詞和專有名詞等,還可以包括部分動詞,如不及物謂詞和名動詞,還可以包括部分形容詞,如名形詞,還可以包括表征時間的詞語,如時間詞語素和時間專指詞。本步驟中確定的各第一待選問題分詞可以為各問題分詞中詞性為預設詞性的所有詞語。本步驟中,在確定問題分詞的詞性時,可以先確定問題分詞是否為預設詞性,如果是,再進一步的確定是哪一種預設詞性,如果不是,則不需要再進一步確定具體的詞性。本步驟中,可以采用現(xiàn)有技術(shù)中的各種詞性確定方法,例如,可以采用統(tǒng)計方法確定問題分詞的詞性,對于待確定問題分詞,基于統(tǒng)計的方法先確定與其對應的所有待選詞性,然后對每個待選詞性進行打分,并選擇得分最高的詞性作為該 待確定問題分詞的詞性,進一步細節(jié)的處理過程在此不再進行詳細描述。本步驟與上述步驟402和步驟403之間沒有嚴格的先后順序。步驟405、基于預設詞性與第一權(quán)重值的對應關(guān)系,根據(jù)各第一待選問題分詞的詞性,分別確定各第一待選問題分詞的第一權(quán)重值。本發(fā)明實施例中,可以預先設置各種預設詞性與第一權(quán)重值的對應關(guān)系,例如,可以將第一權(quán)重值分為三個等級,第一等級最高,對應的預設詞性可以包括時間詞語素、時間專指詞、不及物謂詞;第二等級次之,對應的預設詞性可以包括人物名詞、機構(gòu)名詞、處所名詞和專有名詞等名詞;第三等級再次之,對應的預設詞性可以包括名形詞和名動詞。其中,每個等級對應的第一權(quán)重值可以根據(jù)實際需要進行靈活設置,例如,第一等級對應的第一權(quán)重值可以為2,第二等級對應的第一權(quán)重值可以為1,第三等級對應的第一權(quán)重值可以為O. 3。本步驟與上述步驟402和步驟403之間沒有嚴格的先后順序步驟406、將在各第一待選問題分詞或各第二待選問題分詞中存在的問題分詞確定為各第三待選問題分詞,即第三待選問題分詞包括了第一待選問題分詞和第二待選問題分詞。步驟407、基于各第三待選問題分詞的第一權(quán)重值和第二權(quán)重值,確定各第三待選問題分詞的第三權(quán)重值,其中,各第三待選問題分詞中不屬于第一待選問題分詞的第二待選問題分詞的第一權(quán)重值為0,各第三待選問題分詞中不屬于第二待選問題分詞的第一待選問題分詞的第二權(quán)重值為O。第三權(quán)重值具體可以為第一權(quán)重值和第二權(quán)重值的和值,也可以為基于第一權(quán)重值和第二權(quán)重值進行加權(quán)求和。步驟408、基于各第三待選問題分詞的第三權(quán)重值,從各第三待選問題分詞中選擇問題分詞作為問題標簽,對待標注問題進行標注。例如,具體可以按照第三權(quán)重值從高到低的順序選擇第四預設數(shù)量的第三待選問題分詞,作為問題標簽,對于第三權(quán)重值相同的情況,可以進行隨機選擇。采用本發(fā)明實施例1和實施例2提供的上述問題標簽標注方法,相比人工標注的方式,不再受限于人為的主觀因素,可以按照統(tǒng)一的問題標簽選擇標準確定問題標簽,從而提高了準確性,相比人工標注的方式提高了處理效率,即提高了標注的及時性;并且,本方案也不再受限于標簽庫所包括的詞語,只要是問題中出現(xiàn)的詞語,均有可能作為問題標簽,進而提高了標注的全面性。實施例3 基于同一發(fā)明構(gòu)思,根據(jù)本發(fā)明上述實施例提供的問題標簽標注方法,相應地,本發(fā)明實施例3還提供了一種問題標簽標注裝置,其結(jié)構(gòu)示意圖如圖5所示,具體包括分詞單元501,用于對待標注問題進行分詞處理,得到所述待標注問題包括的各問題分詞;第一分詞選擇單元502,用于從所述各問題分詞中確定詞性為預設詞性的各第一待選問題分詞;第一權(quán)重確定單元503,用于基于預設詞性與第一權(quán)重值的對應關(guān)系,根據(jù)所述各第一待選問題分詞的詞性,分別確定所述各第一待選問題分詞的第一權(quán)重值;標注單元504,用于基于所述各第一待選問題分詞的第一權(quán)重值,從所述各第一待選問題分詞中選擇問題分詞作為問題標簽,對所述待標注問題進行標注。進一步的,上述裝置,還包括第二分詞選擇單元505,用于確定所述各問題分詞中在預設標簽庫中存在的各第二待選問題分詞;第一分詞選擇單元502,具體用于從所述各問題分詞中除所述各第二待選問題分詞之外的問題分詞中,確定詞性為預設詞性的各第一待選問題分詞。進一步的,上述裝置,還包括第二權(quán)重確定單元506,用于根據(jù)所述各第二待選問題分詞分別在歷史統(tǒng)計的多個問題中出現(xiàn)的次數(shù),分別確定所述各第二待選問題分詞的第二權(quán)重值;標注單元504,還用于基于所述各第二待選問題分詞的第二權(quán)重值,從所述各第二待選問題分詞中選擇問題分詞作為問題標簽,對所述待標注問題進行標注。進一步的,上述裝置,還包括第三分詞選擇單元507,用于從所述預設標簽庫中,確定與從所述各第二待選問題分詞中選擇的作為問題標簽的第二待選問題分詞的相似度滿足預設相似度條件的詞語;標注單元504,用于將滿足預設相似度條件的詞語作為問題標簽,對所述待標注問題進行標注。進一步的,第三分詞選擇單元507,具體用于采用如下方式確定兩個詞語的相似度確定所述兩個詞語的相似度為所述兩個詞語的特征向量的相似度,其中,詞語的特征向量的維度為歷史統(tǒng)計的N個問題的數(shù)量,詞語的特征向量的N個分量與N個問題一一對應,針對N個問題中的每個問題,當詞語在該問題中出現(xiàn)時,該詞語的特征向量的與該問題對應的分量的分量值為1,當詞語在該問題中未出現(xiàn)時,該詞語的特征向量的與該問題對應的分量的分量值為O。進一步的,還包括添加單元508,用于將從所述各第一待選問題分詞中選擇的作為問題標簽的第一待選問題分詞添加到預設標簽庫中。進一步的,上述裝置,還包括第二分詞選擇單元505,用于確定所述各問題分詞中在預設標簽庫中存在的各第二待選問題分詞;第二權(quán)重確定單元506,用于根據(jù)所述各第二待選問題分詞分別在歷史統(tǒng)計的多個問題中出現(xiàn)的次數(shù),分別確定所述各第二待選問題分詞的第二權(quán)重值;標注單元504,具體用于將在所述各第一待選問題分詞或所述各第二待選問題分詞中存在的問題分詞確定為各第三待選問題分詞;并基于所述各第三待選問題分詞的第一權(quán)重值和第二權(quán)重值,確定所述各第三待選問題分詞的第三權(quán)重值,其中,所述各第三待選問題分詞中不屬于第一待選問題分詞的第二待選問題分詞的第一權(quán)重值為0,所述各第三待選問題分詞中不屬于第二待選問題分詞的第一待選問題分詞的第二權(quán)重值為O ;以及基于所述各第三待選問題分詞的第三權(quán)重值,從所述各第三待選問題分詞中選擇問題分詞作為問題標簽,對所述待標注問題進行標注。上述各單元的功能可對應于圖1、圖2以及圖4所示流程中的相應處理步驟,在此不再贅述。綜上所述,本發(fā)明實施例提供的方案,包括對待標注問題進行分詞處理,得到該待標注問題包括的各問題分詞;并從該各問題分詞中確定詞性為預設詞性的各第一待選問題分詞;并基于預設詞性與第一權(quán)重值的對應關(guān)系,根據(jù)各第一待選問題分詞的詞性,分別確定各第一待選問題分詞的第一權(quán)重值;以及基于各第一待選問題分詞的第一權(quán)重值,從各第一待選問題分詞中選擇問題分詞作為問題標簽,對該待標注問題進行標注。采用本發(fā)明實施例提供的方案,提高了對問題標注問題標簽的及時性、準確性和全面性。本申請的實施例所提供的標注裝置可通過計算機程序?qū)崿F(xiàn)。本領(lǐng)域技術(shù)人員應該能夠理解,上述的模塊劃分方式僅是眾多模塊劃分方式中的一種,如果劃分為其他模塊或不劃分模塊,只要具有上述功能,都應該在本申請的保護范圍之內(nèi)。本申請是參照根據(jù)本申請實施例的方法、設備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1.一種問題標簽標注方法,其特征在于,包括 對待標注問題進行分詞處理,得到所述待標注問題包括的各問題分詞; 從所述各問題分詞中確定詞性為預設詞性的各第一待選問題分詞; 基于預設詞性與第一權(quán)重值的對應關(guān)系,根據(jù)所述各第一待選問題分詞的詞性,分別確定所述各第一待選問題分詞的第一權(quán)重值; 基于所述各第一待選問題分詞的第一權(quán)重值,從所述各第一待選問題分詞中選擇問題分詞作為問題標簽,對所述待標注問題進行標注。
2.如權(quán)利要求1所述的方法,其特征在于,在從所述各問題分詞中確定詞性為預設詞性的各第一待選問題分詞之前,還包括 確定所述各問題分詞中在預設標簽庫中存在的各第二待選問題分詞; 從所述各問題分詞中確定詞性為預設詞性的各第一待選問題分詞,具體為 從所述各問題分詞中除所述各第二待選問題分詞之外的問題分詞中,確定詞性為預設詞性的各第一待選問題分詞。
3.如權(quán)利要求2所述的方法,其特征在于,在確定所述各問題分詞中在預設標簽庫中存在的各第二待選問題分詞之后,還包括 根據(jù)所述各第二待選問題分詞分別在歷史統(tǒng)計的多個問題中出現(xiàn)的次數(shù),分別確定所述各第二待選問題分詞的第二權(quán)重值; 基于所述各第二待選問題分詞的第二權(quán)重值,從所述各第二待選問題分詞中選擇問題分詞作為問題標簽,對所述待標注問題進行標注。
4.如權(quán)利要求3所述的方法,其特征在于,還包括 從所述預設標簽庫中,確定與作為問題標簽的第二待選問題分詞的相似度滿足預設相似度條件的詞語; 將滿足預設相似度條件的詞語作為問題標簽,對所述待標注問題進行標注。
5.如權(quán)利要求4所述的方法,其特征在于,采用如下方式確定兩個詞語的相似度 確定所述兩個詞語的相似度為所述兩個詞語的特征向量的相似度,其中,詞語的特征向量的維度為歷史統(tǒng)計的N個問題的數(shù)量,詞語的特征向量的N個分量與N個問題一一對應,針對N個問題中的每個問題,當詞語在該問題中出現(xiàn)時,該詞語的特征向量的與該問題對應的分量的分量值為1,當詞語在該問題中未出現(xiàn)時,該詞語的特征向量的與該問題對應的分量的分量值為O。
6.如權(quán)利要求2-5任一所述的方法,其特征在于,還包括 將從所述各第一待選問題分詞中選擇的作為問題標簽的第一待選問題分詞添加到預設標簽庫中。
7.如權(quán)利要求1所述的方法,其特征在于,在對待標注問題進行分詞處理之后,還包括 確定所述各問題分詞中在預設標簽庫中存在的各第二待選問題分詞; 根據(jù)所述各第二待選問題分詞分別在歷史統(tǒng)計的多個問題中出現(xiàn)的次數(shù),分別確定所述各第二待選問題分詞的第二權(quán)重值; 基于所述各第一待選問題分詞的第一權(quán)重值,從所述各第一待選問題分詞中選擇問題分詞作為問題標簽,對所述待標注問題進行標注,具體包括將在所述各第一待選問題分詞或所述各第二待選問題分詞中存在的問題分詞確定為各第三待選問題分詞; 基于所述各第三待選問題分詞的第一權(quán)重值和第二權(quán)重值,確定所述各第三待選問題分詞的第三權(quán)重值,其中,所述各第三待選問題分詞中不屬于第一待選問題分詞的第二待選問題分詞的第一權(quán)重值為O,所述各第三待選問題分詞中不屬于第二待選問題分詞的第一待選問題分詞的第二權(quán)重值為O ; 基于所述各第三待選問題分詞的第三權(quán)重值,從所述各第三待選問題分詞中選擇問題分詞作為問題標簽,對所述待標注問題進行標注。
8.一種問題標簽標注裝置,其特征在于,包括 分詞單元,用于對待標注問題進行分詞處理,得到所述待標注問題包括的各問題分詞; 第一分詞選擇單元,用于從所述各問題分詞中確定詞性為預設詞性的各第一待選問題分詞; 第一權(quán)重確定單兀,用于基于預設詞性與第一權(quán)重值的對應關(guān)系,根據(jù)所述各第一待選問題分詞的詞性,分別確定所述各第一待選問題分詞的第一權(quán)重值; 標注單元,用于基于所述各第一待選問題分詞的第一權(quán)重值,從所述各第一待選問題分詞中選擇問題分詞作為問題標簽,對所述待標注問題進行標注。
9.如權(quán)利要求8所述的裝置,其特征在于,還包括 第二分詞選擇單元,用于確定所述各問題分詞中在預設標簽庫中存在的各第二待選問題分詞; 所述第一分詞選擇單元,具體用于從所述各問題分詞中除所述各第二待選問題分詞之外的問題分詞中,確定詞性為預設詞性的各第一待選問題分詞。
10.如權(quán)利要求9所述的裝置,其特征在于,還包括 第二權(quán)重確定單元,用于根據(jù)所述各第二待選問題分詞分別在歷史統(tǒng)計的多個問題中出現(xiàn)的次數(shù),分別確定所述各第二待選問題分詞的第二權(quán)重值; 所述標注單元,還用于基于所述各第二待選問題分詞的第二權(quán)重值,從所述各第二待選問題分詞中選擇問題分詞作為問題標簽,對所述待標注問題進行標注。
全文摘要
本發(fā)明公開了一種問題標簽標注方法及裝置,包括對待標注問題進行分詞處理,得到該待標注問題包括的各問題分詞;并從該各問題分詞中確定詞性為預設詞性的各第一待選問題分詞;并基于預設詞性與第一權(quán)重值的對應關(guān)系,根據(jù)各第一待選問題分詞的詞性,分別確定各第一待選問題分詞的第一權(quán)重值;以及基于各第一待選問題分詞的第一權(quán)重值,從各第一待選問題分詞中選擇問題分詞作為問題標簽,對該待標注問題進行標注。采用本發(fā)明實施例提供的方案,提高了對問題標注問題標簽的及時性、準確性和全面性。
文檔編號G06F17/30GK103020295SQ20121059004
公開日2013年4月3日 申請日期2012年12月28日 優(yōu)先權(quán)日2012年12月28日
發(fā)明者陳玉焓 申請人:新浪網(wǎng)技術(shù)(中國)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
忻城县| 五大连池市| 汉中市| 砚山县| 大同市| 武威市| 灌阳县| 安图县| 兰溪市| 綦江县| 望奎县| 吴堡县| 易门县| 新蔡县| 正蓝旗| 金昌市| 东山县| 白玉县| 景宁| 齐齐哈尔市| 河间市| 泉州市| 华亭县| 修文县| 宜宾县| 涡阳县| 济宁市| 桃源县| 丹江口市| 五指山市| 历史| 积石山| 拉萨市| 武胜县| 修水县| 东宁县| 烟台市| 金门县| 锦屏县| 阿坝县| 苏尼特左旗|