欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種建立關鍵詞模型的方法及裝置與流程

文檔序號:12733698閱讀:355來源:國知局
一種建立關鍵詞模型的方法及裝置與流程

本發(fā)明涉及業(yè)務支撐技術領域,尤其涉及一種建立關鍵詞模型的方法及裝置。



背景技術:

隨著移動通信數據挖掘技術應用的越來越廣泛,客服中心存儲的大量錄音數據成了數據挖掘的重要研究方向,目前客服中心的錄音數據已經進行文本化,并可以進行基于關鍵詞的語義分析。

在進行基于關鍵詞的語義分析時,需要先依賴人工經驗確定關鍵詞,再根據各關鍵詞之間的邏輯關系,將關鍵詞進行邏輯組合,形成語義分析模型。建立這種模型主要根據業(yè)務人員的經驗進行的。



技術實現要素:

本發(fā)明實施例提供一種建立關鍵詞模型的方法及裝置,用以解決現有技術中人工確定關鍵詞的問題。

本發(fā)明實施例提供的一種建立關鍵詞模型的方法,包括:

獲取語音文本數據和核心關鍵詞;

檢索所述語音文本數據中所述核心關鍵詞所在的文本語句,統(tǒng)計所述文本語句中設定范圍內的詞以及詞的詞頻,所述設定范圍內的詞是指在所述文本語句中,位于所述核心關鍵詞前后設定范圍內的詞;

對所述統(tǒng)計的詞依據詞的詞頻進行排序,將所述詞頻的排名大于排名閾值的詞,確定輔助關鍵詞;

對所述核心關鍵詞和所述輔助關鍵詞進行邏輯關系組合,建立關鍵詞模型。

較佳地,在統(tǒng)計所述文本語句中設定范圍內的詞以及詞的詞頻之后,還包括:

根據所述核心關鍵詞所在文本語句的標點符號,確定所述核心關鍵詞所在文本語句所表述的語氣,將所述核心關鍵詞所在文本語句所表述的語氣確定為所述關鍵詞模型所表述的語氣;或

根據各所述核心關鍵詞所在文本語句的標點符號,確定各所述核心關鍵詞所在文本語句所表述的語氣;針對每個所述核心關鍵詞所在文本語句所表述的語氣,根據所述核心關鍵詞所在的文本語句所述表述的語氣及其相鄰的兩個文本語句所述表述的語氣,確定所述關鍵詞模型所表述的語氣。

較佳地,所述將詞頻排名大于排名閾值的詞,確定輔助關鍵詞,包括:

對所述統(tǒng)計的詞進行領域分類,針對每個領域,將每個領域內詞頻排名大于排名閾值的詞,確定為所述輔助關鍵詞。

較佳地,所述對所述核心關鍵詞和所述輔助關鍵詞進行邏輯關系組合,包括:

將所述核心關鍵詞和所述輔助關鍵詞確定為模型關鍵詞;

對所述模型關鍵詞進行領域分類,將不同類的所述模型關鍵詞之間的邏輯關系確定為邏輯關系與;

若同一類的所述模型關鍵詞之間是同義詞,則將所述同一類的所述模型關鍵詞之間的邏輯關系確定為邏輯關系或;

若同一類的所述模型關鍵詞之間不是同義詞,則將所述同一類的所述模型關鍵詞之間的邏輯關系確定為邏輯關系非。

較佳地,所述獲取核心關鍵詞,包括:

獲取根據語音文本數據的業(yè)務類型確定的核心關鍵詞;或

獲取用戶輸入的核心關鍵詞。

相應地,本發(fā)明實施例提供了一種建立關鍵詞模型的裝置,包括:

獲取單元,用于獲取語音文本數據和核心關鍵詞;

統(tǒng)計單元,用于檢索所述語音文本數據中所述核心關鍵詞所在的文本語句,統(tǒng)計所述文本語句中設定范圍內的詞以及詞的詞頻,所述設定范圍內的詞是指在所述文本語句中,位于所述核心關鍵詞前后設定范圍內的詞;

確定單元,用于對所述統(tǒng)計的詞依據詞的詞頻進行排序,將所述詞頻的排名大于排名閾值的詞,確定輔助關鍵詞;

建立單元,用于對所述核心關鍵詞和所述輔助關鍵詞進行邏輯關系組合,建立關鍵詞模型。

較佳地,所述統(tǒng)計單元還用于:

根據所述核心關鍵詞所在文本語句的標點符號,確定所述核心關鍵詞所在文本語句所表述的語氣,將所述核心關鍵詞所在文本語句所表述的語氣確定為所述關鍵詞模型所表述的語氣;或

根據各所述核心關鍵詞所在文本語句的標點符號,確定各所述核心關鍵詞所在文本語句所表述的語氣;針對每個所述核心關鍵詞所在文本語句所表述的語氣,根據所述核心關鍵詞所在的文本語句所述表述的語氣及其相鄰的兩個文本語句所述表述的語氣,確定所述關鍵詞模型所表述的語氣。

較佳地,所述確定單元具體用于:

對所述統(tǒng)計的詞進行領域分類,針對每個領域,將每個領域內詞頻排名大于排名閾值的詞,確定為所述輔助關鍵詞。

較佳地,所述建立單元具體用于:

將所述核心關鍵詞和所述輔助關鍵詞確定為模型關鍵詞;

對所述模型關鍵詞進行領域分類,將不同類的所述模型關鍵詞之間的邏輯關系確定為邏輯關系與;

若同一類的所述模型關鍵詞之間是同義詞,則將所述同一類的所述模型關鍵詞之間的邏輯關系確定為邏輯關系或;

若同一類的所述模型關鍵詞之間不是同義詞,則將所述同一類的所述模型關鍵詞之間的邏輯關系確定為邏輯關系非。

較佳地,所述獲取單元具體用于:

獲取根據語音文本數據的業(yè)務類型確定的核心關鍵詞;或

獲取用戶輸入的核心關鍵詞。

本發(fā)明實施例表明,通過獲取語音文本數據和核心關鍵詞,檢索所述語音文本數據中所述核心關鍵詞所在的文本語句,統(tǒng)計所述文本語句中設定范圍內的詞以及詞的詞頻,所述設定范圍內的詞是指在所述文本語句中,位于所述核心關鍵詞前后的詞,對所述統(tǒng)計的詞依據詞的詞頻進行排序,將所述詞頻的排名大于排名閾值的詞,確定輔助關鍵詞,對所述核心關鍵詞和所述輔助關鍵詞進行邏輯關系組合,建立關鍵詞模型。通過對核心關鍵詞所在的文本語句中設定范圍內的詞的篩選,以及詞的詞頻進行排序,可以獲取輔助關鍵詞,從而獲取用于建立關鍵詞模型的關鍵詞,再將這些關鍵詞進行邏輯組合,即可以建立關鍵詞模型,提高了語義分析的效率和準確性。

附圖說明

為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域的普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。

圖1為本發(fā)明實施例提供的一種建立關鍵詞模型的方法的流程示意圖;

圖2為本發(fā)明實施例提供的一種建立關鍵詞模型的裝置的結構示意圖。

具體實施方式

為了使本申請的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本申請作進一步地詳細描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本申請保護的范圍。

在本發(fā)明實施例中,語音文本數據是對語音進行識別后,文本化的數據,該數據可以進行語義分析。

圖1示出了本發(fā)明實施例提供的一種建立關鍵詞模型的流程,該流程可以由建立關鍵詞模型的裝置執(zhí)行,該裝置可以位于語義分析系統(tǒng)中。

如圖1所示,該流程具體包括:

步驟101,獲取語音文本數據和核心關鍵詞。

步驟102,檢索所述語音文本數據中所述核心關鍵詞所在的文本語句,統(tǒng)計所述文本語句中設定范圍內的詞以及詞的詞頻。

步驟103,對所述統(tǒng)計的詞依據詞的詞頻進行排序,將所述詞頻的排名大于排名閾值的詞,確定輔助關鍵詞。

步驟104,對所述核心關鍵詞和所述輔助關鍵詞進行邏輯關系組合,建立關鍵詞模型。

在步驟101中,核心關鍵詞可以是獲取的根據語言文本數據的業(yè)務類型確定的核心關鍵詞,或者是獲取用戶輸入的核心關鍵詞。該語音文本數據是對音頻

該核心關鍵詞可以用于確定業(yè)務的具體內容。如語言文本數據的內容是GPRS套餐投訴,需要建立GPRS套餐投訴分析的關鍵詞模型,該核心關鍵詞可以是“GPRS”、“投訴”。還可以通過接口獲取用戶輸入的核心關鍵詞,如“88套餐”、“手機終端”。

在獲取核心關鍵詞時,也可以在已有核心關鍵詞的基礎上,對核心關鍵詞進行擴展,可以是同義詞或近義詞。如,當確定核心關鍵詞為“GPRS”之后,可以擴展核心關鍵詞“上網”、“流量”等。

在步驟102中,在步驟101獲取語音文本數據和核心關鍵詞之后,檢索該語言文本數據所在的文本語句,然后統(tǒng)計該文本語句中設定范圍內的詞以及詞的詞頻,該詞的詞頻是指詞出現的次數、出現的頻率。設定范圍內的詞是指在文本語句中,位于核心關鍵詞前后設定范圍內的詞,即對核心關鍵詞所在的文 本語句的上下文進行檢索。還可以設置距離核心關鍵詞多少個詞,對核心關鍵詞之前的詞的個數和核心關鍵詞之后的詞的個數進行統(tǒng)計。該設定范圍可以依據經驗進行設置。

舉例來說,核心關鍵詞為“數據”、“流量”、“上網”、“GPRS”,統(tǒng)計在核心關鍵詞之前的5個詞,之后的8個詞,即可以得到如“投訴”在核心關鍵詞之前出現了n次,在核心關鍵詞之后出現了m次,n為正整數,m為正整數。還可以對語氣詞進行篩選驅除。

在統(tǒng)計了詞以及詞的詞頻之后,還可以根據核心關鍵詞所在文本語句的標點符號,確定該核心關鍵詞所在文本語句所表述的語氣,就可以將該核心關鍵詞所在文本語句所表述的語氣確定為關鍵詞模型所表述的語氣。

或者是根據各核心關鍵詞所在文本語句的標點符號,確定各核心關鍵詞所在文本語句所表述的語氣,然后針對每個所述核心關鍵詞所在文本語句所表述的語氣,根據該核心關鍵詞所在的文本語句所表述的語氣及其相鄰的兩個文本語句所表述的語氣,確定關鍵詞模型所表述的語氣。

舉例來說,“流量”所在的第k個文本語句的標點符號為問號,表達疑問語氣,所在的第i個文本語句的標點符號為嘆號,表達語氣為氣憤語氣。k為正整數,i為正整數?;蛘呤恰傲髁俊彼诘奈谋菊Z句表述的語氣的基礎上,根據其相鄰兩個文本語句所表述的語氣為氣憤語氣,可以確定關鍵詞模型所表述的語氣為氣憤語氣。該關鍵詞模型所述表述的語氣可以在對語音進行語義分析時,分析語音中語句的表述的語氣,以便工作人員針對語氣強烈的信息進行處理。

在步驟103中,對統(tǒng)計的詞按照詞的詞頻進行排序,然后對統(tǒng)計的詞進行領域分類,針對每個領域,將每個領域內詞頻排名大于排名閾值的詞,確定為輔助關鍵詞。該排名閾值可以依據經驗進行設定,該輔助關鍵詞用于進一步的限定文本語句,保證關鍵詞所涵蓋的領域較廣泛。如在表達業(yè)務的詞匯中,選擇詞頻較高的5個詞,表達態(tài)度的詞匯中,選擇詞頻較高的5個關鍵詞。每個領域的排名閾值的設置可以相同,也可以不同,不同的領域統(tǒng)計的詞頻相差很 小時,可以將排名閾值設置為相同。

同時,在統(tǒng)計到“投訴”一詞出現的次數較多,則可以進一步的將“投訴”作為核心關鍵詞,然后進行統(tǒng)計其設定范圍內的詞的詞頻。

在步驟104中,在得到核心關鍵詞和輔助關鍵詞之后,將核心關鍵詞和輔助關鍵詞確定為模型關鍵詞,對該模型關鍵詞進行分類。

在進行分類之后,將不同類的模型關鍵詞之間的邏輯關系確定為邏輯關系與。

若同一類的模型關鍵詞之間是同義詞,則將同一類的模型關鍵詞之間的邏輯關系確定為邏輯關系或,若同一類的模型關鍵詞之間不是同義詞,則將同一類的模型關鍵詞之間的邏輯關系確定為邏輯關系非。

“+”符號可以代表“與”的邏輯關系,“│”符號可以代表“或”的邏輯關系。如,(“GPRS”+“數據”)|(“不對”|“亂扣”|“扣錯”)。

上述實施例表明,通過獲取語音文本數據和核心關鍵詞,檢索所述語音文本數據中所述核心關鍵詞所在的文本語句,統(tǒng)計所述文本語句中設定范圍內的詞以及詞的詞頻,所述設定范圍內的詞是指在所述文本語句中,位于所述核心關鍵詞前后的詞,對所述統(tǒng)計的詞依據詞的詞頻進行排序,將所述詞頻的排名大于排名閾值的詞,確定輔助關鍵詞,對所述核心關鍵詞和所述輔助關鍵詞進行邏輯關系組合,建立關鍵詞模型。通過對核心關鍵詞所在的文本語句中設定范圍內的詞的篩選,以及詞的詞頻進行排序,可以獲取輔助關鍵詞,從而獲取用于建立關鍵詞模型的關鍵詞,再將這些關鍵詞進行邏輯組合,即可以建立關鍵詞模型,提高了語義分析的效率和準確性。

基于相同的技術構思,圖2示出了本發(fā)明實施例提供的一種建立關鍵詞模型的裝置,該裝置可以執(zhí)行建立關鍵詞模型的流程。

如圖2所示,該裝置具體包括:

獲取單元201,用于獲取語音文本數據和核心關鍵詞;

統(tǒng)計單元202,用于檢索所述語音文本數據中所述核心關鍵詞所在的文本語 句,統(tǒng)計所述文本語句中設定范圍內的詞以及詞的詞頻,所述設定范圍內的詞是指在所述文本語句中,位于所述核心關鍵詞前后設定范圍內的詞;

確定單元203,用于對所述統(tǒng)計的詞依據詞的詞頻進行排序,將所述詞頻的排名大于排名閾值的詞,確定輔助關鍵詞;

建立單元204,用于對所述核心關鍵詞和所述輔助關鍵詞進行邏輯關系組合,建立關鍵詞模型。

優(yōu)選地,所述統(tǒng)計單元202還用于:

根據所述核心關鍵詞所在文本語句的標點符號,確定所述核心關鍵詞所在文本語句所表述的語氣,將所述核心關鍵詞所在文本語句所表述的語氣確定為所述關鍵詞模型所表述的語氣;或

根據各所述核心關鍵詞所在文本語句的標點符號,確定各所述核心關鍵詞所在文本語句所表述的語氣;針對每個所述核心關鍵詞所在文本語句所表述的語氣,根據所述核心關鍵詞所在的文本語句所述表述的語氣及其相鄰的兩個文本語句所述表述的語氣,確定所述關鍵詞模型所表述的語氣。

優(yōu)選地,所述確定單元203具體用于:

對所述統(tǒng)計的詞進行領域分類,針對每個領域,將每個領域內詞頻排名大于排名閾值的詞,確定為所述輔助關鍵詞。

優(yōu)選地,所述建立單元204具體用于:

將所述核心關鍵詞和所述輔助關鍵詞確定為模型關鍵詞;

對所述模型關鍵詞進行領域分類,將不同類的所述模型關鍵詞之間的邏輯關系確定為邏輯關系與;

若同一類的所述模型關鍵詞之間是同義詞,則將所述同一類的所述模型關鍵詞之間的邏輯關系確定為邏輯關系或;

若同一類的所述模型關鍵詞之間不是同義詞,則將所述同一類的所述模型關鍵詞之間的邏輯關系確定為邏輯關系非。

優(yōu)選地,所述獲取單元201具體用于:

獲取根據語音文本數據的業(yè)務類型確定的核心關鍵詞;或

獲取用戶輸入的核心關鍵詞。

本申請是參照根據本申請實施例的方法、設備(系統(tǒng))、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執(zhí)行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

盡管已描述了本申請的優(yōu)選實施例,但本領域內的技術人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本申請范圍的所有變更和修改。

顯然,本領域的技術人員可以對本申請進行各種改動和變型而不脫離本申請的精神和范圍。這樣,倘若本申請的這些修改和變型屬于本申請權利要求及其等同技術的范圍之內,則本申請也意圖包含這些改動和變型在內。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
阳曲县| 云和县| 永嘉县| 双辽市| 藁城市| 赣州市| 东丰县| 论坛| 柯坪县| 轮台县| 太谷县| 海城市| 南通市| 辽中县| 崇文区| 上林县| 新乐市| 伊吾县| 手游| 道真| 江西省| 紫阳县| 江永县| 仙桃市| 海安县| 呼伦贝尔市| 富蕴县| 大埔县| 安福县| 静乐县| 乐平市| 吉安县| 晋江市| 潮安县| 许昌县| 天门市| 视频| 阿勒泰市| 曲靖市| 温州市| 长乐市|