專利名稱:聲紋密碼圖片提示的聲紋認證系統(tǒng)及其實現(xiàn)方法
技術領域:
本發(fā)明涉及一種聲紋認證系統(tǒng),尤其涉及一種聲紋密碼圖片提示的聲紋認證系統(tǒng);此外,本發(fā)明還涉及一種聲紋密碼圖片提示的聲紋認證系統(tǒng)的實現(xiàn)方法。
背景技術:
目前,基于密碼的身份認證的系統(tǒng)通常為了安全,需要為不同的對象設置不同的密碼,增加了使用者的記憶負擔和不易用性。采用聲紋識別方法,通過用戶的聲音特征進行身份確認,只有真實用戶的聲音才能夠通過認證。為了減輕用戶的記憶負擔,服務器提供文本內容(如成語和數(shù)字串等),用戶只要按要求讀出相應的內容即可。然而,網(wǎng)絡上存在各種安全隱患,若攻擊者直接得到文本內容,則有可能進行各種攻擊,如通過拼接用戶語音、 盜錄用戶語音等方式威脅用戶的密碼安全。其中,危害最大的是通過惡意程序進行攻擊。因此,需要研發(fā)一種聲紋認證系統(tǒng),用來增加惡意程序破解聲紋識別密碼的難度, 以提高系統(tǒng)的安全性。
發(fā)明內容
本發(fā)明要解決的技術問題是提供一種聲紋密碼圖片提示的聲紋認證系統(tǒng),由于圖片內容識別技術的困難及于服務器對于用戶登錄的嚴格的時間限制,這將大大增加破解的難度,提高系統(tǒng)的安全性。為此,本發(fā)明還提供一種聲紋密碼圖片提示的聲紋認證系統(tǒng)的實現(xiàn)方法。為解決上述技術問題,本發(fā)明提供一種聲紋密碼圖片提示的聲紋認證系統(tǒng),包括 密碼建立模塊、語音識別模塊和聲紋識別模塊;該密碼建立模塊與服務器相連,該密碼是隨機密碼或者由隨機密碼和固定密碼組成,服務器產(chǎn)生隨機密碼,該隨機密碼以圖片格式顯示在用戶的登錄終端,用戶根據(jù)圖片提示提供相應的語音;該語音識別模塊用于對用戶提供的語音進行內容分析,對提供的語音內容與服務器產(chǎn)生的密碼內容進行模式匹配,若兩者不符合,說明用戶提供的密碼不合要求,若兩者相符,則進入聲紋識別模塊;該聲紋識別模塊分為注冊單元和測試單元,在注冊單元建立說話人模型,在測試單元調用說話人模型, 分析測試時提供的語音特征,進行一個確認判決,接受或拒絕。所述密碼建立模塊中的密碼由隨機密碼和固定密碼組成時,只顯示圖片格式的隨機密碼給用戶。所述聲紋識別模塊中在注冊單元建立說話人模型,具體為說話人提供若干段固定密碼及隨機數(shù)字串的語音數(shù)據(jù),在由大量說話人的大量語音訓練出的通用背景模型的基礎上,通過最大后驗概率自適應算法對該說話人的模型參數(shù)進行估計,建立該說話人模型。所述聲紋識別模塊中在測試單元調用說話人模型,分析測試時提供的語音特征, 獲得測試語音與該說話人模型匹配的一個匹配評分,并將該評分與聲紋認證的閾值進行匹配,進行一個確認判決,若評分大于閾值,則接受,反之,若評分低于閾值,則拒絕。此外,本發(fā)明還提供該聲紋密碼圖片提示的聲紋認證系統(tǒng)的實現(xiàn)方法,包括如下步驟(1)服務器產(chǎn)生隨機密碼,以圖片格式顯示在用戶的登錄終端;(2)用戶根據(jù)圖片提示提供相應的語音;(3)語音識別模塊對用戶提供的語音進行內容分析,對提供的語音內容與密碼內容進行模式匹配,判斷兩者是否相符,若不符合,說明用戶提供的密碼不合要求,應予以拒絕,回到步驟⑵;若相符,則進入步驟⑷;(4)在注冊階段,聲紋識別模塊建立說話人模型;在測試階段,聲紋識別模塊調用說話人模型,分析測試時提供的語音特征,進行一個確認判決,接受或拒絕。步驟(1)中,密碼是隨機密碼或者由隨機密碼和固定密碼組成,當密碼由隨機密碼和固定密碼組成時,只顯示圖片格式的隨機密碼給用戶。步驟中,所述在注冊階段建立說話人模型,具體為說話人提供若干段固定密碼及隨機數(shù)字串的語音數(shù)據(jù),在由大量說話人的大量語音訓練出的通用背景模型的基礎上,通過最大后驗概率自適應算法對該說話人的模型參數(shù)進行估計,建立該說話人模型。步驟中,所述測試階段具體為聲紋識別模塊調用說話人模型,分析測試時提供的語音特征,獲得測試語音與該說話人模型匹配的一個匹配評分,并將該評分與聲紋認證的閾值進行匹配,進行一個確認判決,若評分大于閾值,則接受,結束流程;反之,若評分低于閾值,則拒絕,回到步驟O)。本發(fā)明的有益效果在于本發(fā)明通過圖片的方式提供聲紋識別的登錄密碼內容, 增加了惡意工具破解聲紋識別密碼的難度,卻基本不會給用戶帶來任何不便,可以方便的與其他安全措施相結合,提高聲紋認證系統(tǒng)的安全性。
圖1是本發(fā)明系統(tǒng)的模塊結構示意圖;圖2是本發(fā)明方法中注冊階段的流程示意圖;圖3是本發(fā)明方法中測試階段的流程示意圖。
具體實施例方式如圖1所示,本發(fā)明聲紋密碼圖片提示的聲紋認證系統(tǒng)主要由以下三部分構成1.密碼建立模塊。該密碼是隨機密碼或者由隨機密碼和固定密碼組成,服務器產(chǎn)生隨機密碼,固定密碼可由用戶自己設定,隨機密碼以圖片格式顯示在用戶的登錄終端,用戶根據(jù)圖片提示提供相應的語音。如用戶密碼由固定密碼和隨機密碼組成,只顯示圖片格式的隨機密碼給用戶。2.語音識別模塊。該模塊對用戶提供的語音進行內容分析,對提供的語音內容與服務器產(chǎn)生的密碼內容進行模式匹配,判斷兩者是否相符,若不符合,說明用戶提供的密碼不合要求,應予以拒絕;若相符,則進入下一階段的聲紋識別模塊。例如,服務器產(chǎn)生隨機密碼“ 123456”,該隨機密碼以圖片格式顯示在用戶的登錄終端,用戶根據(jù)該圖片提示提供相應的語音(即讀出“123456”的語音);然后,語音識別模塊對用戶提供的語音進行內容分析,得到語音的內容為“123456”,對提供的語音內容(即“123456”)與服務器產(chǎn)生的密碼內容(即“123456”)進行模式匹配,判斷兩者是否相符,若不符合,說明用戶提供的密碼不合要求,應予以拒絕;若相符,則進入下一階段的聲紋識別模塊。3.聲紋識別模塊,該模塊由兩部分組成注冊單元,說話人提供若干段固定密碼及隨機數(shù)字串的語音數(shù)據(jù),在由大量說話人的大量語音訓練出的通用背景模型(例如高斯混合模型)的基礎上,通過最大后驗概率自適應算法(本領域公知的經(jīng)典算法)對該說話人的模型參數(shù)進行估計,建立該說話人模型;測試單元,系統(tǒng)調用聲明的說話人模型,分析測試時提供的語音特征,獲得測試語音與該聲明的說話人模型匹配的一個匹配評分,并將該評分與聲紋認證的閾值進行匹配,進行一個確認判決,若評分大于閾值,則接受,反之,若評分低于閾值,則拒絕。本發(fā)明通過圖片提示聲紋密碼的聲紋認證系統(tǒng),來提高聲紋身份認證的安全性。 本發(fā)明中,用戶的密碼是由服務器通過隨機數(shù)生成算法產(chǎn)生的隨機密碼(如成語或數(shù)字串等),或者由隨機密碼和固定密碼(如用戶自定義密碼)組成(如用戶密碼由固定密碼和隨機密碼組成,只顯示隨機密碼給用戶),即每次用戶登錄采用的密碼是隨機的,在登錄時才能獲取。其次,該隨機密碼是通過圖片的方式顯示給用戶的,對于用戶而言,識別圖片的提示內容是很容易識別的,而對于惡意攻擊程序而言,這個過程是比較困難的,獲取密碼內容需要消耗一定的時間。而聲紋認證的過程相對來說較短,如正常語速讀8個數(shù)字需要3秒左右,為了系統(tǒng)安全,故服務器提供給用戶的每一步驟的登錄時間也是有限的,通過增加惡意程序獲取密碼內容的難度,可以有效的提高系統(tǒng)的安全性。并且,本發(fā)明可以方便地與其他安全措施相結合,如機器合成語音檢測,IP地址控制等,共同提高系統(tǒng)的安全性。聲紋識別屬于生物識別技術的一種,是一項根據(jù)語音波形中反映說話人生理和行為特征的語音參數(shù),自動識別說話人身份的技術。與語音識別不同的是,聲紋識別利用的是語音信號中的說話人信息,而不考慮語音中的字詞意思,它強調說話人的個性;而語音識別的目的是識別出語音信號中的言語內容,并不考慮說話人是誰,它強調共性。如圖2和圖3所示,本發(fā)明聲紋密碼圖片提示的聲紋認證系統(tǒng)的實現(xiàn)方法,主要包括如下步驟(1)服務器產(chǎn)生隨機密碼,以圖片格式顯示在用戶的登錄終端;(2)用戶根據(jù)圖片提示提供相應的語音;(3)語音識別模塊對用戶提供的語音進行內容分析,對提供的語音內容與密碼內容進行模式匹配,判斷兩者是否相符,若不符合,說明用戶提供的密碼不合要求,應予以拒絕,回到步驟⑵;若相符,則進入步驟⑷;(4)在注冊階段,聲紋識別模塊建立說話人模型(即注冊模型,見圖2、,具體為說話人提供若干段固定密碼及隨機數(shù)字串的語音數(shù)據(jù),在由大量說話人的大量語音訓練出的通用背景模型(例如高斯混合模型)的基礎上,通過最大后驗概率自適應算法(本領域公知的經(jīng)典算法)對該說話人的模型參數(shù)進行估計,建立該說話人的模型;在測試階段,聲紋識別模塊調用說話人模型(即注冊模型),分析測試時提供的語音特征,獲得測試語音與該聲明模型匹配的一個匹配評分,并將該評分與聲紋認證的閾值進行匹配,進行一個確認判決,若評分大于閾值,則接受,流程結束;反之,若評分低于閾值,則拒絕,回到步驟O)(見圖3)。本發(fā)明提出了聲紋密碼的圖片提示方法,用戶在進行語音密碼攻擊前,首先要獲得圖片顯示的文本內容,由于圖片內容識別的困難及于服務器對于用戶登錄的嚴格的時間限制,這將增加了破解的難度,提高系統(tǒng)的安全性。而由于人對于圖片內容的識別非常高效,本發(fā)明將不會給真實的用戶帶來任何負面影響。
權利要求
1.一種聲紋密碼圖片提示的聲紋認證系統(tǒng),其特征在于,包括密碼建立模塊、語音識別模塊和聲紋識別模塊;該密碼建立模塊與服務器相連,該密碼是隨機密碼或者由隨機密碼和固定密碼組成, 服務器產(chǎn)生隨機密碼,該隨機密碼以圖片格式顯示在用戶的登錄終端,用戶根據(jù)圖片提示提供相應的語音;該語音識別模塊用于對用戶提供的語音進行內容分析,對提供的語音內容與服務器產(chǎn)生的密碼內容進行模式匹配,若兩者不符合,說明用戶提供的密碼不合要求,若兩者相符, 則進入聲紋識別模塊;該聲紋識別模塊分為注冊單元和測試單元;在注冊單元建立說話人模型;在測試單元調用說話人模型,分析測試時提供的語音特征,進行一個確認判決,接受或拒絕。
2.如權利要求1所述的聲紋密碼圖片提示的聲紋認證系統(tǒng),其特征在于,所述密碼建立模塊中的密碼由隨機密碼和固定密碼組成時,只顯示圖片格式的隨機密碼給用戶。
3.如權利要求1所述的聲紋密碼圖片提示的聲紋認證系統(tǒng),其特征在于,所述聲紋識別模塊中在注冊單元建立說話人模型,具體為說話人提供若干段固定密碼及隨機數(shù)字串的語音數(shù)據(jù),在由大量說話人的大量語音訓練出的通用背景模型的基礎上,通過最大后驗概率自適應算法對該說話人的模型參數(shù)進行估計,建立該說話人模型。
4.如權利要求1所述的聲紋密碼圖片提示的聲紋認證系統(tǒng),其特征在于,所述聲紋識別模塊中在測試單元調用說話人模型,分析測試時提供的語音特征,獲得測試語音與該說話人模型匹配的一個匹配評分,并將該評分與聲紋認證的閾值進行匹配,進行一個確認判決,若評分大于閾值,則接受,反之,若評分低于閾值,則拒絕。
5.一種聲紋密碼圖片提示的聲紋認證系統(tǒng)的實現(xiàn)方法,其特征在于,包括如下步驟(1)服務器產(chǎn)生隨機密碼,以圖片格式顯示在用戶的登錄終端;(2)用戶根據(jù)圖片提示提供相應的語音;(3)語音識別模塊對用戶提供的語音進行內容分析,對提供的語音內容與密碼內容進行模式匹配,判斷兩者是否相符,若不符合,說明用戶提供的密碼不合要求,應予以拒絕,回到步驟O);若相符,則進入步驟;(4)在注冊階段,聲紋識別模塊建立說話人模型;在測試階段,聲紋識別模塊調用說話人模型,分析測試時提供的語音特征,進行一個確認判決,接受或拒絕。
6.如權利要求5所述的聲紋密碼圖片提示的聲紋認證系統(tǒng)的實現(xiàn)方法,其特征在于, 步驟(1)中,密碼是隨機密碼或者由隨機密碼和固定密碼組成,當密碼由隨機密碼和固定密碼組成時,只顯示圖片格式的隨機密碼給用戶。
7.如權利要求5所述的聲紋密碼圖片提示的聲紋認證系統(tǒng)的實現(xiàn)方法,其特征在于, 步驟中,所述在注冊階段建立說話人模型,具體為說話人提供若干段固定密碼及隨機數(shù)字串的語音數(shù)據(jù),在由大量說話人的大量語音訓練出的通用背景模型的基礎上,通過最大后驗概率自適應算法對該說話人的模型參數(shù)進行估計,建立該說話人模型。
8.如權利要求5所述的聲紋密碼圖片提示的聲紋認證系統(tǒng)的實現(xiàn)方法,其特征在于, 步驟中,所述測試階段具體為聲紋識別模塊調用說話人模型,分析測試時提供的語音特征,獲得測試語音與該說話人模型匹配的一個匹配評分,并將該評分與聲紋認證的閾值進行匹配,進行一個確認判決,若評分大于閾值,則接受,結束流程;反之,若評分低于閾值,則拒絕,回到步驟O)。
全文摘要
本發(fā)明公開了一種聲紋密碼圖片提示的聲紋認證系統(tǒng),包括密碼建立模塊、語音識別模塊和聲紋識別模塊;密碼建立模塊與服務器相連,密碼是隨機密碼或者由隨機密碼和固定密碼組成,服務器產(chǎn)生隨機密碼,該隨機密碼以圖片格式顯示在用戶的登錄終端;語音識別模塊用于對用戶提供的語音進行內容分析,對提供的語音內容與服務器產(chǎn)生的密碼內容進行模式匹配,若不符合,說明用戶提供的密碼不合要求,若相符,則進入聲紋識別模塊;聲紋識別模塊分為注冊單元和測試單元,在注冊單元建立說話人模型,在測試單元調用說話人模型,分析測試時提供的語音特征,進行確認判決,接受或拒絕。此外,本發(fā)明還公開了該系統(tǒng)的實現(xiàn)方法。本發(fā)明能提高聲紋認證的安全性。
文檔編號H04L29/06GK102413100SQ201010290328
公開日2012年4月11日 申請日期2010年9月25日 優(yōu)先權日2010年9月25日
發(fā)明者黃偉 申請人:盛樂信息技術(上海)有限公司