電路與系統學報Vol.11 No.4 2006 , 2006 文章編號:1007-0249 (2006) 04-0051-05 說話人識別模型失配下的似然得分補償變換 南京工程學院通信系,江蘇 南京 ;2. 東南大學 無線電工程系,江蘇 南京 ) 摘要:基于與文本無關說話人識別最常用的模型——高斯混合模型(GMM)的輸出幀似然概率的統計特性,提出 了一種非線性變換方法——似然得分補償法。理論分析和實驗結果表明:與常用的最大似然(ML)變換相比,該方法 20%。結果還表明:似然得分補償法基本克服了在與文本無關說話人識別系統中,當說話人的個性特征不斷變化、環境對系統識別構成影響從而導致識別模型失配情況下,需要對模型的得分進行補償的局限。 關鍵詞:與文本無關說話人識別;混合高斯模型;似然得分補償變換 中圖分類號:TN912.34 文獻標識碼:A 引言語音是人的自然屬性之一,由于各個說話人發音器官的生理差異以及后天形成的發音習慣等行為 差異的影響,每個人的語音中蘊含著與眾不同的個人特征 。說話人識別就是著眼于提取包含在語音信號中的個人特征,以達到識別說話人的目的。
說話人識別按其被輸入的測試語音來分可以分為與文 本有關和與文本無關的說話人識別。而與文本無關的說話人識別在今天無疑有著更廣泛的應用。 對于與文本無關的說話人識別,由于說話人的個性特征具有長時變動性,而且其發音常常與環境、 說話人情緒、說話人健康有密切關系 ,實際過程中還可能引入背景噪聲等干擾,這些都是與文本無關說話人識別的識別率得不到進一步提高的主要因素。為了降低這些因素的影響,人們從事了大量的 研究說話人識別 模型包括,這些研究可分為三個方面:一、語音降噪,這一方面是研究的熱點,譜減法 [2,3] 是對靜態噪聲最 常用的方法,由于通常說話人是在非靜態噪聲環境下,譜減法帶來了嚴重的 MUSIC 噪聲 [2,3] ,所以 C.Tradj 等人對帶噪語音采用 維傅氏變換,然后進行 濾波。二、模型優化,松井等人 把魯棒的距離尺度DIM (- )應用于說話人識別,把 GMM 的各高斯分布的兩端用一定值(如 等提出了基于最近冒名者的模型, 等人基于結構背景模型提出了一種結構高斯混合模型。三、對模型輸出的似然概率(得分)進行處理,當說話人的個性特征不斷變化、語音與噪聲不能很好地分離或者降噪算法對語音有損傷、模型不能很 好地匹配時,需要對似然概率(得分)進行補償 ,[10] 提出了采用說話人背景模型的平均似 然函數來計算得分; Furui[11] 提出了基于后驗概率的模型。
[12] 將整個語 句分成若干幀,計算每幀得分,從而獲得總得分,通過實驗得出識別率有大的提高。Chen Ke [13] 等人 基于最小風險對得分進行了判決獲得了滿意的結果。雖然以上沒有考慮目標模型和非目標模型的幀似 然概率的特性,但同時也說明對模型輸出的似然概率進行變換,可以提高識別率。 在基于 GMM 的說話人識別中,一般來說,通過降噪處理后,目標模型得分高的幀要多于其它非 目標模型 [16,18,19] ,本文著眼于這一點,對幀似然概率先進行歸一化,然后對得分進行部分和平均即似 然得分補償法,以提高系統的穩健性,從而進一步提高識別率的方法。理論推導和實驗結果分析表明, 該方法確實能夠提高基于GMM 的與文本無關說話人識別系統的識別率。 收稿日期:2004-08-12修訂日期:2004-11-16 基金項目:國家自然基金(NO:),教育部博士點基金(NO:)和教育部“新世紀優秀人才支持計劃” 52 電路與系統學報 第11 是混合權值。完整的GMM 。每個成員密度是一個D維變量的高斯分布函數,形式如下: 對于一個長度為T的測試語音時間序列 ,它的GMM概率可以寫作: 對幀似然概率的似然得分補償變換在說話人識別中,一般來說,目標模型得分高的幀要多于其它非目標模型 [12,14,15] 。
然而,在本文 的研究中通過觀察發現,由于說話人的個性特征的長時變動或者噪聲等干擾的影響,某些測試幀對于 目標模型的得分小于非目標模型的得分(稱為壞幀),這些壞幀對于非目標模型的得分可能比較高,無 形之中,非目標模型的總得分拉近甚至有可能超過目標模型的得分,從而引起了誤判。為了降低壞幀 的影響,設想將前幾幀的得分平均值作為當前得分值的得分補償,拉近當前觀測值與實際值之間的距 離,以降低干擾對幀得分的影響,從而提高識別率。 根據上面的分析,本文引入一種非線性變換,該非線性變換方法定義如下: 對于第 為了縮短同一說話人各幀得分之差,引入補償,計算當前時刻的前K個時刻該模型的得分均值: 稱以上的變換為似然得分補償法。下面來分析該方法在干擾下的特性。為簡單分析起見,設只存在兩個模型 個時刻平均得分。可見,模型的幀得分不僅與當前時刻的似然概率有關,而且還與前1 時刻的似然概率有關。 在GMM (10)而對于似然得分補償法,為了計算的方便,令 ti 包永強等:說話人識別模型失配下的似然而概率補償變換53 log[10 00 10 log[20 10 20 log[11 01 11 log[21 11 21 (11)合并,整理,去對數得: 2111 11 11 01 21 20 10 10 10 00 20 21 11 20 10 2111 11 01 20 10 10 00 1111 10 10 01 11 21 20 00 10 21 11 20 10 2111 11 01 20 10 10 00 (12)式(10)歸一化可得: 21 11 20 10 (13)假設干擾影響了第2 幀,導致 20 ,如果不采用變換,目標模型得分,非目標模型的 得分 ,當到達一定程度,會導致: 21 11 20 10 (14)會直接導致了誤判決。
對式(12)來說,即使式(14)成立,如果后面兩項大于0 的話,仍有可能使總得分大于0。 下面進行分析: 1)對第三項來說,當 20 時,使得第三項的值得以,但第三項為 項,影響可以忽略不計; 2)第二項中,很明顯, 20 的系數大于0。當20 以有效地抵消了干擾帶來的目標模型得分的損失。進一步分析:假設, 11 11 10 10 >0(多數情況下,目標模型的幀得分均值要大于非目標模型的幀得分均值),易知,受到干擾的影響, 20 要小于21 ,一般情況下,第2項的值大于0。 從而使得目標模型的總得分可能大于非目標模型的總得分。 通過上面的分析,似然得分補償法能夠有效地降低噪聲和干擾對幀似然概率的影響,從而可以進 一步降低誤識別率。 實驗結果與分析為了檢驗提出的方法的有效性,本文進行了比較實驗。實驗一將似然得分補償法與最大似然變換 法進行比較,得出無噪聲環境下采用似然得分補償法的識別率情況;實驗二是將似然得分補償法與 WMR [12] 方法(方法一)以及文獻 16 提出的排序加權變換法(方法二)在噪聲環境下進行比較得出噪 聲環境下,采用似然得分補償法的識別率情況。實驗中采用 NTT 數據庫。
NTT 數據庫包括 35 個說話 人(22 男,13 女)的記錄。它是分 個時期持續10個月收集得到的。訓練時使用十句語料,五句對 所有說話人都相同,五句則各不相同,但都來自同一時期。測試時采用來自同一時期的十句語料。每 句話的平均持續時間為 秒。語音信號經12kHz 采樣, 的預加重,窗長21.33ms,窗移8ms LPC分析,然后從 14 LPC系數中求出 12 階的倒譜系數和 12 階倒譜系數作 為說話人識別的特征參數。 給出了M=16 時采用似然得 分補償變換的 GMM 的識別率。從表 中可看出,與不采用變換相比,似然得分補償變換可以得到比較高的識 一定時,a必須在一合適的范圍之內,才能獲得很高的識別率,與最大似然變換相比,當 =0.01時采用似然得分補償變換的識別率提高了 96.4%-95.5%=0.9%說話人識別 模型包括,從而誤識率降低 0.010.05 0.1 0.01 0.05 0.1 0.01 0.05 0.1 分補償法95.9 96.2 93.6 96.4 96.0 84.5 94.5 92.2 83.6 最大似然變換 95.5 54 電路與系統學報 第11 。合理選擇參數,還可以進一步提高識別率。
實驗 中可看出與最大似然變換相比,似然得分補償法的識別率得到了提高,其主要原因是讓各模型的得分進一步穩定并拉開了距離,由于目標說話人對應的好幀 較多,明顯占優,從而實現了對目標說話人的得分進行了補償,并且有效地降低了對非目標說話人對 應的模型的得分,從而提高了識別率。 為了在噪聲環境下測試似然得分補償變換的性能,進行了實驗 2,該實驗在前端不進行降噪處理。 實驗 使用的噪聲數據是日本電子協會標準噪聲數據庫中的行駛中的汽車(組,一般道路)內 的噪聲(平穩噪聲)和展覽會中的展示隔間內的噪聲(非平穩噪聲)。這些噪聲被按一定的信噪比(SNR) 疊加進無噪語音中組成帶噪語音。識別結果如表2 所示。 看出:1)非線性變換方法的識別結果都比最大似然變換方法要好不少;2)三種非線性方法的識別結果差別不大,但似然得分 補償法要略好一點。 實驗中發現,相關幀數K 不宜過大,否則不僅不會明顯提 高識別率,甚至會影響識別率的提高,當K 時,系統識別率就改善不大;同樣a 的選擇也非常重要,一般取a =0.01 左右。 通過表 1、2,發現似然得分補償法確實能夠提高系統識別 率。在噪聲環境下,與其他非線性方法相比,識別率也有一定的提高。
以上的討論都是在語音前端沒 有采用有效的降噪方法情況下給出的,只有當語音前端采取有效的降噪措施和采用合適的識別模型時, 整個系統才有可能獲得高的識別率。 小結在基于 GMM 的與文本無關的說話人識別中,實際環境和個人因素一直是影響識別率提高的原因, 大多數研究集中在前端處理,但在說話人識別后端處理方面,國內外研究不多。本文從各模型幀似然 概率的統計特性出發,提出了一種新的幀似然概率變換方法——似然得分補償法。理論分析和實驗結 果表明,似然得分補償法能夠提高識別率。也就是說對說話人識別系統的后端處理也能夠提高系統性 語音信號處理[M].北京: 機械工業出版社, 2003. 236-253. . Using . , Rafik . Noise Two- 2003.61-64. . : 2002.320-323. Koh. Using 2-D , 2003, 11(6): 717-724. 古井貞熙.VQ、離散/連續 HMM によるテキスト獨立話者認識法の比較 電子情報通信學會論文志[C].1994, J77-A(4): 601-607 using Log- Score . , 1980, , Toby . Text- . , 2003, 11(5):447-456. , . ′00 2000.1069-1072. [10] , . , 1995. 91-108. [11] Furui. 10名說話人的平均識別率 (汽車內的噪聲數據)SNR 識別 方法 1020 最大似然變換31.9 55.5 83.9 95.5 方法一 48.3 71.4 88.2 95.8 方法二 47.8 73.6 86.6 96.1 分補償法52.3 81.6 90.2 96.4 包永強等:說話人識別模型失配下的似然而概率補償變換55 391-394. [12] .Text- using frame level IEICE,1996, 96(17): 37-44. [13] Chen Ke. , 2003. 329-346 [14] Rose. text- using . , 1995, 72-83.[15] ,. using - , 1995, 17(1-2): 97-116. [16] 戴紅霞, 采用幀概率變換的與文本無關說話人識別系統的實現[J].電聲技術, 2004, 40-42作者簡介:包永強(1973-),男,江蘇江陰人,博士,研究方向為語音信號處理;趙力,男,江蘇南京人,教授, 博導,研究方向為語音信號處理;鄒采榮,男,江蘇昆山人,教授,博導,副校長,研究方向為信號處理; score under model BAO Yong-qiang -rong ring, , , China , , , China :Based tic model (GMM) which - model, score non- ratio 20% -(ML) . s, noise . shows . Key words: text- ; model; score 50 PANG Yan-wei, LIU Zheng-kai, YU Neng-hai, ZHANG Qian g , China,Hefei , China based (LDA) (SVD) , when . , LDA-based has () , . LDA,SVD has , . can . can face rate. Key words: face ; ; LDA; SVD;