欧美vvv,亚洲第一成人在线,亚洲成人欧美日韩在线观看,日本猛少妇猛色XXXXX猛叫

新聞資訊

    摘要:

    以高斯分布為基礎的說話人識別系統使用通用背景的模型(UBM)需要廣泛的數據資源尤其是多信道和多個麥克風種類下采集語音。本研究主要是對訓練UBM模型數據的選擇對整個系統性能的影響做一個系統的分析,訓練UBM模型時選擇的數據的方式主要涉及下面幾個方面:數據數目的改變、特征幀的子樣本結構、說話人數量的改變。UBM的協方差矩陣和系統性能有高度相關性,因此主要通過計算UBM協方差矩陣看系統性能,主要在下面幾種情況下計算UBM的協方差矩陣:保持訓練UBM模型的數據集合不變,總的數據數量改變;保持數據總量不變,改變訓練UBM的說話人數量。討論了特征子樣本選擇在提升計算速度方面的優點。一個新穎有效的基于距離的語音幀的選擇方法( -based frame )被提出。子樣本的方法在僅僅使用1%的原始UBM訓練數據的情況下能夠跟基線系統保持一致,這樣就能使得訓練時間巨幅減少。打破了數據越多越好的迷信。在保持數據總量不變的情況下,增加訓練UBM模型的說話人的數量可以提升系統性能。最后,基于不同說話人種類的兩種說話人選擇方案被提出后,實驗發現,通過選擇UBM說話人多樣性,在使用少于原始UBM模型訓練數據30%的情況下,系統性能仍然能保持基線系統水平。

    I.介紹

    基于GMM的說話人識別模型歷久不衰,最基礎的基于GMM的說話人識別方法包括GMM-UBM(通用模型參數的后驗概率自適應)和GMM超矢量的支持向量機模型(GMM-SVM)。所有這些方法得到完善通過使用額外的歸一化方案,如因子分析說話人識別 模型包括,(語音本征)或者 (NAP)(?滋擾性映射)。

    說話人識別系統中基本都有一個共同元素就是UBM,本質是一個大GMM,通常訓練出來用來表示所有說話人的語音幀的與說話人無關的分布,作為the model(預期的說話人替代模型)同時也用于開源集合的說話人識別系統(open-set ).在GMM-SVM,GMM-UBM中,所有說話人模型都依賴于UBM。關于UBM研究較少,訓練UBM的通常想法是用盡可能多的說話人和涵蓋各種環境的(信道和說話環境)語音來訓練。沒有考慮UBM訓練對系統整體性能的影響。本文給出UBM訓練過程和UBM訓練數據組成與系統性能的關系。

    本文研究主要集中于數據參數的部分改變對系統性能的影響。

    之前學術界一致認為用越多的語音數據訓練UBM越越能模擬真實世界的語音環境,但是沒有證據表明是對的喲,【2】文獻表明只要說話人的數量保持一致,少量語音數據依舊可以得到性能好的說話人識別系統。本文,系統分析UBM訓練中這個方法的影響,從UBM參數中確定數據多樣性的衡量標準,然后確定這些變化與系統性能的關系。

    從給定語音信息中抽取特征向量子集從而減少數據量,抽取方式:隨機抽取特征幀(沒考慮語音內容不靠譜),本文使用an sub- (自適應音素依賴特征子采樣方案),來使用少量數據抓住每段語音特征的細微差別。說話人之間多樣性與UBM相關,說話人自身語音音素多樣性與UBM無關,一個說話人語音時間太長,有些音素會出現的很頻繁或者持續時間較長,這就會導致這個音素在UBM模型中說話人自身的概率密度函數失衡(???)。通過選擇特征矢量方式減少數據量對計算資源和系統性能都有好處。

    UBM數據的說話人之間多樣性與目前數據庫中說話人數量直接相關。UBM訓練數據的說話人數量對系統性能有影響。如何選擇多樣化的UBM說話人數據也是本文所討論的。

    模型識別與人工智能_vq 說話認識別 matlab_說話人識別 模型包括

    II UBM定義 以及理想的UBM的參數設定

    使用大量的說話人語音的聲學特征訓練的與說話人無關的高斯混合模型,這個模型代表了

    III 基線系統

    IV改變UBM訓練數據數量對系統性能影響

    V 特征子采樣方法

    VI 分析改變說話人數量的影響

    VII 說話人子采樣方法

    VIII 結論

    UBM訓練數據參數的改變可能對提升系統性能EER降低或者沒啥影響,但是就使用少量數據就能訓練處UBM模型節省計算資源和得到一個涵蓋面更廣的平衡的UBM很重要。

    II 理想UBM

    vq 說話認識別 matlab_說話人識別 模型包括_模型識別與人工智能

    UBM是說話人無關的GMM,使用大量說話人的語音聲學特征訓練得到,用來表示特征的說話人無關的通用的概率分布。

    A 數據平衡B 數據量

    III 基線系統

    A 系統概述

    沒有錯誤匹配補償和分數歸一化的標準GMM-UBM模型

    1.前端取39維MFCC

    2.特征擾動( )

    3. VAD

    vq 說話認識別 matlab_說話人識別 模型包括_模型識別與人工智能

    4.1024

    5.使用HTK Tools中的最大似然估計標準 進行15次迭代/per split

    6.選取期望log似然最佳20個分數

    B.UBM數據庫

    1)NIST SRE 2004 1-s126個男語音 5-min/per

    2) NIST SRE 2006 和NIST SRE 2004 392個男發音 多信道和多麥克風

    C 計算資源

    IV UBM數據選擇

    從上面的四幅圖可知每個語音選取2.7s就足以得到較好的識別結果。

    說話人識別 模型包括_vq 說話認識別 matlab_模型識別與人工智能

    V 特征幀的子采樣

    LSF:選取一段語音的前幾幀

    UFS:均勻在這段語音上選取幾幀

    RFS:隨機在這段語音上選取幾幀

    IFS:根據幀之間相似度(用距離測量)進行選取差異性大的幀

    A。基于歐氏距離的特征幀選取

    IFS方法太特么復雜我看了三遍沒整明白,我打算后期再推,趕進度。。。不懂別怪別怪。。。無視上面的夾爪字。。。

    B。性能比較

    IFS的幀選擇方案性能最好

    vq 說話認識別 matlab_說話人識別 模型包括_模型識別與人工智能

    VI 說話人數量影響

    不多解釋都在圖里

    VII 說話人數據選擇

    選擇大量不相似的說話人能夠提升系統性能。說話人之間的相似性會導致聚類的產生說話人識別 模型包括,從而在計算似然度的時候出現不平衡現象,這里說話人的選擇依據就是對于相似的說話人只選擇其中一個,差異性比較大的說話人都選擇進來作為UBM模型訓練的樣本。選擇方法有以下兩種:

    A. KL -Based

    比較兩個說話人模型之間的KL差異

    試驗之后結論:如果訓練UBM模型的說話人多樣性進行仔細選擇,很少的數據的訓練就能達到基線系統水平

    VIII 結論

    適當減少語音量和仔細選擇說話人數量能夠達到基線系統識別水平。

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有