欧美vvv,亚洲第一成人在线,亚洲成人欧美日韩在线观看,日本猛少妇猛色XXXXX猛叫

新聞資訊

    博雯 發自 凹非寺

    量子位 報道 | 公眾號

    最近,開源了目前世界上最大的多語言語音數據集,:

    這一數據集共涵蓋了23種語言,時長超過40萬小時。

    其中,每種語言都有9000到18000小時的無標簽語音數據。

    此外,還包括了共1800小時,16種語言的轉錄語音數據,以及17300小時,15種目標語言的口譯語音數據。

    國外網友很快為這一行為點贊:

    顯然,如果數據集已經存在,那么它應該被利用,并以一種道德的方式來改善人類社會。

    r語言 沒有這個數據集_數據分析師必備 r語言_r語言 nnet 預測未來十年的數據

    這一數據集龐大的無標簽數據量和廣泛的語言覆蓋率,對改進自監督模型有著很大的幫助。

    而也希望能夠幫助提高語音數據集的質量和魯棒性,使訓練語音轉換神經網絡更加可靠。

    最終加速新的NLP系統的開發,使AI翻譯的效果越來越好。

    而數據集的名字,的直譯“人民的心聲”也表示了其原始數據的來源——

    即源語音全都收集自2009-2020年歐洲議會的活動錄音。

    來自10年歐會的語料庫

    在歐洲議會的各自活動,如全體會議、委員會會議和其他活動上,發言者都會以不同的歐盟語言輪流發表演講。

    就是從歐會官網上抓取了每個演講的文字記錄、演講者信息、開始/結束時間戳。

    r語言 nnet 預測未來十年的數據_數據分析師必備 r語言_r語言 沒有這個數據集

    然后,將所有的原始演講數據進行處理,大致分為以下3類:

    共40萬小時,23種語言的無標簽語音數據

    每種語言都有8千到2萬多的原始語音數據。

    因此,基于能量的語音激活檢測(VAD)算法,將完整音頻分割成15-30秒的短片段。

    最終得到沒有太多的數據不平衡r語言 沒有這個數據集,也不需要調整數據采樣策略的數據集。

    因此非常適合多語言模型的訓練。

    而上表中除了無標簽數據,也有轉錄的語音數據,這也就是第二種:

    共1800小時,16種語言的轉錄語音數據

    數據分析師必備 r語言_r語言 沒有這個數據集_r語言 nnet 預測未來十年的數據

    歐會官方的時間戳雖然可以用來在會議中定義演講者,但常常會被截斷,或混合前后演講的片段,因此并不完全準確。

    所以對全會話音頻采用了聲紋分割聚類(SD)。

    這時的語音段落平均時長為197秒,再利用語音識別(ASR)系統,將其細分為20秒左右的短片段。

    觀察上表r語言 沒有這個數據集,可以看到最終得到的數據中,有包括各語言的持續時間、發言人數量、女性發言人百分比、標記數量等多種屬性。

    17300小時的15種目標語言的口譯語音數據:

    每個原始語音都有相對應的同聲傳譯,并互相關聯。

    但要使這個數據集可用,必須經過大量的預處理和過濾。

    因此,使用了語音識別(ASR)系統在句子層面上對齊源語音和目標語音。

    數據分析師必備 r語言_r語言 nnet 預測未來十年的數據_r語言 沒有這個數據集

    在域外環境的半監督學習下具有通用性

    那么這一數據集用起來到底怎么樣?

    首先,是使用包含了域外語言(out-of- out-of-)的無監督預訓練,進行少樣本的語音識別:

    可以從表中看到,VP-在5種語言上,都優于XLSR-Mono和XLSR-10。

    而VP-100K則在10種語言中的8種上的都比XLSR-10的表現更好。

    并且,雖然XLSR-53涵蓋了Zh語言,但與VP-100K(Large)在Zh上的表現相距甚遠。

    這表明VP-100K所學的語音表征具有高度的通用性。

    然后是使用數據集進行自我訓練或弱監督的語言翻譯(ST)和語音識別(ASR):

    數據分析師必備 r語言_r語言 nnet 預測未來十年的數據_r語言 沒有這個數據集

    從表中可以看到,不管是對于域內語言還是域外語言,對的自我訓練在大多數時候都能夠提高性能。

    而在翻譯上,也不用再增加昂貴的標簽數據。

    通過自我訓練,就能夠縮小端到端模型和級聯模型之間的差距。

    論文地址:

    下載:

    參考鏈接:

    [1]

    [2]

    — 完 —

    量子位 · 頭條號簽約

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有