本文刊載于《三聯生活周刊》2019年第33期,原文標題《讓電腦說人話》,嚴禁私自轉載,侵權必究
如果將來有一天電腦模仿你熟悉的人的嗓音開口說話,請別驚訝。
主筆/袁越
配備攝像頭和麥克風陣列的智能會議系統“黑塔”
量身定制的音頻課
如今流行音頻課,人們可以把平時花在通勤和鍛煉上的時間利用起來聽書學習。不久前,三聯中讀打算把我在雜志上寫的《生命八卦》專欄做成音頻,我立刻表示反對,因為那個專欄我寫了15年,加起來超過了80萬字。我可不想把自己關在錄音棚里一遍又一遍地朗讀舊文,那是要死人的。
一位編輯提議把文章輸進電腦程序里自動生成音頻,但我仍然不同意,因為我以前聽過這樣的音頻內容,根本聽不進去。記得那是一本驚險小說,內容緊張刺激,但電腦程序顯然是按照中文的標準發音一個字一個字地往外蹦,基本沒有正常人說話時的音調起伏和節奏變化,情感表達更是完全缺失。我原以為我可以克服這個障礙,畢竟小說本來就是由一個個獨立的漢字組合而成的,背后的精彩故事全靠讀者腦補。電腦所做的不過是把漢字的視覺信號轉變成漢語的音頻信息,相當于換一個腦補的方式罷了,這有啥難的?可試了幾天之后,我發現真的很難!這種單調的機器聲不但理解起來有困難,甚至會讓人犯困,我經常聽著聽著就在地鐵里睡著了。
經過那次試驗,我終于親身體會到了韻律對于語言的重要性。人類通過語言表達的信息有很多都是通過韻律的變化傳遞出來的,聽者也早已習慣了這種信息接收方式,和閱讀有著本質的區別。
舉個例子:為什么我們經常會聽錯歌詞?并不是因為唱歌的人發音不準,而是因為歌者為了遷就旋律,經常要改變語言原有的韻律,聽者不習慣,很容易就被搞糊涂了。
雖然困難重重,但知識音頻化的浪潮無法抗拒。所幸微軟(亞洲)互聯網工程院及時伸出援手,讓我去試試他們新開發的基于深度神經網絡的計算機合成語音系統(Neural Text-to-Speech,簡稱Neural TTS),據說這套系統只需很少的訓練量就可以模仿我的聲音,代替我朗讀那些文章。這件事對我很有吸引力,于是我騰出了一個下午的時間來到微軟租用的一間錄音棚,進行聲音的收集采樣工作。
按照我原來的設想,微軟工程師會讓我把3000個常用漢字都念一遍,做一個我的專屬語音庫。但出乎我意料的是,他們只是讓我對著提詞器念了8篇《生命八卦》專欄的舊文章,最后為了增加采樣內容的豐富性,又讓我補念了兩段《三聯》“旅游與地理”欄目里的游記文章,加起來也就一萬多字的內容,不到3個小時就念完了。唯一麻煩的就是我必須念得十分準確才行,即使念錯一個字也要把整句話重新再念一遍。我缺乏這方面的訓練,一開始重復的次數有點多,后來慢慢習慣了就好了。
一周后,微軟發來了一段電腦合成的語音,念的是我最近寫的那篇專欄文章《和癌細胞共存亡》。一聽之下,我立刻驚呆了!不但聲音的質感很像我,就連我朗讀時的語氣也模仿得惟妙惟肖。我把它傳給朋友和同事們聽,大家也都被震驚了,紛紛表示以后接到我發的語音信息必須先得核實一下才敢相信。
其實他們大可不必擔心。這段音頻帶有比較明顯的朗誦腔,語氣非常嚴肅,和我平時說話還是有很大差別的。仔細想想這也很好理解,畢竟電腦的樣本庫里只有我念的那一萬多字科普文章的音頻資料,我因為缺乏專業訓練,很難念出抑揚頓挫的感覺,電腦只不過忠實地模仿了我的朗讀風格而已。事實上,因為文章內容比較嚴肅,如果用普通音頻軟件來讀的話,很容易讀成催眠曲。找一個不相干的人來讀吧,又怕讀得太過情緒化,不符合文章的原意。現在這個結果剛剛好,不但準確地表達了原文的意思,而且聽眾應該也更希望聽到文章作者自己的聲音吧,這樣會顯得更加親切。
當然了,這段電腦朗讀并不是十全十美的,主要問題出在斷句上,比如“評價一個癌細胞致癌性的強弱”這句話,電腦不知為何在“癌細胞”和“致癌性”這兩個詞之間停頓了一下,說明電腦并沒有真的理解這句話的含義。
既然如此,電腦是怎么做到把一篇科普文章朗誦得像作者本人的呢?帶著這個疑問,我訪問了位于北京海淀區中關村的微軟亞太研發集團總部,請人工智能語音組的產品總監丁秉公和首席研發經理何磊為我詳細解釋了語音合成技術的歷史,以及微軟這套Neural TTS系統的工作原理。
微軟人工智能語音組首席研發經理何磊
語音合成的前世今生
根據兩位博士的介紹,傳統的中文語音合成技術大致可以分為前端和后端這兩部分,前端的主要任務是對輸入的文本進行語義分析,即把一個個單獨的中文字進行分詞斷句,并標注出每個詞的詞性,因為中文有多音字的問題,不同的詞性讀音很可能不一樣,韻律也會有所不同。之后還要進行一次歸一化處理(Normalization),比如110用在電話號碼里應該讀成“幺幺零”,而不是“一百一十”。前端部分需要電腦掌握基本的語言規則,機器學習程序也可以得到部分應用。
后端處理有兩種不同的模式,一種叫拼接合成,即把每句話切成一個個小片段,然后從語音庫里調出相應的片段加以拼接。這個過程有點像搭樂高,或者更準確地說,像間諜寫信時為了不讓對方看出筆跡而從報紙上找單詞,再剪下來拼接。另一種模式叫做參數合成,讓電腦根據前端的語義分析結果預測相應的聲學特征序列,再用聲碼器直接進行聲音的合成。
這兩種模式本質上都是基于統計的選擇,即哪種方式人類用的比較多就選擇哪種。相比之下,拼接合成模式做出來的聲音更像真人,只不過聽起來會感覺有點跳躍,不夠平滑。參數合成模式做出來的聲音則正相反,聽起來非常平滑,但卻會顯得單調無趣,缺乏個性,而且聲音會有點發悶,一聽就是電腦做出來的。
從電腦的角度來看,拼接合成模式需要的計算量比較大,通常需要聯網才能使用。參數合成模式需要的計算量比較小,適合離線狀態,所以我們平時聽到的導航聲音大都是用參數合成的辦法做出來的。但像一些名人聲音,比如郭德綱或者林志玲的定制聲音,則是兩者結合的產物。
微軟早在2003年就成立了語音組,致力于開發電腦語音處理系統。在上述這兩種傳統方法的基礎上,該組于去年開始嘗試一個根本性的技術革新,即把目前最火的深度神經網絡技術用了進來,最大限度地模仿人類說話的方式。
“我們平時說話的時候,肯定不會先在心里分詞斷句,再標詞性標韻律,而是想到什么直接就說出來了,因為語言規則早就存在我們的腦子里了。”丁秉公對我說,“于是我們如法炮制,直接把大量的文字以及相應的語音信息輸進電腦,訓練深度神經網絡去學習這些真人的說話方式,這樣學出來的語音包含有大量真人說話特有的聲音細節,甚至像換氣和咽口水等等細微的聲音都可以模仿出來,這就為聲音定制提供了可能性。”
“我那天只給你們錄了幾百句話,這么點兒訓練量怎么夠呢?”我問。
“因為我們的系統事先已經學習了成百上千個不同人的聲音,得到了一個普適的通用模型(Universal Model),然后我們只要把你的個人特征加進這個已經訓練好了的系統里,進行一下優化就可以了。”何磊這樣解釋,“優化好的系統就只適用于你一個人,讀任何東西出來的都是你的聲音,這就是我們的聲音定制服務。”
據介紹,目前這套系統已經可以商用,背后有微軟云計算平臺Azure強大的計算能力作為支持。這就好比當年和李世石對弈的第一代阿爾法圍棋程序,后臺有一大堆計算機在瘋狂地工作著。經過不斷地優化,和柯潔對弈的第二代阿爾法圍棋程序就可以在一臺單機上運行了,這套系統也正朝這個方向努力。
“我們這套Neural TTS系統本質上仍然是基于統計的,不是真正意義上的閱讀理解,所以還是會犯錯,對于準確率要求比較高的場景,后期需要編輯進行校驗和修改。”丁秉公告訴我,“其實真人錄音同樣需要后期處理,工作量也很大,而我們這套系統的好處是可以先批量生產出一大批音頻文件,投放到市場上去,然后根據聽眾的反饋,挑出最受歡迎的書籍或者文章,再找真人專門錄一個高質量的音頻版本就行了。”
對于我的音頻節目來說,我需要找一個中英文都說得很好的朗讀者,因為《生命八卦》里有很多專有名詞,大都附上了英文,最好能讀出來。好在微軟是一家跨國公司,所以這套系統在多語言混合的情況下表現得非常優秀,比其他競爭對手要高一個檔次。
“我們這套系統還可以讓你說很多種語言,即使你本人其實一句也不會說。”何磊補充道,“因為我們已經把這些語言的通用模型做好了,只要把你的聲音特征加上去就行了。”
何磊給我播放了幾段演示音頻,同樣一個女聲,既可以說中文和英文,也可以說德語、法語、日語和西班牙語,甚至連四川話都能說。
“其實我們做這套系統不光是為了制作音頻節目,還可以幫助視障人員或者漸凍癥患者發出自己的聲音。”丁秉公告訴我,“假設一個人知道自己得了漸凍癥,即將在不遠的將來失去說話的能力,我們可以事先把他的聲音錄下來,然后他就可以通過電腦用自己的嗓音和外界通話了。”
同理,現在市面上流行的翻譯機用的都是標準音,如果將來這套技術能夠實現單機運行的話,就可以讓翻譯機發出使用者自己的聲音,聽上去會更加自然。
總之,這項技術前途無量,應用場景太多了。為了防止將來有人盜用這項技術冒充他人牟取私利,微軟特意在所有的電腦音頻中加入了一個常人聽不出來的標記信號,以便專業人士能夠分辨出來。
微軟人工智能語音組產品總監丁秉公
語音識別是更大的挑戰
聊了半天語音合成,我順便問了問語音合成技術的孿生兄弟,語音識別技術的現狀。作為一名記者,這個功能也是非常有用的,能夠幫助我整理采訪錄音。
“微軟從上世紀90年代起就開始研究語言識別技術了,當時還只能做到50%的準確率,沒法實用。”丁秉公介紹說,“經過多年的努力,2017年時我們已經可以把錯誤率降到5.1%,也就是說每100個字只聽錯5個,這個成績已經比真人要好了。”
我用微軟提供的麥克風試了試,故意夾雜了一句含混不清的北京土話,居然被正確地識別了出來。
“你這個叫近場識別,準確度最高。如果聲源距離麥克風超過了一米遠,叫遠場聲,電腦雖然也能識別出來,準確率就沒有那么高了。”丁秉公解釋說,“除此之外,我們還得考慮環境噪聲的影響、回聲的干擾、錄音質量過低的問題,以及從多人對話中分辨出誰在說話,難度非常大。”
為了解決最后這個問題,可以事先對每一位說話者進行幾分鐘的聲音采樣,讓電腦學會這些人的聲音特征。但很多時候這是不可能做到的,此時就得想點新的招數。丁秉公為我演示了微軟出的一套全新的會議記錄系統,除了麥克風之外還添加了若干個攝像頭,幫助電腦更好地辨別出是誰在說話。如果會議室里安裝了這套系統,會議結束后就可以立即拿到完整的會議記錄,非常方便。
對于人類來說,聽肯定要比說更容易。我們小時候大都是先學會聽,再學會說的,為什么電腦反過來了呢?答案要從電腦的特點中去尋找。電腦和人腦相比,最大的特點就是更加精確。如果一個問題能夠被精確地定義或者描述出來,電腦解決起來就要容易得多,這就是為什么教電腦下圍棋要比教電腦畫畫更容易。
在電腦語言這個案例里,語音合成就是一個定義明確的任務。輸入電腦的原始數據是真人在錄音棚里對著麥克風朗讀出來的,和對應的文本一字不差,數據非常干凈。用這樣的高質量數據訓練電腦,可以更好地利用深度神經網絡強大的學習能力。相比之下,訓練電腦語音識別時所輸入的原始數據就顯得比較“臟”了,電腦最怕這種模糊的東西,處理起來就要困難得多。
雖然難度很大,但微軟已經開發出了支持30多個國家的語音識別系統,并支持近場和遠場等復雜情況下的語音識別任務。這套系統除了能夠幫助記者整理錄音,以及進行會議記錄之外,還能幫助遠程服務公司對電話客服人員進行質量檢查。此前這類檢查只能靠聽,很費時間,現在可以把所有電話錄音輸入電腦,瞬間輸出文字記錄,然后質檢員就可以通過關鍵詞篩選等方式快速進行質量檢查了。
對于普通人來說,這兩套系統更為人所知的應用就是人機對話,比如微軟小娜和小冰。不過,語音合成和識別只是人機對話的基礎,其背后還需要更高級的人工智能作為后盾,這就是另外一個話題了。
語音合成和語音識別是一枚硬幣的正反兩面,正好可以用來相互學習,就像當初阿爾法圍棋程序通過左右互搏來提高水平一樣。微軟正在嘗試把這兩套系統結合起來,互相訓練,希望能盡快提高水平,真正做到像人一樣說話聽音。
值得一提的是,微軟的語音識別和合成技術并不只是為某個產品服務的,它更像是一個技術平臺,任何客戶都可以通過微軟的云計算平臺Azure享受這項服務。事實上,微軟早就不是那個只賣Windows操作系統的軟件公司了。在新任CEO的領導下,微軟已經轉變成了一家致力于提供云計算服務的to B公司,目前市面上很多需要電腦語音功能的公司都采用了微軟提供的技術。
總的來說,雖然如今的電腦越來越像人,但距離真正意義上的人工智能還差得很遠。微軟的這套語音合成與識別技術更像是一個黑匣子,我們只能一邊輸入一邊輸出,并不知道匣子里究竟發生了什么。要想讓電腦像人一樣在理解的基礎上說人話,必須想辦法打破黑匣子,弄清楚里面到底發生了什么,我們距離那一天還有很長的一段路要走。
如今流行音頻課,人們可以把平時花在通勤和鍛煉上的時間利用起來聽書學習。不久前,三聯中讀打算把我在雜志上寫的《生命八卦》專欄做成音頻,我立刻表示反對,因為那個專欄我寫了15年,加起來超過了80萬字。我可不想把自己關在錄音棚里一遍又一遍地朗讀舊文,那是要死人的。
一位編輯提議把文章輸進電腦程序里自動生成音頻,但我仍然不同意,因為我以前聽過這樣的音頻內容,根本聽不進去。記得那是一本驚險小說,內容緊張刺激,但電腦程序顯然是按照中文的標準發音一個字一個字地往外蹦,基本沒有正常人說話時的音調起伏和節奏變化,情感表達更是完全缺失。我原以為我可以克服這個障礙,畢竟小說本來就是由一個個獨立的漢字組合而成的,背后的精彩故事全靠讀者腦補。電腦所做的不過是把漢字的視覺信號轉變成漢語的音頻信息,相當于換一個腦補的方式罷了,這有啥難的?可試了幾天之后,我發現真的很難!這種單調的機器聲不但理解起來有困難,甚至會讓人犯困,我經常聽著聽著就在地鐵里睡著了。
經過那次試驗,我終于親身體會到了韻律對于語言的重要性。人類通過語言表達的信息有很多都是通過韻律的變化傳遞出來的,聽者也早已習慣了這種信息接收方式,和閱讀有著本質的區別。
舉個例子:為什么我們經常會聽錯歌詞?并不是因為唱歌的人發音不準,而是因為歌者為了遷就旋律,經常要改變語言原有的韻律,聽者不習慣,很容易就被搞糊涂了。
雖然困難重重,但知識音頻化的浪潮無法抗拒。所幸微軟(亞洲)互聯網工程院及時伸出援手,讓我去試試他們新開發的基于深度神經網絡的計算機合成語音系統(Neural Text-to-Speech,簡稱Neural TTS),據說這套系統只需很少的訓練量就可以模仿我的聲音,代替我朗讀那些文章。這件事對我很有吸引力,于是我騰出了一個下午的時間來到微軟租用的一間錄音棚,進行聲音的收集采樣工作。
土摩托(作者)在錄音棚為《生命八卦》音頻專欄進行聲音的收集采樣
按照我原來的設想,微軟工程師會讓我把3000個常用漢字都念一遍,做一個我的專屬語音庫。但出乎我意料的是,他們只是讓我對著提詞器念了8篇《生命八卦》專欄的舊文章,最后為了增加采樣內容的豐富性,又讓我補念了兩段《三聯》“旅游與地理”欄目里的游記文章,加起來也就一萬多字的內容,不到3個小時就念完了。唯一麻煩的就是我必須念得十分準確才行,即使念錯一個字也要把整句話重新再念一遍。我缺乏這方面的訓練,一開始重復的次數有點多,后來慢慢習慣了就好了。
一周后,微軟發來了一段電腦合成的語音,念的是我最近寫的那篇專欄文章《和癌細胞共存亡》。一聽之下,我立刻驚呆了!不但聲音的質感很像我,就連我朗讀時的語氣也模仿得惟妙惟肖。我把它傳給朋友和同事們聽,大家也都被震驚了,紛紛表示以后接到我發的語音信息必須先得核實一下才敢相信。
其實他們大可不必擔心。這段音頻帶有比較明顯的朗誦腔,語氣非常嚴肅,和我平時說話還是有很大差別的。仔細想想這也很好理解,畢竟電腦的樣本庫里只有我念的那一萬多字科普文章的音頻資料,我因為缺乏專業訓練,很難念出抑揚頓挫的感覺,電腦只不過忠實地模仿了我的朗讀風格而已。事實上,因為文章內容比較嚴肅,如果用普通音頻軟件來讀的話,很容易讀成催眠曲。找一個不相干的人來讀吧,又怕讀得太過情緒化,不符合文章的原意。現在這個結果剛剛好,不但準確地表達了原文的意思,而且聽眾應該也更希望聽到文章作者自己的聲音吧,這樣會顯得更加親切。
當然了,這段電腦朗讀并不是十全十美的,主要問題出在斷句上,比如“評價一個癌細胞致癌性的強弱”這句話,電腦不知為何在“癌細胞”和“致癌性”這兩個詞之間停頓了一下,說明電腦并沒有真的理解這句話的含義。
既然如此,電腦是怎么做到把一篇科普文章朗誦得像作者本人的呢?帶著這個疑問,我訪問了位于北京海淀區中關村的微軟亞太研發集團總部,請人工智能語音組的產品總監丁秉公和首席研發經理何磊為我詳細解釋了語音合成技術的歷史,以及微軟這套Neural TTS系統的工作原理。
微軟人工智能語音組首席研發經理何磊
根據兩位博士的介紹,傳統的中文語音合成技術大致可以分為前端和后端這兩部分,前端的主要任務是對輸入的文本進行語義分析,即把一個個單獨的中文字進行分詞斷句,并標注出每個詞的詞性,因為中文有多音字的問題,不同的詞性讀音很可能不一樣,韻律也會有所不同。之后還要進行一次歸一化處理(Normalization),比如110用在電話號碼里應該讀成“幺幺零”,而不是“一百一十”。前端部分需要電腦掌握基本的語言規則,機器學習程序也可以得到部分應用。
后端處理有兩種不同的模式,一種叫拼接合成,即把每句話切成一個個小片段,然后從語音庫里調出相應的片段加以拼接。這個過程有點像搭樂高,或者更準確地說,像間諜寫信時為了不讓對方看出筆跡而從報紙上找單詞,再剪下來拼接。另一種模式叫做參數合成,讓電腦根據前端的語義分析結果預測相應的聲學特征序列,再用聲碼器直接進行聲音的合成。
這兩種模式本質上都是基于統計的選擇,即哪種方式人類用的比較多就選擇哪種。相比之下,拼接合成模式做出來的聲音更像真人,只不過聽起來會感覺有點跳躍,不夠平滑。參數合成模式做出來的聲音則正相反,聽起來非常平滑,但卻會顯得單調無趣,缺乏個性,而且聲音會有點發悶,一聽就是電腦做出來的。
配備攝像頭和麥克風陣列的智能會議系統“黑塔”
從電腦的角度來看,拼接合成模式需要的計算量比較大,通常需要聯網才能使用。參數合成模式需要的計算量比較小,適合離線狀態,所以我們平時聽到的導航聲音大都是用參數合成的辦法做出來的。但像一些名人聲音,比如郭德綱或者林志玲的定制聲音,則是兩者結合的產物。
微軟早在2003年就成立了語音組,致力于開發電腦語音處理系統。在上述這兩種傳統方法的基礎上,該組于去年開始嘗試一個根本性的技術革新,即把目前最火的深度神經網絡技術用了進來,最大限度地模仿人類說話的方式。
“我們平時說話的時候,肯定不會先在心里分詞斷句,再標詞性標韻律,而是想到什么直接就說出來了,因為語言規則早就存在我們的腦子里了。”丁秉公對我說,“于是我們如法炮制,直接把大量的文字以及相應的語音信息輸進電腦,訓練深度神經網絡去學習這些真人的說話方式,這樣學出來的語音包含有大量真人說話特有的聲音細節,甚至像換氣和咽口水等等細微的聲音都可以模仿出來,這就為聲音定制提供了可能性。”
“我那天只給你們錄了幾百句話,這么點兒訓練量怎么夠呢?”我問。
“因為我們的系統事先已經學習了成百上千個不同人的聲音,得到了一個普適的通用模型(Universal Model),然后我們只要把你的個人特征加進這個已經訓練好了的系統里,進行一下優化就可以了。”何磊這樣解釋,“優化好的系統就只適用于你一個人,讀任何東西出來的都是你的聲音,這就是我們的聲音定制服務。”
據介紹,目前這套系統已經可以商用,背后有微軟云計算平臺Azure強大的計算能力作為支持。這就好比當年和李世石對弈的第一代阿爾法圍棋程序,后臺有一大堆計算機在瘋狂地工作著。經過不斷地優化,和柯潔對弈的第二代阿爾法圍棋程序就可以在一臺單機上運行了,這套系統也正朝這個方向努力。
“我們這套Neural TTS系統本質上仍然是基于統計的,不是真正意義上的閱讀理解,所以還是會犯錯,對于準確率要求比較高的場景,后期需要編輯進行校驗和修改。”丁秉公告訴我,“其實真人錄音同樣需要后期處理,工作量也很大,而我們這套系統的好處是可以先批量生產出一大批音頻文件,投放到市場上去,然后根據聽眾的反饋,挑出最受歡迎的書籍或者文章,再找真人專門錄一個高質量的音頻版本就行了。”
對于我的音頻節目來說,我需要找一個中英文都說得很好的朗讀者,因為《生命八卦》里有很多專有名詞,大都附上了英文,最好能讀出來。好在微軟是一家跨國公司,所以這套系統在多語言混合的情況下表現得非常優秀,比其他競爭對手要高一個檔次。
“我們這套系統還可以讓你說很多種語言,即使你本人其實一句也不會說。”何磊補充道,“因為我們已經把這些語言的通用模型做好了,只要把你的聲音特征加上去就行了。”
何磊給我播放了幾段演示音頻,同樣一個女聲,既可以說中文和英文,也可以說德語、法語、日語和西班牙語,甚至連四川話都能說。
“其實我們做這套系統不光是為了制作音頻節目,還可以幫助視障人員或者漸凍癥患者發出自己的聲音。”丁秉公告訴我,“假設一個人知道自己得了漸凍癥,即將在不遠的將來失去說話的能力,我們可以事先把他的聲音錄下來,然后他就可以通過電腦用自己的嗓音和外界通話了。”
同理,現在市面上流行的翻譯機用的都是標準音,如果將來這套技術能夠實現單機運行的話,就可以讓翻譯機發出使用者自己的聲音,聽上去會更加自然。
總之,這項技術前途無量,應用場景太多了。為了防止將來有人盜用這項技術冒充他人牟取私利,微軟特意在所有的電腦音頻中加入了一個常人聽不出來的標記信號,以便專業人士能夠分辨出來。
微軟人工智能語音組產品總監丁秉公
聊了半天語音合成,我順便問了問語音合成技術的孿生兄弟,語音識別技術的現狀。作為一名記者,這個功能也是非常有用的,能夠幫助我整理采訪錄音。
“微軟從上世紀90年代起就開始研究語言識別技術了,當時還只能做到50%的準確率,沒法實用。”丁秉公介紹說,“經過多年的努力,2017年時我們已經可以把錯誤率降到5.1%,也就是說每100個字只聽錯5個,這個成績已經比真人要好了。”
我用微軟提供的麥克風試了試,故意夾雜了一句含混不清的北京土話,居然被正確地識別了出來。
“你這個叫近場識別,準確度最高。如果聲源距離麥克風超過了一米遠,叫遠場聲,電腦雖然也能識別出來,準確率就沒有那么高了。”丁秉公解釋說,“除此之外,我們還得考慮環境噪聲的影響、回聲的干擾、錄音質量過低的問題,以及從多人對話中分辨出誰在說話,難度非常大。”
為了解決最后這個問題,可以事先對每一位說話者進行幾分鐘的聲音采樣,讓電腦學會這些人的聲音特征。但很多時候這是不可能做到的,此時就得想點新的招數。丁秉公為我演示了微軟出的一套全新的會議記錄系統,除了麥克風之外還添加了若干個攝像頭,幫助電腦更好地辨別出是誰在說話。如果會議室里安裝了這套系統,會議結束后就可以立即拿到完整的會議記錄,非常方便。
對于人類來說,聽肯定要比說更容易。我們小時候大都是先學會聽,再學會說的,為什么電腦反過來了呢?答案要從電腦的特點中去尋找。電腦和人腦相比,最大的特點就是更加精確。如果一個問題能夠被精確地定義或者描述出來,電腦解決起來就要容易得多,這就是為什么教電腦下圍棋要比教電腦畫畫更容易。
在電腦語言這個案例里,語音合成就是一個定義明確的任務。輸入電腦的原始數據是真人在錄音棚里對著麥克風朗讀出來的,和對應的文本一字不差,數據非常干凈。用這樣的高質量數據訓練電腦,可以更好地利用深度神經網絡強大的學習能力。相比之下,訓練電腦語音識別時所輸入的原始數據就顯得比較“臟”了,電腦最怕這種模糊的東西,處理起來就要困難得多。
雖然難度很大,但微軟已經開發出了支持30多個國家的語音識別系統,并支持近場和遠場等復雜情況下的語音識別任務。這套系統除了能夠幫助記者整理錄音,以及進行會議記錄之外,還能幫助遠程服務公司對電話客服人員進行質量檢查。此前這類檢查只能靠聽,很費時間,現在可以把所有電話錄音輸入電腦,瞬間輸出文字記錄,然后質檢員就可以通過關鍵詞篩選等方式快速進行質量檢查了。
對于普通人來說,這兩套系統更為人所知的應用就是人機對話,比如微軟小娜和小冰。不過,語音合成和識別只是人機對話的基礎,其背后還需要更高級的人工智能作為后盾,這就是另外一個話題了。
語音合成和語音識別是一枚硬幣的正反兩面,正好可以用來相互學習,就像當初阿爾法圍棋程序通過左右互搏來提高水平一樣。微軟正在嘗試把這兩套系統結合起來,互相訓練,希望能盡快提高水平,真正做到像人一樣說話聽音。
值得一提的是,微軟的語音識別和合成技術并不只是為某個產品服務的,它更像是一個技術平臺,任何客戶都可以通過微軟的云計算平臺Azure享受這項服務。事實上,微軟早就不是那個只賣Windows操作系統的軟件公司了。在新任CEO的領導下,微軟已經轉變成了一家致力于提供云計算服務的to B公司,目前市面上很多需要電腦語音功能的公司都采用了微軟提供的技術。
總的來說,雖然如今的電腦越來越像人,但距離真正意義上的人工智能還差得很遠。微軟的這套語音合成與識別技術更像是一個黑匣子,我們只能一邊輸入一邊輸出,并不知道匣子里究竟發生了什么。要想讓電腦像人一樣在理解的基礎上說人話,必須想辦法打破黑匣子,弄清楚里面到底發生了什么,我們距離那一天還有很長的一段路要走。
中讀X微軟
聯手打造首個“聲音定制”專欄
“土摩托·生命八卦”
帶你了解問題的答案,解鎖科學的思維方式