欧美vvv,亚洲第一成人在线,亚洲成人欧美日韩在线观看,日本猛少妇猛色XXXXX猛叫

新聞資訊

    演講者 | 趙晟、張鵬

    整理 | 伍杏玲

    出品 | CSDN(ID:CSDNnews)

    【CSDN 編者按】9 月 7 日,在CSDN主辦的「AI ProCon 2019」上,微軟(亞洲)互聯(lián)網(wǎng)工程院人工智能語(yǔ)音團(tuán)隊(duì)首席研發(fā)總監(jiān)趙晟、微軟(亞洲)互聯(lián)網(wǎng)工程院 Office 365資深產(chǎn)品經(jīng)理,Office 小程序負(fù)責(zé)人張鵬共同發(fā)表《微軟語(yǔ)音AI與微軟聽聽小程序實(shí)踐》的主題演講,分享微軟人工智能語(yǔ)音的技術(shù)以及微軟聽聽小程序的落地實(shí)踐。

    詳情如何?我們一起來(lái)看看。

    以下為演講內(nèi)容:

    趙晟:

    小程序是現(xiàn)在移動(dòng)開發(fā)的新生態(tài)、新趨勢(shì)。語(yǔ)音AI技術(shù)跟移動(dòng)開發(fā)是非常有關(guān)系的。大家平時(shí)開車時(shí)不方便用手輸入,可以用語(yǔ)音輸入,開車時(shí)想聽一些東西,完全可以用文字轉(zhuǎn)語(yǔ)音的技術(shù)去聽這些內(nèi)容?;谶@些考慮,微軟語(yǔ)音AI和微軟聽聽小程序合作做了些嘗試,今天給大家分享這里面的故事。

    趙晟

    微軟語(yǔ)音AI的技術(shù)突破

    微軟在30多年前開辦微軟研究院時(shí),已開始投入大量的人力物力在語(yǔ)音和語(yǔ)言上。近幾年來(lái),微軟在語(yǔ)音識(shí)別上首先取得突破,在2016年,語(yǔ)音識(shí)別的準(zhǔn)確度已達(dá)到跟人相似的水平。

    2018年,在中英機(jī)器翻譯上和人類做比較,發(fā)現(xiàn)機(jī)器翻譯的質(zhì)量跟專業(yè)翻譯人員的結(jié)果完全可以相媲美。

    2018年9月,微軟首先發(fā)布了基于神經(jīng)網(wǎng)絡(luò)的語(yǔ)音合成產(chǎn)品服務(wù),它與人聲的自然度得分的比例達(dá)到98.6%,也就是說(shuō)非常接近人聲。

    • 語(yǔ)音識(shí)別之路

    微軟在語(yǔ)音識(shí)別的具體突破有哪些?

    語(yǔ)音識(shí)別主要核心指標(biāo)是詞錯(cuò)誤率,就是詞識(shí)別錯(cuò)誤占多少比例。在SwitchBoard會(huì)話數(shù)據(jù)集上,語(yǔ)音識(shí)別錯(cuò)誤率開始非常高,根本不能用,到2016年,微軟取得了突破,達(dá)到5.9%的錯(cuò)誤率,2017年進(jìn)一步降低到5.1%的錯(cuò)誤率,這個(gè)錯(cuò)誤率跟專業(yè)人員轉(zhuǎn)寫錄音的錯(cuò)誤率是相當(dāng)?shù)摹?/p>

    大家聽聽這個(gè)數(shù)據(jù)集的例子:電話上有兩個(gè)人在交流,語(yǔ)音具有不連續(xù)性、噪音、口音,所以識(shí)別難度對(duì)機(jī)器來(lái)講是非常大的,微軟使用10個(gè)神經(jīng)網(wǎng)絡(luò)技術(shù),比如:CNN、ResNet、VGG等,多模型輸出打分、多系統(tǒng)融合,得到了這個(gè)了不起的突破。

    • 機(jī)器翻譯的里程碑

    1980年的傳統(tǒng)機(jī)器翻譯,到1990年的統(tǒng)計(jì)機(jī)器翻譯,再到2010年,深度學(xué)習(xí)機(jī)器翻譯技術(shù)開始興起。2018年,微軟首度提出一個(gè)任務(wù),把機(jī)器跟人在中英新聞翻譯上做比較,讓專業(yè)翻譯人員和機(jī)器翻譯同樣的句子,翻譯后請(qǐng)懂雙語(yǔ)的老師和學(xué)生去對(duì)翻譯結(jié)果用0-100分進(jìn)行打分。

    可以看到微軟的Human Parity機(jī)器翻譯系統(tǒng)已經(jīng)超過(guò)或者接近專業(yè)人員的翻譯水平。它的突破用到了新技術(shù)比如對(duì)偶學(xué)習(xí),用大量無(wú)標(biāo)注數(shù)據(jù)提高現(xiàn)有的翻譯系統(tǒng)。還有推敲網(wǎng)絡(luò),先有一個(gè)初始翻譯,再用另外一個(gè)網(wǎng)絡(luò)進(jìn)行再一次的修正,同時(shí)運(yùn)用多系統(tǒng)融合技術(shù),最終達(dá)到這個(gè)突破性的結(jié)果。

    • 語(yǔ)音合成技術(shù)

    我們?cè)倏纯凑Z(yǔ)音合成技術(shù),文字轉(zhuǎn)語(yǔ)音這個(gè)技術(shù)也是非常悠久的語(yǔ)音AI技術(shù)。

    最開始是基于人的發(fā)音原理的合成器,然后90 年代用拼接的方法,把一句話分成很小的單元,然后進(jìn)行拼接,一開始的拼接是小語(yǔ)料庫(kù),自然度一般。在1999年左右,出現(xiàn)基于大語(yǔ)料庫(kù)的拼接,這時(shí)需要收集到成千上萬(wàn)的句子,把它們切分開來(lái),用一種選擇策略去選擇最合適的單元拼接在一起,自然度顯著提升,但是帶來(lái)新的問(wèn)題,比如有些拼接不平滑。

    2006年左右,基于HMM模型的合成技術(shù)興起,它的好處是非常平滑,但是也帶來(lái)負(fù)作用,就是聲音過(guò)于平滑,讓人聽出來(lái)覺得不夠具有表現(xiàn)力。深度學(xué)習(xí)的興起在合成領(lǐng)域也得到了應(yīng)用,最近兩三年推出的神經(jīng)網(wǎng)絡(luò)TTS,是語(yǔ)音合成技術(shù)的突破。谷歌提出來(lái)Tacotron, WaveNet這些模型,把語(yǔ)音自然度提升新的水平。

    微軟在2018年,2019年提出了Transformer TTS、Fast Speech等高自然度神經(jīng)網(wǎng)絡(luò)TTS模型,并在2018年9月首度推出產(chǎn)品化接近人聲的端到端Neural TTS。

    • Neural TTS模型

    為什么Neural TTS模型可以接近人聲?

    傳統(tǒng)的TTS是一個(gè)復(fù)雜的流程,每一步都要進(jìn)行單獨(dú)優(yōu)化,有些模塊需要經(jīng)驗(yàn)規(guī)則,人工優(yōu)化權(quán)重等等。神經(jīng)網(wǎng)絡(luò)的TTS是將合成流程簡(jiǎn)化了,我們可以看到它基本就三段,有一個(gè)前端文本分析,一個(gè)聲學(xué)模型,一個(gè)Neural Vocoder聲碼器。神經(jīng)網(wǎng)絡(luò)的聲碼器可以非常接近人的音質(zhì)。

    采用最新的基于注意力的聲學(xué)模型去進(jìn)行建模韻律,更加接近人聲的韻律。兩者疊加起來(lái),就可以到更符合人的韻律和音質(zhì)的高質(zhì)量合成語(yǔ)音。當(dāng)然,帶來(lái)的負(fù)作用是計(jì)算量非常大。

    神經(jīng)網(wǎng)絡(luò)TTS的架構(gòu)非常具有可擴(kuò)展性,各家都提出不同的聲學(xué)和聲碼器模型,有各自的特點(diǎn),有的計(jì)算量大一點(diǎn),有的計(jì)算量小一點(diǎn),質(zhì)量也有所不同。

    Neural TTS還有一個(gè)特點(diǎn)是遷移學(xué)習(xí),我們可以提取條件參數(shù),對(duì)合成進(jìn)行控制,比如我們可以先訓(xùn)練一個(gè)多說(shuō)話人的基礎(chǔ)模型,使用幾十小時(shí)到上千小時(shí)數(shù)據(jù)訓(xùn)練得到一個(gè)模型。有了基礎(chǔ)模型以后可以做很多有意思的事情,比如訓(xùn)練我自己的聲音,或者生成有情感的、多風(fēng)格的、跨語(yǔ)言的聲音,這些都可以做到。

    語(yǔ)音服務(wù)概覽

    前面講了語(yǔ)音的新技術(shù)突破,可能有人就會(huì)問(wèn),有這么多新技術(shù),怎么在產(chǎn)品里用它?我給大家介紹語(yǔ)音服務(wù)有哪些功能供大家使用。

    微軟的語(yǔ)音服務(wù)基本都在微軟Azure這個(gè)平臺(tái)上,提供語(yǔ)音轉(zhuǎn)文字、文字翻譯等標(biāo)準(zhǔn)服務(wù)。

    Azure語(yǔ)音云端服務(wù)

    語(yǔ)音轉(zhuǎn)文字有很多功能,如實(shí)時(shí)識(shí)別文字、一個(gè)人說(shuō)話、多人對(duì)話、會(huì)議場(chǎng)景。一個(gè)典型場(chǎng)景是大家開會(huì)后想看會(huì)議內(nèi)容,可用語(yǔ)音服務(wù)把語(yǔ)音轉(zhuǎn)成文字,并且做一些自動(dòng)處理的摘要,這樣可快捷地查看會(huì)議內(nèi)容。

    目前跟人類接近的文字翻譯系統(tǒng)已上線,神經(jīng)網(wǎng)絡(luò)模型已更新,翻譯質(zhì)量大幅度提升。

    文字轉(zhuǎn)語(yǔ)音我們提供神經(jīng)網(wǎng)絡(luò) TTS、4種語(yǔ)言、5個(gè)聲音。這些服務(wù)都可以用Rest和WebSocket SDK調(diào)用。

    我們還提供語(yǔ)音到語(yǔ)音的翻譯系統(tǒng),比如翻譯機(jī)場(chǎng)景,把中文語(yǔ)音輸入進(jìn)去,翻譯成英文,得到語(yǔ)音流,可以直接播放,不用再配置其他服務(wù),簡(jiǎn)化開發(fā)步驟。這些服務(wù)都可以在以下網(wǎng)址訪問(wèn)使用。

    https://azure.microsoft.com/en-us/services/cognitive-services/speech-services/

    • 云端模型定制服務(wù)

    前面我提到的API都是標(biāo)準(zhǔn)模型,所謂標(biāo)準(zhǔn)模型就是微軟幾十年收集的數(shù)據(jù)做的大模型,大模型適用于大量通用的場(chǎng)景。但是AI有一個(gè)特點(diǎn)是對(duì)于不同場(chǎng)景相關(guān)的數(shù)據(jù)做一些自適應(yīng),可達(dá)到更好的效果。

    典型的例子是有些公司里面有自己的硬件采集語(yǔ)音、有自己的關(guān)鍵詞,如果有這些場(chǎng)景數(shù)據(jù),可以大幅度提高語(yǔ)音識(shí)別準(zhǔn)確率。我們?cè)谡Z(yǔ)音識(shí)別、翻譯、合成模型上都提供定制功能,提供給各位開發(fā)者一起創(chuàng)建生態(tài)系統(tǒng),你可以把數(shù)據(jù)放進(jìn)去,打造成行業(yè)的模型,提供給客戶使用。

    模型定制地址:https://speech.microsoft.com/

    • Edge 端的語(yǔ)音容器

    前面提到基于云端的語(yǔ)音服務(wù),云端模型定制,還有一個(gè)很重要的場(chǎng)景是需要把AI放到離線或者私有云里面,這就是常說(shuō)的Edge計(jì)算。因?yàn)檫@些端的計(jì)算力得到很大提高,可以跑起來(lái)復(fù)雜的模型。

    包括手機(jī)端的Tensorflow都是類似的利用Edge部署的想法。我們語(yǔ)音服務(wù)在Edge有一個(gè)部署方案,它是基于Docker的容器,這樣帶來(lái)很多好處,比如安全可靠、延遲很小,充分利用現(xiàn)有硬件,接口和云端化部署保持一致,使用起來(lái)非常方便。

    比如呼叫中心里有大量的客服語(yǔ)音對(duì)話,對(duì)此進(jìn)行分析就可以了解服務(wù)的滿意度。我們已形成了解決方案:在呼叫中心里定制模型,定制后,用于大批量處理錄音,然后使用自然語(yǔ)言處理進(jìn)行智能分析。在國(guó)內(nèi)我們聯(lián)合了聯(lián)合利華、中國(guó)移動(dòng)利用容器化的語(yǔ)音服務(wù)去完成這些服務(wù)。

    容器可以在此申請(qǐng)使用:https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-container-howto

    • Unified Speech SDK

    在客戶端SAPI、SpeechFX是Windows系統(tǒng)自帶的傳統(tǒng)開發(fā)SDK。我們現(xiàn)在提出了Unified SDK,支持訪問(wèn)云端的語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)言翻譯等語(yǔ)音服務(wù)。這個(gè)SDK也支持容器化的語(yǔ)音服務(wù)和離線語(yǔ)音引擎,它是真正跨平臺(tái)的,支持Windows、Linux、安卓、iOS、瀏覽器平臺(tái)。SDK采用跨平臺(tái)架構(gòu),提供有各種語(yǔ)言的綁定,中間有統(tǒng)一的C API,底層有跨平臺(tái)的庫(kù),可以快速支持跨平臺(tái)的遷移。

    短語(yǔ)音識(shí)別代碼

    簡(jiǎn)單看幾個(gè)語(yǔ)音識(shí)別例子,各種音箱助理要做識(shí)別,這是短句語(yǔ)音識(shí)別場(chǎng)景,你可以創(chuàng)建一個(gè)語(yǔ)音識(shí)別對(duì)象,然后異步開始識(shí)別,它是從聲卡采集數(shù)據(jù)進(jìn)行識(shí)別,然后把結(jié)果反饋給你。

    SDK免費(fèi)下載使用:https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-sdk

    語(yǔ)音合成平臺(tái)

    語(yǔ)音合成平臺(tái)的使命是讓每個(gè)人和組織都有喜歡的數(shù)字化聲音。這個(gè)語(yǔ)音合成平臺(tái)是既給內(nèi)部客戶使用,也給外部客戶使用,內(nèi)部客戶比如像微軟的語(yǔ)音助理用的就是同樣這個(gè)語(yǔ)音合成平臺(tái)。我們?cè)诓粩嗟@個(gè)平臺(tái),在18個(gè)數(shù)據(jù)中心里都有部署,真正達(dá)到全球化的部署,出海企業(yè)可以使用我們國(guó)外的數(shù)據(jù)中心。

    接下來(lái)看看基于神經(jīng)網(wǎng)絡(luò)TTS的多種風(fēng)格語(yǔ)音。為什么要有多風(fēng)格的語(yǔ)音?因?yàn)楹铣梢欢握Z(yǔ)音的話,文字和語(yǔ)音要有一定的匹配,讀新聞時(shí)需要正式的聲音,機(jī)器人回復(fù)的時(shí)候需要考慮上下文需要,采取帶有情感的回復(fù)。我們提供了風(fēng)格化的聲音供大家使用,通過(guò)輸入的SSML express-as標(biāo)記進(jìn)行風(fēng)格控制,使用起來(lái)是非常容易的。

    中文上我們也正在開發(fā)新的風(fēng)格,比如有親和力的助理場(chǎng)景,客服場(chǎng)景里,客服機(jī)器人的語(yǔ)氣應(yīng)該是比較熱心的。有時(shí)機(jī)器人有需要一些技能,我們這個(gè)曉曉也會(huì)唱歌。另外新聞場(chǎng)景,需要比較正式的語(yǔ)氣來(lái)讀新聞。讀微信公眾號(hào)的文章不用那么正式,但是也要相對(duì)要規(guī)范。情感故事場(chǎng)景,大家晚上睡覺前可以聽聽心靈雞湯等等。聲音可以千變?nèi)f化,我們根據(jù)用戶的需求去定制風(fēng)格,同時(shí)也有不同的音色,比如男生、老年人聲音、小孩聲音,這些都可以定制。

    語(yǔ)音合成API調(diào)用

    這是語(yǔ)音合成API調(diào)用,創(chuàng)建一個(gè)合成器對(duì)象,你把文字送給它,它就可以開始合成了,這是合成到聲卡。不同語(yǔ)言也非常類似,學(xué)習(xí)起來(lái)也非常容易。

    調(diào)用API需要配置語(yǔ)言,我們有很多種語(yǔ)言,所以需要配置一下語(yǔ)言參數(shù)。不同的音色,聲音也可以首先配置。輸出格式,把語(yǔ)音輸出到MP3壓縮,也可以通過(guò)屬性配置。

    合成到文件保存,有時(shí)開發(fā)服務(wù)時(shí)需要把音頻合成到一個(gè)流里然后轉(zhuǎn)發(fā)到其他地方,那么就創(chuàng)建一個(gè)PullStream,后面的合成代碼是一樣的,可以像文件一樣去讀取這個(gè)合成的數(shù)據(jù)。還有一個(gè)PushStream,相當(dāng)于回調(diào)的方式,不同的開發(fā)人員有不同的喜好,我們提供不同的API,方便大家使用?;卣{(diào)時(shí)的數(shù)據(jù)是通過(guò)回調(diào)方法來(lái)進(jìn)行處理。

    語(yǔ)音合成API也提供一些元數(shù)據(jù),比如詞邊界,可以告訴你讀到哪一個(gè)單詞了,此外有些場(chǎng)景需要做口形匹配。這時(shí)注冊(cè)一個(gè)事件,你可以得到這些元數(shù)據(jù),這個(gè)功能在微軟的Edge瀏覽器最新發(fā)布的新版本里已經(jīng)用到了,朗讀時(shí)文字高亮顯示,供閱讀者了解當(dāng)前的進(jìn)度。

    語(yǔ)音助手合成

    我們來(lái)看看語(yǔ)音助手的典型解決方案,典型場(chǎng)景有音箱、客服機(jī)器人、互聯(lián)網(wǎng)車載語(yǔ)音、小程序集成。

    架構(gòu)圖

    這是我們推薦的解決方案或者架構(gòu):客戶端可以用語(yǔ)音激活,用自定義的喚醒詞,比如“你好,小娜”,首先把服務(wù)喚醒,你可以采集數(shù)據(jù)通過(guò)SDK送到云端,云端有喚醒詞校驗(yàn),再確認(rèn)一下這個(gè)喚醒是不是真的對(duì),降低誤觸發(fā),然后對(duì)音頻流進(jìn)行識(shí)別,識(shí)別出的文字送給機(jī)器人的服務(wù)。

    這是實(shí)現(xiàn)松耦合的好辦法,類似機(jī)器人的服務(wù)都是自然語(yǔ)言文字進(jìn)入、文字輸出,所有這樣的服務(wù)可以注冊(cè)到我們這個(gè)框架里來(lái)?;貜?fù)文字之后回到語(yǔ)音服務(wù),進(jìn)行語(yǔ)音合成,合成的語(yǔ)音可以通過(guò)流式返回客戶端通過(guò)SDK播放,這是整個(gè)調(diào)用流程。這個(gè)架構(gòu)的優(yōu)點(diǎn)是把云端語(yǔ)音服務(wù)和喚醒詞放在一起,可以減少客戶端調(diào)云端的次數(shù)。全雙工對(duì)話也可以用類似方法實(shí)現(xiàn),連接的協(xié)議是WebSocket。

    更多信息可參見: https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/tutorial-voice-enable-your-bot-speech-sdk

    微信小程序里可以用類似這樣的架構(gòu)去做,我們?cè)贕itHub上提供了示例:

    https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/TranslatorDemo

    語(yǔ)音內(nèi)容生產(chǎn)

    當(dāng)前現(xiàn)代快節(jié)奏的生活使得信息獲取變得碎片化和多任務(wù)化,我們常常遇到一些痛點(diǎn):傳統(tǒng)的有聲內(nèi)容制作主要靠聲優(yōu)的錄音;大量的文本內(nèi)容正在等待有聲化;有聲內(nèi)容生成受限于人員,時(shí)間,環(huán)境等因素,不能最大化產(chǎn)能。

    那么如何提高人們的閱讀效率呢?

    一種很好的方式是通過(guò)聽的方式消化這些信息,開車時(shí)、睡覺前都可以聽一聽,傳統(tǒng)方案由人來(lái)讀,這非常受到限制。有了基于神經(jīng)網(wǎng)絡(luò)的TTS,我們?cè)谙肽懿荒芴峁┬矢叩姆桨浮?/p>

    這個(gè)方案是這樣工作的,各種信息流可以用云服務(wù)把它整理,送到語(yǔ)音調(diào)優(yōu)服務(wù),你可以選擇調(diào)一下比如多音字,批處理合成API把調(diào)好的SSML合成為音頻放在存儲(chǔ)服務(wù)里,供你的應(yīng)用去使用。

    舉一個(gè)電子書例子,這個(gè)電子書聽起來(lái)更生動(dòng)一點(diǎn),還有角色的變化。前面說(shuō)到了調(diào)音工具,TTS輸入或者語(yǔ)音合成輸入是SSML格式。我們提供界面工具可以可視化去調(diào)讀音、停頓、背景音樂(lè),一定程度上可以用它調(diào)出完全接近錄音的效果。

    定制語(yǔ)音

    聲音是一個(gè)品牌,每個(gè)人的聲音都是自己的品牌,我們支持讓每個(gè)企業(yè)都能定制自己的聲音。定制語(yǔ)音的類型有兩類:

    1、自助服務(wù)開發(fā)人員通過(guò)網(wǎng)頁(yè)或API操作、訓(xùn)練、部署聲音,自助完成,面向個(gè)人開發(fā)者。支持三類模型的服務(wù):

    (1)基礎(chǔ)模型:30-500句語(yǔ)音,比較相似,高可懂度。

    (2)標(biāo)準(zhǔn)模型:3000-6000句語(yǔ)音,自然度比較高,接近Windows上標(biāo)準(zhǔn)模型。

    (3)高質(zhì)量模型:6000-8000句語(yǔ)音,自然度非常高,接近JessaRUS。

    2、全包服務(wù)

    全流程定制語(yǔ)音,專家工程師把控最高質(zhì)量,也支持基于神經(jīng)網(wǎng)絡(luò)的定制,300句可以做到以前6000-8000句的效果。當(dāng)然,對(duì)于神經(jīng)網(wǎng)絡(luò)的定制要非常小心,我們希望AI的技術(shù)不要被濫用,太像了之后人們會(huì)擔(dān)心自己的聲音被別人做了一個(gè)TTS,去外面打騙人的電話等等。所以需要有很嚴(yán)格的流程,通過(guò)客戶同意才能使用。目前通過(guò)商務(wù)合作模式進(jìn)行神經(jīng)網(wǎng)絡(luò)TTS定制,保證技術(shù)不被濫用。

    自主服務(wù)界面接口里,可上傳所有數(shù)據(jù),我們自動(dòng)進(jìn)行處理,比如對(duì)讀音進(jìn)行檢測(cè),如果發(fā)音不標(biāo)準(zhǔn)的話訓(xùn)練出來(lái)的聲音也不標(biāo)準(zhǔn)。數(shù)據(jù)較好的話可提交訓(xùn)練,后臺(tái)會(huì)起一個(gè)訓(xùn)練流程在GPU去訓(xùn)練,訓(xùn)練之后試聽效果,部署后可通過(guò)代碼調(diào)用或者在網(wǎng)頁(yè)上輸文字實(shí)時(shí)測(cè)試。

    模型定制也可調(diào)用API,這個(gè)API是Rest接口,在微信小程序可以調(diào)用,也可在后臺(tái)調(diào)用。代碼支持SWAGGER標(biāo)準(zhǔn),可以自動(dòng)生成多種語(yǔ)言代碼。我們提供了管理數(shù)據(jù)的API,對(duì)模型進(jìn)行管理的API。

    做一個(gè)好聲音是有技術(shù)門檻的,首先要了解你的場(chǎng)景需要什么樣的風(fēng)格、需要什么樣的音色,去選擇合適的風(fēng)格,然后錄音文本選擇通用文本或者領(lǐng)域相關(guān)文本。

    錄音也是個(gè)技術(shù)活,需要盡可能安靜,不要有噪音,保持錄音風(fēng)格,數(shù)據(jù)越好出來(lái)的質(zhì)量越高。模型訓(xùn)練完成之后可以部署到云端或者容器,可以非常靈活的部署在各個(gè)地方。微軟語(yǔ)音AI技術(shù)在微信小程序上有不錯(cuò)的實(shí)踐,下面由張鵬分享聽聽小程序在AI的實(shí)踐。

    為什么是語(yǔ)音 AI +小程序?

    張鵬

    張鵬:

    Office 365是一套基于云平臺(tái)的服務(wù)解決方案,除了大家熟悉的Office編輯工具服務(wù)外,還有郵件,社交,會(huì)話以及可視化數(shù)據(jù)與報(bào)告等,這些共同構(gòu)成了一套服務(wù),這套服務(wù)我們稱之為Office 365,我們希望把Office 365帶到更多中國(guó)用戶使用習(xí)慣中去,第一個(gè)看重的是微信

    我們?yōu)槭裁匆?i class="chrome-extension-mutihighlight chrome-extension-mutihighlight-style-1">微信里做?

    有兩個(gè)主要考慮的因素:

    第一,微信是月活超過(guò)11億的產(chǎn)品,這是任何跨國(guó)公司產(chǎn)品進(jìn)入中國(guó)以及本土創(chuàng)新都必須要研究的,微信哪些功能滿足了用戶需求,哪些功能沒有滿足用戶需求,因此Office 365要在中國(guó)取得成功,滿足微信用戶的對(duì)文檔協(xié)作的需求是我們必須要做的事情。。

    第二,微信沉淀了極其穩(wěn)定的社交關(guān)系,基于這些社交關(guān)系可以看到你的通訊錄里、各種群里已經(jīng)不單是家人和朋友,看看我們微信的各種群,更多的是你的同事、客戶以及上下游合作伙伴,也就是說(shuō)很多群是因?yàn)楣ぷ鞫a(chǎn)生的,因此在微信里就有大量的文檔在流轉(zhuǎn),我們?nèi)绾巫屵@些文檔在微信生態(tài)里可以更高效的被創(chuàng)造出來(lái),可以被安全的被管理,可以更順暢且高效的傳遞,這是我們想在中國(guó)探索的一個(gè)方向。

    第三,小程序2017年1月份誕生,市場(chǎng)上對(duì)小程序有各種解讀,有看好的,有不看好的,我覺得任何定義現(xiàn)在下都為時(shí)過(guò)早。而我們看到的是小程序正在或者將要解決信息孤島的問(wèn)題,各個(gè)App之間信息不通的問(wèn)題。

    Office有同樣的問(wèn)題,很多文檔內(nèi)容是留在大家的PC里或者用戶各種云盤里,這些信息并沒有很高效的被協(xié)作起來(lái),沒有有效的途徑把有價(jià)值的內(nèi)容做分享。我們認(rèn)為微信小程序未來(lái)正是解決這個(gè)問(wèn)題的解決方案。

    基于這幾點(diǎn),我們2018年投入到小程序里。

    今天分享的小程序叫“微軟聽聽文檔”,“微軟聽聽文檔”探索的第一個(gè)問(wèn)題是PPT在移動(dòng)端應(yīng)該是什么樣子的?如何將信息更好與人協(xié)作。

    我們有很多群,有很多文檔在流轉(zhuǎn),然后這些文檔在群里是以靜態(tài)的形式在流轉(zhuǎn),很多情況下用戶都是從PC端拉一個(gè)PPT扔到群里就完了,這種PPT其實(shí)是靜態(tài)的Word文檔。

    如果將PPT下一個(gè)定義的話,突出它的主要功能就是怎樣讓大家演講時(shí)更有力,提升演講時(shí)的演示效果,這是我們移動(dòng)端的目的。因此,我們打造了“微軟聽聽文檔”。

    我們通過(guò)在移動(dòng)端快速地給每一頁(yè)文檔做錄音,快速發(fā)布,通過(guò)微信固有的社交關(guān)系去傳播、發(fā)布。每頁(yè)P(yáng)PT下面除了有聲音外,還有各種社交屬性:傳播、、發(fā)朋友圈、進(jìn)群、點(diǎn)贊、打賞,這是我們認(rèn)為PPT在移動(dòng)端應(yīng)該有的樣子。更重要的是有人的聲音,也就是演講者的參與。

    今天AI大會(huì)上我觀察到有很多人會(huì)拍照發(fā)朋友圈、發(fā)到群里,這也是一種內(nèi)容的分享方式,但這種分享方式并不很高效,為什么?

    因?yàn)檫@種分享方式里缺少了最重要的因素,就是演講者、創(chuàng)作者到底在PPT背后傳遞什么觀點(diǎn),通過(guò)幾張圖片是很難傳遞出來(lái)的,這是我們要打造這個(gè)產(chǎn)品的目的。

    微軟聽聽小程序

    我們做這個(gè)探索時(shí),關(guān)注點(diǎn)有:

    第一,創(chuàng)建。我們可以給每個(gè)文檔做錄音,背景音樂(lè)可以通過(guò)微軟AI技術(shù)去學(xué)習(xí)文字和圖片,自動(dòng)配背景音樂(lè),不用大家主動(dòng)去選。

    第二,PPT有設(shè)計(jì)內(nèi)容,Office365有AI設(shè)計(jì)靈感,未來(lái)在移動(dòng)端也可以幫大家從手機(jī)相冊(cè)去選擇圖片去制作演講時(shí),圖片可以自動(dòng)用設(shè)計(jì)功能去裁剪、排版,達(dá)到更好的效果。

    第三,AutoSpeech,大家在移動(dòng)端錄音時(shí),很多人不喜歡自己的聲音,覺得自己的聲音不好聽,很多人基于環(huán)境的限制并不方便錄音,我們基于深度神經(jīng)網(wǎng)絡(luò)可以將聲音完美的匹配文字。

    第四,Article聽聽文檔,如果大家在行進(jìn)路上或者不太方便看文字的情況下,簡(jiǎn)單的把公眾號(hào)URL鏈接拷貝到里面,可以用幾十秒時(shí)間迅速制作出來(lái)一種可以看、可以聽的文本,是一種新的形式展示給大家,我們有真實(shí)企業(yè)案例就是這樣用的。

    在聽的方面有哪些和AI結(jié)合?讓聽者可以更沉浸式的身臨其境的去聽人的分享。

    1、引入字幕,字幕對(duì)輔助閱讀很重要,有時(shí)大家聽講時(shí)開小差就跟不上了,字幕在這里起到非常關(guān)鍵的作用,通過(guò)微軟的聲音轉(zhuǎn)文字,以字幕的形式轉(zhuǎn)出來(lái)。

    2、社交,點(diǎn)贊、轉(zhuǎn)發(fā)等等。

    3、PPT動(dòng)畫,把視頻播放的東西引入進(jìn)來(lái),給大家更豐富的表現(xiàn)方式。

    以下是語(yǔ)音文檔的創(chuàng)作過(guò)程:

    第一步,選擇制作方式。

    擁有微軟帳戶后可以選擇文件,可以從電腦端拖一個(gè)文件里進(jìn)來(lái),也可以從手機(jī)相冊(cè)里選,選擇之后進(jìn)入錄音。

    第二步,人工錄音或者AI錄音。

    第三步,發(fā)布。

    可以選擇權(quán)限設(shè)置,是只給微信好友看,還是發(fā)布給整個(gè)互聯(lián)網(wǎng)的人看,還是只給自己看,包括開啟贊賞,如果覺得自己的內(nèi)容有價(jià)值,期望別人打賞的話也可以開啟。

    第四步,查看個(gè)人頁(yè)面,關(guān)注推薦。

    發(fā)布之后你的作品在作品集,可以知道有多少用戶關(guān)注你,知道每個(gè)分享有多少人去看去聽,也方便你自己去管理你自己的內(nèi)容,也可以讓別人找到你去分享。

    下面舉一個(gè)真實(shí)例子,新民晚報(bào)。他們之前有一個(gè)問(wèn)題,每天早上6點(diǎn),編輯會(huì)在1小時(shí)內(nèi)編輯一天24小時(shí)的新聞,7點(diǎn)鐘有一個(gè)內(nèi)審,審核通過(guò)以后,7點(diǎn)半就在公眾號(hào)發(fā)布。

    這個(gè)過(guò)程中要反復(fù)修改,不可能有人給公眾號(hào)錄音或者去修改,。他們現(xiàn)在利用以上的方式可以很快捷的嵌入小程序到公眾號(hào),我們這個(gè)小程序的速度非常快,大概十幾秒的樣子。AI的效率在這個(gè)場(chǎng)景中得到非常大的發(fā)揮和落地。

    微軟Office微信小程序布局

    未來(lái),微軟Office微信小程序布局本地化策略有三個(gè)方向:信息輸入;信息管理;信息輸出。

    文檔怎么被創(chuàng)造出來(lái),怎么被管理,怎么輸出協(xié)作。這三個(gè)方向是我們想去探索的。

    在我看來(lái),什么樣的小程序能夠生命力很強(qiáng)?我們做了很多功能,但是發(fā)現(xiàn)反而讓用戶更多時(shí)間耗在這里,這樣工具類的小程序時(shí)間長(zhǎng)了,慢慢大家就不會(huì)用了,因?yàn)榘l(fā)現(xiàn)代價(jià)很大。所以從生產(chǎn)力小程序角度總結(jié),只要真正能幫助用戶節(jié)省時(shí)間、提高效率的生產(chǎn)力小程序都會(huì)有更好的生命力繼續(xù)傳播下去。最終讓用戶收益才是一切商業(yè)邏輯的起點(diǎn)。

    大家可以在微信搜索“微軟聽聽文檔”,體驗(yàn)一下。

    嘉賓簡(jiǎn)介:

    趙晟 ,微軟(亞洲)互聯(lián)網(wǎng)工程院 人工智能語(yǔ)音團(tuán)隊(duì)首席研發(fā)總監(jiān)。目前負(fù)責(zé)微軟Azure語(yǔ)音服務(wù)的產(chǎn)品研發(fā)工作, 所開發(fā)的語(yǔ)音技術(shù)服務(wù)于微軟Office、Windows、 Azure認(rèn)知服務(wù),小冰小娜以及廣大的第三方開發(fā)者。曾擔(dān)任微軟亞洲研究院研究員,微軟小娜資深研發(fā)經(jīng)理。長(zhǎng)期從事語(yǔ)音和語(yǔ)言方面的技術(shù)開發(fā),包括語(yǔ)音合成,自然語(yǔ)言處理,語(yǔ)音識(shí)別等等,所負(fù)責(zé)的多語(yǔ)言合成項(xiàng)目也曾經(jīng)獲得微軟中國(guó)杰出工程獎(jiǎng)。

    張鵬,微軟(亞洲)互聯(lián)網(wǎng)工程院 Office 365資深產(chǎn)品經(jīng)理,Office 小程序負(fù)責(zé)人 。2013年加入微軟MSN,承擔(dān)MSN和必應(yīng)搜索等產(chǎn)品設(shè)計(jì)和市場(chǎng)推廣工作。2016年開始至今,負(fù)責(zé)Office 365在中國(guó)創(chuàng)新產(chǎn)品開發(fā),成功發(fā)布o(jì)fficeplus.cn,微軟AI識(shí)圖,聽聽文檔等產(chǎn)品發(fā)布。

    【END】

    都說(shuō)微軟Windows系統(tǒng)是隔代經(jīng)典,那么不用說(shuō)正式發(fā)布的Windows 10系統(tǒng)最想吸引過(guò)來(lái)的就是Win 7死忠與偽死忠們,于是微軟采取了免費(fèi)升、盜版也可升、聯(lián)合國(guó)內(nèi)廠商幫你升等等優(yōu)惠舉措,而用戶需要的就是些勇氣。到底該不該升呢?下面就來(lái)聊一聊本人這24小時(shí)的Win10系統(tǒng)實(shí)際體驗(yàn)。

    經(jīng)歷了昨天緊張又刺激的Windows 10升級(jí)過(guò)程,忐忑的將自用辦公用機(jī)從Windows 7旗艦版升級(jí)到Windows 10專業(yè)版,再度經(jīng)過(guò)了24小時(shí)的真實(shí)體驗(yàn),雖不能說(shuō)已經(jīng)完全弄明白網(wǎng)友對(duì)于Windows 10的種種疑惑,但體驗(yàn)下來(lái)并沒有出現(xiàn)大范圍系統(tǒng)崩潰、變慢、大批量軟件不兼容現(xiàn)象,因此可以負(fù)責(zé)任的講只要不是親們的主力辦公用機(jī),都是建議大家升級(jí)到Windows 10的。

    一、開始菜單很贊,上手win 10很容易

    1、開始菜單:Win 7+Win 8的精彩融合

    開始菜單是否完美,可是挑剔的Win 7一族最想檢驗(yàn)的項(xiàng)目。此外就在本人升級(jí)前也擔(dān)心,看似外界一片贊美下的Windows 10是否能讓我順利上手、順利開始工作,這真是讓人糾結(jié)的點(diǎn)。

    的確Win 7用戶最關(guān)心的就是這個(gè)新系統(tǒng)的開始菜單是否如同Win 7一樣的操控感。在我們實(shí)際體驗(yàn)后發(fā)現(xiàn)簡(jiǎn)直就是Win 7+Win 8的精彩融合版,不僅有之前Win 7的簡(jiǎn)潔明了結(jié)構(gòu),更有Win 8Metro化磁貼的信息即時(shí)顯示的科技感。用戶最頻繁用到的“常用應(yīng)用”、“電源”、“設(shè)置”等項(xiàng)均可在開始菜單中找;而且只要聯(lián)網(wǎng)后,就可自動(dòng)刷新的“新聞”應(yīng)用以圖文形式展示,是不是覺得自己的電腦洋氣了很多?

    此外,很多網(wǎng)友抱怨Win 8上找不到的“控制面板”、“命令提示符”、“任務(wù)管理器”等等操作在右鍵開始菜單后都能順利找到。

    2、設(shè)置功能:真的有用起來(lái)

    在電腦設(shè)置中有幾個(gè)比較有意思的選項(xiàng),比如在設(shè)置--系統(tǒng)中的“脫機(jī)地圖”,下載后可以在脫機(jī)的情況下搜索地點(diǎn)并獲取路線。是不是有種手機(jī)端操控的感覺,很酷??!

    在設(shè)置中,目前與升級(jí)用戶關(guān)系最緊密的就是在設(shè)置--更新和安全--“恢復(fù)”功能,要知道想要回退到Win 7系統(tǒng),微軟官方只給了1個(gè)月的期限,之后就要通過(guò)第三方軟件實(shí)現(xiàn)回滾了。這點(diǎn)也需要大家格外注意!

    當(dāng)然,還是勸告各位升級(jí)的小伙伴盡快將自己的系統(tǒng)激活,當(dāng)然最好是在升級(jí)前就設(shè)法正版激活,這樣升級(jí)到Windows 10后就可獲得正版授權(quán)了。

    二、之前詬病問(wèn)題并非依舊嚴(yán)重

    除了開始菜單是升級(jí)用戶最關(guān)心的問(wèn)題外,諸如網(wǎng)銀支付、游戲驅(qū)動(dòng)的支持也被經(jīng)常詬病。不過(guò)從1天的實(shí)際體驗(yàn)來(lái)看,網(wǎng)銀支付問(wèn)題的確存在但并不嚴(yán)重,而游戲驅(qū)動(dòng)由于本人不是個(gè)游戲迷,電腦中并無(wú)游戲大作,所以這點(diǎn)還需日后其他網(wǎng)友來(lái)檢驗(yàn)。

    1、網(wǎng)銀支付:第二次啟動(dòng)后更順暢

    網(wǎng)銀支付體驗(yàn)上,雖然沒什么嚴(yán)重問(wèn)題暴露,但依舊體驗(yàn)不算順暢。比如用微軟最新Edge瀏覽器就會(huì)出現(xiàn)某種不兼容,系統(tǒng)會(huì)提醒你用IE來(lái)打開。

    體驗(yàn)中,在網(wǎng)銀界面下輸入數(shù)字的時(shí)候,會(huì)偶爾出現(xiàn)敲擊一次數(shù)字但重復(fù)出現(xiàn)2次同數(shù)字的情況。但上述這些狀況會(huì)在用戶第二次進(jìn)入相同應(yīng)用或者重啟電腦后得以解決。

    2、應(yīng)用商店:沒有出現(xiàn)多平臺(tái)整合應(yīng)用的提醒

    之前微軟高層宣稱Windows 10一個(gè)大舉措就是實(shí)現(xiàn)全平臺(tái)應(yīng)用的統(tǒng)一,下載一份應(yīng)用,手機(jī)端、平板端、PC端都可用,但這依舊是微軟的一種愿景。目前來(lái)看Windows 10系統(tǒng)中的應(yīng)用商店與之前Windows 8.1還是一樣的,只是分類更明了。

    三、小娜/小冰果然是最吸引人的看點(diǎn)

    相信對(duì)于普通大眾而言,全新Windows 10最吸引人的還是語(yǔ)音智能助手小娜--Cortana,還有就是智能聊天工具小冰了。與蘋果siri相比,小娜的語(yǔ)音語(yǔ)調(diào)更人性化;而附加的提醒功能、導(dǎo)航功能還是值得一試的。

    1、Cortana: 智能語(yǔ)音小秘書--提醒功能很贊,陪伴不開心

    默認(rèn)的小娜是在左下角靠近開始菜單圖標(biāo)的位置,簡(jiǎn)單設(shè)置主人名稱后點(diǎn)擊這個(gè)小話筒鈕就可以調(diào)侃小娜了。從嘗試的幾個(gè)問(wèn)題中我們感受到小娜還是很正能量的。

    小娜的提醒功能:你可以讓她備注接下來(lái)要進(jìn)行的工作、生活備忘錄,到了提醒時(shí)間她會(huì)以彈窗的形式通知你。

    除了簡(jiǎn)單的問(wèn)答調(diào)侃外,導(dǎo)航功能以及提醒功能都值得大家一試。如果想查找某個(gè)地名最好簡(jiǎn)單直接的說(shuō)“中關(guān)村,怎么走”,不要加很多限定詞,比如面對(duì)“最近的餐廳在哪里”這樣的問(wèn)題,小娜只會(huì)將問(wèn)題呈現(xiàn)在Bing搜索框里了。

    2、小冰: 智能聊天工具--可圖片交流,語(yǔ)氣更俏皮

    幫忙測(cè)試的小冰目前僅支持打字以及發(fā)送圖片來(lái)交流溝通,不過(guò)語(yǔ)言的調(diào)侃性要比小娜開放,而且回復(fù)的非機(jī)器感語(yǔ)氣感更強(qiáng)烈。

    四、一些噱頭功能略顯雞肋

    1、Windows Hello看上去很炫: 但只有3D攝像頭才能啟動(dòng)該功能

    這個(gè)功能聽上去是如此科幻,它是利用指紋、虹膜和刷臉識(shí)別的各種認(rèn)證方式啟動(dòng)Windows;換句話說(shuō),你只要露一下臉或動(dòng)動(dòng)手指就能完成身份認(rèn)證了,用于登陸 Windows 、代替輸入密碼或線上付款授權(quán)等等,未來(lái)將不需要再儲(chǔ)存任何密碼,讓體驗(yàn)更具安全性,更加個(gè)性化。

    但目前只有Thinkpad S5 Yoga這樣的商務(wù)系列筆記本才配備如此攝像頭型號(hào),因此想要體驗(yàn)人臉解鎖啟動(dòng)電腦界面的朋友還需更換筆記本。

    2、觸控板操控更像Mac:但依舊是要最新的觸控板技術(shù)支持

    這一點(diǎn)不需要更多的解釋,用過(guò)Mac本的朋友都會(huì)說(shuō)其觸控板的手勢(shì)操控好方便,不過(guò)通過(guò)最新的Windows 10系統(tǒng),你也將會(huì)有類似的體驗(yàn)感觸,不過(guò)需要你的本子支持更多手勢(shì)功能技術(shù)在先。

    3、Edge瀏覽器界面更清新: 但小問(wèn)題仍不少

    采用微軟Edge瀏覽器打開網(wǎng)頁(yè)顯示的加粗字體會(huì)有重影效果。

    采用微軟Chrome瀏覽器打開同樣網(wǎng)頁(yè)顯示的加粗字體就不會(huì)有重影效果。

    雖然之前微軟在中文字體的支持上一直好于蘋果系統(tǒng),但這次在Edge瀏覽器的加粗字體呈現(xiàn)上出現(xiàn)了些小問(wèn)題,相信稍后的補(bǔ)丁會(huì)將其解決,我們坐等。

    此外,通過(guò)Edge打開某些網(wǎng)頁(yè)的時(shí)候系統(tǒng)會(huì)建議用戶轉(zhuǎn)成IE模式打開,比如上述JD(京東商城)的網(wǎng)站鏈接,系統(tǒng)就建議在IE模式下打開。

    全文總結(jié):

    匯總下推薦Win 7用戶升級(jí)的理由:

    1、時(shí)代在進(jìn)步,新的系統(tǒng)在支持最新技術(shù)上有獨(dú)到的優(yōu)勢(shì);比如DX 12。

    2、如果你的PC是機(jī)械硬盤,那你就會(huì)體驗(yàn)到相比Win 7更快的開關(guān)機(jī)速度。

    3、你真的不想有個(gè)可以調(diào)侃的語(yǔ)音智能助手么?

    4、如果你是觸控設(shè)備,目前看Win 10是最好的搭檔。

    5、就算你真的不滿意Win 10,官方還提供1個(gè)月期限的安全回退程序!

    既然是24小時(shí)的體驗(yàn)報(bào)告,自然不能把全新Windows 10系統(tǒng)的全部?jī)?yōu)缺點(diǎn)都盡數(shù)一遍,但體驗(yàn)下來(lái)所傳遞的總體感受是值得升級(jí),就算本人用辦公用機(jī)升級(jí),也并沒有發(fā)生多重軟件兼容出現(xiàn)問(wèn)題、速度變慢、頻繁報(bào)錯(cuò)等現(xiàn)象,但這里還是不建議用辦公用機(jī)進(jìn)行如此的操作。

    最后的最后還是期望大家給Windows 10系統(tǒng)一些自我完善的時(shí)間,雖然說(shuō)微軟Windows 是隔代經(jīng)典,但每一代經(jīng)典也要經(jīng)歷接受市場(chǎng)檢驗(yàn)--信息反饋--系統(tǒng)更新--接受檢驗(yàn);這一系列過(guò)程的,所以如果用戶在實(shí)際使用中發(fā)現(xiàn)問(wèn)題也請(qǐng)及時(shí)反饋給微軟,本站也會(huì)將最新使用技巧與經(jīng)驗(yàn)分享給大家,為的就是讓更懂我們的系統(tǒng)來(lái)為我們服務(wù)。■

    ◆ 相關(guān)文章

網(wǎng)站首頁(yè)   |    關(guān)于我們   |    公司新聞   |    產(chǎn)品方案   |    用戶案例   |    售后服務(wù)   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區(qū)    電話:010-     郵箱:@126.com

備案號(hào):冀ICP備2024067069號(hào)-3 北京科技有限公司版權(quán)所有