欧美vvv,亚洲第一成人在线,亚洲成人欧美日韩在线观看,日本猛少妇猛色XXXXX猛叫

新聞資訊

    機器之心報道

    編輯:Panda

    在《圣經》中有一個巴別塔的故事,說是人類聯合起來計劃興建一座高塔,希望能通往天堂,但神擾亂了人類的語言,計劃也就因此失敗。到了今天,AI 技術有望拆除人類語言之間的藩籬,幫助人類造出文明的巴別塔。

    近日,Meta 的一項研究向這個方面邁出了重要一步,他們將新提出的方法稱為 Massively Multilingual Speech(超多語言語音 / MMS),其以《圣經》作為訓練數據的一部分,得到了以下成果:

    在 1107 種語言上用 wave2vec 2.0 訓練得到了一個有 10 億參數的多語言語音識別模型,相比于 OpenAI 的 Whisper 模型,其錯誤率降低了 50% 以上。

    單個音頻合成模型就支持這 1107 種語言的文本轉語音(TTS)。

    開發了一個能夠辨別 4017 種語言的語言辨識分類器。

    對于很多罕見語言的數據稀少問題,Meta 是如何解決的呢?他們采用的方法很有意思,即采用宗教的語料庫,因為像是《圣經》這樣的語料具有最「對齊的」語音數據。盡管這個數據集偏向宗教內容并且主要是男性聲音,但其論文表明這個模型在其它領域以及使用女聲時也表現優良。這是基礎模型的涌現行為,著實讓人驚嘆。而更讓人驚嘆的是,Meta 將新開發的模型(語音識別、TTS 和語言辨識)都免費發布出來了!

    模型下載:https://github.com/facebookresearch/fairseq/tree/main/examples/mms

    論文地址:https://research.facebook.com/publications/scaling-speech-technology-to-1000-languages/

    新提出的方法

    為了打造出一個能識別千言萬語的語音模型,首要的挑戰是收集各種語言的音頻數據,因為現目前已有的最大語音數據集也只有至多 100 種語言。為了克服這個問題,Meta 的研究者使用了宗教文本,比如《圣經》,這些文本已被翻譯成了許多不同語言,并且那些譯本都已被廣泛研究過。這些譯本都有人們用不同語言閱讀的錄音,并且這些音頻也是公開可用的。使用這些音頻,研究者創建了一個數據集,其中包含人們用 1100 種語言閱讀《新約》的音頻,其中每種語言的平均音頻長度為 32 小時。

    然后他們又納入了基督教的其它許多讀物的無標注錄音,從而將可用語言數量增加到了 4000 以上。盡管這個數據集領域單一,并且大都是男聲,但分析結果表明 Meta 新開發的模型在女聲上表現也同樣優良,并且該模型也不會格外偏向于產生更宗教式的語言。研究者在博客中表示,這主要是得益于他們使用的 Connectionist Temporal Classification(連接主義時間分類)方法,相比于大型語言模型(LLM)或序列到序列語音識別模型,這種方法要遠遠更為受限。

    潛在的性別偏見情況分析。在 FLEURS 基準上,這個在超多語言語音(MMS)數據集上訓練的自動語音識別模型在男聲和女聲上的錯誤率是差不多的。

    為了提升數據質量,使之能被機器學習算法使用,他們還采用了一些預處理方法。首先,他們在現有的 100 多種語言的數據上訓練了一個對齊模型,然后再搭配使用了一個高效的強制對齊算法,該算法可處理 20 分鐘以上的超長錄音。之后,經過多輪對齊過程,最終再執行一步交叉驗證過濾,基于模型準確度移除可能未對齊的數據。為了方便其他研究者創建新的語音數據集,Meta 將該對齊算法添加到了 PyTorch 并放出了該對齊模型。

    要訓練出普遍可用的監督式語音識別模型,每種語言僅有 32 小時的數據可不夠。因此,他們的模型是基于 wav2vec 2.0 開發的,這是他們之前在自監督語音表征學習上的研究成果,能極大減少訓練所需的有標注數據量。具體來說,研究者使用 1400 多種語言的大約 50 萬小時語音數據訓練了一個自監督模型 —— 這個語言數量已經超過之前任何研究的五倍以上了。然后,基于具體的語音任務(比如多語言語音識別或語言辨識),研究者再對所得模型進行微調。

    結果

    研究者在一些已有基準上評估了新開發的模型。

    其多語言語音識別模型的訓練使用了含 10 億參數的 wav2vec 2.0 模型,訓練數據集包含 1100 多種語言。隨著語言數量增加,模型性能確實會下降,但下降幅度非常?。寒斦Z言數量從 61 種增加到 1107 種時,字符錯誤率僅上升了 0.4%,但語言覆蓋范圍卻增加了 18 倍以上。

    在 61 種 FLEURS 語言的基準測試上,隨語言數量增長的字符錯誤率變化情況,錯誤率越高,模型越差。

    通過對比 OpenAI 的 Whisper 模型,研究者發現他們的模型的詞錯誤率僅有 Whisper 的一半,而同時新模型支持的語言數量還多 11 倍。這個結果足以表明新方法的卓越能力。

    在可直接比較的 54 種 FLEURS 語言的基準測試上,OpenAI Whisper 與 MMS 的詞錯誤率對比。

    接下來,使用之前已有的數據集(如 FLEURS 和 CommonVoice)和新數據集,Meta 的研究者還訓練了一個語言辨識(LID)模型,并在 FLEURS LID 任務上進行了評估。結果表明,新模型不僅表現很棒,而且支持的語言數量也增加了 40 倍。

    之前的研究在 VoxLingua-107 基準上也僅支持 100 多種語言,而 MMS 支持超過 4000 種語言。

    另外 Meta 還構建了一個支持 1100 種語言的文本轉語音系統。當前文本轉語音模型的訓練數據通常是來自單個說話人的語音語料。MMS 數據的一個局限性是許多語言都只有少量說話人,甚至往往只有一個說話人。但是,在構建文本轉語音系統時,這卻成了一個優勢,于是 Meta 就順便造了一個支持 1100 多種語言的 TTS 系統。研究者表示,這些系統生成的語音質量其實相當好,下面給出了幾個例子。


    約魯巴語、伊洛科語和邁蒂利語的 MMS 文本轉語音模型演示。

    盡管如此,研究者表示 AI 技術都仍不完美,MMS 也是如此。舉個例子,MMS 在語音轉文本時可能錯誤轉錄選定的詞或短語。這可能導致輸出結果中出現冒犯性和 / 或不準確的語言。研究者強調了與 AI 社區合作共同進行負責任開發的重要性。

    用單個模型支持千言萬語的價值

    世界上有許多語言瀕臨滅絕,而當前的語音識別和語音生成技術的局限性只會進一步加速這一趨勢。研究者在博客中設想:也許技術能鼓勵人們留存自己的語言,因為有了好的技術后,他們完全可以使用自己喜歡的語言來獲取信息和使用技術。

    他們相信 MMS 項目是朝這個方向邁出的重要一步。他們還表示這個項目還將繼續開發,未來還將支持更多語言,甚至還會解決方言和口音的難題。

    《漢字革命:中國語文現代性的起源(1916-1958)》,鐘雨柔 著,生活·讀書·新知三聯書店,2024年3月。

    從漢字革命內里出發,改革中文書寫系統

    漢字是中華民族的瑰寶。2017年的熱播電視節目《國家寶藏》第一季第一集就隆重介紹了被譽為“中華第一古物”的石鼓。石鼓傳自先秦,共十面,上刻有大篆,是中華文字的活化石,當之無愧的鎮國之寶。借拼死護衛石鼓的北宋文官司馬池之口,節目闡述了一個似乎很容易接受的道理:“很多人都說我們華夏民族沒有信仰,可其實我們的信仰就是自己的文字和歷史?!?/p>

    作為信仰,漢字不僅承載了華夏歷史和文化,而且建構出了一個帶有宗教意味的機制,并神圣化了一個基本觀念——中華文字不曾斷裂、中華文明源遠流長。我們于是有足夠的理由為自己的文字驕傲并忠誠于自己的文化。石鼓的故事以及關于漢字的看似不言自明的道理完全俘獲了21世紀的年輕觀眾,然而熒屏前后的觀眾們恐怕想不到的是,短短一個世紀前,華夏民族對自己的文字和歷史之信仰幾近崩塌,中華民族的瑰寶幾乎面臨滅頂之災。一場讓人驚詫的、浩浩蕩蕩的漢字革命曾真實發生,輻射幾乎半個20世紀,構成了一場人類歷史上最大規模的語言和文字革命。

    《漢字五千年》(2009)海報(局部)。

    這場翻天覆地的革命或許已然被人淡忘,但它在退出集體意識的過程中倒也留下蛛絲馬跡,供人考古。最重要的兩項“遺跡”分別是漢字的繁簡之分以及輔助漢字學習的漢語拼音。漢字簡化是中華人民共和國的文字改革政策,旨在降低漢字學習難度,理論上是向拼音文字過渡的第一步。而拼音既是漢字革命的基本準則,也是中華人民共和國法定的羅馬化拼音系統,甚至一度成為國家意識形態。從字面理解,拼音即“拼寫讀音”,它不僅僅是輔助漢字學習的記音系統,也可以是取代漢字的拼音文字。

    雖然漢字革命在周恩來總理1958年的講話《當前文字改革的任務》中戛然中止,但它語音中心主義的印記至今仍清晰可見。所謂語音中心主義,即系統性地把語言凌駕于文字之上的意識形態。需要說明的是,語言凌駕于文字之上在古今中外都有先例,但是現代語音中心主義在世界范圍內的發酵伴隨了書寫技術的新發展,見證了語文學和語言學學科此消彼長,又同時被20世紀的革命洪流裹挾,對形塑中國文學與文化現代性起到了決定性作用。

    漢字革命為什么發生?它如何發生和發展,又如何影響中國現代書寫、文學與文化?漢字革命如何中止?討論的起點要追溯到19世紀末20世紀初關于漢字的話語轉型,其曾經的民族瑰寶地位一落千丈,被當成了民族負累。曾經被熱愛中國的啟蒙思想家們(如培根、約翰·威爾金斯、萊布尼茨)夸贊具有跨文化屬性和超語音的合法性的漢字,似乎一夜之間成了阻礙提高識字率的攔路虎,有礙民主科學發展的絆腳石。中外知識精英齊聲撻伐,國寶一時間變成了“無聲的”、無生命的,亦無價值的書寫系統。

    《“字”從遇見你》(2022)海報(局部)。

    對漢字評價的話語轉換間,漢字革命似乎發生得理所應當。魯迅如是解釋:“漢字是古代留下來的寶貝,但我們的祖先比漢字還要古,所以,我們更是古代傳下來的寶貝。為漢字而犧牲我們,還是為我們而犧牲漢字呢?這是只要還沒有喪心病狂的人,都能夠馬上回答的?!睆U除漢字、取用字母儼然成了現代性的基本條件,再次套用魯迅的說法:我們此后實在只有兩條路,要么抱著漢字而死掉,要么舍掉漢字而生存。然而歷史告訴我們,漢字革命還有第三條路,即從漢字革命的內里出發,改革中文書寫系統,聯手文學革命并為之注入新的能量,以喚醒那個“無聲的中國”。

    漢字革命發生以前的四次拼音化

    現代漢字革命發生之前,被認為有四次拼音化的先例。第一,中國小學傳統的反切;第二,受梵文啟發的注音字母;第三,明清以降,由耶穌會和新教傳教士創制的、采用拉羅字母的拼音方案;第四,晚清出現的一系列切音、速記、簡字和注音字母運動。有必要補充說明的是,千年來有不計其數的小學家、僧侶、傳教士在漢字拼音化的問題上做出了各種各樣的努力,但是他們當中鮮有發出廢漢字這樣決絕的呼聲。他們創制的眾多拼音方案無一例外地是作為學習漢字的輔助工具而出現的。然而這并不妨礙漢字革命的旗手們如趙元任、黎錦熙、倪海曙,把以上四種拼音化先例作為20世紀漢字革命的先聲。

    首先,反切法使用兩個漢字,取第一個字(上字)的聲母,取第二個字(下字)的韻母、聲調,有韻尾的時候還要包括韻尾,將兩部分拼在一起,從而得到第三個漢字的讀音,所以被認為是第一個系統的拼音方法。反切法對漢字的使用是靈活的,同樣的聲母和韻母可以使用任意漢字來代表,只要上下字能構成需要的音節。反切法起源于東漢,其時佛教甫入中國,故有學者認為反切正是為翻譯梵文佛經而發明的。隋唐以來,韻書開始大量使用反切來給漢字注音,比如陸法言的《切韻》(601)。

    紀錄片《漢字》(2017)劇照。

    其次,唐代開始出現的字母拼音方案,到宋代得到進一步發展。唐末僧人守溫創制三十字母,雖然這些字母仍以漢字形態出現,依反切法取聲母,但守溫確立了漢字與聲母一對一的關系,亦即“漢字字母”。守溫系統里漢字和聲母的對等性,相較反切法,在拼音化漢字的路上前進了一大步。

    再次,基督教傳教士前赴后繼地創制的拼音方案。明末,耶穌會傳教士利瑪竇(Matteo Ricci)和金尼閣(Nicolas Trigault)率先嘗試用拉羅字母拼寫漢字。利瑪竇的方案由另兩位耶穌會教士羅明堅(Michele Ruggieri)以及郭居靜(Lazzaro Cattaneo)協助完成,含26個輔音和44個元音,最終成果錄于《西字奇跡》。利瑪竇去世后,金尼閣將他的方案精減到20個輔音和5個元音。雖然明末的拼音方案對時人頗有啟發,比如引得方以智和劉獻庭開始思考取用字母的益處,但是這些方案最終也僅是外國人學習漢字的工具。

    繼耶穌會士后,新教傳教士開始大量創制并輸出以拉羅字母拼讀中國各地方言的《圣經》譯本,我稱之為“字母體方言《圣經》”。自1852年出版第一部字母體閩南語《圣經》后,新教傳教士打馬字(J. V. N. Talmage)、丁韙良(W. A. P. Martin)、汲約翰(John C. Gibson)、馬士曼(Joshua Marshman)、馬禮遜(Robert Morrison)、麥都思(Walter Henry Medhurst)、郭士立(Karl Friedrich August Gitzlaff),以及托馬斯·巴克利(Thomas Barclay)等生產了大量的《圣經》譯本,使用的語言既有官話也有方言,使用的文字既有漢字也有拉羅字母。據不完全統計,僅1891年到1904年間就至少有137870冊各式各樣的中譯《圣經》問世,讀者甚眾。其中,字母體方言《圣經》特別值得注意,不僅因其是用拉羅字母進行掃盲的第一次嘗試,更因為它給現代中文寫作注入了新的、字母的、方言的想象力,催生出了新的作品。更值得玩味的是,切實踐行方言拼音化的字母體方言《圣經》不期然地揭示了現代中國語音中心主義轉向的內在局限,亦即以方言為主體的字母書寫與尚待建設的民族文學之間不可調和的矛盾,此為后話。

    而20世紀漢字革命全面爆發前,最后一次嘗試漢字拼音化的運動是晚清的切音字運動,它于民國初年演變成注音字母運動。兩場運動在不同程度上分別受到了西洋傳教士和東瀛言文一致運動的影響,但均未明確提出廢除漢字的訴求。第一個提議用拉羅字母為漢字拼音的中國學者是盧戇章。作為廈門人,盧戇章有機會接觸到一些字母體中文《圣經》,其中就包括前文提到的字母體閩南語譯本。盧戇章對傳教士們采用的正字法進行了簡化,編纂了一系列切音字教科書,如《一目了然初階》(1892)、《新字初階》(1893)、《天下第一切音新字》(1895)。這些教科書激發了切音字運動的生產力,一大批漢字拼音化方案隨之涌現,包括吳稚暉的“豆芽字母”、蔡錫勇的《傳音快字》(1896)、力捷三的《閩腔快字》(1896)、王炳耀的《拼音字譜》(1897)以及沈學的《盛世元音》(1896)等。但這些早期教科書都未能大規模傳播,影響有限,直到王照的《官話合聲字母》(1900)和勞乃宣的《合聲簡字》(1905)。

    清末拼音方案林林總總,有的取用速記法,也有用日文假名,當然也有拉羅字母,但必須重申的是,盡管所有方案都表達了對漢字言文不符的不滿,但鮮見對漢字統治的正面挑戰。盧戇章在《一目了然初階》里的表達相當接近后來以拉羅字母代替漢字的主張,但也并未提出廢漢字的口號。即便是1910年嚴復代表資政院提出為切音字運動“正名”,要求改切音字為“音標”的報告書也并未主張廢漢字。最接近后來漢字革命訴求的要數遠在巴黎的《新世紀》同仁,主張同時廢除漢字漢語,代之以萬國新語(即世界語)。但清季的激進主張,直到民初都未真正撼動漢字的合法性,萬國新語一派的主張與其說是彰顯現代語音中心主義的威懾力,不如說是對中國文字和語言缺乏普遍性的雙重焦慮。

    對《新世紀》激進主張提出最嚴正反對的當數章太炎。值得玩味的是,章太炎一面捍衛漢字,一面追求古音,在《駁中國用萬國新語說》中介紹自己基于“古文篆籀”的切音方案,最終成為民初讀音統一會審定的注音字母方案(注音符號)的基礎,于1913年正式通過。所謂注音符號,顧名思義是要為漢字注音,進入新時代的漢字儼然安全無虞,切音運動至此畫上句點。然而,切音并不是漢字拼音化的終曲,漢字革命正要拉開序幕。

    用“國語羅馬字”書寫的“國語文學”?

    本書選擇在清季文字改革之后開始,意欲彰顯的是現代中國的語音中心主義轉向與20世紀前的中國拼音化運動的核心區別。問題的關鍵不僅在于漢字作為工具的存廢,更重要的是如何評價基于漢字生長出來的文本、文化與知識論。進入20世紀,對漢字的敵意與日俱增,任何與漢字相關的學問與傳統,從韻學到考證學,從儒家經典到格致之學,都隨之貶值。

    《“字”從遇見你》(2022)劇照。

    魯迅有個言簡意賅的總結性意見:“我以為要少——或者竟不——看中國書,多看外國書。”當然,魯迅為拉丁化運動寫過多篇文章,但凡愿意細讀深究的讀者都會發現一個比全盤否定漢字與漢字文化豐富得多的立場。然而不可否認的是,現代中國的文字危機確實威脅到了中華知識傳統,似乎漢字與中華文化都將被歷史拋棄。用語音中心主義的標桿來丈量漢字之長短似乎只能得出一個結論:漢字作為書寫技術,在記錄語言、再現聲音和傳遞信息各方面都是不合格甚至毫無價值的?,F代科技放大了書寫拼音化的需求,文字革命的使命就在于給原本“無聲”的漢字賦聲,進行拼音化升級。于是乎,以漢字革命為己任的中國知識精英將漢字拼音化的歷史先例收編入漢字字母化的革命征程,建構了一個新話語——漢字歷史似乎本就呈現技術化、拼音字母化的趨勢,且已然為語音中心主義的全面轉向做好了準備。

    關于漢字拼音化前史的話語準備于1926年正式完成并登上國際舞臺。是年,費城舉辦世界博覽會,同時紀念美國建國150周年。一張來自中國、題為《國語四千年來變化潮流圖》的作品(以下或簡作《演進圖》)于5月31日呈交展會。由著名語文學家和羅馬化運動首席史官黎錦熙繪制,這張圖大開大合地描繪了中國文字和語言從公元前1800年開始的歷史,并展望中國語文在20世紀的發展,前后跨度近四千年。大圖歷數從“圖畫文”、大小篆一直到草書的不斷演進的字體,解釋外來潮流如何影響中國語文的發展,強調梵文佛教經典和西方文學的作用,還著重點出漢字的拼音方案,包括前述所有四個先例,特別提到明清傳教士的羅馬字方案。大圖的結論是,中國語言文字四千年的“變化”將最終進化為以“國語羅馬字”書寫的“國語”。如是之,有著四千年歷史的中國語言文字被塑造一新,隆重亮相國際舞臺,慶祝一個國家(美國)以及一個國語(中國國語)的誕生。

    《“字”從遇見你》(2022)海報(局部)。

    黎錦熙的跨語際實踐顯而易見。與英文標題里的“Chinese”對應的內容包括中國歷代文字、拼音方案、文學文體,它們最終都被劃歸于“國語”范疇。這張《演進圖》以國語與國語文學的生產為例,生動清晰地展示了語言如何凌駕于書寫之上的話語建構。有意思的不僅僅是這張雄心勃勃的大圖讓我們親眼看到建構民族國家語言的每一筆如何勾勒,更意味深長的是,它將一個民族國家的語文放置到更大的世界圖景,即海德格爾所謂的“世界圖像”(Weltbild)當中。如果說世界博覽會聚集起來的來自世界各地的圖像讓這個世界能以一定秩序被再現,那么也正是這個再現的世界秩序激活了世界各個角落的圖像,讓它們所代表的民族國家有了合法性。中國國語是且僅是其中一例。

    所以,黎錦熙的《演進圖》一面展示,一面也被當成國語與國語文學的藍圖。四千年來悠遠龐雜的文的傳統在被有效組織成一幅“世界圖像”的過程中,將語音中心主義作為語文進化的主導力量生動清晰地呈現出來。黎錦熙為國語及其文學的線性發展賦予顏色和形狀,貫穿全圖的是一條綠松石色的河流,不計其數的小河向它匯聚,直到20世紀初形成一條“言文一致”的大河,讓人不能不聯想到日本明治維新時期的同名運動。最終,大河一路奔流,留在身后的是趕不上進化潮流的“各體漢字”(文字史)、“各種古體文”(文學史),而大河的出???,即潮流進化的終點,則是用“國語羅馬字”書寫的“國語文學”。歷史的終結宛然就在眼前。

    語音中心主義的誘人之處不僅在于那抽象的、人造的、誓將世間所有書寫都字母化的世界圖像。語音中心主義的二律背反決定了抽象、秩序井然甚至優雅的世界圖像必然與具體、眾聲喧嘩、反同一主義的表達共存。所以語音中心主義的承諾伴隨著它的暴力,向所有人許諾能發出自己的聲音且被聽見。本書要講述的正是漢字革命的志士們如何被語音中心主義及其二律背反吸引的故事。他們滿懷熱情地投入革命潮流,漸漸發現語音中心主義的內在局限,然后在其二律背反的作用下認識、接受并探索語音中心主義的變異,以期完成革命大業。而恰恰是對漢字革命的忠誠、對語音中心主義及其二律背反的執著,使得一個反叛語音中心主義的漢字書寫學成為可能。漢字革命的尾聲所揭示的道理讓人驚訝卻又理所應當:對語音中心主義的理論性批判必須從它的內部生長出來,對它的反叛必須從對它的服膺開始。

    注:本文選自《漢字革命:中國語文現代性的起源(1916-1958)》,較原文有刪節修改。標題為編者所加。已獲得出版社授權。

    原文作者/鐘雨柔

    摘編/何也

    編輯/張進

    導語校對/賈寧

網站首頁   |    關于我們   |    公司新聞   |    產品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有