當今數字化時代,錄音轉文字軟件成為了越來越多人的必備工具。尤其是在會議記錄、學習筆記、采訪整理等場景中,這類軟件能夠極大地提高我們的工作效率。本文將介紹幾款免費的電腦錄音轉文字軟件,幫助大家找到最適合自己的工具。
首先,我們不得不提的是Speechnotes。這是一款完全免費的語音轉文本工具,提供軟件、插件、在線版等多種使用方式。無需注冊,可直接使用網頁版進行在線實時聲音轉文字,對會議記錄的幫助非常大,且準確性高。無論是短期還是長期使用,Speechnotes都能滿足你的基本需求。
另一款值得推薦的軟件是聲云轉寫。這款音頻錄音轉文字工具支持蘋果、安卓和電腦網頁版,使用起來非常方便。無論你是在手機上還是在電腦上,都可以輕松實現錄音轉文字的操作。而且,i笛云聽寫的識別準確率也相當高,能夠滿足大部分用戶的需求。
除了上述兩款軟件外,“在線錄音轉文字”也是一款不錯的選擇。這款軟件支持轉換多種音頻格式,如MP3、MAV、M4A等,且轉換效果較好。對于需要轉換的文件不是很大的用戶來說,這款軟件的在線版功能已經足夠使用。當然,如果你需要更高級的功能,比如移動版錄音轉文字等,可以考慮付費使用。
最后,無論你選擇哪款錄音轉文字軟件,都要記得在使用過程中保持耐心和細心。畢竟,語音轉文字的準確性還受到多種因素的影響,如錄音質量、語速、口音等。因此,在使用軟件時,我們可以盡量保持清晰、穩定的語速和發音,以提高轉換的準確率。同時,對于轉換后的文字內容,我們還需要進行一定的校對和修改,以確保其準確性和完整性。
速記員這個職業大家都不陌生,他們能在各類場合高效迅速地將演講內容轉化為會議記錄。如果把速記員變成軟件,其核心功能就是語音識別 + 轉寫。這類需求使用場景廣泛,在線視頻 AI 字幕、線上會議 / 網課的速記、生肉番劇 / 電影 / 歌曲字幕的制作和轉譯、通話錄音等等,都會用到。
速記的精髓在于速度,快最重要,但在很多場景中,無論是人力還是軟件,都無法達到超快的轉寫速度和準確率,而滿足專業用戶高效轉寫需求的工具,往往需要付費獲取。如某品牌的語音轉寫暢想包訂閱費用是 79 元連續包月,599 元 / 年;另一款則需要注冊企業用戶,然后找客服咨詢費用標準,據說標準版費用是每個用戶 199 元 / 年,高級版費用則是每個用戶 299 元 / 年。
對企業 / 專業用戶來說,付費訂閱軟件一定最佳選擇,它們的速度快、無需高性能硬件成本(GPU)、準確率高、支持人工精校,肯花錢甚至可獲得一對一的專屬客服支持,但如果只是偶爾使用性價比就不是很高了。
另外,這些訂閱軟件的 AI 服務,通常需要用戶將原始的視頻或音頻文件上傳到服務器和全程聯網,且通過廠商的專業設備在云端運行,如果視頻或音頻文件中包含個人隱私 / 商業等內容,顯然也不太合適。
那有沒有一款完全免費開源,不需要聯網,完全依賴本地硬件算力去跑語音識別和轉寫,準確率還不低的語音轉寫軟件呢?或許喜歡關注 AI 領域的朋友早就有了答案,它就是來自的 OpenAI 團隊所開發的 Whisper。從官網的介紹文章日期上不難看到,Whisper 早在 2022 年 9 月就已經推出,但時至今日它依舊是最好用的免費語音轉寫工具。
說它最好用原因有三點,一是它的語種支持廣泛(99 種),二是轉寫速度超快,三是識別準確性很高,且只需要一張高性能顯卡就能辦到,這幾點我都會在后面的體驗中給大家詳細分析。
先給大家簡單科普下 Whisper,它是一個多模態語音識別模型,基于 Transformer 引擎所打造,通過了 68 萬個小時的語音數據訓練,支持 99 種語言(包括中文),在具備語音識別能力的同時,還支持語音活性檢測(VAD),聲紋識別,說話人日志 (Speaker Diarization,即在多人對話場景下檢測不同人物的說話時間段),語音翻譯(翻譯為英文),語音對齊等能力,其英文識別準確率非常強悍。
而上面所提到的 Transformer 引擎,恰好 NVIDIA 在 RTX 40 系列顯卡上引入了一個針對 AI 計算的新硬件特性,具體來說 RTX 40 系顯卡增加了對 FP8 低精度浮點數的支持,基于 Transformer 引擎,相比 AI 訓練常用的 FP16 半精度浮點數來說,動態范圍相當,在相同加速平臺上的峰值性能顯著超越后者,但 FP8 更少的位數有利于減小空間占用和提升網絡利用效率,允許模型擁有更多的參數量,從而算得更快。
有意思的是 OpenAI 迄今為止推出的大模型,包括大家耳熟的 GPT,Sora.,Dell 以及今天提到的 Whisper,都是基于 Transformer 模型所開發,這類模型的參數量巨大,并利用了 Transformer 模型所擁有的 Scability(可擴展性)特性,可以不斷疊加模型的參數和神經網絡層數,獲得更精細和強大的 AI 能力。
此外,OpenAI 團隊也注意到了 Transformer 模型的自注意力機制,使其能夠理解序列中任意兩個詞元間的聯系并無視距離,提高輸出的質量和連貫性。自注意力還可擴展為多頭注意力,允許模型將數據信息切割細化為矩陣(頭),然后對每個矩陣(頭)分別進行自注意力計算,最后合并輸出。
在這兩種機制下,Transformer 模型捕捉的信息類型更全面,學習能力和表達能力也更突出。正是由于 OpenAI 將 Transformer 模型作為產品發展平臺的策略,以及 RTX 40 系顯卡對 FP8 Transformer 引擎的支持,才使得 RTX 40 顯卡成為普通消費者現階段體驗 Whisper 最合適的硬件。
這就不得不提到本次體驗用到的兩個重要硬件,第一個是 i9-14900K 處理器,作為最新一代消費級市場旗艦級定位的 CPU,其采用了 24 核心 32 線程的核心規格,最高睿頻頻率可達 6GHz,不僅自身性能強悍,也不會影響顯卡性能的發揮。
主角則是這款影馳 GeForce RTX 4070 Ti SUPER 星曜 OC 顯卡,它基于 AD103 核心所打造,包含 8448 個 CUDA 核心,顯存位寬提升到了 256bit,并擁有 16GB GDDR6X 的大顯存。
它所搭載的第四代 Tensor Cores 核心專為 AI 而生,新增的 FP8 引擎支持,使其具有高達 1.32 petaflops 的 Tensor 處理性能,可實現混合精度計算,動態調整算力,對于萬億級參數生成式 AI 模型的訓練速度提升 4 倍,性能可達 FP16 的 6 倍,推理性能提升 30 倍,非常適合拿來體驗 Whisper 的性能。
而在外觀上,影馳 GeForce RTX 4070 Ti SUPER 星曜 OC 顯卡亦是設計感拉滿,純白卡身裝甲,自帶亞克力“水晶”外殼,三風扇支持 RGB 光環特效,還附送專屬定制顯卡支架,顏值非常出色,拿來組白色海景房簡直是絕配。
那既然是拿它來跑 AI,顯卡驅動也得選 Studio 驅動,否則跑出來的速度很可能不太理想。目前 NVIDIA 官網提供的最新 Studio 驅動版本為 555.99。
首先 Whisper 是一個模型而非軟件,它基于 Python 編程語言開發,直接下載 GitHub 上的原版部署的話就需要通過命令行工具來運行。好在現在已經有不少支持 Whisper 的 GUI 軟件,其中簡單易用的代表就是 Buzz 和 Whisper Desktop 了。
選擇這兩款 GUI 軟件的原因也非常簡單,第一是兩款軟件都免費,體積占用非常小,最新 v0.8.4 版本的 Buzz 安裝包僅有 197MB,完全安裝后的占用空間約 1.21GB,而 Whisper Desktop 甚至只需要 324kb 大小的單文件和一個配置文件就能運行。
第二是兩款軟件的界面非常簡單,上手簡單容易。首先來看 Buzz,它主要是通過 CPU 來跑 Whisper,因此兼容性更強,而且支持 Windows、Linux 和 MacOS 系統平臺,非常全面。Windows 和 MacOS 用戶都可以通過 GitHub 進行下載,Mac App Store 里的版本要價 9.99 美元,不是專業用戶完全不推薦。
在安裝好 Buzz 后,我們要下載 Whisper 的模型文件,推薦大家通過 Huggingface 鏡像站進行下載,上面有 Whisper 模型的合集專題頁,而且會保持更新。
Whisper 官方提供了 Tiny、Base、Small、Medium 和 Large 五種不同大小的模型,占用的體積依次增加,模型越大處理音頻的時間也越長,準確性越高。建議大家一步到位將五種大小的模型都下載下來,親自試試效果。
這里需要注意的是,原版模型的文件名后綴是.pt,如果你下載的模型文件名和后綴不同,很可能是別人轉換或者微調后的模型。下載完成后,還需要將模型文件統一放在“C:\Users\ 電腦用戶名 \.cache\whisper”文件目錄下,然后部署流程就搞定了,是不是非常簡單。
打開 Buzz 后,它的界面是這樣的,非常簡單粗暴,點擊麥克風按鈕將會采集系統聲音來分析正在播放的音視頻中的語音,不過這種方式的識別精度比較低,建議大家還是點擊“+”號按鈕手動指定本地音、視頻文件進行運算更加穩妥。
點擊“+”號選擇文件后,會彈出以上菜單窗口,需要依次選擇模型類型、模型大小、處理方式以及識別語言,然后在底部的導出選項中選擇字幕文件類型。
這里我給大家做了一些中文注釋,模型類型直接選第一個 Whisper 就好,體積方面理論上轉寫英語音頻選擇 Small 模型就能有不錯的效果,中文音頻則需要 Medium 或 large 模型,處理類型選擇轉寫,因為轉譯是將識別結果翻譯成英文,而且只能翻譯成英文,局限性較大。
按理說對排版有要求一定要勾選文字時間戳選項,否則識別結果就會擠在一起,但是目前 Buzz 的文字時間戳選項有 BUG,勾選后不僅識別速度慢不少,識別結果每行幾乎只有一個單詞或單字,就像上圖這樣,好在不勾選它也會對每句話進行分段,最后導出文檔類型大家按需選擇。
全部選好之后點擊右下角的“Run”按鈕即可運行,識別過程中 Buzz 會給出當前的識別進度百分比,直到完成轉寫。
待識別進度變成 Completed(已完成)狀態時,選中列表中的文件,點擊“+”旁邊的雙箭頭圖標,會彈出識別結果的預覽窗口,里面記錄了每句話的時間起始和轉寫結果,再次點擊右下角的下載按鈕并選擇導出文檔類型即可下載到電腦。
再看下 Whisper Desktop,首先是下載,Whisper Desktop 軟件和模型下載地址我貼在這里,同樣也是五種大小的模型,只不過文件名前綴和文件類型后綴不同。
然后是 Whisper Desktop 的界面和操作。打開后我們首先需要選擇模型,Whisper Desktop 不需要指定的模型存放目錄,手動選擇模型地址就行。
大家注意,Whisper Desktop 的模型文件并不是.pt 后綴的,而是.bin 后綴的,文件名中也多了 ggml-model 的字樣,顯然這是經過轉換后的模型文件。
實際上,該軟件就是 Whisper 的 ggml 版本,ggml 是一個用于機器學習的張量庫,所使用的模型文件是 bin 格式的二進制文件,識別效果等同于 Whisper。
然后模型生成方式這里選擇 GPU。高級參數設置中,有獨顯的選擇獨顯,沒有獨顯的則選擇核顯,我這里就直接選擇影馳的 GeForce RTX 4070 Ti SUPER 星曜 OC 顯卡就行了。
全部選好后點擊 OK 進入二級頁面,這里的操作步驟和 Buzz 比較類似,我也給大家都標注了中文注釋,一看就會。選好后點擊右下方的 Transcribe(轉寫)按鈕即可。
測試環節我們將進行四組不同語種、語速、類型的音源文件比較,對比內容為識別 + 轉寫速度和識別準確率,比照對象則是以 Buzz 軟件 + i9-14900K 的 CPU 處理陣營和以 Whisper Desktop + 影馳 GeForce RTX 4070 Ti SUPER 星曜 OC 顯卡的 GPU 陣營。
第一次先看中文識別效果,我們在網上下載了一段錘子科技當年在鳥巢舉辦的新品發布會上,老羅對 TNT 功能進行演示的視頻片段,然后轉換為去掉觀眾席聲音的 5 分 30 秒 MP3 音頻文件,這段中文語音中混雜了中文、英文和數字,比較考驗 Whisper 的綜合實力。
在同樣選擇 large 模型的情況下,Buzz 采用 i9-14900K 處理器渲染,最終轉寫速度為 3 分 08 秒左右,Whisper Desktop 采用影馳 GeForce RTX 4070 Ti SUPER 星曜 OC 顯卡渲染,轉寫速度為 26 秒,Whisper Desktop 僅用了 Buzz 軟件 1/6 不到的時間便完成轉寫,由此可見自帶 Transformer 引擎的顯卡對于 Wisper 的效率提升是巨大的。
轉寫排版上 Buzz 和 Whisper Desktop 在不選擇時間戳文本類型的 TXT 文件格式下,勢均力敵,基本都能做到按照一句完整語音進行換行斷句。
不過,在識別結果的字數上,兩者竟然并不相同。Buzz 的轉寫字數為 910 字,而 Whisper Desktop 的轉寫字數為 933 字。識別準確性上,Buzz 識別錯誤 27 個字 / 詞,準確率為 97%,Whisper Desktop 識別錯誤 9 個字 / 詞,準確率 99%。為了不被偶然性影響,我們連續測試三次,基本都是這個比例。
兩者在錯誤類型上,即使我只截識別錯誤的這句話,不聯系上下文,大家都能一眼看出錯在哪了,基本就是中英文混說 / 純中文發音識別錯誤。
另外,Buzz 輸出某些英文也會識別錯誤,而 Whisper Desktop 的英文和數字是完全沒錯誤的。至于為什么 Whisper Desktop 的識別結果字數要多一些,主要是語音中存在重復說相同詞語時,Buzz 有幾率只轉寫一次,而且 Whisper Desktop 有些地方還會添油加醋,比如結尾莫名多出來一句謝謝觀看,還挺貼心的哈。
第二輪對比我們選擇了一段 BGM 舒緩,類型為朗讀的英文短篇,整體朗讀速度較為適中,吐字清晰,音頻時長為 1 分 31 秒的 MP3 音頻,模型則選用了 medium。
這次的轉寫速度差距也非常明顯,Buzz 轉寫耗時 26 秒,而 Whisper Desktop 僅用時 3.8 秒便完成轉寫。
在轉寫排版上,由于 Buzz 選擇時間戳文本有 Bug,所以 Whisper Desktop 略勝一籌。不過在識別準確率上兩者完全打平,因為都是 100%,比較前文也提到了 Whisper 的英文識別能力非常強悍。
當然,大家非常關心的日文我們也進行了測試,這次我們選擇了一首日本歌手 BoA 演唱的《妖精的尾巴》TV 動畫 OP 主題曲《MASAYUME-CHASING》,這首歌的 BGM 比較燃,語速相對前面的英文朗誦也快不少,還有很多重復疊聲詞,歌曲時長為 3 分 40 秒,測試模型選擇 Large。
轉寫速度上,Buzz 用時 1 分 44 秒完成,Whisper Desktop 用時 17 秒完成,影馳 GeForce RTX 4070 Ti SUPER 星曜 OC 顯卡再次完勝。
轉寫排版和前面的英文差不多,只是兩者在一些語句的斷句長度上有所不同。而準確性上,兩者的很多錯誤都一樣,識別準確率都是 96%。但是 Buzz 有些地方錯成了假名,而 Whisper Desktop 相同位置則錯成了英文,比如歌詞原句為“燃やせ胸の火を”,中文大致意思是“胸中之火熊熊燃燒”。Buzz 的轉寫結果為“燃やせ胸のヒール”,中文變成了“燃燒胸前的高跟鞋”,Whisper Desktop 的轉寫結果為“燃やす胸の hero”,中文變成了“燃燒胸前的英雄”。錯的結構基本都是這種,懂日語的小伙伴可以在評論區解釋一下。
最后我們選擇了一首英文說唱類型的視頻,這個視頻比較特殊,首先它雖然是作者二創填詞,但聲音選擇了 AI 配音,有很重的“花果山口音”,其次語速很快,每句話中都有大量的英文單詞,吐字也不算很清楚,屬于稍微“鬼畜向”的作品,我們同樣將其轉成 MP3 格式,采用 medium 模型,看看這種音頻 Whisper 能搞定嗎?
然而出乎意料的是,Whisper Desktop 僅用時 2.6 秒就完成了轉寫,這也太快了!Buzz 則花費了 1 分 03 秒完成。
可是這次轉寫的結果著實令人哭笑不得,Buzz 似乎順利識別出了整首歌的歌詞,而 Whisper Desktop 直接撲街,一個字都沒聽出來,這下子高下立判了。
別急,仔細看 Buzz 的文檔我又發現,它這個文案很多地方像“腦補”出來的,對比原視頻只能說錯對一半一半,關鍵很多話中錯了幾個詞意思就完全對不上了。顯然,在面對 AI 配音 + 口音 + BGM 的場景,Whisper 似乎也無能為力,所以大家就別指望用它來轉寫口語化很重、方言以及鬼畜視頻了。
經過上面三組測試的對比,我們可以得出以下幾點結論:
相比 CPU,RTX 40 系顯卡的 AI 性能對 Whisper 這類基于 Transformer 引擎所打造的多模態大模型是有絕對優勢的。
影馳 GeForce RTX 4070 Ti SUPER 星曜 OC 顯卡即使在 Large 最大體積模型下,也能將 5 分鐘以內的音頻文件轉寫時間壓縮到 60 秒以內,16GB 大顯存可以輕松駕馭 Large 模型的負載。
Whisper 對于中文的識別精度目前還算不上很出色,難度相比日語、英語都要大。而日文、東亞語種的識別準確率也是明顯會差于英語的。但從錯誤數量相對整個文本的占比來看,Whisper 依舊做到了 90% 以上的準確性,相比收費軟件識別速度或許不一定會占優,但勝在免費、離線和低門檻,整體表現在免費轉寫工具中出類拔萃。
口音很重或者通過變聲的 AI 配音、變聲鬼畜向視頻,不適合使用 Whisper 進行轉寫。
除此之外還要特別說明 2 點,一是拿 i9-14900K 進行對比,主要目的是給到大家識別速度上的參照物,并非為表明 RTX 40 顯卡的 AI 性能一定比 intel CPU 強;二是大家使用 Whisper 進行識別轉寫前,最好還是通過三方軟件,將音視頻中的人聲和 BGM 進行分離,識別效果會更好。
在 Whisper 配合兩款 GUI 軟件的體驗過程中,除了部署階段涉及到大量外網模型資源的下載有些麻煩,操作體驗沒有任何問題,非常人性化。
對于有非商業,非大批量語音識別 + 轉寫使用場景的用戶來說,Whisper 足夠滿足他們的日常需求,而像影馳 GeForce RTX 4070 Ti SUPER 星曜 OC 顯卡所擁有的 Tensor Core、CUDA 以及 16GB 大顯存,能夠輕松應付 Lager 模型給到的 AI 運算負載壓力,給用戶帶來顯著效率提升。
或許現在很多 AI 領域離我們的生活還很遠,但不可否認的是,善用 AI 一定能讓我們的生活變得更加美好。
最后,由于文中部分鏈接對網絡環境要求較高,這里就給大家附上此次測試所用到的模型資源好了: