我在做一個語音輸入 app。先把話講在前面:它叫 Meander,所以下面這些你都當成「有立場的人寫的」、自己打點折來看。做這種東西的時候,大家第一個問的都是:「幹嘛不直接在本地跑就好?不用雲端、不擔心隱私、也不用付錢。」這問題很合理。所以我花了一段時間,把能在本地跑的語音轉文字模型一個個拿真實聽寫來測,而且有一條規則篩掉了一大半:它必須能處理中文。
下面是我找到的誠實地圖,包括那個悄悄改變我對「本地 vs 雲端」整個看法的東西。
先從 Whisper 開始,因為大家都這樣
OpenAI 的 Whisper 是預設選項。我把整個系列拿真實聽寫測了一遍:
- Base。 又小又快,但準確度很粗糙。隨手記個東西還行,想要乾淨的文字就讓人崩潰。
- Large-v3-turbo。 蒸餾版,比完整的 large 快大約 4 倍。是快,但有兩個坑:在很多語言上準確度比完整版差一截,而且 turbo 把 Whisper 的翻譯功能整個拿掉了。
- Large-v3。 這個系列裡最準的,也是我真的會信任的那個。讓很多人意外的是:turbo 不是品質贏家,Large-v3 才是。你得拿速度去換。
benchmark 也對得上。Large-v3 在乾淨音訊上大約 2.7% 的字錯率,要吃約 3GB VRAM(模型比較、Hugging Face)。
你一旦要中文,「只看 Whisper」這套就崩了
多數「最佳本地模型」的整理文,測到 Whisper 就停了。但你只要需要英文以外的東西,畫面就變了,而這正是我測試裡最有意思的地方。
- NVIDIA Parakeet。 快到誇張,英文準確度跟 Whisper large 同級。比較新的 V3 加了一批歐洲語言,但有個沒人在標題上講的坑:還是沒有中文,而且最快的那個(V2)只支援英文。對一個需要中日韓的產品來說,它根本沒有這些語言,再快也是白搭(benchmark)。
- SenseVoice(阿里的 FunASR)。這個讓我印象深刻。它是 non-autoregressive,所以很快(小模型大約比 Whisper-large 快 15 倍),體積小,中文、粵語、日文、韓文都處理得好。本地中文聽寫,我一直回頭用的就是它(GitHub)。
- Breeze ASR(聯發科研究院)。一個 Whisper-large-v2 的微調版,專為台灣華語和中英夾雜(那種講話中途中英混著用的日常習慣)而做。它的中英夾雜辨識比原版 Whisper 好超過 50%。它很小眾,但如果你平常講話就是中英混著用,沒別的工具比它更合適(GitHub)。
- Cohere Transcribe(Cohere Labs)。這群裡的準確度冠軍。一個 2B 參數的開源模型(Apache 2.0),目前在 Open ASR Leaderboard 排第一,贏過 Whisper Large-v3(英文字錯率約 5.4% 對 Whisper 的 7.4%),涵蓋 14 種語言,含中文、日文、韓文。實際的取捨是:它比上面那些小模型重、也慢,所以那個頂級準確度是拿速度換的(發布說明)。
另外還有一整串更小、只做單一語區的模型:英文的 Moonshine、歐語加翻譯的 Canary、俄文的 GigaAM。如果你不用中文,這些都值得看看,而且多數小到不行(有些不到 100MB)。
改變我想法的那一段:模型已經不是瓶頸了
語音辨識變得又小又好。SenseVoice 又小又快。所以我以為本地從這裡開始會很順。結果並沒有,而且原因還出乎我意料。
語音輸入 app 不是只有轉錄。是先轉錄,再跑一道 AI 潤稿把文法和贅字修掉。那道潤稿是第二個模型:一個 LLM。而 LLM 才是吃資源的那個。
拿 SenseVoice 來說,就是我一直回頭用的那個。它自己幾乎吃不到 1GB VRAM。語音辨識這塊現在基本上已經不是問題了,CP 值高到沒話講。然後你加上潤稿 LLM,就算用個普通的也要 3 到 6GB(比如一個小的 Gemma 或 Qwen)。兩個疊起來,再加上模型的 context 和那些常見的額外開銷,在我 16GB 的卡上整套就坐到 8 到 10GB。作業系統和我開著的其他東西又吃掉一兩 G。突然就什麼都不剩了。我沒辦法跑 ComfyUI,沒辦法再載另一個模型。一個語音輸入法,就這樣光是坐在那裡等我開口,就把我整張顯卡吃光了。
這就是跑本地真正要付的代價,而且問題早就不在語音模型,而在整套疊起來的東西。
而且不只是記憶體。塞得進消費級顯卡的小 LLM 是快,但拿來當編輯很不靠譜。你叫它修文法、去贅字,它有時候會不甩你的指令、改得比你要的還多、或者每次結果都不一樣。能把稿子修得又乾淨又穩定的,是大模型(像 OpenAI 的 gpt-oss 那種 120B 級的),而那種你在桌機上根本跑不動。所以本地潤稿就變成兩頭不討好:塞得進的不夠好,夠好的塞不進。這就是最後把我推去用雲端的原因:雲端讓你用得到大模型,卻不用自己養一台大機器。
(該挑哪個本地 LLM、怎麼把它塞進去,又是另一個兔子洞,大概哪天會單獨寫一篇。一句話總結就是前面那個結論:能在你機器上跑得動的 LLM,都小到它修出來的東西常常不能信。)
那,本地還是雲端?
本地很好,也免費,前提是兩件事成立:你有穩定、夠用的硬體,而且你願意把那張 GPU 讓給它。如果你的機器有餘裕,或者你把模型掛到另一台 GPU 機器上跑,那就跑本地,音訊全留在自己機器上,一毛都不用付。對那些把隱私當成硬底線的人,這就是唯一的答案。
對其他人來說,這筆帳就難算了。一張專用 GPU 很貴,而把整張卡交給一個輸入法去聽,是個很高的代價。這就是雲端贏的地方:有別人幫你跑那些又大又準的模型,你的機器空著隨你用,長音檔也很快就轉好回來。
說到底,這也是為什麼 Meander 走雲端優先。我在本地這條路走得夠深,才看清楚:對多數人、用多數機器來說,雲端其實划算多了。想試的話,有免費方案可以先用。
一眼看完
| 模型 | 速度 | 中文 / CJK | 適合 |
|---|---|---|---|
| SenseVoice | 極快 | 強(中、粵、日、韓) | 本地中文聽寫 |
| Breeze ASR | 中等 | 台灣華語 + 中英夾雜 | 中英混著講 |
| Cohere Transcribe | 較慢 | 強(含中、日、韓) | 要最高準確度又要 CJK |
| Whisper Large-v3 | 慢 | 好 | 信得過的準確度 |
| Whisper Turbo | 快 | 好(沒翻譯) | 速度與準確度的平衡 |
| Whisper Small / Medium | 快 / 中 | 還行 | 輕量版 Whisper |
| Parakeet V3 | 極快 | 多語言,但沒中文 | 要快、不用 CJK |
| Moonshine / Canary / GigaAM | 極快 | 英 / 歐 / 俄 | 超輕、單一語區 |
語音模型本身都很小(多數下載不到 1GB)。真正咬你記憶體的是後面那一段:潤稿 LLM 疊上來的時候,那才是把我 16GB 卡塞滿的東西。
誠實的結論
別只看語音模型就決定你的本地方案。模型現在是最簡單的那部分了。真正的問題是:你願不願意拿你的 GPU、你的時間、還有機器剩下的餘力,去換「一切都在本地跑」。願意的話,上面那幾個開源模型真的夠好,放手用就對了。如果你寧可讓電腦還是你自己的、別被一個輸入法整天佔著,那走雲端會輕鬆很多。