又多一款好用備案!Vibing 免費即時語音轉文字工具實測分享
為什麼我還是會一直關注即時語音轉文字工具? 過去這段時間,我曾經在部落格上跟大家介紹過不少即時語音輸入、AI 語音轉文字的工具。 對我來說,這類工具真的不嫌多。 原因很簡單。這種工具有時候會臨時失效,有時候免費額度一下就用完。多準備幾套順手的工具,平常切換起來會更安心。 過去我介紹過的一些商用工具,像是 Wispr Flow 、 Typeless ,整體表現其實都很不錯。 不管是轉寫速度、即時翻譯,還是後續的條列整理、分段排版,很多都做得很成熟。甚至有些工具還會加上語音助理的功能,用起來確實很方便。 不過,商用工具畢竟還是要考慮成本。 就算有些服務每個月提供 2000 字、4000 字,甚至有些現在已經提高到 8000 字的免費額度,對重度使用者來說,還是很可能不夠用。 當然,本地端其實也有不錯的選擇。像 Handy 我自己就蠻常用的。 不過純本地端的語音轉路工具,如果電腦沒有獨立顯卡,只靠 CPU 來跑模型,等待時間通常就會比較長。這件事情其實很殘酷。語音轉文字的品質、模型大小、等待時間,很多時候就是要自己去抓一個平衡。 Vibing 是什麼? 而我這兩天又看到一款新的開源工具,叫做 Vibing 。 它主打的也是即時語音轉文字,而且它背後採用的,是 Microsoft 最近開源的 VibeVoice 模型。 VibeVoice 本身是一個自動語音辨識模型,也就是常說的 ASR(Automatic Speech Recognition)。根據目前公開的資料,它支援超過 50 種語言,也強調可以一次性處理長達一小時的語音內容。 這一點為什麼值得注意? 因為傳統的語音辨識模型,很多時候需要先把音訊切成很多小段來處理。這樣做不是不行,但有時候前後文就比較容易斷掉。如果模型本身可以一次看更長的語音內容,那在整體語意理解、一致性判斷,甚至講者追蹤上,理論上都會比較有優勢。 根據官方介紹,VibeVoice 除了長音訊處理之外,也支援時間戳、講者區分、內容結構化,還有熱詞標記等能力。 講白話一點,它不只是把聲音轉成文字而已,而是希望把整段語音內容整理得更完整、更有脈絡。 安裝方式很簡單 而現在開源社群已經把這個模型包裝成一套可以直接使用的桌面工具,也就是我這次想介紹的 Vibing。 目前...