免費又離線!Handy 即時語音轉文字實測:不用上傳也能快又準

  

 ▋打字太慢不是你的錯,是鍵盤太慢

你有沒有這種時刻?

腦袋已經想好三句話了,手指還在第一句的第三個字打錯。
你不是不努力,你只是「手指追不上腦袋」。

尤其是工作上要回訊息、寫 mail、整理會議重點、寫簡報講稿。
每一件事都不難,難的是:你要打得夠快,還要打得夠準。

所以我過往時常在測各種「語音轉文字」工具。
我的目標很單純:在電腦上即時語音輸入,讓我用講的就能輸出文字。
而且要更安心、更穩,不要講了一大段,最後才發現整段不見。

這篇我會接著之前的工具分享,來介紹我最近用到的一款新工具:Handy
它的特色很直白:離線、免費、開源,而且實際用起來速度飛快。
如果你跟我一樣常常要把腦袋的東西「快速倒出來」,你應該會很有感。


 ▋我這幾個月測過的語音轉文字工具,怎麼分工

其實從 9 月到 10 月,我陸續寫了幾篇「語音轉文字」相關的工具文。
每一款我都真的有放進日常工作裡用,不是只看介紹就下結論。

我之前寫過的四篇,主要是這些路線:

而我自己現在的分工,其實很固定:

  • 即時輸入:我最常用的是 Wispr Flow
    我用它回訊息、寫段落、補簡報句子,真的很省時間。

  • 事後長音檔逐字稿:我用 NotebookLM
    研討會、會議錄音,丟進去很快就能抓重點,效率超高。

  • 線上會議即時字幕/轉錄:我會用 Otter / Notta,或是 ViiTor Translate
    看需求選,有時候是想要字幕,有時候是想要雙語或免費替代方案。

這一套用下來其實很順。
但老實說,當我把「即時語音輸入」用得越頻繁,我就越容易撞到一個現實問題:網路


▋但 Wispr Flow 用久了,可能會遇到 4 個「現實問題」

先說清楚一件事。
我不是要否定 Wispr Flow
它依然是一款我覺得很好用、也真的幫我省下很多時間的工具。

只是,用得越久、用得越頻繁,一些現實面的限制就會慢慢浮出來

第一個問題:額度限制,平常沒感覺,用多了會遇到

Wispr Flow 的免費方案,本來就有每月額度。
以官方說明來看,是以「英文字數」為基準。

實際用起來,中英文的體感差異其實滿明顯的。
中文在正常使用下,通常不太容易踩線。
但如果你英文講得多,或是連續用來口述長段內容,還是會開始注意到額度在掉。

它不是不能用。
只是你會開始「心裡有一條線」,知道這個月差不多了,要省著用。

第二個問題:一定要連網,網路一差就很痛

這個是我自己最有感、也真的踩過雷的地方

因為 Wispr Flow 是雲端處理,
所以它一定要「錄完 → 上傳 → 轉文字 → 再回來」。

大多數時候都很順。
但只要你遇到網路不穩,事情就會開始變得很刺激。

我就遇過幾次這種情況:
我已經講了一大段,覺得自己講得不錯,
結果等了一下,發現沒有成功上傳,也沒有成功下載。

那一刻的感覺很簡單:
剛剛那一整段,白講了。

從那之後,我就會刻意控制:

  • 句子不要太長

  • 一小段一小段講

  • 不敢一次錄太久

這其實會影響你原本想要「順順講、一次倒出來」的流暢感。

第三個問題:隱私顧慮,不是每段話都適合上雲

還有一個比較現實、但不能不想的點:隱私

如果你只是寫文章、記筆記、回一般訊息,其實沒什麼問題。
但有些情境,真的會讓人猶豫要不要按下錄音鍵。

例如:

  • 帳號相關資訊

  • 個人資料

  • 公司內部內容

  • 還沒公開的想法或討論

畢竟語音是要上傳到第三方伺服器。
你很難百分之百確定,資料最後會被怎麼處理。

所以我後來的心態就變成:
有些內容可以用,有些內容我會刻意避開。

第四個問題:快捷鍵偶爾會衝突,用到一半會卡住

還有一個比較少人提,但我自己實際遇過好幾次的問題:
快捷鍵衝突。

在某些情況下,只要我開著 Wispr Flow
瀏覽器裡常用的 Ctrl + F(搜尋)
或是系統層級的 Ctrl + V(貼上)
會突然失效。

不是每一次都發生,
但一旦發生,就會讓人很困擾。

因為你會一開始以為是:

  • 瀏覽器壞了

  • 系統卡住

  • 鍵盤怪怪的

結果最後發現,是 Wispr Flow 跟系統快捷鍵之間,
可能有設定或攔截上的衝突

而且這種情況下,
通常不是「等一下就好」,
而是你必須:

  1. 把 Wispr Flow 關掉

  2. 再重新開啟

  3. 快捷鍵才會恢復正常

在需要快速查資料、快速貼內容的工作情境裡,
這種「突然卡住一下」的體驗,
其實會打斷節奏。

這也是我後來在評估工具時,
會額外納入考量的一個小但真實的使用成本。


▋所以我最近改用 Handy,頗為驚艷

也正因為上面這些原因,
我開始想找一個替代方案。

條件其實很簡單:

  • 可以即時語音輸入

  • 不用每次都擔心網路

  • 最好能離線跑,不要上傳任何東西

然後我就遇到了 Handy

Handy 是一款免費、開源、而且完全離線運作的即時語音轉文字工具。
重點只有一句話:
不用上傳,就能直接把你講的話轉成文字。

第一次打開來用的時候,我其實有點意外。
因為它的整個操作邏輯、快捷鍵概念,
跟 Wispr Flow 非常像。

如果你已經用過 Wispr Flow,
幾乎是不用學習成本,直接就能上手。

但最大的差別在於:
你講的每一句話,
都只在你的電腦裡跑。

沒有上傳,沒有下載,沒有等網路。
那種「講完就出字」的感覺,老實說,很爽

也是從那次之後,我開始認真把 Handy 放進我的日常工作流程裡。


▋Handy 最值得講的 5 個賣點(為什麼我會留下來)

如果只看介紹,其實 Handy 很容易被你一句話帶過。
免費、開源、離線。
聽起來不錯,但好像也就這樣。

實際用過一段時間之後,你才會發現它真正厲害的地方,不是某一個功能,而是「整體體驗」。

我直接用最白話的方式,講我自己最有感的五個賣點。

第一個賣點:完全離線,網路爛也能用

這一點,我放在第一個講。

因為對我來說,這就是 Handy 跟大多數即時語音輸入工具最大的差別

Handy 是在你電腦本機跑模型。
不管你是在飛機上、高鐵上、在訊號不穩的會議室(當然前提是不要吵到其他人),
甚至是臨時沒網路,它都照樣可以用

你不用擔心講到一半突然卡住,
也不用擔心講完才發現剛剛那段沒有傳上去。

那種「我講了,它一定會出字」的確定感,
用過之後真的會回不去。

第二個賣點:隱私更安心,所有資料都在本機

所有錄音、所有轉出來的文字,
全部都只存在你的電腦裡

沒有上傳第三方伺服器,
也沒有雲端帳號要登入。

這件事情在平常可能沒什麼感覺,
但只要你有講過比較敏感的內容,
你就會懂「不用上傳」這件事有多輕鬆。

你不用在講之前多想一秒:
這段話適不適合上雲?

在 Handy 裡,這個問題根本不存在。

第三個賣點:速度真的飛快,不用等上傳下載

我原本以為,本機跑模型一定會比較慢。
實際用起來,剛好相反。

因為沒有上傳、沒有下載,
你講完之後,幾乎就是立刻看到文字出來

以我自己的電腦來說,
我甚至覺得 Handy 的體感速度,比我之前用 Wispr Flow 還快。

當然,這多少會跟你的硬體有關。
但至少在我這台電腦上(記憶體:32 GB LPDDR5x RAM,顯示卡:NVIDIA® GeForce RTX™ 4050  GPU,6 GB GDDR6 vRAM),
「講完 → 出字」這件事,非常滑順。

第四個賣點:模型可選,從輕量到高準度自己決定

Handy 不是只給你一個固定模型。

你可以根據自己的電腦規格,
選擇不同大小、不同準度的模型。

  • 硬體普通 → 用輕量模型,速度快

  • 硬體好一點 → 上更大的模型,準度更高

  • 想要兼顧速度與準度 → 可以選 Whisper Turbo

這種「我自己決定我要跑多重」的自由度,
在離線工具裡其實不多見。

而我自己一直以來最常用的,
就是 Whisper Turbo 這個選項。

第五個賣點:操作直覺,快捷鍵一按就講

最後一個賣點,也是我能長期用下去的關鍵。

Handy 的使用方式很直覺:

  • 快捷鍵一按,開始講

  • 講完再按一次,文字就直接出來

你不用切視窗,
不用點來點去,
它就像你的「第二副鍵盤」。

而且如果你之前就用過 Wispr Flow,
你幾乎不用重新適應。

那種感覺就像是:
換了一台引擎,但方向盤還在原本的位置。

總結一句話。
Handy 不是那種「看起來很炫」的工具。
但它是那種,你每天用、用久了會默默依賴它的工具。


▋下載與安裝:官網 vs GitHub Release,我怎麼選

Handy 的下載其實不複雜。
基本上你只要記得一件事:有兩個入口,看你想要多「新」

兩個下載入口,差別在這裡

第一個:官網(適合大多數人)
你可以直接到官方網站下載對應的版本。
這個方式的好處是簡單、不用想太多,
對一般使用者來說最直覺。

官網提供的版本,通常是「相對穩定版」。
可能不是最新,但夠穩、也比較不容易踩雷。

第二個:GitHub Releases(給想要最新版的人)
如果你跟我一樣,
看到新功能、修正更新會有點手癢,
那你就可以直接去 GitHub 的 Releases 區下載。

這邊的版本通常會比官網新一點。
例如我實際下載的時候,GitHub 上已經到 v0.6.8
但官網可能還停在稍早的版本。

那我自己怎麼選?

我的建議很簡單:

  • 第一次用:官網下載就好

  • 用得很順、想追新功能:再改用 GitHub Releases 或直接在軟體介面內手動更新

而且你不用太擔心「下錯版本」。
因為 Handy 本身就有檢查更新的功能。

就算你一開始從官網裝,
後面一樣可以在軟體裡面手動檢查、升級到最新版。


▋第一次打開必做:先選模型,不然你會覺得它「不能用」

這一段,我一定要特別拉出來講。

因為太多人第一次打開 Handy,會以為它壞掉了
不是它不能用,是你還沒做一件事:選模型

第一步:左下角,先去下載模型

Handy 安裝完之後,預設是「沒有模型」的狀態。

你會看到左下角顯示目前沒有可用模型,
這時候你就要先進去選、下載你要用的模型。

這一步沒做,
你按再多快捷鍵,它都不會轉字。

模型怎麼選?一句白話版本

模型這件事,其實不用想得太複雜。

你可以記住這個簡單公式:

模型越大 → 越準,但吃資源、速度可能慢一點
模型越小 → 越快,但準度相對沒那麼高

所以選模型,本質上是在三件事之間取平衡:

  • 速度

  • 準度

  • 你的電腦硬體能不能負荷

常見的幾種選擇方向

如果你只是想「能用就好」,
官方提供的輕量模型,其實就很夠了。

  • 檔案小

  • 下載快

  • 對硬體要求低

但如果你跟我一樣,
希望在準度跟速度之間找到一個甜蜜點
那我會很直接推薦:Whisper Turbo

我自己的硬體實測經驗(給你參考)

我用的是一台 Windows 筆電:

  • 記憶體:32GB RAM

  • 獨立顯卡:NVIDIA GeForce RTX 4050(6GB VRAM)

實際使用 Handy 的時候,我有特別觀察效能。
我發現一件滿有趣的事:

Handy 主要吃的是記憶體,而不是 GPU 或 CPU。

即使我有獨立顯卡,
在語音轉文字的過程中,GPU 的使用率其實不高。
反而是記憶體佔用比較明顯。

也因為這樣,只要你的 RAM 夠,
即使用比較大的模型,整體跑起來還是很順。

以我自己的體感來說,
用 Whisper Turbo 的情況下:

  • 速度快

  • 準度高

  • 幾乎沒有卡頓感

所以我現在在電腦上,
幾乎都是用 Handy 直接取代原本的即時語音輸入工具。


▋實際操作:Ctrl + Space 這顆鍵,就是你的新鍵盤

Handy 真正讓我留下來的,不是設定多強,
而是用起來夠直覺

你只要記住一個快捷鍵:
Ctrl + Space

然後,你其實只有兩種用法可以選。

用法一:按住說話,放開就轉(適合短句)

如果你平常是這樣用語音輸入的:

  • 回一句訊息

  • 補一句說明

  • 改一小段文字

那這個模式最順。

操作方式很簡單:

  1. 按住 Ctrl + Space

  2. 開始講話

  3. 放開按鍵

  4. 文字立刻出現在游標位置

整個節奏很像對講機。
講完就好,不用多想。

用法二:不按住,講一大段再結束(適合長段)

如果你想要一次講比較多,
例如:

  • 一整段想法

  • 一段草稿

  • 一口氣把腦袋倒出來

那我會建議你把「按住說話」這個選項關掉。

這時候操作會變成:

  1. 按一次 Ctrl + Space → 開始錄

  2. 手可以放開,慢慢講

  3. 再按一次 Ctrl + Space → 結束錄音並轉文字

這個模式的好處是,
你不用一直按著鍵,講起來比較放鬆。

轉完的文字會跑去哪?

這個地方也很多人會問。

Handy 轉完之後,文字有兩種主要出現方式:

  • 模擬輸入
    就像你自己在鍵盤上打字一樣,
    文字會直接出現在目前游標的位置。

  • 剪貼簿模式
    轉完先放在剪貼簿,
    你再自己貼到想要的地方。

大多數情況下,我都是用預設值就好。
真的有特殊需求,再去調整就行。


▋介面設定拆解(第一次設定好,後面就很省事)

這一段比較偏教學。
但 Handy 的設定其實不複雜,
而且很多選項你只要看一次就懂

我照實際使用順序,把重點拆給你。

【通用】日常最常碰到的設定

  • 快捷鍵
    預設是 Ctrl + Space。
    如果跟你其他軟體衝突,可以自己改。

  • 語言
    預設是 Auto Detect。
    如果你發現有時候會跑出簡體中文,
    可以直接指定成 Traditional Chinese

    實測下來,就算你選繁中,
    中英文夾雜講晶晶體(外商最愛用),它一樣辨識得出來。

  • 音效回饋
    勾選後,開始與結束錄音都會有提示音。
    不用一直盯著畫面看,有沒有在錄。

  • 輸出裝置 / 音量
    主要是提示音要從哪個喇叭出來。
    一般用預設就好。

【高級】一次設定好,就很少再動

  • 隱藏啟動 / 開機啟動
    勾選後,開機就自動在背景跑。
    不會跳視窗,很安靜。

  • 懸浮窗位置
    可以選要不要顯示懸浮窗,
    以及在畫面上方或下方。

  • 貼上方式 / 剪貼簿處理
    決定轉完文字是直接打出來,
    還是先放剪貼簿。

    不確定的話,用預設就好。

  • 卸載模型
    你可以選:

    • 永不卸載

    • 幾分鐘後卸載

    • 重啟後卸載

    如果你常用 Handy,
    我會建議可以照預設「永不卸載」,省得一直重新載入。

  • 自定義詞彙
    如果你常遇到某些詞被聽錯,
    可以手動加進來,以後就會自動修正。

【歷史記錄】全部都在你電腦裡

只要你有錄過:

  • 錄音檔

  • 轉出來的文字

都會留在本機的歷史記錄裡。

要留、要刪,完全你自己決定。
沒有雲端同步,也沒有外流風險。

【關於】這裡通常只會看一次

在這裡你可以看到:

如果你哪天想找檔案或確認版本,
記得來這裡就好。


▋「翻譯為英文」功能:哪些模型支援?怎麼開?

在 Handy 的設定裡,你可能會看到一個選項:「翻譯為英文(Translate to English)」
這個功能乍看之下很吸引人,但實際上,不是每個模型都支援

這邊我直接幫你把重點整理好,避免你自己踩雷。

哪些情況下,「翻譯為英文」才會真的生效?

根據官方 GitHub 說明,加上我自己的實際測試,可以用一句白話來記:

不是所有模型都能翻譯,尤其是偏即時、高速的模型。

以大家最常用、也最熱門的 Whisper Turbo 來說,
它的定位就是「快、即時、低延遲」,
本身並不支援翻譯功能

也就是說:

  • 你勾了「翻譯為英文」

  • 但如果你用的是 Whisper Turbo
    👉 它只會幫你轉文字,不會幫你翻成英文

這不是設定錯誤,是模型本身的限制。

那哪些模型有機會支援?

一般來說,標準 Whisper 系列模型(例如非 Turbo 的版本),
比較有機會支援「Translate to English」這種功能。

但相對的,你也要有心理準備:

  • 模型比較大

  • 吃資源比較多

  • 延遲會比即時輸入稍高

所以這是一個很典型的取捨問題。

什麼情境真的用得到翻譯功能?

我會很老實說。
大多數即時語音輸入的場景,其實用不到翻譯。

但如果你是這種需求,就可以考慮:

  • 你用中文講

  • 希望輸出直接是英文草稿

  • 例如回英文 mail、寫英文段落、做簡單口譯輔助

那你就可以:

  1. 換成支援翻譯的模型

  2. 勾選「翻譯為英文」

  3. 接受速度稍慢一點

而如果你跟我一樣,
主要追求的是「快、順、即時輸入」,
那老實說,用 Whisper Turbo、不開翻譯功能,反而是最實際的選擇。


▋我覺得 Handy 唯一的小缺點:標點真的比較吃「停頓」

講完優點,還是要講實話。

Handy 到目前為止,
我自己用下來覺得唯一比較需要適應的地方
就是標點符號。

白話版說法就是這樣

如果你講話一路連著講、幾乎不停,
它有時候不太會幫你補出完整的標點

結果就會變成:

  • 文字是對的

  • 但一整段看起來有點長、有點黏

這在你一次講很長一段時,會特別明顯。

解法其實也不複雜

我自己後來是這樣調整:

  • 句子中間刻意停一下
    不用很久,大概半秒就好

  • 長段拆小段
    一段講完就收一次,再繼續下一段

這樣轉出來的文字,
標點會自然很多,後面也比較好整理。

這算不算缺點?

老實說,我不會把它當成硬傷。

因為 Handy 主打的是:
離線、即時、穩定輸入

而標點這件事,本來就跟模型、版本更新很有關係。
隨著後續版本調整,這個地方其實很有機會再變好。

所以我現在的心態是:
知道它的個性,配合它用,就好。


▋我現在的分工建議:Handy × Wispr Flow × NotebookLM × Faster Whisper 怎麼搭

小朋友才做選擇,工具不用選邊站。
選對情境,用對工具,才是真的省力。

我現在自己的實際工作流,其實很簡單,
你可以把它想成一張「選擇題」。

情境一:要跨裝置同步,手機、電腦都要用

👉 Wispr Flow

  • 手機也能講

  • 電腦也能接著語庫用

  • 雲端同步設定很方便

如果你常常在外面,用手機講一句、回到電腦也想寫,
那 Wispr Flow 依然是很好的選擇。

情境二:電腦離線、重視隱私、一次講一大段

👉 Handy

  • 不用網路

  • 不用上傳

  • 講完就出字

寫草稿、整理想法、處理內部內容,
或是你單純不想被網路品質綁架的時候,
Handy 就是我現在的主力。

情境三:錄音檔、研討會、長時間會議逐字稿

👉 NotebookLM

  • 音檔丟進去

  • 很快抓重點

  • 適合「事後整理」

我會把 Handy 跟 Wispr Flow 當成「即時輸入工具」,
NotebookLM 則是「事後整理工具」。
角色不同,完全不衝突。

如果你問我:
要不要全部只選一套?

我的答案很直接:
不用。
現在的工具,搭配用,反而更順。

情境四:錄音時間很長、檔案很大,或完全不想碰雲端

👉 Faster-Whisper(本地批次轉錄)

還有一種情境,其實跟前面三個都不太一樣。

例如:

  • 錄音時間 超過一個半小時以上

  • 單一音檔 大於 200MB

  • 內容偏向內部資料、研究討論,不希望上傳任何雲端服務,且超過 NotebookLM 處理上限

這種時候,我就不會用即時語音輸入工具了。
因為它們本來就不是為「超長音檔、一次性大量轉錄」設計的。

這時我會改用 Faster-Whisper,直接在本機跑。

它的定位很清楚:

  • 不求即時

  • 專心把「又長又大的音檔」穩定轉完

  • 全程本地處理,完全不碰雲端

對我來說,Faster-Whisper 比較像是一台「重型機具」。
你不會每天開它,但只要遇到大檔案、長時間錄音,
它就是最安全、也最不容易出問題的選擇。


▋結語:別再硬敲鍵盤了,讓嘴巴替你打字

如果你看到這裡,其實已經很清楚了。

在 AI 的時代,
慢慢敲鍵盤,不是勤奮,
很多時候只是沒換工具

我的建議只有兩步:

  1. 先把 Handy 裝起來,選好一個適合你電腦的模型

  2. 明天開始,用它寫第一段訊息、第一封 email、或第一段筆記

不用一次改變全部習慣。
你只要先讓「嘴巴幫你打一小段字」,
就會知道這件事有多省力。

最後,用一句我很喜歡、也很適合這篇文章的話作結:

「不是你不夠努力,而是你用錯了方法。」

鍵盤不會消失。
但從今天開始,
你可以讓它少忙一點。


📌 您可能也會有興趣的其他文章:

留言

熱門文章

ChatGPT 專案對話打不開?「Unable to load conversation」教你一招解決!

Notebook LM 語音轉文字完整教學:免費、快速又省力的最佳解法

用AI一鍵生成簡報PPT投影片真的有那麼神?全網最詳細AI簡報工具彙整與實測心得

打造數位分身:F5-TTS 本地部署教學與語音克隆應用分享

不是主持人也能做筆記!Otter.ai、Notta.ai 線上會議即時轉錄逐字稿完整教學

G6PD 缺乏者的抗生素選擇指南|社區診所常見處方與藥師建議一次搞懂

提高職場回覆率!有效催辦、不讀不回的實戰解法與預防心法

從靜態簡報到全場互動:講師必備的 4 大即時投票系統推薦與使用技巧

快速又免費的語音轉文字神器『Faster Whisper』,一鍵解決影音內容爆量時代的痛點!

GLP-1 減重針安全嗎?瘦瘦針機轉、效果、副作用一次看懂