免費又離線！Handy 即時語音轉文字實測：不用上傳也能快又準

作者：亞瑟 12月 21, 2025

▋打字太慢不是你的錯，是鍵盤太慢

你有沒有這種時刻？

腦袋已經想好三句話了，手指還在第一句的第三個字打錯。
你不是不努力，你只是「手指追不上腦袋」。

尤其是工作上要回訊息、寫 mail、整理會議重點、寫簡報講稿。
每一件事都不難，難的是：你要打得夠快，還要打得夠準。

所以我過往時常在測各種「語音轉文字」工具。
我的目標很單純：在電腦上即時語音輸入，讓我用講的就能輸出文字。
而且要更安心、更穩，不要講了一大段，最後才發現整段不見。

這篇我會接著之前的工具分享，來介紹我最近用到的一款新工具：Handy。
它的特色很直白：離線、免費、開源，而且實際用起來速度飛快。
如果你跟我一樣常常要把腦袋的東西「快速倒出來」，你應該會很有感。

▋我這幾個月測過的語音轉文字工具，怎麼分工

其實從 9 月到 10 月，我陸續寫了幾篇「語音轉文字」相關的工具文。
每一款我都真的有放進日常工作裡用，不是只看介紹就下結論。

我之前寫過的四篇，主要是這些路線：

即時語音輸入（打字加速器）：Wispr Flow
錄音檔上傳後，快速產出逐字稿：NotebookLM
線上會議即時字幕/轉錄（含付費工具）：Otter.ai、Notta.ai
免主持權限的線上會議即時轉錄/雙語：ViiTor Translate

而我自己現在的分工，其實很固定：

即時輸入：我最常用的是 Wispr Flow
我用它回訊息、寫段落、補簡報句子，真的很省時間。
事後長音檔逐字稿：我用 NotebookLM
研討會、會議錄音，丟進去很快就能抓重點，效率超高。
線上會議即時字幕/轉錄：我會用 Otter / Notta，或是 ViiTor Translate
看需求選，有時候是想要字幕，有時候是想要雙語或免費替代方案。

這一套用下來其實很順。
但老實說，當我把「即時語音輸入」用得越頻繁，我就越容易撞到一個現實問題：網路。

▋但 Wispr Flow 用久了，可能會遇到 4 個「現實問題」

先說清楚一件事。
我不是要否定 Wispr Flow。
它依然是一款我覺得很好用、也真的幫我省下很多時間的工具。

只是，用得越久、用得越頻繁，一些現實面的限制就會慢慢浮出來。

第一個問題：額度限制，平常沒感覺，用多了會遇到

Wispr Flow 的免費方案，本來就有每月額度。
以官方說明來看，是以「英文字數」為基準。

實際用起來，中英文的體感差異其實滿明顯的。
中文在正常使用下，通常不太容易踩線。
但如果你英文講得多，或是連續用來口述長段內容，還是會開始注意到額度在掉。

它不是不能用。
只是你會開始「心裡有一條線」，知道這個月差不多了，要省著用。

第二個問題：一定要連網，網路一差就很痛

這個是我自己最有感、也真的踩過雷的地方。

因為 Wispr Flow 是雲端處理，
所以它一定要「錄完 → 上傳 → 轉文字 → 再回來」。

大多數時候都很順。
但只要你遇到網路不穩，事情就會開始變得很刺激。

我就遇過幾次這種情況：
我已經講了一大段，覺得自己講得不錯，
結果等了一下，發現沒有成功上傳，也沒有成功下載。

那一刻的感覺很簡單：
剛剛那一整段，白講了。

從那之後，我就會刻意控制：

句子不要太長
一小段一小段講
不敢一次錄太久

這其實會影響你原本想要「順順講、一次倒出來」的流暢感。

第三個問題：隱私顧慮，不是每段話都適合上雲

還有一個比較現實、但不能不想的點：隱私。

如果你只是寫文章、記筆記、回一般訊息，其實沒什麼問題。
但有些情境，真的會讓人猶豫要不要按下錄音鍵。

例如：

帳號相關資訊
個人資料
公司內部內容
還沒公開的想法或討論

畢竟語音是要上傳到第三方伺服器。
你很難百分之百確定，資料最後會被怎麼處理。

所以我後來的心態就變成：
有些內容可以用，有些內容我會刻意避開。

第四個問題：快捷鍵偶爾會衝突，用到一半會卡住

還有一個比較少人提，但我自己實際遇過好幾次的問題：
快捷鍵衝突。

在某些情況下，只要我開著 Wispr Flow，
瀏覽器裡常用的 Ctrl + F（搜尋），
或是系統層級的 Ctrl + V（貼上），
會突然失效。

不是每一次都發生，
但一旦發生，就會讓人很困擾。

因為你會一開始以為是：

瀏覽器壞了
系統卡住
鍵盤怪怪的

結果最後發現，是 Wispr Flow 跟系統快捷鍵之間，
可能有設定或攔截上的衝突。

而且這種情況下，
通常不是「等一下就好」，
而是你必須：

把 Wispr Flow 關掉
再重新開啟
快捷鍵才會恢復正常

在需要快速查資料、快速貼內容的工作情境裡，
這種「突然卡住一下」的體驗，
其實會打斷節奏。

這也是我後來在評估工具時，
會額外納入考量的一個小但真實的使用成本。

▋所以我最近改用 Handy，頗為驚艷

也正因為上面這些原因，
我開始想找一個替代方案。

條件其實很簡單：

可以即時語音輸入
不用每次都擔心網路
最好能離線跑，不要上傳任何東西

然後我就遇到了 Handy。

Handy 是一款免費、開源、而且完全離線運作的即時語音轉文字工具。
重點只有一句話：
不用上傳，就能直接把你講的話轉成文字。

第一次打開來用的時候，我其實有點意外。
因為它的整個操作邏輯、快捷鍵概念，
跟 Wispr Flow 非常像。

如果你已經用過 Wispr Flow，
幾乎是不用學習成本，直接就能上手。

但最大的差別在於：
你講的每一句話，
都只在你的電腦裡跑。

沒有上傳，沒有下載，沒有等網路。
那種「講完就出字」的感覺，老實說，很爽。

也是從那次之後，我開始認真把 Handy 放進我的日常工作流程裡。

▋Handy 最值得講的 5 個賣點（為什麼我會留下來）

如果只看介紹，其實 Handy 很容易被你一句話帶過。
免費、開源、離線。
聽起來不錯，但好像也就這樣。

但實際用過一段時間之後，你才會發現它真正厲害的地方，不是某一個功能，而是「整體體驗」。

我直接用最白話的方式，講我自己最有感的五個賣點。

第一個賣點：完全離線，網路爛也能用

這一點，我放在第一個講。

因為對我來說，這就是 Handy 跟大多數即時語音輸入工具最大的差別。

Handy 是在你電腦本機跑模型。
不管你是在飛機上、高鐵上、在訊號不穩的會議室（當然前提是不要吵到其他人），
甚至是臨時沒網路，它都照樣可以用。

你不用擔心講到一半突然卡住，
也不用擔心講完才發現剛剛那段沒有傳上去。

那種「我講了，它一定會出字」的確定感，
用過之後真的會回不去。

第二個賣點：隱私更安心，所有資料都在本機

所有錄音、所有轉出來的文字，
全部都只存在你的電腦裡。

沒有上傳第三方伺服器，
也沒有雲端帳號要登入。

這件事情在平常可能沒什麼感覺，
但只要你有講過比較敏感的內容，
你就會懂「不用上傳」這件事有多輕鬆。

你不用在講之前多想一秒：
這段話適不適合上雲？

在 Handy 裡，這個問題根本不存在。

第三個賣點：速度真的飛快，不用等上傳下載

我原本以為，本機跑模型一定會比較慢。
實際用起來，剛好相反。

因為沒有上傳、沒有下載，
你講完之後，幾乎就是立刻看到文字出來。

以我自己的電腦來說，
我甚至覺得 Handy 的體感速度，比我之前用 Wispr Flow 還快。

當然，這多少會跟你的硬體有關。
但至少在我這台電腦上（記憶體：32 GB LPDDR5x RAM，顯示卡：NVIDIA® GeForce RTX™ 4050 GPU，6 GB GDDR6 vRAM），
「講完 → 出字」這件事，非常滑順。

第四個賣點：模型可選，從輕量到高準度自己決定

Handy 不是只給你一個固定模型。

你可以根據自己的電腦規格，
選擇不同大小、不同準度的模型。

硬體普通 → 用輕量模型，速度快
硬體好一點 → 上更大的模型，準度更高
想要兼顧速度與準度 → 可以選 Whisper Turbo

這種「我自己決定我要跑多重」的自由度，
在離線工具裡其實不多見。

而我自己一直以來最常用的，
就是 Whisper Turbo 這個選項。

第五個賣點：操作直覺，快捷鍵一按就講

最後一個賣點，也是我能長期用下去的關鍵。

Handy 的使用方式很直覺：

快捷鍵一按，開始講
講完再按一次，文字就直接出來

你不用切視窗，
不用點來點去，
它就像你的「第二副鍵盤」。

而且如果你之前就用過 Wispr Flow，
你幾乎不用重新適應。

那種感覺就像是：
換了一台引擎，但方向盤還在原本的位置。

總結一句話。
Handy 不是那種「看起來很炫」的工具。
但它是那種，你每天用、用久了會默默依賴它的工具。

▋下載與安裝：官網 vs GitHub Release，我怎麼選

Handy 的下載其實不複雜。
基本上你只要記得一件事：有兩個入口，看你想要多「新」。

兩個下載入口，差別在這裡

第一個：官網（適合大多數人）
你可以直接到官方網站下載對應的版本。
這個方式的好處是簡單、不用想太多，
對一般使用者來說最直覺。

官網提供的版本，通常是「相對穩定版」。
可能不是最新，但夠穩、也比較不容易踩雷。

第二個：GitHub Releases（給想要最新版的人）
如果你跟我一樣，
看到新功能、修正更新會有點手癢，
那你就可以直接去 GitHub 的 Releases 區下載。

這邊的版本通常會比官網新一點。
例如我實際下載的時候，GitHub 上已經到 v0.6.8，
但官網可能還停在稍早的版本。

那我自己怎麼選？

我的建議很簡單：

第一次用：官網下載就好
用得很順、想追新功能：再改用 GitHub Releases 或直接在軟體介面內手動更新

而且你不用太擔心「下錯版本」。
因為 Handy 本身就有檢查更新的功能。

就算你一開始從官網裝，
後面一樣可以在軟體裡面手動檢查、升級到最新版。

▋第一次打開必做：先選模型，不然你會覺得它「不能用」

這一段，我一定要特別拉出來講。

因為太多人第一次打開 Handy，會以為它壞掉了。
不是它不能用，是你還沒做一件事：選模型。

第一步：左下角，先去下載模型

Handy 安裝完之後，預設是「沒有模型」的狀態。

你會看到左下角顯示目前沒有可用模型，
這時候你就要先進去選、下載你要用的模型。

這一步沒做，
你按再多快捷鍵，它都不會轉字。

模型怎麼選？一句白話版本

模型這件事，其實不用想得太複雜。

你可以記住這個簡單公式：

模型越大 → 越準，但吃資源、速度可能慢一點
模型越小 → 越快，但準度相對沒那麼高

所以選模型，本質上是在三件事之間取平衡：

速度
準度
你的電腦硬體能不能負荷

常見的幾種選擇方向

如果你只是想「能用就好」，
官方提供的輕量模型，其實就很夠了。

檔案小
下載快
對硬體要求低

但如果你跟我一樣，
希望在準度跟速度之間找到一個甜蜜點，
那我會很直接推薦：Whisper Turbo。

我自己的硬體實測經驗（給你參考）

我用的是一台 Windows 筆電：

記憶體：32GB RAM
獨立顯卡：NVIDIA GeForce RTX 4050（6GB VRAM）

實際使用 Handy 的時候，我有特別觀察效能。
我發現一件滿有趣的事：

Handy 主要吃的是記憶體，而不是 GPU 或 CPU。

即使我有獨立顯卡，
在語音轉文字的過程中，GPU 的使用率其實不高。
反而是記憶體佔用比較明顯。

也因為這樣，只要你的 RAM 夠，
即使用比較大的模型，整體跑起來還是很順。

以我自己的體感來說，
用 Whisper Turbo 的情況下：

速度快
準度高
幾乎沒有卡頓感

所以我現在在電腦上，
幾乎都是用 Handy 直接取代原本的即時語音輸入工具。

▋實際操作：Ctrl + Space 這顆鍵，就是你的新鍵盤

Handy 真正讓我留下來的，不是設定多強，
而是用起來夠直覺。

你只要記住一個快捷鍵：
Ctrl + Space。

然後，你其實只有兩種用法可以選。

用法一：按住說話，放開就轉（適合短句）

如果你平常是這樣用語音輸入的：

回一句訊息
補一句說明
改一小段文字

那這個模式最順。

操作方式很簡單：

按住 Ctrl + Space
開始講話
放開按鍵
文字立刻出現在游標位置

整個節奏很像對講機。
講完就好，不用多想。

用法二：不按住，講一大段再結束（適合長段）

如果你想要一次講比較多，
例如：

一整段想法
一段草稿
一口氣把腦袋倒出來

那我會建議你把「按住說話」這個選項關掉。

這時候操作會變成：

按一次 Ctrl + Space → 開始錄
手可以放開，慢慢講
再按一次 Ctrl + Space → 結束錄音並轉文字

這個模式的好處是，
你不用一直按著鍵，講起來比較放鬆。

轉完的文字會跑去哪？

這個地方也很多人會問。

Handy 轉完之後，文字有兩種主要出現方式：

模擬輸入：
就像你自己在鍵盤上打字一樣，
文字會直接出現在目前游標的位置。
剪貼簿模式：
轉完先放在剪貼簿，
你再自己貼到想要的地方。

大多數情況下，我都是用預設值就好。
真的有特殊需求，再去調整就行。

▋介面設定拆解（第一次設定好，後面就很省事）

這一段比較偏教學。
但 Handy 的設定其實不複雜，
而且很多選項你只要看一次就懂。

我照實際使用順序，把重點拆給你。

【通用】日常最常碰到的設定

快捷鍵
預設是 Ctrl + Space。
如果跟你其他軟體衝突，可以自己改。
語言
預設是 Auto Detect。
如果你發現有時候會跑出簡體中文，
可以直接指定成 Traditional Chinese。
實測下來，就算你選繁中，
中英文夾雜講晶晶體（外商最愛用），它一樣辨識得出來。

音效回饋
勾選後，開始與結束錄音都會有提示音。
不用一直盯著畫面看，有沒有在錄。
輸出裝置 / 音量
主要是提示音要從哪個喇叭出來。
一般用預設就好。

【高級】一次設定好，就很少再動

隱藏啟動 / 開機啟動
勾選後，開機就自動在背景跑。
不會跳視窗，很安靜。
懸浮窗位置
可以選要不要顯示懸浮窗，
以及在畫面上方或下方。
貼上方式 / 剪貼簿處理
決定轉完文字是直接打出來，
還是先放剪貼簿。
不確定的話，用預設就好。
卸載模型
你可以選：
- 永不卸載
- 幾分鐘後卸載
- 重啟後卸載
如果你常用 Handy，
我會建議可以照預設「永不卸載」，省得一直重新載入。
自定義詞彙
如果你常遇到某些詞被聽錯，
可以手動加進來，以後就會自動修正。

【歷史記錄】全部都在你電腦裡

只要你有錄過：

錄音檔
轉出來的文字

都會留在本機的歷史記錄裡。

要留、要刪，完全你自己決定。
沒有雲端同步，也沒有外流風險。

【關於】這裡通常只會看一次

在這裡你可以看到：

目前版本
程式安裝位置
資料存放資料夾
原始碼連結（GitHub）
介面語言切換

如果你哪天想找檔案或確認版本，
記得來這裡就好。

▋「翻譯為英文」功能：哪些模型支援？怎麼開？

在 Handy 的設定裡，你可能會看到一個選項：「翻譯為英文（Translate to English）」。
這個功能乍看之下很吸引人，但實際上，不是每個模型都支援。

這邊我直接幫你把重點整理好，避免你自己踩雷。

哪些情況下，「翻譯為英文」才會真的生效？

根據官方 GitHub 說明，加上我自己的實際測試，可以用一句白話來記：

不是所有模型都能翻譯，尤其是偏即時、高速的模型。

以大家最常用、也最熱門的 Whisper Turbo 來說，
它的定位就是「快、即時、低延遲」，
本身並不支援翻譯功能。

也就是說：

你勾了「翻譯為英文」
但如果你用的是 Whisper Turbo
👉 它只會幫你轉文字，不會幫你翻成英文

這不是設定錯誤，是模型本身的限制。

那哪些模型有機會支援？

一般來說，標準 Whisper 系列模型（例如非 Turbo 的版本），
比較有機會支援「Translate to English」這種功能。

但相對的，你也要有心理準備：

模型比較大
吃資源比較多
延遲會比即時輸入稍高

所以這是一個很典型的取捨問題。

什麼情境真的用得到翻譯功能？

我會很老實說。
大多數即時語音輸入的場景，其實用不到翻譯。

但如果你是這種需求，就可以考慮：

你用中文講
希望輸出直接是英文草稿
例如回英文 mail、寫英文段落、做簡單口譯輔助

那你就可以：

換成支援翻譯的模型
勾選「翻譯為英文」
接受速度稍慢一點

而如果你跟我一樣，
主要追求的是「快、順、即時輸入」，
那老實說，用 Whisper Turbo、不開翻譯功能，反而是最實際的選擇。

▋我覺得 Handy 唯一的小缺點：標點真的比較吃「停頓」

講完優點，還是要講實話。

Handy 到目前為止，
我自己用下來覺得唯一比較需要適應的地方，
就是標點符號。

白話版說法就是這樣

如果你講話一路連著講、幾乎不停，
它有時候不太會幫你補出完整的標點。

結果就會變成：

文字是對的
但一整段看起來有點長、有點黏

這在你一次講很長一段時，會特別明顯。

解法其實也不複雜

我自己後來是這樣調整：

句子中間刻意停一下
不用很久，大概半秒就好
長段拆小段
一段講完就收一次，再繼續下一段

這樣轉出來的文字，
標點會自然很多，後面也比較好整理。

這算不算缺點？

老實說，我不會把它當成硬傷。

因為 Handy 主打的是：
離線、即時、穩定輸入。

而標點這件事，本來就跟模型、版本更新很有關係。
隨著後續版本調整，這個地方其實很有機會再變好。

所以我現在的心態是：
知道它的個性，配合它用，就好。

▋我現在的分工建議：Handy × Wispr Flow × NotebookLM × Faster Whisper 怎麼搭

小朋友才做選擇，工具不用選邊站。
選對情境，用對工具，才是真的省力。

我現在自己的實際工作流，其實很簡單，
你可以把它想成一張「選擇題」。

情境一：要跨裝置同步，手機、電腦都要用

👉 Wispr Flow

手機也能講
電腦也能接著語庫用
雲端同步設定很方便

如果你常常在外面，用手機講一句、回到電腦也想寫，
那 Wispr Flow 依然是很好的選擇。

情境二：電腦離線、重視隱私、一次講一大段

👉 Handy

不用網路
不用上傳
講完就出字

寫草稿、整理想法、處理內部內容，
或是你單純不想被網路品質綁架的時候，
Handy 就是我現在的主力。

情境三：錄音檔、研討會、長時間會議逐字稿

👉 NotebookLM

音檔丟進去
很快抓重點
適合「事後整理」

我會把 Handy 跟 Wispr Flow 當成「即時輸入工具」，
NotebookLM 則是「事後整理工具」。
角色不同，完全不衝突。

如果你問我：
要不要全部只選一套？

我的答案很直接：
不用。
現在的工具，搭配用，反而更順。

情境四：錄音時間很長、檔案很大，或完全不想碰雲端

👉 Faster-Whisper（本地批次轉錄）

還有一種情境，其實跟前面三個都不太一樣。

例如：

錄音時間 超過一個半小時以上
單一音檔 大於 200MB
內容偏向內部資料、研究討論，不希望上傳任何雲端服務，且超過 NotebookLM 處理上限

這種時候，我就不會用即時語音輸入工具了。
因為它們本來就不是為「超長音檔、一次性大量轉錄」設計的。

這時我會改用 Faster-Whisper，直接在本機跑。

它的定位很清楚：

不求即時
專心把「又長又大的音檔」穩定轉完
全程本地處理，完全不碰雲端

對我來說，Faster-Whisper 比較像是一台「重型機具」。
你不會每天開它，但只要遇到大檔案、長時間錄音，
它就是最安全、也最不容易出問題的選擇。

▋結語：別再硬敲鍵盤了，讓嘴巴替你打字

如果你看到這裡，其實已經很清楚了。

在 AI 的時代，
慢慢敲鍵盤，不是勤奮，
很多時候只是沒換工具。

我的建議只有兩步：

先把 Handy 裝起來，選好一個適合你電腦的模型
明天開始，用它寫第一段訊息、第一封 email、或第一段筆記

不用一次改變全部習慣。
你只要先讓「嘴巴幫你打一小段字」，
就會知道這件事有多省力。

最後，用一句我很喜歡、也很適合這篇文章的話作結：

「不是你不夠努力，而是你用錯了方法。」

鍵盤不會消失。
但從今天開始，
你可以讓它少忙一點。