發表文章

目前顯示的是 6月, 2026的文章

WritingTools:選取文字後一鍵改寫、摘要、翻譯與提問的全系統 AI 工具

圖片
前一篇我介紹了 ChatGPTBox 這款瀏覽器外掛。 它解決的是一個很常見的閱讀情境: 我們在瀏覽器看網頁、查資料、讀技術文件、看 GitHub 專案時,很多時候只是想針對一個名詞、一段文字、一小段程式碼,快速問一下 AI。 以前最直覺的做法,是複製起來貼到 Google 或 Bing 查。 這幾年有了 AI 以後,很多人開始習慣改成貼到 ChatGPT、Gemini、Claude 或其他 LLM(大型語言模型)問。 這樣當然可以,只是有點麻煩。 尤其是那種很小的問題。 例如查一個名詞、翻譯一句話、摘要一小段內容,或是請 AI 解釋某段程式碼。為了這種小任務,還要切換分頁、貼上文字、送出問題,最後又留下一堆零散對話紀錄,其實有點不划算。 所以 ChatGPTBox 的好處,就是把 AI 問答放進瀏覽器裡。 你在網頁上選取文字,就可以直接解釋、翻譯、摘要或追問。 但它還是有一個限制。 它主要用在瀏覽器。 如果今天文字不在瀏覽器裡,而是在 Word、PDF、Notion、Obsidian、Email、LINE、Slack、Teams、程式碼編輯器,或其他桌面軟體裡,那就又回到複製貼上的流程。 前一篇文章後段我有提到一個替代方法。 可以開一個瀏覽器裡的線上白板或純文字輸入頁面,把其他地方的文字貼進去,再用 ChatGPTBox 處理。 這招可行,但講白話就是多繞了一步。 所以我後來就想,有沒有一種更乾淨的方式? 最好是只要在電腦任何地方選取文字,就可以直接呼叫 AI。 這次要介紹的 WritingTools ,就是很接近這個需求的一款工具。 WritingTools 是什麼? WritingTools 是一款免費開源工具。 它的概念是把類似 Apple Intelligence Writing Tools 的體驗,帶到 Windows、Linux 和 macOS 上。 官方 GitHub 的說法是,它可以在全系統範圍內使用。也就是說,你不一定要在瀏覽器裡,只要能選取文字,就可以透過快捷鍵呼叫 WritingTools,讓 AI 幫你處理。 它可以做的事情包括: Proofread:校對文法與拼字 Rewrite:改寫文字 Friendly:改成比較友善的語氣 Professional:改成比較正式專業的語氣 C...

ChatGPTBox:在瀏覽器選取文字後,直接用 AI 快問快答、翻譯與摘要

圖片
我們現在接收新資訊,很大一部分都在瀏覽器裡面完成。 看新聞、查技術文件、讀國外文章、看 GitHub 專案、查產品說明,很多時候我們不是要做很完整的研究,只是想快速搞懂某個名詞是什麼、某段話在講什麼,或是把一小段文字翻譯、摘要一下。 早些年遇到不懂的名詞或概念,我們大多會把關鍵字複製起來,貼到 Google、Bing 這類搜尋引擎查詢。這種做法到現在還是很有用,尤其是要找來源、找資料、查官方文件的時候。 只是這幾年有了 AI 以後,很多人開始習慣直接問 AI。最直覺的做法,就是把文字複製起來,打開 ChatGPT、Gemini、Claude 或其他 LLM(大型語言模型)的 WebUI,貼上去問。 這樣當然可以,但操作上有一點麻煩。 如果只是查一個名詞、翻譯一句話、摘要一小段內容,每次都要切換分頁、複製、貼上、送出,最後還留下一堆零碎的對話紀錄。久了以後,自己的 AI 對話列表也會變得很亂。 進階一點的用法,是打開瀏覽器側邊欄,例如 Chrome 的 Gemini、Edge 的 Copilot,或其他第三方 AI 側邊欄外掛。這類工具已經比純手動複製貼上方便很多,但在一些很小的任務上,仍然有點偏重。 所以我後來就會想,有沒有一種方式可以更像翻譯外掛? 就像沉浸式翻譯、Google 翻譯、DeepL 翻譯那樣,我在網頁上直接選取一段文字,就能在同一個畫面快速取得解釋、翻譯、摘要,必要時再追問一下。 這次要介紹的 ChatGPTBox ,就是很接近這個需求的一款瀏覽器外掛。 ChatGPTBox 是什麼? ChatGPTBox 是一款瀏覽器擴充功能。 它的名字叫 ChatGPTBox,但實際上不只限於 ChatGPT。它可以搭配不同的 AI 使用方式,也支援自訂 API address。換句話說,你可以使用網頁版 LLM 模型,也可以依照自己的需求串接 OpenAI-compatible API 模型。 它的重點很簡單:把 AI 問答放進瀏覽器的使用情境裡。 你在網頁上看到一段不懂的文字,可以直接選取起來,用浮動工具或右鍵選單請 AI 解釋。你看到一段外文,可以請它翻譯。你看到一大段內容,可以請它摘要。你如果想針對這段文字繼續問,也可以直接追問。 這個使用情境很適合處理那些「小而頻繁」的問題。 而且很多問題其實是「用過即丟」的臨時對話。問...

OpenLess Unbound 實測:Typeless 免費開源替代方案,補上繁中本地化與 Provider 自由度

圖片
前一篇文章我才剛分享過 Codex 全域語音輸入實測 。那篇文章的重點其實很簡單:語音輸入工具要真的好用,除了模型聽不聽得懂,還要看它能不能出現在我真正需要打字的地方。 因為我平常不會只在 ChatGPT 網頁裡講話。我可能在寫部落格、回訊息、整理筆記、填表單、寫 GitHub issue,甚至是在跟不同 AI 工具互動。這時候,如果語音輸入只能卡在某一個平台裡,其實就很可惜。 過去我也陸續實測過 Wispr Flow、Typeless、Handy、Vibing 這些工具。老實說,如果只看整體功能完整度、回應速度、輸出品質和使用體驗,目前我覺得商用工具裡面最成熟的仍然是 Typeless。 Typeless 讓我最有感的地方,是它已經超過「語音轉文字」的範圍。它比較像是一個語音寫作工作站。你可以講一段比較口語的內容,讓它幫你整理成比較像人會貼出去的文字。它也有語音編輯、即時翻譯、即時搜尋和更完整的工作流。 不過 Typeless 畢竟是商用軟體。它很好用,但不是每個人都想訂閱,也不是每個人都想被綁在同一個平台或額度裡。 所以我後來一直在找一個問題的答案: 有沒有一套免費、開源,而且使用體驗能接近 Typeless 的替代方案? 目前我實測下來, OpenLess 是我看到最接近這個方向的專案。而這次我花了一段時間研究原始碼、測試、修改、打包並公開的 OpenLess Unbound ,就是基於 OpenLess 做的一個 fork,重點是修改了幾個我實際使用時想解放的限制。 OpenLess 為什麼值得注意? OpenLess 本身不是我從零開始寫的軟體。它是由原開發者維護的一套開源語音輸入工具。原版 OpenLess 已經把很多重要功能做出來了,這點我覺得非常值得肯定。 如果用白話講,OpenLess 的基本流程是這樣: 按快捷鍵開始錄音。 ASR 模型把語音轉成文字。 LLM 語言模型再幫你做文字後處理。 最後把整理好的文字插入到目前游標所在位置。 這個流程用講的聽起來都很簡單,但真正要做得順並不容易,背後需要很多程式腳本上的同步運作。 因為一般語音轉文字工具常常只給你一段原始逐字稿。問題是我們平常講話不會像寫文章一樣完整。我們會停頓、重複、改口、漏標點,講到一半又補一句。這些內容如果直接貼出去,常常還要自己再手動整理潤色一次...