GPT-5 進階語音模式全面升級!從「用量解禁」到學習新玩法
導讀
AI 語音助理又進化了!這次 GPT-5 把 advanced voice mode 從「好玩」的聊天功能,升級成「能長時間使用、可深度客製」的工作級工具。如果說過去大家還把它當作娛樂體驗,那麼這次更新,已經足以讓它進入日常工作、學習、甚至專業場景。
重點三行看完:
使用時間解放:免費用戶也能穩定聊上至少一小時,付費用戶幾乎無上限,不再被二三十分鐘的限制綁住。
互動體驗進化:語速快慢調整、單字答覆、搭配 Study & Learn Mode 學習引導,更自然、更聽話。
平台比較:桌面版目前仍沒有螢幕/視訊共享,但其餘功能已經追平甚至超車同類產品。
時間軸回顧:從 2024/09/24 首發 → 2024/12/13 更新
如果要理解 GPT-5 這次的進階語音模式有多突破,就得先回頭看看它的前身。還記得 2024 年 OpenAI 首次公開 advanced voice mode 的時候,幾乎是科技圈的頭條。那時候大家的第一印象就是——「哇,AI 終於會像真人一樣講話了!」
當時的主打優點有兩個:
視訊鏡頭 + 螢幕分享:這功能一推出就讓人驚呼,因為不只是語音互動,而是 AI 能「看」到你鏡頭裡的畫面,或共用你的螢幕來協助分析。最初主要支援在行動裝置上使用,之後也延伸到 macOS 的桌面 App。
多種聲音可選:一口氣提供 9 種不同聲線,而且自然度非常高,有的沉穩、有的年輕活潑,甚至能帶點不同口音,讓人挑一個聽得順耳的 AI 聲音來陪聊。這點直接把傳統助理(像 Siri、Google Assistant)的機械感遠遠甩在後面。
但缺點同樣明顯:
使用時間嚴重受限:就算是 ChatGPT Plus 的付費用戶,每天也僅有 20–30 分鐘的語音額度。對於想要長時間練習語言、做深度討論的用戶來說,常常聊到正精彩就被「卡斷」,讓人又愛又恨。
所以可以說,從 2024 年底開始,ChatGPT 的進階語音模式雖然在互動感和技術上領先市場,但在實際應用上,卻因為「時間限制」始終無法真正走進用戶的工作和生活。
參考前作與脈絡銜接:Copilot 的優勢與常見應用
在 GPT-5 登場之前,我其實已經寫過兩篇跟 微軟 Copilot 語音功能 有關的文章:
這兩篇文章的核心觀點很一致,就是 Copilot 最大的優勢在於「沒有時間限制」。不論你是用免費版還是桌面版,一開啟就能盡情暢聊,不必擔心「用到一半突然被打斷」這種掃興的狀況。再加上 Copilot 日前就已經在桌面版整合了 Vision 共覽畫面的功能,能直接在口說聊天對話過程同步解讀文件、PDF 或網頁內容,對於日常工作流程來說相當方便。
相比之下,當時的 ChatGPT advanced voice 雖然技術力強、互動自然,但受限於每日 20–30 分鐘的使用上限,加上桌面端缺乏螢幕分享,讓 Copilot 在「隨開即用、日常工作實用性」這一點上,暫時拔得頭籌。
那麼語音模式到底能派上什麼用場?
從我自己一路的測試經驗來看,下面這些都是進階語音功能常見的應用:
語言學習 / 口說練習:AI 變身「免費外語家教」,隨時陪你練口說。
模擬面試:設定角色扮演,讓它扮演面試官進行 Q&A。
文件討論:針對特定文件內容進行對話討論腦力激盪,事後輸出成筆記。
情緒陪聊:下班後單純想找人講話,AI 也能成為低成本的「減壓出口」。
所以在 GPT-5 出場前,對於進階語音功能我的一句話感想大概就是:Copilot 在使用門檻和實用性上佔優,ChatGPT 在技術細膩度和互動感上領先。也因此,這次 GPT-5 在語音功能上的更新,才會這麼讓人期待——因為它正好要解決大家心中最大的痛點。
GPT-5 登場:新版 advanced voice mode 的亮點
終於來到最令人期待的重頭戲。2025 年 8 月 8 日,OpenAI 在 GPT-5 發表會上正式揭曉新版 advanced voice mode。老實說,雖然外界焦點多半放在「推理能力大幅提升」、「自動模式切換」這些 headline,但我自己最關注、也是目前較少寫手提到的,反而是這次進階語音模式的全面升級。
1. 使用限制大幅放寬
這絕對會是最受用戶歡迎的更新之一。過去大家最頭痛的,就是即便 Plus 付費用戶每天也只有二、三十分鐘的語音額度。結果聊到正精彩就被強制打斷,超級掃興。
免費用戶:現在也能使用至少一小時以上的語音聊天,不再只是「淺嚐即止」。
付費用戶:更是幾乎無上限,想聊多久就聊多久,總算可以放心把它納入日常工作或學習流程。筆者實際使用上目前為止都還沒有遇到過任何限制。
2. Custom GPT × Voice
另一個關鍵升級是「語音 x 自訂 GPT」的深度結合。現在 Plus 用戶不只可以建立專屬的 custom GPT,還能為它量身打造專屬語音風格,並且語音互動會緊貼你的指令。意思是什麼?意思是如果你想要一個「專業口吻的顧問」、或一個「活潑的語言教練」,它都能用語音忠實呈現,不再只有統一化的回應模式。換句話說,只要藉由適當的系統指令(system prompt)搭配背景參考資料上傳提供,其實可以用GPTs直接輕鬆打造一個可以語音互動的客服。
3. Study & Learn Mode 結合語音
這裡要特別強調,Study & Learn Mode 並不是 GPT-5 新增的功能,而是日前就上線的學習模式。但在GPT-5新版裡,它和語音結合得更緊密了。這代表你可以在語音對話中進行「逐步引導式學習」,AI 會像家教一樣帶著你釐清概念、引導練習。例如發表會上示範的學韓文案例,就能看到它怎麼陪使用者從「超慢語速」→「正常語速」→「比韓國人還快的語速」一層一層練上去。
4. 互動細節升級
除了大功能,這次的語音體驗在細節上也做了不少讓人驚喜的小優化:
可以要求它只用「一句話或單字」來回答,超適合用來做快速問答或抽背練習。
語速自由切換,從「比幼兒園老師還慢」到「像高速機關槍一樣快」,全都能滿足。
支援跨語情境練習,例如一邊講英文、一邊學韓文,甚至角色扮演對練,臨場感大幅提升。
韓文點咖啡的實際示範
發表會上最精彩的 demo,我覺得就是「韓文點咖啡」。講者先用初學者模式,請 GPT-5 把句子放慢,一個字一個字帶著唸。接著切換到進階模式,請它用「比母語者還快」的速度講出來,再進一步和使用者對練,還能即時糾錯。這不只是單純的語音互動,而是 AI 真的能變成「耐心又高效率的語言陪練夥伴」。
一句話總結
新版 GPT-5 advanced voice mode 就是:更自然、更聽話、能長聊、會教學,還能完全貼合你的工作流。過去我們常把語音模式當作娛樂體驗,現在它真的已經進化成一個可以陪伴你學習、工作、甚至提升效率的日常工具。
新版啟用教學:電腦版與行動版介面導覽
講完功能亮點,接下來很多朋友一定會問:「那我該怎麼啟用新版的進階語音模式?」這裡我就整理我自己實測的流程,分成 桌面版 與 行動版,搭配實際截圖,相信會更清楚。
桌面版(Web/桌面 App)
打開 ChatGPT 對話視窗,右下角會看到一個「語音」icon。點下去就能進入語音模式。
如果你是第一次使用,系統會跳出一個新版通知提醒,告訴你舊版語音將於 2025/09/09 正式退役。
進入語音對話畫面後,你會看到畫面上方出現一個「藍色圓球」,代表語音連線中;下方則有 麥克風啟動/停止 的按鈕。
右上角的工具選單則可以切換 9 種不同的聲音,不論你想要穩重專業、還是輕快活潑的聲線,都能找到喜歡的。
語音互動過程中,隨時可以打斷它,不需要等 AI 講完,這點和真人對話的自然感非常接近。(編按:和真人對話一直打斷其實很沒禮貌,大家還是要忍住啊......)
當你結束語音對話後,畫面會顯示完整的逐字稿,還能選擇「重播」GPT的語音或「分享」這段對話的文字內容,方便做紀錄或二次使用。
行動版(iOS/Android App)
同樣是在對話視窗裡,點擊右下角的「語音」icon 進入。
進到語音畫面後,你會看到熟悉的「藍色圓球」在上方,代表語音進行中;下方除了 麥克風啟動/停止,還額外多了三個功能:
視訊鏡頭:可以直接讓 AI 看你鏡頭拍到的內容。
拍照/上傳照片:支援即拍即傳或從相簿選取。
分享螢幕:讓 AI 即時看到你手機畫面的操作內容。
右上角的工具選單同樣能切換 9 種聲音。
在語音對話進行中,你可以利用右上角的「分享」功能,把實際對話語音片段 裁切後輸出,例如只保留某段語音教學,然後分享給朋友或同事。
停止語音後,會顯示完整的文字逐字稿,同樣支援重播與分享功能。
小提醒:要使用「分享螢幕」這個功能,記得先到ChatGPT設定選單裡把 「背景對話」 功能打開,否則螢幕共用無法正常運作。
現況評析:與 Copilot 的最新關係圖
這次 GPT-5 在進階語音模式上的更新,最關鍵的就是「解除時間限制」。也正因如此,ChatGPT 的語音體驗幾乎在一瞬間追平甚至超車了 Copilot。
GPT-5 的新優勢
語音自然度:對話流暢度和真實感,比以往更貼近真人,幾乎沒有機械感。
學習模式:搭配 Study & Learn Mode,不只是單純問答,而是可以帶著你逐步理解、練習,真的像一個語言或學科的家教。
客製化:Custom GPT 可以搭配語音設定,不只是腦袋客製,聲音和互動風格也能跟著你的需求調整。
分享能力:行動端支援對話片段裁切、輸出分享,甚至可以重播或二次利用,讓語音對話不只是當下體驗,而是能留下實際產出。
仍待觀察的地方
桌面版功能不完整:目前 GPT-5 在桌面端(Web/桌面 App)仍未開放「螢幕/視訊共享」,這點和行動端的完整功能相比,算是小小的缺口。未來如果這個限制解除,整體體驗將會更完整。(指日可待)
Copilot 依舊的強項
當然,這並不代表 Copilot 就被徹底取代。它依舊有幾個亮點:
桌面/網頁的視覺共覽:能直接幫你分析文件、PDF、網頁,做即時的摘要與翻譯,這是 ChatGPT 在桌面端目前還做不到的。
免費無上限:不論是語音還是 Vision,Copilot 都是直接全面開放,對於預算有限的用戶相當友善。
使用建議
長時語音練習、學習引導、需要自訂 GPT 流程的使用者 → 選 GPT-5 advanced voice。
需要桌面/網頁直接「即看即解」文件、網站、PDF 或 Office 資料的使用者 → Copilot Vision 還是最方便的選擇。
簡單來說,這兩者已經不再是「誰取代誰」,而是「各有專精」的狀態。對使用者來說,反而是更好的局面,因為我們可以依照需求來靈活搭配。
實戰建議:工作與生活的落地用法清單
講了這麼多功能,重點還是——到底能怎麼用在我們的日常?以下我整理了幾個最實際的落地場景,讀者可以對照自己的需求直接帶回去用:
學習與語言練習
Study & Learn Mode 搭配語速調整,真的很適合語言學習。舉例來說,你可以先要求 AI「超慢速」念一段韓文或英文,再切到「母語極速模式」挑戰聽力。更酷的是,它還能即時糾正發音,幾乎就是一位永遠在線、不嫌你問太多的口說教練。會議/簡報神器
想像一下,你先用語音把腦中的簡報重點或會議草稿講出來 → AI 即時幫你整理成摘要 → 匯出逐字稿當筆記 → 再丟回來請它幫忙潤飾成正式稿件。從口語到書面,整個流程完全自動化,效率大幅提升。客製助理,打造專屬工作流
如果你常常需要跑固定 SOP、使用模板或保持一致的品牌 Tone,現在透過自訂 GPT 搭配語音,就能養成一個「專屬你的助理」。你只要開口,它就能立刻用符合你公司風格的方式回應。行動助理,隨手拍隨手解
在手機端直接拍照、開相機,甚至是分享螢幕,都能即時獲得解答。不管是出門旅行看不懂的菜單,還是工作上文件格式跑掉的 Bug,直接給 AI 看畫面,省去長篇大論的描述。內容創作利器
有靈感時馬上用語音丟給 AI,它幫你做 Brainstorm,再往下發展成大綱、逐字稿,甚至一路到完整文章。最棒的是,整個過程中你還可以即時插話修正,變成一場互動式的創作工作坊。
簡單來說,GPT-5 的進階語音模式,已經不再只是「能聊聊天」,而是可以完整串接到學習、工作、創作的全流程。
結語與呼籲
這一年多來,AI 語音模式的戰場幾乎是你追我趕。從 OpenAI 到微軟,當然還有其他整合到手機介面的 Gemini、Perplexity 以及百無禁忌的 Grrok......,語音功能一個接一個釋出,額度也越來越寬鬆,對我們使用者來說,無疑是最大的受惠者。
說到底,沒有絕對的「誰贏誰輸」,只有「什麼情境用哪個工具更適合」。以OpenAI和微軟兩大陣營來說,現在 ChatGPT 進階語音在行動端幾乎無敵(長聊、學習、客製化、分享全到位),但在桌面端若要即時共覽畫面、解析文件,Copilot Vision 還是暫時領先。
所以與其爭論哪家最好,不如回到自己的需求:你需要什麼,就選什麼。
最後,給正在讀這篇文章的你一個小提醒——別只看熱鬧,今天就動手開啟語音模式,親自試一試,才會真正體會到 AI 工具的威力。
「工具是死的,應用才是活的。」
勇於擁抱新工具,才有機會把它化為你職場與生活中的利器。
留言
張貼留言