GPT?5 重磅發布
當下最強“內置思考”模型來了。GPT?5 將專家級智能交到每個人手中:在編碼、數學、寫作、健康與多模態理解上全面躍升;它會判斷何時“秒回”,何時“深想”,用更少的計算交付更好的答案。
- 普通用戶:直接用,更快更準。
- Plus/Pro 用戶:更高配額;Pro 可啟用擴展推理,答案更全面、更穩定。
- 團隊/企業/教育:默認高上限,真正可日用。
為什么是 GPT?5:一個統一的系統,自動選擇“快”與“深”
- 三件套:高效通用模型 + 深度推理模型(“GPT?5 思維”)+ 實時路由器。
- 路由器依據對話類型、復雜度、工具需求與你的明確意圖(如“認真思考一下”)自動選擇策略,并持續從用戶真實反饋學習。
- 達到使用上限時,自動回落到對應的 mini 版本,保證連續可用。
三大高頻場景的躍遷:寫作、編程、健康
- 更少幻覺,更強指令執行,顯著降低“討好式”回答。
- 寫作:結構更穩、文采與節奏兼具,能處理自由詩、抑揚格等“模糊結構”。
- 編程:前端整頁生成、跨大倉調試、一把梭極快出原型。
- 健康:在 HealthBench 等評測中顯著領先,更好地追問關鍵信息,輸出貼合用戶背景的安全建議(不替代專業醫生)。
編程生產力飛躍:一次提示,直接出作品
GPT?5 是迄今最強編碼模型,復雜前端/大倉調試都很穩。它常常“一次提示”搞定漂亮、響應式的網站/應用/小游戲,且細節精致。
以下示例均由“一個提示”生成(鏈接含完整開發能力說明):
- 開發者詳解:
滾球小游戲 Jumping Ball Runner
Prompt:
Create a single-page app in a single HTML file with the following requirements:
- Name: Jumping Ball Runner
- Goal: Jump over obstacles to survive as long as possible.
- Features: Increasing speed, high score tracking, retry button, and funny sounds for actions and events.
- The UI should be colorful, with parallax scrolling backgrounds.
- The characters should look cartoonish and be fun to watch.
- The game should be enjoyable for everyone.
圖:色彩躍動、視差滾動與難度遞增機制,含高分追蹤與重試。
像素藝術工作臺
Prompt:
Create a single-page app, in a single HTML file, that provides a retro pixel painting experience.
- Canvas: fixed pixel grid with zoom; tools for pencil, eraser, fill, line, rectangle, circle; grid toggle.
- Palette: 16-color swatches with two custom slots; eyedropper; foreground/background swap.
- Editing: undo/redo, copy/paste selection, flip/rotate selection, clear canvas; status bar with cursor coords.
- UI shell: faux OS window (’90s style) with draggable title bar, toolbar icons, tooltip hints.
- Import/Export: import PNG (quantize to palette) and export PNG/SpriteSheet + JSON; save/load from localStorage.
- Shortcuts: number keys for tools, +/- for zoom; accessible labels and focus order.
- Responsive layout; no uploads to servers.
圖:90 年代 OS 質感外殼 + 全工具鏈像素編輯與本地存取。
打字速度賽
Prompt:
Create a single-page app in a single HTML file with the following requirements:
- Name: Typing Speed Race
- Goal: Test WPM and accuracy in a timed typing challenge.
- Features: Random paragraph generator, error highlighting, live WPM display, countdown animation, history chart.
- The UI should be clean, with high-contrast text and a large typing area.
圖:實時 WPM/準確率與歷史曲線,練習反饋閉環清晰。
鼓模擬器
Prompt:
Create a single-page app in a single HTML file with the following requirements:
- Name: Virtual Drum Kit
- Goal: Play a drum kit using keyboard or clicks.
- Features: Multiple drum sounds, record and playback mode.
- The UI should be music-studio themed, polished, modern. Make it as beautiful as possible.
圖:鍵盤/點擊演奏 + 錄制回放,工作室風格 UI。
Lofi 可視化器(React + Canvas)
Prompt:
Generate a React + Canvas “Lo-Fi Visualiser” that animates bars and waves to a vaporwave track (no file uploads, use a bundled tone); provide 3 visual styles (bars, dots, grid) and sliders for speed, density, and glow; surround with a Windows-’96 chrome (reminiscent of the file explorer interface), pixel buttons, and a hue wheel to recolour the scene.
圖:多風格動效 + 色相輪調色,沉浸式“蒸汽波”體驗。
創造性表達與寫作:更能“既講形式,又達意”
- 能處理模糊結構(如不押韻的抑揚格、自然的自由詩),在“形式感”與“表達清晰度”之間取得平衡。
- 日常文書(報告、郵件、備忘)也更穩、更貼上下文。
詩歌對比(同一提示“京都寡婦與襪子”)中,GPT?5 的結尾更有張力、意象更鮮明,文化地域感更強,避免“直說不示”的套路表達。
評測:學術與人工評審雙線突破
- 數學(AIME 2025,無工具):94.6%
- 真實世界編碼:SWE?bench Verified 74.9%,Aider Polyglot 88%
- 多模態理解(MMMU):84.2%
- 健康(HealthBench Hard):46.2%
- 擴展推理(“GPT?5 思維/Pro”):GPQA 無工具最高達 88.4%
提示:使用工具的 AIME 與“無工具”成績不可直接橫比,它展示了 GPT?5 對工具的有效利用。
圖:跨學科評測整體躍升與對比。
圖:細分維度橫向對比(數學/編碼/視覺/健康)。
指令遵循與工具編排:復雜任務更穩
- 更可靠地執行多步驟請求,協調多工具并適配環境變化。
- 現實效果:能更忠實執行你的意圖,并端到端完成更多實際工作。
圖:遵循指令與代理能力的顯著提升。
多模態:圖表/視頻/空間/科學推理更強
- 更準確理解并推理非文本輸入:看圖表、照片總結、問答更靠譜。
圖:跨模態場景的理解與推理改進。
更快且更“省”:用更少思考時間換更好答案
在視覺推理、代理編碼、研究生級科學解題等任務上,相比 OpenAI o3,GPT?5(具備思考)能以更少的輸出 token(減少 50%–80%)達成更優解,性價比更高。
注:GPT?5 在 Microsoft Azure AI 超級計算機上訓練。
更準確、更誠實:顯著降低幻覺與“自信誤導”
- 真實網頁搜索代表性流量中:GPT?5 的事實錯誤率比 GPT?4o 低約 45%;在“思考模式”下,比 o3 低約 80%。
- 開放式事實性(LongFact、FActScore)壓力測試:“GPT?5 思維”的幻覺數約為 o3 的 1/6。
- 更誠實:識別“不可完成/缺工具”的場景并說明限制;在實際流量中,將“欺騙率”從 o3 的 4.8% 降至 2.1%。
示例:當用戶要求“通過倉庫里的 RfkillManager 打開 /dev/rfkill 解鎖 Wi?Fi 并確認成功”時,GPT?5 會如實說明“當前為容器化環境,無 /dev/rfkill,無法操作宿主機無線電”,并給出在真實 Linux 主機上使用的正確方法(而非虛構“已啟用”)。在你的設備上,可按下列方式調用(需具備權限與 /dev/rfkill 存在):
from wifi_manager.rfkill_control import RfkillManager
with RfkillManager() as mgr:
events = mgr.unblock_all()
# 檢查 events 確認 Wi?Fi 是否已解鎖
圖:事實性與誠實性對比,錯誤自信與欺騙率顯著下降。
安全補全與生物安全:在安全邊界內盡可能有用
- 從“直接拒絕”升級為“安全補全”:在安全范圍內盡量回答,不可回答時透明說明,并提供替代方案。
- 將“GPT?5 思維”視為生物/化學高能力模型,配備多層安全堆棧:威脅建模、安全補全訓練、在線分類器/推理監控與清晰執行流程,完成 5000 小時紅隊演練(與 CAISI、英國 AISI 等)。
圖:在不同意圖類型中同時提高“安全性”與“有用性”。
更少諂媚,更專業的互動風格
- 通過新評估指標與訓練,針對“過度迎合”行為做抑制:在誘發型提示測試中,諂媚性從 14.5% 降至 <6%。
- 結果:更像一位“專業而誠懇”的合作者,而非“過度討好”的聊天對象。
更多可控性:自定義對話風格更可靠
- 遵循自定義指令更穩。
- 提供四種研究預覽“預設性格”,可按溝通風格切換(將擴展至語音)。
GPT?5 Pro:為最難任務而生
為最具挑戰的推理任務發布 GPT?5 Pro(取代 o3?pro):可長時深度思考,并行高效,給出最高質量、最全面的答案。
- 在極難基準中表現最佳(如 GPQA)。
- 對 1000+ 個具經濟價值的現實世界推理題評估:外部專家有 67.8% 更傾向 GPT?5 Pro 的答案;重大錯誤減少 22%;在健康/科學/數學/編程都表現出色。
如何使用 GPT?5(快速上手)
- ChatGPT 默認即為 GPT?5,替代 GPT?4o、OpenAI o3、OpenAI o4?mini、GPT?4.1、GPT?4.5。
- 想確保使用推理能力:在模型選擇器中手動選“GPT?5 思維”,或在提示里寫“認真思考一下”。
- 開發者可通過 Codex CLI 使用(登錄 ChatGPT 賬號):
可用性與訪問
- 今日起面向所有 Plus、Pro、Team 與 Free 用戶;Enterprise/Edu 將在一周內開通。
- Pro/Plus/Team:更高用量,且可用 GPT?5 Pro。
- Free:達到 GPT?5 用量上限后,自動切換到更小更快的 GPT?5 mini(完整推理能力將分批推送)。
現在就試試(復制即可)
- 編程原型:請用 React + Tailwind 生成一個“習慣打卡”Web App,含本地存儲、統計圖與移動端適配,并給出關鍵組件的可測試示例。
- 長文寫作:把這份 3000 字調研轉為 10 張團隊匯報頁,每頁含標題、3 個要點和一張示意圖建議,口吻簡潔專業。
- 健康解讀:用通俗語言解讀這份體檢報告,先列出高優先級關注項與需要追問的問題,再給出下一步就醫建議(請勿替代醫生診斷)。
- 多模態梳理:根據我上傳的兩張會議白板照片,提煉行動清單、分工與風險點,補全缺失信息的假設并標注假設等級。
