北京時間8月8日,“跳票”多次的GPT-5終于“千呼萬喚始出來”,OpenAI首席執(zhí)行官山姆·奧特曼以一個77分鐘的發(fā)布視頻揭開了這個繼兩年前GPT-4發(fā)布震撼業(yè)界后,就被不斷寄予厚望的大模型。
新京報AI研究院第一時間對GPT-5進(jìn)行了實測,發(fā)現(xiàn)接入GPT-5的能力后,ChatGPT的對話界面更加簡潔,完全踐行了此前奧特曼曾表示的將多模態(tài)、深度思考、聯(lián)網(wǎng)搜索等集成化的思路,在對話中,該款大模型也確實可以做到依據(jù)問題,絲滑切換不同的回答方式,讓用戶的使用體驗“更上一層樓”。但對一些較為復(fù)雜問題的回復(fù),依然有錯誤出現(xiàn),總體來看其模型能力并未與市面上其他模型拉開顯著差距。
ChatGPT最新界面截圖
事實上,由于OpenAI在近幾年發(fā)布的GPT-4,甚至o1模型的表現(xiàn)都做到了大幅領(lǐng)先同行,GPT-5也被不少業(yè)界人士期待能夠再度復(fù)制此前的輝煌,甚至成為實現(xiàn)AGI(通用人工智能)的標(biāo)志。此次發(fā)布后,GPT-5的能力依然在各項跑分測試中做到了領(lǐng)先,但其所帶來的“驚艷程度”顯然不及GPT-4和o1。
在AI大模型行業(yè)“以月為單位”的迭代速度,以及國產(chǎn)優(yōu)秀AI大模型不斷涌現(xiàn)的背景下,山姆·奧特曼要想繼續(xù)譜寫OpenAI一枝獨秀的敘事,GPT-5現(xiàn)在的表現(xiàn)仍然不夠。不過這也不能否認(rèn)GPT-5在工程化和商業(yè)化層面的優(yōu)秀之處。下面,新京報AI研究院將主要結(jié)合GPT-5在創(chuàng)意寫作、編程這兩個奧特曼在發(fā)布會中特別強(qiáng)調(diào)的優(yōu)秀能力進(jìn)行實測,觀察其C端產(chǎn)品表現(xiàn)。
創(chuàng)意寫作:中文能力中規(guī)中矩,提示詞和跨界作圖切換“絲滑”
本次發(fā)布,GPT-5在關(guān)于編程、數(shù)學(xué)、長文本等多個維度的測評中奪得榜首,但在當(dāng)前此類榜單時刻“攻守易形”的前提下,新京報AI研究院更加關(guān)注其在實操中的表現(xiàn)。
對于具體的亮點能力,OpenAI官網(wǎng)特意放出了創(chuàng)意寫作、編程設(shè)計和藥物研究三個視頻切片。其中,創(chuàng)意寫作是普通人最容易理解的大模型能力。奧特曼也表示“GPT-5的寫作能力比GPT-4o要好得多?!贝送猓€表示,“GPT-5采用集成模型,這意味著不再需要模型切換器,它將自己決定何時需要深度思考,它非常智能、直觀且快速,適用于所有人,包括免費(fèi)用戶?!?/p>
對此,新京報AI研究院以最近網(wǎng)上討論較為熱烈的《明末:淵虛之羽》中涉及的歷史問題為背景,對GPT-5輸入提示詞“你是一個明末,1647年住在四川的農(nóng)民,請在這個歷史背景下,寫出這個農(nóng)民在一年里可能的遭遇,要求寫實?!?/p>
面對該提示詞,在不使用GPT-5模型時,ChatGPT主要描述了該農(nóng)民在“春夏秋冬”四季的遭遇,描寫了農(nóng)民身處亂世的情景。而GPT-5的回答則不止描述出了該農(nóng)民的名字、住址,還具體撰寫了他從1月到12月的生活情景,背景則包括了明軍、大西軍、清軍,這和當(dāng)時的歷史史實相符。
回答完畢后,GPT-5還提示是否“在這個基礎(chǔ)上幫你補(bǔ)充更多當(dāng)時四川的社會背景細(xì)節(jié),比如‘湖廣填四川’的人口損失數(shù)據(jù)、兵亂的路線、南明與清軍的攻防形勢,讓這個農(nóng)民的故事更真實可考。”當(dāng)我們選擇讓其繼續(xù)回答后,GPT-5生成了一份包含農(nóng)民故事與旁注史料的完整回答,其回復(fù)質(zhì)量顯然比前代模型提高了不少。
GPT-5的部分回答截圖
不過,當(dāng)我們以同樣的提示詞讓DeepSeek以及Kimi生成回答時,這兩個國產(chǎn)大模型也給出了不錯的回復(fù),其中DeepSeek的文采更好,Kimi則展示出了更多細(xì)節(jié),與ChatGPT使用GPT-5生成的回復(fù)相比,三者的差距并沒有特別明顯。
但ChatGPT在引導(dǎo)用戶繼續(xù)提問上更勝一籌,在兩次回答我們提出的問題后,ChatGPT表示,“我還可以幫你把這個農(nóng)民的一年經(jīng)歷,配上一張1647年四川兵亂形勢圖,標(biāo)出清軍、南明軍、白號軍(注:白號軍歷史上在清代咸豐及同治年間出現(xiàn),此處應(yīng)為大模型幻覺導(dǎo)致生成了錯誤內(nèi)容)的活動路線,這樣讀起來會更直觀。你要我?guī)湍惝嫵鰜韱??”這一回復(fù)顯示搭載GPT-5的ChatGPT不僅已經(jīng)做到了多模態(tài)能力在對話中的隨時調(diào)用,還能依據(jù)上下文主動提供這一能力,可以更大幅度地提升用戶體驗。
不過,GPT-5隨后生成出來的圖片較為粗陋且與圖片說明存在矛盾,并不能直觀表述“四川兵亂形勢圖”,顯示其能力依然有局限。
GPT-5生成的圖片,雖然文字回復(fù)優(yōu)秀但圖片與圖片說明文字存在矛盾
編程能力:速度提升明顯,錯誤依然存在
OpenAI在本次發(fā)布會中花費(fèi)最多時間介紹的能力是編程,整個圍繞AI編程的介紹幾乎占到了發(fā)布會時間的一半。AI編程也是當(dāng)前各個大模型在落地上最為成熟的能力,最受企業(yè)歡迎,商業(yè)化上也已經(jīng)走通。
在發(fā)布會的演示中,OpenAI展示了GPT-5的種種神奇能力,如使用SVG動圖解釋伯努利效應(yīng)、制作學(xué)習(xí)法語的web程序、制作老鼠吃奶酪的游戲等等。但相比發(fā)布會中的演示,現(xiàn)實情況如何呢?
對此,新京報AI研究院也進(jìn)行了實測。當(dāng)輸入“請你做一個學(xué)英語的web應(yīng)用程序,要生動有趣”時,GPT-5僅花費(fèi)了約10秒鐘就生成出了一個名為“趣味英語學(xué)習(xí)”的程序,當(dāng)輸入英文單詞,其會生成出關(guān)于該單詞的“一個趣味事實”,例如當(dāng)輸入“apple(蘋果)”,其回復(fù)該單詞來自古英語“?ppel”。
GPT-5生成的英語學(xué)習(xí)游戲
當(dāng)要求升級,輸入“以二戰(zhàn)主題制作一款華容道游戲”時,GPT-5的思考時間顯著變長,但最后還是生成了一款以“盟軍俘虜?shù)萝妼㈩I(lǐng)”為主題的華容道游戲,并以隆美爾代替了曹操的位置。
GPT-5生成的二戰(zhàn)背景華容道游戲
值得注意的是,雖然GPT-5的編程速度很快,生成的結(jié)果往往也可以實現(xiàn)初步交互,但一旦深入體驗其生成的程序,就會發(fā)現(xiàn)很多錯誤。如英語學(xué)習(xí)游戲雖然以極快速度生成,但其只能對較為簡單的單詞有反應(yīng),稍微復(fù)雜一點的單詞就會報錯。華容道游戲也是一樣,雖然可以通過點擊鼠標(biāo)移動方塊,但最為關(guān)鍵的“隆美爾”方塊出現(xiàn)了無法移動的BUG。
總體而言,新京報AI研究院發(fā)現(xiàn),GPT-5確實做到了奧特曼提及的“智能、直觀且快速”,在產(chǎn)品水平和用戶體驗上都有進(jìn)步,但其依然沒有擺脫大模型固有的幻覺問題,并且該問題在面對復(fù)雜問題時更為明顯。
不過,相比市面上的其他模型,GPT-5雖然沒有做到斷崖式領(lǐng)先,但其能力也優(yōu)于同類模型,如GPT-5編程能力較o3和GPT-4o模型顯著提升,在SWE-bench Verified測試得分74.9%(o3為69.1%,GPT-4o為30.8%),略超Anthropic本周發(fā)布的新模型Claude Opus4.1的74.5%。
值得注意的是,GPT-5雖然免費(fèi)向所有用戶開放,但依然維持了使用次數(shù)限制。本次實測,新京報AI研究院一共進(jìn)行了9輪對話,就觸及了次數(shù)限制的天花板,要想真正在工作生活中使用GPT-5的能力,還需要“充值”。
API價格方面,GPT-5每百萬token輸入1.25美元,輸出10美元。該價格低于GPT-4o和Gemini 2.5 Pro,僅為Claude Opus 4.1的1/15。開源證券發(fā)布的研報認(rèn)為,此次價格下探展現(xiàn)了頭部廠商搶占市場份額的決心,有望加速應(yīng)用端落地。
新京報AI研究院 羅亦丹
編輯 岳彩周
校對 付春愔