新京報(bào)貝殼財(cái)經(jīng)訊(記者羅亦丹)7月28日晚,北京智譜華章科技股份有限公司(以下簡(jiǎn)稱“智譜AI”)發(fā)布其新一代旗艦大模型GLM-4.5,這是一款專(zhuān)為智能體應(yīng)用打造的基礎(chǔ)模型,在復(fù)雜推理、代碼生成及智能體交互等通用能力上實(shí)現(xiàn)能力融合與技術(shù)突破,綜合測(cè)試性能已躋身全球領(lǐng)先行列。


這款新模型的發(fā)布,代表了AI邁向通用人工智能的一次重要轉(zhuǎn)變。它不再滿足于扮演一個(gè)被動(dòng)回答問(wèn)題的“聊天機(jī)器人”,而是要成為能夠理解復(fù)雜目標(biāo)、自主規(guī)劃并執(zhí)行多步驟任務(wù)的“全優(yōu)生”。例如,模型能夠勝任全棧開(kāi)發(fā)任務(wù),一鍵生成較為復(fù)雜的應(yīng)用、游戲、交互網(wǎng)頁(yè)。在實(shí)際例子中,用戶通過(guò)z.ai使用該模型時(shí),僅用一句簡(jiǎn)單的指令,就可讓GLM-4.5獨(dú)立開(kāi)發(fā)出具備搜索功能的“谷歌”網(wǎng)站、可以發(fā)彈幕的“B站”,甚至直接上線一個(gè)完整的“Flappy Bird”小游戲。


在性能評(píng)估中,GLM-4.5的表現(xiàn)展示了其架構(gòu)優(yōu)勢(shì)。在涵蓋研究生水平推理和復(fù)雜軟件工程解題等12項(xiàng)全球公認(rèn)的硬核測(cè)試中,其綜合得分位列全球第三,在所有國(guó)產(chǎn)模型和開(kāi)源模型中均排名第一。


大型語(yǔ)言模型性能評(píng)估表,包含智能體、推理與編碼基準(zhǔn)測(cè)試數(shù)據(jù)(圖源:智譜)


該款旗艦大模型發(fā)布僅十小時(shí),便引發(fā)全球外媒關(guān)注。價(jià)格因素同樣是關(guān)注焦點(diǎn),報(bào)道普遍聚焦該模型 “成本更低、性能更優(yōu)” 的特性,部分媒體還對(duì)其參數(shù)進(jìn)行了詳細(xì)解析與同類(lèi)對(duì)比。目前該系列模型API調(diào)用價(jià)格低至輸入0.8元/百萬(wàn)tokens、輸出2元/百萬(wàn)tokens,遠(yuǎn)低于市場(chǎng)主流價(jià)格。


28日模型發(fā)布后不到兩個(gè)小時(shí),X平臺(tái)就在首頁(yè)推薦了這款中國(guó)大模型。CNBC 28日?qǐng)?bào)道稱:“中國(guó)企業(yè)正在研發(fā)的人工智能模型不僅智能化水平提升,使用成本也持續(xù)降低,這與深度求索(DeepSeek)當(dāng)年震動(dòng)市場(chǎng)的突破核心優(yōu)勢(shì)相呼應(yīng)?!?路透社28日在報(bào)道中提到,作為中國(guó) “AI 六小虎” 之一的智譜,自今年6月被OpenAI“點(diǎn)名”后便備受關(guān)注。彭博社表示,OpenAI的挑戰(zhàn)者智譜AI發(fā)布開(kāi)源模型,試圖在這個(gè)蓬勃發(fā)展的行業(yè)中搶占制高點(diǎn)。另一家美國(guó)知名科技媒體VentureBeat則在文章中指出:“GLM-4.5的發(fā)布為企業(yè)團(tuán)隊(duì)提供了一個(gè)可行的、高性能的基礎(chǔ)模型。對(duì)于平衡創(chuàng)新和運(yùn)營(yíng)限制的團(tuán)隊(duì)來(lái)說(shuō),這是一個(gè)令人信服的選擇?!卑l(fā)布后不到12小時(shí),GLM-4.5模型已經(jīng)位列國(guó)際開(kāi)源社區(qū)Hugging-Face榜單全球第二。《環(huán)球時(shí)報(bào)》針對(duì)該款模型進(jìn)行整版報(bào)道,受到國(guó)內(nèi)外業(yè)界高度關(guān)注。


美國(guó)科技網(wǎng)站Techi 認(rèn)為,中國(guó)AI發(fā)展正清晰呈現(xiàn) “易獲取” 的趨勢(shì):“智譜努力與深度求索、OpenAI等行業(yè)巨頭同臺(tái)競(jìng)技。隨著更多企業(yè)推出開(kāi)源模型并壓低價(jià)格,中國(guó)正逐步成為全球AI競(jìng)爭(zhēng)的核心參與者,力爭(zhēng)占據(jù)領(lǐng)先地位。未來(lái)幾個(gè)月,這些快速變化將帶來(lái)何種影響——是催生新的監(jiān)管政策,還是推動(dòng)新的技術(shù)創(chuàng)新,仍有待觀察。”


受到關(guān)注的除了這款大模型的性能,還有一個(gè)最大亮點(diǎn)是這是首款原生融合模型,首次在單個(gè)模型中實(shí)現(xiàn)將推理、編碼和智能體能力原生融合,以滿足智能體應(yīng)用的復(fù)雜需求。


大語(yǔ)言模型的目標(biāo)是在廣泛領(lǐng)域達(dá)到人類(lèi)認(rèn)知水平。然而,現(xiàn)有模型仍然算不上真正的通用模型:有些擅長(zhǎng)編程,有些精于數(shù)學(xué),有些在推理方面表現(xiàn)出色,但沒(méi)有一個(gè)能在所有任務(wù)上都達(dá)到最佳表現(xiàn)。GLM-4.5正是朝著統(tǒng)一各種能力這一目標(biāo)努力,力求在一個(gè)模型中集成所有這些不同的能力。大模型的下一個(gè)范式,一定是把各種能力整合到一起,成為一個(gè)“全優(yōu)生”。


其次這款模型擁有更高的參數(shù)效率。GLM-4.5的參數(shù)量?jī)H為一些主流模型的一半甚至三分之一,但在多項(xiàng)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中表現(xiàn)得更為出色。在衡量模型代碼能力的SWE-bench Verified 榜單上,GLM-4.5系列位于性能/參數(shù)比帕累托前沿,這表明在相同規(guī)模下,GLM-4.5系列實(shí)現(xiàn)了最佳性能。

目前,這款集高性能、低成本和開(kāi)源特性于一體的模型已在智譜開(kāi)放平臺(tái)上線。用戶可通過(guò)智譜大模型開(kāi)放平臺(tái)使用該模型,其開(kāi)源版本也將同步登陸Hugging Face與ModelScope平臺(tái)。


校對(duì) 楊許麗