馬斯克再出 AI 王牌:Grok 4.1 霸榜 LMArena 排行榜
11 月 18 日消息,埃隆?馬斯克(Elon Musk)旗下的人工智能公司 xAI 昨日(11 月 17 日)發(fā)布公告,宣布推出最新大語言模型 Grok 4.1,并已面向、?? 平臺及移動應用(iOS 和安卓)所有用戶全面推送。
圖片
本次更新旨在全面提升 Grok 在真實世界場景下的可用性。官方表示,Grok 4.1 不僅繼承了前代模型敏銳的智能與高可靠性,更在創(chuàng)造性、情感理解和協(xié)作互動方面實現(xiàn)了重大改進,讓其能夠更精準地感知用戶細微意圖,提供更具吸引力和人格連貫性的對話體驗。
圖片
Grok 4.1 的性能實現(xiàn)了業(yè)界頂尖水平。在大型語言模型競技場(LMArena)的文本能力排行榜上,其具備深度思考能力的版本(代號:quasarflux)以 1483 的 Elo 分數(shù)高居榜首,領先第二名達 31 分。IT之家附上相關截圖如下:
圖片
更引人注目的是,其無需深度思考的“即時響應”版本也以 1465 的 Elo 分數(shù)位列第二,性能甚至超越了其他所有模型的“全推理”模式。這一成績相較于前代 Grok 4(排名第 33 位)實現(xiàn)了巨大飛躍,也印證了其在底層能力上的絕對優(yōu)勢。
圖片
除了在通用能力基準測試中表現(xiàn)出色,Grok 4.1 還在“軟實力”方面取得了顯著進步。在衡量模型情商的 EQ-Bench3 基準測試和評估創(chuàng)意能力的 Creative Writing v3 測試中,新模型均表現(xiàn)優(yōu)異。
圖片
在評估情感理解、洞察力和人際交往能力的 EQ-Bench3 基準測試中,Grok 4.1 的推理與非推理模式包攬了榜單前兩名。
圖片
在創(chuàng)意寫作領域,根據(jù) Creative Writing v3 基準測試結果,Grok 4.1 的兩種模式分別位列第二和第三,僅次于早期的 GPT-5.1 模型。
圖片
這意味著 Grok 4.1 不僅能處理復雜的邏輯推理,還能更好地理解并回應帶有人類情感的提示,進行富有想象力的內(nèi)容創(chuàng)作,讓其在人機交互中更具“人情味”。
另一項關鍵改進在于大幅降低了模型的“幻覺”率。對于配備搜索工具的快速響應模型而言,由于推理深度和工具調(diào)用預算有限,容易出現(xiàn)事實性錯誤。
圖片
在 Grok 4.1 的訓練后期,特別針對優(yōu)化信息查詢類提示,專注于減少事實性幻覺。根據(jù)對真實世界查詢樣本的評估,新模型的幻覺率已顯著降低,從而為用戶提供更可靠、更準確的信息。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為“我要久久發(fā)用戶上傳并發(fā)布”,本平臺僅提供信息存儲服務。
熱門文章
- 1024程序員節(jié)京東開放“零幀起手”數(shù)字人技術
- 孫穎莎王楚欽混團世界杯開門紅
- 國考今日開考 平均競爭比98比1
- 《瘋狂動物城2》成為進口動畫票房冠軍
- 羽絨服大漲價是什么情況
- 周潤發(fā)時隔十年給權志龍頒獎
- 6G技術重大突破!萬億元級市場來了
- 鄉(xiāng)村產(chǎn)業(yè)繼續(xù)保持良好發(fā)展勢頭
- 新款藍電E5 PLUS來了!限時11.98萬,純電續(xù)航230公里,配FSD懸架
- 吉利豪越L中型SUV煥新登場,限時8.99萬起,大空間多座可選還配雙動力
- 12月車市盛宴來襲!6款熱門轎車扎堆上市 新款卡羅拉等重磅登場
- 9.78萬起的零跑Lafa5上市 搭載雙AI大模型與激光雷達
- 豐田GR GT跑車12月5日全球首發(fā),大排量混動超跑劍指德系勁敵
- 捷尼賽思GV90或推雙版本車門布局 旗艦級純電SUV預計2026年末亮相
- 新款問界M7無偽諜照曝光!采用全新家族式前臉,尾部造型更精致
- 卡樂馳CARLOCS:都說新車別貼隱形車衣,到底是為什么?
- 長安福特新蒙迪歐12月4日上市:全新進氣格柵、隱藏式門把手
- 北京汽車制造廠212 T01混動版發(fā)布,外觀復古硬朗,明年一季度上市
- 銀河航天徐鳴:太空基建加速跑 6G通信與新場景引領產(chǎn)業(yè)新變革
- 高中生跳高視頻因酷似易烊千璽爆火