2月18日,馬斯克及其 xAI 團(tuán)隊(duì)在直播中正式發(fā)布了 Grok 3,此前馬斯克通過持續(xù)的預(yù)熱宣傳,將外界對(duì) Grok3 的期待值推向了前所未有的高度。然而,被馬斯克稱為“地球上最聰明人工智能”的Grok 3,似乎也翻車了。
遺憾的是,號(hào)稱目前最聰明的 Grok 3,仍然無法正確回答這個(gè)問題,被網(wǎng)友戲稱為“天才不愿意回答簡(jiǎn)單問題”。
據(jù)第一財(cái)經(jīng)此前報(bào)道,就此問題,記者測(cè)試了12個(gè)大模型,其中阿里通義千問、百度文心一言、Minimax和騰訊元寶答對(duì),但ChatGPT-4o、字節(jié)豆包、月之暗面kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智能百小應(yīng)、商湯商量都答錯(cuò)了,錯(cuò)法各有不同。
大部分大模型在問答中都錯(cuò)誤地比較了小數(shù)點(diǎn)后的數(shù)字,認(rèn)為9.11大于9.9,考慮到數(shù)字涉及的語境問題,記者將其限定為在數(shù)學(xué)語境下,如ChatGPT這樣的大模型也照樣答錯(cuò)。
在這背后,大模型數(shù)學(xué)能力較差是長(zhǎng)期存在的問題,有行業(yè)人士認(rèn)為,生成式的語言模型從設(shè)計(jì)上就更像文科生而不是理科生。不過,針對(duì)性地語料訓(xùn)練或許能在未來逐步提升模型的理科能力。
此外,在 xAI 發(fā)布會(huì)直播中,在分析游戲《流放之路 2》的職業(yè)與升華效果時(shí),Grok 3 也給出了大量錯(cuò)誤答案,并且馬斯克也沒有看出這些明顯的錯(cuò)誤。
馬斯克在社交媒體上表示,“Grok 3版本本周每天都會(huì)快速改進(jìn)”,并邀請(qǐng)用戶反饋使用問題。
投稿郵箱:chuanbeiol@163.com 詳情請(qǐng)?jiān)L問川北在線:http://dstuf.com/