欧美aa级黄片免费看_日韩精品中文字幕无码一区二区三_东方影库正在进入_99亚洲性爱视频_午夜国产精品国产_久久男女午夜视频_亚洲午夜伦理精品_福利视频免费看_免费A级毛片无码播放_亚洲欧美专区另类

長(zhǎng)春市晟峰源景觀工程有限公司

GPT-5屢訓(xùn)屢敗,Ilya宣判后曝光,訓(xùn)練耗時(shí)數(shù)月,數(shù)據(jù)需人工重建

明敏·克雷西 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

近日,OpenAI連續(xù)12場(chǎng)發(fā)布會(huì)剛剛結(jié)束,但大家最為期待的GPT-5/4.5的影子都沒(méi)有出現(xiàn)。隨后,華爾街日?qǐng)?bào)爆料稱,GPT-5的預(yù)訓(xùn)練之路走得頗為坎坷。

據(jù)透露,GPT-5已經(jīng)完成了至少2輪訓(xùn)練,每次訓(xùn)練都長(zhǎng)達(dá)數(shù)月之久,但每次訓(xùn)練后都會(huì)遇到新的問(wèn)題。OpenAI正在專門雇人編寫代碼、解決數(shù)學(xué)難題,為GPT-5從頭創(chuàng)建數(shù)據(jù),甚至使用o1合成數(shù)據(jù),但效率仍然不夠高,想要滿足GPT-5的預(yù)訓(xùn)練需求顯得尤為困難。

市場(chǎng)估算,僅一次長(zhǎng)達(dá)6個(gè)月的訓(xùn)練就需要花費(fèi)5億美金。GPT-5兩次訓(xùn)練進(jìn)展都不順,背后的成本自然也是個(gè)天文數(shù)字。

Ilya前不久在NeurIPS 2024上宣判的預(yù)訓(xùn)練即將終結(jié)的言論,似乎再次得到了論證。同時(shí),這也與The Information此前爆料的OpenAI正在嘗試調(diào)整戰(zhàn)略的消息相呼應(yīng),比如o1、o3系列的推出。

目前,OpenAI對(duì)最新爆料尚無(wú)回應(yīng)。但GPT-5究竟是OpenAI藏著不發(fā),還是不能發(fā)?答案似乎更確定了一點(diǎn)。

巨量數(shù)據(jù)算力堆不好GPT-5的預(yù)訓(xùn)練

在華爾街日?qǐng)?bào)的爆料中,OpenAI對(duì)GPT-5寄予厚望。它能夠進(jìn)行科學(xué)探索發(fā)現(xiàn),并完成例行的人類任務(wù),比如預(yù)約、訂航班。而且希望它能夠犯更少的錯(cuò)誤,或者能夠承認(rèn)錯(cuò)誤存在,也就是減少幻覺(jué)。

這與之前透露出的信息相呼應(yīng)。OpenAI前CTO Mira曾將GPT-5的智能水平比作博士生。這意味著GPT-5能夠在某些特定領(lǐng)域取得高水平成績(jī),能像研究生、博士那樣可以深刻理解、推理,并具備專業(yè)知識(shí)。

今年10月,OpenAI最新籌集到的66億美元融資,估值飆升到1570億美元。投資者的再一次加碼,也被認(rèn)為是因?yàn)橄嘈臛PT-5將能完成重大飛躍。

但是GPT-5的發(fā)布一直懸而未決。奧特曼此前表示,GPT-5不會(huì)有明確的發(fā)布時(shí)間,等什么時(shí)候準(zhǔn)備好了,就什么時(shí)候發(fā)。這個(gè)時(shí)間可能是2025,也可能是2026。

如今回溯來(lái)看,GPT-5的推出一直都坎坷不斷。在2023年,OpenAI被曝光放棄了一個(gè)代號(hào)為Arrakis的模型。放棄原因是該模型不能實(shí)現(xiàn)在保持性能的同時(shí)減少對(duì)計(jì)算資源的需求,沒(méi)有達(dá)到預(yù)期的訓(xùn)練效率。

這其實(shí)反向證明,如果想要訓(xùn)練規(guī)模更大規(guī)模的模型,還是需要更龐大的計(jì)算資源、更長(zhǎng)的時(shí)間。從設(shè)定來(lái)看,GPT-5顯然會(huì)是個(gè)“巨無(wú)霸”。

GPT-5的開發(fā)啟動(dòng)于GPT-4發(fā)布時(shí)。至今已經(jīng)超過(guò)18個(gè)月了。它在內(nèi)部的代號(hào)是獵戶座Orion。按照原本計(jì)劃,微軟是想在2024年年中看到GPT-5的。

華爾街日?qǐng)?bào)披露,GPT-5的大規(guī)模訓(xùn)練至少進(jìn)行了2輪。每次都需要幾個(gè)月,每次也都遇到了新問(wèn)題。最好的情況下,Orion比OpenAI目前的產(chǎn)品表現(xiàn)都要好。但與所消耗的成本相比,這種提升并不明顯。

另一方面,想要更好的模型,就需要更多的數(shù)據(jù)。公共資源的數(shù)據(jù)消耗殆盡,OpenAI決定雇人從頭構(gòu)建數(shù)據(jù)。據(jù)爆料,它專門找了一些軟件工程師、數(shù)學(xué)家來(lái)寫代碼、解數(shù)學(xué)題,供GPT-5學(xué)習(xí)。同時(shí)OpenAI也和一些物理學(xué)家合作,讓GPT-5學(xué)習(xí)科學(xué)家如何理解領(lǐng)域內(nèi)的問(wèn)題。但問(wèn)題就是,這樣太慢了。

AI合成數(shù)據(jù)的路子OpenAI也走。據(jù)說(shuō)GPT-5就使用了o1合成的數(shù)據(jù)。這種范式可能已經(jīng)被論證。隔壁Anthropic也被爆料使用AI合成數(shù)據(jù)訓(xùn)練模型。

以上,大概就是GPT-5最新相關(guān)信息。

不過(guò)話說(shuō)回來(lái),最近誰(shuí)還在乎GPT-5呢?畢竟OpenAI憑借o1、o3系列開啟了推理Scaling Law。剛剛發(fā)布的o3在ARC-AGI上刷新成績(jī)。最新結(jié)果報(bào)告顯示,在400項(xiàng)公共任務(wù)上,o3的最好成績(jī)已經(jīng)達(dá)到91.5%。在核心機(jī)制上,o3也給出新啟發(fā)。它通過(guò)LLM在token空間內(nèi)搜索和執(zhí)行,實(shí)現(xiàn)了在測(cè)試時(shí)內(nèi)的知識(shí)重組。

o3屠榜ARC-AGI測(cè)試,離AGI還有多遠(yuǎn)?

簡(jiǎn)單介紹一下ARC-AGI數(shù)據(jù)集,題目帶有色塊的網(wǎng)格陣列(以文本形式表述,用數(shù)字代表顏色),大模型需要觀察每道題目中3個(gè)輸入-輸出示例,然后根據(jù)規(guī)律填充新的空白網(wǎng)格。

這幾個(gè)示例比較簡(jiǎn)單,但實(shí)際面臨的問(wèn)題可能是這樣的:

ARC-AGI測(cè)試集一共包含400道公開試題和100個(gè)私有問(wèn)題。在公開問(wèn)題中,o3高效率版的準(zhǔn)確率為82.8%,消耗了1.11億Token,平均每個(gè)任務(wù)成本為17美元。低效率版本(計(jì)算量是高效版的172倍),準(zhǔn)確率高達(dá)91.5%,不過(guò)消耗的Token數(shù)也達(dá)到了驚人的95億。

另外OpenAI還做了一個(gè)專門針對(duì)ARC-AGI的版本,使用了75%的公開數(shù)據(jù)集進(jìn)行了訓(xùn)練。這個(gè)版本拿到私有測(cè)試集上測(cè)試,結(jié)果地計(jì)算量模式取得了76%的準(zhǔn)確率,高計(jì)算量模式則為88%。并且,低計(jì)算量版本的成本在ARC-AGI-Pub的規(guī)則范圍內(nèi)(<$10k),成為了公共排行榜上的第一名。

88%的高計(jì)算量版本則過(guò)于昂貴,但仍然表明新任務(wù)的性能確實(shí)隨著計(jì)算量的增加而提高。在此之前,GPT-3的準(zhǔn)確率是零,GPT-4o為5%,o1最好也剛剛超過(guò)30%。

ARC挑戰(zhàn)的發(fā)起者之一、前谷歌資深工程師、Keras之父Fran?ois Chollet認(rèn)為,o3能夠適應(yīng)以前從未遇到過(guò)的任務(wù),可以說(shuō)在ARC-AGI領(lǐng)域接近人類水平。當(dāng)然成本也十分昂貴,即使是低計(jì)算量模式,每個(gè)任務(wù)也需要17-20美元,而發(fā)起方雇傭真人解決此類問(wèn)題的成本,平均到每個(gè)問(wèn)題只有5美元。

但拋開成本問(wèn)題,Chollet指出,o3對(duì)GPT系列的改進(jìn)證明了架構(gòu)的重要性,認(rèn)為無(wú)法在GPT-4上通過(guò)投入更多計(jì)算來(lái)獲得這樣的成績(jī)。所以,通過(guò)ARC-AGI測(cè)試,意味著o3實(shí)現(xiàn)AGI了嗎?Chollet認(rèn)為并不是。

通過(guò)測(cè)試發(fā)現(xiàn),o3在一些非常簡(jiǎn)單的任務(wù)上仍然失敗,這表明其與人類智能存在根本差異。另外,ARC-AGI的下一代ARC-AGI-2也即將推出,早期測(cè)試表明其將對(duì)o3構(gòu)成重大挑戰(zhàn),即使在高計(jì)算量模式下,其得分也可能會(huì)降低到30%以下(而聰明人仍然能夠得分超過(guò)95%)。

但無(wú)論是否達(dá)到AGI,o3能夠?qū)崿F(xiàn)的成績(jī)都是前所未有的,甚至有人認(rèn)為,針對(duì)ARC這樣的任務(wù)而言,人類的優(yōu)勢(shì)其實(shí)是在于視覺(jué)推理,如果改成像模型看到的那樣用文本形式描述圖形,那人類做的不一定會(huì)比AI好。

One More Thing

作為12天發(fā)布的一部分,OpenAI在最后一天發(fā)布o(jì)3的同時(shí),也發(fā)了一篇關(guān)于安全問(wèn)題的論文。

論文引入了一種名為慎重對(duì)齊的對(duì)齊方式,直接向推理模型傳授人工編寫、可解釋的安全規(guī)范,并訓(xùn)練他們?cè)诨卮鹬皩?duì)這些規(guī)范進(jìn)行明確的推理。

結(jié)果,訓(xùn)練出的模型不需要人工標(biāo)記的CoT或答案,就可以高度精確地遵守OpenAI的安全政策。

OpenAI發(fā)現(xiàn),o1在一系列內(nèi)部和外部安全基準(zhǔn)方面顯著優(yōu)于GPT-4o等其他最先進(jìn)模型,并且在許多具有挑戰(zhàn)性的(安全)數(shù)據(jù)集上的性能達(dá)到飽和。這一發(fā)現(xiàn),揭示了推理將成為提高模型安全性的一條新途徑。

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 [email protected]舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。 轉(zhuǎn)載請(qǐng)注明出處:http://zhiduoxian.cn/post/21017.html

分享:
掃描分享到社交APP
x

注冊(cè)

已經(jīng)有帳號(hào)?