50路60路老熟妇啪啪,亚洲AV午夜福利精品一区二区,国产亚洲精品久久久久久牛牛,G片男A同志Y免费网站

搜索

“神秘的東方力量”出現(xiàn),全球科技圈慌了?

發(fā)表于 2025-02-05 17:40:29 來(lái)源:送去迎來(lái)網(wǎng)

  來(lái)源:中國(guó)新聞周刊 

  AI圈又領(lǐng)教了一回“神秘的神秘東方力量”。

  1月20日,量出國(guó)內(nèi)人工智能技術(shù)企業(yè)深度求索(DeepSeek)官宣了其最新AI推理模型DeepSeek R1?,F(xiàn)全該模型在數(shù)學(xué)、球科代碼和自然語(yǔ)言推理等任務(wù)上表現(xiàn)優(yōu)異,技圈性能直接對(duì)標(biāo)美國(guó)OpenAI最新的神秘推理模型o1。此時(shí),量出距離o1的現(xiàn)全正式發(fā)布過(guò)去還不到半年。

  消息一出,球科AI圈幾近沸騰。技圈社交平臺(tái)X上,神秘有國(guó)外大廠(chǎng)工程師直白表示,量出其所在生成式模型研發(fā)部門(mén)“處于恐慌之中”。現(xiàn)全英偉達(dá)資深科學(xué)家Jim Fan給予R1極高評(píng)價(jià),球科稱(chēng)其不僅開(kāi)源,技圈還分享了所有模型訓(xùn)練細(xì)節(jié),做了OpenAI“一直聲稱(chēng)要做卻沒(méi)做到的事”。一時(shí)間,圈內(nèi)掀起了測(cè)試和復(fù)刻R1的熱潮。1月27日,DeepSeek同時(shí)登頂蘋(píng)果中美兩區(qū)App免費(fèi)榜。據(jù)媒體報(bào)道,這也是唯一一次中國(guó)應(yīng)用能同期在中國(guó)和美區(qū)蘋(píng)果App Store占據(jù)第一位。

  多位業(yè)內(nèi)人士指出,DeepSeek此次最大的貢獻(xiàn),是向世界展示了快速、低成本實(shí)現(xiàn)o1同等模型能力的可能性。清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副教授劉知遠(yuǎn)告訴《中國(guó)新聞周刊》,“東方力量”其實(shí)就是工程創(chuàng)新加持下的追趕能力。在算力吃緊的情況下,DeepSeek打了一場(chǎng)以少勝多的仗。

DeepSeek R1手機(jī)端App下載界面 圖/視覺(jué)中國(guó)DeepSeek R1手機(jī)端App下載界面 圖/視覺(jué)中國(guó)

  低成本培養(yǎng)出的“數(shù)理天才”

  DeepSeek R1有多厲害?

  有測(cè)試者讓R1詳細(xì)解釋勾股定理,R1在不到30秒的時(shí)間內(nèi)生成了完整的圖形動(dòng)畫(huà),給出了經(jīng)典的證明過(guò)程,沒(méi)有出現(xiàn)差錯(cuò)。另一個(gè)常用的測(cè)試問(wèn)題是碰撞檢測(cè),測(cè)試者要求大模型編寫(xiě)一個(gè)程序,使得一顆小球在某個(gè)緩慢旋轉(zhuǎn)的幾何形狀內(nèi)彈跳,并保持小球停留在形狀內(nèi)。碰撞檢測(cè)十分考驗(yàn)?zāi)P偷耐评砟芰?,稍有不慎就?huì)導(dǎo)致肉眼可見(jiàn)的物理錯(cuò)誤。這項(xiàng)測(cè)試?yán)?,R1的表現(xiàn)明顯優(yōu)于OpenAI o1 pro模式。

  OpenAI于2024年9月發(fā)布了推理模型o1,首次實(shí)現(xiàn)真正的通用推理能力,相比其前作GPT-4o有巨大的性能提升,能在“博士級(jí)別”的科學(xué)問(wèn)答環(huán)節(jié)上超越人類(lèi)專(zhuān)家。新加坡南洋理工大學(xué)計(jì)算機(jī)學(xué)院助理教授劉子緯向《中國(guó)新聞周刊》解釋?zhuān)瑐鹘y(tǒng)的ChatGPT模型屬于感知模型,擅長(zhǎng)提取事件信息。但真實(shí)世界的很多任務(wù)不能僅靠感知完成,而是需要一定的決策推理,而且越復(fù)雜的任務(wù)決策成分越多,比如編程、數(shù)據(jù)分析等。因此,推理模型是業(yè)界公認(rèn)的通往通用人工智能(AGI)不可或缺的模型形態(tài)。

  同為推理模型,在很多方面,R1都與o1的性能持平。在美國(guó)數(shù)學(xué)邀請(qǐng)賽AIME2024的測(cè)試中,R1取得了79.8%的成績(jī),甚至略高于o1,甩開(kāi)其他開(kāi)源模型一大截。編碼類(lèi)任務(wù)方面,R1也展現(xiàn)出專(zhuān)家級(jí)水平,在算法競(jìng)賽平臺(tái)Codeforces上的表現(xiàn)超過(guò)了96.3%的人類(lèi)參賽者。

  在DeepSeek公開(kāi)的22頁(yè)技術(shù)報(bào)告中,有一個(gè)展示R1能力的直觀(guān)案例。在解決一道復(fù)雜數(shù)學(xué)表達(dá)式問(wèn)題時(shí),R1在解題步驟中突然停下來(lái)說(shuō)“等等,這是個(gè)值得標(biāo)記的啊哈時(shí)刻”,隨后自主修正了解題過(guò)程。“啊哈”類(lèi)似于人類(lèi)的頓悟,R1的這種行為完全是自發(fā)產(chǎn)生的,而非預(yù)先設(shè)定。這也意味著,它已經(jīng)擁有了相當(dāng)程度的思考和自悟能力。

  看上去R1已經(jīng)走出了“題海戰(zhàn)術(shù)”,轉(zhuǎn)而進(jìn)入了探究性學(xué)習(xí)的領(lǐng)域。事實(shí)上,這正是它的核心技術(shù)強(qiáng)化學(xué)習(xí)與傳統(tǒng)監(jiān)督學(xué)習(xí)的差別。劉知遠(yuǎn)指出,傳統(tǒng)大模型特別是o1以前的GPT系列模型,都采用監(jiān)督學(xué)習(xí)的訓(xùn)練方法,意味著模型學(xué)習(xí)的目標(biāo)有標(biāo)準(zhǔn)答案。比如讓模型根據(jù)一篇文章的部分文字,去預(yù)測(cè)下一個(gè)詞。由于用于訓(xùn)練的文章是完整的,因此這個(gè)詞是固定的,預(yù)測(cè)結(jié)果也有明確的對(duì)錯(cuò)。人類(lèi)就像嚴(yán)厲的老師,對(duì)模型的預(yù)測(cè)行為反復(fù)規(guī)訓(xùn)。

  而強(qiáng)化學(xué)習(xí)則是在開(kāi)放環(huán)境中進(jìn)行的任務(wù)訓(xùn)練,開(kāi)發(fā)者只會(huì)告訴模型,它走出的每一步會(huì)得到外部環(huán)境怎樣的反饋。模型需要根據(jù)反饋,自己學(xué)會(huì)如何去接近最終目標(biāo)。“這個(gè)世界沒(méi)有那么多純數(shù)學(xué)題,因此無(wú)法永遠(yuǎn)通過(guò)給標(biāo)準(zhǔn)答案的方式,讓模型完成監(jiān)督學(xué)習(xí)?!眲⒅h(yuǎn)說(shuō)。從監(jiān)督學(xué)習(xí)向強(qiáng)化學(xué)習(xí)的范式轉(zhuǎn)變,是實(shí)現(xiàn)推理模型的關(guān)鍵。

  劉子緯指出,o1可視作大模型強(qiáng)化學(xué)習(xí)的鼻祖,但其沒(méi)有公開(kāi)技術(shù)文件,因此其強(qiáng)化學(xué)習(xí)的具體技術(shù)路線(xiàn)和占比,只能靠業(yè)內(nèi)猜測(cè),但可以確定其采用了預(yù)訓(xùn)練、監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)的流程。預(yù)訓(xùn)練類(lèi)似“背書(shū)自學(xué)”基礎(chǔ)知識(shí),監(jiān)督微調(diào)類(lèi)似學(xué)生模仿教師的示范來(lái)解例題,最后強(qiáng)化學(xué)習(xí)相當(dāng)于“模擬考試”。而R1則拋棄了監(jiān)督學(xué)習(xí),也就是跳過(guò)了例題階段,僅憑基礎(chǔ)語(yǔ)言能力和數(shù)學(xué)規(guī)則,在持續(xù)解題試錯(cuò)中自悟方法論,考出高分,這一點(diǎn)得到了絕大多數(shù)從業(yè)者的贊嘆。

  而除了性能外,R1更令人震撼的優(yōu)點(diǎn)在于便宜。2024年底,DeepSeek推出V3模型,作為R1的前體,訓(xùn)練成本僅為557.6萬(wàn)美元,而2020年發(fā)布的GPT-3的訓(xùn)練成本接近1200萬(wàn)美元,GPT-4更是超1億美元。技術(shù)報(bào)告顯示,R1面向開(kāi)發(fā)者的服務(wù)定價(jià)為每百萬(wàn)輸入字符串(token)1—4元,這一價(jià)格只有o1的1/30左右。

  R1怎么能如此便宜?劉子緯認(rèn)為,算力達(dá)到一定量級(jí)的情況下,可以通過(guò)工程創(chuàng)新把性能差距抹平。在堆算力的“大力出奇跡”路線(xiàn)進(jìn)入瓶頸后,DeepSeek選擇了在底層算法、訓(xùn)練模式和數(shù)據(jù)三個(gè)層面進(jìn)行了工程迭代?;诨旌蠈?zhuān)家模型、注意力機(jī)制等方面的創(chuàng)新,R1做到了“用50次運(yùn)算達(dá)成別人做100次運(yùn)算的效果”,效能提升明顯。而在拋棄監(jiān)督學(xué)習(xí)后,計(jì)算資源的需求也大幅減少。

  由于超高性?xún)r(jià)比,1月27日,蘋(píng)果App Store中國(guó)區(qū)免費(fèi)榜顯示,DeepSeek站上首位。同時(shí),DeepSeek在美區(qū)蘋(píng)果App Store免費(fèi)榜從昨日的第六位飆升至第一位。有業(yè)內(nèi)人士稱(chēng),R1已經(jīng)成為美國(guó)頂尖高校研究人員的首選模型。一位不愿具名的來(lái)自澳門(mén)大學(xué)的AI研究者向《中國(guó)新聞周刊》表示,R1完全可以取代日??蒲袑?duì)GPT模型的使用需求,在對(duì)科研文章的錯(cuò)誤識(shí)別、修改潤(rùn)色、語(yǔ)言轉(zhuǎn)換上都表現(xiàn)出色。

  商業(yè)化落地仍待探索

  盡管R1展現(xiàn)出了驚人的推理能力,但它的思維過(guò)程可能難以被人理解。技術(shù)報(bào)告指出,純強(qiáng)化學(xué)習(xí)訓(xùn)練出來(lái)的模型存在可讀性差和語(yǔ)言混雜問(wèn)題,有用戶(hù)反映多語(yǔ)言輸入可能會(huì)造成模型輸出混亂,有時(shí)中文的提問(wèn)也可能得到英文的回答。這一現(xiàn)象更多出現(xiàn)在純強(qiáng)化學(xué)習(xí)的R1-Zero模型中。

  劉子緯也將R1形容為“有些偏科的數(shù)理天才”。R1在他眼中雖然很聰明,但給出的文字回復(fù)相比于o1缺乏流暢性和情緒價(jià)值,顯得笨拙?!肮径ㄎ粫?huì)導(dǎo)致其偏重模型性能。”劉子緯說(shuō)。由于DeepSeek還在提升模型能力,尚未開(kāi)始優(yōu)化用戶(hù)體驗(yàn),因此用戶(hù)親和度方面還有待提升。在這一點(diǎn)上,OpenAI涉足較早。

  但當(dāng)創(chuàng)作任務(wù)涉及推演和類(lèi)比時(shí),R1的表現(xiàn)仍可圈可點(diǎn)。有測(cè)試者用簡(jiǎn)單的幾個(gè)提示詞,就讓R1在極短時(shí)間內(nèi)創(chuàng)作了一篇情節(jié)精彩的科幻小說(shuō)。社交平臺(tái)上,有電影評(píng)論賬號(hào)喂給R1《出師表》,讓其仿照該文體創(chuàng)作一篇影評(píng),R1給出了符合文言文規(guī)范,且“超越一般影評(píng)人”的洞見(jiàn)。劉子緯認(rèn)為,模型的推理能力可以遷移到文學(xué),令其產(chǎn)生通過(guò)邏輯思辨的方式創(chuàng)作議論文的能力。

  用戶(hù)使用R1的過(guò)程中,偶爾會(huì)得到錯(cuò)誤答案,甚至有用戶(hù)發(fā)現(xiàn)詢(xún)問(wèn)R1身份時(shí),其可能自稱(chēng)o1。這種混亂廣泛出現(xiàn)在現(xiàn)有大模型中,有業(yè)內(nèi)人士認(rèn)為,這源于大多數(shù)模型對(duì)OpenAI基礎(chǔ)模型的蒸餾。蒸餾即將訓(xùn)練過(guò)的“教師模型”的知識(shí)傳遞給“學(xué)生模型”,從而在最大程度保存原模型性能的同時(shí),大幅縮減計(jì)算資源消耗?!坝心P妥龅搅?0分,我想迅速達(dá)到55分的水平,比較快的方式就是去蒸餾一個(gè)‘教師模型’,可以迅速拿到模型反饋,暴露思維過(guò)程,得到可貴的數(shù)據(jù)基礎(chǔ)。研發(fā)初期,許多企業(yè)都依靠或者部分依靠模型蒸餾。”劉子緯坦言。

  由于原模型只能提供60分的答案,要漲到70分就得靠模型努力找一條新路。因此蒸餾無(wú)法形成模型的真正迭代。劉知遠(yuǎn)認(rèn)為,強(qiáng)化學(xué)習(xí)是通向AGI的重要版圖之一,符合人類(lèi)認(rèn)知世界的方式,已成為大模型未來(lái)發(fā)展的業(yè)內(nèi)共識(shí),強(qiáng)化學(xué)習(xí)的技術(shù)成熟也需要時(shí)間。

  劉子緯指出,R1使用了一些GPT-4o產(chǎn)生的數(shù)據(jù)去做“熱啟動(dòng)”,讓模型先形成對(duì)現(xiàn)有問(wèn)題的基本認(rèn)知,這也被稱(chēng)為數(shù)據(jù)蒸餾。相比之下,完全通過(guò)“冷啟動(dòng)”讓模型立刻進(jìn)入強(qiáng)化學(xué)習(xí)狀態(tài)是非常困難的?!耙粋€(gè)小學(xué)生學(xué)習(xí)知識(shí)也得先學(xué)課本,達(dá)到一定智力水平后,再進(jìn)入實(shí)踐中學(xué)習(xí)。”用真實(shí)數(shù)據(jù)而非模型數(shù)據(jù)訓(xùn)練模型是開(kāi)發(fā)者的共識(shí),但真實(shí)數(shù)據(jù)的篩選、清洗、降噪等工作并不容易。

  “即使用模型輸出數(shù)據(jù)也很難保證訓(xùn)練結(jié)果,這取決于人類(lèi)給模型創(chuàng)造了怎樣的問(wèn)題,以及提供怎樣的答案?!眲⒆泳曊f(shuō)。例如DeepSeek使用了大量代碼數(shù)據(jù)、數(shù)學(xué)題甚至奧數(shù)題用于訓(xùn)練R1?!叭绾螌⑦@些數(shù)據(jù)喂給模型,需要大量創(chuàng)新?!?/p>

  從這個(gè)意義上說(shuō),R1的表現(xiàn)已足夠出色,而它的創(chuàng)造者的主業(yè)甚至不是AI。DeepSeek背后的投資公司為幻方量化,是一家依靠數(shù)學(xué)與計(jì)算機(jī)科學(xué)進(jìn)行量化投資的基金公司。該公司從2016年起將深度學(xué)習(xí)模型應(yīng)用于實(shí)盤(pán)交易,囤積了大量算力,正式成立大模型團(tuán)隊(duì)DeepSeek的時(shí)間則是2023年?!耙菜闶歉睒I(yè)做得比主業(yè)出圈的典型了。”劉子緯說(shuō)。

  大模型企業(yè)仍需審慎研判模型的商業(yè)價(jià)值,也就是能不能賺錢(qián)。劉知遠(yuǎn)指出,國(guó)內(nèi)外企業(yè)都還在尋找大模型的最佳變現(xiàn)方式。目前,市場(chǎng)上已有多家企業(yè)具備做出GPT水平大模型的能力,接下來(lái)要考慮區(qū)分度是什么,落地的用戶(hù)App是什么,以及在價(jià)格戰(zhàn)的前提下如何收回上億元的研發(fā)成本。這些問(wèn)題的答案都還相對(duì)模糊。

  劉子緯認(rèn)為,大模型已足夠強(qiáng),但在垂類(lèi)上跟用戶(hù)需求還沒(méi)有緊密貼合,未來(lái)AGI的核心交互形態(tài)也尚無(wú)定論。目前,國(guó)內(nèi)外大模型企業(yè)一部分繼續(xù)高舉高打AGI,保證模型能力,通過(guò)用戶(hù)來(lái)試探落地方式。比如有學(xué)生用大模型來(lái)備考、寫(xiě)論文等。另一部分企業(yè)則專(zhuān)注于做垂類(lèi)應(yīng)用,比如醫(yī)療領(lǐng)域。劉子緯預(yù)計(jì),2025年會(huì)涌現(xiàn)一大批大模型應(yīng)用,是真正的“強(qiáng)化學(xué)習(xí)之年”。

  多位業(yè)內(nèi)人士表示,DeepSeek真正的價(jià)值,在于展示了工程實(shí)踐和理論創(chuàng)新之間的平衡點(diǎn),開(kāi)創(chuàng)了一條符合現(xiàn)實(shí)算力約束的技術(shù)迭代道路。“R1說(shuō)明開(kāi)源 AI 僅落后于閉源 AI 不到 6 個(gè)月?!痹趧⒅h(yuǎn)看來(lái),GPT階段也就是2023年初的時(shí)候, OpenAI模型發(fā)布之后,國(guó)內(nèi)團(tuán)隊(duì)需要一年的時(shí)間才能趕上。但是到了文生視頻模型Sora,以及后來(lái)的GPT-4o和o1,國(guó)內(nèi)的追趕時(shí)間縮短到半年以?xún)?nèi)。 

  “DeepSeek的階段性成果釋放了一個(gè)信號(hào),那就是通過(guò)芯片禁運(yùn)等方式來(lái)遏制國(guó)內(nèi)AI發(fā)展難以行通。這就是開(kāi)源的力量?!眲⒅h(yuǎn)說(shuō)。

  記者:周游(nolan.y.zhou@gmail.com)

點(diǎn)擊進(jìn)入專(zhuān)題: DeepSeek“火”到海外
隨機(jī)為您推薦
版權(quán)聲明:本站資源均來(lái)自互聯(lián)網(wǎng),如果侵犯了您的權(quán)益請(qǐng)與我們聯(lián)系,我們將在24小時(shí)內(nèi)刪除。

Copyright © 2016 Powered by “神秘的東方力量”出現(xiàn),全球科技圈慌了?,送去迎來(lái)網(wǎng)   sitemap

回頂部