<strike id="2uuuc"></strike>
<th id="2uuuc"><menu id="2uuuc"></menu></th>
<sup id="2uuuc"></sup>
  • <samp id="2uuuc"><tbody id="2uuuc"></tbody></samp>
    <ul id="2uuuc"><tbody id="2uuuc"></tbody></ul>
    <samp id="2uuuc"><tbody id="2uuuc"></tbody></samp>
    <samp id="2uuuc"><tbody id="2uuuc"></tbody></samp>
  • 每日經濟新聞
    要聞

    每經網首頁 > 要聞 > 正文

    新版DeepSeek-V3登頂非推理模型榜單!每經記者實測編程能力,R2模型也要來了?

    每日經濟新聞 2025-03-25 21:44:42

    3月24日晚,DeepSeek將參數為6850億的DeepSeek-V3-0324模型悄然上傳至開源平臺。每經記者實測發現,新版V3性能卓越,在代碼能力等測試中表現出色,但仍存在幻覺問題。外媒推測其將成為新推理模型DeepSeek-R2的基礎,后者預計未來兩個月內推出,或對OpenAI的GPT-5構成挑戰。

    每經記者 岳楚鵬    每經編輯 蘭素英    

    北京時間3月24日晚間,DeepSeek悄然將DeepSeek-V3模型的最新版本上傳到了開源平臺HuggingFace。

    新模型的版本號為DeepSeek-V3-0324,參數為6850億,較初代V3版本的6710億有小幅增長。

    盡管DeepSeek十分低調,但還是有不少人在第一時間就注意到了這一更新,并對其進行了測試。

    根據社區測試反饋,DeepSeek-V3-0324最明顯的變化是編程能力得到了極大的提升。眾多開發者基于對新模型的綜合體驗判斷,新模型的編程能力已經接近目前最強編程模型Claude 3.7 Sonnet

    3月25日,專業AI模型評測機構Artificial Analysis發布的最新排名顯示,新版V3在基準測試中較老版V3躍升了7位,排名所有非推理模型中的第一名。

    《每日經濟新聞》記者實測后發現,DeepSeek-V3-0324的編程能力確實強大,但仍會出現幻覺問題。

    有外媒推測:“V3新版本的推出時機和特點強烈表明,它將成為DeepSeek-R2的基礎,后者是一款新的推理模型,預計在未來兩個月內推出。這遵循了DeepSeek的既定模式,即基礎模型比專門的推理模型早幾周推出。”

    機構:新版V3排名非推理模型第一

    當地時間3月25日,專業AI模型評測機構Artificial Analysis在評測完新版V3后發推表示,這對開源來說是一個里程碑,因為這是開放權重模型首次成為領先的非推理模型。新版V3在他們的基準測試中躍升了7位,為所有非推理模型中的第一名。



    圖片來源:Artifical Analysis

    雖然它在能力上仍落后于眾多推理模型,但這并不能影響這一成就的重要性。因為非推理模型相較于推理模型在速度上具有優勢,它可以立即回答,而無需花時間“思考”。

    AI編碼工具aider開發者保羅·高蒂爾對其進行了多語言基準測試,得分為55%,較上一個版本有顯著提升。他認為,新版V3是僅次于Claude 3.7 Sonnet的非推理模型了,并且它比R1和o3-mini這樣的推理模型更具競爭力,因為它的費用更便宜。

    圖片來源:X

    開源大模型評測項目Kcores大模型競技場的最新測試數據顯示,新版V3的代碼能力達到了328.3分,僅次于Claude 3.7 Sonnet(思考模型)和Claude 3.5(因不同測試之間題目不同,所以測試結果會有偏差)。

    圖片來源:Kcores大模型競技場

     

    在Kcores大模型中的四個測試中,新版V3都展示了出色的能力,特別是在九大行星模擬測試中,它是測試的25個模型中,唯一一個畫了土星環的大模型。

     

     

    圖片來源:Kcores大模型競技場

     
     

    記者實測新版V3編程能力:完成度高,難掩幻覺問題 

    截至目前,DeepSeek并沒有放出DeepSeek-V3-0324的跑分結果。

    不過,廣大網友對其進行了獨立測試。在眾多用戶的體驗中,最常被提到的就是新版V3的代碼能力。

    有網友同時比較了新版V3和R1之間的編程能力,要求:

    “創建一個包含CSS和JavaScript的單個HTML文件,以生成一個動畫天氣卡片。卡片應通過不同的動畫直觀地表示以下天氣條件:

    風:(例如,移動的云朵、搖曳的樹木或風線)

    雨:(例如,落下的雨滴、形成的水坑)

    晴:(例如,閃耀的光線、明亮的背景)

    雪:(例如,落下的雪花、積雪)并排顯示所有天氣卡片。

    卡片應具有深色背景。在此單個文件中提供所有 HTML、CSS 和 JavaScript 代碼。JavaScript 應包含一種在不同天氣條件之間切換的方法(例如,一個函數或一組按鈕),以演示每種天氣的動畫。”

    從下圖可以發現,兩者生成的效果可謂天差地別。

    左側為新版V3,右側為R1 圖片來源:X

    每經記者也對新版V3進行了測試,請它生成一個可以互動的、介紹世界風光的網站前端。

    DeepSeek的響應過程十分絲滑,只花了2分鐘就完成了,生成的網站配有日間/夜間模式切換、評論區、評分系統、收藏系統和社媒分享系統。

    不過需要指出的是,在一些細節上DeepSeek還是出現了幻覺問題,比如在介紹馬丘比丘時配上了和其毫無相關的圖片,在介紹長城時張冠李戴地配上了故宮的圖片。但整體的網站完成度還是值得點贊的。 

    網友熱評:對OpenAI如同噩夢,對DeepSeek-R2寄予厚望

    還有網友綜合體驗下來表示,新版V3的提升幅度大約相當于Sonnet 3.5到Sonnet 3.6的提升。

    有國外網友直呼,這對OpenAI來說就是一場噩夢。

    圖片來源:X

    有外媒表示:“V3新版本的推出時機和特點強烈表明,它將成為DeepSeek-R2的基礎,后者是一款新的推理模型,預計在未來兩個月內推出。這遵循了DeepSeek的既定模式,即其基礎模型比專門的推理模型早幾周推出。”

    Artificial Analysis表示,此版本可以說比R1更令人印象深刻,并且可能表明R2將是另一個重大飛躍。

    Kocres聯合創始人“karminski牙醫”在測試完新版V3后表示:“DeepSeek-V3新版本的能力十分可怕,甚至這還都不是DeepSeek-V4,更不是DeepSeek-R2!我現在十分期待DeepSeek-R2的發布了!”

    國外知名AI評論員“chubby”表示,這個小更新比預期的要大很多,因此我們對DeepSeek-R2寄予厚望。R2會成為有史以來最重要的開源推理模型。

    有Reddit用戶指出:“這與DeepSeek在圣誕節前后發布V3并在幾周后發布R1的方式一致。據傳R2將于4月發布。”

    如果DeepSeek-R2遵循R1發布的軌跡,它可能會對OpenAI的下一個旗艦模型GPT-5構成直接挑戰。此前,阿爾特曼在訪談中表示,GPT-5很快就會和大家見面。

    如需轉載請與《每日經濟新聞》報社聯系。
    未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

    讀者熱線:4008890008

    特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

    DeepSeek 大模型 Ai

    歡迎關注每日經濟新聞APP

    每經經濟新聞官方APP

    0

    0

    主站蜘蛛池模板: 亚洲色无码专区一区| 无套内射在线无码播放| 高清无码中文字幕在线观看视频| 免费无码VA一区二区三区| 中文AV人妻AV无码中文视频| 无翼乌工口肉肉无遮挡无码18| 无码AV中文字幕久久专区| 成人免费无码大片A毛片抽搐| 国产亚洲精品无码成人| 无码办公室丝袜OL中文字幕| 亚洲韩国精品无码一区二区三区 | 亚洲AV永久纯肉无码精品动漫| 亚洲日韩欧洲无码av夜夜摸| 亚洲AV永久无码天堂影院 | 亚洲国产精品无码中文lv| 一本大道无码日韩精品影视_| 久久亚洲AV成人无码国产 | 国产成人AV一区二区三区无码| 日韩毛片免费无码无毒视频观看| 亚洲Av无码精品色午夜| 人妻aⅴ中文字幕无码| 精品无码av一区二区三区| 波多野42部无码喷潮在线| 韩国精品一区二区三区无码视频| 无码人妻AV免费一区二区三区| 国产精品亚洲αv天堂无码| 亚洲av无码专区在线电影天堂| 小13箩利洗澡无码视频网站| 国产在线拍偷自揄拍无码| 国产品无码一区二区三区在线蜜桃 | 人妻老妇乱子伦精品无码专区| 精品亚洲AV无码一区二区| 水蜜桃av无码一区二区| 亚洲av无码成h人动漫无遮挡| 亚洲AV无码专区亚洲AV伊甸园| 亚洲精品无码AV人在线播放 | 亚洲成AV人在线播放无码| 国产亚洲?V无码?V男人的天堂 | 亚洲av无码专区在线观看亚| 影音先锋中文无码一区| 中字无码av电影在线观看网站|