新模型發(fā)布在即!DeepSeekV4被曝春節前后發(fā)布

電競體育1月9報道?據兩位直接知情人士透露,深度求索(DeepSeek)預計將在未來(lái)幾周內推出新一代旗艦級人工智能模型,該模型主打強勁的代碼生成能力。
兩位知情人士表示,這款代號為V4的新模型,是DeepSeek于2024年12月發(fā)布的V3模型的迭代版本。DeepSeek員工基于公司內部基準開(kāi)展的初步測試顯示,該模型在代碼生成領(lǐng)域的表現優(yōu)于A(yíng)nthropic、Claude、生成式預訓練變換器系列(OpenAI GPT)等現有主流模型。
上述人士透露,DeepSeek計劃于2月中旬農歷新年前后推出V4模型,不過(guò)具體時(shí)間仍可能調整。
V3模型的推出幫助DeepSeek在全球人工智能領(lǐng)域嶄露頭角,而R1模型的發(fā)布則震動(dòng)了硅谷與華爾街,一舉將DeepSeek推向全球舞臺。R1是一款開(kāi)源“推理型”模型,其設計邏輯是在給出答案前,先針對用戶(hù)的查詢(xún)需求進(jìn)行深度“思考”,以此解決復雜問(wèn)題。該模型之所以引發(fā)廣泛關(guān)注,是因為相較于美國研發(fā)的頭部模型,DeepSeek投入的訓練成本相對較低,但模型性能卻十分亮眼。
在國內市場(chǎng),DeepSeek還推出了一款融合R1與V3雙模型能力的聊天機器人,該產(chǎn)品迅速走紅。
2024年12月,DeepSeek曾發(fā)布V3.2版本,該版本在部分基準測試中表現優(yōu)于OpenAI的GPT-5以及的Gemini3.0Pro。但此后該公司一直未推出重量級的迭代模型,這也使得即將到來(lái)的V4模型備受業(yè)界矚目。
截至目前,DeepSeek未就此事回應置評請求。
兩位知情人士表示,V4模型在超長(cháng)代碼提示詞的處理與解析方面實(shí)現了技術(shù)突破,這對于從事復雜軟件項目開(kāi)發(fā)的工程師而言,具備顯著(zhù)的應用優(yōu)勢。此外,該模型在訓練全流程中對數據模式的理解能力也得到優(yōu)化,且未出現性能衰減的問(wèn)題。
人工智能模型的訓練需要基于海量數據集開(kāi)展反復學(xué)習,但在多輪次訓練過(guò)程中,數據模式的識別精度往往會(huì )出現衰減。擁有大規模人工智能芯片集群的研發(fā)機構,通??梢酝ㄟ^(guò)增加訓練輪次來(lái)解決這一問(wèn)題。
其中一位知情人士表示,用戶(hù)或許會(huì )發(fā)現,V4模型輸出的答案邏輯更為嚴謹清晰,這一特征體現出該版本模型具備更強的推理能力,在執行復雜任務(wù)時(shí)的可靠性也將大幅提升。
上周,DeepSeek發(fā)表了一篇由公司首席執行官梁文鋒聯(lián)合署名的研究論文,文中提出了一種全新的訓練架構。該架構能夠支持研發(fā)人員在不按比例增加芯片投入的前提下,構建參數規模更大的人工智能模型。這一系列技術(shù)進(jìn)展表明,DeepSeek的技術(shù)創(chuàng )新步伐仍在持續邁進(jìn)。