1. 首页 > 人工智能

DeepSeek R2震撼提前发布!DeepSeek-GRM起飞了

强化学习 (RL) 已广泛应用于大规模语言模型 (LLM) 的后期训练。最近,RL 对 LLM 推理能力的激励表明适当的学习方法可以实现有效的推理时间可扩展性。强化学习的一个关键挑战是获得除可验证问题或人工规则之外的各个领域中 LLM 的准确奖励信号。在这项工作中,我们研究了如何通过对一般查询进行更多的推理计算来改进奖励建模 (RM),即通用 RM 的推理时间可扩展性以及如何通过适当的学习方法提高性能计算扩展的有效性。对于 RM 方法,我们采用逐点生成奖励模型 (GRM),以便为不同的输入类型提供灵活性,并具有推理时间扩展的潜力。对于学习方法,我们提出了自我原则批评调整 (SPCT),通过在线 RL 促进 GRM 中的可扩展奖励生成行为,以自适应地生成原则并准确地进行批评,从而DeepSeek-GRM模型。此外,为了有效地扩展推理时间,我们使用并行采样来扩展计算使用量,并引入元 RM 来指导投票过程以获得更好的扩展性能。从经验上讲,我们表明 SPCT 显著提高了 GRM 的质量和可扩展性,在各种 RM 基准测试中优于现有方法和模型,没有严重的偏差,并且可以与训练时间扩展相比实现更好的性能。DeepSeek-GRM 在某些任务中仍然面临挑战,我们相信可以通过未来的通用奖励系统的努力来解决这些问题。这些模型将被发布和开源。

DeepSeek R2震撼提前发布!DeepSeek-GRM起飞了

1. 关于DeepSeek R2发布信息

官方辟谣与加速开发传闻

3月11日,DeepSeek官方明确否认“R2将于3月17日发布”传闻,称其为假消息13,但据路透社报道,三位知情人士透露,DeepSeek原计划于2025年5月推出R2模型,目前正在加速开发,大概提前至更早时间,新模型预计在多语言推理、代码生成本事上有显著提升1。


技术预期与市场关注

R2模型被期待为DeepSeek下一代突破性产品,尤其在开源策略、低算力本钱及强推理本事方面,大概推动AI应用普及、商业化落地419,其开源属性大概诱惑更多开发者参与生态建设,加速技术迭代19。


2. DeepSeek-GRM相关内容

名称不确定性分析

搜索结果中未直接提及“DeepSeek-GRM”,但存在以下关联线索:


R1模型技术基石:此前发布R1模型〔如网页7、9所述〕已展示出多模态生成本事,结合变分自编码器〔VAE〕、生成对抗网络〔GAN〕架构,持助文本、图像生成,并应用于智能驾驶等领域1719。


大概技术迭代:若“GRM”为笔误或新命名,大概指代R2升级版,或与R1相关衍生技术〔如华山A2000芯片平台,持助更高算力需求〕17。


3. 市场反应与概念股表现

概念股异动

纵然R2尚未发布,但DeepSeek相关概念股已多次因技术预期、行业热度上涨。比方说:


3月20日,每日互动、并行科技等股票盘中涨幅超10%18;


3月5日,并行科技、拓维信息等亦因市场对AI技术乐观情绪上涨20。


行业影响

开源模型低本钱、强推理本事被感觉将推动国产算力芯片〔如中芯国际制造〕、边缘侧AI硬件发展,同时加速智能驾驶、人形机器人等端侧应用落地2617。


本文链接:https://www.19150.com/ai/21672.html

联系我们

在线咨询:点击这里给我发消息

微信号:

工作日:9:30-18:30,节假日休息