0121
2026-01-21 17:14:07

DeepSeek新模型“MODEL1”代码曝光

出海网1月21日消息,在DeepSeek-R1发布一周年之际,其新模型“MODEL1”的项目标识符在GitHub开源社区的FlashMLA代码库中曝光,与现有模型DeepSeek-V3.2并列出现。行业分析指出,“MODEL1”在键值缓存布局、稀疏性处理及FP8数据格式解码支持等关键技术层面与现有架构存在差异,表明其可能是全新设计的模型,推测已接近训练完成或推理部署阶段。尽管业内对其定位存在不同猜测——可能是V4旗舰模型、推理模型R2或是V3系列终极版,但此次代码更新印证了此前DeepSeek将于2月发布新一代模型的传闻。值得注意的是,DeepSeek近期发布的两篇技术论文介绍了“优化残差连接”训练方法和受生物学启发的“AI记忆模块”,新模型有望整合这些最新研究成果。与此同时,Hugging Face发布周年博客指出DeepSeek-R1已成为其平台获赞最多的模型,中国开源模型全球影响力显著提升,深度嵌入全球AI供应链。

免费下载
免费下载
小程序
小程序
小程序
交流群
交流群
交流群
回顶部