



DeepSeek以“2个月一小更,6个月一大更”的节奏快速迭代,从代码模型起步,逐步覆盖通用语言、数学推理、多模态等领域,并通过开源+低成本策略打破技术垄断。2025年重点拓展多模态与Agentic能力(如V3.5和R2预期),持续冲击全球AI第一梯队。以下是详细介绍:
DeepSeek-R1-0528:小版本更新,提升对话稳定性、结构化输出(如JSON/Function调用)与文学创作质量,降低幻觉率。
DeepSeek-V3-0324:优化工具链与写作能力,增强前端交互体验。
DeepSeek-R1-0528:强化推理模型的逻辑严谨性,适配企业级复杂任务(如合同分析、报告生成)。
DeepSeek-V3-0324:整合多工具链,提升长文本处理与专业写作能力。
DeepSeek-R1:发布开源推理大模型,性能对标OpenAI o1.在数学、代码、逻辑推理任务中表现突出,支持轻量级到超大规模部署(1.5B至671B参数)。
Janus-Pro:多模态模型,支持图像生成与理解,填补此前多模态能力短板。
DeepSeek-V3:开源MoE架构模型(671B参数,激活37B),性能媲美GPT-4o和Claude 3.5.训练成本仅557.6万美元(远低于行业平均水平)。
DeepSeek-R1-Lite:推理模型预览版,验证复杂推理能力。
DeepSeek-V2.5:合并语言与代码模型,优化响应速度与生成质量,支持联网搜索。
DeepSeek-Coder-V2:代码专用模型,性能超越GPT-4 Turbo,支持128K上下文。
DeepSeek-V2:MoE架构(236B参数,激活21B),API价格仅为GPT-4 Turbo的1%,开源商用。
DeepSeek-MoE:首个专家混合模型,计算量降低60%,性能超越Llama 2-7B。
DeepSeek-LLM:首款通用大语言模型(67B参数),性能接近GPT-4.开源免费。
DeepSeek-Coder:专注代码生成的初代模型,支持Python/Java等语言。
公司成立:杭州深度求索成立,前身为幻方量化AI团队,定位低成本高性能模型研发。