DeepSeek 大模型是杭州深度求索公司开发的一系列人工智能模型,具有强大的学习和处理能力,能处理多种类型数据并应用于多个领域。具体介绍如下:
语言模型
DeepSeek LLM:2024 年 1 月 5 日发布,有 670 亿参数,在 2 万亿 token 的中英文数据集上训练,在推理、编码等方面表现出色。
DeepSeek-V2:强大的混合专家语言模型,有 2360 亿总参数,在 8.1 万亿 token 语料库上预训练,性能强且训练成本低。
DeepSeek-V3:基座模型采用混合专家机制,有 6710 亿参数,在知识类任务、数学竞赛等方面表现优异,生成吐字速度大幅提高。
代码模型:DeepSeek-Coder 于 2024 年 1 月 25 日发布,由代码语言模型组成,在 2 万亿 token 上训练,数据集含 87% 代码和 13% 中英文自然语言,支持项目级代码补全和填充。
视觉 - 语言模型:DeepSeek-VL 于 2024 年 3 月 11 日发布,是开源视觉 - 语言模型,采用混合视觉编码器,能高效处理高分辨率图像。DeepSeek-VL2 于 12 月 13 日发布,在视觉问答、光学字符识别等任务中展现卓越能力。