DeepSeek 是一家创新型科技公司,长久以来专注于开发先进的大语言模型(LLM)和相关技术,作为大厂外唯一一家储备万张A100芯片的公司,幻方量化为DeepSeek的技术研发提供了强大的硬件支持。
2024年1月5日,发布DeepSeek LLM,这是深度求索的第一个大模型。DeepSeek LLM包含670亿参数,从零开始在一个包含2万亿token的数据集上进行了训练,数据集涵盖中英文。全部开源DeepSeek LLM 7B/67B Base和DeepSeek LLM 7B/67B Chat,供研究社区使用。DeepSeek LLM 67B Base在推理、编码、数学和中文理解等方面超越了Llama2 70B Base。DeepSeek LLM 67B Chat在编码和数学方面表现出色。它还展现了显著的泛化能力,在匈牙利国家高中考试中取得了65分的成绩。当然,它还精通中文:DeepSeek LLM 67B Chat在中文表现上超越了GPT-3.5。
2024年1月25日,发布DeepSeek-Coder,DeepSeek Coder由一系列代码语言模型组成,每个模型均从零开始在2万亿token上训练,数据集包含87%的代码和13%的中英文自然语言。代码模型尺寸从1B到33B版本不等。每个模型通过在项目级代码语料库上进行预训练,采用16K的窗口大小和额外的填空任务,以支持项目级代码补全和填充。DeepSeek Coder在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能。
2024年2月5日,发布DeepSeekMath,DeepSeekMath以DeepSeek-Coder-v1.5 7B为基础,继续在从Common Crawl中提取的数学相关token以及自然语言和代码数据上进行预训练,训练规模达5000亿token。DeepSeekMath 7B在竞赛级MATH基准测试中取得了51.7%的优异成绩,且未依赖外部工具包和投票技术,接近Gemini-Ultra和GPT-4的性能水平。
2024年5月7日,发布第二代开源Mixture-of-Experts(MoE)模型——DeepSeek-V2。DeepSeek-V2是一个强大的混合专家(MoE)语言模型,以经济高效的训练和推理为特点。它包含2360亿个总参数,其中每个token激活210亿个参数。与DeepSeek 67B相比,DeepSeek-V2不仅实现了更强的性能,同时还节省了42.5%的训练成本,将KV缓存减少了93.3%,并将最大生成吞吐量提升至5.76倍。在一个包含8.1万亿token的多样化且高质量的语料库上对DeepSeek-V2进行了预训练。在完成全面的预训练后,通过监督微调(SFT)和强化学习(RL)进一步释放了模型的潜力。评估结果验证了方法的有效性,DeepSeek-V2在标准基准测试和开放式生成评估中均取得了显著的表现。2025年1月20日,DeepSeek正式发布 DeepSeek-R1 模型,并同步开源模型权重。DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。
以上文章内容由法治民声网转载整理编辑,本网站是纯公益性平台,不做任何商业用途,旨在传播正能量的声音,如有侵权请告知,我们将会及时删除,谢谢大家对法治民声网的持续关注。法治民声网网址:http://www.chinafanfuyuqing.com/
版权所有:法治民声网 投稿热线;18310192369 网址:www.chinafanfuyuqing.com
备案号:京ICP备20026130号-1指导单位:北京天道律师事务所