您好,欢迎来到游6网!

当前位置:首页 > 软件教程 > DeepSeek-模型(model)介绍

DeepSeek-模型(model)介绍

发布时间:2025-04-23    编辑:游乐网

我们已经部署过windows版本、linux版本、单机版本和集群版本,并且在过程中使用了多个模型。那么,这个模型到底是什么呢?你可以选择哪些模型呢?什么是蒸馏版、满血版和量化版呢?

首先,我们需要理解什么是训练模型和推理模型。

训练模型

训练模型是指模型在学习阶段的过程。在这一阶段,模型通过大量标注数据(输入数据和对应的标签/答案)逐步调整内部参数(如神经网络的权重),目标是学习数据中的规律,从而能够对未知数据做出预测或分类。

国产大模型DeepSeek之所以火爆,是因为它以较低的成本(500万美元以上)训练出的模型达到了ChatGPT等闭源模型的性能。DeepSeek将训练的模型开源并允许商用,目前国内许多厂商都使用DeepSeek的67B模型来供普通用户使用。

注:这里的B指的是参数,参数越大,代表能力越强,一个B代表10亿参数。

推理模型

推理模型是指训练完成后,模型应用阶段的过程。此时模型参数已固定,用于对新的输入数据(未见过的数据)进行预测或分类。我们前面搭建的所有大模型都是使用DeepSeek开源的模型搭建的。

蒸馏模型

DeepSeek到目前为止开源的模型有多个,其中最火爆的是DeepSeek-R1,因为它不仅发布了67B的满血版,还发布了蒸馏版。通过知识蒸馏技术将DeepSeek-R1(参数量67B)的推理能力迁移至更小的模型中。可以简单理解为蒸馏版比原始版本更厉害。

DeepSeek-模型(model)介绍

目前这些模型可以在多个大模型框架中使用(包括我们讲过的ollama和vllm,甚至未讲过的sglang等)。

量化模型

虽然这些模型对原始模型进行了蒸馏,但对于GPU的要求仍然较高。对于ollama框架来说,模型仍然较大,因此ollama对这些模型进行了进一步量化。以1.5模型为例,默认格式是fp16,原始大小是3.6G,量化一次可以降低接近50%的大小,也相对降低对显存的需求。

DeepSeek-模型(model)介绍

显存需求

此图是我从互联网找来,仅供参考。

DeepSeek-模型(model)介绍

实测ollama运行deepseek-r1:32b-qwen-distill-q8_0模型,显存占用在40G左右。

DeepSeek-模型(model)介绍

vllm运行deepseek-ai/DeepSeek-R1-Distill-Qwen-14B和deepseek-ai/DeepSeek-R1-Distill-Qwen-32B模型,显存占用都是到116G(vllm会按照显存的90%去计算剩余显存,当模型等资源加载完成以后剩下的都会用作缓存)。

代码语言:javascript代码运行次数:0

运行复制```javascript(VllmWorkerProcess pid=195) INFO 03-09 10:10:40 worker.py:267] model weights take 15.41GiB; non_torch_memory takes 0.14GiB; PyTorch activation peak memory takes 0.24GiB; the rest of the memory reserved for KV Cache is 12.76GiB.```

DeepSeek-模型(model)介绍

热门合集

MORE

+

MORE

+

变态游戏推荐

MORE

+

最新专题

MORE

+

热门游戏推荐

MORE

+

关于我们  |  游戏下载排行榜  |  专题合集  |  端游游戏  |  手机游戏  |  联系方式: youleyoucom@outlook.com

Copyright 2013-2019 www.youleyou.com    湘公网安备 43070202000716号

声明:游6网为非赢利性网站 不接受任何赞助和广告 湘ICP备2022003375号-4