DeepSeek-单机多卡折腾记
发布时间:2025-04-23 编辑:游乐网
在前面的文章中,我们已经探讨了从单机到集群,从windows到linux的各种环境设置,但还没有涉及到单机多卡的问题。本文将详细介绍在单机多卡环境中遇到的问题和解决方法。
本次使用的环境是配备4张Tesla V100显卡的系统。
1.只能使用1张卡
我们使用官方脚本安装了ollama,并通过systemctl方式启动,使用的是deepseek-r1:32b模型。启动后发现只使用了22G的显存,实际上只使用了一张卡,其他卡未被利用。
要使用4张卡,需要调整配置,或者运行更大的模型。如果模型大小超过了单张卡的GPU显存限制,系统会自动将任务分配到所有显卡上,无需进行特殊配置。
vi /etc/systemd/system/ollama.service#增加下面2个参数Environment="CUDA_VISIBLE_DEVICES=0,1,2,3"Environment="OLLAMA_SCHED_SPREAD=1"#重新加载ollamasystemctl daemon-reloadsystemctl restart ollama#然后重启模型ollama run deepseek-r1:32b登录后复制
2.模型自动退出
模型启动后,如果自动退出(默认时间为5分钟),但当你提问时,模型会自动重新启动(这会导致响应速度降低)。
#日志中可能会出现类似以下的记录"new model will fit in available VRAM, loading" model=/usr/share/ollama/.ollama/models/blobs/sha256-4cd576d9aa16961244012223abf01445567b061f1814b57dfef699e4cf8df339 library=cuda parallel=4 required="49.9 GiB"登录后复制
#设置为-1则永不退出,也可以设置其他具体时间,比如1小时#参考刚才的步骤,重启服务即可常驻Environment="OLLAMA_KEEP_ALIVE=-1"登录后复制
3.单机运行多模型
在机器上下载了多个模型后,运行其中一个模型后,再启动另一个模型。
root@localhost:~# ollama lsNAME ID SIZE MODIFIED deepseek-r1:32b 38056bbcbb2d 19 GB 3 hours ago deepseek-r1:32b-qwen-distill-fp16 141ef25faf00 65 GB 19 hours ago deepseek-r1:70b 0c1615a8ca32 42 GB 20 hours ago登录后复制
4.Open WebUI 提问拉起模型
在部署ollama后,它会自动开机启动;随后部署了容器化的Open WebUI(也配置了开机自启动)。重启机器(模型未启动)后,通过Open WebUI访问模型并提问,模型会自动启动,并在启动完成后自动回答问题(需要等待模型启动的时间)。
相关阅读
MORE
+- 锁定网络攻击怎么解除 04-24 微软笑开花!Windows 10市场份额再次增加 04-24
- 一文读懂!DeepSeek 与 Dify 打造 AI 应用实战指南 04-24 深度告诉你100年都不用更新的操作系统 04-24
- 腾讯云 AI 代码助手 上新tencent:DeepSeek 模型 强烈安利 04-24 谷歌浏览器官网入口在哪-谷歌浏览器官方入口链接是啥 04-24
- DeepSeek R1后,AI应用、职业与行业! 04-23 基于腾讯云HAI-CPU部署DeepSeek:搭建图书馆知识库,赋能智慧图书馆建设 04-23
- DeepSeek如何轻松搞定Excel公式(附3个实战案例) 04-23 DeepSeek-单机多卡折腾记 04-23
- 精彩!!!Deepseek 重写 K8s 故障处理案例,文笔真好,屌~ 04-23 DeepSeek-模型(model)介绍 04-23
- 192.168.103登录入口 192.168.103登录页面进入 04-23 谷歌浏览器怎么设置中文-谷歌浏览器设置中文的方法 04-23
- 统信操作系统V20龙芯版正式发布:自主指令集、能用微信/PS 04-23 教你winscp使用教程 04-23
- Linux 5.17内核全力优化AMD锐龙:Zen4准备好了! 04-23 深度操作系统deepin 20.4发布:升级Linux 5.15内核 04-23