DeepSeek爆了,普通人如何3小时完全从0训练自己的大模型
发布时间:2025-04-23 编辑:游乐网
今天为大家介绍一个非常实用的开源项目 - MiniMind。它使得我们能够使用普通电脑,在短短3小时内训练出一个迷你版的ChatGPT!
这个项目为何如此特别?目前市场上的大型语言模型通常具有数十亿参数,训练成本高昂。即便是想要学习和研究的人,也常常被高昂的硬件门槛所阻隔。而MiniMind通过巧妙的设计,将模型参数压缩到了最低,使得个人开发者也能亲手训练AI模型!
最小版本仅有26M大小(约为GPT-3的1/7000),普通的游戏显卡即可运行。项目提供了完整的训练流程:
基础语言能力训练(预训练)对话能力训练(指令微调)快速适应新任务(LoRA微调)优化回答质量(DPO偏好对齐)环境需要代码语言:javascript代码运行次数:0运行复制```javascriptCPU: Intel(R) Core(TM) i9-10980XE CPU @ 3.00GHz内存:128 GB显卡:NVIDIA GeForce RTX 3090(24GB) * 2环境:python 3.9 + Torch 2.1.2 + DDP单机多卡训练
Ubuntu == 20.04Python == 3.9Pytorch == 2.1.2CUDA == 12.2requirements.txt(本项目环境依赖)实际应用场景1. 个性化助手开发你可以训练一个针对特定领域的AI助手,比如:登录后复制客服机器人:根据公司产品知识库训练教育辅导:针对特定学科的习题讲解行业助手:为特定行业提供专业建议2. 技术学习与研究了解大语言模型的工作原理实践各种训练方法尝试模型优化和改进3. 产品原型验证快速验证AI产品创意测试不同场景下的效果收集用户反馈进行迭代技术亮点解析轻量级架构采用Transformer的Decoder-Only结构使用RMSNorm预标准化提升性能引入旋转位置编码处理长文本创新的专家模型版本(MoE)提供4×26M的混合专家模型通过专家分工提升模型能力保持较低的计算资源需求灵活的部署选项支持单卡/多卡训练兼容主流深度学习框架提供网页交互界面上手有多简单?只需几步就能开始:
代码语言:javascript代码运行次数:0运行复制```javascript
1. 克隆项目git clone https://www.php.cn/link/c7e2ac420af977df8c6ccc95ac8dc911# 2. 安装依赖pip install -r requirements.txt# 3. 开始对话测试python 2-eval.py
如果想要可视化界面,还可以使用内置的网页版:
代码语言:javascript代码运行次数:0运行复制```javascript
streamlit run fast_inference.py
定制大模型1. 克隆项目代码代码语言:javascript代码运行次数:0运行复制javascript git clone https://www.php.cn/link/c7e2ac420af977df8c6ccc95ac8dc911cd minimind登录后复制环境安装代码语言:javascript代码运行次数:0运行复制javascriptpip install -r requirements.txt -i https://www.php.cn/link/a6455ffc4e47fd737db213366771ec0e# 测试torch是否可用cudaimport torchprint(torch.cuda.is_available())登录后复制
如果不可用,请自行去torch_stable下载whl文件安装。参考链接,
自己训练数据集下载数据集放到./dataset目录下python data_process.py命令处理数据集,例如pretrain数据提前进行token-encoder、sft数据集抽离qa到csv文件在./model/LMConfig.py中调整model的参数配置这里仅需调整dim和n_layers和usemoe参数,分别是(512+8)或(768+16),对应于minimind-v1-small和minimind-v1`python 1-pretrain.py执行预训练,得到pretrain.pth作为预训练的输出权重python 3-full_sft.py执行指令微调,得到fullsft.pth作为指令微调的输出权重python 4-lora_sft.py执行lora微调(非必须)python 5-dpo_train.py`执行DPO人类偏好强化学习对齐(非必须)持续进化中项目正在快速发展,目前已支持:文本对话:流畅的中英文交互视觉理解:可以理解和描述图像知识更新:持续优化训练数据性能提升:不断改进模型结构最后MiniMind降低了AI开发的门槛,让更多人能够参与到大语言模型的探索中来。无论你是:
想入门AI的开发者需要定制化AI助手的企业对语言模型感兴趣的研究者这个项目都能帮你快速起步,并在实践中不断成长。项目完全开源,想要了解更多MiniMind项目信息的读者可以查看项目地址:
https://www.php.cn/link/ac65fa3ab83a6deeaa332196ad0ebabb
相关阅读
MORE
+- tableau变换怎么用 04-24 三种方法!教会你用DeepSeek绘制各种图表,真的太好用了(建议收藏) 04-24
- DeepSeek开源最后一天,大鹏今日同风起。 04-24 Python+DeepSeek新玩法:一句话搞定应用生成+发布 04-24
- 使用 DeepSeek 和 Ollama 搭建一个本地知识库系统(包含完整代码) 04-24 DeepSeek开源周第三天:FP8 通用矩阵乘法 (GEMM)库 04-24
- 亲测!代码/PPT碾压Deepseek!最强缝合怪DeepClaude,1分钟1页完美PPT 04-24 超强!DeepSeek+HTML制作数据看板,老板看了都点赞 04-24
- 轻量级AI革命:无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配推荐 04-24 当开源创新遇上推理革命:SGLang如何炼就DeepSeek最强开源推理引擎? 04-23
- 速看!DeepSeek开源周第一弹:FlashMLA加速GPU计算! 04-23 PDF格式怎么转HTML?分享三种PDF转HTML的方法 04-23
- 大模型实战:基于腾讯云HAI服务轻松部署 DeepSeek-R1图文教程 04-23 满血DeepSeek的极速正确打开姿势 04-23
- DeepSeek线上面试,没抗住压力面。。 04-23 如何高效使用DeepSeek-R1:推理大模型调优指南 04-23
- DeepSeek与PyTorch携手:开启工业缺陷检测新时代(4/18) 04-23 DeepSeek V3、DeepSeek R1 、 DeepSeekLLM版本区别 04-23