腾讯最新开源Hunyuan-Large 389B,相较于Qwen和DeepSeek表现如何?
发布时间:2025-04-23 编辑:游乐网
近日,腾讯发布了两款开源大模型,分别是用于文本生成的hunyuan-large 389b和用于3d图像生成的hunyuan3d-1.0。hunyuan-large拥有389b的总参数量和52b的激活参数量,能够处理高达256k的tokens,是目前开源中参数量最大且效果最佳的基于transformer结构的moe模型。在多个基准测试中表现优异,包括语言理解和生成、逻辑推理、数学问题解决、编程、长上下文和聚合任务。其特点包括:
大规模合成数据:利用比以往文献中更大的合成数据集,提升了训练数据的质量和多样性。总共预训练了7T个Tokens,其中包含了近1.5T个高质量和多样化的合成数据。混合专家路由策略:结合共享专家和专用专家,动态激活专家以提高效率。KV-Cache缓存压缩技术:减少内存压力,降低推理成本。专家特定学习率策略:为不同专家设置不同的学习率,优化训练效率。两款模型的开源地址为:
https://www.php.cn/link/21a94c7628fa8d17e41908412fa89ccehttps://www.php.cn/link/d5e9d9e23447e1907c70ac5d9b29edcc论文中不仅对比了Llama3.1-405B,还对比了Deepseek-V2。Llama的中文能力较弱,一般不推荐用于中文任务。国内更常用的是Qwen和DeepSeek。下图展示了论文中的基座模型对比,可以看到Hunyuan-Large在多个数据集上保持领先。
我们通常使用对话模型,论文中也提供了对话模型的对比,这里DeepSeek使用了V2.5 Chat,原论文中只对比了国内的DeepSeek。我从Qwen官方开源博客上找来了部分Benchmark数据,重新制作了下表。对比的是Instruct模型,而不是基座模型,因此有些数据Qwen 2.5没有。
Hunyuan-Large在多个维度上依然保持领先,但领先幅度不大,没有基座模型的两位数领先优势,其中在数学方面的表现不如Qwen 2.5 72B。
数据合成是Hunyuan-Large预训练过程中的关键部分,旨在通过创建大量合成数据来提升模型的知识获取能力,特别是在自然语言数据相对缺乏的领域,如数学、编程、低资源语言和高教育价值内容。数据合成过程包括以下四步:
步骤1:指令生成:使用高质量的数据源(如网页、问答数据、代码库、书籍等)作为种子,结合多样化的指令生成提示,生成覆盖多个领域、不同风格和复杂度的指令。步骤2:指令演化:通过增强清晰度和信息量、通过自指导增强低资源领域指令、增加指令难度等三个指导方针来改进这些初始指令,生成高质量且具有挑战性的指令。步骤3:响应生成:使用多个专门设计的模型为上述演化的指令生成信息丰富、准确的回答。步骤4:响应过滤:通过批评模型和自我一致性检查来过滤合成的指令-响应对,确保预训练中使用的文本质量。
模型解析中,KV Cache压缩采用了Grouped-Query Attention(GQA)和Cross-Layer Attention (CLA)两种策略,对KV Cache进行了压缩。Hunyuan-Large模型的head数通过GQA从80压缩到8,并通过CLA每两层共用KV激活值,最终将模型的KV Cache压缩为MHA的5%,大幅提升推理性能。
随机补偿路由策略采用随机补偿的路由方式,将由于专家满负载原本会丢弃的专家随机路由到其他仍有负载冗余的专家,同时提升模型的训练稳定性和收敛速度。
[1] Hunyun-Large 389B: https://www.php.cn/link/c4c0466a651f3c8b6911a1ac164f1879
[2] Hunyuan3D-1.0: https://www.php.cn/link/36222948d5ac949bd725f62f1d1bd796
[3] HuggingFace: https://www.php.cn/link/6b48bbb8f3f6c2573c761fb6de79102b
[4] Qwen官方开源博客: https://www.php.cn/link/812e04d672a47f50b58835da9f6e1d46
相关阅读
MORE
+- 通俗讲解DeepSeek开源:DeepGEMM,究竟是个啥?(第三弹) 04-24 DeepSeek之后,10万一个的Manus到底是什么? 04-24
- 清华AIR联合水木分子开源DeepSeek版多模态生物医药大模型BioMedGPT-R1 04-23 DeepSeek 开源 FlashMLA,计算性能翻倍,踩爆英伟达 “牙膏” 04-23
- 腾讯最新开源Hunyuan-Large 389B,相较于Qwen和DeepSeek表现如何? 04-23 主打温馨冒险新作《Good Boy》公开 狗狗化身太空探险家! 04-23
- 当开源创新遇上推理革命:SGLang如何炼就DeepSeek最强开源推理引擎? 04-23 年末巨献!DeepSeek推出多模态模型Janus-Pro,统一理解与生成 04-23
- github中文官网网页 github官网进入中文版 04-23 github国内镜像地址 github国内版镜像入口 04-23
- 音乐界迎来自己的DeepSeek!全球首个音乐推理大模型Mureka O1上线,超越Suno 04-23 github手机网页版入口在哪里 github手机版入口中文版 04-23
- 速看!DeepSeek开源周第一弹:FlashMLA加速GPU计算! 04-23 手机github官网入口 github手机官网进入 04-23
- AutoDev Planner:推理模型规划编码任务,DeepSeek R1 延伸 Vibe Coding 可能性 04-23 github中文版官网首页 github官网首页登录入口 04-23
- DeepSeek开源V3/R1架构设计思路,原来545%的利润率,它也只是被逼无奈? 04-23 Github官网入口登录 github网站登录入口 04-23