速看!DeepSeek开源周第一弹:FlashMLA加速GPU计算!
发布时间:2025-04-23 编辑:游乐网
?DeepSeek在开源周的第一天推出了加速推理的基础设置FlashMLA。DeepSeek针对Hopper GPU优化了高效的MLA解码内核,支持变长序列,并且已经投入生产使用。
✅ 支持BF16 ✅ 分页KV缓存(块大小64) ⚡ 在H800上实现3000 GB/s的内存带宽和580 TFLOPS的计算性能!
快速开始克隆项目代码语言:javascript代码运行次数:0运行复制```javascriptgit clone https://www.php.cn/link/3dc20e2ac60a2551a4d3f08b03377def
安装代码语言:javascript代码运行次数:0运行复制```javascriptpython setup.py install登录后复制
测试代码语言:javascript代码运行次数:0运行复制```javascriptpython tests/test_flash_mla.py
在H800 SXM5上,使用CUDA 12.6,在受内存限制的配置下可实现高达3000 GB/s的带宽,在受计算限制的配置下可达到580 TFLOPS的计算性能。登录后复制使用代码语言:javascript代码运行次数:0运行复制javascript from flash_mla import get_mla_metadata, flash_mla_with_kvcachetile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)for i in range(num_layers): ... o_i, lse_i = flash_mla_with_kvcache( q_i, kvcache_i, block_table, cache_seqlens, dv, tile_scheduler_metadata, num_splits, causal=True, ) ...
最低要求代码语言:javascript代码运行次数:0运行复制javascriptHopper GPUsCUDA 12.3 and abovePyTorch 2.0 and above
登录后复制相关阅读
MORE
+- 超强!DeepSeek+HTML制作数据看板,老板看了都点赞 04-24 企业网盘 x DeepSeek,打造您的专属知识中台 04-24
- 销售增长新解法:DeepSeek企业知识库驱动效率革命 04-24 DeepSeek-R1的创新与局限 04-24
- DeepSeek 技术跃迁:AI 应用的下一站在哪? 04-24 DeepSeek入驻WPS,不用写JS宏代码也能提效300%! 04-24
- 腾讯ima+DeepSeek:借别人的脑子用用 04-24 服软了?爆料英伟达联手DeepSeek推出NIM服务 04-24
- DeepSeek EP并行专家通信技术解析:打破大模型训练瓶颈 04-24 网络工程师领域,DeepSeek可以用于哪些方面,以提高工作效率和解决复杂问题呢? 04-24
- 轻量级AI革命:无需GPU就能运算的DeepSeek-R1-1.5B模型及其低配推荐 04-24 请教了DeepSeek,才知道居然真的有适合程序员用的编程显示器。。 04-23
- 清华AIR联合水木分子开源DeepSeek版多模态生物医药大模型BioMedGPT-R1 04-23 DeepSeek 开源 FlashMLA,计算性能翻倍,踩爆英伟达 “牙膏” 04-23
- 腾讯最新开源Hunyuan-Large 389B,相较于Qwen和DeepSeek表现如何? 04-23 3行代码搞定微信小程序接入DeepSeek满血版! 04-23
- DeepSeek开源周 Day03:从DeepGEMM看大模型算力提速的矩阵乘法 04-23 PPT汇总:DeepSeek核心技术前世今生 04-23