当前位置：首页 > 软件教程 > 速看！DeepSeek开源周第一弹：FlashMLA加速GPU计算！

速看！DeepSeek开源周第一弹：FlashMLA加速GPU计算！

发布时间：2025-04-23　　　　编辑:游乐网

速看！deepseek开源周第一弹：flashmla加速gpu计算！

?DeepSeek在开源周的第一天推出了加速推理的基础设置FlashMLA。DeepSeek针对Hopper GPU优化了高效的MLA解码内核，支持变长序列，并且已经投入生产使用。

✅ 支持BF16 ✅ 分页KV缓存（块大小64） ⚡ 在H800上实现3000 GB/s的内存带宽和580 TFLOPS的计算性能！

快速开始克隆项目代码语言：javascript代码运行次数：0运行复制```javascriptgit clone https://www.php.cn/link/3dc20e2ac60a2551a4d3f08b03377def

安装代码语言：javascript代码运行次数：0运行复制```javascriptpython setup.py install

登录后复制

测试代码语言：javascript代码运行次数：0运行复制```javascriptpython tests/test_flash_mla.py

在H800 SXM5上，使用CUDA 12.6，在受内存限制的配置下可实现高达3000 GB/s的带宽，在受计算限制的配置下可达到580 TFLOPS的计算性能。使用代码语言：javascript代码运行次数：0运行复制javascript from flash_mla import get_mla_metadata, flash_mla_with_kvcachetile_scheduler_metadata, num_splits = get_mla_metadata(cache_seqlens, s_q * h_q // h_kv, h_kv)for i in range(num_layers):    ...    o_i, lse_i = flash_mla_with_kvcache(        q_i, kvcache_i, block_table, cache_seqlens, dv,        tile_scheduler_metadata, num_splits, causal=True,    )    ...

登录后复制

最低要求代码语言：javascript代码运行次数：0运行复制javascriptHopper GPUsCUDA 12.3 and abovePyTorch 2.0 and above

登录后复制

全站导航

首页

单机

手游

电竞

资讯

专题

排行

速看！DeepSeek开源周第一弹：FlashMLA加速GPU计算！

相关阅读

MORE

热门合集

MORE

MORE

文章资讯

MORE

热门资讯

MORE

变态游戏推荐

MORE

最新专题

MORE

热门游戏推荐

MORE

手机游戏

端游游戏

文章资讯

电竞游戏

补丁工具