摩尔线程高效完成DeepSeek开源库FlashMLA和DeepGEMM的适配
haoteby 2025-03-23 19:43 8 浏览
自DeepSeek启动“开源周”以来,已陆续开源三个代码库。摩尔线程基于全新MUSA Compute Capability 3.1计算架构,可提供原生FP8计算能力,同时升级了高性能线性代数模板库MUTLASS,快速支持了FlashMLA。不仅如此,摩尔线程还基于MUTLASS在全新GPU架构上优化实现了FP8矩阵乘法,支持DeepGEMM的相应功能,充分展示了摩尔线程MUSA架构和全功能GPU在生态兼容与快速适配上的强大优势。
▼ MT-FlashMLA开源地址:
https://github.com/MooreThreads/MT-flashMLA
▼ MUTLASS FlashAttention3地址:
https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd
▼ MUTLASS FP8 GEMM地址:
https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder
https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm
FlashMLA是一款高效的MLA(Multi-Head Latent Attention)推理内核开源仓库,旨在加速MLA机制的计算,特别适用于DeepSeek系列模型(如DeepSeek-V2、V3和R1)。DeepGEMM是一个支持密集矩阵与混合专家(MoE)矩阵乘法的FP8 GEMM库,为 V3/R1的训练与推理提供强大动力。这两个重要的开源仓库均基于高性能通用矩阵乘法(GEMM)的C++模板库进行开发。
摩尔线程基于新一代计算架构MUSA Compute Capability 3.1的全功能GPU,具备全新的Tensor计算引擎及数据搬运引擎,能够提供原生FP8计算能力。升级的MUTLASS高性能线性代数模板库支持MUSA Compute Capability 3.1的全新特性,并提供了若干算子的优化参考实现,包括基于FlashAttention3思想实现的FlashMLA以及FP8矩阵乘算子,特别支持DeepSeek训练所需的Groupwise Scaling FP8矩阵乘法内核函数。得益于全新的Tensor计算引擎,FP8计算具有足够高的累加精度,无需额外的二次精度修正,为前沿算法的探索打下了坚实基础。
借助MUTLASS 0.2.0,摩尔线程发布开源仓库MT-FlashMLA,能够快速对DeepSeek FlashMLA进行兼容部署。同时摩尔线程MUTLASS提供了一个全新的参考实现,充分汲取FlashAttention3的先进算法思想,针对摩尔线程GPU设计了全新的计算流水线。这一设计能够有效掩藏数据搬运的延迟和Softmax计算的开销,充分发挥摩尔线程MUSA Compute Capability 3.1全功能GPU的Tensor计算效率。
作为国内率先原生支持FP8计算精度的国产GPU企业,摩尔线程迅速响应,并快速适配DeepSeek的各个开源仓库,旨在为更多GPU开发者赋能。摩尔线程始终致力于推动开源生态的发展,通过技术开放与生态共建,加速国产全功能GPU在AI计算领域的规模化应用,为更多用户提供更智能、高效的解决方案。
相关推荐
- Python爬虫进阶教程(二):线程、协程
-
简介线程线程也叫轻量级进程,它是一个基本的CPU执行单元,也是程序执行过程中的最小单元,由线程ID、程序计数器、寄存器集合和堆栈共同组成。线程的引入减小了程序并发执行时的开销,提高了操作系统的并发性能...
- A320-V2500发动机系统FADEC介绍(2)
-
目的全权数字发动机控制(FADEC)系统在所有飞行和运行阶段提供全范围发动机控制。...
- 三国志战棋版:玩家“二叔”用这套群DOT在比武中拿下31胜5负
-
声明:本文首发于今日头条,而后发布于“鼎叔闯三棋”的微信公众号、抖音、哔哩哔哩和小红书平台,如果在其他平台就是抄袭。...
- 真正的独一无二:Dot One 推出 DNA 定制系列 139英镑起
-
相信很多人在挑选衣物时有着这样的困扰,综合了性价比、面料等因素后好不容易找到了心仪的款式,还要担心是否会撞衫,不管是擦肩而过的陌生人还是身边的熟人,都令人尴尬。小部分人为此热衷于购买少量的古着或者限量...
- 崩铁:周年庆福利再升级,老角色加强时间确定,3.xdot体系反转
-
#埃安UT大一圈高级很多#...
- Dotgo推出RBMHub,扩大了CPaaS提供商的覆盖范围和功能
-
据telecompaper网7月15日报道,用于商业消息传递的RichCommunicationServices(RCS)解决方案的领先提供商Dotgo宣布推出RBMHub。RBMHub的推出扩大了C...
- 深度解析:快照取消Dot职业的将何去何从
-
写在前面曾几何时,术士的出现便被冠以dot大师的名头,从远古时期的献祭腐蚀虹吸不如暗牧一个痛,到TBC上满dot=荣誉击杀+1,到wlk接近全暴击的冰晶腐蚀,再到CTM就算了吧MOP的各种变态吸x放...
- 星穹铁道:抽卡芙卡之前,你必须了解什么是dot!
-
卡妈终于上线了,可还是有很多人不明白什么是dot伤害,抽了卡妈直接玩起了直伤流,把一个持续伤害的引爆器玩成了打手,卡妈打dot伤害是远高于直伤的,有了卡妈的玩家一直了解dot,不然这卡妈就真被玩成四不...
- 游戏界的闪耀星辰陨落:悼念知名游戏博主″dotα牛娃″
-
无尽哀思!在数字时代浪潮中,游戏不仅是消遣娱乐的代名词,更是连接心灵的桥梁,构筑了无数人的青春回忆。在这片浩瀚无垠的游戏宇宙中,有这样一位博主,他以独特的风采、深邃的洞察力和无尽的热情,成为了玩家心中...
- 直击2017新加坡同性恋聚会Pink Dot,自由爱!
-
今年的“粉红点”又来啦~这个支持LGBT群体(男女同志、双性恋、跨性别等)群体的活动,从2009年起,已经在新加坡举办8年了!”这个非营利的同性恋权益活动,主要是希望大家了解到,不管一个人的性倾向或...
- python-dotenv,一款超级实用处理环境变量python库
-
python-dotenv,一款超级实用处理环境变量python库python-dotenv概述:...
- 亚马逊语音助手毫无征兆发笑 诡异至极吓坏用户
-
来源:新华网美国电商亚马逊7日承诺,将更改名下“亚历克萨”语音系统设置,令它不会莫名发笑,免得吓坏用户。“亚历克萨”是亚马逊开发的语音助手软件,可服从用户语音指令完成对话、播放音乐等任务。依照原来设计...
- 2022最火英文网名男女生
-
精选好听英文昵称带翻译1.moveon(离开)2.Monster(怪物)3.Solo吉他手4.Finish.(散场)...
- 智能家具 RecycleDot 的出现给传统家具厂商带来新的挑战
-
从可穿戴手环、手表到智能衣服,智能硬件逐步渗透到每一个领域。最近有一对父子MikeSandru和JohnSandru在自家的车库中设计了一款智能家具RecycleDot,给日渐萧条的家具行...
- 欧洲通信卫星公司 OneWeb 敦促印度DoT尽早批准提供卫星宽带服务
-
据telecomtalk2月17日报道,欧洲通信卫星公司EutelsatOneWeb近日敦促印度电信部(DoT)尽快批准其在印度部署双地球站网关的计划,以便连接其近地轨道(LEO)全球卫星星座,并...