加速国产GPU开发!摩尔线程开源高性能计算库MUTLASS
11月12日消息,加速计算摩尔线程宣布,国产正式开源高性能线性代数模板库MUTLASS,开库以便开发者能够更高效地针对摩尔线程GPU MUSA Core、发摩Tensor Core等单元进行编程,尔线加速基于国产GPU的程开算子开发以及算法创新。
在此之前,源高摩尔线程已经相继开源OpenCV-MUSA计算机视觉库、加速计算MooER音频理解大模型、国产vLLM-MUSA大语言模型高速推理框架。开库
▼ MUTLASS开源地址:
https://github.com/MooreThreads/mutlass
在数值计算和深度学习领域,发摩矩阵乘法(GEMM)及其变种,尔线比如FlashAttention、程开Convolution,源高是加速计算构建复杂上层应用的基石。
不够,为了追求更高的算子融合效率,或者更创新的算法,开发者们往往需要超越标准化计算接口的限制,如标准BLAS接口以及芯片厂商的计算库接口,以实现高性能的定制化算子。
MUTLASS(MUSA Templates for Linear Algebra Subroutines)正是为满足这一需求而设计。
作为摩尔线程专为自研MUSA架构优化的高性能计算库,MUTLASS是基于开源模板库CUTLASS进行的MUSA适配和定制化开发、优化。
针对矩阵乘法及相关变种,MUTLASS提供了一系列高性能的C++模板组件,并采用了与muDNN库类似的分层分解及数据搬运策略,以确保性能的充分发挥。
在本次开源的版本中,摩尔线程适配了CuTe后端库,为其增加了第三代MUSA架构的MMA计算原语,支持TF32/FP16/BF16/INT8等多种数据精度,并以此为基础,初步实现了矩阵乘法、默认实例库、性能测试器及相关工具包的支持。
借助MUTLASS,开发者们既可以灵活复用不同层级的模板组件,也可以按需修改各种模板组件的实现细节,以较低的开发成本实现定制化的高性能算子,从而在摩尔线程全功能GPU上充分释放性能,并尝试更多的算法创新。
摩尔线程将持续优化MUTLASS的性能,并不断引入新的功能。
(责任编辑:焦点)
- ·联想新掌机Legion Go S配备AMD锐龙Z2 Go:架构居然还是Zen3
- ·帕尔默:每个人都知道杰克逊是顶级球员,我们对他评价很高
- ·比亚迪方程豹豹8推送首次OTA:全球首创暴力模式来了
- ·清华校花网络走红被赞叹:这就是神仙妹妹
- ·保费比油车高63%!揭秘新能源车老被拒保的真实原因:你后悔买了吗
- ·又一个ACL!记者:尤文后卫卡巴尔左膝十字韧带受伤,赛季报销
- ·浙大台籍研究员许志宏:两岸医学领域合作空间大 互补性强
- ·阿斯:德容仍没有确定回归日期,俱乐部认为他有意两年后自由离队
- ·生涯首次首发!淡厚然25分钟砍下11分6板2帽 助队大胜67分
- ·[流言板]Stein:火箭对杜兰特的交易兴趣从一开始就被夸大了
- ·[流言板]祖巴茨单场20分20篮板3抢断,快船队史上一个是2015年小乔丹
- ·本赛季重生傅欢面对谭龙关键封堵!曾在亚冠放弃防守遭球迷吐槽
- ·慢镜头:齐尔克泽不在阿莫林的计划之内,曼联愿意外租
- ·[流言板]手感火热!威金斯接库里传球三分强投命中,开局连得7分
- ·[流言板]致胜篮板!AD关键时刻两罚不中,八村垒点出前场板锁定胜局
- ·阿圭罗:无论曼城踢什么比赛都是热门,瓜帅是俱乐部的关键人物
- ·海牛追平南通!博阿基耶被抱倒地,VAR介入主裁补点球,康瓜罚进
- ·REDMI K80全系标配超声波指纹:由汇顶科技提供
- ·继续进步!淡厚然首发出战25分钟 6中3得到8分4板1助1帽
- ·中国首部万米高空犯罪大片!刘德华《危机航线》今日上线爱优腾