MoE模型已成新风口,AI基础设施竞速升级
haoteby 2025-06-09 22:07 12 浏览
机器之心报道
编辑:Panda
因为基准测试成绩与实际表现相差较大,近期开源的 Llama 4 系列模型正陷入争议的漩涡之中,但有一点却毫无疑问:MoE(混合专家)定然是未来 AI 大模型的主流范式之一。从 Mixtral 到 DeepSeek 再到 Qwen2.5-Max 以及 Llama 4,越来越多的 MoE 架构模型正在进入世界最前沿模型之列,以至于英伟达也已开始针对 MoE 架构设计和优化自家的计算硬件。
但是,MoE(尤其是大规模 MoE)也会给 AI 基础设施带来不一样的挑战。昨天,在 AI 势能大会下午的 AI 基础设施峰会上,阿里云智能集团副总裁、阿里云智能计算平台事业部负责人汪军华就谈到了 MoE 架构特有的一些困难,包括 token drop 选择对吞吐的影响、在路由专家与共享专家之间考虑效率和效果的权衡、专家的选取数量和比例等。
汪军华表示 AI 范式正在向 MoE 和推理模型演进
阿里云已经在解决这些难题上取得了重大进展。峰会上,针对 MoE 架构的模型,阿里云宣布基于 PAI-DLC 云原生分布式深度学习训练平台推出了 FlashMoE,这是一款支持超大规模 MoE 混合精度训练的高性能训练框架,具有多种强大特性,包括支持多种 token 路由策略、支持上下文并行与张量并行解耦等。
当然,阿里云在 AI 基础设施上的布局远不限于 MoE。无论是硬件算力的投入,还是一体化的训练和推理服务,它都在用硬核实力夯实自己的领先地位。在这场 AI 基础设施的竞赛中,阿里云已然抢占先机。
从算力到安全
阿里云这样构建 AI 基础设施
从算力基础到弹性灵活的解决方案,再到存储与网络技术,以及至关重要的安全能力,阿里云正在不断演进面向 AI 时代的基础设施,以提高其产品力和用户体验。
首先,在基础算力方面,阿里云宣布 ECS 第 9 代 Intel 企业级实例正式开启商业化,其基于英特尔第六代至强处理器 GNR,搭配阿里云最新 CIPU 架构,可让集群性能相对前代提升最高达 20%,同时价格较上代再降 5%。
今年也是阿里云弹性计算 15 周年,AI 驱动的阿里云基础设施将持续面向更高性能、更稳定的架构和产品深入演进。
在强大算力的基础上,阿里云还在对灵骏集群不断进行优化。阿里云智能集团副总裁、阿里云智能弹性计算、存储产品线负责人吴结生表示:「我们针对 AI 负载进行了大量优化,把灵骏集群构造成了云超级计算机。」总结起来,灵骏集群的技术体系包含 4 个创新点,包括 HPN 高性能网络、CPFS 高性能文件存储、定制化的 AI 服务器以及强大的故障检测能力。
首先,在网络技术方面,阿里云设计的 HPN 7.0 高性能网络架构是灵骏集群的核心网络技术,能让机器更高效、更紧密的合作。实际效果上,利用 HPN7.0 高性能网络架构,可实现单集群10 万张 GPU 卡互联,同时提供 3.2T 跨机带宽。
其次,值得一提的是灵骏管控和自愈系统,这能降低故障频次,缩短故障恢复时间,从而增强集群的稳定性,提高算力的使用率 —— 在万卡级超大规模训练中,一个月内灵骏 GPU 集群有效训练时长占比超过 93%。
为了保证 AI 业务稳定,算力很重要,高性能且可靠的存储也必不可少。对此,阿里云给出的解答是 CPFS(Cloud Parallel File Storage)高性能存储与 OSS(Object Storage Service)对象存储服务。
其中,CPFS 适用于高性能计算,支持对数据毫秒级的访问和百万级 IOPS 的数据读写请求,能实现 40 GB/s 的单客户端吞吐性能。
CPFS 还针对 AI 应用进行了优化,在实现高性能并行的同时,还支持端侧缓存和分层存储(包括 KV Cache),从而能高效率和低成本地满足 AI 的训推需求。
OSS 则适用于存储大量非结构化数据,适用于多种计算引擎和 AI 框架,具有海量、安全、易集成、低成本、高可靠的优势。在 AI 基础设施峰会上,阿里云宣布推出高性能的 OSSFS 2.0,这是一款专门用于通过挂载方式高性能访问 OSS 的客户端,它具备出色的顺序读写能力,可充分发挥 OSS 的高带宽优势。此外,阿里云还宣布首次将缺省 100 Gbps 吞吐性能扩展到了海外(新加坡)。OSS 同城冗余也已在吉隆坡上线,现已覆盖全球 12 个地域。
阿里云也为 CPFS 和 OSS 之间的数据流动构建了高速、高带宽的通道,使训练或推理框架可以通过文件系统的接口访问 OSS。
安全与稳定性同样也是许多 AI 应用开发者关注的核心问题之一,而阿里云已经构建了一整套用以保障算力稳定供给和数据安全的体系,其中包括 20 多款云产品和近百项可一键开启的安全能力。
面向 MoE 结构和推理模型
AI 范式正在演进
正如开篇所说,MoE 模型架构与推理模型正在不断推动 AI 训推的范式升级,在本次发布上,阿里云人工智能平台 PAI 针对性地推出一系列新能力。
在模型构建方面,针对推理模型,阿里云推出了 PAI-Chatlearn 和 Post-training on PAI-DLC。其中前者是一种支持 RLHF、DPO、OnlineDPO、GRPO 等多种强化学习算法的大规模对齐训练框架,同时也支持用户自己开发的强化学习算法,并且适配 Megatron、vLLM、DeepSpeed 等多种框架。不仅如此,PAI-Chatlearn 还是开源的。而后者则包含 SFT 等后训练能力,支持 Ray on DLC、统一调度、Serverless、Ray Dashboard 和开发机等功能。
而对于 MoE 模型,前文已经提到了基于 PAI-DLC 的 FlashMoE,其实际表现可说是相当亮眼:在万卡规模上,可将 MoE 训练的 MFU(模型 Flops 利用率)提升到 35-40%。
而在推理加速方面,阿里云同样没有落下。直接上数据。
首先,阿里云推出的全新模型权重服务将 1-100 节点的冷启动速度提升了 21 倍;如果从 50 个节点扩容到 100 个节点,则分布式推理系统的规模化扩容效率可提升 12 倍。
而基于 KV Cache 的分布式推理服务 PAI-EAS 可将千万级活跃用户场景的 KV Cache 命中率提升 10 倍!基于 3FS 的存储系统 IO 效率获得了大幅提升(读吞吐提升了 43%,写吞吐提升了 27%)。
另外,PAI-EAS 具备负载感知的 PD 分离架构,端到端服务吞吐提升 91%。
针对 MoE 模型,阿里云宣布推出了针对性的分布式推理引擎 Llumnix,通过在请求层面、请求内和硬件并行策略方面的精心设计,相比于 Round-robin 请求调度方案,可将 TTFT(首 token 延迟)降低 92%(P99),将 TPOT(每输出 token 延迟)降低 15%(P99)。
此外,阿里云也对云原生大数据服务 MaxCompute 进行了全面的 AI 升级,发布了 AI Function,可支撑用户构建 Data+AI 一体化工作流。
同时,阿里云在会上宣布大数据 AI 产品全面拥抱 MCP,大数据开发治理平台 DataWorks 发布基于 MCP 的 Agent 服务,DataWokrs 和 Hologres 发布了 MCP Server。
智能时代的数据库
让数据和 AI 更近
有了高效算力和平台,要创造足够好的 AI 应用,数据也是必不可少的一环。正如阿里云智能集团副总裁、阿里云智能数据库产品事业部负责人李飞飞说的那样:数据、算法、算力是智能时代的三大要素。因此,对数据库范式的革新也必不可少。那么智能时代对数据库的最核心需求是什么呢?李飞飞认为是「对多模态数据的智能化管理」。
为此,阿里云正在不断创新。此次峰会上,阿里云重点介绍了其数据库产品的一系列重磅升级。
首先,阿里云宣布实现了模型即算子(Model as an Operator)的 In-DB AI 功能,也就是说可以将模型作为算子直接内嵌到数据库中。这样做具有明显的好处,包括能使用更低的推理成本获得同等的 AI 能力、可以通过 SQL 语句轻松调用、可避免企业私有数据出域。李飞飞表示,阿里云会在今年内让 PolarDB、Lindorm 和 AnalyticDB 都支持 In-DB AI。
阿里云在数据库方面的另一大重要举措是采用了 Data+AI 的设计理念。具体来说,通过统一 CPU 和 GPU 资源池,瑶池数据库实现了资源池化,支持分时分片弹性调度,进而帮助客户降本增效。
此外,阿里云还宣布将 Tair 从互联网架构演进成了面向 AI 时代的架构:通过基于 Tair 内存池的 KV Cache 多级管理,可为大模型推理提供高效的 KV Cache 存储和复用。同时,Tair KVCache 还支持多租隔离、资源配额、故障恢复等企业级管理能力。
当然,阿里云数据库产品的升级之路还将继续向前。阿里云透露将于今年下半年发布全球首款基于 CXL(Compute Express Link)交换机的数据库专用服务器。CXL 高速互联技术可以进一步提升三层解耦架构下计算与内存之间的通信带宽与效率。与传统的 RDMA 高速网络相比,CXL 技术可将内存交互的性能提升一个数量级。
用 AI 基础设施支撑智能未来
阿里云准备好了
在 AI 迅猛发展的今天,强大的算力已成为驱动创新的核心动力。阿里云深刻洞察这一趋势,持续加大在 AI 基础设施领域的投入,致力于为全球用户提供高效、稳定的计算资源。
现在,依托于在 AI 基础设施上的创新和投入,阿里云已为开发者和企业搭建了一个坚实的平台,使他们能够专注于算法创新和应用开发,而无需过度关注底层计算资源的限制。而这正是 AI 大规模应用的重要基础。
正如吴结生说的那样:「云计算是一种公共服务。随着 AI 的发展,智能会变成一种资源,就像水和电一样。这样一来,token 就变成了一种商品。云上的算力正在以这种公共服务的方式给大家提供这种商品,从而普及 AI,让 AI 走进千行百业,让 AI 实现大众化和规模化。」
而当智能成为一种「资源」,基础设施的供给能力,也将决定 AI 能走多远、飞多高。
阿里云正携手企业和开发者,共同迈向智能化的未来。在这场奔赴未来的基建竞速中,阿里云,已在路上。
关注飞天发布时刻,及更多精彩发布内容: https://summit.aliyun.com/apsaramoment
相关推荐
- 谷歌开源大模型评测框架正式发布,AI模型评测难题迎刃而解
-
近日科技巨头谷歌正式推出其开源大模型评测框架LMEval,这一创新工具为全球AI开发者和企业提供了标准化的模型评估解决方案。LMEval的发布不仅标志着AI模型评测迈入透明化时代,更通过多项核心技术...
- Android 开发中文引导-动画和图形概述
-
安卓系统提供了各种强大的API,用来将动画应用于界面元素和自定义2D和3D图形的绘制当中。下面的小节大概的描述了可用的API和系统功能并帮助你决定那个方案最适合你的需要。动画安卓框架提供了两种动画系统...
- Qt5 C++入门教程-第12章 绘图(QPainter)
-
QPainter类在Qt5中进行绘图时起着重要作用。绘图操作是通过QPainter类在响应paintEvent方法时完成的。线条在第一个示例中,我们在窗口的客户区绘制了一些线条。line...
- 文创测评︱《如意琳琅图籍》:本土原创解谜书的胜利?
-
设想这样一个场景,你打开一本书,就化身为乾隆三十六年紫禁城中的画画人周本,有一天你在故纸堆中找到一本神秘的《如意琳琅图籍》,踏上寻宝旅程,历经各种离奇复杂的故事……这是故宫与奥秘之家联手打造的创意解谜...
- gif动图制作攻略!快快收藏(求gif制作的动图)
-
有事没事斗图玩是当下人们乐此不疲的事情,手里的gif动图也渐渐成为了人们抬杠互怼的一大资本。好有趣,好炫酷,gif是怎么做出来的?我也想做。什么?你不会?没关系,我来教你!首先介绍一下制作gif动图需...
- eduis未能初始化界面 无法启动 问题解决办法
-
1.如果edius安装后启动后出现failedtoinitializeskin中文提示无法初始化界面的错误。这说明你的电脑安装了双显卡,而edius所使用的是图形显卡。可以选择edius图标右键...
- Flash Player模拟器更新:Rufffle(flash模拟器安卓下载高版本)
-
Ruffle是一个适用于WindowsPC的FlashPlayer模拟器,用Rust编写。Ruffle作为一个独立的应用程序在所有现代操作系统上原生运行,并通过使用WebAssembly在所有现代...
- 支持终身免费4G流量,星星充电7kW星际智能交流充电桩拆解
-
前言近期星星充电推出了一款星际智能交流充电桩,在正面设有灯条,可根据灯条颜色和显示直观了解充电状态,并设有屏幕显示充电状态和ui表情。充电桩支持220V/7kW充电功率,适配主流新能源车型。并支持终身...
- 乐动随心之fancy pop(乐动随心壶多少钱一个)
-
跳动飞扬的音符像是连通人与人之间心电感应的通关密码,融化陌生,拉近彼此。此次我们邀请到宅男女神江语晨,化身音乐精灵。在歌手、演员身份间游刃自如的她,为我们生动诠释了三种不同的音乐时尚风格,娴静可爱,灵...
- Asus Zenflash 手机也能玩引闪,从此相机是路人
-
在讲解Zenflash之前,不得不提索爱的K750c,这个机器采用了氙气闪光灯,让手机的拍摄上了档次,可玩性更高,不过,说实话,当时手机的摄像头像素低,成像一般,没有掀起太大的波澜,可现在,手机的Cm...
- Axure有哪些鲜为人知的使用技巧?(axure的使用教程)
-
阿拓带你飞:不管是想入门产品经理还是已经是PM的人对AXURE都很关注,它是制作产品原型的重要工具,但是有多少人了解AXURE的使用技巧?本文是来自“知乎问答”整理的回答,一起来看看那些不常用的使用技...
- 挑战黑夜 华硕ZenFlash氙气闪光灯评测
-
【机锋配件】说到摄影,相信许多朋友都非常喜欢,不管是外出游玩拍拍风景,还是和朋友之间聚会,都会掏出手机拍两张,在餐前拍照晒朋友圈更是成为了许多用户的日常爱好,就算不是专业的摄影爱好者,大家也都有一颗热...
- WPS 演示倒计时 3 步设置!从数字动画到进度条全场景教程
-
做PPT时想添加倒计时却找不到入口?WPS演示自带的"动画+计时"功能就能轻松实现——无论是课堂互动的30秒答题倒计时、商务汇报的5分钟限时讲解,还是活动暖场的动...
- flash动画an制作MG动画元素如何调节透明度,小白...
-
如何在flash动画软件里面调节mg动画元素的透明?因为flash动画软件现在已经升级为flash动画软件,所以直接用新版flash动画软件开工,基本功能都差不多,只是flash增加很多智能化、人性...