阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%
haoteby 2025-09-05 23:20 11 浏览
闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
既能提升模型能力,又不显著增加内存和时间成本,LLM第三种Scaling Law被提出了。
对于1.6B模型,能实现性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6。
并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。
这就是阿里通义团队提出的PARSCALE。
目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。
阿里通义团队提出的新范式受CFG(无分类器引导)双路径推理机制的启发。
他们将CFG的并行思想从 “生成阶段的推理优化” 扩展为 “训练和推理全流程的「计算缩放」”。
让我们来扒一扒技术细节。
将CFG的并行思想扩展到计算缩放
PARSCALE对于CFG双路径的灵感迁移
CFG 通过同时运行有条件生成(输入提示词)和无条件生成(不输入提示词)两条路径,再通过加权平均融合结果,提升生成质量(如文本相关性、图像细节精准度)。
其核心在于利用并行计算(两次前向传播)增强模型决策的多样性和准确性,而无需增加模型参数。
研究人员观察到CFG的有效性可能源于计算量的增加(两次前向传播),而非单纯的条件引导。
由此提出假设:并行计算的规模(如路径数量)可能是提升模型能力的关键因素,而非仅依赖参数规模或推理时间的串行扩展(如生成更多token)。
CFG用2条并行路径提升性能,PARSCALE则将路径数量扩展为P条(如P=8),并通过可学习的输入变换和动态聚合,使并行计算成为一种可扩展的 “计算缩放” 范式。下图展示了PARSCALE方法。
PARSCALE改进的并行计算框架
1、输入层:可学习的多路径输入变换
核心改进是将CFG的固定双路径扩展为P条可学习的并行路径,每条路径通过可训练的前缀嵌入生成差异化输入。
- 前缀嵌入生成:为每个并行路径引入可训练的前缀向量(维度与输入嵌入一致),拼接在原始输入前,形成路径专属输入。
- KV缓存区分:在Transformer的注意力层中,不同路径的键(K)和值(V)缓存相互独立,确保各路径的计算互不打扰,增强输出多样性。
2、计算层:并行前向传播
- 并行执行:将P个差异化输入同时输入模型,利用GPU的并行计算能力,一次性完成P路前向传播,生成P个输出流。
- 效率优势:通过批量矩阵运算实现P路并行,计算效率随P线性增长,共享模型主体参数,仅增加前缀嵌入等少量可训练参数。
3、输出层:动态加权聚合
通过多层感知机(MLP)动态计算各路径输出的聚合权重,替代 CFG 的固定权重机制:若某路径输出与当前输入语义匹配度高,MLP 会为其分配更高权重。
PARSCALE更高效
PARSCALE vs. 参数扩展
当P=8时,1.6B参数模型在HumanEval的性能(Pass@1=39.1%)接近4.4B参数模型(Pass@1=45.4%),但内存占用仅为后者的1/22,延迟增加量为1/6。
在GSM8K数学推理任务中,P=8使1.8B模型性能提升34%(相对基准),显著高于参数扩展的增益。
两阶段训练策略
阶段1:用传统方法预训练模型至收敛(1Ttokens)。
阶段2:冻结主体参数,仅训练前缀嵌入和聚合权重(20Btokens,占总数据的 2%)。
P=8模型在GSM8K上提升34%,且与从头训练效果相当,证明少量数据即可激活并行路径的有效性。且该策略使训练成本降低约 98%
适配现有模型
研究团队在Qwen-2.5-3B模型上进行持续预训练和参数高效微调(PEFT),仅调整前缀和聚合权重。
结果显示,在代码生成任务(HumanEval+)中PEFT 方法使Pass@1提升15%,且冻结主体参数时仍有效,证明动态调整 P 的可行性。
PARSCALE通过可学习的多路径输入、动态聚合权重、全流程并行优化,将CFG的 “双路径启发” 升级为一种通用的计算缩放范式。
感兴趣的朋友可到官方查看更多细节~
论文链接:https://arxiv.org/abs/2505.10475
代码地址:https://github.com/QwenLM/ParScale
参考链接:https://x.com/iScienceLuvr/status/1923262107845525660
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
相关推荐
- 引爆朋友圈!我用npx一行命令“偷”光了微信热门文章
-
嘿,各位朋友们,大家好!怎么优雅地获取微信公众号的热门文章?你可能会说,这不就是爬虫吗?用Pythonrequests+BeautifulSoup,或者Node.jsaxios+che...
- Islands Architecture(孤岛架构)在携程新版首页的实践
-
一、项目背景2022,携程PC版首页终于迎来了首次改版,完成了用户体验与技术栈的全面升级。作为与用户连接的重要入口,旧版PC首页已经陪伴携程走过了22年,承担着重要使命的同时,也遇到了很多问题:...
- 开源的 Gitee+ 微信小程序,提供仓库浏览、检索等功能
-
总在用我们国产的码云Gitee代码托管平台,但该平台还没有一个我用着顺手的小程序,于是Gitee+就诞生了。界面截图:仓库地址请在Gitee上搜索“Gitee+”。准备工作在开发Gite...
- 首例iPhone 15 Pro电池鼓包事件出现 原因可能是过热
-
iPhone15Pro和iPhone15ProMax的过热问题早已传得沸沸扬扬,一些用户抱怨这两款旗舰机手感过热。不过,他们都没有遇到电池鼓包的问题,直到今天,一位Redditor...
- 一看就会一搭就废?分享7个亲测有效的穿搭“套路”
-
晚上好啊~最近写了不少穿搭稿,每次看评论经常能看到这样的留言:眼睛:我已经学会了~手:我有自己的想法。还有同学留言:一看就会,一搭就废。不奇怪!知易行难嘛。明明学了很多穿搭技巧,等到自己要穿的时候就忘...
- 十个网络安全小技巧 防止个人信息泄漏
-
随着社会的进步和发展,个人信息泄露事件层出不穷。当个人信息泄漏后,轻则会收到漫天飞舞的短信,重则可能造成经济损失。因此为了不影响正常的生活,需要时时刻刻警惕自己的信息不被泄露。那么如何才能有效地防止个...
- 2018国家网络安全宣传周系列动漫③丨如何防止电脑被偷窥?这几招教你逮住黑客
-
来源:光明网2018国家网络安全宣传周系列动漫③——个人电脑安全篇电脑已经成为人们日常重要的工具之一,但电脑安全防护意识却在大众心目中并不完善,再之,信息安全系统的不完善,很容易成为黑客的攻击目标。无...
- 「网络安全宣传周」送您一份安全上网指南
-
网络安全学习9月17日-24日是国家网络安全宣传周,今年的主题是“网络安全为人民,网络安全靠人民”。我们作为一名合格的好网民,要具备一定的网络安全知识和网络安全防护技能,更要注意提高网络安全意识,防范...
- 职场达人都在偷偷用的Excel神技:WEEKDAY函数让日期秒变星期几
-
你是不是经常需要查看某个日期对应星期几?还在手动翻日历?作为Excel函数专家,今天我要教你一个超实用的技巧——用WEEKDAY函数一键判断日期是周几!这个函数看似简单,但灵活运用能解决工作中的各...
- 制作 Excel 日历的两种思路:手动创建和 使用公式动态生成
-
制作Excel日历主要有两种思路:手动创建(简单灵活)和使用公式动态生成(自动更新)。下面我将分别介绍两种方法,并提供详细步骤:...
- Web OS 时代就在眼下,只是你还没注意到 App as a Browser 这个事实
-
这篇文章由36Kr新来的99(1999)后作者Link编译得来。文章作者LukeWroblewski是现任Google产品主管,他此前参与创立的Bagcheck和Polar...
- 如何在Form表单中添加WebBrowser控件,vba编程学习
-
vba编程中,如果需要显示某个网页的内容可以使用WebBrowser控件来实现。方法也比较容易,下面介绍一下如何在Form中添加WebBrowser控件。1、打开WindowsExcel,同时按A...
- DevExpress Demo示例展示:媲美Excel的电子表格控件
-
今天介绍一个很强大的电子表格(Spreadsheet)控件:DevExpressSpreadsheetforASP.NETMVC。它是一个仿ExcelUI的电子表格控件,可完全无障碍读写...
- Word,Excel,PPTOffice文件Web浏览器预览
-
前两天接到一个需求:需要在线预览用户上传的Word,Excel,PPT文档前端同事一听到这个需求,心里就开始骂了,什么鬼需求啊,浏览器怎么打开Word,Excel吗?这个要开发一个浏览器插件,这...
- web报表工具有什么好推荐_webi报表
-
接触数据分析,到深入参与企业数字化转型和数据行业建议,已将近8年多,对数据分析、报表工具还是有些个人经验。我从个人的经验角度,和大家说说我用过哪些web报表工具。首先是开源的web报表:BIRTPr...