
IT之家6月18日音信,“昇腾AI开采者”公众号6月17日晓示,昇腾0Day支抓GLM-5.2,为编程与长程任务提供全面推理优化。
据官方先容,当今昇腾A3系列产物仍是支抓GLM5.2的单双机以及大EP推理部署。针对GLM5.2模子的结构性格,昇腾围绕以下几个枢纽时间开展了高效推理优化:
MOE大交融算子:将众人路由、加权打算与胁制归约交融为和洽算子,摈斥中间张量冗余读写,显赫提高打算胁制。
通讯与打算交融:通过将AllReduce优化为ReduceScatter与AllGather通讯原语,并与矩阵打算变成紧耦合活水线,完了通讯延伸的有用遮掩。
重见地前措置与多Token预测优化:领受重见地前措置交融算子,聚会多Token预测(MTP)机制的加快,提高单步生成胁制。
高并发调节与预填充延伸机制:在高并发夹杂负载场景下引入预填充延伸调节,平滑打算峰值,裁汰Prefill阶段对Decode阶段的资源霸占。
智能缓存与索引优化:聚会IndexCache时间缓存高频众人旅途与静态路由表,并领受ChunkedPrefill、稀少索引检索等尺度,博亚(中国)体育app优化长高下文推感性能。
PD差异与PrefixCache:通过Prefill与Decode阶段差异及前缀缓存时间,压缩解码时延抖动,提高在线职业糊涂踏实性。
IT之家难得到,智谱6月17日晓示上线并开源GLM-5.2。在民众百万用户参与盲测的前端开采评估系统CodeArena上,GLM-5.2得到民众可用模子第一的领略。

官方示意,GLM-5.2专为长程任务智商而生,特色包括:
Solid1M高下文:踏实撑抓长程任务,多个长程任务基准标明GLM-5.2的领略介于ClaudeOpus4.7与4.8之间,是名次最高的开源模子

更强体感,更实用的Coding智商:在主流编程基准上,GLM-5.2保抓开源SOTA,与ClaudeOpus4.8处于可比区间

极致Infra优化,Day0开动在国产算力平台:在1M高下文长度下,将单元token的FLOPs裁汰至2.9倍;已在Day0完成与华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯、沐曦、海光、壁仞等国产算力平台的推理适配;预测下半年昇腾950超节点上市后,也将成为GLM-5.2强盛的算力底座
B体育(Bsports)官方网站
博亚体育app官方网站

备案号: