智谱联合华为开源图像生成模型 GLM-Image_智能系统_资讯头条

智谱联合华为开源图像生成模型 GLM-Image

2026-01-14 网易 184 0

核心提示：智谱联合华为开源图像生成模型 GLM-Image

1月13日，智谱联合华为开源新一代图像生成模型GLM-Image，在科普插画、多格图画、社交媒体图文、商业海报、写实摄影等方面均可落地。

图片由GLM-Image生成

GLM-Image是首个在国产芯片上完成全程训练的SOTA多模态模型，全流程均在昇腾Atlas 800T A2设备上完成，验证了在国产全栈算力底座上训练前沿模型的可行性。

依托昇腾NPU和昇思MindSpore AI框架，使用动态图多级流水下发、高性能融合算子、多流并行等特性，智谱自研了模型训练套件，全面优化数据预处理、预训练、SFT和后训练的端到端流程。通过动态图的多级流水优化机制，将Host侧算子下发的关键阶段流水化并高度重叠，消除下发瓶颈；通过多流并行策略，通信和计算互掩，打破文本梯度同步、图像特征广播等操作的通信墙，极致优化性能；使用AdamW EMA、COC、RMS Norm等昇腾亲和的高性能融合算子，同步提升训练的稳定性和性能。

近期，以Nano Banana Pro为代表的闭源图像生成模型正在推动图像生成与大语言模型的深度融合。技术范式正从单一的图像生成，进化为兼具世界知识与推理能力的认知型生成，这些模型在海报、PPT、科普图等知识密集型场景及高保真细节呈现上表现较好。

据了解，GLM-Image采用自主创新的“自回归+扩散解码器”混合架构，实现了图像生成与语言模型的联合，API调用模式下，生成一张图片仅需0.1元，速度优化版本即将更新。

GLM-Image所涉及的“自回归”架构利用其语言模型的底座优势，专注于提升对指令的语义理解和画面的全局构图；“扩散解码器”则配合Glyph Encoder的文本编码器，专注于还原图像的高频细节和文字笔画，以此改善模型“提笔忘字”的现象。

(责任编辑：小编)

点赞 0 反对 0 举报 0 收藏 0 打赏 0 评论 0

免责声明

•: 本文仅代表作者个人观点，本站未对其内容进行核实，请读者仅做参考，如若文中涉及有违公德、触犯法律的内容，一经发现，立即删除，作者需自行承担相应责任。涉及到版权或其他问题，请及时联系我们228559116@qq.com

0 条相关评论

• “可感知、会思考、快响应”的智能巡检系统	• Waymo全无人驾驶再下一城！接入网约车网络，车
• 全新奥迪Q5L高阶版支持华为智能驾驶	• AI 驱动的大数据自治：TCInsight 智能应对复杂
• 特斯拉官方：智能辅助驾驶，关键在于人工智能而	• 我国量子科技研究取得新突破量子网络走向现实
• 小鹏自动驾驶、智能座舱中心合并，新成立通用智	• 智能工厂探索制造新模式
• 迎接数字生命：一文看懂忽然爆火的Clawdbot 本	• 百度智能云上调AI相关收入增速目标至200%，冲刺

特色频道

扩展专区

用户专区

智谱联合华为开源图像生成模型 GLM-Image

头部企业微软也扛不住AI烧钱

大模型中标TOP10里的黑马：中关村科金的应用攻坚之道