2025 年 8 月 11 日,北京——智谱宣布推出并全面开源新一代多模态大模型 GLM-4.5V。该模型以 106 B 总参数、12 B 激活参数的规模,在 41 项公开视觉多模态基准测试中获得同级别开源模型 SOTA(State-of-the-Art)成绩,标志着全球多模态推理能力的新高度。

一键直达开源与体验
Hugging Face:huggingface.co/collections/zai-org/glm-45v
在线体验:z.ai 或智谱清言 APP「推理模式」
性能与成本兼顾
| 指标 | GLM-4.5V |
|---|---|
| 输入价格 | 2 元 / 百万 tokens |
| 输出价格 | 6 元 / 百万 tokens |
| 响应速度 | 60–80 tokens/s |
| 免费额度 | 新、老用户各 2000 万 tokens |
五大核心能力
视觉定位:一句话即可在图中精准框选目标,支持安全质检、遥感分析等高价值场景。
前端复刻:上传网页截图或操作视频,自动生成可运行的 HTML+CSS+JS 代码,实现“所见即所得”的开发体验。
地点推理:仅靠街景细节即可推测精确经纬度,在「图寻游戏」中 7 天杀入全球 Top 100,击败 99% 人类玩家。
长文档解析:数十页含图表的研报一键总结、翻译并给出观点,图文一体阅读避免 OCR 误差。
GUI Agent:实时理解屏幕内容,完成图标定位、信息提取、折扣计算等复杂桌面任务,为 Agent 生态提供强力基座。
技术亮点
支持 64 K 多模态长上下文,图像、视频原生输入。
三维卷积 + 3D-RoPE,强化时空关系建模。
三阶段训练:大规模预训练 → 思维链 SFT → 多领域强化学习(RLVR+RLHF)。
桌面助手 Demo 同步开源
为了让开发者快速上手,官方同步开源了 GLM-4.5V-Demo-App,可实时截屏/录屏并与模型对话,完成代码辅助、视频分析、游戏攻略、文档解读等任务。
体验地址:huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App
-
喜欢(0)
-
不喜欢(0)

