网站目录

全球多模态推理新标杆,GLM-4.5V正式上线并开源

人工智潮3545个月前

2025 年 8 月 11 日,北京——智谱宣布推出并全面开源新一代多模态大模型 GLM-4.5V。该模型以 106 B 总参数、12 B 激活参数的规模,在 41 项公开视觉多模态基准测试中获得同级别开源模型 SOTA(State-of-the-Art)成绩,标志着全球多模态推理能力的新高度。

全球多模态推理新标杆,GLM-4.5V正式上线并开源

一键直达开源与体验

性能与成本兼顾

指标GLM-4.5V
输入价格2 元 / 百万 tokens
输出价格6 元 / 百万 tokens
响应速度60–80 tokens/s
免费额度新、老用户各 2000 万 tokens

五大核心能力

  1. 视觉定位:一句话即可在图中精准框选目标,支持安全质检、遥感分析等高价值场景。

  2. 前端复刻:上传网页截图或操作视频,自动生成可运行的 HTML+CSS+JS 代码,实现“所见即所得”的开发体验。

  3. 地点推理:仅靠街景细节即可推测精确经纬度,在「图寻游戏」中 7 天杀入全球 Top 100,击败 99% 人类玩家。

  4. 长文档解析:数十页含图表的研报一键总结、翻译并给出观点,图文一体阅读避免 OCR 误差。

  5. GUI Agent:实时理解屏幕内容,完成图标定位、信息提取、折扣计算等复杂桌面任务,为 Agent 生态提供强力基座。

技术亮点

  • 支持 64 K 多模态长上下文,图像、视频原生输入。

  • 三维卷积 + 3D-RoPE,强化时空关系建模。

  • 三阶段训练:大规模预训练 → 思维链 SFT → 多领域强化学习(RLVR+RLHF)。

桌面助手 Demo 同步开源

为了让开发者快速上手,官方同步开源了 GLM-4.5V-Demo-App,可实时截屏/录屏并与模型对话,完成代码辅助、视频分析、游戏攻略、文档解读等任务。

体验地址:huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App

分享到:
  • 不喜欢(0

猜你喜欢

网友评论

人工智潮

把握人工智能技术的潮流动态。

347 文章
0 页面
131 评论
546 附件
人工智潮最近发表
随机文章
侧栏广告位
狗鼻子AI工具导航网侧栏广告位
最新文章
随机标签