智谱AI“多模态处理”能力上线时间及使用指南
智谱AI的“多模态处理”能力并非一次性集中上线,而是通过持续迭代逐步完善,其核心多模态模型GLM-4V系列及GLM-Realtime的上线时间线如下:
早期多模态能力布局
- 2023年5月:开源多模态对话模型VisualGLM-6B(CogVLM),支持图像与文本交互,标志着智谱AI在多模态领域的初步探索。
- 2023年10月:发布第三代ChatGLM3系列模型,推出新一代多模态大模型CogVLM,进一步强化图像理解能力。
GLM-4V系列多模态模型上线
- 2024年1月:GLM-4基座大模型发布,同步推出GLM-4V系列多模态模型,支持图像与文本的联合推理,适用于看图说话、视觉问答等场景。
- 2024年6月:发布GLM-4V-9B模型,在视觉理解任务上表现卓越,支持多语言及复杂场景下的图像分析。
- 2024年12月9日:GLM-4V-Flash模型上线,作为首款免费多模态视觉模型,继承4V系列能力并提升图像处理精确度,开发者可通过API免费调用。
GLM-Realtime端到端多模态能力上线
- 2025年1月16日:GLM-Realtime模型发布,支持近乎实时的视频理解、端到端语音交互及清唱功能,记忆长度达2分钟,并支持Function Call功能,该模型API已上线智谱AI开放平台,现阶段可免费调用。
开发者如何使用多模态能力
智谱AI通过开放平台提供多模态模型API,开发者可按以下步骤接入:

- 注册与认证:访问智谱AI开放平台(bigmodel.cn),完成账号注册及开发者认证。
- 选择模型:根据需求选择GLM-4V系列(图像处理)或GLM-Realtime(视频/语音实时交互)。
- API调用:通过平台提供的SDK或RESTful API接口,快速集成多模态能力至现有应用。
- 测试与优化:利用平台提供的免费测试额度,验证模型效果并调整参数。
适用场景与案例
- 图像处理:GLM-4V系列适用于电商商品描述生成、医疗影像分析等场景。
- 视频理解:GLM-Realtime可应用于实时监控、视频内容摘要生成等领域。
- 语音交互:支持智能客服、语音助手等场景的实时对话与指令执行。
未来展望
智谱AI计划每3-6个月更新一次模型,持续优化多模态能力,开发者可关注平台动态,及时获取新模型及功能升级信息。
智谱AI的多模态处理能力已通过GLM-4V系列及GLM-Realtime模型逐步落地,开发者可通过开放平台免费或低成本调用相关API,快速实现多模态应用开发,建议开发者根据实际需求选择模型,并持续关注平台更新以获取更优体验。
-
喜欢(11)
-
不喜欢(3)

