跳到主要内容

多模态集成

微语系统支持多模态能力,可以理解和处理用户上传的图片、视频和音频内容,并结合知识库给出精准回答。本文档将介绍微语系统的多模态功能及其应用场景。

概述

多模态集成是指系统能够处理文本、图像、视频、音频等多种形式的信息输入,并将其转化为统一的知识表示,从而实现跨模态的信息理解与响应。微语系统集成了先进的多模态模型,使客服机器人能够:

  • 读取并理解用户上传的图片内容
  • 提取视频中的关键信息和场景
  • 转录并理解音频内容
  • 结合企业知识库,对多模态内容进行专业解答

使用步骤

下面以智谱AI为例说明

导入/创建视觉模型

llm_zhipu_multi_model

配置视觉模型

修改模型提供商

llm_zhipu_multi_model_choose

选择视觉模型

llm_zhipu_multi_model_vision

预览

支持图片问答

llm_zhipu_multi_model_chat

支持显示答案引用来源

llm_zhipu_source

总结

微语系统的多模态集成能力大大拓展了智能客服的服务边界,使系统能够处理更加丰富的用户输入形式,提供更加全面、精准的服务。通过结合企业知识库,微语系统不仅能够"看懂"和"听懂"用户问题,还能给出专业的解答,真正实现智能化的客户服务体验。

这页文档对您有帮助吗?