视觉模型 · 快充Ai集成软件

目前系统采用的是通义千问开源视觉理解大模型Qwen-VL 于2023年12月1日发布重大更新，不仅大幅提升通用OCR、视觉推理、中文文本理解基础能力，还能处理各种分辨率和规格的图像，甚至能“看图做题”。升级的Qwen-VL(qwen-vl-plus/qwen-vl-max)模型现有几大特点： ‒ 大幅增强了图片中文字处理能力，能够成为生产力小帮手，提取、整理、总结文字信息不在话下。 ‒ 增加可处理分辨率范围，各分辨率和长宽比的图都能处理，大图和长图能看清。 ‒ 增强视觉推理和决策能力，适于搭建视觉Agent，让大模型Agent的想象力进一步扩展。 ‒ 升级看图做题能力，拍一拍习题图发给Qwen-VL，大模型能帮用户一步步解题。 ![](https://img.kancloud.cn/bb/d5/bbd52af1fb53fcc9913e28e224ab05c1_600x1055.png)