阿里巴巴发布了两个开源的人工智能模型，可以理解图像

阿里巴巴发布了两个开源的人工智能模型，用于图像理解

中国科技巨头阿里巴巴集团正在推动人工智能（AI）的边界，引入了两种创新的开源大视觉语言模型（LVLM）。该公司表示，AI工具Qwen-VL和Qwen-VL-Chat能够比其其他创作更好地理解图像并回答复杂的查询。

该公司的云计算部门阿里巴巴云计算开发和训练了这两个AI语言模型。据报道，该公司表示，Qwen-VL旨在成为其70亿参数模型“同一千问”的复杂后代。这个动态模型展示了无缝处理图像和文本提示的能力。其多功能性从回答与多样图像相关的开放式查询到编写引人入胜的图像标题。

另一方面，Qwen-VL-Chat旨在处理更复杂的互动。这个AI模型采用先进的对齐技术，具备令人印象深刻的各种才能。从根据输入图像创作诗歌和叙述，到压缩多张图片的内容，甚至解决嵌入图像中的复杂数学问题。

这两项技术有望重新定义人工智能能力的领域，在英文和中文中提供了出色的图像理解和文本交互融合。

该公司表示，Qwen-VL模型是通过图片和文本信息进行训练的。在训练过程中，阿里巴巴发现它可以处理较大尺寸的图片（448×448分辨率），而类似模型只能处理小尺寸的图片（224×224分辨率）。

这项AI技术在涉及图片和语言的任务中也表现出色。阿里巴巴透露，这个AI工具可以在没有先验信息的情况下描述照片，回答与图片相关的问题，甚至检测图像中的物体。

第二个模型Qwen-VL-Chat在关于图片的对话中也展示出了其技能。据该公司称，这项AI技术在中文和英文方面表现出色，根据阿里巴巴云计算设定的基准测试。

与第一个模型一样，Qwen-VL-Chat在理解和讨论单词和图像之间的关系方面胜过其他AI工具。测试包括300多张照片，800个问题和27个不同类别。

阿里巴巴表示，将将这两个AI模型作为开源解决方案提供给全球社区。一旦准备工作完成，这些工具将免费提供给全球任何人使用。这一举动使得开发AI应用程序无需进行大量的系统训练，从而降低了开支。

本月早些时候，该公司在发布一个月后公开了其其他AI应用程序Qwen-7B和Gwen-7B-Chat，引起了轰动。这一举动吸引了许多开发者加入该公司，下载量累计超过40万次。

We will continue to update 算娘; if you have any questions or suggestions, please contact us!

93 out of 132 found this helpful