阿里巴巴发布了两个开源的人工智能模型,可以理解图像

阿里巴巴发布了两个开源的人工智能模型,用于图像理解

中国科技巨头阿里巴巴集团正在推动人工智能(AI)的边界,引入了两种创新的开源大视觉语言模型(LVLM)。该公司表示,AI工具Qwen-VL和Qwen-VL-Chat能够比其其他创作更好地理解图像并回答复杂的查询。

该公司的云计算部门阿里巴巴云计算开发和训练了这两个AI语言模型。据报道,该公司表示,Qwen-VL旨在成为其70亿参数模型“同一千问”的复杂后代。这个动态模型展示了无缝处理图像和文本提示的能力。其多功能性从回答与多样图像相关的开放式查询到编写引人入胜的图像标题。

另一方面,Qwen-VL-Chat旨在处理更复杂的互动。这个AI模型采用先进的对齐技术,具备令人印象深刻的各种才能。从根据输入图像创作诗歌和叙述,到压缩多张图片的内容,甚至解决嵌入图像中的复杂数学问题。

阿里巴巴探索人工智能能力

这两项技术有望重新定义人工智能能力的领域,在英文和中文中提供了出色的图像理解和文本交互融合。

该公司表示,Qwen-VL模型是通过图片和文本信息进行训练的。在训练过程中,阿里巴巴发现它可以处理较大尺寸的图片(448×448分辨率),而类似模型只能处理小尺寸的图片(224×224分辨率)。

这项AI技术在涉及图片和语言的任务中也表现出色。阿里巴巴透露,这个AI工具可以在没有先验信息的情况下描述照片,回答与图片相关的问题,甚至检测图像中的物体。

第二个模型Qwen-VL-Chat在关于图片的对话中也展示出了其技能。据该公司称,这项AI技术在中文和英文方面表现出色,根据阿里巴巴云计算设定的基准测试。

与第一个模型一样,Qwen-VL-Chat在理解和讨论单词和图像之间的关系方面胜过其他AI工具。测试包括300多张照片,800个问题和27个不同类别。

致力于开源技术

阿里巴巴表示,将将这两个AI模型作为开源解决方案提供给全球社区。一旦准备工作完成,这些工具将免费提供给全球任何人使用。这一举动使得开发AI应用程序无需进行大量的系统训练,从而降低了开支。

本月早些时候,该公司在发布一个月后公开了其其他AI应用程序Qwen-7B和Gwen-7B-Chat,引起了轰动。这一举动吸引了许多开发者加入该公司,下载量累计超过40万次。

We will continue to update 算娘; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

DeFi

Curve协议再次面临压力测试:能通过吗?

这位分析师通过进行场外交易成功地避免了八月份的Curve Finance危机值得注意的是,这次交易出售的代币将在二月份可用,为未来...

市场行情

3月11日标普500、美元指数、比特币、以太坊、币安币、Solana、瑞波、卡尔达诺、狗狗币、SHIB价格分析

比特币的暴涨也带动了一些山寨币的增长,表明投资者在市场上愈加愿意承担风险这一趋势显示出投资者对市场的开放程度在日益增...

区块链

“Base的‘Onchain Summer’活动在八月份共有来自268,000名用户的超过700,000个NFT进行了铸造”

基础网络于8月7日启动,Onchain Summer的最终NFT将在9月7日后不再可铸造

区块链

釜山正在开发一个与以太坊兼容的主网,以成为一个“区块链城市”

公共区块链开发是在釜山数字资产交易所设立促进计划和未来计划下进行的,重点是使釜山成为一个区块链城市

区块链

如果以太坊价格继续难以突破1,920美元的阻力位,其上行趋势偏向易受攻击。

以太坊价格从1,920美元的阻力位再次下跌。如果ETH长时间保持在1,920美元以下,它将面临更多损失的风险。

区块链

以太坊联合创始人Vitalik Buterin将价值100万美元的ETH转移到Coinbase

以太坊的联合创始人Vitalik Buterin将价值100万美元的以太币转移到美国的加密货币交易所Coinbase,与此同时,整个加密货币市...