阿里云推出大规模视觉语言模型Qwen-VL 已在ModeScope开源

5G
23年11月11日
编辑

大号

阿里云此前已经开源通义千问70 亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat。

阿里云今日推出了大规模视觉语言模型Qwen-VL，目前已经在ModeScope开源，IT之家早前曾报道，阿里云此前已经开源通义千问70 亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat。

据悉，Qwen-VL是一款支持中英文等多种语言的视觉语言（Vision Language，VL）模型，相较于此前的VL模型，其除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。

Qwen-VL以Qwen-7B为基座语言模型，在模型架构上引入视觉编码器，使得模型支持视觉信号输入，该模型支持的图像输入分辨率为 448，此前开源的LVLM模型通常仅支持224分辨率。

官方表示，该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景，在主流的多模态任务评测和多模态聊天能力评测中，取得了远超同等规模通用模型的表现。

此外，在Qwen-VL的基础上，通义千问团队使用对齐机制，打造了基于LLM的视觉AI助手Qwen-VL-Chat，可让开发者快速搭建具备多模态能力的对话应用。

通义千问团队同时表示，为了测试模型的多模态对话能力，他们构建了一套基于GPT-4打分机制的测试集 “试金石”，对Qwen-VL-Chat及其他模型进行对比测试，Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。

给TA打赏

共{{data.count}}人

人已打赏

冠闵信息CEO颜伟志谈MSP发展趋势：利用各种工具持续交付高度自动化的服务

2023-11-11 1:58:23

阿里云开源通义千问14B模型，CTO周靖人：持续拥抱开源开放

2023-11-11 1:58:25

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

Notice: 函数 WP_Object_Cache::add 的调用方法不正确。缓存键不能为空字符串。请查阅调试 WordPress来获取更多信息。（这个消息是在 6.1.0 版本添加的。） in /www/wwwroot/www.kejihao.com/wp-includes/functions.php on line 6085

1

中国纺织行业大数据中心（湖南中心）项目落地株洲
20年10月19日
2

联想CEO杨元庆誓师大会演讲：去治愈创伤，去赋能经济，去回馈社会
21年4月13日
3

大咖开讲大数据时代，聚焦新能源汽车安全问题
20年9月9日
4

明确标准强基赋能首批数字化可信服务评估结果发布
21年4月19日
5

云计算开发：Python练习实例-利用ellipse 和 rectangle 画图
21年4月15日
6

Windows 11可接入Xbox设备支持游戏照明和颜色调整
21年6月25日

❯

解锁会员权限

个人中心

购物车

优惠劵

今日签到

有新私信私信列表

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部