旷视科技推出「地表最小」多模态视觉大模型Vary-toy:麻雀虽小技能俱全,GTX 1080Ti显卡轻松运行,开源免费玩

2025-02-17 来源|AI图库吧

一款名为Vary-toy的超小体积的大模型来了!模型大小不到20亿参数,消费级显卡可训练,几年前的GTX1080Ti 8G的老显卡轻松运行。

你想将一份图片文档转换成Markdown的格式?

以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。而现在只需一句话命令:

无论中英文,图片中的大段文字都能分分钟提取出来:

对一张图做对象检测,还是能给出具体坐标的那种:

Vary-toy项目的研究由来自旷视科技、国科大、华中大的研究人员共同提出。

据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别、视觉定位、图像描述、视觉问答。

现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。

网友对于这款大模型,最感兴趣的地方莫过于执行训练的运算卡竟然是GTX 1080,心情Be like:

“青春版”Vary模型

其实,去年的12月,该研发团队就发布了Vary大模型的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人员指出CLIP视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。Vary发布后得到广泛关注,目前Github得到了超过1200颗星星,但也有不少人因为资源受限运行不了。

考虑到目前开源得很好且性能出色的“小”VLM比较少,于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。

与Vary相比,Vary-toy除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。

那这究竟是如何做到的?

Vary-toy的模型结构和训练流程如下图所示,总的来说,训练共分两个阶段。

首先在第一阶段,使用Vary-tiny+结构,预训练出一个相比原版Vary更好的视觉词表,新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。

然后在第二阶段中,将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。

众所周知,一个好的数据配比对于产生一个能力全面的VLM是至关重要的。

因此在预训练阶段,Vary-toy使用了5种任务类型的数据构建对话,数据配比和示例prompt如下图所示:

而在SFT阶段,只使用了LLaVA-80K数据。更多的技术细节,可以查看Vary-toy的技术报告。

实验测试结果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下:

Vary-toy在DocVQA上可以达到 65.6%的ANLS,在ChartQA上达到59.1%的准确率,RefCOCO88.1%的准确率:

MMVet上可以达到29%准确率,无论是从基准测试评分上还是可视化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。

项目地址:

https://varytoy.github.io/

最新
更多

旷视科技推出「地表最小」多模态视觉大模型Vary-toy:麻雀虽小技能俱全,GTX 1080Ti显卡轻松运行,开源免费玩

一款名为Vary-toy的超小体积的大模型来了!普通消费级显卡就可以训练,几年前的GTX 1080Ti 8G的老显卡轻松运行。

苹果疯狂招兵买马布局AI大模型技术研发:6月WWDC发布iOS 18系统,将搭载升级版Siri

《金融时报》报道,苹果公司正低调地进行一系列与人工智能相关的收购和人才招聘,目的是为其下一代 iPhone 装配端侧的 AI 技术做准备。

腾讯文档AI版开启全民公测:一键生成Word/Excel/PPT/思维导图等,助你实现「年终总结」自由

1月26日,腾讯文档宣布,「腾讯文档AI版」开启公测,面向全体用户开放AIGC内容生成体验,支持常用的全品类文档生成、跨类型的文档信息转换处理等。

阿里发布视频生成模型MotionShop:支持AI数字人物一键替换,让“二次元老婆”跳宅舞,免费玩!开源圈杀疯!

阿里杀疯了!又整出跳舞模型新活儿——全新的AI数字人像生成模型框架。新框架支持一键替换原视频当中的动态人物,并且完美还原原版舞蹈。

猎豹移动发布猎户星空大模型丨OpenAI奥特曼计划创办芯片研发公司丨Stability AI发布迷你模型Stable LM 2 1.6B

【AI奇点网2024年1月23日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。

微软在线AI生成图像平台Image Creator新增关联OneDrive云盘一键永久保存功能

1月18日,微软网络广告部门的主管表示,正改进旗下的AI图片生成工具Image Creator,用户生成的图片可以直接存储到OneDrive云盘中。

网站地图