首页 AI教程资讯旷视科技推出「地表最小」多模态视觉大模型Vary-toy：麻雀虽小技能俱全，GTX 1080Ti显卡轻松运行，开源免费玩

旷视科技推出「地表最小」多模态视觉大模型Vary-toy：麻雀虽小技能俱全，GTX 1080Ti显卡轻松运行，开源免费玩

2025-02-17 来源｜AI图库吧

一款名为Vary-toy的超小体积的大模型来了！模型大小不到20亿参数，消费级显卡可训练，几年前的GTX1080Ti 8G的老显卡轻松运行。

你想将一份图片文档转换成Markdown的格式？

以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。而现在只需一句话命令：

无论中英文，图片中的大段文字都能分分钟提取出来：

对一张图做对象检测，还是能给出具体坐标的那种：

Vary-toy项目的研究由来自旷视科技、国科大、华中大的研究人员共同提出。

据介绍，Vary-toy虽小，但却几乎涵盖了目前LVLM（大型视觉语言模型）主流研究中的所有能力：文档OCR识别、视觉定位、图像描述、视觉问答。

现在，Vary-toy代码和模型均已开源，并有在线demo可试玩。

网友对于这款大模型，最感兴趣的地方莫过于执行训练的运算卡竟然是GTX 1080，心情Be like：

“青春版”Vary模型

其实，去年的12月，该研发团队就发布了Vary大模型的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人员指出CLIP视觉词表在密集感知能力上的不足，并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。Vary发布后得到广泛关注，目前Github得到了超过1200颗星星，但也有不少人因为资源受限运行不了。

考虑到目前开源得很好且性能出色的“小”VLM比较少，于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。

与Vary相比，Vary-toy除了小之外，也训练了更强的视觉词表，新的词表不再将模型局限于文档级OCR，而是给出了一个更加通用和全面的视觉词表，其不仅能做文档级OCR，还能做通用视觉目标检测。

那这究竟是如何做到的？

Vary-toy的模型结构和训练流程如下图所示，总的来说，训练共分两个阶段。

首先在第一阶段，使用Vary-tiny+结构，预训练出一个相比原版Vary更好的视觉词表，新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。

然后在第二阶段中，将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。

众所周知，一个好的数据配比对于产生一个能力全面的VLM是至关重要的。

因此在预训练阶段，Vary-toy使用了5种任务类型的数据构建对话，数据配比和示例prompt如下图所示：

而在SFT阶段，只使用了LLaVA-80K数据。更多的技术细节，可以查看Vary-toy的技术报告。

实验测试结果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下：

Vary-toy在DocVQA上可以达到 65.6%的ANLS，在ChartQA上达到59.1%的准确率，RefCOCO88.1%的准确率：

MMVet上可以达到29%准确率，无论是从基准测试评分上还是可视化效果上，不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。

项目地址：

https://varytoy.github.io/

上一篇：苹果疯狂招兵买马布局AI大模型技术研发：6月WWDC发布iOS 18系统，将搭载升级版Siri

最新

更多

旷视科技推出「地表最小」多模态视觉大模型Vary-toy：麻雀虽小技能俱全，GTX 1080Ti显卡轻松运行，开源免费玩

一款名为Vary-toy的超小体积的大模型来了！普通消费级显卡就可以训练，几年前的GTX 1080Ti 8G的老显卡轻松运行。

苹果疯狂招兵买马布局AI大模型技术研发：6月WWDC发布iOS 18系统，将搭载升级版Siri

《金融时报》报道，苹果公司正低调地进行一系列与人工智能相关的收购和人才招聘，目的是为其下一代 iPhone 装配端侧的 AI 技术做准备。

腾讯文档AI版开启全民公测：一键生成Word/Excel/PPT/思维导图等，助你实现「年终总结」自由

1月26日，腾讯文档宣布，「腾讯文档AI版」开启公测，面向全体用户开放AIGC内容生成体验，支持常用的全品类文档生成、跨类型的文档信息转换处理等。

阿里发布视频生成模型MotionShop：支持AI数字人物一键替换，让“二次元老婆”跳宅舞，免费玩！开源圈杀疯！

阿里杀疯了！又整出跳舞模型新活儿——全新的AI数字人像生成模型框架。新框架支持一键替换原视频当中的动态人物，并且完美还原原版舞蹈。

猎豹移动发布猎户星空大模型丨OpenAI奥特曼计划创办芯片研发公司丨Stability AI发布迷你模型Stable LM 2 1.6B

【AI奇点网2024年1月23日早报】本站每日播报AI业界最新资讯，触摸时代脉搏，掌握未来科技动向。事不宜迟，点击查看今日AI资讯早餐。

微软在线AI生成图像平台Image Creator新增关联OneDrive云盘一键永久保存功能

1月18日，微软网络广告部门的主管表示，正改进旗下的AI图片生成工具Image Creator，用户生成的图片可以直接存储到OneDrive云盘中。

最新录入

更多

Rephraser AI

Rephraser AI

LobeChat

LobeChat

Scribbly AI

Scribbly AI

范文喵AI论文助手

范文喵AI论文助手

灵感岛

灵感岛

MaxAI.me

MaxAI.me

Askchat.ai

Askchat.ai

热门工具

Rephraser AI

Rephraser AI

LobeChat

LobeChat

Scribbly AI

Scribbly AI

范文喵AI论文助手

范文喵AI论文助手

灵感岛

灵感岛

MaxAI.me

MaxAI.me

Askchat.ai

Askchat.ai

Squibler

Squibler

即刻创作

即刻创作

热门