AI奇点网12月25日报道丨今年10月,苹果和哥伦比亚大学的研究人员低调地发布了一个名为「Ferret」(中文名:雪貂)的开源多模态大语言模型。这款大模型其实是苹果公司与哥伦比亚大学研究人员的合作成果。当时发布的内容包括了代码生成和权重,仅限研究用途,不可用于商业。因为没有太多的宣发,当时并未引起广泛的注意。
一直奉行闭环生态的苹果公司在今年 10 月正式加入了开源 AI 的圈子。Ferret 的推出展现了苹果对影响深远的 AI 研究的承诺。这款模型既能精准地识别图像并描述其内容,还能辨别和定位图像中的各种元素。
Ferret 有 7B 和 13B 两个参数量版本,是一个对标微软、谷歌的10B量级的小参数模型。此外,为了增强模型的能力,苹果专门收集了一个名为 GRIT 数据集。该数据集包含了 110 万个样本,涵盖丰富的层次空间知识。
苹果公司 AI/ML 研究科学家 Zhe Gan 在 10 月份发布的一条推文中解释了 Ferret 的用途 —— 一个可以在图像中 "以任何粒度对任何地方的任何东西进行参照和定位" 的系统。它还可以通过使用图像中任何形状的区域来做到这一点。
简单地说,该模型可以分析图像上绘制的区域,确定其中对用户查询有用的元素,并将其识别出来,在检测到的元素周围绘制一个边界框。然后,它就可以将识别出的元素用作查询的一部分,并以典型的方式作出响应。
例如,高亮显示图像中的动物图片并询问大模型“这是什么动物”,大语言模型可以确定该动物的种类,并确定用户所指的是动物群中的某只动物。然后,它还可以利用图像中检测到的其他项目的上下文,提供进一步的回复。
尽管苹果以往以其产品和技术的封闭性著称,但现在它通过GitHub发布开源大语言模型,正逐渐改变这一形象,展现出其在 AI 领域的活跃参与和创新精神。这不仅对苹果自身,也对整个 AI 领域来说,都是一个值得关注的重要发展方向。
GitHub开源代码:
https://github.com/apple/ml-ferret
上一篇:传阿里引入顶级人工智能科学家,打响新年AI To C赛道第一枪
苹果和哥伦比亚大学的研究人员低调地发布了一个名为「Ferret」的开源多模态大语言模型。这款模型既能精准地识别图像并描述其内容,定位图像中的各种元素。
2月3日,据业内人士透露,一位全球顶级人工智科学家已于近期正式入职阿里巴巴,后续或将专注AI To C业务的基础大模型研发与应用。据悉,这位顶级人工智能科学家在工业界和学术界均拥有超20年经验,尤其在多模态AI
OpenAI 官方宣布,ChatGPT APP 的语音功能现已面相所有用户全面上线,在此之前只有ChatGPT Plus订阅用户,也就是GPT-4模型的用户才可以使用。
年终岁末,正值圣诞节热闹气氛,OpenAI联合创始人兼CEO奥特曼在社交平台写下了OpenAI的2024年产品发展清单。
当地时间周一(2月3日),软银集团在官网宣布,OpenAI将与其成立一家名为“SB OpenAI Japan”的合资公司,合作开发和推广高级企业人工智能“Cristal intelligence”。 另外,软银每年将投资30亿美元在集团内部部署Op
2023年即将画上一个句号。在推特(X)平台上,奥特曼连发多条推文,忆往昔,展未来。他还撰写了17句心灵鸡汤,希望可以帮到有需要的人。
文山AI写作
小侃星球
Text Generator
SudoWrite
Arvin
ChatGenius
Leexi AI
LanguageTool
HyperWrite AI
网站地图
当闭环王者进入开源世界:苹果发布开源多模态大模型Ferret,可用于精准识别与定位图像里边的物体
AI奇点网12月25日报道丨今年10月,苹果和哥伦比亚大学的研究人员低调地发布了一个名为「Ferret」(中文名:雪貂)的开源多模态大语言模型。这款大模型其实是苹果公司与哥伦比亚大学研究人员的合作成果。当时发布的内容包括了代码生成和权重,仅限研究用途,不可用于商业。因为没有太多的宣发,当时并未引起广泛的注意。
一直奉行闭环生态的苹果公司在今年 10 月正式加入了开源 AI 的圈子。Ferret 的推出展现了苹果对影响深远的 AI 研究的承诺。这款模型既能精准地识别图像并描述其内容,还能辨别和定位图像中的各种元素。
Ferret 有 7B 和 13B 两个参数量版本,是一个对标微软、谷歌的10B量级的小参数模型。此外,为了增强模型的能力,苹果专门收集了一个名为 GRIT 数据集。该数据集包含了 110 万个样本,涵盖丰富的层次空间知识。
苹果公司 AI/ML 研究科学家 Zhe Gan 在 10 月份发布的一条推文中解释了 Ferret 的用途 —— 一个可以在图像中 "以任何粒度对任何地方的任何东西进行参照和定位" 的系统。它还可以通过使用图像中任何形状的区域来做到这一点。
简单地说,该模型可以分析图像上绘制的区域,确定其中对用户查询有用的元素,并将其识别出来,在检测到的元素周围绘制一个边界框。然后,它就可以将识别出的元素用作查询的一部分,并以典型的方式作出响应。
例如,高亮显示图像中的动物图片并询问大模型“这是什么动物”,大语言模型可以确定该动物的种类,并确定用户所指的是动物群中的某只动物。然后,它还可以利用图像中检测到的其他项目的上下文,提供进一步的回复。
尽管苹果以往以其产品和技术的封闭性著称,但现在它通过GitHub发布开源大语言模型,正逐渐改变这一形象,展现出其在 AI 领域的活跃参与和创新精神。这不仅对苹果自身,也对整个 AI 领域来说,都是一个值得关注的重要发展方向。
GitHub开源代码:
https://github.com/apple/ml-ferret
上一篇:传阿里引入顶级人工智能科学家,打响新年AI To C赛道第一枪
当闭环王者进入开源世界:苹果发布开源多模态大模型Ferret,可用于精准识别与定位图像里边的物体
苹果和哥伦比亚大学的研究人员低调地发布了一个名为「Ferret」的开源多模态大语言模型。这款模型既能精准地识别图像并描述其内容,定位图像中的各种元素。
传阿里引入顶级人工智能科学家,打响新年AI To C赛道第一枪
2月3日,据业内人士透露,一位全球顶级人工智科学家已于近期正式入职阿里巴巴,后续或将专注AI To C业务的基础大模型研发与应用。据悉,这位顶级人工智能科学家在工业界和学术界均拥有超20年经验,尤其在多模态AI
官宣:ChatGPT APP语音交互功能已下放至GPT-3.5模型,面向全体用户开放使用
OpenAI 官方宣布,ChatGPT APP 的语音功能现已面相所有用户全面上线,在此之前只有ChatGPT Plus订阅用户,也就是GPT-4模型的用户才可以使用。
OpenAI CEO奥特曼公开公司2024年计划心愿表:GPT-5、开源项目以及更强大更好用的ChatGPT应用
年终岁末,正值圣诞节热闹气氛,OpenAI联合创始人兼CEO奥特曼在社交平台写下了OpenAI的2024年产品发展清单。
软银联手OpenAI成立合资公司 打造日本的人工智能帝国
当地时间周一(2月3日),软银集团在官网宣布,OpenAI将与其成立一家名为“SB OpenAI Japan”的合资公司,合作开发和推广高级企业人工智能“Cristal intelligence”。 另外,软银每年将投资30亿美元在集团内部部署Op
OpenAI CEO奥特曼年底炖煮一大锅“心灵鸡汤”:2023年个人年终总结,17句「职场箴言」引发全网共鸣
2023年即将画上一个句号。在推特(X)平台上,奥特曼连发多条推文,忆往昔,展未来。他还撰写了17句心灵鸡汤,希望可以帮到有需要的人。
文山AI写作
小侃星球
Text Generator
SudoWrite
Arvin
ChatGenius
Leexi AI
文山AI写作
小侃星球
Text Generator
SudoWrite
Arvin
ChatGenius
Leexi AI
LanguageTool
HyperWrite AI