地表最强开源AI绘画模型Stable Diffusion V3重磅登场:与Sora采用相似技术,一大波样片抢先看

2025-02-12 来源|AI图库吧

随着AI绘画逐渐影响整个视觉创作行业。带来了两种非常显著的变化——

其一是画师群体的薪酬待遇,停滞不前甚至明显滑坡,每幅作品单价暴跌。

其二是越来越多小微企业选择AI绘制海报,开源节流的大背景下,即便画面出现BUG也在所不惜。

比如国内某企业的海报,就出现了“吃意面BUG”。?

最近OpenAI的Sora诞生更是爆火全网,甚至引来了知名好莱坞影星威尔·史密斯蹭热点。

他在推特(X)上发布了一则吃意面的视频,并附文「一年前的AI视频 VS 现在的AI视频」。

史密斯自称视频由Sora生成,但事实上是他亲自创作的“AI视频”模仿秀玩梗,引发了广泛的转发与热议。

那么问题来了,今天的AI,能否很好地应对“吃意面”这个画面创作呢?

在揭晓答案之前——让我们领略Stability AI刚扔下的?炸弹——新一代的本地AI绘图创作模型Stable Diffusion 3正式发布了。

目前推出了Alpha预览版,将于近期开放给普通用户。

AI生图效果超越自我,再次到达了新的高度!

官图封面用的提示词是:

「在一幅充满史诗感的动漫画面中,一位巫师屹立于夜幕笼罩的山巅之上,正用他的法杖向漆黑无垠的夜空中施展一道震撼宇宙的魔法。这道法术在夜空中绽放,化作由五彩缤纷的能量构成的[Stable Diffusion 3]字样,犹如夜空中最璀璨的星辰。」

眼尖的家人们已经发现了,Stable Diffusion 3可以生成完整可读的单词文字。

在过去,AI绘图是很难生成正常的文字的。因为在大模型眼里,它“读不懂”人类的文字。

网友使用同样的提示词进行复刻,同样惊艳:

此外,Stable Diffusion 3也采用了与Midjourney V6、DALL·E 3相仿的自然语言提示词,无需再折腾复杂的关键词公式。

有内测网友惊呼:Stable Diffusion 3还原提示词的一致性是我见过最好的!

这次的Stable Diffusion 3在图像质量、多个对象、拼写能力方面,都得到了显著提升。

甚至,它似乎还“涌现”出了对物理世界的理解。

往下我们接着后文分解。

先看两个生成案例:

提示词:

「一匹马优雅地站在一个五彩斑斓的球上,周围是一片生机勃勃的绿色草地。远处,一座雄伟的山峦巍峨地矗立。」

提示词:

「一个红色的球体放在一个蓝色的立方体上面。在它们后面是一个绿色的三角形,在右边是一只狗,在左边是一只猫。」

相比之下,DALL·E 3创作的画面就比较凌乱,而且拟真度不足。

Stability AI的CEO总结了一份Stable Diffusion 3.0的更新日志:

- 采用了与Sora视频模型类似的扩散模型技术,并结合了流匹配(Flow Matching)等多项技术改进

- 通过利用对Transformer架构的改进,不仅使得系统扩展性更强,还能处理多种类型的输入数据

- 新一代模型将以开源形式发布,并通过预览版的测试来进一步提升系统的质量和安全性

- 正式上线时,Stability AI将发布一套完整的创作工具

- 基于最新的GPU硬件技术打造的新平台,支持多种参数规模的版本

- 支持生成视频、3D建模以及更多类型的内容创作

- 需要更强大的GPU来实现更突出的运算结果

据悉,Stable Diffusion 3模型的参数规模将覆盖8亿到80亿之间。

至少得英伟达RTX30系列及以上消费显卡来跑。

相较于上一代SDXL模型,Stable Diffusion 3拥有更强大的局部修改与细节控制能力。官方发布了一则短片为我们演示。

,时长00:18

正在吃寿司?的小猫咪,可以轻松变成其他的菜色以及其他的动物形象。

甚至可以替换背景,以及让静态图动起来。

下面,让我们集中看几个新模型的亮点。

文本单词渲染能力超进化

以前的老大难,如今完美解决。

用户可以直接输入提示词,要求大模型为你生成指定的文字。

从左到右分别为DeepFloyd IF、DALL·E 2、Bing Image Creator、Midjourney V5.2、SDXL V0.9图像生成器。

生成的路牌,完全不知所云。

再看Stable Diffusion 3生成的黑板上的字。

AI在黑板上正确写出了「go big or go home」。光影、景深较为自然,乍看之下并无破绽。

提示词:

「这张电影级视觉效果的照片,捕捉到了一个静谧的教室瞬间,一颗鲜红的苹果静静地躺在桌子上,而在它背后的黑板上,则用醒目的粉笔字写着——[要么做大,要么回家]。」

近期发布的Midjourney V6也支持生成简单文字了,它的创作是这样的。不愧是MJ,也不错呢~

谷歌这周上线的付费版本Gemini Advanced画成了这样,构图比较简单,没有完全体现提示词的内涵。

DALL·E 3的图是这样的,黑板上的字更像印刷体。

面对不同的材质,Stable Diffusion 3可以进行合理的推理,并生成各种形式的文字渲染。

布匹上的绣花字。

电脑屏幕上的数码体,墙壁上的喷涂体。

符合画风的动漫字体。

下面这张示例图更出色:

「在这幅夜幕下的摄影作品中,一辆标有「SD3」字样的运动赛车正在赛道上疾驰。背景里,一块巨大的路牌显眼地展示着「faster」一词。」

大模型创作了极富速度感的广告字体。

试剂瓶上的标记数字。

地铁里的霓虹灯牌。

Stable Diffusion 3.0能在文字渲染能力上取得显著提升,得益于在模型训练时在Transformer架构内融入文本编码功能。

官方介绍称,大模型不仅能生成完整句子,还能保持与画面风格的高度一致性。

再看下面一组提示词,难倒了一众好手——

「宇航员撑着粉色雨伞、骑着一只穿着芭蕾舞短裙的猪的画,猪旁边的地上是一只戴着高顶帽子的知更鸟,画面的角落里写着[Stable Diffusion]。」

别看句式不长,对于大模型理解生成对象的属性、相对位置,以及正确呈现字体放置的位置有严格要求,着实是一道压轴题。

面对如此复杂的需求,Stable Diffusion 3完美复现!

DALL·E 3虽然画面可圈可点,但是「Diffusion」拼错了。

Bing Image Creator的创作风格凌乱,拼写也不正确。

Gemini Advanced一如既往的随意,省去了多个提示词提及的元素。

Midjourney登场即放大招,画面质量拉满,但是「Stable Diffusion」没拼对。

综合下来,唯有Stable Diffusion 3完全符合一致性的需求。

除了会写字,画质也逼近业内头部

除了能说会道,Stable Diffusion 3作为一款开源图像模型,在成像画质方面也快速追上了当前主流的在线闭源模型。

比如「变色龙在黑色背景上的摄影棚照片特写」,它生成的图是这样的:

Gemini Advanced生成的图像:

Midjourney V6创作的图像:

几款头部模型,画出来的变色龙都具有极高的拟真度,高手过招,难以拉开差距。

往下我们还能看到更多Stable Diffusion 3的创作案例。

无论是在自然写实,还是在动漫,亦或有故事元素的海报,Stable Diffusion 3处理画风与文字字体相协调可谓得心应手。

最后——回到本文刚开始聊到的「吃意面BUG」。?

一起来检视AI绘图的终极测试——挑战“威尔·史密斯吃意面”。

挑战地表最难的题目之一——

这次Stable Diffusion 3生成的图像,尽管史密斯的牙齿?有点奇怪,总体画风没崩坏,闯关基本算成功。

新模型技术与Sora系出同门

Stable Diffusion 3.0突飞猛进的表现得益于它采取了全新的架构设计。

Stability AI CEO亲口承认:

“Stable Diffusion 3采用了Diffusion Transformer架构,这是一种新型的架构设计,与OpenAI最近发布的Sora模型采用的架构相似。”

Stable Diffusion的老版本里,均未采用当下最流行的生成式AI架构——Transformer。

Sora之所以能够生成如此丝滑的视频,得益于它创新的模型训练手段,以及Transformer架构底下的扩散生成原理。

因此,在新技术的加持下,Stable Diffusion取得了惊人的进步。

普通人怎样体验Stable Diffusion 3?

即刻加入排队候补名单:

https://stability.ai/stablediffusion3

最新
更多

地表最强开源AI绘画模型Stable Diffusion V3重磅登场:与Sora采用相似技术,一大波样片抢先看

新一代的本地AI绘图创作模型Stable Diffusion 3正式发布了。目前推出了Alpha预览版,将于近期开放给普通用户。AI生图效果超越自我,再次到达了新的高度!

冒充Sora生成的AI视频,已经成为营销号涨粉的流量密码

年后开工第一周,全网都被Sora的热度刷屏了一周。虽然Sora还未对外开放,但互联网已经变得越来越荒诞。AI越来越像真的,真人越来越热衷假冒AI。

Stability AI推出图像高清放大AI工具丨荣耀推出首款AI PC丨中兴发布自研AI大模型,并推出首款AI手机

【AI奇点网2024年2月27日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。

最新开源大模型LWM发布丨与Sora一样能生成视频、图像,还能一次解读100万数据!

大语言模型(LLM)在生成文本内容方面非常强,但在理解、生成视频、图像等方面略显不足。尤其是在Sora一夜爆红之后,让人们意识到未来主流模型一定是文本+音频+图像+视频的多模态生成、理解功能。

全球首例AI侵犯知名IP形象宣判!广州法院判决AI生成奥特曼侵犯圆谷著作权

近日,广州互联网法院正式对外生效了一起关于生成式AI服务侵犯他人著作权判决,这也是全球范围内首例生成式AI服务侵犯他人著作权的生效判决。

Mistral AI最新公布_下一个OpenAI

成立9个月,当初那个「6人团队,7页PPT,8亿融资」的公司不断缔造传奇。Mistral AI今日发布的Mistral Large模型性能已经直逼GPT-4,同时和微软官宣合作。「下一个OpenAI」的爆相,已经越来越明显了。下一个OpenAI来了? 开源社区的另一个中心Mistral AI,刚刚发布了最强力的旗舰模型Mistral Large,性能直接对标GPT-4!(但可惜的是没有开源) Mistral Large具备卓越的逻辑推理能力,能够处理包括文本理解、转换以及代码生成在内的复杂多语言任务。 在众多主流基准测试中,Mistral Large力压Anthropic的Claude 2和谷歌的Gemini Pro,成绩仅次于GPT-4! LLM领域,格局再次改变。 同时,就在今天,AI圈又一重磅消息曝出:继OpenAI之后,微软将Mistral也纳入麾下! Mistral从诞生之初,就充满传奇的光环。成立4周,6人团队,7页PPT,8亿融资(1 05亿欧元),简直堪称爽文走进现实。 创始人Arthur Mensch是1993年出生的法国小伙,在谷歌工作3年后,在自己31岁时离开谷歌,拉拢了两位Llama模型的开发者,一起创立了这个日后可以和OpenAI、Anthropic分庭抗礼的公司。 几个人的团队,极少的融资,做出的模型却可以和GPT-4掰手腕。 如今再加上金主爸爸微软的撑腰,Mistral 「下一个OpenAI」的名头,是坐实了。 Mistral不开源?网友慌了! 现在,正处于全世界聚光灯下的Mistral,一举一动都十分引人注目。 有网友发现Mistral修改了网站内容,删除了所有提及开源社区义务的内容,这立马引发了恐慌! 之前的主页(左);现在的主页(右) 不过,大家目前还不需要太过担心。 根据外媒对Mistral CEO的采访,未来他们依然会坚持开源理念,但是同时也会推出性能最为强大的闭源模型参与商业竞争。 现在他们已经完成了以规模命名的开源模型:Mistral 7B和Mistral 8 x 7B回馈社区,以「大中小」命名的闭源模型赚钱的产品线搭建。 欧洲最强大模型来了! 话说回来,这次发布的Mistral Large,可以说是最适合欧洲人体质的大模型。 简单来说: - Mistral Large能够母语般流利地使用英语、法语、西班牙语、德语和意大利语,深刻理解各自的语法规则和文化背景。 - Mistral Large能够处理32K Token的上下文内容,使其能够从庞大的文档中精确快速地提取信息。 - Mistral Large在执行具体指令方面异常精准,这让开发人员可以根据自己的需求定制内容审查政策——例如,Mistral AI利用它来进行了le Chat的系统级别审查。 - Mistral Large原生支持函数调用。这个特性,结合Mistral AI在la Plateforme上实施的输出内容限制模式,极大地促进了应用程序的开发和技术栈的现代化。 目前,Mistral AI的这个新旗舰模型仅在Azure AI和Mistral AI平台上可用。 其中,在Azure AI上的定价如下:输出为0 024美元 1000 token,输入为0 008美元 1000 token。 推理能力与知识掌握 要说Mistral Large最令人印象深刻的,还是超强的推理能力。 作为旗舰模型,Mistral Large在常识、推理以及知识方面,都展现出了令人瞩目的实力。 虽然和GPT-4还有不小的差距,但Claude 2和Gemini Pro 1 0基本上已经是手下败将了。 多语言能力 作为一款欧洲人自己的大模型,Mistral Large在法语、德语、西班牙语和意大利语上的表现,均优于Llama 2 70B模型。 同时,也强过自家更小规模的模型。 数学与编程能力 在编程和数学方面,Mistral Large的能力也非常突出。 不仅相比自己其他模型有了大幅的提升,而且在主流的测试基准上都取得了不俗的成绩。 「小杯」也来了 相比之下,规模更小的Mistral Small,则更加专注于对延迟和成本的优化。 相较于Mixtral 8x7B,Mistral Small展现出更优异的性能和更低的延迟,是介于Mistral AI开源模型和旗舰模型之间的解决方案。 与Mistral Large类似,Mistral Small同样采用了在RAG和函数调用方面的创新技术。 此外,Mistral还优化了自家的服务接口: - 提供竞争力价格的开放权重端点,包括open-mistral-7B和open-mixtral-8x7b。 - 推出新的优化模型端点,包括mistral-small-2402和mistral-large-2402 同时继续提供未更新的mistral-medium。 和微软官宣合作,Mistral AI腰板更硬了 除了宣布模型之外,Mistral AI还官宣了和微软的深度合作。 而这也是微软继OpenAI之后,再次「真金白银」地入股AI圈的另一家顶流模型公司。 虽然2023年4月才成立,Mistral AI已经对欧洲的AI领域产生了重大影响。 开源模型Mistral 7B和Mixtral的发布,惊艳了一众开发者,在AI社区掀起了轩然大波。 如今微软的支持,让更多人坚信:Mistral就是下一个OpenAI。 Mistral AI是法国的AI初创公司,微软与它的合作,无疑让微软在欧洲也建立起了自己的AI影响力。 两家公司的合作,目标是弥补基础AI研究与实际解决方案之间的差距。 如果在未来建立多年的合作伙伴关系,Mistral AI就可以访问微软Azure的AI基础设施了。 微软的加持对Mistral AI意味着什么,不言而喻。 不光Mistral AI下一代LLM的开发和部署会大大加速,并且会开辟出新的商机。以欧洲为基础,Mistral AI会向全球市场扩张自己的影响力! 具体来说,微软和Mistral AI之间的合作集中在以下三个关键领域—— 超算基础结构:微软将通过Azure AI超算基础结构支持Mistral AI,用于AI训练和推理工作负载。 扩展市场:微软和Mistral AI将通过Azure AI Studio中的MaaS和Azure机器学习模型目录,向客户提供Mistral AI的高级模型。 AI研发:微软和Mistral AI将探索合作,为指定的客户开发专有模型,甚至包括欧洲公共部门的工作负载。 目前,两家公司还没有透露财务细节。 最近,Mistral AI以近20亿美元的估值,筹集了4 5亿欧元,由科技投资者Andreessen Horowitz领投。 不过,跟它在美国的竞争者比,Mistral AI所获得的资金显然并不算多。 要知道,OpenAI仅从微软就获得了超过100亿美元的投资,而Anthropic从谷歌和亚马逊获得的资金,也高达60亿美元。 据《华尔街日报》报道,去年10月,谷歌承诺向Anthropic投资20亿美元 因此,此项合作一出,Mistral AI「欧洲版OpenAI」的名头,更加坐实了。 而对于微软来说,这项投资也是好处多多——这是它在欧洲AI领域站稳脚跟的机会。 本来,作为Azure云中欧盟服务器上OpenAI模型的唯一提供商,微软已经在欧洲的AI竞赛中处于领先地位。 不过AI在欧洲所受的待遇,并不像在美国那样备受支持。 欧洲许多国家对于AI的态度偏保守,他们持的是批判性的态度,尤其是在数据保护方面。 而如果是欧洲服务器商的欧洲AI模型,或许能让人放心,不失为一种不错的补救措施。 成立9个月的传奇AI初创企业,挑战硅谷巨头 Mistral在种子轮融资时「6人团队,7页PPT,8亿融资」的故事,值得好好讲一讲。 2023年初,还在谷歌工作的Arthur Mensch,刚刚30岁。 一年之后,他离开谷歌创立自己的公司,只用了9个来月的时间,就已经估值20亿美元! Mensch于2020年初加入了谷歌,成为DeepMind的研究员,他的研究方向是提高AI和机器学习系统的效率。那时他27岁。 后来,他和两位之前一起参与了Llama模型研发的年轻人Timothée Lacroix和Guillaume Lample一起,决定成立一家公司,通过更加高效的方法构建和部署AI模型。 他们相信,小团队能力在灵活性上超越硅谷的大公司,而开源模型就是他们实现这一目标的利器。 虽然已经从各路投资者那里筹集了超过5亿美元,他的公司Mistral AI相比于微软支持的OpenAI,谷歌,乃至Anthropic,依然显得有些「微不足道」。 这些巨头,以及巨头重金支持的巨型独角兽投入了几十亿美元来构建全世界最先进的AI系统。 但Mensch并不担心与这些庞然大物竞争。 「我们的目标是成为 AI 领域中最节省资本的公司,」Mensch表示。「这是我们成立的初衷。」 对于刚刚推出的Mistral Large模型,他认为,这款模型在执行某些推理任务上能够与OpenAI最先进的语言模型GPT-4和谷歌的新模型Gemini Ultra相匹敌。 Mensch透露,开发这款新模型的成本不到2000万欧元(约合2200万美元)。 Mistral巴黎总部的办公室 相比之下,OpenAI的首席执行官Sam Altman曾在去年发布GPT-4时表示,训练他们公司的大型模型的成本接近1亿美元。 而且随着他们用行业内最为高效的开源模型不断震惊业界,他们也获得了微软,英伟达和Salesforce等大公司的背书。 巨头们也通过现金或者算力的支持,获取了Mistral AI的少量股份。 伴随着Mistral Large的发布,9个月前他们用7页PPT吹下的牛,已经完全兑现了。 撬动8亿元投资的六人团队 这六个人的团队,是这样组成的。 Arthur Mensch在巴黎综合理工学院和巴黎高等师范学院学习期间,结识了另两位创始人——Timothée Lacroix和Guillaume Lample。 两人都是Meta AI团队的,Lample甚至领导了LLaMA的开发。 几个三十出头的年轻人,在LLM开发领域已经有不少经验。 在当时,即使在全世界范围内,具备构建、训练和优化LLM专业经验的人,也不超过100人。 而另外三位,分别是来自法国巴黎健康初创公司Alan的CEO Jean-Charles Samuelian和CTO Charles Gorintin,以及前法国数字事务国务秘书Cédric O。 AI科学家,如何创立自己的独角兽公司 Mensch个头高大,一头浓密的深色头发,他既不像典型的科技极客,也不像常见的CEO。 他的朋友和同事们说,他总是一边喝啤酒一边轻松地和朋友开玩笑。 作为一名运动爱好者,他在2018年提交博士论文前的几个月,以不到三小时半的时间跑完了巴黎马拉松。 Mensch从小就在学术追求与创业之间徘徊。他出生在巴黎西郊,母亲是物理老师,父亲拥有一家小型科技公司。 这位未来的CEO毕业于法国顶级的数学和机器学习院校。他的导师们将他描述为一个热情投入、能够迅速掌握自己几乎没有基础的项目的学生。 「我确实热爱探索新事物,」Mensch 表示。「我很容易感到厌倦。」 在攻读博士期间,Mensch的研究方向是优化软件,分析核磁共振图像(fMRI)系统的三维大脑图像,让软件能够处理高达数百万的图像量。 2020年底,Mensch加入了DeepMind,在那里他参与开发了大语言模型。 到了2022年,他以主要作者的身份发表了著名的「Chinchilla论文」。 这项研究重新定义了人们对AI模型的大小、训练它所需的数据量以及其性能之间关系的认识,被称为AI缩放法则。 随着2022年AI竞赛的升温,Mensch对于大公司的AI实验室减少了关于大语言模型研究成果的发表,减少了与研究社区的分享这一情况表示失望。 ChatGPT发布后,谷歌决定加速追赶。 Mensch所在的团队从一个10人的小团队变为30人,最后扩充成为了一个70人的大团队。 「我觉得我在事情变得过于官僚化之前应该离开了,」Mensch 说。「我不想在大型科技公司中开发那些不透明的技术。」 Mistral在2023年春天向投资者提出的最初方案中,批评了由美国公司主导的「正在形成的寡头垄断」,这些公司开发的是专有闭源模型。 对于Mensch和他的合伙人来说,将他们的初始AI系统作为开源软件发布,允许任何人免费使用或修改,这是一个重要的原则。 这也是吸引开发者和潜在客户的一种方式,他们希望每个人对自己使用的AI有更多的控制权。 尽管Mistral现在的最先进模型Mistral Large并不开源,但Mensch表示: 「在构建商业模式和坚持我们的开源价值观之间找到一个平衡点是非常微妙的。我们希望创造新的事物、新的架构,但是还想向我们的客户提供一些额外的产品和服务。」

网站地图