腾讯开源首个AI绘画模型:混元文生图大模型,国内首个中英双语DiT架构文生图模型,号称超越SD

2025-01-27 来源|AI图库吧

AI奇点网5月14日报道丨5月14日下午,腾讯发布今年第二季度业绩财报,并宣布宣布旗下的混元文生图AI大模型升级并对外正式开源,目前开源代码已经在 Hugging Face 及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,腾讯表示,混元 DiT 是首个中英双语 DiT 架构。

混元 DiT 是一个基于 Diffusion transformer 的文本到图像生成模型,此模型具有中英文细粒度理解能力,混元 DiT 能够与用户进行多轮对话,根据上下文生成并完善图像。这也是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解,参数量 15 亿。

运行该模型需要支持 CUDA 的英伟达 GPU,单独运行混元 DiT 所需的最低显存为 11GB,同时运行 DialogGen(腾讯推出的文本转图像多模态交互式对话系统)和混元 DiT 则至少需要 32GB 的显存,腾讯表示他们已经在 Linux 上测试了英伟达的 V100 和 A100 GPU。

这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。

评测数据显示,最新的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型,是目前效果最好的开源文生图模型;整体能力属于国际领先水平。

升级后的腾讯混元文生图大模型采用了全新的DiT架构(DiT,即Diffusion With Transformer),这也是Sora和 Stable Diffusion 3 的同款架构和关键技术,是一种基于Transformer架构的扩散模型。

过去,视觉生成扩散模型主要基于 U-Net 架构,但随着参数量的提升,基于 Transformer 架构的扩散模型展现出了更好的扩展性,有助于进一步提升模型的生成质量及效率。

腾讯混元是业界最早探索并应用大语言模型结合 DiT 结构的文生图模型之一。从 2023 年 7 月起,腾讯混元文生图团队就明确了基于DiT架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型已全面升级为DiT架构。

在DiT架构之上,腾讯混元团队在算法层面优化了模型的长文本理解能力,能够支持最多 256 字符的内容输入。同时,在算法层面创新实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,从而达到更满意的效果。

中文原生也是腾讯混元文生图大模型的一大亮点,此前,像 Stable Diffusion 等主流开源模型核心数据集以英文为主,对中国的语言、美食、文化、习俗都理解不够。混元文生图是首个中文原生的DiT模型,具备中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。

评测结果显示,新一代腾讯混元文生图大模型视觉生成整体效果,相比前代提升超过 20%,在语义理解、画面质感与真实性方面全面提升,在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

最新
更多

腾讯开源首个AI绘画模型:混元文生图大模型,国内首个中英双语DiT架构文生图模型,号称超越SD

这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。最新的腾讯混元文生图模型效果远超Stable Diffusion模型。

OpenAI解释为何先推出Mac版本的ChatGPT应用:我们的用户主要在这个平台上

OpenAI举办线上活动,发布了 ChatGPT 的一系列更新。官方还同步更新了一款新版的 ChatGPT 桌面应用,这是该公司首次面向桌面 PC 用户推出客户端。

OpenAI重新定义AI时代!全新旗舰GPT-4o大模型干翻所有语音助手,AI语音完美复现科幻电影人工智能形象

传奇一夜,OpenAI要改变历史。看完发布会的观众们,久久未从巨大的震惊中走出——科幻电影中的「Her」,在此刻成真了!

一大筐AI新产品:谷歌举行I/O 2024开发者大会丨谷歌推出AI搜索服务丨OpenAI首席科学家Ilya Sutskever离职创业

【AI奇点网2024年5月15日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。

「宫斗」余波:OpenAI首席科学家Ilya Sutskever宣布离职,未来或将开启创业

OpenAI CEO奥特曼对外宣布,公司的首席科学家、联合创始人Ilya Sutskever正式与OpenAI分道扬镳,离开待了将近10年的OpenAI。

谷歌惨变汪峰!I/O开发者大会掏空家底:14款AI新品震撼大井喷,且惨遭Ilya离职逆转新闻头条

昨夜大爆发,谷歌I O大会一口气足足推出了14款产品线的上新or更新。这真的称得上是“狂轰滥炸”,谷歌依托自身的海量产品线,几乎拿出了看家的本事。

网站地图