大语言模型(LLM)在生成文本内容方面非常强,但在理解、生成视频、图像等方面略显不足。尤其是在Sora一夜爆红之后,让人们意识到未来主流模型一定是文本+音频+图像+视频的多模态生成、理解功能。
因此,加州大学伯克利分校的研究人员开源了一种训练数据更多、理解能力更强的基础模型——大世界模型(Large World Model,简称“LWM”)。
LWM是一种通用的多模态自回归模型,与前不久谷歌发布的Gemini 1.5一样,一次性可精准解答100万tokens的视频、文本,例如,LWM可以正确回答1小时YouTube视频中包含500多个视频片段的问题。
开源地址:https://github.com/LargeWorldModel/LWM
论文地址:https://arxiv.org/abs/2402.08268
huggingface:https://huggingface.co/LargeWorldModel
此外,LWM可以精准检索100万tokens文本中的内容,同时与Sora一样具备文本生成视频、图像的能力。整体性能非常强悍,目前在github获得超6000颗星,有纯文本、视频、图像等多个版本模型可使用。
在传统的注意力机制中,例如,Transformer架构中使用的自注意力,模型需要计算序列中每个元素对于其他所有元素的注意力得分,这就会面临两大难题。
1)内存需求上升:模型需要存储每一对元素间的注意力得分,会随着序列长度的增加而急剧增加内存需求。
2)计算复杂度:当序列很长时,会导致巨大的算力负担。
LWM的核心技术是通过Ring Attention(环形注意力)在长序列上进行扩展训练,并使用Books3 数据集从32000扩展到100万标记,而无需消耗额外的内存、算力并降低计算复杂度。
Ring Attention论文地址:https://arxiv.org/abs/2310.01889
尽管Ring Attention减少了每个片段的直接交互范围,但仍然允许信息在序列中传递,保持了模型对长距离依赖的捕捉能力,减少了长序列的处理损失度。
这也是LWM能处理高达100万tokens数据的原因之一。
RingAttention是通过使用循环结构来扩展,注意力机制的上下文大小。传统的注意力机制在计算上下文相关性时,通常只关注序列中相对较近的位置。
但在处理长序列时,远距离的上下文信息也可能对模型的理解和推理能力至关重要。RingAttention通过引入环形结构来解决这个难题。
具体来说,使用了一种环形缓冲区来存储先前计算的注意力权重。模型可以在计算当前位置的注意力时,考虑到之前计算的位置的信息,从而无限扩展了上下文范围,主要功能模块如下。
环状分组:该模块将输入序列划分为多个环,每个环中的位置与其他环中的位置之间进行相关性计算。通过这种划分方式,可以有效降低计算复杂度。
环内注意力:在每个环内,该模块计算位置之间的相关性,并根据相关性的权重对位置进行加权。这样,每个位置都可以获得来自同一环的其他位置的信息。
环间注意力:这个模块负责计算不同环之间的相关性。通过将每个环的表示与其他环的表示进行比较,计算它们之间的相关性,这种跨环的交互有助于在不同环之间传递信息。
环间投影:在环间注意力之后,该模块将每个环的表示投影到一个共享的表示空间中,有助于进一步整合不同环之间的信息。
通过这些关键模块的协同工作,Ring Attention实现了对长序列的高效处理和建模,并为训练大规模模型提供了高效方法。
第一阶段是语言模型的预训练,主要扩展语言理解的上下文长度。LWM使用了Books3数据集, 从32.000 tokens逐步扩展到100万tokens,同时针对长序列的聊天任务进行了微调。
第二阶段是多模态的预训练,将视觉信息整合到语言模型中。LWM使用了大量包含图像和视频的公开数据集,例如,LAION-2B、COYO-700M、WebVid10M等。
同时训练图像-文本、视频-文本等多种对齐格式。视频以每秒4帧的速度提取关键帧,特别针对32K、128K和1M tokens长度进行了优化训练。1
上一篇:全球首例AI侵犯知名IP形象宣判!广州法院判决AI生成奥特曼侵犯圆谷著作权
近日,广州互联网法院正式对外生效了一起关于生成式AI服务侵犯他人著作权判决,这也是全球范围内首例生成式AI服务侵犯他人著作权的生效判决。
成立9个月,当初那个「6人团队,7页PPT,8亿融资」的公司不断缔造传奇。Mistral AI今日发布的Mistral Large模型性能已经直逼GPT-4,同时和微软官宣合作。「下一个OpenAI」的爆相,已经越来越明显了。下一个OpenAI来了? 开源社区的另一个中心Mistral AI,刚刚发布了最强力的旗舰模型Mistral Large,性能直接对标GPT-4!(但可惜的是没有开源) Mistral Large具备卓越的逻辑推理能力,能够处理包括文本理解、转换以及代码生成在内的复杂多语言任务。 在众多主流基准测试中,Mistral Large力压Anthropic的Claude 2和谷歌的Gemini Pro,成绩仅次于GPT-4! LLM领域,格局再次改变。 同时,就在今天,AI圈又一重磅消息曝出:继OpenAI之后,微软将Mistral也纳入麾下! Mistral从诞生之初,就充满传奇的光环。成立4周,6人团队,7页PPT,8亿融资(1 05亿欧元),简直堪称爽文走进现实。 创始人Arthur Mensch是1993年出生的法国小伙,在谷歌工作3年后,在自己31岁时离开谷歌,拉拢了两位Llama模型的开发者,一起创立了这个日后可以和OpenAI、Anthropic分庭抗礼的公司。 几个人的团队,极少的融资,做出的模型却可以和GPT-4掰手腕。 如今再加上金主爸爸微软的撑腰,Mistral 「下一个OpenAI」的名头,是坐实了。 Mistral不开源?网友慌了! 现在,正处于全世界聚光灯下的Mistral,一举一动都十分引人注目。 有网友发现Mistral修改了网站内容,删除了所有提及开源社区义务的内容,这立马引发了恐慌! 之前的主页(左);现在的主页(右) 不过,大家目前还不需要太过担心。 根据外媒对Mistral CEO的采访,未来他们依然会坚持开源理念,但是同时也会推出性能最为强大的闭源模型参与商业竞争。 现在他们已经完成了以规模命名的开源模型:Mistral 7B和Mistral 8 x 7B回馈社区,以「大中小」命名的闭源模型赚钱的产品线搭建。 欧洲最强大模型来了! 话说回来,这次发布的Mistral Large,可以说是最适合欧洲人体质的大模型。 简单来说: - Mistral Large能够母语般流利地使用英语、法语、西班牙语、德语和意大利语,深刻理解各自的语法规则和文化背景。 - Mistral Large能够处理32K Token的上下文内容,使其能够从庞大的文档中精确快速地提取信息。 - Mistral Large在执行具体指令方面异常精准,这让开发人员可以根据自己的需求定制内容审查政策——例如,Mistral AI利用它来进行了le Chat的系统级别审查。 - Mistral Large原生支持函数调用。这个特性,结合Mistral AI在la Plateforme上实施的输出内容限制模式,极大地促进了应用程序的开发和技术栈的现代化。 目前,Mistral AI的这个新旗舰模型仅在Azure AI和Mistral AI平台上可用。 其中,在Azure AI上的定价如下:输出为0 024美元 1000 token,输入为0 008美元 1000 token。 推理能力与知识掌握 要说Mistral Large最令人印象深刻的,还是超强的推理能力。 作为旗舰模型,Mistral Large在常识、推理以及知识方面,都展现出了令人瞩目的实力。 虽然和GPT-4还有不小的差距,但Claude 2和Gemini Pro 1 0基本上已经是手下败将了。 多语言能力 作为一款欧洲人自己的大模型,Mistral Large在法语、德语、西班牙语和意大利语上的表现,均优于Llama 2 70B模型。 同时,也强过自家更小规模的模型。 数学与编程能力 在编程和数学方面,Mistral Large的能力也非常突出。 不仅相比自己其他模型有了大幅的提升,而且在主流的测试基准上都取得了不俗的成绩。 「小杯」也来了 相比之下,规模更小的Mistral Small,则更加专注于对延迟和成本的优化。 相较于Mixtral 8x7B,Mistral Small展现出更优异的性能和更低的延迟,是介于Mistral AI开源模型和旗舰模型之间的解决方案。 与Mistral Large类似,Mistral Small同样采用了在RAG和函数调用方面的创新技术。 此外,Mistral还优化了自家的服务接口: - 提供竞争力价格的开放权重端点,包括open-mistral-7B和open-mixtral-8x7b。 - 推出新的优化模型端点,包括mistral-small-2402和mistral-large-2402 同时继续提供未更新的mistral-medium。 和微软官宣合作,Mistral AI腰板更硬了 除了宣布模型之外,Mistral AI还官宣了和微软的深度合作。 而这也是微软继OpenAI之后,再次「真金白银」地入股AI圈的另一家顶流模型公司。 虽然2023年4月才成立,Mistral AI已经对欧洲的AI领域产生了重大影响。 开源模型Mistral 7B和Mixtral的发布,惊艳了一众开发者,在AI社区掀起了轩然大波。 如今微软的支持,让更多人坚信:Mistral就是下一个OpenAI。 Mistral AI是法国的AI初创公司,微软与它的合作,无疑让微软在欧洲也建立起了自己的AI影响力。 两家公司的合作,目标是弥补基础AI研究与实际解决方案之间的差距。 如果在未来建立多年的合作伙伴关系,Mistral AI就可以访问微软Azure的AI基础设施了。 微软的加持对Mistral AI意味着什么,不言而喻。 不光Mistral AI下一代LLM的开发和部署会大大加速,并且会开辟出新的商机。以欧洲为基础,Mistral AI会向全球市场扩张自己的影响力! 具体来说,微软和Mistral AI之间的合作集中在以下三个关键领域—— 超算基础结构:微软将通过Azure AI超算基础结构支持Mistral AI,用于AI训练和推理工作负载。 扩展市场:微软和Mistral AI将通过Azure AI Studio中的MaaS和Azure机器学习模型目录,向客户提供Mistral AI的高级模型。 AI研发:微软和Mistral AI将探索合作,为指定的客户开发专有模型,甚至包括欧洲公共部门的工作负载。 目前,两家公司还没有透露财务细节。 最近,Mistral AI以近20亿美元的估值,筹集了4 5亿欧元,由科技投资者Andreessen Horowitz领投。 不过,跟它在美国的竞争者比,Mistral AI所获得的资金显然并不算多。 要知道,OpenAI仅从微软就获得了超过100亿美元的投资,而Anthropic从谷歌和亚马逊获得的资金,也高达60亿美元。 据《华尔街日报》报道,去年10月,谷歌承诺向Anthropic投资20亿美元 因此,此项合作一出,Mistral AI「欧洲版OpenAI」的名头,更加坐实了。 而对于微软来说,这项投资也是好处多多——这是它在欧洲AI领域站稳脚跟的机会。 本来,作为Azure云中欧盟服务器上OpenAI模型的唯一提供商,微软已经在欧洲的AI竞赛中处于领先地位。 不过AI在欧洲所受的待遇,并不像在美国那样备受支持。 欧洲许多国家对于AI的态度偏保守,他们持的是批判性的态度,尤其是在数据保护方面。 而如果是欧洲服务器商的欧洲AI模型,或许能让人放心,不失为一种不错的补救措施。 成立9个月的传奇AI初创企业,挑战硅谷巨头 Mistral在种子轮融资时「6人团队,7页PPT,8亿融资」的故事,值得好好讲一讲。 2023年初,还在谷歌工作的Arthur Mensch,刚刚30岁。 一年之后,他离开谷歌创立自己的公司,只用了9个来月的时间,就已经估值20亿美元! Mensch于2020年初加入了谷歌,成为DeepMind的研究员,他的研究方向是提高AI和机器学习系统的效率。那时他27岁。 后来,他和两位之前一起参与了Llama模型研发的年轻人Timothée Lacroix和Guillaume Lample一起,决定成立一家公司,通过更加高效的方法构建和部署AI模型。 他们相信,小团队能力在灵活性上超越硅谷的大公司,而开源模型就是他们实现这一目标的利器。 虽然已经从各路投资者那里筹集了超过5亿美元,他的公司Mistral AI相比于微软支持的OpenAI,谷歌,乃至Anthropic,依然显得有些「微不足道」。 这些巨头,以及巨头重金支持的巨型独角兽投入了几十亿美元来构建全世界最先进的AI系统。 但Mensch并不担心与这些庞然大物竞争。 「我们的目标是成为 AI 领域中最节省资本的公司,」Mensch表示。「这是我们成立的初衷。」 对于刚刚推出的Mistral Large模型,他认为,这款模型在执行某些推理任务上能够与OpenAI最先进的语言模型GPT-4和谷歌的新模型Gemini Ultra相匹敌。 Mensch透露,开发这款新模型的成本不到2000万欧元(约合2200万美元)。 Mistral巴黎总部的办公室 相比之下,OpenAI的首席执行官Sam Altman曾在去年发布GPT-4时表示,训练他们公司的大型模型的成本接近1亿美元。 而且随着他们用行业内最为高效的开源模型不断震惊业界,他们也获得了微软,英伟达和Salesforce等大公司的背书。 巨头们也通过现金或者算力的支持,获取了Mistral AI的少量股份。 伴随着Mistral Large的发布,9个月前他们用7页PPT吹下的牛,已经完全兑现了。 撬动8亿元投资的六人团队 这六个人的团队,是这样组成的。 Arthur Mensch在巴黎综合理工学院和巴黎高等师范学院学习期间,结识了另两位创始人——Timothée Lacroix和Guillaume Lample。 两人都是Meta AI团队的,Lample甚至领导了LLaMA的开发。 几个三十出头的年轻人,在LLM开发领域已经有不少经验。 在当时,即使在全世界范围内,具备构建、训练和优化LLM专业经验的人,也不超过100人。 而另外三位,分别是来自法国巴黎健康初创公司Alan的CEO Jean-Charles Samuelian和CTO Charles Gorintin,以及前法国数字事务国务秘书Cédric O。 AI科学家,如何创立自己的独角兽公司 Mensch个头高大,一头浓密的深色头发,他既不像典型的科技极客,也不像常见的CEO。 他的朋友和同事们说,他总是一边喝啤酒一边轻松地和朋友开玩笑。 作为一名运动爱好者,他在2018年提交博士论文前的几个月,以不到三小时半的时间跑完了巴黎马拉松。 Mensch从小就在学术追求与创业之间徘徊。他出生在巴黎西郊,母亲是物理老师,父亲拥有一家小型科技公司。 这位未来的CEO毕业于法国顶级的数学和机器学习院校。他的导师们将他描述为一个热情投入、能够迅速掌握自己几乎没有基础的项目的学生。 「我确实热爱探索新事物,」Mensch 表示。「我很容易感到厌倦。」 在攻读博士期间,Mensch的研究方向是优化软件,分析核磁共振图像(fMRI)系统的三维大脑图像,让软件能够处理高达数百万的图像量。 2020年底,Mensch加入了DeepMind,在那里他参与开发了大语言模型。 到了2022年,他以主要作者的身份发表了著名的「Chinchilla论文」。 这项研究重新定义了人们对AI模型的大小、训练它所需的数据量以及其性能之间关系的认识,被称为AI缩放法则。 随着2022年AI竞赛的升温,Mensch对于大公司的AI实验室减少了关于大语言模型研究成果的发表,减少了与研究社区的分享这一情况表示失望。 ChatGPT发布后,谷歌决定加速追赶。 Mensch所在的团队从一个10人的小团队变为30人,最后扩充成为了一个70人的大团队。 「我觉得我在事情变得过于官僚化之前应该离开了,」Mensch 说。「我不想在大型科技公司中开发那些不透明的技术。」 Mistral在2023年春天向投资者提出的最初方案中,批评了由美国公司主导的「正在形成的寡头垄断」,这些公司开发的是专有闭源模型。 对于Mensch和他的合伙人来说,将他们的初始AI系统作为开源软件发布,允许任何人免费使用或修改,这是一个重要的原则。 这也是吸引开发者和潜在客户的一种方式,他们希望每个人对自己使用的AI有更多的控制权。 尽管Mistral现在的最先进模型Mistral Large并不开源,但Mensch表示: 「在构建商业模式和坚持我们的开源价值观之间找到一个平衡点是非常微妙的。我们希望创造新的事物、新的架构,但是还想向我们的客户提供一些额外的产品和服务。」
基于ChatGPT API开发的Perplexity AI能够自动搜集、分析并展示来自互联网及其他数据源的相关信息,从而极大地优化了信息检索和知识获取的过程。
【AI奇点网2024年2月28日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
2月28日,全球最大开源平台之一GitHub在官网宣布——GitHub Copilot Enterprise正式全面发布。
话炉
Paraphraser.io
快写兔
YesChat Ai
ChatAA
妙言妙语AI
FineTBot
AskNow AI
靠谱AI
网站地图
最新开源大模型LWM发布丨与Sora一样能生成视频、图像,还能一次解读100万数据!
大语言模型(LLM)在生成文本内容方面非常强,但在理解、生成视频、图像等方面略显不足。尤其是在Sora一夜爆红之后,让人们意识到未来主流模型一定是文本+音频+图像+视频的多模态生成、理解功能。
因此,加州大学伯克利分校的研究人员开源了一种训练数据更多、理解能力更强的基础模型——大世界模型(Large World Model,简称“LWM”)。
LWM是一种通用的多模态自回归模型,与前不久谷歌发布的Gemini 1.5一样,一次性可精准解答100万tokens的视频、文本,例如,LWM可以正确回答1小时YouTube视频中包含500多个视频片段的问题。
开源地址:https://github.com/LargeWorldModel/LWM
论文地址:https://arxiv.org/abs/2402.08268
huggingface:https://huggingface.co/LargeWorldModel
此外,LWM可以精准检索100万tokens文本中的内容,同时与Sora一样具备文本生成视频、图像的能力。整体性能非常强悍,目前在github获得超6000颗星,有纯文本、视频、图像等多个版本模型可使用。
LWM模型介绍
在传统的注意力机制中,例如,Transformer架构中使用的自注意力,模型需要计算序列中每个元素对于其他所有元素的注意力得分,这就会面临两大难题。
1)内存需求上升:模型需要存储每一对元素间的注意力得分,会随着序列长度的增加而急剧增加内存需求。
2)计算复杂度:当序列很长时,会导致巨大的算力负担。
LWM的核心技术是通过Ring Attention(环形注意力)在长序列上进行扩展训练,并使用Books3 数据集从32000扩展到100万标记,而无需消耗额外的内存、算力并降低计算复杂度。
Ring Attention论文地址:https://arxiv.org/abs/2310.01889
尽管Ring Attention减少了每个片段的直接交互范围,但仍然允许信息在序列中传递,保持了模型对长距离依赖的捕捉能力,减少了长序列的处理损失度。
这也是LWM能处理高达100万tokens数据的原因之一。
Ring Attention主要功能
RingAttention是通过使用循环结构来扩展,注意力机制的上下文大小。传统的注意力机制在计算上下文相关性时,通常只关注序列中相对较近的位置。
但在处理长序列时,远距离的上下文信息也可能对模型的理解和推理能力至关重要。RingAttention通过引入环形结构来解决这个难题。
具体来说,使用了一种环形缓冲区来存储先前计算的注意力权重。模型可以在计算当前位置的注意力时,考虑到之前计算的位置的信息,从而无限扩展了上下文范围,主要功能模块如下。
环状分组:该模块将输入序列划分为多个环,每个环中的位置与其他环中的位置之间进行相关性计算。通过这种划分方式,可以有效降低计算复杂度。
环内注意力:在每个环内,该模块计算位置之间的相关性,并根据相关性的权重对位置进行加权。这样,每个位置都可以获得来自同一环的其他位置的信息。
环间注意力:这个模块负责计算不同环之间的相关性。通过将每个环的表示与其他环的表示进行比较,计算它们之间的相关性,这种跨环的交互有助于在不同环之间传递信息。
环间投影:在环间注意力之后,该模块将每个环的表示投影到一个共享的表示空间中,有助于进一步整合不同环之间的信息。
通过这些关键模块的协同工作,Ring Attention实现了对长序列的高效处理和建模,并为训练大规模模型提供了高效方法。
LWM训练流程与数据
第一阶段是语言模型的预训练,主要扩展语言理解的上下文长度。LWM使用了Books3数据集, 从32.000 tokens逐步扩展到100万tokens,同时针对长序列的聊天任务进行了微调。
第二阶段是多模态的预训练,将视觉信息整合到语言模型中。LWM使用了大量包含图像和视频的公开数据集,例如,LAION-2B、COYO-700M、WebVid10M等。
同时训练图像-文本、视频-文本等多种对齐格式。视频以每秒4帧的速度提取关键帧,特别针对32K、128K和1M tokens长度进行了优化训练。1
上一篇:全球首例AI侵犯知名IP形象宣判!广州法院判决AI生成奥特曼侵犯圆谷著作权
最新开源大模型LWM发布丨与Sora一样能生成视频、图像,还能一次解读100万数据!
大语言模型(LLM)在生成文本内容方面非常强,但在理解、生成视频、图像等方面略显不足。尤其是在Sora一夜爆红之后,让人们意识到未来主流模型一定是文本+音频+图像+视频的多模态生成、理解功能。
全球首例AI侵犯知名IP形象宣判!广州法院判决AI生成奥特曼侵犯圆谷著作权
近日,广州互联网法院正式对外生效了一起关于生成式AI服务侵犯他人著作权判决,这也是全球范围内首例生成式AI服务侵犯他人著作权的生效判决。
Mistral AI最新公布_下一个OpenAI
成立9个月,当初那个「6人团队,7页PPT,8亿融资」的公司不断缔造传奇。Mistral AI今日发布的Mistral Large模型性能已经直逼GPT-4,同时和微软官宣合作。「下一个OpenAI」的爆相,已经越来越明显了。下一个OpenAI来了? 开源社区的另一个中心Mistral AI,刚刚发布了最强力的旗舰模型Mistral Large,性能直接对标GPT-4!(但可惜的是没有开源) Mistral Large具备卓越的逻辑推理能力,能够处理包括文本理解、转换以及代码生成在内的复杂多语言任务。 在众多主流基准测试中,Mistral Large力压Anthropic的Claude 2和谷歌的Gemini Pro,成绩仅次于GPT-4! LLM领域,格局再次改变。 同时,就在今天,AI圈又一重磅消息曝出:继OpenAI之后,微软将Mistral也纳入麾下! Mistral从诞生之初,就充满传奇的光环。成立4周,6人团队,7页PPT,8亿融资(1 05亿欧元),简直堪称爽文走进现实。 创始人Arthur Mensch是1993年出生的法国小伙,在谷歌工作3年后,在自己31岁时离开谷歌,拉拢了两位Llama模型的开发者,一起创立了这个日后可以和OpenAI、Anthropic分庭抗礼的公司。 几个人的团队,极少的融资,做出的模型却可以和GPT-4掰手腕。 如今再加上金主爸爸微软的撑腰,Mistral 「下一个OpenAI」的名头,是坐实了。 Mistral不开源?网友慌了! 现在,正处于全世界聚光灯下的Mistral,一举一动都十分引人注目。 有网友发现Mistral修改了网站内容,删除了所有提及开源社区义务的内容,这立马引发了恐慌! 之前的主页(左);现在的主页(右) 不过,大家目前还不需要太过担心。 根据外媒对Mistral CEO的采访,未来他们依然会坚持开源理念,但是同时也会推出性能最为强大的闭源模型参与商业竞争。 现在他们已经完成了以规模命名的开源模型:Mistral 7B和Mistral 8 x 7B回馈社区,以「大中小」命名的闭源模型赚钱的产品线搭建。 欧洲最强大模型来了! 话说回来,这次发布的Mistral Large,可以说是最适合欧洲人体质的大模型。 简单来说: - Mistral Large能够母语般流利地使用英语、法语、西班牙语、德语和意大利语,深刻理解各自的语法规则和文化背景。 - Mistral Large能够处理32K Token的上下文内容,使其能够从庞大的文档中精确快速地提取信息。 - Mistral Large在执行具体指令方面异常精准,这让开发人员可以根据自己的需求定制内容审查政策——例如,Mistral AI利用它来进行了le Chat的系统级别审查。 - Mistral Large原生支持函数调用。这个特性,结合Mistral AI在la Plateforme上实施的输出内容限制模式,极大地促进了应用程序的开发和技术栈的现代化。 目前,Mistral AI的这个新旗舰模型仅在Azure AI和Mistral AI平台上可用。 其中,在Azure AI上的定价如下:输出为0 024美元 1000 token,输入为0 008美元 1000 token。 推理能力与知识掌握 要说Mistral Large最令人印象深刻的,还是超强的推理能力。 作为旗舰模型,Mistral Large在常识、推理以及知识方面,都展现出了令人瞩目的实力。 虽然和GPT-4还有不小的差距,但Claude 2和Gemini Pro 1 0基本上已经是手下败将了。 多语言能力 作为一款欧洲人自己的大模型,Mistral Large在法语、德语、西班牙语和意大利语上的表现,均优于Llama 2 70B模型。 同时,也强过自家更小规模的模型。 数学与编程能力 在编程和数学方面,Mistral Large的能力也非常突出。 不仅相比自己其他模型有了大幅的提升,而且在主流的测试基准上都取得了不俗的成绩。 「小杯」也来了 相比之下,规模更小的Mistral Small,则更加专注于对延迟和成本的优化。 相较于Mixtral 8x7B,Mistral Small展现出更优异的性能和更低的延迟,是介于Mistral AI开源模型和旗舰模型之间的解决方案。 与Mistral Large类似,Mistral Small同样采用了在RAG和函数调用方面的创新技术。 此外,Mistral还优化了自家的服务接口: - 提供竞争力价格的开放权重端点,包括open-mistral-7B和open-mixtral-8x7b。 - 推出新的优化模型端点,包括mistral-small-2402和mistral-large-2402 同时继续提供未更新的mistral-medium。 和微软官宣合作,Mistral AI腰板更硬了 除了宣布模型之外,Mistral AI还官宣了和微软的深度合作。 而这也是微软继OpenAI之后,再次「真金白银」地入股AI圈的另一家顶流模型公司。 虽然2023年4月才成立,Mistral AI已经对欧洲的AI领域产生了重大影响。 开源模型Mistral 7B和Mixtral的发布,惊艳了一众开发者,在AI社区掀起了轩然大波。 如今微软的支持,让更多人坚信:Mistral就是下一个OpenAI。 Mistral AI是法国的AI初创公司,微软与它的合作,无疑让微软在欧洲也建立起了自己的AI影响力。 两家公司的合作,目标是弥补基础AI研究与实际解决方案之间的差距。 如果在未来建立多年的合作伙伴关系,Mistral AI就可以访问微软Azure的AI基础设施了。 微软的加持对Mistral AI意味着什么,不言而喻。 不光Mistral AI下一代LLM的开发和部署会大大加速,并且会开辟出新的商机。以欧洲为基础,Mistral AI会向全球市场扩张自己的影响力! 具体来说,微软和Mistral AI之间的合作集中在以下三个关键领域—— 超算基础结构:微软将通过Azure AI超算基础结构支持Mistral AI,用于AI训练和推理工作负载。 扩展市场:微软和Mistral AI将通过Azure AI Studio中的MaaS和Azure机器学习模型目录,向客户提供Mistral AI的高级模型。 AI研发:微软和Mistral AI将探索合作,为指定的客户开发专有模型,甚至包括欧洲公共部门的工作负载。 目前,两家公司还没有透露财务细节。 最近,Mistral AI以近20亿美元的估值,筹集了4 5亿欧元,由科技投资者Andreessen Horowitz领投。 不过,跟它在美国的竞争者比,Mistral AI所获得的资金显然并不算多。 要知道,OpenAI仅从微软就获得了超过100亿美元的投资,而Anthropic从谷歌和亚马逊获得的资金,也高达60亿美元。 据《华尔街日报》报道,去年10月,谷歌承诺向Anthropic投资20亿美元 因此,此项合作一出,Mistral AI「欧洲版OpenAI」的名头,更加坐实了。 而对于微软来说,这项投资也是好处多多——这是它在欧洲AI领域站稳脚跟的机会。 本来,作为Azure云中欧盟服务器上OpenAI模型的唯一提供商,微软已经在欧洲的AI竞赛中处于领先地位。 不过AI在欧洲所受的待遇,并不像在美国那样备受支持。 欧洲许多国家对于AI的态度偏保守,他们持的是批判性的态度,尤其是在数据保护方面。 而如果是欧洲服务器商的欧洲AI模型,或许能让人放心,不失为一种不错的补救措施。 成立9个月的传奇AI初创企业,挑战硅谷巨头 Mistral在种子轮融资时「6人团队,7页PPT,8亿融资」的故事,值得好好讲一讲。 2023年初,还在谷歌工作的Arthur Mensch,刚刚30岁。 一年之后,他离开谷歌创立自己的公司,只用了9个来月的时间,就已经估值20亿美元! Mensch于2020年初加入了谷歌,成为DeepMind的研究员,他的研究方向是提高AI和机器学习系统的效率。那时他27岁。 后来,他和两位之前一起参与了Llama模型研发的年轻人Timothée Lacroix和Guillaume Lample一起,决定成立一家公司,通过更加高效的方法构建和部署AI模型。 他们相信,小团队能力在灵活性上超越硅谷的大公司,而开源模型就是他们实现这一目标的利器。 虽然已经从各路投资者那里筹集了超过5亿美元,他的公司Mistral AI相比于微软支持的OpenAI,谷歌,乃至Anthropic,依然显得有些「微不足道」。 这些巨头,以及巨头重金支持的巨型独角兽投入了几十亿美元来构建全世界最先进的AI系统。 但Mensch并不担心与这些庞然大物竞争。 「我们的目标是成为 AI 领域中最节省资本的公司,」Mensch表示。「这是我们成立的初衷。」 对于刚刚推出的Mistral Large模型,他认为,这款模型在执行某些推理任务上能够与OpenAI最先进的语言模型GPT-4和谷歌的新模型Gemini Ultra相匹敌。 Mensch透露,开发这款新模型的成本不到2000万欧元(约合2200万美元)。 Mistral巴黎总部的办公室 相比之下,OpenAI的首席执行官Sam Altman曾在去年发布GPT-4时表示,训练他们公司的大型模型的成本接近1亿美元。 而且随着他们用行业内最为高效的开源模型不断震惊业界,他们也获得了微软,英伟达和Salesforce等大公司的背书。 巨头们也通过现金或者算力的支持,获取了Mistral AI的少量股份。 伴随着Mistral Large的发布,9个月前他们用7页PPT吹下的牛,已经完全兑现了。 撬动8亿元投资的六人团队 这六个人的团队,是这样组成的。 Arthur Mensch在巴黎综合理工学院和巴黎高等师范学院学习期间,结识了另两位创始人——Timothée Lacroix和Guillaume Lample。 两人都是Meta AI团队的,Lample甚至领导了LLaMA的开发。 几个三十出头的年轻人,在LLM开发领域已经有不少经验。 在当时,即使在全世界范围内,具备构建、训练和优化LLM专业经验的人,也不超过100人。 而另外三位,分别是来自法国巴黎健康初创公司Alan的CEO Jean-Charles Samuelian和CTO Charles Gorintin,以及前法国数字事务国务秘书Cédric O。 AI科学家,如何创立自己的独角兽公司 Mensch个头高大,一头浓密的深色头发,他既不像典型的科技极客,也不像常见的CEO。 他的朋友和同事们说,他总是一边喝啤酒一边轻松地和朋友开玩笑。 作为一名运动爱好者,他在2018年提交博士论文前的几个月,以不到三小时半的时间跑完了巴黎马拉松。 Mensch从小就在学术追求与创业之间徘徊。他出生在巴黎西郊,母亲是物理老师,父亲拥有一家小型科技公司。 这位未来的CEO毕业于法国顶级的数学和机器学习院校。他的导师们将他描述为一个热情投入、能够迅速掌握自己几乎没有基础的项目的学生。 「我确实热爱探索新事物,」Mensch 表示。「我很容易感到厌倦。」 在攻读博士期间,Mensch的研究方向是优化软件,分析核磁共振图像(fMRI)系统的三维大脑图像,让软件能够处理高达数百万的图像量。 2020年底,Mensch加入了DeepMind,在那里他参与开发了大语言模型。 到了2022年,他以主要作者的身份发表了著名的「Chinchilla论文」。 这项研究重新定义了人们对AI模型的大小、训练它所需的数据量以及其性能之间关系的认识,被称为AI缩放法则。 随着2022年AI竞赛的升温,Mensch对于大公司的AI实验室减少了关于大语言模型研究成果的发表,减少了与研究社区的分享这一情况表示失望。 ChatGPT发布后,谷歌决定加速追赶。 Mensch所在的团队从一个10人的小团队变为30人,最后扩充成为了一个70人的大团队。 「我觉得我在事情变得过于官僚化之前应该离开了,」Mensch 说。「我不想在大型科技公司中开发那些不透明的技术。」 Mistral在2023年春天向投资者提出的最初方案中,批评了由美国公司主导的「正在形成的寡头垄断」,这些公司开发的是专有闭源模型。 对于Mensch和他的合伙人来说,将他们的初始AI系统作为开源软件发布,允许任何人免费使用或修改,这是一个重要的原则。 这也是吸引开发者和潜在客户的一种方式,他们希望每个人对自己使用的AI有更多的控制权。 尽管Mistral现在的最先进模型Mistral Large并不开源,但Mensch表示: 「在构建商业模式和坚持我们的开源价值观之间找到一个平衡点是非常微妙的。我们希望创造新的事物、新的架构,但是还想向我们的客户提供一些额外的产品和服务。」
基于ChatGPT开发的AI搜索效率工具「Perplexity AI」,英伟达CEO黄仁勋爱不释手、用了又用
基于ChatGPT API开发的Perplexity AI能够自动搜集、分析并展示来自互联网及其他数据源的相关信息,从而极大地优化了信息检索和知识获取的过程。
英伟达发布RTX 500、1000系列AI显卡丨微软投资OpenAI竞品Mistral AI丨Gemini图像生成工具将在几周后重新上线
【AI奇点网2024年2月28日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
ChatGPT编程时代来啦,GitHub Copilot Enterprise正式发布!
2月28日,全球最大开源平台之一GitHub在官网宣布——GitHub Copilot Enterprise正式全面发布。
话炉
Paraphraser.io
快写兔
YesChat Ai
ChatAA
妙言妙语AI
FineTBot
话炉
Paraphraser.io
快写兔
YesChat Ai
ChatAA
妙言妙语AI
FineTBot
AskNow AI
靠谱AI