微软开源最强小参数大模型—Phi-3 Mini丨3.3T tokens或将成为资源消耗最小的大语言模型

2025-02-02 来源|AI图库吧

4月23日晚,微软在官网开源了小参数的大语言模型——Phi-3-mini。

据悉,Phi-3-mini是微软Phi家族的第4代,有预训练和指令微调多种模型,参数只有38亿训练数据却高达3.3T tokens,比很多数百亿参数的模型训练数据都要多,这也是其性能超强的主要原因之一。

Phi-3-mini对内存的占用极少,可以在 iPhone 14等同类手机中部署使用该模型。尽管受到移动硬件设备的限制,但每秒仍能生成12 个tokens数据。

值得一提的是,微软在预训练Phi-3-mini时使用了合成数据,能帮助大模型更好地理解语言架构、表达方式、文本语义理解、逻辑推理以及特定业务场景的专业术语等。

开源地址:https://huggingface.co/collections/microsoft/phi-3-6626e15e9585a200d2d761e3

Ollama地址:https://ollama.com/library/phi3

技术报告:https://arxiv.org/abs/2404.14219

2023年6月,微软首次推出了专用于Python编码的模型Phi-1.只有13亿参数却在编程领域击败了GPT-3.5等知名模型,这让微软看到小参数模型的广阔发展空间。

随后在Phi-1基础之上,微软推出了具备推理、文本生成、内容总结、起草邮件的大语言模型Phi-1.5.成为当时最强小参数模型之一。

2023年12月,微软在Phi-1.5基础之上开发了Phi-2.参数只有27亿并且在没有人类反馈强化学习和指令微调的情况下,击败了130亿参数的Llama-2和70亿参数的Mistral;在编码和数学测试中,Phi-2的性能甚至超过了700亿参数的Llama-2.

本次发布的Phi-3系列集合了之前三代所有的优秀技术特征,并使用了海量高质量数据集、创新的训练、微调方法,使其成为目前最强的开源小参数模型。

Phi-3-mini架构简单介绍

Phi-3-mini采用了transformer架构,支持4K和128K上下文窗口,也是同类小模型中第一个支持128K的开源产品。

高质量训练数据集是Phi-3-mini性能超强的重要原因之一,微软使用了3.3T tokens数据集包括:经过严格质量筛选的网络公开文档、精选的高质量教育数据和编程代码;

通过合成数据创建的教科书式数据,例如,数学、编码、常识推理、世界常识、心理科学等;

高质量聊天格式的监督数据,涵盖各种主题以反映人类在不同方面的偏好,例如,遵循指令、真实性、诚实性等。

在训练策略方面,为了帮助Phi-3-mini更好地吸收合成数据,微软使用了迭代训练策略:初始阶段,Phi-3-mini使用了公开网络数据,学会了基本的语法、语义和上下文理解;

迭代阶段,将合成数据与网络数据合并构建全新的训练集,并对Phi-3-mini进行迭代训练,进一步强化模型的理解和生成能力,并且进行多次重复训练。

测试数据方面,Phi-3 Mini在MMLU、GSM-8K、MedQA、BigBench-Hard等知名基准测试平台中,对语言理解、逻辑推理、机器翻译、编码等进行了综合测试。

结果显示,Phi-3-mini仅通过少量样本提示,在语言理解、编码、数学的性能超过了参数更大的模型,整体性能非常出色。

微软表示,在未来几周内还会发布70亿参数的Phi-3-small和140亿参数的Phi-3-medium两款小模型。其中,Phi-3-medium的性能可媲美Mixtral 8x7B 和GPT-3.5.资源消耗却更少。

最新
更多

微软开源最强小参数大模型—Phi-3 Mini丨3.3T tokens或将成为资源消耗最小的大语言模型

4月23日晚,微软在官网开源了小参数的大语言模型——Phi-3-mini。据悉,Phi-3-mini是微软Phi家族的第4代,有预训练和指令微调多种模型,参数只有38亿训练数据却高达3 3T tokens,比很多数百亿参数的模型训练数据都要多,这也是其性能超强的主要原因之一。

Adobe发布Firefly Image 3新一代图像生成模型:画质更强更细腻,Photoshop已率先接入

近日,Adobe 对外宣布,Firefly Image 3 图像大模型已经训练完毕,并且陆续接入自家的各种工具软件产品。

马斯克:特斯拉有望在2025年底对外发售Optimus「擎天柱」人形机器人

特斯拉 Optimus「擎天柱」人形机器人的工厂生产车间业务能力的研发能力,该公司可能会在 2025 年底前将其对外销售,超级汽车工厂率先使用该机器人。

波士顿动力最新电驱版Atlas机器人,完美复刻《午夜凶铃》贞子女鬼经典动作

「人形机器人天花板」波士顿动力,上新了!波士顿动力发布的新款电驱版Atlas机器人采用了全电驱动方案。高难度360°转体起身……惊艳全场!

Llama 3每秒输出800个token逼宫openAI!下周奥特曼生日或放出GPT-5?

Llama 3的开源,或将催生数十亿美元新产业。发布不到一周的时间,全网各种测试微调都开启了。甚至,Llama 3在Groq上的输出速度实现了每秒800个token。

效果惊艳,但不够好?OpenAI Sora团队大佬专访:AI视频模型目前处于「GPT-1」阶段

在AI视频生成的领域,大家一致的看法就是“Sora一出,谁与争锋”!Sora团队成员自己怎么看?主创说:AI视频模型仍处在「GPT-1」时代

网站地图