谷歌Gemini Pro 1.5「百万Tokens长文本」免费全量开放!一小时电影“投喂”进去,大模型直出神级影评

2025-02-03 来源|AI图库吧

当下最火的「长文本」来力嘞!

谷歌最牛的大语言模型Gemini 1.5 Pro,即日起对外开启公测。

目前使用是完全免费,开发者可以通过API调用的方式免费体验,普通用户也可以直接在谷歌的AI Studio中进行体验。

更具有讽刺意味的是,对外发布产品公测消息的谷歌工程师Logan Kilpatrick,不久前还是OpenAI的开发者关系项目负责人,跳槽之后就得到“重用”可谓兵不血刃弑旧主。

划重点!本次更新最令人期待的是,Gemini 1.5 Pro API首次增加了音频理解功能。

一句话——无论是学术论文、财报分析师电话会议、谈话电视节目还是TED的长篇演讲,我们不再需要课代表or字幕组,就可以轻松掌握核心内容。

如下图所示:

我们上传了一段谷歌首席科学家Jeff Dean一篇长度大约为117000 Tokens的演讲录音,Gemini 1.5 Pro仅耗时30.8秒就完成了内容解析。

要知道,目前Gemini 1.5 Pro同样支持「长文本」功能,上下文窗口提取100万,这次也直接对外免费开放。

据悉,目前大模型能处理的最长音频约为11小时,最长视频则为1小时,相当够用。

谷歌Gemini 1.5 Pro API免费耍

谷歌这次推出的Gemini 1.5 Pro被定义为「公开预览版」。它主要面向开发者发布,任何人都可通过谷歌AI Studio开发平台申请API的密钥。

你也可以直接在谷歌AI Studio在线开测备受好评的音视频解析功能。

点击AI Studio里边的「Audio」。

我们给Gemini上点狠招——我们上传了比尔·盖茨在1995年做客美国《深夜秀》访谈节目的一段音频,时长为1分钟。

我们没有提供任何暗示性提示词,谷歌Gemini 1.5 Pro就已经听出了访谈双方是什么人物,是什么身份。

并且只花了10秒的时间,就精准整理出了这段对话的核心信息,干脆利落一句废话都没有。

第一次体验,测试表现就令人折服。

接下来,测一个更难的——上传特斯拉前人工智能部门总监Andrej Karpathy的一段长达1小时关于AI大模型的科普讲解。

我们提取音频文件时发现,这则1小时的影片足足有10万多个Tokens。

这个Tokens数据量还是蛮惊人的。

但是难不倒Gemini 1.5 Pro,最终也只花了53秒——一分钟不到,就按要求给出了演讲稿里边的10个亮点分析。

这种「长文本」音频转文本的功能,让我们再也不用大费周章扒文字稿和字幕了。

回到API接口本身。

除了让开发者可以更好地控制音频理解的大模型接口输出,Gemini 1.5 Pro还提供了另外3项功能改进。

①首先是系统指令。

我们可以自定义一些特殊用例,包括它们的角色、输出格式/风格/语气、目标和规则等等。

设置完成后,这个指令就会应用于接下来的整个请求。

示例如下:

②其次是JSON模式。

也就是可以指示模型仅输出JSON对象了,非常方便我们从文本或图像中提取结构化数据。

③再者,函数调用上也有改进。

为了提高可靠性,谷歌Gemini 1.5 Pro也可以选择不同模式来限制模型的输出了。

可以是文本模式,将生成文本作为输出;也可以是函数调用模式,或者干脆只输出函数本身(不带任何参数或其他信息)。

最后,还没完,从今天起,开发者还能通过该API调用谷歌的下一代文本嵌入模型:text-embedding-004(又名「Gecko」)。

该模型在MTEB基准上实现了非常强大的检索性能,优于可比维度的所有对手。

谷歌最强大模型,能干的不止文稿分析

为了挑战OpenAI的领导地位,谷歌在2月15日发布Gemini 1.5 Pro,上线距今还不到两个月。

Gemini 1.5 Pro是Gemini Pro 1.0的升级版,多模态多语言大模型。

为了找到对抗GPT-4 Turbo的突破口,其最大的亮点无疑是100万量级的上下文窗口长度——

100万「长文本」Tokens,相当于可一次性处理70万个单词or超过3万行代码,如果折算成音频则大约为11小时,视频则为1小时。

无疑是很大的一个量级,而且谷歌的数据中心有能力支持运转。

官方的演示案例里边使用了阿波罗11号登月项目长达402页的文字记录来展示,可谓「遥遥领先」。

网友也对新的模型分享了一些十分不错的内测表现案例,比如:

帮助鉴定Sora视频是否由AI生成,请列举关键证据——

Gemini Pro 1.5对此回答:「这可能是AI生成的视频,猫咪毛发过于完美。」

大模型还可以在一段NBA扣篮大赛的视频中,判断出谁的扣篮得分最高, 并给出扣篮方式的细节描述。

谷歌Gemini Pro 1.5还支持多个文档同时解读,比如将《星际穿越》和《星际探索》两部电影的完整脚本,合计接近10万个Tokens。

大模型只花了30多秒就给出了两部影片脚本的差异性。

可以说,谷歌整体是没有让大伙失望的。

这还没完,最高能的应用案例来了!

没想到Gemini Pro 1.5还能看懂视频里边的代码脚本,并且给出BUG修改意见——

一位国外网友在编写网页前端代码时故意留下3个BUG。

他将代码编写的过程用手机录制下来,再外加代码库打包成一个文件一并丢给Gemini 1.5 Pro解读。大模型完全正确地给出了三处BUG的正确修复代码。

全网哗然!「长文本」加持的Gemini Pro前途不可限量啊!

随着Gemini 1.5 Pro API的全面开放应用,相信很快就会有牛人打造更强大的AI应用,读懂一切音视频,帮助人类快速迈向「AGI时代」。

最新
更多

谷歌Gemini Pro 1.5「百万Tokens长文本」免费全量开放!一小时电影“投喂”进去,大模型直出神级影评

谷歌最牛的大语言模型Gemini 1 5 Pro,即日起对外开启公测。划重点!本次更新最令人期待的是,Gemini 1 5 Pro API首次增加了音频信息的理解功能。

苹果下一代M4芯片聚焦AI算力丨AI音乐生成模型「天工SkyMusic」内测丨李彦宏看好“闭源模型”持续领先

【AI奇点网2024年4月12日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。

百度CEO李彦宏喊话:AI大模型开源意义不大,围绕文心一言可以打造最好的应用生态体验

4月11日下午,百度创始人、董事长、CEO李彦宏发布了一系列关于AI大模型与创业的观点,主要谈及中国AI大模型开源与闭源的路线选择以及AI创业。

又新又强!GPT-4 Turbo发布版本大升级,知识库刷新到2024年4月

当地时间4月11日,OpenAI官方宣布,新版的GPT-4 Turbo正式面向用户开放,该版本的GPT-4 Turbo其知识库截止时间已经更新为2024年4月。

马斯克xAI发布多模态大模型Grok-1.5V丨英特尔中国特供版AI芯片算力缩水92%丨周鸿祎预测未来几年AGI到来

【AI奇点网2024年4月15日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。

马斯克旗下xAI的多模态模型Grok-1.5V突然发布!轻松读懂梗图,对现实世界的理解力超越GPT-4V

马斯克的xAI公司近期大动作连连:开源Grok-1 0大模型,发布新一代Grok-1 5版本,xAI马不停蹄地再次发布了一款多模态大模型Grok-1 5V。

网站地图