首页 AI教程资讯谷歌Gemini Pro 1.5「百万Tokens长文本」免费全量开放！一小时电影“投喂”进去，大模型直出神级影评

谷歌Gemini Pro 1.5「百万Tokens长文本」免费全量开放！一小时电影“投喂”进去，大模型直出神级影评

2025-02-03 来源｜AI图库吧

当下最火的「长文本」来力嘞！

谷歌最牛的大语言模型Gemini 1.5 Pro，即日起对外开启公测。

目前使用是完全免费，开发者可以通过API调用的方式免费体验，普通用户也可以直接在谷歌的AI Studio中进行体验。

更具有讽刺意味的是，对外发布产品公测消息的谷歌工程师Logan Kilpatrick，不久前还是OpenAI的开发者关系项目负责人，跳槽之后就得到“重用”可谓兵不血刃弑旧主。

划重点！本次更新最令人期待的是，Gemini 1.5 Pro API首次增加了音频理解功能。

一句话——无论是学术论文、财报分析师电话会议、谈话电视节目还是TED的长篇演讲，我们不再需要课代表or字幕组，就可以轻松掌握核心内容。

如下图所示：

我们上传了一段谷歌首席科学家Jeff Dean一篇长度大约为117000 Tokens的演讲录音，Gemini 1.5 Pro仅耗时30.8秒就完成了内容解析。

要知道，目前Gemini 1.5 Pro同样支持「长文本」功能，上下文窗口提取100万，这次也直接对外免费开放。

据悉，目前大模型能处理的最长音频约为11小时，最长视频则为1小时，相当够用。

谷歌Gemini 1.5 Pro API免费耍

谷歌这次推出的Gemini 1.5 Pro被定义为「公开预览版」。它主要面向开发者发布，任何人都可通过谷歌AI Studio开发平台申请API的密钥。

你也可以直接在谷歌AI Studio在线开测备受好评的音视频解析功能。

点击AI Studio里边的「Audio」。

我们给Gemini上点狠招——我们上传了比尔·盖茨在1995年做客美国《深夜秀》访谈节目的一段音频，时长为1分钟。

我们没有提供任何暗示性提示词，谷歌Gemini 1.5 Pro就已经听出了访谈双方是什么人物，是什么身份。

并且只花了10秒的时间，就精准整理出了这段对话的核心信息，干脆利落一句废话都没有。

第一次体验，测试表现就令人折服。

接下来，测一个更难的——上传特斯拉前人工智能部门总监Andrej Karpathy的一段长达1小时关于AI大模型的科普讲解。

我们提取音频文件时发现，这则1小时的影片足足有10万多个Tokens。

这个Tokens数据量还是蛮惊人的。

但是难不倒Gemini 1.5 Pro，最终也只花了53秒——一分钟不到，就按要求给出了演讲稿里边的10个亮点分析。

这种「长文本」音频转文本的功能，让我们再也不用大费周章扒文字稿和字幕了。

回到API接口本身。

除了让开发者可以更好地控制音频理解的大模型接口输出，Gemini 1.5 Pro还提供了另外3项功能改进。

①首先是系统指令。

我们可以自定义一些特殊用例，包括它们的角色、输出格式/风格/语气、目标和规则等等。

设置完成后，这个指令就会应用于接下来的整个请求。

示例如下：

②其次是JSON模式。

也就是可以指示模型仅输出JSON对象了，非常方便我们从文本或图像中提取结构化数据。

③再者，函数调用上也有改进。

为了提高可靠性，谷歌Gemini 1.5 Pro也可以选择不同模式来限制模型的输出了。

可以是文本模式，将生成文本作为输出;也可以是函数调用模式，或者干脆只输出函数本身(不带任何参数或其他信息)。

最后，还没完，从今天起，开发者还能通过该API调用谷歌的下一代文本嵌入模型：text-embedding-004(又名「Gecko」)。

该模型在MTEB基准上实现了非常强大的检索性能，优于可比维度的所有对手。

谷歌最强大模型，能干的不止文稿分析

为了挑战OpenAI的领导地位，谷歌在2月15日发布Gemini 1.5 Pro，上线距今还不到两个月。

Gemini 1.5 Pro是Gemini Pro 1.0的升级版，多模态多语言大模型。

为了找到对抗GPT-4 Turbo的突破口，其最大的亮点无疑是100万量级的上下文窗口长度——

100万「长文本」Tokens，相当于可一次性处理70万个单词or超过3万行代码，如果折算成音频则大约为11小时，视频则为1小时。

无疑是很大的一个量级，而且谷歌的数据中心有能力支持运转。

官方的演示案例里边使用了阿波罗11号登月项目长达402页的文字记录来展示，可谓「遥遥领先」。

网友也对新的模型分享了一些十分不错的内测表现案例，比如：

帮助鉴定Sora视频是否由AI生成，请列举关键证据——

Gemini Pro 1.5对此回答：「这可能是AI生成的视频，猫咪毛发过于完美。」

大模型还可以在一段NBA扣篮大赛的视频中，判断出谁的扣篮得分最高，并给出扣篮方式的细节描述。

谷歌Gemini Pro 1.5还支持多个文档同时解读，比如将《星际穿越》和《星际探索》两部电影的完整脚本，合计接近10万个Tokens。

大模型只花了30多秒就给出了两部影片脚本的差异性。

可以说，谷歌整体是没有让大伙失望的。

这还没完，最高能的应用案例来了！

没想到Gemini Pro 1.5还能看懂视频里边的代码脚本，并且给出BUG修改意见——

一位国外网友在编写网页前端代码时故意留下3个BUG。

他将代码编写的过程用手机录制下来，再外加代码库打包成一个文件一并丢给Gemini 1.5 Pro解读。大模型完全正确地给出了三处BUG的正确修复代码。

全网哗然!「长文本」加持的Gemini Pro前途不可限量啊！

随着Gemini 1.5 Pro API的全面开放应用，相信很快就会有牛人打造更强大的AI应用，读懂一切音视频，帮助人类快速迈向「AGI时代」。

上一篇：苹果下一代M4芯片聚焦AI算力丨AI音乐生成模型「天工SkyMusic」内测丨李彦宏看好“闭源模型”持续领先

最新

更多

谷歌Gemini Pro 1.5「百万Tokens长文本」免费全量开放！一小时电影“投喂”进去，大模型直出神级影评

谷歌最牛的大语言模型Gemini 1 5 Pro，即日起对外开启公测。划重点！本次更新最令人期待的是，Gemini 1 5 Pro API首次增加了音频信息的理解功能。

苹果下一代M4芯片聚焦AI算力丨AI音乐生成模型「天工SkyMusic」内测丨李彦宏看好“闭源模型”持续领先

【AI奇点网2024年4月12日早报】本站每日播报AI业界最新资讯，触摸时代脉搏，掌握未来科技动向。事不宜迟，点击查看今日AI资讯早餐。

百度CEO李彦宏喊话：AI大模型开源意义不大，围绕文心一言可以打造最好的应用生态体验

4月11日下午，百度创始人、董事长、CEO李彦宏发布了一系列关于AI大模型与创业的观点，主要谈及中国AI大模型开源与闭源的路线选择以及AI创业。

又新又强！GPT-4 Turbo发布版本大升级，知识库刷新到2024年4月

当地时间4月11日，OpenAI官方宣布，新版的GPT-4 Turbo正式面向用户开放，该版本的GPT-4 Turbo其知识库截止时间已经更新为2024年4月。

马斯克xAI发布多模态大模型Grok-1.5V丨英特尔中国特供版AI芯片算力缩水92%丨周鸿祎预测未来几年AGI到来

【AI奇点网2024年4月15日早报】本站每日播报AI业界最新资讯，触摸时代脉搏，掌握未来科技动向。事不宜迟，点击查看今日AI资讯早餐。

马斯克旗下xAI的多模态模型Grok-1.5V突然发布！轻松读懂梗图，对现实世界的理解力超越GPT-4V

马斯克的xAI公司近期大动作连连：开源Grok-1 0大模型，发布新一代Grok-1 5版本，xAI马不停蹄地再次发布了一款多模态大模型Grok-1 5V。

最新录入

更多

iTextMaster

iTextMaster

小黑狗AI

小黑狗AI

UIED AI Search

ChatWithPDF AI

ChatWithPDF AI

GPTBiz

GPTBiz

文思逸言

文思逸言

BypassAI

BypassAI

热门工具

iTextMaster

iTextMaster

小黑狗AI

小黑狗AI

UIED AI Search

ChatWithPDF AI

ChatWithPDF AI

GPTBiz

GPTBiz

文思逸言

文思逸言

BypassAI

BypassAI

Ohai AI

Ohai AI

XHSPlus

XHSPlus

热门