首页 AI教程资讯谷歌发布「Project Astra」正面硬刚GPT-4o！超60秒AI视频丝滑生成，还把上下文窗口卷到了200万Tokens

谷歌发布「Project Astra」正面硬刚GPT-4o！超60秒AI视频丝滑生成，还把上下文窗口卷到了200万Tokens

2025-01-26 来源｜AI图库吧

赶在谷歌的I/O开发者大会之前发布的GPT-4o大模型，掀起的一片“AGI已至”的惊呼声。OpenAI出手再次惊艳世界，谷歌果然坐不住了。

当地时间5月14日，谷歌DeepMind CEO哈萨比斯亲自携谷歌版的《Her》多模态大模型登场：能听会看能说道。不仅能几乎没有延迟地和人类流畅交流，通过摄像头，这个名为「Project Astra」的AI助手甚至能直接帮忙读代码：

谷歌还祭出了自己的硬件优势，带来一波AR和AI大模型的梦幻联动。

一边撸狗一边玩转大模型已经成为现实。

面对OpenAI的疯狂挑衅，谷歌选择正面硬刚GPT-4o，铆足了劲，在I/O大会上释出的冰山一角。两个小时的主题演讲里，「AI」关键词被提及了多达121次，CEO劈柴还觉得不够多。

于是，对标Sora能生成一分钟长视频的视频生成模型Veo来了：

Gemini 1.5 Pro不仅面向所有人开放，上下文窗口还从100万Token直接一步推广到了200万的国际水平，一口气能读1500页PDF。

连安卓系统也与大模型Gemini绑定，摇身一变成为以AI为内核的操作系统。

总之，信息量多到爆炸！

谷歌版GPT-4o新模型登场

第一时间引发最多讨论的，当然是谷歌版《Her》——Project Astra。

Project Astra基于Gemini系列模型打造，谷歌表示，研究人员们希望这样的智能助手，能真正在人们的日常生活中提供帮助。

有意思的是，OpenAI总裁哥Brockman昨天在场外补充了有关GPT-4o多模态能力的更详细视频，而谷歌这边，哈萨比斯也是第一时间在X上更新了与这样一个智能助手的互动。

看样子，Ta不仅能完成帮忙找眼镜这样的基础工作。

帮忙搞点文艺创作，解答一下专业书上看不懂的内容，也都是信手拈来。

还有Google DeepMind的工作人员干脆和Project Astra一起看起了I/O大会直播：

不少网友都认为，这是谷歌对OpenAI的GPT-4o的正面回应。

不过嘛，网友们也关注到了不少问题，比如，Project Astra的延迟似乎还是比GPT-4o长，谷歌的演示中也没有体现是否能打断智能助手说话。

值得关注的是，Project Astra背后，是Gemini系列模型的进一步升级迭代。

比如，Gemini 1.5 Pro的上下文窗口来到了惊人的200万Tokens。

谷歌还最新推出了Gemini 1.5 Flash这一轻量级模型，并开源了27B的Gemma 2和视觉语言模型PailGemma。

60秒长视频生成

你可能已经默默在心里比较了一番Project Astra和GPT-4o的高下。

谷歌的回应，谷歌最强视频生成模型Veo来了。

Veo可以生成1080p的高质量视频，生成视频的长度也看齐Sora：最长的案例影片，长度超过了1分钟。

谷歌还强调，Veo生成的画面一致性出色，并且可以hold住各种风格。比如“延时拍摄”和“航拍”这种术语，直接写在提示词里，Veo都能get。

目前，谷歌已经和电影制作者展开了合作，在电影项目中探索Veo的应用。

与此同时，谷歌的图片生成模型Imagen也迎来更新：Imagen 3大模型发布。

官方提到，与此前的模型相比，Imagen 3的视觉伪影更少，生成的图像细节拉满，并且在生成文字方面效果也很好。

上图的提示词：「一张庄严的图书馆入口的照片，刻有“中央图书馆”字样」

另外，谷歌此次还推出了音乐生成模型Lyria，可用于支持YouTube创作者生成音乐。

Gemini进入全线产品

在这些跟OpenAI叫板的“肌肉”展示之外，谷歌对大模型应用的看重，也在此次I/O大会中尽显。

英伟达科学家Jim Fan就他的I/O观后感中表示：谷歌做对的一件事是：他们终于开始努力把AI集成到搜索框中。

还不止是搜索，这一次，谷歌可以说是把Gemini塞进了全线产品中，包括谷歌搜索、Android，以及谷歌邮箱、谷歌Photos等。下面我们划划重点。

1、谷歌搜索

基于Gemini，谷歌搜索推出AI概述(AI Overview)新功能，彻底化身AI搜索。

用户在搜索框输入问题，马上就能得到一个AI总结的答案，包括相关链接。

而且是超长问题都能处理的那种，比如：

查找波士顿最好的瑜伽或普拉提工作室，并提供他们的入门优惠详情以及从灯塔山步行所需时间。

AI Overview秒秒钟就会列出五星好评且距离灯塔山近的店，并附带课程标价，连店在地图上的位置都标记了出来：

对于这种复杂问题的搜索，谷歌表示采用了多步推理技术，可以将复杂问题拆解成一个个小问题，然后自动对问题进行排序回答。

多步推理加持下，AI Overview已经脱离了纯粹的搜索——把制定计划一并搬进了搜索引擎里。

比如直接让它为一个团体制定一个为期三天的易于执行的餐饮计划。

AI Overview一键给出了方案，每个方案都可以点击修改，下方还可以一键将食材加入购物车：

还没完，当你没有想法、问的问题比较笼统时，谷歌搜索还会AI自动将搜索结果整理成一个个“群组”，为你提供建议。

比如问：在达拉斯找一个餐厅庆祝周年纪念日。

搜索出的结果会按照音乐餐厅、具有历史魅力的餐厅等一键分组。再往下翻，页面会从餐饮逐渐扩展到电影、酒店、购物等。

此外，谷歌搜索还支持视频搜索了。

演示中，唱片机出故障，只需一边录制视频一边说出疑问，谷歌AI Overview就会立刻分析故障原因，并给出处理建议。

谷歌搜索AI Overview功能将在本周开始在美国推出，后面将陆续推至其他国家。

2、Android 15系统

谷歌把Gemini也带到了安卓系统中。

凭借直接内置的Circle to Search功能，用户使用简单的手势“圈”一下手机上看到的任何内容，就能进行搜索。

比如圈出练习题，就能一键获取答案。

目前这一功能，已在Pixel和三星的部分设备上使用。

此外，还可以在一个应用之上随时调出Gemini助手层，随时使用。你还可以将Gemini生成的图片直接拖到Gmail等应用中，直接询问某个视频中的具体信息，不用滑动翻文档询问某个PDF中的信息……

甚至连电话反诈，都用上Gemini了：听到关键字“把钱转到安全账号”，马上就能给出警报。

总之，官方强调，现在Gemini在手机上现在不止是一个APP，更是嵌入了安卓的系统级体验的基础。

3、谷歌Photos

谷歌Photos基于Gemini也推出了新功能——Ask Photos，可以一键从图库中帮你找到想要的照片和视频。

比如你想知道自己的baby是什么时候学会游泳的，Ask Photos会从你在谷歌Photos中存储的成百上千张照片中查找出含游泳、游泳证书等相关图片，最后总结给出回复：

Ask Photos这一功能将在今年夏天推出。

4、谷歌Workspace

Gemini也接入到了谷歌Workspace提供的一套生产力和协作工具中，包括谷歌邮箱、谷歌Docs、谷歌Calendar等。

这使得在这些工具间进行跨应用工作变得更加容易。

例如在谷歌邮箱中自动分析邮件以及附件，识别整理好收据，然后一键在Drive和Sheets中处理。

5、NotebookLM

谷歌AI笔记应用NotebookLM也大升级。

如下图所示，当你提出一个问题后，背后的Gemini模型就会结合NotebookLM中的笔记内容，进行多模态的语音对话式回答。

也就是说，所有笔记都可以变成交互式教材。

第六代TPU

最后，在硬件部分，谷歌也带来了新消息：第六代TPU Trillium将在今年向云客户提供。与TPU v5e，Trillium的峰值计算性能提高4.7倍，HBM和带宽增加了1倍，芯片间互联(ICI)带宽也增加了1倍。另外，Trillium的能效比TPU v5e高出了67%以上。

有关谷歌I/O的更多细节，可以戳：

https://blog.google/technology/developers/google-io-2024-collection/

那么今日份的发布会笔记，就先做到这里了。你觉得谷歌这波表现如何?

上一篇：2024谷歌I/O开发者大会回顾：疯狂2小时新品放送，从大模型到软件应用到算力TPU，正面硬刚GPT-4o与Sora

最新

更多

谷歌发布「Project Astra」正面硬刚GPT-4o！超60秒AI视频丝滑生成，还把上下文窗口卷到了200万Tokens

当地时间5月14日，谷歌DeepMind CEO哈萨比斯亲自携谷歌版的《Her》多模态大模型「Project Astra」登场：能听会看能说道。

2024谷歌I/O开发者大会回顾：疯狂2小时新品放送，从大模型到软件应用到算力TPU，正面硬刚GPT-4o与Sora

谷歌I O 2024如期来了，眼花缭乱地发布了一堆更新。面对一天前的OpenAI挑衅，谷歌甩出Project Astra，视觉识别和语音交互效果，跟GPT-4o不相上下。

详解腾讯混元文生图大模型开源大模型：国内首个中文原生的DiT架构图像生成模型

首个中文原生DiT架构！腾讯混元文生图大模型免费商用，据了解，这是业内首个中文原生的 DiT 架构文生图开源模型，支持中英文双语输入及理解。

10年缘分说散就散：Ilya Sutskever官宣从OpenAI离职，麾下的“超级对齐团队”负责人也一并离职

5月14日，OpenAI 联合创始人、首席科学家 Ilya Sutskever 发推文对外宣告离职。作为联合创始人历经供职十载，OpenAI初创团队还是走散了

字节跳动发布豆包大模型丨微软计划将中国区AI团队整体搬至美国丨字节携手多家厂商成立智能终端大模型联盟

【AI奇点网2024年5月16日早报】本站每日播报AI业界最新资讯，触摸时代脉搏，掌握未来科技动向。事不宜迟，点击查看今日AI资讯早餐。

媒体曝：微软总部计划将??中国区AI团队迁出，员工可选跨国转岗

多位微软中国的员工反映，微软总部最新下发邮件，通知位于微软（中国）负责人工智能相关研究项目的多个团队，将整体搬迁至美国、爱尔兰或澳大利亚。

最新录入

更多

智标领航

智标领航

讯飞文书

讯飞文书

Caveduck

Caveduck

豆包AI

豆包AI

扣子Coze

扣子Coze

墨狐AI

墨狐AI

千笔AI论文写作

千笔AI论文写作

热门工具

智标领航

智标领航

讯飞文书

讯飞文书

Caveduck

Caveduck

豆包AI

豆包AI

扣子Coze

扣子Coze

墨狐AI

墨狐AI

千笔AI论文写作

千笔AI论文写作

笔灵AI写作

笔灵AI写作

讯飞公文写作助手

讯飞公文写作助手

热门