北京青年报

谷歌回击OpenAI：提了121次AI AI搜索、智能对话、视频生成来了

第一财经 2024-05-15 11:40

两天时间里，科技界先后迎来两场重要的发布会。前一天，OpenAI刚刚发布了重大更新GPT-4o，号称颠覆语音助手，再度全网刷屏，紧随其后的谷歌压力颇大。

北京时间5月15日凌晨，谷歌在2024年I/O开发者大会上展开回击：一次性掏出十几款产品更新，重磅级的发布包括轻量化的模型Gemini 1.5 Flash、AI通用智能体Project Astra、强大的AI搜索、视频生成模型Veo、第六代TPU Trillium等，Gemini 1.5 Pro的上下文窗口也从100万tokens升级到200万。

在两个小时的主题演讲里，据Gemini统计，"AI"被提及了121次，谷歌官网同步发布了11篇AI相关的博客介绍此次更新。这场不见硝烟的战争，谷歌看起来全力以赴了。5月14日，谷歌美股(GOOGL)涨0.71%，报170.34美元/股，截至发稿其盘后跌0.27%。

反击OpenAI

在发布会前夕，猎豹移动董事长兼CEO傅盛发文表示，"OpenAI发布会虽然惊艳，但谷歌看完应该不慌了。"

相比通过底层技术的革新实现跨越式发展，傅盛认为，这一次OpenAI的发布会是在工程能力上发力，也就是说把原有的东西做得更好，更便宜、更集成化、用户体验更好，"这次OpenAI发布会上最大的亮点就是语音助手，大家都感叹交互起来和人一样，但像谷歌这样的公司做这类语音助手能力一定不差，

工程能力的提升是大公司容易做到的事情。"

谷歌不负期待，掏出了类似的视觉识别和语音交互产品Project Astra，被认为是正面交战GPT-4o。

"我们一直希望开发能在日常生活中提供帮助的通用AI智能体。"谷歌DeepMind首席执行官哈萨比斯（Demis Hassabis）第一次出现在I/O大会上，他表示Astra（高级视觉和对话响应智能体）项目是谷歌在构建未来AI助理方面的进展。

Astra项目展示了多模态理解和实时对话能力。在谷歌演示的视频中可以看到，通过摄像头，这个AI助手能完成帮忙理解屏幕中的代码、找眼镜在哪里这样的工作，也可以通过画面理解"薛定谔的猫"这样的概念。

哈萨比斯在演讲中表示，要做到真正实用，智能体需要能够像人一样理解周围复杂多变的环境并作出反应，还需要具备主动性、"会学习"并能满足个性化需求，这样用户才能自然地与它交谈，不会有滞后或延迟，"虽然我们在开发能够理解多模态信息的AI系统方面取得了惊人的进步，但要将回答时间缩短到可对话的程度，仍是一项非常艰巨的工程挑战。"

从演示上看，Astra的对话延迟似乎比GPT-4o长，在提问之后有一定的反应时间，相比昨天GPT-4o近似人类自然快速地对答有差距，此外，谷歌在演示中也没有体现是否能打断智能助手说话，没有表现出GPT-4o那样多的人类情感。

谷歌此次另一回击OpenAI的产品是视频生成模型Veo。今年2月，OpenAI发布视频生成模型Sora引发全网热烈讨论，彼时几小时前才发布Gemini 1.5 Pro大模型的谷歌风头被抢完。

此次，谷歌推出Veo对标Sora，表示这是"我们最强大的视频生成模型"，不仅能生成各种电影和视觉风格的高质量1080p分辨率视频，理解"延时拍摄"或"风景空中拍摄"等电影术语，时间还可以超过一分钟。谷歌表示，凭借对自然语言和视觉语义的深入理解，Veo生成的视频能够准确捕捉提示的语气并在较长的提示中呈现细节。

谷歌演示了一段汽车追逐的示例生成视频，从整体画面上看，镜头是一致且连贯的，移动较为真实，但相比Sora以往放出的视频，细节没那么清晰，大全景为主。不过，在官网的博客中，谷歌放出了更多的生成案例概览，其中不乏高清且精致的画面。

在影音领域，除了视频，谷歌还更新了图片生成模型Imagen 3，官方提到，与此前的模型相比，Imagen 3分散注意力的视觉伪影更少，细节逼真。谷歌还发布了一套名为Music AI Sandbox的音乐AI工具，可以让人们从头开始创作新的器乐部分，以新的方式转换声音等等。

变革搜索

I/O大会之后，英伟达高级科学家Jim Fan发表观后感表示，谷歌做对了一件事，"他们终于开始认真努力将人工智能融入搜索框，"他认为，谷歌最强大的护城河是分销，"Gemini不必是最好的模型，就可以成为世界上使用最广泛的模型。"

谷歌首席执行官桑达尔·皮查伊（Sundar Pichai）在演讲中提到，Gemini带来的最令人兴奋的变革之一是在Google搜索中。"我们最大的投资和创新领域之一是我们的创始产品——搜索。"皮查伊回顾，25年前谷歌就创建了搜索，如今Gemini时代的搜索提升到了全新的水平。

谷歌搜索此次推出了AI概述（AI Overview）新功能，用户在搜索框输入问题，即可得到一个AI总结的答案，且能处理超长问题，如AI可以帮忙查找波士顿最好的瑜伽或普拉提工作室，并提供入门优惠详情以及步行所需时间，并附带课程标价，地图上的位置也能标记出来。

凭借Gemini的多模态功能，谷歌搜索还可以做到利用图片搜索产品和文字信息，能用"Circle to Secarch"功能圈出图片中的一部分去搜索。具体而言，谷歌推出了新功能Ask Photos，可以一键从图库中找到想要的照片和视频。

谷歌在演示中举例，假设在停车场缴费时，却想不起自己的车牌号。以往，用户可能需要翻找多年积累的照片来寻找车牌，但现在，只需直接询问Photos，它能够识别出照片里经常出现的车辆，并提供车牌号码。

谷歌还支持视频搜索。在演示中，唱片机出故障，带有针头的金属部件在意外漂移，用户只需一边录制视频一边说出疑问，AI就会立刻分析故障原因；数码相机控制杆出现问题，只需要用摄像头对着产品提问，就能得到关于如何修复的解答，省去用户描述问题的时间和麻烦。

谷歌表示，AI Overview功能将在本周开始在美国推出，后面将陆续推至其他国家。

强大的产品和用户群基础是谷歌推出AI应用的优势。皮查伊提到，超过150万的开发者在使用谷歌各种工具中的Gemini模型，谷歌旗下产品中有20亿用户都在使用Gemini。在移动设备上，用户可以通过Android和iOS上的应用程序直接与Gemini互动。

"全球有数十亿Android用户，我们已将Gemini模型整合到Android中，包括我们最新的设备端模型Gemini Nano多模态模型，它可以处理文本、图像、音频和语音，在保证存储在设备上的信息私密性的同时解锁新的体验。"皮查伊介绍。

去年12月，谷歌发布了首款原生多模态模型Gemini 1.0，包含Ultra、Pro和Nano三种不同大小。几个月后，谷歌发布了Gemini 1.5 Pro，性能更强，且拥有100万tokens的长上下文窗口。

此次发布会，谷歌再次更新超长上下文窗口，扩展到了200万tokens（2000K）的级别，并表示将以非公开预览版的方式提供给开发者。相比之下，GPT-4 Turbo的上下文窗口为128K。"这代表着我们朝无限上下文的最终目标又迈出了一步。"皮查伊说。

在1.5 Pro的基础上，哈萨比斯表示，从开发人员那里了解到，有些应用场景需要更低的延迟和更低的部署成本。因此，明天谷歌将推出Gemini 1.5 Flash：一个相较于1.5 Pro更轻量的模型，旨在快速高效地进行规模化服务，它针对以低延迟和成本为重的任务进行了优化。

哈萨比斯在演讲中介绍，尽管比1.5 Pro更轻量级，但Flash版本在处理大量信息时具有强大的多模态推理能力，在总结摘要、聊天应用、图像和视频字幕生成以及从长文档和表格中提取数据等方面表现出色。具体到背后的技术，哈萨比斯透露这是利用1.5 Pro对该模型进行了"蒸馏"（distillation）训练，将较大模型中最核心的知识和技能迁移到了更小、更高效的模型中。

训练最先进的模型需要大量的计算能力。此次发布会，谷歌还宣布推出第六代TPU Trillium，与上一代TPU v5e相比，每个芯片的计算性能提高了4.7倍。皮查伊提到，过去六年中，行业对机器学习计算能力的需求增长了100万倍，且每年都会以十倍的速度增长。谷歌将在2024年底向Cloud客户提供Trillium。

十多年来，谷歌一直在AI领域进行投入，但皮查伊表示，目前谷歌仍处于AI平台转型的初期，"我们看到了为创作者、开发者、初创公司以及每一个人所带来的巨大机遇。帮助推动这些机遇正是我们Gemini时代的意义所在。"

编辑/范辉