北京青年报

不够惊艳？还是更务实？谷歌对上OpenAI，能否打好翻身仗

澎湃新闻 2024-05-15 20:17

科技巨头谷歌和AI（人工智能）新锐巨头OpenAI正在AI领域激烈竞争。

当地时间5月14日，在谷歌I/O开发者大会上的主题演讲中，谷歌为旗下大模型Gemini推出了一系列更新，展示了由升级版Gemini驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo，以及支持多模态输入的AI搜索引擎和第六代Tensor处理器单元（TPU）Trillium芯片等等。其中，Astra是谷歌的AI智能体项目，能够通过手机摄像头或智能眼镜来“看到”用户眼前的内容，响应语音命令。

这本应是属于谷歌的“炸场”时间，遗憾的是，就在前一天，OpenAI刚刚抢过风头，推出了最新多模态大模型 GPT-4o（o代表omini，全能），支持文本、音频和图像的任意组合输入，并生成文本、音频和图像的任意组合输出，可实现人类级别响应。

从已有的演示视频来看，谷歌AI助手的回应速度似乎比GPT-4o稍慢一些，语音所表现出的感情色彩也比较平淡。相比之下，GPT-4o可以识别用户声音中展现的情感，甚至能实时根据用户的需求来使用不同情感风格的声音。

发布GPT-4o后，OpenAI的CEO萨姆·奥特曼（Sam Altman）还意有所指地发出一条写着“her”的推文，让人联想起著名影片《她（Her）》，片中主角和没有实体但善解人意的AI助手坠入爱河，却又因价值和世界观的不同产生分歧。

有科技媒体指出，OpenAI正在让生成式AI变得更像人类，谷歌则在AI搜索方面加码。虽然谷歌凭借其生态和规模在实用方面不断增强，OpenAI的产品或许更能抓住年轻用户的喜好。

这已经不是谷歌和OpenAI第一次“抢头条”。

今年2月16日，谷歌推出了酝酿已久的Gemini 1.5 Pro，称其在性能上超越GPT-4 Turbo。两小时后，OpenAI突然空降文生视频模型Sora，立刻凭借其出色的生成质量和突破性的生成时长成为全球焦点。

而在不久之后，由于网友发现Gemini 1.5的图像生成器工具似乎有意避免生成包含白人的图像，并在图像中加入了过量的“多样性”要素，一时引发舆论哗然，对谷歌的名声和股价一度造成显著的负面影响，引发投资者对于谷歌在日渐激烈的AI竞赛中是否已经落后的担忧。

不过，也有一些专家认为，谷歌本届开发者大会的表现说明，公司已经在AI领域走上正轨。

在开发者大会举办前，一些华尔街分析师就预测，本次活动将扩大谷歌在AI创新方面的规模，带来产品商业化机会。Gemini的功能升级和AI与搜索引擎的结合符合了他们的预期，体现出谷歌正在积极寻找新的货币化策略。

知名科技分析师、深水资产管理公司（Deepwater Asset Management）的执行合伙人吉恩·蒙斯特（Gene Munster）表示，谷歌的AI进步体现在其生成式AI和代理AI技术上：“他们落后OpenAI约6个月，领先了其他人约5年。”

蒙斯特还指出，谷歌将在其整个产品阵容中推出其人工智能Gemini，这一举措响应了谷歌在2017年宣布要成为“AI第一”的口号。此外，谷歌在本次大会上宣布推出AI搜索AI Overview，这一点也值得关注，但谷歌尚未提供如何将该功能货币化的具体细节。

英伟达高级研究科学家范麟熙（Jim Fan）也表示：“谷歌正在做的一件事是正确的：他们终于在认真将AI整合到搜索中......谷歌最强大的护城河是分销。Gemini不一定要成为最好的模型，而是可以成为世界上最常用的模型。”

有趣的是，在发布会后接受外媒采访时，谷歌CEO桑达尔·皮查伊（Sundar Pichai）还表示，如果确认OpenAI滥用视频网站YouTube的数据和内容进行AI训练，公司将采取行动。

虽然并未透露具体的行动方案，皮查伊表示，如果发现相关行为，谷歌将与OpenAI一起“解决问题”。

此前，今年3月，OpenAI首席技术官米拉·穆拉蒂（Mira Murati）在接受采访时还曾对Sora的训练数据来源含糊其辞。当被追问具体来源是否包含YouTube的视频时，穆拉蒂回复称“我实际上并不确定”，并拒绝回答有关Instagram或Facebook视频是否被纳入训练集的问题。

编辑/樊宏伟