北京青年报

OpenAI的“双重挑战”：谷歌全面反击，首席科学家出走

国际金融报 2024-05-16 10:37

OpenAI刚发布新旗舰模型GPT-4o没多久，风头很快就被谷歌盖过去了。

当地时间5月14日，谷歌I/O开发者大会正式召开，并发布了一系列AI应用在内的“全家桶”，其中多款产品被认为是正面对标OpenAI。谷歌CEO皮查伊表示，当天的发布会一共提到了121次AI，足以显示谷歌对AI的重视程度。

反观被“针对”的OpenAI，一场人事变动正在上演。当地时间5月14日，OpenAI联合创始人、首席科学家伊尔亚·苏茨克维（Ilya Sutskever）宣布决定离开OpenAI。几个月前，围绕着OpenAI联合创始人兼首席执行官山姆·奥特曼（Sam Altman）的罢免事件中，这位科学家曾被视为关键人物，而随着Sam Altman的回归和董事会改组，OpenAI的权力斗争落幕，也使得Sutskever如今的出走显得没有那么“意料之外”。

关键人物离开OpenAI

包括Sam Altman在内的一众OpenAI高管和Ilya Sutskever上演了一场体面的“分手”。

作为联合创始人和首席科学家，在加入OpenAI近十年后，Ilya Sutskever决定离开。他在社交平台上发文称，OpenAI的发展轨迹堪称奇迹，并提及到了OpenAI的现任管理层，表示在他们的领导下，OpenAI将打造出安全有益的AGI。

Sam Altman很快作出回应，称Ilya Sutskever是“我们这一代最杰出的思想家之一，是我们领域的引路人，没有他，OpenAI不会有今天的成就”。在肯定了Ilya Sutskever的能力和表达感谢之后，Sam Altman对外公布了首席科学家这个职位的继任者：Jakub Pachocki。从其履历来看，这位科学家自2017年加入OpenAI，曾担任OpenAI研究总监，Sam Altman曾盛赞他在GPT-4开发中的领导力和技术能力。

值得一提的是，在去年11月轰轰烈烈的高层动荡中，OpenAI CEO Sam Altman和总裁Greg Brockman离开公司后不久，有三名OpenAI高级研究人员也宣布辞职，其中之一便是Jakub Pachocki。

如今再回过头看，几个月前的所谓“宫斗”事件发展及后续处理也为如今Ilya Sutskever的出走埋下了伏笔。

去年11月中旬，Sam Altman被宣布解除CEO职位并离开董事会，Greg Brockman随后也主动宣布辞去总裁职务，一时间舆论哗然。随后几天内，在外部投资者和内部员工的双重施压之下，这两位高管风光回归OpenAI并复职。

在这场“斗争”中，Ilya Sutskever曾联合董事会成员反对Sam Altman，从而被外界认为是“话事人”，在Sam Altman回归之后，Ilya Sutskever表示对参与董事会行动而深感后悔。权力斗争落幕之后，OpenAI董事会进行了改组，由原先的6人缩减为3人，Ilya Sutskever也由此不再在董事会任职。

伴随着这起高层动荡，外界对OpenAI内部的人工智能技术路线之争进行了一场持久而全面的讨论。作为机器学习领域的顶尖学者，Ilya Sutskever主张谨慎、重视风险与安全问题，被认为是“科学保守”的那一派。此外，OpenAI内部的一个意在解决超级智能的对齐问题的超级对齐Superalignment团队中，Ilya Sutskever亦是领导者之一。

Ilya Sutskever暂时没有透露其“下家”的具体细节，仅提及“这个项目对我个人意义重大”。而对Sam Altman和OpenAI来说，随着谷歌等商业公司对AI的持续加码，不断推出具有强大竞争力的工具和应用，作为非营利机构的OpenAI如何处理创立初衷和商业化发展，仍是其需要持续面对的问题。

谷歌来势汹汹

如果说首席科学家的出走是意料之中的正常人事变动，那么外部商业巨头的快速发展对OpenAI带来的挑战或许更加严峻。

当地时间5月13日，OpenAI举行了一场线上直播，没有GPT-5，也没有搜索引擎，OpenAI发布了GPT-4o，“o”意为“omni”，也就是“全能”的意思。根据官方介绍来看，GPT-4o是朝着更自然的人机交互迈出的一步——它接受文本、音频、图像和视频的任何组合作为输入，并生成文本、音频和图像输出的任何组合。

与现有模型相比，GPT-4o在视觉和音频理解方面尤为更好。在反应速度上，GPT-4o可以在短短232毫秒内响应音频输入，平均响应时长320毫秒，类似于对话中的人类响应时间。在GPT-4o之前，用户使用语音模式和ChatGPT通话时，延迟时间平均为2.8秒（GPT-3.5）和5.4秒（GPT-4），可见其跨越性的发展。而且，GPT-4o的价格还便宜50%。

一天之后，谷歌在开发者大会上发布了一系列基于Gemini的AI功能及产品。这不免让外界联想到，今年2月15日，谷歌发布多模态大模型Gemini 1.5 Pro当天，OpenAI就发布了文生视频模型Sora，几乎抢走了谷歌的所有风头。

此次，谷歌进行了全面反击，推出了Gemini 1.5 Flash，这是谷歌Gemini系列模型中的最新成员，也是通过API提供的速度最快的Gemini模型，比1.5 Pro更轻量级，且在处理大量信息时具有强大的多模态推理能力。谷歌还大幅改善了1.5 Pro，除了上下文窗口将从100万token升级至200万token，还提升了模型的代码生成、逻辑推理与规划、多轮对话以及音频和图像理解能力。如今，谷歌已经将1.5 Pro整合到Google产品中，包括Gemini Advanced和Workspace应用程序。

而对标GPT-4o，谷歌DeepMind也首次对外推出了通用AI智能体“Astra”。从谷歌官方展示的视频来看，Astra可以通过视频画面接受信息，进行识别并做出回应。不过，谷歌方面也表示：“虽然我们在开发能够理解多模态信息的AI系统方面取得了惊人的进步，但要将回答时间缩短到可对话的程度，仍是一项非常艰巨的工程挑战。”

此外，谷歌宣布了一系列与图像、音乐、视频有关的生成式AI工具，包括文生图工具Imagen 3、与Youtube以及音乐家合作的“AI音乐沙盒”和最新的视频生成模型Veo，被外界认为是对标OpenAI旗下同类型的文生图模型DALL.E3和文生视频模型Sora。

过去一年来，谷歌在AI方面屡遭质疑，尤其是去年底的大模型Gemini 1.0造假翻车事件让这家公司一度陷入信任危机，但谷歌对AI持续投入的步伐并未减速。从最新的季度财报来看，谷歌在搜索、YouTube和云业务方面都获得了强劲的增长，而按照皮查伊的说法，公司通过广告、云服务和订阅计划等清晰的路径来实现AI突破的盈利化。

目前来看，OpenAI与谷歌的此次AI大战难分高下，谁带来的惊喜更大，外界众说纷纭，但可以确定的是，这场AI角逐的主角不仅仅是OpenAI和谷歌。

再过几天，投资OpenAI的微软即将举行Build年度开发者大会，AI毫无疑问也将是重头戏。此外，6月10日，苹果将举办一年一度的全球开发者大会，Siri语音助手的升级是目前外界聚焦的重点。最近一段时间，关于苹果牵手OpenAI、谈判谷歌的传闻不断，硬件王者的蛋糕将被谁拿下，或许将重塑整个行业的竞争格局。（蔡淑敏）

编辑/田野