OpenAI的“双重挑战”:谷歌全面反击,首席科学家出走
国际金融报 2024-05-16 10:37

OpenAI刚发布新旗舰模型GPT-4o没多久,风头很快就被谷歌盖过去了。

当地时间5月14日,谷歌I/O开发者大会正式召开,并发布了一系列AI应用在内的“全家桶”,其中多款产品被认为是正面对标OpenAI。谷歌CEO皮查伊表示,当天的发布会一共提到了121次AI,足以显示谷歌对AI的重视程度。

反观被“针对”的OpenAI,一场人事变动正在上演。当地时间5月14日,OpenAI联合创始人、首席科学家伊尔亚·苏茨克维(Ilya Sutskever)宣布决定离开OpenAI。几个月前,围绕着OpenAI联合创始人兼首席执行官山姆·奥特曼(Sam Altman)的罢免事件中,这位科学家曾被视为关键人物,而随着Sam Altman的回归和董事会改组,OpenAI的权力斗争落幕,也使得Sutskever如今的出走显得没有那么“意料之外”。

关键人物离开OpenAI

包括Sam Altman在内的一众OpenAI高管和Ilya Sutskever上演了一场体面的“分手”。

作为联合创始人和首席科学家,在加入OpenAI近十年后,Ilya Sutskever决定离开。他在社交平台上发文称,OpenAI的发展轨迹堪称奇迹,并提及到了OpenAI的现任管理层,表示在他们的领导下,OpenAI将打造出安全有益的AGI。

Sam Altman很快作出回应,称Ilya Sutskever是“我们这一代最杰出的思想家之一,是我们领域的引路人,没有他,OpenAI不会有今天的成就”。在肯定了Ilya Sutskever的能力和表达感谢之后,Sam Altman对外公布了首席科学家这个职位的继任者:Jakub Pachocki。从其履历来看,这位科学家自2017年加入OpenAI,曾担任OpenAI研究总监,Sam Altman曾盛赞他在GPT-4开发中的领导力和技术能力。

值得一提的是,在去年11月轰轰烈烈的高层动荡中,OpenAI CEO Sam Altman和总裁Greg Brockman离开公司后不久,有三名OpenAI高级研究人员也宣布辞职,其中之一便是Jakub Pachocki。

如今再回过头看,几个月前的所谓“宫斗”事件发展及后续处理也为如今Ilya Sutskever的出走埋下了伏笔。

去年11月中旬,Sam Altman被宣布解除CEO职位并离开董事会,Greg Brockman随后也主动宣布辞去总裁职务,一时间舆论哗然。随后几天内,在外部投资者和内部员工的双重施压之下,这两位高管风光回归OpenAI并复职。

在这场“斗争”中,Ilya Sutskever曾联合董事会成员反对Sam Altman,从而被外界认为是“话事人”,在Sam Altman回归之后,Ilya Sutskever表示对参与董事会行动而深感后悔。权力斗争落幕之后,OpenAI董事会进行了改组,由原先的6人缩减为3人,Ilya Sutskever也由此不再在董事会任职。

伴随着这起高层动荡,外界对OpenAI内部的人工智能技术路线之争进行了一场持久而全面的讨论。作为机器学习领域的顶尖学者,Ilya Sutskever主张谨慎、重视风险与安全问题,被认为是“科学保守”的那一派。此外,OpenAI内部的一个意在解决超级智能的对齐问题的超级对齐Superalignment团队中,Ilya Sutskever亦是领导者之一。

Ilya Sutskever暂时没有透露其“下家”的具体细节,仅提及“这个项目对我个人意义重大”。而对Sam Altman和OpenAI来说,随着谷歌等商业公司对AI的持续加码,不断推出具有强大竞争力的工具和应用,作为非营利机构的OpenAI如何处理创立初衷和商业化发展,仍是其需要持续面对的问题。

谷歌来势汹汹

如果说首席科学家的出走是意料之中的正常人事变动,那么外部商业巨头的快速发展对OpenAI带来的挑战或许更加严峻。

当地时间5月13日,OpenAI举行了一场线上直播,没有GPT-5,也没有搜索引擎,OpenAI发布了GPT-4o,“o”意为“omni”,也就是“全能”的意思。根据官方介绍来看,GPT-4o是朝着更自然的人机交互迈出的一步——它接受文本、音频、图像和视频的任何组合作为输入,并生成文本、音频和图像输出的任何组合。

与现有模型相比,GPT-4o在视觉和音频理解方面尤为更好。在反应速度上,GPT-4o可以在短短232毫秒内响应音频输入,平均响应时长320毫秒,类似于对话中的人类响应时间。在GPT-4o之前,用户使用语音模式和ChatGPT通话时,延迟时间平均为2.8秒(GPT-3.5)和5.4秒(GPT-4),可见其跨越性的发展。而且,GPT-4o的价格还便宜50%。

一天之后,谷歌在开发者大会上发布了一系列基于Gemini的AI功能及产品。这不免让外界联想到,今年2月15日,谷歌发布多模态大模型Gemini 1.5 Pro当天,OpenAI就发布了文生视频模型Sora,几乎抢走了谷歌的所有风头。

此次,谷歌进行了全面反击,推出了Gemini 1.5 Flash,这是谷歌Gemini系列模型中的最新成员,也是通过API提供的速度最快的Gemini模型,比1.5 Pro更轻量级,且在处理大量信息时具有强大的多模态推理能力。谷歌还大幅改善了1.5 Pro,除了上下文窗口将从100万token升级至200万token,还提升了模型的代码生成、逻辑推理与规划、多轮对话以及音频和图像理解能力。如今,谷歌已经将1.5 Pro整合到Google产品中,包括Gemini Advanced和Workspace应用程序。

而对标GPT-4o,谷歌DeepMind也首次对外推出了通用AI智能体“Astra”。从谷歌官方展示的视频来看,Astra可以通过视频画面接受信息,进行识别并做出回应。不过,谷歌方面也表示:“虽然我们在开发能够理解多模态信息的AI系统方面取得了惊人的进步,但要将回答时间缩短到可对话的程度,仍是一项非常艰巨的工程挑战。”

此外,谷歌宣布了一系列与图像、音乐、视频有关的生成式AI工具,包括文生图工具Imagen 3、与Youtube以及音乐家合作的“AI音乐沙盒”和最新的视频生成模型Veo,被外界认为是对标OpenAI旗下同类型的文生图模型DALL.E3和文生视频模型Sora。

过去一年来,谷歌在AI方面屡遭质疑,尤其是去年底的大模型Gemini 1.0造假翻车事件让这家公司一度陷入信任危机,但谷歌对AI持续投入的步伐并未减速。从最新的季度财报来看,谷歌在搜索、YouTube和云业务方面都获得了强劲的增长,而按照皮查伊的说法,公司通过广告、云服务和订阅计划等清晰的路径来实现AI突破的盈利化。

目前来看,OpenAI与谷歌的此次AI大战难分高下,谁带来的惊喜更大,外界众说纷纭,但可以确定的是,这场AI角逐的主角不仅仅是OpenAI和谷歌。

再过几天,投资OpenAI的微软即将举行Build年度开发者大会,AI毫无疑问也将是重头戏。此外,6月10日,苹果将举办一年一度的全球开发者大会,Siri语音助手的升级是目前外界聚焦的重点。最近一段时间,关于苹果牵手OpenAI、谈判谷歌的传闻不断,硬件王者的蛋糕将被谁拿下,或许将重塑整个行业的竞争格局。(蔡淑敏)

编辑/田野

最新评论