北京青年报

接近理科博士生水准！OpenAI放大招

证券时报网 2024-09-13 13:12

北京时间9月13日凌晨，OpenAI重磅发布全新AI大模型——o1模型。

据OpenAI官网介绍，这一模型“旨在花更多时间思考后再作出反应。它们可以推理复杂的任务，解决比以前的科学、编码和数学模型更难的问题”。不过，今天在ChatGPT和大模型API中新发布的是该系列中的第一款模型，而且还只是预览版——o1-preview（o1预览版）。

事实上，此前外界曾流传OpenAI正在研发新模型“草莓”和“猎户座”，其中“草莓”具有更强的推理能力、擅长解决复杂的数理逻辑问题，而“猎户座”则将基于“草莓”模型的能力，是“ChatGPT”的超强继任模型。

OpenAI首席执行官山姆·奥特曼在其个人社交平台表示，“虽然o1的表现仍然存在缺陷，不过你在第一次使用它的时候仍然会感到震撼。”

OpenAI今天发布的o1模型虽然名字上与此前泄露的“草莓”不同，但功能、推理、性能等方面与外界揣测的基本一致。据了解，o1的推理模式的特别之处在于，在回答用户问题之前，o1会进入拟人化思考模式，将问题分解成更小的步骤，逐一解决，然后生成一个较长的内部思维链，这一推理模式也使得回答的内容更加准确。

“在我们的测试中，下一个模型（o1模型）更新在物理、化学和生物学的具有挑战性的基准任务上的表现与博士生相似。我们还发现它在数学和编码方面表现出色。在国际数学奥林匹克(IMO)资格考试中，GPT-4o仅正确解决了13%的问题，而推理模型得分为83%。他们的编码能力在比赛中得到了评估，并在Codeforces比赛中达到了第89个百分位。”OpenAI对o1模型的介绍表示。

在数学竞赛中，以AIME2024为例，GPT-4o平均只能解决12%的问题，而o1平均能解决74%的问题，若采用64个样本的共识，解决率能达到83%。o1在竞争性编程问题（Codeforces）中排名第89位，在美国数学奥林匹克(AIME)预选赛中跻身美国前500名学生之列，并在物理、生物和化学问题(GPQA)基准测试中超越人类博士级准确度。

OpenAI表示，对于复杂的推理任务来说，这是一个重大进步，代表了人工智能能力的新水平。鉴于此，OpenAI将计数器重置为1，并将该系列命名为OpenAIo1。

另外，OpenAI在过去一段时间一直被质疑因加快产业开发而降低了对模型安全的重视，团队中多名安全团队的人员也接二连三离职。对于模型的安全问题，OpenAI表示，在开发这些新模型的过程中，公司提出了一种新的安全训练方法，利用模型的推理能力，使它们遵守安全和协调准则，能够通过在上下文中推理安全规则，并且更有效地应用这些安全规则。

“我们衡量安全性的一种方法是测试当用户试图绕过安全规则（称为‘越狱’）时，我们的模型如何继续遵循安全规则。在我们最严格的越狱测试之一中，GPT-4o得分为22（0-100分制），而我们的o1预览模型得分为84。”OpenAI介绍称。

适用对象方面，拥有增强的推理能力的o1模型更适合于解决科学、编码、数学和类似领域的复杂问题。例如，医疗研究人员可以使用o1来注释细胞测序数据，物理学家可以使用o1来生成量子光学所需的复杂数学公式，各领域的开发人员可以使用o1来构建和执行多步骤工作流程。

除了o1系列模型外，OpenAI这次还一并发布了一个mini版OpenAIo1-mini模型。OpenAI在官网中给出了preview和mini版的不同定义，“为了给开发者提供更高效的解决方案，我们也发布了OpenAIo1-mini，这是一个尤其擅长编程的更快、更便宜的推理模型。”据了解，作为一款较小的模型，o1-mini比o1-preview便宜80%，使其成为一款功能强大、经济高效的模型，适用于需要推理但不需要广泛世界知识的应用程序。

至于新模型的使用方面，OpenAI称，从发布之日起，ChatGPTPlus和Team用户将能够在ChatGPT中访问o1模型。o1-preview和o1-mini都可以在模型选择器中手动选择。不过，发送消息的次数目前还存在限制。o1-preview每周发送消息次数限制为30条消息，o1-mini则为50条消息。OpenAI称正在努力提高这些发送次数，并使ChatGPT能够根据给定的提示自动选择正确的模型。

价格方面，API的价格上，o1-preview每百万输入15美元，每百万输出60美元。与之对比，GPT4o每百万输入和每百万输出分别是5美元和15美元，o1-preview价格是GPT4o的3倍。o1-mini会便宜一些，每百万输入为3美元，每百万输出为12美元。

关于未来的计划，OpenAI表示计划向所有ChatGPTFree用户提供o1-mini访问权限。同时，除了o1模型宣布的这些更新之外，OpenAI还希望添加浏览、文件和图片上传等功能，并计划继续开发和发布GPT系列中的模型。

编辑/范辉