北京青年报

OpenAI劲敌来了！这款大模型多项测试超越GPT-4o，号称最强智能

澎湃新闻 2024-06-21 13:47

AI（人工智能）初创企业Anthropic发布自称“迄今为止最智能的模型”。

当地时间6月20日，被视为OpenAI头号竞争对手的AI初创企业Anthropic发布了公司性能最强的AI模型Claude 3.5 Sonnet。据介绍，在覆盖阅读、编程、数学和视觉等领域的多项性能测试中，Claude 3.5 Sonnet的性能基本全面超越了包括GPT-4o在内的一众知名AI模型，仅在MMLU（大规模多任务语言理解）和MATH（数理）数据集上略逊于GPT-4o，且优于自家此前最强的模型Claude 3 Opus。

在Anthropic此前发布的Claude 3系列模型中，小型模型叫做Haiku，Sonnet是中档模型，最强模型的名字则是Opus。和Claude 3 Opus相比，最新3.5 Sonnet的运行速度可达到前者的两倍，在理解细微差别、幽默和复杂指令方面的表现有显著的提升，并能在生成内容时使用更自然的语气。在内部代理编码评估中，3.5 Sonnet解决了64%的问题，而Opus此前的成绩是38%。

此外，Claude 3.5 Sonnet模型具备强大的“视觉”能力，在标准视觉基准测试中也超过了Claude 3 Opus。在诸如解释图表、图片等处理视觉推理的任务中，3.5 Sonnet可以准确地从不完美的图像中转录文本，对于零售、物流和金融服务等领域的客户来说尤为重要。3.5 Sonnet还可以用于自动化视觉数据处理任务，增强医疗保健、金融服务、媒体和娱乐工作任务中的数据分析。

Anthropic表示，公司致力于“每隔几个月就显著改善智能、速度和成本之间的权衡曲线”，预计Claude 3.5 Haiku和Claude 3.5 Opus将在今年晚些时候推出。

Anthropic的产品负责人Michael Gerstenhaber表示：“对企业来说，重要的是AI能否帮助他们满足业务需求，而不是AI在性能测试中的竞争力如何，从这个角度来看，我相信Claude 3.5 Sonnet将领先于我们现有的任何其他产品，也领先于行业中的所有其他产品。”

在定价方面，新模型定价与前代相同，即每输入3万token定价为3美元，每生成百万token为15美元，并具有20万个token的上下文窗口，约合15万个单词。

现在，用户可以通过Anthropic的网页客户端和iOS应用免费试用新模型，Claude Pro和Claude Team的订阅用户将获得五倍的速率限制。此外，新模型也在Anthropic的API以及亚马逊 Bedrock和谷歌云的Vertex AI等托管平台上上线。

借着推出新模型的机会，Anthropic还为旗下模型引入了一个名为“Artifacts（人工制品）”的新功能。开启该功能后，用户将在对话框旁的一个新窗口中看到Claude生成的结果并与之交互：例如，要求模型设计一个图案，Claude就会在新窗口中展示生成的结果，并根据用户的新需求对结果进行实时编辑。

Anthropic表示，该功能标志着Claude从对话式AI向协作式工作环境的演变，将很快扩展到支持团队协作，让Claude成为工作小组中的一员。

科技网站The Verge指出，Anthropic的进步速度令人惊叹：公司刚于今年3月推出了Claude 3 Opus，现在已经迈出了下一步，相信OpenAI、谷歌等竞争对手很快也会跟上。

今年5月，Anthropic正式推出Claude的iOS端应用程序，并宣布推出针对企业的新付费计划Team，提供比Pro版更多的对话次数，需要至少五名成员加入、每人每月30美元，展现出其在B端扩张的野心。社交媒体Instagram的联合创始人Mike Krieger和OpenAI前安全负责人Jan Leike也都在5月加入了Anthropic。（澎湃新闻记者胡含嫣）

编辑/田野