OpenAI劲敌来了!这款大模型多项测试超越GPT-4o,号称最强智能
澎湃新闻 2024-06-21 13:47

AI(人工智能)初创企业Anthropic发布自称“迄今为止最智能的模型”。

当地时间6月20日,被视为OpenAI头号竞争对手的AI初创企业Anthropic发布了公司性能最强的AI模型Claude 3.5 Sonnet。据介绍,在覆盖阅读、编程、数学和视觉等领域的多项性能测试中,Claude 3.5 Sonnet的性能基本全面超越了包括GPT-4o在内的一众知名AI模型,仅在MMLU(大规模多任务语言理解)和MATH(数理)数据集上略逊于GPT-4o,且优于自家此前最强的模型Claude 3 Opus。

在Anthropic此前发布的Claude 3系列模型中,小型模型叫做Haiku,Sonnet是中档模型,最强模型的名字则是Opus。和Claude 3 Opus相比,最新3.5 Sonnet的运行速度可达到前者的两倍,在理解细微差别、幽默和复杂指令方面的表现有显著的提升,并能在生成内容时使用更自然的语气。在内部代理编码评估中,3.5 Sonnet解决了64%的问题,而Opus此前的成绩是38%。

此外,Claude 3.5 Sonnet模型具备强大的“视觉”能力,在标准视觉基准测试中也超过了Claude 3 Opus。在诸如解释图表、图片等处理视觉推理的任务中,3.5 Sonnet可以准确地从不完美的图像中转录文本,对于零售、物流和金融服务等领域的客户来说尤为重要。3.5 Sonnet还可以用于自动化视觉数据处理任务,增强医疗保健、金融服务、媒体和娱乐工作任务中的数据分析。

Anthropic表示,公司致力于“每隔几个月就显著改善智能、速度和成本之间的权衡曲线”,预计Claude 3.5 Haiku和Claude 3.5 Opus将在今年晚些时候推出。

Anthropic的产品负责人Michael Gerstenhaber表示:“对企业来说,重要的是AI能否帮助他们满足业务需求,而不是AI在性能测试中的竞争力如何,从这个角度来看,我相信Claude 3.5 Sonnet将领先于我们现有的任何其他产品,也领先于行业中的所有其他产品。”

在定价方面,新模型定价与前代相同,即每输入3万token定价为3美元,每生成百万token为15美元,并具有20万个token的上下文窗口,约合15万个单词。

现在,用户可以通过Anthropic的网页客户端和iOS应用免费试用新模型,Claude Pro和Claude Team的订阅用户将获得五倍的速率限制。此外,新模型也在Anthropic的API以及亚马逊 Bedrock和谷歌云的Vertex AI等托管平台上上线。

借着推出新模型的机会,Anthropic还为旗下模型引入了一个名为“Artifacts(人工制品)”的新功能。开启该功能后,用户将在对话框旁的一个新窗口中看到Claude生成的结果并与之交互:例如,要求模型设计一个图案,Claude就会在新窗口中展示生成的结果,并根据用户的新需求对结果进行实时编辑。

Anthropic表示,该功能标志着Claude从对话式AI向协作式工作环境的演变,将很快扩展到支持团队协作,让Claude成为工作小组中的一员。

科技网站The Verge指出,Anthropic的进步速度令人惊叹:公司刚于今年3月推出了Claude 3 Opus,现在已经迈出了下一步,相信OpenAI、谷歌等竞争对手很快也会跟上。

今年5月,Anthropic正式推出Claude的iOS端应用程序,并宣布推出针对企业的新付费计划Team,提供比Pro版更多的对话次数,需要至少五名成员加入、每人每月30美元,展现出其在B端扩张的野心。社交媒体Instagram的联合创始人Mike Krieger和OpenAI前安全负责人Jan Leike也都在5月加入了Anthropic。(澎湃新闻记者 胡含嫣)

编辑/田野

相关阅读
每月2000美元? OpenAI新模型定价传闻引热议
每日经济新闻 2024-09-09
药食同源理念创新实践:国药大健康携手官栈共创中式滋补新品
北京青年报客户端 2024-08-26
OpenAI重磅发布!允许企业客户定制最强AI模型
每日经济新闻 2024-08-21
OpenAI面临多个挑战:人才流失、财务压力与竞争对手的追赶
​第一财经 2024-08-19
GPT-4o模仿人声说“不” 无意的语音生成仍是模型弱点
澎湃新闻 2024-08-13
OpenAI人事动荡未止:联合创始人长期休假,另一名创始团队成员离任
​第一财经 2024-08-06
OpenAI放大招!即日起向部分用户推出GPT-4o语音模式
每日经济新闻 2024-08-01
价格战凶猛 AI小模型狂飙
21世纪经济报道 2024-07-30
最新评论