北京青年报

一年狂揽73亿美元投资 Anthropic点燃硅谷大模型“战火”

第一财经 2024-03-11 12:54

Sora给科技圈带来的冲击还未平静，Claude 3又来了。

3月4日晚，被称之为是OpenAI最强竞争对手的Anthropic发布了其最新大模型系列Claude 3。该系列包含三个模型，能力由强至弱分别是Claude 3 Opus（著作）、Claude 3 Sonnet（十四行诗）和Claude 3 Haiku（俳句）。

Anthropic发布的跑分显示，Opus在多项基准测试中得分都超过了GPT-4 和Gemini 1.0 Ultra，拥有接近人类本科生水平的知识，“在数学、编程、多语言理解、视觉等多个维度树立了新的行业基准”。

自去年3月GPT-4发布后，其一直是行业的最高标准以及追赶目标，此次Claude 3的出现，意味着其Top 1地位可能不保，不少人发出“GPT-4时代已过”的感叹。

不过，天使投资人、资深人工智能专家郭涛对第一财经表示，这可能是一种过于过激的说法，GPT-4在许多应用中可能会比 Claude 3 更适合。开源大模型生态社区OpenCSG的创始人陈冉也并不认可“时代已过”，他表示，这是一个层级和另外一个层级比，毕竟GPT-4已经出来很长一段时间了。

Claude 3之后，大家自然地将目光投向了OpenAI，GPT-5或许已经不远，这是“暴风雨前的宁静”。

全面超越GPT-4?

据Anthropic官方发布的跑分结果，Claude 3 Opus在本科级别专业知识（MMLU）、研究生级别专家推理（GPQA）、基础数学（GSM8K）等领域都超过了GPT-4在内的领先模型。

事实真的如此吗？在Claude 3发布后，陈冉进行了试用和测评，在用他自己的一套方法测试了Opus的逻辑推理、代码等能力后，他认为，Claude 3的整体性能相比GPT-4平均提升了50%以上，包括“幻觉”、正确率和非正确率方面的表现等。

从大模型胡乱回答问题的“幻觉”这一项来看，Claude3相比GPT-4要好很多，另外，在 GPT-4中，有些问题不会被回答，但在Claude 3中其回答的正确率提高了。在代码能力和推理上，陈冉测试了贪吃蛇游戏、扑克游戏等，他对第一财经表示，在这些方面GPT-4都失败了，但Claude 3 Opus做到了。

在陈冉看来，此次Anthropic的发布策略很好，一次性推出三个不同性能的大模型，最出色的大模型打分都比GPT-4高，较小的模型打分也不低，而在成本上相对轻量的两个模型会比GPT-4便宜。

Anthropic此次发布的Opus、Sonnet和Haiku分别针对不同的性能需求和成本效益。据官方介绍，Opus是最智能的模型，可以处理复杂的分析、具有多个步骤的较长任务以及高阶数学和编码任务；Sonnet是性能和速度的最佳组合，可实现高效、大体量的任务；Haiku是最快且最具成本效益的模型，可以执行轻量级操作，具有行业领先的速度。

在成本上，能力最好的Claude 3 Opus比 GPT-4 Turbo 还要贵得多：GPT-4 Turbo 每百万token的输入/输出费用为 10/30 美元，而 Claude 3 Opus为 15/75 美元。不过，也有更具性价比的选择，Claude 3系列中，Sonnet的输入/输出定价是3 美元/15 美元，Haiku是0.25 美元/1.25 美元。

值得一提的是，此次发布的Claude 3系列模型都支持 200k的上下文窗口， Anthropic还特别表示，在这个基础上，所有三个模型都能够接受超过 100 万tokens的输入，会提供给有特定需要的客户。

作为对比，2023年更新的GPT-4窗口文本容量限制是32k，而2023年11月更新的GPT-4 turbo版能够接收128k的输入，相当于10万字的小说长度。

对大模型来说，上下文窗口的文本长度越大，意味着其能更好地理解长篇文章或对话。此前，上海人工智能实验室领军科学家林达华对第一财经介绍，有了长语境交互，大模型能够读几百页的财报，将里面一些非常细致的信息精准提取出来形成摘要，或者听一场几个小时的会议转录，并将会议的关键信息摘取出来，对于大模型的落地很有用。

基于Claude 3在多项能力上超越了GPT-4，行业这两天也出现了“GPT4时代已过”的声音，不过，郭涛认为，Claude 3 在某些基准测试中超过了 GPT-4，并不意味着 GPT-4 的时代已经过去，一方面基准测试并不能全面反映一个模型的全部能力，例如创造性写作、情感理解或特定领域知识方面的表现；另一方面，GPT-4在许多应用中可能会比 Claude 3 更适合，“而OpenAI也在不断研发新的技术和模型，很难说 GPT-4 的时代已经过去。”

能与OpenAI一较高下吗

对于Claude3这次的超越，在惊叹其表现之余，业界没有太多的意外，Anthropic过去一直被视为OpenAI最大的竞争对手之一。

Anthropic的核心团队来自OpenAI，其创始人达里奥·阿莫迪（Dario Amodei）曾是OpenAI的研究副总裁，也是一位与高效利他主义社区有联系的研究员，因对OpenAI的未来方向有一些分歧而离开，并在2021年成立了Anthropic，计划以可信、安全可控的方式发展AI。

Anthropic是目前除OpenAI外最被看好的大模型初创公司之一。在过去一年，Anthropic狂揽约73亿美元的投资，其中，亚马逊、谷歌作为最主要的投资者，分别投资了40亿美元和20亿美元，韩国电信巨头SK下注约1亿美元。就在过去一个月，Anthropic再次获得7.5亿美元的投资，来自硅谷风投机构Menlo Ventures。

在未来与OpenAI的竞争中，陈冉认为Anthropic的胜面不小，一方面，其团队在算法上与OpenAI几乎没有差距，且Anthropic背后有亚马逊、谷歌这样的靠山，算力方面也并不缺，其次，作为背后投资者亚马逊拥有许多生态和场景，相应也能提供很多高质量的数据。陈冉认为，现在大模型竞争最关键的是数据，数据的质量越高越能训练好模型。

“最终Claude有可能会赢。因为特色是合规和安全。”在Claude3发布后次日，陈冉在朋友圈表示。相比GPT-4等模型，Claude对安全的强调尤为明显。

在技术文档中，Anthropic表示，Claude在训练过程中重点是有帮助、无害和诚实，Anthropic通过给模型一个想法来做到这一点，即一套伦理和行为原则，模型使用这些原则来指导其输出，以避免性别歧视、种族主义和有害的产出，以及避免帮助人类从事非法或不道德的活动。此外，Anthropic还会有安全评估，信任和安全团队会监控违反原则的有害、恶意用例的提示和输出。

对于Anthropic未来是否能和 OpenAI 一较高下，郭涛认为这主要取决于几方面的因素。一方面，持续的研发和创新是保持竞争力的关键。如果 Anthropic 能够持续推出先进的技术和改进，它有可能在市场上与 OpenAI 竞争。另一方面，AI 大模型的成功不仅取决于核心技术，还取决于能够建立广泛的生态系统和合作伙伴关系，他认为，OpenAI 在这方面有着较强的影响力和网络效应。此外，如何在商业模式和市场策略上进行创新和调整，也是决定未来竞争格局的重要因素。

“大家有共识目前Claude 3已经在部分能力上超越GPT-4，但具体未来能不能比GPT系列好，拭目以待。”陈冉说。

Claude 3出现了，GPT-5还会远吗？在Claude 3发布后不久，英伟达高级科学家Jim Fan就在X上发文调侃，“正在等待几个小时后精心安排的GPT-5的发布”。

Jim Fan随后表示，“我喜欢Claude在GPT和Gemini主导的竞技场上掀起热度。但请记住，GPT-4V这个每个人都迫切想要超越的高水位线，是在2022年完成训练的。这是暴风雨前的宁静。”

编辑/范辉