要说人工智能大模型最强大的能力,那肯定是最基础的文本处理功能,但一家名为Patronus AI的初创公司的研究人员发现,即使是目前最强大的大模型,也无法准确分析美国证券交易委员会(SEC)的企业财报文件。
OpenAI的GPT-4-Turbo应该说是目前市场上性能最好的人工智能模型了,而在Patronus AI的最新测试中,针对SEC文件的问题,只有79%的答案是正确的。
让普通人工智能工具回答这类问题的话,一般不是无法回答,就是会出现“幻觉”,也就是胡编乱造SEC文件中没有的数字和事实。
Patronus AI的联合创始人Anand Kannappan表示:“这样的性能是绝对不可接受的,它的准确率必须要高得多,才能真正以自动化和生产就绪的方式开始工作。”
这些发现突显了人工智能模型面临的一些挑战,因为大公司,尤其是金融等受监管行业的大公司,正寻求将尖端技术纳入其业务,无论是客户服务还是数据研究方面。
自去年年底ChatGPT发布以来,快速提取重要数字和文字,并对财务报表进行分析的能力一直被视为聊天机器人最有前途的应用之一。而SEC的备案文件中充满了重要的数据,如果人工智能能够准确地总结这些数据,或者快速回答有关其中内容的问题,它可能会让用户在竞争激烈的金融行业中占据优势。
因此,各大投行和金融公司都在对此进行布局。全球最大的财经资讯公司彭博社发布了专门为金融领域打造的大模型BloombergGPT,商学院教授研究了ChatGPT是否可以分析金融头条新闻,摩根大通正在开发一种人工智能驱动的自动投资工具。麦肯锡最近的一项预测称,生成式人工智能每年可以为银行业带来数万亿美元的收入。
金融领域应用
但人工智能进入金融行业并不顺利。当微软首次使用OpenAI的大模型推出必应聊天机器人时,它的主要例子之一就是快速总结业绩新闻稿。观察人士很快意识到,微软发布的数字是错误的,有些数字甚至完全是编造的。
Patronus AI的联合创始人指出,将大模型纳入实际产品的部分挑战在于,它是不确定的——它们不能保证每次对相同的输入产生相同的输出。这意味着公司需要进行更严格的测试,以确保它们正确运行,不偏离主题,并提供可靠的结果。
Patronus AI测试了四种大模型:OpenAI的GPT-4和GPT-4- turbo, Anthropic的Claude2和Meta的Llama 2。在进行了相关测试之后,Patronus AI两位联合创始人对大模型的糟糕表现感到惊讶。
Patronus AI的Rebecca Qian指出:“令人惊讶的是,大模型们经常拒绝回答问题,拒答率非常高,即使答案在语境中,即使是普通人也能回答的问题。”
不过,该公司也认为,如果人工智能继续进步,像GPT这样的大模型将有巨大的潜力来帮助金融行业的人们——无论是分析师还是投资者。
OpenAI的一名代表指出,该公司的使用指南禁止在没有合格人员审查信息的情况下,使用OpenAI模型提供量身定制的金融建议,并要求任何在金融行业使用OpenAI模型的人提供免责声明。OpenAI的使用政策还表示,OpenAI的模型并没有经过微调,无法提供财务建议。
编辑/范辉