量化巨头幻方创始人梁文锋参加总理座谈会并发言,他还创办了“AI界拼多多”
澎湃新闻 2025-01-22 10:02

国产大模型公司深度求索(DeepSeek)创始人梁文锋参加了总理座谈会。

据新华社报道,中共中央政治局常委、国务院总理李强1月20日下午主持召开专家、企业家和教科文卫体等领域代表座谈会,听取对《政府工作报告(征求意见稿)》的意见建议。座谈会上,张辉、任少波、刘珺、梁文锋、魏洪兴、陈学东、陈红彦、杜斌、邹敬园等先后发言。

其中,梁文锋正是头部量化私募幻方量化创始人、DeepSeek的创始人。

低调的“量化天王”

梁文锋“发迹”于量化投资。

作为一名“80后”,梁文锋本科、研究生都就读于浙江大学,拥有信息与电子工程学系本科和硕士学位。

2008年起,梁文锋就开始带领团队使用机器学习等技术探索全自动量化交易。2015年,幻方量化正式成立,2019年,其资金管理规模就突破百亿元。

2019年,梁文锋在当年的金牛奖颁奖仪式上,发表主题演讲《一名程序员眼里中国量化投资的未来》,这是他罕有的公开发言。

在演讲中,梁文锋指出,量化与非量化的判定标准就是在投资决策的过程中,是用数量化方法进行决策的,还是用人进行决策的。量化公司是没有基金经理的,基金经理就一堆服务器。

 “作为私募,投资人对我们的期望是很高的,如果一年跑赢指数低于25%,投资人是不满意的。”梁文锋指出,量化投资已经赚了技术面流派原来赚的钱,未来也要抢夺基本面流派原来赚的钱。

演讲最后,梁文锋说,幻方量化的使命就是提高中国二级市场的有效性。

2021年,幻方量化成为国内首家突破千亿规模的的量化私募大厂,被称为国内量化私募“四大天王”之一。不过,就在这一年,由于业绩波动,幻方量化关闭了全部募集通道,并在12月底发布致投资者公开信,致歉称“幻方业绩的回撤达到历史最大值,我们对此深感愧疚”,究其原因,主要是AI的投资决策在买卖时点上没有做好,市场风格剧烈切换的时候,AI会倾向于冒更大的风险来博取更多收益,进一步加大了回撤。

此后,幻方量化逐渐降低其资金管理规模。2024年10月,幻方量化还向投资者发布公告称,计划逐步对冲产品投资仓位降低至零。

“短期内没有融资计划”

梁文锋对于AI的兴趣早就有迹可循。

2016年10月21日,幻方量化推出第一个AI模型,第一份由深度学习生成的交易仓位上线执行,使用GPU进行计算。2017年,幻方量化宣称实现投资策略全面AI化。

幻方量化官网显示,其在2018年就确立以AI为公司的主要发展方向。

2020年开始,幻方累计投资超亿元、占地面积相当于一个篮球场的AI超级计算机“萤火一号”正式投入运作,号称可以匹敌4万台个人电脑的超级算力。2021年,幻方投入十亿建设“萤火二号”,以“任务级分时共享”为核心理念,调度系统秒级响应,平台配备强大的软件层支持:高性能算子库(hfai.nn)、分布式训练通讯框架(hfreduce)、专为AI开发而生的大容量高带宽文件系统(3FS),让AI模型能自如拓展到多节点之上,进行大规模并行训练,算力扩容翻倍,集群连续满载运行,平均占用率达到96%以上。

2021年,在梁文锋参与的论文中提到,他们正在部署的萤火二号系统,“配备了1万张A100GPU芯片”,在性能上接近DGX-A100(英伟达推出的人工智能专用超级计算机),但成本降低了一半,同时能耗减少了40%。

当时国内超过1万枚GPU的企业不超过5家,而且除了幻方量化之外,其他4家公司都是互联网大厂。

这背后需要极其雄厚的财力支持。

2023年初,幻方量化表示,过去的几年,幻方量化及员工每年拿出收入的一部分投入公益,回馈社会,累计捐赠超过5.8亿元。其中,2022年,员工“一只平凡的小猪”个人就向慈善机构捐赠1.38亿元,当时的消息指出,这个人就是梁文锋。这从一个侧面反映出了幻方量化和梁文锋本人的“不差钱”。

幻方量化曾表示,多年以来,该公司坚持把营收的大部分投入人工智能领域,建设领先的AI硬件基础设施,进行大规模的研究,探索人类未知的奥秘,“我们相信几乎所有的创新都是从大胆尝试和点滴积累中孕育而来。”

梁文锋在为数不多的对外发声中同样也提到“短期内没有融资计划”,并认为当下面临的问题“从来不是钱,而是高端芯片(短缺)”。

“AI界拼多多”

2023年7月,幻方量化宣布成立大模型公司DeepSeek,正式进军通用人工智能领域。据报道,DeepSeek包括创始人梁文锋在内,仅有139名工程师和研究人员。与之对比,OpenAI有1200名研究人员,Anthropic则有500多名研究人员。

仅仅不到一年的2024年5月,DeepSeek就发布了DeepSeekV2,因为创新的模型架构和史无前例的性价比,火爆出圈。DeepSeek-V2的API定价为每百万tokens输入1元、输出2元,价格仅为GPT-4 Turbo的百分之一。

对于为何能做到如此高的性价比,DeepSeek官方解释称,DeepSeek-V2采用了创新的架构,例如注意力机制方面的MLA(多头潜在注意力)和前馈网络方面的DeepSeekMoE架构等,以实现具有更高经济性的训练效果和更高效的推理。

因此, DeepSeek被称为“AI界的拼多多”,引发了字节、阿里、百度等大厂的大模型价格战,纷纷宣布大模型产品降价。彼时,梁文锋在接受媒体采访时称,DeepSeek无意成为行业鲇鱼,低价背后是希望算力普惠。

2024年12月27日,DeepSeek-V3更是横空出世,火爆全球。据DeepSeek官网显示,其评测成绩不仅超越了Qwen2.5-72B(阿里自研大模型)和Llama 3.1-405B(Meta自研大模型)等顶级开源模型,甚至能和GPT-4o、Claude 3.5-Sonnet(Anthropic自研大模型)等顶级闭源模型一较高下。

DeepSeek宣布上线并同步开源DeepSeek-V3模型之外,还公布了长达53页的训练和技术细节。得到大幅升级的V3模型是在一个“难以想象”的预算下训练完成的:整个训练仅花费了557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版 GPU)集群上运行55天完成,仅是OpenAI GPT-4o模型训练成本的不到十分之一。

“中国也要逐步成为贡献者,而不是一直搭便车。”梁文峰在接受媒体采访时说,“我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件,Scaling Law(规模定律)也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,中国必然需要有人站到技术的前沿。”

梁文锋和他的DeepSeek还在继续求索。

就在1月20日, DeepSeek正式发布DeepSeek-R1模型。该模型在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。DeepSeek称,R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。DeepSeek不仅将R1训练技术全部公开,还蒸馏了6个小模型开源给社区,允许用户借此训练其他模型。

“投身于探索AGI的本质,不做中庸的事,带着好奇心,用最长期的眼光去回答最大的问题。”DeepSeek的公众号这样写道。

编辑/樊宏伟

最新评论