北京青年报

敲开芯片厂大门大模型厂商开始把应用装进手机里

第一财经 2024-05-15 11:40

手机端侧AI的机会让本来交集并不多的两个行业走到了一起。

联发科无线通信事业部生态发展资深总监章立在一场开发者大会上对记者表示，有大模型厂商已看到，从App应用走向大模型应用生态，到了要向云端芯片、终端芯片要算力的阶段。

近日，联发科对外推出了“天玑AI先锋计划”，并提供了相关的开发者解决方案，以支持大模型厂商在端侧AI的技术落地和端侧生成式AI应用创新。在章立看来，未来一段时间，生成式AI和芯片是强相关的。

过去一年，随着生成式AI从云端走向终端，像联发科这样的芯片公司开始嗅到了更多的机会。他们逐步发现，除了手机厂商外，更多的大模型企业也开始直接与芯片公司从底层展开合作，以解决算力成本在端侧的覆盖问题。

不同于云端的大型服务器集群，智能终端过去受限于小型化，算力有限，但独特优势则在于有更好的隐私性。业内逐渐看到AI手机、AI PC、智能汽车等端侧AI场景的潜力，更重要的是，当大模型装进手机里时，大模型企业可以通过本地化部署AI，绕开昂贵的云端运算成本。

但手机端可运行的大模型目前多在70亿参数左右，可支持的大模型应用场景还受限，爆款AI应用要爆发还需端侧的算力和生态支持。联发科之外，业内也在探索适合端侧运行的小型化模型。

大模型企业敲开芯片厂大门

大模型云端算力昂贵是推动大模型应用走向端侧的动力之一。

有消息称，ChatGPT每天需响应超2亿次请求，耗电量可能超每天50万千瓦时。一名大模型应用厂商高管也告诉记者，Sora至今不向公众开放使用，主要原因很可能就是运算成本太高。

相比之下，运用分散的端侧算力，在手机、电脑等个人持有的终端设备上运算而不依赖于联网，被认为可以替代部分云端算力，减轻用户使用大模型服务的算力成本。但大模型参数量较大的特点，使算力要求颇高，这正是手机等终端受限之处。目前，联发科和高通移动芯片最高都可支持上百亿参数大语言模型运行，而云端运行的主流大模型动辄上千亿参数。

“现在手机算力可支持70亿参数大模型，再往上可能就是100多亿参数。”有芯片业内人士告诉记者。

以手机为代表的端侧目前不适合搭载很高算力芯片的一个原因是功耗。安谋科技产品总监杨磊指出，PC、平板电脑、手机、智能眼镜大多由电池供电，功耗和电池容量决定设备续航时长，而一张高性能GPU动辄功耗数百瓦，更适合云端使用，一般手机功耗不超过10瓦。

算力有限的情况下，端侧搭载大模型面临多重挑战。联发科无线通信事业部副总经理李彦辑告诉记者，大模型厂商希望在端侧高效运行大模型，但面临两类问题。一是运行效率，包括耗电量和速度，二是内存占用可能过高。直接把云端训练好的模型放到手机端将会遇到以上问题，大模型厂商对这些优化方案很在意。

“跟大模型厂商合作时有很多困难。比如，把7B（70亿）、13B的模型装到手机这么小的设备里是很大的挑战，必须通过我们的开发套件中的Neuron Studio做量化、压缩，做出最佳和最小的网络结构。” 联发科无线通信事业部技术规划总监李俊男告诉记者。

基于算力需求，芯片厂商与大模型厂商走得更近了。“缺乏芯片的支持，在端侧或云侧都会面临同样的挑战。”章立告诉记者，大模型应用会趋于从芯片底层出发，发掘打造移动平台用户新体验的可能。

爆款应用何时出现？

AI手机、AI PC概念提出后，基于这些智能终端的爆款应用并未诞生。

记者了解到，目前端侧算力是限制大模型应用落地手机的一个原因。“目前手机端侧AI的功能还比较有限，可支持修图，但在断网的情况下进行大模型语音对话还不太行。图片类的模型不需要很大参数，语音类的更大。”以上芯片业内人士告诉记者。

章立则告诉记者，端侧爆款应用将会出现，而这跟芯片制程与能力关系并不绝对。原本大家觉得手机似乎卷不动了，App厂商似乎无所适从，因为过去规则已形成，竞争关系、流量比较收敛，很多开发者没有新机会。生成式AI则给了开发者更多工具。技术带来用户体验创新，这种情况下不需担心爆品会否出现，只是无法确定何时出现。

要促使AI应用在手机等端侧落地，大模型应用向芯片要算力是一个层面，提高端侧整体算力和小模型表现效果是另外两个层面。业内展望手机算力还会进一步提高。

杨磊认为，旗舰手机芯片算力可达40~50TOPS，中档手机算力10~20TOPS，入门级手机未专门配备AI能力，预测随着半导体技术演进，旗舰手机算力水平有望达100TOPS，入门级手机将提升至5~10TOPS，两年后手机都有望具备本地部署AI大模型的硬件计算能力。

为适应分散化的端侧运算要求，大模型也在向小型化发展。

今年4月Meta发布Llama 3系列的两个开源大模型，参数量分别是8B和70B。猎豹移动董事长兼CEO傅盛表示，小参数模型Llama 3 8B的表现比上一代大参数Llama 2 70B更好，这印证了小参数模型的能力会快速提升。新浪微博新技术研发负责人张俊林也认为，Llama 3最重要的改变是训练数据量极大扩充，小模型固定大小并增加数据量后效果会持续提升。张俊林告诉记者，目前小模型的能力还看不到上限。

迅速提升的小模型能力，已让一些业界人士预测小模型将加快在智能终端落地。“现在很流行小模型SLM。通过比较好的训练将模型缩小，现在看来小模型的能力也很好，3B以下能力不错，这是对端侧非常有利的趋势，苹果可能也在布局这种小模型。”李俊男表示，端侧AI算力相关的内存带宽瓶颈也可以采用小模型解决。

从发布的成果看，苹果也在发力小模型并突破端侧参数限制。华福证券研报称，苹果除了30亿参数的MM1模型外，更多在端侧模型布局，其中端侧场景化小模型ReALM最小参数8000万。苹果还提出利用闪存解决大模型运行的内存瓶颈，其Flash-LLM方案将端侧设备可运行模型参数量提高至原来的两倍。随着6月WWDC及后续发布会进行，苹果相关产品有望面世。

至于未来的端侧爆款应用将是何种形态，章立表示，联发科看应用时有两个维度，一是看在做革新和生成式AI化的存量头部App，另一个是看新冒出来的App，现在还不确定爆款App会从哪类中诞生。云端和端侧可能都有大模型应用跑出来，相比之下，云端可能更适合做“0到1”的创新，端侧则更适合做感知和一些更好的创新。

李彦辑则认为，影像、视频等多模态大模型输入输出在手机上应该很快会实现。此外，专家系统还会训练很多小模型，可根据用户需求切换。手机端的需求已越来越清晰，例如能力上趋于私人化、本地运算。

编辑/范辉