北京青年报

“百模大战”打了一年：应用企业仍在摸着石头过河

第一财经 2024-06-05 17:12

“百模大战”过去近一年，最初涌入基础大模型领域的潮水，渐渐向大模型应用领域倾斜。

仅在过去一个月，就发生了太多事情：国内大模型厂商掀起价格战，向应用开发者抛出橄榄枝，联发科等芯片厂商向开发者开放合作，OpenAI和谷歌发布会上，能听会看的AI助手则搭载于电脑和手机，引发关于多模态应用的想象。

但时至今日，能转起大模型商业化齿轮的，似乎仍以互联网大厂既有业务为主。典型如谷歌，其搜索引擎并未如业界最初估计的一般被大模型颠覆，既有的广告业务则率先受益于大模型，第一季度广告收入增长约70亿美元。大厂之外，原生的大模型爆款应用依旧稀缺。

随着大模型价格战燃起，创业基础大模型团队不得不面临更激烈的竞争环境。商业化行之有效地应用将会是制胜的关键。而对于有意在大模型创业潮中分一杯羹的应用开发者而言，不仅选择基础模型是一个挑战，要构建什么样的商业模式、切入什么细分市场也是考验。

近日第一财经记者采访多名大模型应用开发者和技术人员了解到，开发者已在不同细分领域寻找机会，但大模型本身的能力和算力限制仍形成阻力。相比文本大模型，视频生成模型迈向成熟将是一条更远的道路。

摸着石头过河

AI客服创业团队创始人章程（化名）告诉记者，今年客户需求明显提升，对大模型的认知从完全没有，到能形成一定的判断，大模型B端的商业效果一定程度上被证明，说明今年可能是大模型应用爆发的元年。但C端的很多场景，现在还没看到核心的产品。

一些大模型应用企业还在摸着石头过河。

杭州萌嘉网络科技有限公司创始人、CEO卢向东去年年底开始创业，公司的产品TorchV AI主要帮助企业客户建立基于大模型的应用。因为团队熟悉相关市场且有经验，开始创业后，公司很快拿下第一个客户订单，目前试用客户已超200家，产品接入近10个国内大模型，包括开源和闭源。

卢向东感受到，市场需求旺盛，但不少潜在客户对大模型还处在学习和了解阶段。“有一类客户需求很明确，他们布局得早，想明白要什么，大部分则是处于FOMO（害怕错过）心态，他们更多想听其他案例的解决方案，在可接受的情况下推进合作。”

卢向东表示，很多潜在客户想看到案例，希望团队可以帮企业“头脑风暴”或做创意性方案，而不是只提供开箱即用的技术。

同样面向To B市场，近期接受第一财经等媒体采访时，腾讯云副总裁、腾讯云智能负责人吴运声也讲到大模型能力与市场认知之间的割裂，他发现，在过去一年间遇到的很大困难在于，企业客户对大模型有过高预期。“技术发展有阶段性，而业务处理会遇到很多具体问题。这是客户业务需求和大模型能力匹配的问题。客户希望我们可以一下子满足所有需求，而我们应该一步一步来。”他表示。

除了市场还在逐渐接受大模型之外，对于大模型应用会在什么赛道跑出来，投资机构似乎也不是很肯定。卢向东告诉记者，去年投资机构更偏向对头部公司做较大额度投资，今年对于较小的创业公司也有分配策略。已有20多个投资机构前来接触公司，他了解到，有些机构直接表明还是前期了解阶段，他们手里握有的资金不多，又不能错过机会，当下是在持续关注市场。相比于有国资背景的投资机构，风投机构如今出手速度不会很快。

“我对于大模型应用是谨慎的。从基本面看，生成式AI绝对有价值。但一个新的科技突破发生后，行业里大部分人都能赚钱吗？并不是。”在互联网大厂和创投机构有多年从业经历的王先（化名）告诉记者。他的考虑是，这一波大模型浪潮跟上一波AI浪潮很像，上一波即便是AI“四小龙”，已上市的迈向盈利依然艰难。以往AI创业公司得到血淋淋的教训，例如曾卖得很好的AI产品受开源冲击后变成“白菜价”。这一波大模型创业公司有步后尘的可能，同时面临互联网巨头的竞争。

“生成式AI的投资没有形成共识。”王先告诉记者，未来大部分需求可能会被互联网巨头吞掉，同等条件下，客户倾向于选择大公司的几率更高，创业公司要在垂直赛道有深厚背景，拿到足够且便宜的数据，未来才更有机会跟巨头拉开差距。

进入市场后，要怎么样才能撬开需求并构建竞争壁垒，卢向东如今也在思考这个问题。“上个月之前，我们没考虑过要做什么细分市场。当时各行各业的需求都找上来，‘海纳百川’是好的选择。我们的团队以往对一些行业了解不深，所以先抛一个基础产品吸引客户，再逐渐了解行业痛点和刚需。”卢向东告诉记者，后续团队还是要收窄关注领域，让产业方向更明确，也有利于人员调配和品牌势能建立。目前初步选的两个领域是能源和银行，考虑了客户支付能力和落地前景。

成本足够低了吗？

除了“做什么”的问题，大模型应用开发者目前感受到主要掣肘仍是在于算力、成本和模型能力。

卢向东告诉记者，现在最大的问题不是模型本身，而是显卡。国内高端显卡缺乏，团队希望部署多模态模型，受制于现有显卡能力不够。办公室只有几块消费级的英伟达4090显卡，而现在可替代的其他品牌AI芯片易用性还不如英伟达。如果不自己购置显卡而选择在云上租赁，价格则太贵。

绿联科技近期也尝试在私有云NAS（网络附加存储）系统内置本地自学习AI模型，用于辅助图片整理等。绿联NAS私有云产品总监魏婷告诉记者，NAS可存大量数据且长时间运行，用户可用自己的数据调校AI，训练不需联网。这是搭载大模型的好处。但该公司同时对扩大AI应用较为谨慎，除了文生视频等功能未达到能稳定使用阶段的原因外，为了凸显AI功能而堆砌高性能显卡，价格可能也不为用户所接受。

章程则告诉记者。目前其感受到的难点在于大模型能力还不够、成本偏高。

“大模型刚出来时，我们有过高期待，认为它什么都能做，后来发现，大模型只能达到一个初级专业客服的水平。大模型可以解决百分之五六十的问题，剩余的还要人协助。”章程表示，该团队用了GPT-4、Claude 3和谷歌、Mistral旗下模型，一个月为调用大模型花费数万美元，成本压力不小。从近期大模型厂商的进展看，他认为多模态能力有了进步，但落地应用时若使用多模态能力，面临成本过高的问题。

近期国内多款大模型云端API（接口）调用价格下降甚至免费，这是否会明显降低成本？卢向东认为效果有限，一个原因是国内不少企业希望数据存留在本地，在本地部署模型，团队更多客户也是如此，这种情况下使用开源模型，无须云端调用。

随着更多国内大模型降价，章程近期则计划建一套测试体系，以测试免费或更便宜的模型能否达到GPT-4六七成的水平，再考虑更换模型。“免费或者变成原本50%、30%的价格，我们就有动力用这个模型，我最担心的是这些模型性能不够好，例如回复返回时间过长、返回结果不符合期待。”章程告诉记者，公司已采用的大模型包括开源和闭源，在严苛的商业场景中，闭源收费的GPT-4因其较强的推理能力还是难以取代。

相比文生文大模型，业内分析人士认为视频生成模型要做好不仅更难，开放应用的成本也更高。“Sora一直没出来，大家推测是因为跟文本大模型一样开放使用的话，成本太高。视频大模型的体量至少是文本的10倍。”万兴科技董事长吴太兵告诉记者，公司的大模型产品天幕近期也只是公测，且是邀请公测，基于成本原因，现阶段完全放开不太现实。

多模态应用落地有多远？

在近日一场行业活动上，记者看到了多模态大模型应用搭载于端侧设备的尝试。走到一台手机面前，选择一个模板，手机摄像头拍下的人物将可以成为另一种风格，或是“女扮男装”，或是套上明星脸，或是更换发型。行业人士告诉记者，这种简单的图片生成功能在手机端侧就可以实现，现在手机算力可支持70亿参数大模型，再往上可能是100多亿。但相比云端，手机算力始终有限。

算力之外，要推动多模态应用落地，模型本身也要达到一定的成熟度。今年年初OpenAI推出Sora，从当时放出的视频看，Sora还未能很好地展现一些物理世界的特性，例如视频中杯子摔倒了却不会碎。至今Sora未开放公测，Sora演示视频是否有人为参与、是否经历多次调整剪辑，则多次受到质疑。

“视频生成大模型算法成熟度还有限，此外，视频生成大模型要真‘算’，没有开源的模型，需要实打实对数据进行处理。”就为何企业对视频生成模型的市场参与度低于文本大模型，吴太兵告诉记者。他认为，Sora把大家的期望值拉得很高，但做好视频大模型很难。相比文本大模型理解人类，视频大模型需要理解的是世界，即便是人类自身，也没有完全理解世界。

企业投入做视频生成模型并不简单，一个例证是，一年多前国内掀起大语言模型“百模大战”，但Sora面世后，跟进视频生成大模型的玩家却不多。吴太兵表示，相比文本大模型花几千万元就可以做，对于视频模型而言，几个亿的资金估计才刚刚能起步。目前，视频大模型的商业模式还没有完全跑通，付费意愿也是需要考虑的问题。视频大模型与应用深度捆绑、不做通用型模型，采用渐进式做法，将是比较可持续的路线。

“除了架构需要成熟外，视频大模型相比图片大模型维度更多，要求的计算资源也更多，这是目前比较大的困难。Sora要生成一个视频需要分钟级的时间，而且良品率没那么高。” 腾讯混元大模型文生图技术负责人芦清林告诉记者，视频大模型一个要点是如何生成质感很好的视频，目前的情况是生成时间还很短、视频分辨率不足，以至于很多场景很难应用。

从应用上看，多模态中的文生图模型似乎更容易落地。今年五一期间，一款提供黏土滤镜的AI图像软件Remini走红。据七麦数据，5月1日该应用在国内iPhone上的下载量达28万，但5月下旬起每日下载量下滑至1万以下，没有显现出大爆款的潜质。旗下有Stable Diffusion文生图明星产品的初创公司Stability AI，似乎也未找到很好的商业模式，频频传出团队动荡、资金紧张、考虑被收购的消息。

“文生图模型的应用点比较多，但我不认为它的商业化应用会比较清晰。很多玩法已经出来了，但这不代表它未来有很强的商业化能力，我们还在摸索阶段。目前我们没有看到一个很强的AI原生产品能有很好的商业化表现。” 芦清林告诉记者。

记者了解到，与文本大模型技术路线逐渐收敛至Transformer不同，文生图技术仍在迭代过程，从Stable Diffusion向Diffusion、Transformer融合的技术路线（如DiT）演进，业内公司和产品仍在探索与适应。

或许不得不承认，从大模型智能涌现的闪亮一刻到大模型真正改变世界，这段路上更多的是棘手的工程化和商业化问题，这些具体的问题如何解决，才决定了爆款应用何时到来。

编辑/樊宏伟