北京青年报

数据要素很重要缘何数据赛道却静悄悄

北京青年报客户端 2023-07-20 10:27

最近，关于大模型的政策与措施密集出台，好消息不断传来。7月13日，国家网信办等七部门联合发布了《生成式人工智能服务管理暂行办法》，鼓励生成式人工智能技术在各行业、各领域的创新应用；而就在消息发布前的一周，上海人工智能实验室正式开源了“书生·浦语”大模型70亿参数轻量级版本InternLM-7B，支持免费商用，基于这一基座模型，各企业与研究机构可以开发打造各自垂直领域的大模型。

这些政策措施，体现了国家促进生成式人工智能健康发展和规范应用的态度，也给行业大模型加速应用带来了更多的确定性。采访过程中，几乎每个采访对象都向记者表示，行业大模型浪潮下，数据直接决定行业大模型的专业度与精准度，重要性正不断凸显。

这样的论断似乎成了一种“行业正确”，可一个问题却始终萦绕在记者心头：都说数据、算力、算法是人工智能的三大基础要素，为何算力赛道如此喧嚣，芯片、服务器、光模块等市场热点层出不穷，数据赛道却显得有些“尴尬”和不温不火？

事实上，这也是业内许多人士的相同感受。综合来看，背后的原因与数据产品的特殊性、目前数据交易市场的不成熟等多重因素有关。

就数据产品本身而言，其“非标准化”和“难以通用”的特性，决定了数据产品很难在市场上形成统一和“公允”的价值。算力要素中的基础硬件往往是明码标价的“硬通货”，芯片、服务器等成本均可以计算，能够在不同的行业大模型研发中通用，市场价值较易体现。可是数据价值需在特定的场景中实现，数据的规模、质量也无法统一衡量。大量细碎、非标准、定制化的场景应用，让数据产品难以实现大规模流转。

就数据交易市场而言，目前我国在数据合规确权、计量估价、协调分配、安全隐私保护等方面的基础性难题仍待破解，尤其是在数据确权方面，还没有形成明确的规范。对于行业大模型而言，数据具有私域属性，有一定的获取壁垒，在安全和隐私性上面有更高的要求。一直以来，数据源违规收集、个人隐私泄露等安全风险是各国监管机构对生成式人工智能的最大顾虑，也是影响大模型落地的最大不确定性因素之一。在基础性制度和规则尚未明确的情况下，数据交易和数据服务也面临种种限制和障碍。

不过，随着大模型在各个领域的应用不断走深，行业内对高质量数据集的“饥渴”将促进数据产业链的整体发展，相关方面也已经积极行动起来。工信部电子第五研究所副所长王蕴辉介绍，目前所里已经联合产业侧成立了“大模型产业应用工作组”，从加速数据要素市场化、完善数据要素安全治理体系等方面引导并规范行业发展。在大模型商业化应用需求的刺激带动下，数据生态系统建设有望加快，数据要素市场也或将迎来长足的繁荣。

编辑/范辉