今年3月,中国日均词元(Token)调用量超过了140万亿,相比2024年初的1000亿增长了1000多倍,相比2025年底的100万亿,三个月时间又增长了40%多。
国家数据局局长刘烈宏24日在国新办发布会上发布了上述数据。词元是大模型处理信息的最小信息单元,具有智能时代可计量、可定价、可交易的特征。当下,围绕词元的调用、分发与结算,一套新的价值体系正在加速演进形成,并成为人工智能产业商业化的重要路径。
刘烈宏表示,日均Token调用量的大量增加,充分表明中国人工智能发展进入了快速增长阶段,产业竞争力显著增强。也标志着数据集的供给大量增加,数据要素的价值不断释放,数据要素赋能人工智能创新发展进入了良性互动的阶段。
今年政府工作报告提出,打造智能经济新形态,深化拓展“人工智能+”。深化数据资源开发利用,健全数据要素基础制度,建设高质量数据集。
数据是智能经济的关键生产要素。今年是“十五五”开局之年,也被国家数据局定为“数据要素价值释放年”。刘烈宏表示,将以更大力度推进数据要素市场化、价值化。加快建立全国统一的数据产权登记制度,抓紧出台建设全国一体化数据市场的政策文件。
高质量数据集赋能人工智能发展
截止到2025年底,全国已建成的高质量数据集超过10万个,总体量超过了890PB,这相当于中国国家图书馆数字资源总量的310倍左右。
“人工智能发展到哪里,我们就把高质量数据集建设到哪里。人工智能+行动到哪里,行业高质量数据集的建设和推广就要到哪里。”刘烈宏说。
针对高质量数据集建设“小和散”的问题,国家数据局会同26个部门组织遴选了72家高质量数据集建设链主单位、140个先行先试工作单位和104个典型案例,构建了链主带动、多方参与、联合攻关、共建共享、合作共赢的高质量数据集建设生态,持续推动高质量数据集的建设。
为推动数据标注产业发展,国家数据局布局了成都、沈阳、合肥、长沙、海口、保定、大同7个承担数据标注先行先试建设任务的城市,出台了《关于促进数据标注产业高质量发展的实施意见》,遴选出47个数据标注优秀案例,指导举办了7次数据标注的供需对接会。
刘烈宏表示,下一步,将持续推进数据赋能人工智能创新发展,协同各方深入实施新一轮的高质量数据集建设行动计划,包括强基扩容、标注攻坚、提质增效、应用赋能、管理服务、价值释放六大专项行动,以场景需求为牵引,加快推进先行先试的工作,打造技术可行、实用便捷、质量保障的AI-Ready(AI就绪度)高质量数据集,实现高质量数据集供给的量质提升。
建设全国一体化数据市场
国家数据局成立两年多来,探索形成了数据要素市场化配置改革“5+3+1”的工作体系。“5”就是指健全数据基础制度,建设和运营数据基础设施,场景培育和数据融合应用,建设全国一体化数据市场,壮大数据产业;“3”是指夯实数据领域核心技术攻关,数据标准化、数字人才培养3个基础;“1”是指数据赋能人工智能创新发展1个重点。
“政策有了,怎么用好是关键。”刘烈宏说,最近正在加大数据产权制度的宣传解读。结合场景,帮助各方明确数据“持有权、使用权、经营权”的具体配置方案,以明晰数据产权,让各类主体敢于供数、放心用数。
刘烈宏表示,下一步,将加快建立全国统一的数据产权登记制度,抓紧出台建设全国一体化数据市场的政策文件,一体推进数据基础制度和数据基础设施建设,破解数据安全合规高效流通的“不可能三角”难题,为数据要素价值释放提供有力保障。
场景培育是推进数据要素市场化、价值化的关键抓手。刘烈宏介绍,近两年,国家数据局联合20余个部门共同推动“数据要素×”行动,激发了全社会“用数”的浓厚氛围。“数据要素×”大赛累计吸引了超过4万支队伍、22万人参赛,挖掘出了302个优秀项目、417个典型案例和760个细分应用场景,为数据赋能千行百业提供了实践范例。下一步,将会同有关部门更大力度培育高价值场景,更好发挥数据要素的乘数效应。
数据要素赋能新型工业化
工业是数据要素价值释放的重要场景。当前以人工智能为代表的新一代信息技术快速发展,正在深度融入制造业的全过程各环节,和算力算法一样,数据日益成为工业的重要生产要素和宝贵的战略资源。
工业和信息化部信息技术发展司司长王彦青在发布会上表示,如何实现数据的高效采集、大规模汇聚以及深层次的应用,成为制造业数字化智能化发展的一个必答题。
近年来,工业和信息化部大力推动“两化”融合,实施工业互联网创新发展工程,加快5G技术在工业和制造业领域的大规模应用,取得了一些显著成效。到2025年年末,重点行业企业的关键工序数控化率达到了68.6%,开发了一批工业的5G专用芯片、模组以及终端产品,过去在工业现场的一些“哑”设备都变成了智能的传感器,这些都为工业海量数据的汇聚应用打下基础。
今年3月,工信部启动工业数据筑基行动,开展面向人工智能赋能的高质量行业数据集建设先行先试,旨在突破工业数据”采”"集""用"瓶颈。
王彦青介绍,这次先行先试有一个显著的特点,是面向人工智能赋能制造业,期望到今年年底能够实现“六个一批”的目标,即培育一批行业数据合作的联合体,汇聚一批行业的数据资源,攻关一批数据的关键技术,研制一批工业数据的标准,打造一批高质量标准化可流通的行业数据集,最终要赋能一批行业大模型和工业智能体的应用落地。
王彦青表示,为做好先行先试的工作,要继续做好三方面的工作:一是要加强支撑保障;二是要强化政策引导,推动出台数据要素赋能新型工业化的政策文件,印发工业场景数据要素应用参考指引;三是要培育良好的生态,加快推动工业数据标准的研制,发展壮大数据咨询、数据治理、数据标注等数据服务企业,支持举办一批技术研讨会、供需对接会等,同时要做强做优人工智能开源社区,打造高质量开源数据资源聚集的高地。
编辑/范辉