北京青年报

全国政协委员周源：补齐优质中文语料数据短板推动我国大模型产业高质量发展

北京青年报客户端 2024-03-03 19:31

2024年全国两会开幕在即，3月3日，北京青年报记者了解到，今年全国政协委员、知乎创始人兼CEO周源提交了《关于补齐优质中文语料数据短板推动我国大模型产业高质量发展的提案》。他建议，建立数据合规的监管机制和评估办法，加强数据安全和知识产权的保护措施，加快高质量中文数据集的开发与利用。

随着人工智能技术的快速发展，尤其是以GPT为代表的大模型技术的崛起，人工智能已经成为经济社会发展的关键驱动力。中国在大模型方面紧跟国际前沿步伐，截至2023年年底，我国累计发布了200多个人工智能大模型，其中有20多个大模型产品获批向公众提供服务。尽管我国在大模型领域取得了一定的成就，但仍面临着一些挑战，其中最显著的问题之一是高质量中文语料资源的短缺。

据IDC Global DataSphere 2022数据显示，2021-2026年中国数据量规模将由18.51ZB 增长至56.16ZB，年均复合增长率达到24.9%，高于全球平均水平。虽然国内存量数据资源丰富，但由于数据挖掘不足、无法自由在市场上流通等现状，目前中文优质数据仍然稀缺，如ChatGPT训练数据中中文资料比重不足千分之一,而英文资料占比超过92.6%。

周源认为，针对上述问题，首先应当建立数据合规的监管机制和评估办法。大模型训练高度依赖高质量数据，没有好的数据就不可能有好的模型。随着大模型技术的深度发展，建议相关政府部门和监管机构针对数据合规应建立相应的监管机制，推动完善AIGC监管立法，保护和规范人工智能领域的数据合规。对大模型的数据采集来源、处理方法、合规性等进行监督和审查。此外，应加强对大模型的社会影响和风险评估，及时发现和解决可能存在的问题。

其次应加强数据安全和知识产权的保护措施。当前，大模型服务提供者获取训练数据的途径大体可以分为经授权获取数据，如采购第三方数据库等，以及自行收集数据，如通过网络爬虫等技术手段收集数据等。后者情况下，涉及多种知识产权客体，存在侵犯他人享有权益的内容的行为，有较大的法律风险。此外，根据 Epoch AI 人工智能预测组织的研究报告显示，AI 公司可能在 2026 年前耗尽高质量文本训练数据。

因此，建议监管部门和相关机构研究制定相应的管理办法或法律法规，一方面是推动大模型研发机构和企业制定严格的保护政策和行为规范，严厉打击侵权行为发生，确保数据持有方的知识产权和利益得到充分保护；另一方面是制定相应的鼓励和扶持政策，保障拥有丰富高质量数据储备及持续生产能力的企业和社会主体得到整个行业的重视，促进数据要素市场的形成和生产能力的持续发展。

他建议，还应当加快高质量中文数据集的开发与利用。数据作为新型生产要素已经成为驱动全球数字经济的动力引擎，我国数据要素市场起步较晚，标准、权属、交易、商业模式、监管等相关环节还有待完善。

一是要规范数据标注标准。中文数据要素存在数据不完整、标注不一致、数据重复、数据更新等问题，建设标准化、规范化的数据标注方法，有助于加快数据要素的共享、流通与交易。二是要加快探索数据要素交易模式。因缺乏合理的定价机制、明确的供需关系、成熟的商业模式，国产数据集市场影响力及普及度还存在较大差距。由政府引导或相关行业组织牵头构建有利于数据交易模式创新与合规的新秩序，有助于推动数据交易行业有序发展和健康成长。三是要加大政府主导的公共数据资源开放共享。当前，我国已开始全面部署和推行公共数据开放制度，但公共数据开放仍然存在数据开放利用不充分、不协同、不平衡、不可持续等问题，加快构建标准统一、布局合理、管理协同、安全可靠的公共大数据资源体系，有助于大模型训练数据质量提升。

文/北京青年报记者温婧
编辑/田野