北京青年报

2024中关村论坛年会|中文互联网语料库CCI 2.0发布

北京青年报客户端 2024-04-26 21:19

4月26日，在2024中关村论坛年会上，北京智源人工智能研究院副院长兼总工程师林咏华女士发布中文互联网语料库CCI 2.0成果。

从2023年到2024年大模型有了更快的发展，无论从语言模型还是多模态文生视频模型，在训练数据的数据量上都是有了十倍、几十倍甚至上百倍需求的发展。除了需要更多的训练数据，其实我们还需要更高质量的训练数据。

智源人工智能研究院在去年11月底发布了中文互联网语料库CCI1.0，当时的发布是100G一个很高质量的数据集，到今天为止经过四五个月，已经有全球1万多个团队和个人下载使用训练到该模型里。

在北京市网信办、北京市科委、中关村管委会、海淀区政府的共同推动下，智源研究院协同多家数据贡献单位一起推出了CCI2.0，这是一个超过500G的相当高质量的中文文本的数据集，它来源于智源研究院在多年来积累的“悟道”数据集基础上，也来自于全国超过20多家互联网和其他企业的数据贡献上。

“这个数据集实际上经过了一系列数据高质量的去重、清洗、质量过滤，我们也希望随着数据集的发布，我们可以帮助去推动大模型尤其在中文能力上的高质量发展”，林咏华表示，“我们整一个数据集的处理工具，叫FlagData2.0，去年年底完全以开源形式放到了网上，供各个模型企业可以下载做自己的数据处理。”

为了推动大模型在行业落地，也需要行业数据，林咏华介绍：“有一些AI的医疗单位，他们把过去三年积累的病理数据通过很重要的个人信息、敏感信息全部过滤之后，变成了一个高质量的病理图像数据集，这个数据集有近6万个图像，包括一些高质量的标注，我们也希望通过这个病理数据集的开源，来帮助我们大模型进入到AI的医疗影像领域。”

为了推动数据的共建共享，鼓励更多单位、机构、团队一起来做好这件事情，“我们打造了共建共享的机制，也就是说所有数据的贡献单位，我们通过打造一系列的质量评估办法来计算他们贡献的数据集最后有效的高质量的数据的部分，来获得积分，通过积分，这些数据贡献的单位和团队可以在更大的数据池子里面去获得这些高价值数据的免费使用。所以我们希望通过这个来推动更多数据的汇聚和共享”，林咏华介绍，目前平台已经有了超过58个数据集汇聚，这个数据集超过200TB，里面包括文本数据、图文数据甚至视频数据。

“我们希望通过共建共享平台的上线，也推动下一次有更多高质量的数据集可以发布出来，可以推动科研、大模型产业的发展！”林咏华表示。

文/北京青年报记者温婧
编辑/樊宏伟