中科院自动化所发布国际最大规模多模态同步语言神经影像数据集
北京青年报客户端 2022-10-09 18:44

中科院自动化研究所自然语言处理研究组历时近两年,采集处理完成了目前为止国际上规模最大、包括信息最丰富的汉语同步多模态神经影像数据集,并于近日对外发布,相关论文发表于《自然》子刊《科学数据》上。

图为神经影像实验数据采集流程

大脑在加工语言时,需要实时调动多个脑区的神经元进行协同工作。构建高时空分辨率的神经影像数据可以帮助科学家更好地了解各个脑区以及脑区之间的协同合作,对于研究大脑的语言加工机制至关重要。当前已有的开源数据主要针对英文采集,只包括单一模态的神经影像数据,如高空间分辨率的功能核磁共振或高时间分辨率的脑磁图,并且大多使用1小时以内的实验材料,数据规模有限,无法借助数据需求量大的计算模型进行更全面、更深入的大脑语言加工机制探索。

为突破上述问题,中科院自动化研究所自然语言处理研究组历时近两年,采集处理完成了目前为止国际上规模最大、包括信息最丰富的汉语同步多模态神经影像数据集。该数据集是当前国际上最大规模的用于脑语言处理机制研究的多模态同步神经影像数据集,针对12个被试收听约6个小时故事时的功能核磁共振、脑磁图、每个被试的T1/T2加权结构像、扩散磁共振成像和静息态核磁共振数据采集整理而成。为了便于利用计算模型进行脑语言处理机制的研究,所有故事材料都由人工标注了句法结构树,计算了文本中每个词汇对应的音频时间点、词频以及多种不同字和词汇的向量。所有测试指标均超越或可比于已有的同类数据集,具有充分的质量保证。

该数据集的公开发布可以为全方位研究大脑在真实场景下理解词汇、短语和句子时如何调动不同脑区以及不同脑区之间如何协同工作等科学问题提供重要支撑。特别是,该数据集覆盖了近万个汉语词汇,这不仅对于研究大脑理解汉语的认知机理具有重要意义,而且将在探索自然语言计算模型与人脑语言处理机制之间的关系,研究如何利用神经影像数据提升现有语言计算模型的性能,从而构建新一代受脑启发的神经语言模型等一系列工作中发挥显著作用。

文/北京青年报记者 雷嘉
编辑/叶婉

相关阅读
医学模型能准确诊断双相情感障碍?研究者:至少还要50年
澎湃新闻 2024-08-12
这些中枢神经系统病变,可选择哪些影像学检查?
人卫健康 2024-06-22
发布行动方案!北京将加快打造脑机接口产业创新高地
北京日报客户端 2024-04-26
2024中关村论坛年会|脑机接口提速 未来将如何改变生活?
北京青年报客户端 2024-04-26
将向国内企业和科研团队开放 上海启动人形机器人数据集建设
解放日报 2024-04-16
脑机接口时代正在到来
中国青年报 2024-02-19
国内多个团队宣称完成脑机接口“首例”!专家提醒:应正视国内外差距
第一财经 2024-02-02
马斯克的脑机接口公司完成首例人体试验 称检测到神经元脉冲峰电位
第一财经 2024-01-31
最新评论