面向学术服务的预训练模型研究取得进展----中国科学院

面向学术服务的预训练模型研究取得进展

2022-02-22 计算机网络信息中心

【字体：大中小】

语音播报

　　在科研人员异质数据上可迁移预训练模型的研究中，中国科学院计算机网络信息中心大数据部提出了一种基于多任务自监督学习的科研人员数据预训练模型RPT，该模型能有效地迁移到多个科研人员数据挖掘和分析任务，以提高学术服务的质量和智能。相关研究成果发表在IEEE Transactions on Big Data上。

　　随着学术搜索引擎的发展，海量研究者数据的挖掘和分析需求如科研人员关系抽取和专家发现，已变得尤为重要。它可以提高服务质量和学术引擎的智能。现有研究大多集中于针对特定应用场景的单个任务，并学习特定于任务的模型，通常无法迁移到其它任务。预训练技术提供了高效的共享模型思路，可以从大量未标记的数据中获取有价值的信息，并迁移到多种下游挖掘分析任务中。

　　基于此，该研究从模型在异质数据上的泛化能力、可迁移性和可扩展性出发，提出了一种基于多任务自监督学习的科研人员数据预训练模型RPT。具体来说，该模型将科研人员的数据分为语义文档集和社区网络，并设计层次Transformer的语义编码器和基于GNN的局部社区编码器，分别从这两类数据中捕获信息，然后通过三个自监督学习目标来训练整个模型，包含了一个基于对比学习的融合两种信息的主任务，两个辅助任务，即分别用于提取语义和社区信息的分层掩蔽语言模型和社区关系预测模型，以提升细粒度上的预训练水平。RPT有两种迁移模式，用于在不同场景下进行微调。该研究进行了大量实验评估RPT，多个下游任务的结果验证了科研人员数据预训练的有效性。

　　论文链接

图1.针对科研人员异质数据的预训练和微调框架

图2.论文提出的科研人员数据的预训练模型图

打印

责任编辑：阎芳

扫一扫在手机打开当前页

院机关

派驻机构

分院

院属机构

面向学术服务的预训练模型研究取得进展