主要职责
中国科学院贯彻落实党中央关于科技创新的方针政策和决策部署,在履行职责过程中坚持党中央对科技工作的集中统一领导。主要职责是:
一、开展使命导向的自然科学领域基础研究,承担国家重大基础研究、应用基础研究、前沿交叉共性技术研究和引领性颠覆性技术研究任务,打造原始创新策源地。 更多+
院况简介
中国科学院是国家科学技术界最高学术机构、国家科学技术思想库,自然科学基础研究与高技术综合研究的国家战略科技力量。
1949年,伴随着新中国的诞生,中国科学院成立。建院70余年来,中国科学院时刻牢记使命,与科学共进,与祖国同行,以国家富强、人民幸福为己任,人才辈出,硕果累累,为我国科技进步、经济社会发展和国家安全作出了不可替代的重要贡献。 更多+
院领导集体
科技奖励
科技期刊
科技专项
科研进展/ 更多
工作动态/ 更多
工作动态/ 更多
中国科学院学部
中国科学院院部
语音播报
在科研人员异质数据上可迁移预训练模型的研究中,中国科学院计算机网络信息中心大数据部提出了一种基于多任务自监督学习的科研人员数据预训练模型RPT,该模型能有效地迁移到多个科研人员数据挖掘和分析任务,以提高学术服务的质量和智能。相关研究成果发表在IEEE Transactions on Big Data上。
随着学术搜索引擎的发展,海量研究者数据的挖掘和分析需求如科研人员关系抽取和专家发现,已变得尤为重要。它可以提高服务质量和学术引擎的智能。现有研究大多集中于针对特定应用场景的单个任务,并学习特定于任务的模型,通常无法迁移到其它任务。预训练技术提供了高效的共享模型思路,可以从大量未标记的数据中获取有价值的信息,并迁移到多种下游挖掘分析任务中。
基于此,该研究从模型在异质数据上的泛化能力、可迁移性和可扩展性出发,提出了一种基于多任务自监督学习的科研人员数据预训练模型RPT。具体来说,该模型将科研人员的数据分为语义文档集和社区网络,并设计层次Transformer的语义编码器和基于GNN的局部社区编码器,分别从这两类数据中捕获信息,然后通过三个自监督学习目标来训练整个模型,包含了一个基于对比学习的融合两种信息的主任务,两个辅助任务,即分别用于提取语义和社区信息的分层掩蔽语言模型和社区关系预测模型,以提升细粒度上的预训练水平。RPT有两种迁移模式,用于在不同场景下进行微调。该研究进行了大量实验评估RPT,多个下游任务的结果验证了科研人员数据预训练的有效性。

图1.针对科研人员异质数据的预训练和微调框架

图2.论文提出的科研人员数据的预训练模型图
扫一扫在手机打开当前页
© 1996 - 中国科学院 版权所有 京ICP备05002857号-1
京公网安备110402500047号 网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话: 86 10 68597114(总机) 86 10 68597289(总值班室)








