首页 > 一线动态

磐石·科学多模态语料库正式开源

2026年01月08日 自动化研究所
【字体:

语音播报

日前,中国科学院自动化研究所正式发布并开源磐石·科学多模态语料库S1-MMAlign 1.0。

S1-MMAlign 1.0是以真实科研语境为基础进行构建,覆盖了超1550万高质量图文对、250万篇科研论文的大规模科学多模态语料库,也是目前国内已知覆盖学科最广、规模最大、结构体系最完善的科学多模态数据资源之一。

语料库覆盖数学、物理、化学、生物、天文、地球科学、医学、工程学、计算机科学等主要学科,系统整理科研图像、标题、正文上下文与图注在内的多层结构化信息。

数据集所涵盖的科研图像横跨多种尺度,从原子能级变化、晶体衍射等微观机制,到材料形貌与生命过程的中尺度结构,再到地球环境与天文观测等宏观现象,构成了科学研究中高度多样化的视觉体系。同时还收录了科研活动不同阶段的典型图文表达。所有数据均来自具有开放获取许可(Open Access)的科研文献数据库及公开发布的期刊会议论文。

研究团队基于多模态大模型体系构建了面向科研语境的自动语义增强机制,并对全部1550万条图注进行了系统化增强解读。该增强策略综合利用引用上下文、摘要背景与原始图注内容,在严格保持图像科学含义的前提下,自动补全并规范化图像细节、关键结构、实验流程、趋势变化与隐含推理关系等信息。

为验证语义增强策略的真实效益,研究团队围绕语言一致性与图文匹配能力进行了系统评测。

在科研文本维度方面,基于SciBERT的pseudo-PPL指标观察到显著下降,同时高困惑度长尾样本也明显减少。困惑度的降低表明增强文本并非趋同化,而是使实验条件、变量指代、科学论述链等关键信息的呈现更加完整、显性,并减少语义缺口。

在图文一致性方面,基于CLIP的语义对齐评测表明,增强后的图文相似度均值提升18.21%,整体分布右移并伴随约27.77% 的方差收缩。说明增强文本能够提供更明确的跨模态关联线索,使图像中的关键结构、变量与实验语义在文本侧得到更稳定的对应表达,从而提升模型在对齐阶段的信号质量与训练稳健性。

人工审核结果进一步验证了评测趋势。在术语使用、实验语义还原度、变量指代准确性、可读性以及图文一致性等五项指标中,增强文本均获得超过90%的正向评价。

目前,磐石·科学多模态语料库已作为核心基础融入“磐石·科学基础大模型”的训练体系,在实验结果理解、科学图像解析、论文辅助阅读与科研流程自动化等典型任务中提供关键数据支撑。

磐石·科学多模态语料库开源地址

打印 责任编辑:吴昊

扫一扫在手机打开当前页

© 1996 - 中国科学院 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002

地址:北京市西城区三里河路52号 邮编:100864

电话: 86 10 68597114(总机) 86 10 68597289(总值班室)