主要职责
中国科学院贯彻落实党中央关于科技创新的方针政策和决策部署,在履行职责过程中坚持党中央对科技工作的集中统一领导。主要职责是:
一、开展使命导向的自然科学领域基础研究,承担国家重大基础研究、应用基础研究、前沿交叉共性技术研究和引领性颠覆性技术研究任务,打造原始创新策源地。 更多+
院况简介
中国科学院是国家科学技术界最高学术机构、国家科学技术思想库,自然科学基础研究与高技术综合研究的国家战略科技力量。
1949年,伴随着新中国的诞生,中国科学院成立。建院70余年来,中国科学院时刻牢记使命,与科学共进,与祖国同行,以国家富强、人民幸福为己任,人才辈出,硕果累累,为我国科技进步、经济社会发展和国家安全作出了不可替代的重要贡献。 更多+
院领导集体
科技奖励
科技期刊
科技专项
科研进展/ 更多
工作动态/ 更多
工作动态/ 更多
中国科学院学部
中国科学院院部
语音播报
细胞类型的精准识别是单细胞转录组学分析的基础,而发现细胞类型特异性的标记基因是实现这一目标的关键。传统方法多依赖统计阈值或聚类启发式策略,易受数据噪声、注释偏差及基因高表达但非特异性等问题的干扰。
近日,中国科学院广州生物医药与健康研究院科研团队基于可解释神经网络框架,提出了scMarkerGene模型。该模型通过构建“贡献分数矩阵”,将神经网络模型中每个基因对细胞类型判别的影响量化为可解释的贡献值,并结合集成学习与特异性过滤策略,实现了对不同物种、不同测序技术、不同细胞群体规模及高稀疏性数据的稳健标记基因识别。
scMarkerGene的工作流程主要包括两个步骤。第一步是贡献分数计算。基于多层感知机构建分类模型,通过集成多个超参数扰动训练得到的模型,利用DeepLIFT解释方法计算每个基因对细胞类型判别的贡献分数,并经过统计检验筛选出候选标记基因。第二步是特异性筛选与重排序。在候选基因基础上,结合基因的均值表达、中位数表达及检出率,构建“marker评分”,并与轮廓系数加权后对基因进行重排序,最终输出高特异性的细胞类型标记基因。
研究团队在10个公开的单细胞RNA测序数据集上对scMarkerGene进行了系统评估,涵盖拟南芥、果蝇、小鼠、人类等多个物种及多种测序平台。结果表明,这一模型在log2FC、标准化Z-score等指标上均优于scanpy、scMAGs、SMaSH、scVI等现有方法。在模拟数据实验中,scMarkerGene识别高特异性标记基因,明显领先其他方法,并可有效滤除非特异性基因。在引入不同比例的随机丢失噪声后,scMarkerGene依然保持高鲁棒性,而同类方法SMaSH的性能则明显下降。在骨类器官数据集中,scMarkerGene在粗粒度与细粒度细胞类型上均能稳定识别高特异性标记基因,尤其在样本量不足100个细胞的小群体中仍保持最高log2FC,展现出对罕见细胞群体的强大适应性。
团队进一步在空间转录组与拟时间序列分析中发现,scMarkerGene识别出的标记基因在10X Visium小鼠脑组织及人黑色素瘤数据中均展现出清晰的空间定位特征;在BEELINE基准数据中,其在不同离散时间状态下预测的标记基因也均取得较高的log2FC值。
scMarkerGene区别传统方法依赖表达均值差异检验的方式,以判别函数为核心,以贡献分数为统一度量,建立起基因贡献分数与分类决策边界敏感度之间的数学联系,推动标记基因筛选从“统计描述”走向“机制解析”,为从复杂单细胞数据中解析细胞身份提供了可靠方法。
相关研究成果发表在Briefings in Bioinformatics上。研究工作得到国家重点研发计划等的支持。

scMarkerGene工作流程
扫一扫在手机打开当前页
© 1996 - 中国科学院 版权所有 京ICP备05002857号-1
京公网安备110402500047号 网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话: 86 10 68597114(总机) 86 10 68597289(总值班室)








