全世界数十位科学精英聚集在一起,拍下了一张合影。他们宣布:人类基因组国际单体型图(HapMap)计划完成了。中国科学院、中国工程院立即将其评选为2005年世界十大科技进展之一。为什么这张图能引起中国科学家的高度关注?为什么全世界科学家要用3年时间绘制它?负责该计划“中国卷”的曾长青研究员说,绘制HapMap就是为了注释3年前完成的人类基因组框架图这部人类遗传学“天书”,找出常见变异位点的分布规律并为DNA序列的多态性贴上标签,这对人类研究自身健康意义非凡。
每个人身上都携带着祖先留下的基因。
2002年“国际人类基因组测序计划”的完成及其相继研究发现,人作为一个物种在DNA序列中仅有1‰不同,但因此却造成了黑、黄、白不同人种及高矮胖瘦、疾病易感等千差万别。人类基因组测序图绘制完成的同时还发现了基因组中的大量序列变异和多态性,这些发现随即成为生命科学新的研究热点。
寻找人类起源和疾病的工具图
当记者在中国科学院北京基因研究所找到科研部长曾长青研究员时,惊讶地发现,这位HapMap计划“中国卷”的总协调竟然是位40多岁的女士。一间不足10平方米的办公室里,一张写字台、一台电脑、一张兼做床铺的长沙发,就是她驰骋基因王国,与世界顶级大科学家对话的“司令部”。
“其实,这份人类基因组单体型图就是后续研究的工具箱和数据库,给寻找致病相关基因的人提供了一个群体遗传学参照体系。”曾长青简洁概述全世界科学家3年的辛勤劳动,“学过数学的人都知道,利用数学用表可以轻松地查出很多难以计算的数值,比如开方、正余切、正余弦值之类。人类基因组单体型图相当于一份人类遗传变异研究的‘遗传用表’,尽管不能直接确定疾病相关基因,但单核苷酸多态性(SNP)广泛分布于人类全基因组,最大限度地代表了不同个体之间的遗传差异,是研究复杂疾病、药物敏感性及人类进化的重要标记。研究人员通过SNP排列注明差异‘标签’,就可以更高效地寻找与疾病相关的基因变异,例如将患者的单体型与健康人(对照)的单体型相比较,某一种单体型在患者中经常出现,影响该疾病的基因可能就存在于这个单体型内部或附近。”
曾长青研究员告诉记者,现代人群的大多数变异都来自于在祖先中就已经存在的多态性。随着人类迁移至世界各地,由于随机性、自然选择和其他的遗传机制,各个地区的单体型频率甚至类型变得不同。只有阐明DNA序列的差异以及基因组的多态性,才能深入准确地了解人类起源、进化和迁徙过程中的DNA序列变化,也才能真正了解与疾病特别是多基因疾病有关的遗传机制。
上世纪末,在国际人类基因组草图尚未完成时,许多科研机构和制药公司就已瞄准这一领域,斥巨资研究SNP,以求发现基因中的变异位点,更多地了解疾病的起因以及预防、诊断和治疗的方法。但如果对每一个群体或个体的研究项目都要对每一个SNP位点进行检测、鉴定,费用将昂贵得惊人。因此,国际人类基因组计划协作组在人类基因组图绘制完成后,及时提出了人类基因组研究的第二个战略任务:再次以多国分担合作的形式,共同构建整合人类全基因组遗传与变异信息的单体型图,旨在惠及全球的生命科学基因组学研究,致力于克服人类常见疾病的医学研究。
最穷的团队担起了“中国卷”绘制工作
HapMap计划启动于2002年10月29日,由加拿大、日本、尼日利亚、中国、英国和美国六国11个研究中心的科学家共同承担。其中,美国完成31%,日本完成25%,英国完成24%,加拿大完成10%,中国完成10%的任务。此外,亚、非、欧裔各提供90份样本。除了上世纪80年代在美国采集的欧裔样本,亚裔样本由中国和日本各提供一半,非裔样本由尼日利亚提供。全部血样品送到美国国立卫生院下属的人类遗传细胞存储中心,转化成细胞株后统一提取成DNA分送至各参加中心进行SNP分型检定。
中国承担的具体研究任务是3号、21号和8号染色体短臂单体型图的绘制,以及提供45份亚裔样品。该计划“中国卷”的实施得到科技部、中国科学院、香港创新科技署和香港大学教育资助委员会的高度重视,2002年列入科技部“十五”国家重大科技攻关项目,拨款5000万元。同时香港特区政府对参与HapMap“中国卷”的三所香港大学给予资助。2003年3月,中华单体型图协作组在北京成立。
中科院北京基因组研究所所长杨焕明博士任主席。从美国得州大学休斯敦医学院回国,在基因组研究所担任SNP研究项目的首席科学家及科研部部长的曾长青博士被委以重任,负责国际“人类基因组单体型图”计划的“中国卷”的实施与协调。中科院北京基因组研究所负责3号染色体的大部分及8号染色体短臂,约占整个基因组长度的6%。香港小组的港大平台负责3号染色体短臂的70兆碱基对的一段区域,约占整个基因组的25%。国家人类基因组南方中心负责21号染色体的HapMap构建,占整个基因组的11%。
这是一个艰难的起步,当时国内没有建立可进行高通量SNP分型,具有高精确度和敏感度的研究平台。曾长青说,中国团队在北京、香港和上海三地的SNP分型平台都是从采购设备起步的。不久北京遭遇了SARS,采购的新设备不能及时到位安装。与其他已经具备的完善设施和丰富经验的参与中心相比,中国团队的SNP分型工作在时间上比国际伙伴们几乎落后一年。更严峻的还有资金不足问题,中国团队特别是北京中心在所有国际参加者中最穷,他们面临时间紧迫和资金短缺的巨大压力。
起步最晚的中国人后来居上
科学的舞台是合作的舞台,更是竞争的舞台。为了追回失去的时间,中国团队开始了一场苦战。一方面,在科学策略上,他们把握多态位点的选取和分型战略,尽量减少对未经验证的SNP位点的使用,同时进行高通量平台的优化条件摸索,使成功率达到最大潜力,将反应成本降低至最小。另一方面,科研人员放弃了两年多的所有长短假期,让仪器24小时运转。曾长青形容当时的紧张程度,“在购买设备时厂家代表曾自信地说他们质谱仪中的激光管能用几千万次,够我们用一辈子。结果不到一年激光管‘爆’了,厂家不好意思地给我们换了一个新的”。
曾长青很感慨,在那段岁月,北京基因组研究所与HapMap有关的所有实验室和办公室都兼有宿舍的功能,很多研究人员就吃住在办公室,为了国家的利益,有的很有才华的研究生放弃了去国外深造的优厚奖学金。不知多少个夜晚,她就是在那张沙发上度过的。至今令她无法释怀的是,正在工作最吃紧的时候,从小将她带大的大姑在沈阳因病去世。她说:“在美国期间每次回国尚能绕道前去探访,这次近在咫尺却无法为她送终。”
在严格执行捐献者个人的知情与同意基础上,2003年9月,中国科研人员三次在北京师范大学汉族大学生中收集了180份健康血样标本,率先完成了国际协作组要求的样品采集工作。随后的进展很顺利,中国送去国际HapMap计划统一存储处的样品不但全部成功转化,而且在遵守伦理学规范与法规、综合国情特点和全程透明操作等方面,赢得了国际同行的一致好评。
2004年夏天,我国的研究赶上了国际合作中的基本进度,同年秋天超过中游,整个2004年完成了近1600万份反应数据。2005年4个月内,则完成SNP分型数据1800多万个。3年中,中国团队就自己负责的染色体区域向国际数据协调中心递交了通过国际数据质量控制体系检验的34,713,312个分型数据,基因组分型密度达到365千碱基对。国际方面的质量控制实验结果表明,中国上交的数据准确率超过9995%,特别是在HapMap计划后期,中国团队在所有分型中心中第一个完成全部补洞任务。在中国人样本取样分析中,除了已经使用的45份样品,其他提交的样品也都转化为永久细胞株,为HapMap计划的后期研究和其他遗传相关研究提供样品。为中华民族的遗传多态研究,特别是疾病相关的多态性研究提供了一笔无价的财富。
拿着“基因”就医将不再遥远
2005年10月26日,历时3年,总投资超过14亿美元的人类基因组单体型图在美国宣布绘制完毕。科学家共搜集了269名志愿者的全基因组信息,针对100多万个常见SNP位点进行了分型检测,标定了单体型“模块”在DNA链上的“边界”,并推算出代表常见单体型的标签SNP位点,在群体规模上整合了人类遗传多态信息。
国际HapMap计划可以看作是人类基因组计划的续集。在全基因组规模上,科学家通过对亚、欧、非裔269个DNA样品,在全基因组范围进行高密度大规模的SNP分型鉴定,确立人类DNA序列上多态位点的主要群体分布模式和公共数据库,并且通过分析常见遗传多态位点的相互关系,在全基因组范围揭示SNP位点的连锁遗传规律或相关性;绘制以单条染色体为单位的多态位点在人群中常见的遗传图谱。
曾长青说,尽管人类单基因病已经发现上千种,但这些疾病在人群中发病频率很低。常见的癌症、中风、心脏病、糖尿病、自体免疫疾病、忧郁症和哮喘等疾病都是多个基因上的变异位点与环境因子共同作用的结果。实际上,单个基因上的变异对疾病的作用是微效的,导致疾病易感性的是多基因SNP的联合作用。根据“常见疾病-常见变异”的假说,罹患常见疾病的风险受到人群中相对常见的遗传变异的影响。目前越来越多与常见疾病相关的遗传变异的多态位点正在被发现,对这些SNPs及其单体型的认识,将使人类最终揭示复杂性疾病的遗传基础。
“这一重大国际项目的完成,将大大提高未来规模化基因组分析的效率,最终惠及医学遗传学研究。”曾长青说,“找到常见复杂性疾病的易感基因及其药物敏感性的相关基因,为群体遗传多样性研究提供设计及分析的基本数据和运算方法;提供分子遗传的数据基础,就能够帮助人们找到肿瘤、高血压、精神性疾病等复杂性疾病的致病基因。在了解这些基因是如何导致疾病之后,研究人员就能设计出更好的预防、诊断和治疗疾病的方法,同时研发出疗效更好的药物。”
此外,HapMap还将产生目前难以完全预料的影响,如改变现在的就医模式,将来患者可以手持装着自己基因信息的光盘就医,医生可以据此对患者从遗传构成上实现个体化医疗,从而得到最好的效果并将副作用降至最低;与长寿和抗病能力有关的遗传变异被确定,将产生具有广泛益处的新疗法;对于常见疾病和涉及多个基因、与遗传和环境都有关系的复杂疾病,科学家可以根据HapMap排查出其可能存在差异的位点,总结出其中的遗传规律,达到预测、预警、诊断、治疗的目的。
希望更多人看懂“天书”
HapMap计划完成后,曾长青本该大大地放松一下了,但是她依然没有从紧张中解脱出来。集中整理已经取得的结果,完成文章发表和人才培养;分析、利用产生的数据进行基因组结构及各族裔与中华民族遗传多样性及其疾病相关研究等都是摆在她眼前的工作。曾长青说,眼下最令她兴奋的是开会,听同事们介绍工作进展。“争论问题比看外国大片还过瘾。”
“国际人类基因组单体型图真是个金矿。”曾长青有些激动地说,“很多遗传学、医学都可以在这张遗传基因用表上继续深入,获得数据和思路。”
例如,对同一人群间和不同人群间的遗传多态和单体型的信息进行比较,探查基因的产物即RNA和蛋白质的量和形态的不同,比如DNA的生物学特性、新的遗传多态性的产生、人群的遗传历史以及世界上不同地区人群之间的联系等。从研究理论到分析方法与分型技术,HapMap促进了群体遗传学在分子水平的研究和生物信息学的发展,还推动基因组、蛋白质组、转录组等各个“组学”多系统生物学的研究进展,从而涵盖基础科学和应用科学的领域研究。
但目前令曾长青苦恼的是,很多从事生物医学研究的人还不知怎么进入这座“金矿”寻宝。她告诉记者,近日有专家问她:“这张图怎么用啊?”所以,曾长青决定今年要开设相关学习班,不但把人们带到这座巨大的数据库前,还要为研究者架起步入“天书”的“云梯”,让其他研究者熟悉HapMap,读懂并学会利用HapMap,推动中国的生命科学研究。
曾长青特别指出,人类基因组的国际HapMap计划因其巨大的公益性、广泛的合作性、学科的先进性而举世瞩目。其实打开这个金矿的“密码”很简单,就是在电脑上点击http://wwwhapmaporg,就可以登录这个海量的遗传多态数据库,免费获取所需数据。遗憾的是,至今来自中国的点击还不多,但中国的研究者已经开始积极使用HapMap的数据库和相关软件算法。
据悉,自2003年11月此网站开通以来至2005年10月,HapMap数据库已被来自100多个国家的研究者访问,次数高达50万次以上。目前此网站每月静态网页访问次数超过3万次,其中半数为大批量的数据下载。此外,每月利用HapMapbrowser进行数据互动访问的次数超过10万次。
从1%国际人类基因组测序项目到HapMap计划的10%,中国科学家在基因组学领域站到了世界科学前沿。HapMap的“中国卷”从目标到技术路线完成了与国际接轨,从遗传统计和关联分析研究原理,到SNP分型反应的设计与运作构成了可互为补充的大型高度低成本SNP分型平台。
更重要的是,没有中国的这一参与,就谈不上在这个全球范围基因组研究计划中使用汉族样品。中国通过10%的贡献,使这一巨大的遗传多态数据库中含有1/6的汉族信息,这将为中华民族的遗传多态,特别是重大疾病研究提供重要基本数据,极大地促进我国在这一领域的学科发展。目前曾长青等人的课题组已经开始与中国医科院等多家单位开展临床合作,研究肺癌、心血管病等遗传规律。
曾长青欣慰地说:“HapMap数据无疑会为人们了解常见疾病和人类基因之间的关系做出贡献。”
相关链接
什么是单核苷酸多态性(SNP)、等位点(allele)和基因分型
在基因组中,不同个体在DNA序列上同一位置的单个碱基的差异被称作单核苷酸多态性(SNP)。例如,某些人的染色体上某个位置的碱基是A,而另一些人的染色体相同位置上的碱基则是G。同一位置上的每个碱基类型叫做一个等位点。
除性染色体外,每个人体内的染色体都有两份。一个人所拥有的一对等位点的类型被称作基因型(genotype)。基因型这一名称既可以指个体的某个SNP的等位点,也可以指基因组中很多SNPs的等位点。检定一个人的基因型,被称作基因分型(genotyping)或SNP分型。
什么是单体型
人类的所有群体中大约存在1000万个SNP位点,其中稀有的SNP位点的频率至少有1%。相邻SNPs的等位点倾向于以一个整体遗传给后代。位于染色体上某一区域的一组相关联的SNP位点被称作单体型(haplotype)。大多数染色体区域只有少数几个常见的单体型(每个具有至少5%的频率),它们代表了一个群体中人与人之间的大部分多态性。一个染色体区域可以有很多SNP位点,但是只用少数几个标签SNPs,就能够提供该区域内大多数的遗传多态模式。
单体型图描述了人类常见的遗传多态模式。它包括染色体上具有成组紧密关联SNPs的区域,这些区域中的单体型以及这些单体型的标签SNPs。同时,单体型图还将标示出那些SNP位点关联不紧密的区域。
刊登:《健康报》2006年2月22日第七版