首页 > 每日科学

超十万种新病毒藏身旧基因数据

2022-01-28 中国科学报 文乐乐
【字体:

语音播报

  现实告诉人们,仅仅一种病毒就能使世界经济陷入瘫痪,导致数百万人死亡。而病毒学家估计,目前仍存在数万亿种未知病毒,其中许多是致命的,可能引发下一次疫情大流行。

  最近,通过对数量空前的现有基因组数据进行筛选,科学家发现了10万多种新病毒,其中包括9种冠状病毒和300多种与丁型肝炎病毒(可导致肝衰竭)有关的病毒。日前,相关成果发表于《自然》。

  2020年初,加拿大计算生物学家Artem Babaian想知道,除了引发新冠肺炎疫情的病毒之外,现有的基因组数据库中还有多少种冠状病毒。因此,他和超级计算机专家Jeff Taylor搜集了云基因组数据。这些数据被存储在全球序列数据库中,由美国国立卫生研究院研究所上传。截至目前,该数据库包含了16拍字节的存档序列。

  为了筛选大量数据,Babaian和Taylor设计了一套专门用于搜索云数据的计算机工具。该方法速度足够快,每天可以处理100万个数据集,每个数据集的计算成本不到1美分。他们最终发现了近13.2万个RNA病毒的部分基因组。

  新数据库并没有每种新病毒的完整序列,但研究人员可以利用部分序列来构建家谱,从而揭示不同病毒之间的关系,以及它们是如何进化的。他们还可以利用数据库找出特定病毒的发现地点和宿主。

  “我们已经把这个数据库变成了一个巨大的病毒监控网络。”Babaian说。团队已经创建了一个公共存储库,存储开发的工具及相应结果,以方便其他人使用。

  相关论文信息:https://doi.org/10.1038/s41586-021-04332-2

打印 责任编辑:阎芳

扫一扫在手机打开当前页

© 1996 - 中国科学院 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002

地址:北京市西城区三里河路52号 邮编:100864

电话: 86 10 68597114(总机) 86 10 68597289(总值班室)