English | 繁体 | RSS | 网站地图 | 收藏 | 邮箱 | 联系我们
首页 新闻 机构 科研 院士 人才 教育 合作交流 科学普及 出版 信息公开 专题 访谈 视频 会议 党建 文化
  您现在的位置: 首页 > 专题 > 旧专题 > 创新专题 > 信息化工作动态 > 2008年第2期(总第三期) > 前沿动态
国际科学数据中心概述
  文章来源:中国科学院计算机网络信息中心 发布时间:2008-06-02 【字号: 小  中  大   

    一、引言

    通过传感器、试验、模拟等手段,现代科学数据的规模和复杂度呈指数级增长。数据库、存储技术、分析技术的发展,使得海量数据能够长期保存、有效管理和重复利用,科学与工程研究日益成为数据密集型的工作。传统上,科学数据被保存在纸面记录,自20世纪70年代开始人们已普遍使用计算机技术获取、管理和归档科学数据,90年代末以来,建立数据获取、评估和分发的数据中心在科学领域得到广泛、迅速发展。2001年后,网络技术成为科学数据发布的基本工具,基于网络数据库、数据网格技术科学数据中心获得迅速发展。

    现代科学数据的整理维护呈现出跨越学科领域、数据性质、数据集规模等特征,通过跨地域、跨机构和跨专业的大规模数据交换与合作,科学数据资源逐步趋向聚集并形成一些大型科学数据集,特别在数据密集型的科学、工程领域建立了重要的科学数据中心,为科学数据的长期保存、重复利用和驱动创新发挥中枢神经作用。在信息时代,数字化形式的科学数据、信息内容及其软件已构成为科学探索的重要基础,科学数据纳入信息化科研环境的基础设施范畴已经成为共识。

    2005年9月,美国国家科学理事会发布了《长生命周期的数字化数据库:21 世纪科研与教育的必备基础》研究报告,指出科学数据成为未来科研、教育模式创新的变革中心,必须予以长期保存和维护。2007 年3 月,美国国家科学基金发布《面向21 世纪科学研究的信息化基础设施》发展规划,明确了可持续发展的信息化基础设施(Cyberinfrastructure)的概念,并指出“在未来,美国科学和工程上的国际领先地位将越来越取决于在数字化科学数据的优势上,取决于通过成熟的数据挖掘、集成、分析和可视化工具将其转换为信息和知识的能力”。据此,2007年10月正式征集科学数据持续化保存与共享网络伙伴计划DataNet项目方案,将在未来5年来投入1亿美元、单个项目最高2千万美元推动科学数据的长期、整合建设与服务。2007年3月,英国科学与创新办公室(OSI)发布了《发展英国科研与创新信息化基础设施》研究报告,提出数据资源数字化长期保存与共享建设规划,重点要建立大规模的国家科学数据中心。澳大利亚政府确定从2008年开始建立国家科学数据服务网络(ANDS)全面整合全国数据资源,实现数据长期保存和共享利用。

    本文概览国际上知名的科学数据中心,并对科学数据中心的发展和服务做简要分析。

    二、国际上典型的科学数据中心

    (一)美国国家航空航天局(NASA)空间科学数据中心

    NASA与科学数据相关的机构主要是空间科学数据运行办公室,该机构下设有美国国家空间科学数据中心(NSSDC)和空间物理学数据运行中心(SPDF),数据资源集中在天文和空间科学领域,数据主要来自于NASA的空间飞行计划。

    ● NSSDC负责NASA数据永久存档,提供天体物理学、空间物理学等数据。SPDF主要负责多任务和多学科的数据服务的设计和实现。

    ● 1990年开始建立“分布式最活跃数据档案中心群”(DAACs),促进数据共享。

    ● NASA建立了海量存储和可视化环境,目前拥有超过1PB磁盘存储容量和10PB磁带存储容量。

    与此类似,美国国家海洋与大气管理局(NOAA)、国家地质调查局(USGS)、能源部(DOE)和环保局等国家机构,也系统地整理维护了机构本身产出的科学数据资源,建立了相应的庞大的科学数据中心。

    (二)英国剑桥晶体结构数据中心(CCDC)

    CCDC(Cambridge Crystallographic Data Center)最早是由一个从事结晶学研究的工作组发展而来的。从1965年开始,该工作组开始收集基于X射线和中子衍射实验所得到的化学和晶体结构数据,1989年CCDC成为一个独立机构。

    ● 剑桥晶体数据库CSD是全球最大的晶体结构数据库,每年大约增加一万个化合物。

    ● Isostar是面向分子设计的数据库,是研究物质间相互作用的有力工具。

    ● 提供CSD System数据库软件,以及SuperStar、ConQuest等数据处理应用软件。

    CCDC是一个非盈利的科研组织,它的大部分经费来源于各种资助,由出租CSDS收回的资金仅占全部费用的一小部分。

    (三)日本筑波尖端情报计算中心(TACC)

    TACC成立于1981年,2001年并入日本国立产业技术综合研究所(AIST)。负责向AIST所有科研机构提供技术支撑,包括提供网络、计算能力以及数据库开发和运行服务。

    ● 数据资源涉及测量、材料、地学、化学、能源、生物、信息、标准等多个学科领域。

    ● 科研数据公开数据库(RIO-DB)拥有70个主题数据库,数据来源于AIST各机构的科研项目,数据整理工作由AIST各研究机构完成。

    ● 全部数据库通过网络提供免费服务,服务于科研机构,也服务于一般企业工业。

    (四)美国国家生物技术信息中心(NCBI)

    NCBI自1988年建立,是美国国家卫生研究院(NIH)医学图书馆下的一个机构,主要任务是建立关于分子生物学、生物化学和遗传学的数据库和数据分析系统,推动生物信息学领域数据库和数据分析软件的使用,开展计算机生物信息处理先进方法的研究。

    ● 数据资源集中在分子生物学领域。数据主要来源于两部分,美国各实验室提交的基因序列数据和同国际上的基因数据库交换的数据。

    ● 开发了GenBank等十余个核酸、基因系列数据库,提供超过3200个物种基因资源。

    ● 建立生物活性小分子数据库PubChem,链接分子筛选数据和医学领域的数据,如PubMed、MeSH等。

    NCBI提供数据资源网络共享,主要是通过NCBI开发的一系列工具和软件实现的,如基因序列注册软件BankIt,数据搜索软件Entrez,基因序列比对分析软件BLAST等。

    (五)美国国家大气研究中心(NCAR)研究数据归档中心

    美国国家大气研究中心始建于1960年,是大气及相关科学问题的研究中心,面向全美科学家、教师和学生提供网络数据共享。

    ● 数据资源集中在大气科学领域。主要有大气分析格点资料、卫星资料、长年代的气候资料、海洋资料等。

    ● 目前有400多个观测和分析资料的数据集,并将持续增加。

    ● 海量存储环境MSS容量达300TB,并建有4TB的CACHE硬盘。重要数据还在美国圣地亚哥超级计算机中心(SDSC)建有备份。

    NCAR运行经费主要来源于NSF资助和其他政府部门的项目经费。NCAR超级计算和海量存贮的每2-3年运行经费约为1500万美元。

    (六)美国圣地亚哥超级计算机中心(SDSC)

    圣地亚哥超级计算机中心由美国国家自然科学基金于1985 年投资1.75亿美元建立,既拥有高性能计算资源,也拥有海量的科学数据资源并提供数据服务。

    ● 数据资源涵盖海洋、地理、生物、物理、化学等多个学科领域。数据集主要来自SDSC参与或服务的113个研究项目多年的观察、计算分析所得到的数据。

    ● 目前,拥有约60个公共的和专有的数据集,数据量已达3PB。例如,蛋白质数据库PDB、神经科学数据库BIRN等。

    ● 作为一个国家级数据存储环境,目前拥有的总存储能力约20PB(超过1PB磁盘和超过18PB磁带),这是其数据存储、托管服务的基础。

    ● SDSC数据中心存储的数据主要服务于数据密集型计算的应用,研发了丰富的软件资源,包括生物信息学、芯片设计、量子化学等,用于数据的计算分析和可视化等。

    SDSC的经费主要来源于美国国家科学基金、加州政府、加利福利亚州立大学以及美国其他政府机构。类似的,美国国家超级计算应用中心(NCSA)等也构建了PB规模的数据中心,服务于大型科学工程(如长期生态研究网络LTER)。

    三、国际科学数据中心运行与服务模式

    随着信息技术的进步和科技集成、跨越式创新发展,对科学数据资源的共享利用提出了迫切需求。政府和国家相关机构作为科学数据发展的主要推动者、资助者和利益协调者,近年来不断通过项目导向、政策导向和学术导向推动科学数据资源趋向聚集,逐步把大量的科研资金产出的分散的数据牵引到相关的数据中心,系统地支持了科学数据中心的建设。

    首先,依托相关科研机构建立国家数据中心,将政府部门的观测、探测科学数据、经常性科研工程项目数据系统地纳入国家数据中心,提供公众共享及科研应用。美国是世界上对科学数据资源管理最早介入的国家,90年代以来美国政府逐步在国家层面上构建数据共享的框架,例如1990年美国国会正式批准全球变化研究计划(GCRP),首先由美国国家航空航天局启动“分布式、最活跃数据档案中心群”项目,建设一批国家级数据中心。GCRP首次明确提出“完全与开放”(Full and Open)原则的数据政策,指出数据应尽可能以低廉的价格提供给用户,收费标准不得高于数据复制和邮寄所发生的费用。利用政府部门的投资,美国建立起了庞大的科学数据中心体系,包括13个学科性的世界数据中心和9个国家数据中心,以及庞大的分布在各政府部门、学术机构的专业数据库群。

    其次,通过出台国家、部门的科学数据政策法规,结合科技布局和配套科研项目促使广泛的科研数据纳入数据中心统一归档整理。1999年的美国信息自由法修订案,明确地把政府资助的信息定义扩展到美国的科研数据与信息,据此,联邦政府各级科研机构制订了相关的数据政策,如NIH、NSF、DOE等。2002年NIH公布了要求共享研究数据的数据政策,对全球科研产生了深远影响。国家生物技术信息中心接受NIH资助项目的筛选数据、科研数据,并向公众无偿服务,发挥了支撑学科发展的重要作用。在生物信息学领域,GenBank, PDB, PubChem, PubMed等知名的科学数据库事实上成为了该领域的公共数据库,支撑了该领域的数据积累、保存和重复利用。英国研究理事会(RCUK)相关数据政策要求2006年10月后立项项目必须在指定的数中心存储科研数据提供共享。

    最后,围绕大型科研工程项目、大型科学装置科学活动,通常结合强大的网络、计算资源,建立跨学科、信息化的科学数据中心,提供数据综合应用服务。这类科学活动产出海量科学数据,对数据存储、传输、共享和分析有更苛刻的要求,突出表现在高能物理、天文和地理系统领域等。如圣地亚哥超级计算中心管理维护包括PDB、BIRN等大量数据集,国家超级计算应用中心整理维护LTER数据等,这些综合型的数据中心显著特点在于数据库与e-Science科研应用紧密结合,最大程度的实现计算、数据和e-Science科研应用的融合。

    近年来,学术领域开放共享(Open Access)的发展非常活跃,在欧洲有很多科研机构倡导科研数据公开共享和开发机构存储,这有利于数据资源的发掘和向数据中心的流动。同时,在科学数据资源向数据中心聚集并通过数据中心存储和服务的过程中,科学数据往往得以系统化的整理和适当质量控制。

    科学数据中心具有如下一些基本特征:

    (1)具有支撑海量科学数据存储与应用的基础环境

    科学与工程问题中的数据来自各种渠道,包括各种科学实验仪器和装置、传感器网络、卫星遥感、计算机模拟与分析等等。随着信息技术的发展,数据获取的手段大大增强,使得科学数据急剧增长,而且从一产生就是数字化的(born digital)。同时,一些重要的数据资源需要长期保存,时间跨度以数十年计。特别在一些数据驱动的现代学科领域如高能物理、地球系统、数字天文等,需要处理的数据已经达到PB级。面对这些实际需求,国际上本世纪初就开始构建PB级的数据存储环境,例如美国已建设若干个拥有PB级海量存储环境的数据中心包括NCSA、SDSC等。这些PB级的数据中心关注的焦点是数据驱动的科学与工程研究支撑服务,更好的服务科学数据的长期保存和数据资源的整合利用。

    (2)支撑以数据为中心的科研应用和共享服务

    科学数据中心首先是数据资源中心,其运行服务和支撑工作也是以数据资源为中心,面向科研单位、科技工作者、数据用户提供多元的数据应用和共享服务。并在数据资源的基础上,紧密结合专业领域、特定项目工程需求,开展专门的数据处理、应用服务。

    科学数据中心对科研单位、重大工程项目提供数据资源的长期积累、保存整理和散发服务,满足重要数据资产的长期保存和重复利用的需求。如依托美国政府部门建立的系列国家数据中心。

    通过长期积累、编辑整理的数据资源,研发相应的检索、数据分析工具,为科研活动提供数据检索、数据分析服务。如美国NCBI的GenBank、PubChem、化学文摘社SciFinder系统、日本TACC的RIO-DB数据库、英国CCDC数据库等。

    依托大型科学工程、科学装置,解决海量数据的存储、共享和分析问题,数据中心提供数据密集型的数据归档、整理和分析服务。如美国NCAR、圣地亚哥超级计算机中心、国家超级计算应用中心等数据中心。

    (3)以公益性事业运行模式为主

    国际上,科学数据管理与共享服务包括国家调控下的事业性运行模式和商业化运作模式等多种方式。总体来看,针对政府投资于公益性、基础性科学数据的生产与管理,是以事业性运行模式为主导提供公众服务。例如美国NASA、NOAA、USGS、NIH以及NCAR、SDSC、NCSA等有关数据中心,均是针对政府生产和拥有的公益性科学数据开展支撑服务,并遵循国家政策对公众财政资助产出的科学数据提供无偿、无限制和无歧视的数据服务。例如,美国大气研究中心(NCAR)的经费绝大部分来自国家科学基金(NSF),2007年为8.57千万美元。国家生物技术信息中心(NCBI)近年来每年约获得7.3千万美元的拨款,2008年将增加到8千万美元。美国国家科学基金信息化建设(CI)资金2007 年为1.82亿美元,其中用于研究基础设施(research infrastructure)为1.64亿美元,约占90.3%,并且几年来一直保持这个投入比例。此外,与科学技术有关的商业性数据库,多是建立在原有政府投入建设的有市场前景的科学数据库基础之上。

    (4)面向可持续发展的综合人才结构

    科学数据中心的核心价值在于对数据资源的整理和维护,包括对数据本身、数据应用程序的维护(Curation),不断满足用户需求。形成面向信息化科研环境的数据资源,必须更加高度的整合数据工作相关人才,使之围绕数据的采集、整理、应用整个流程进行沟通协作,最终使得数据中心从数据归档发展到基于科学工作流的数据支撑服务。例如,NASA科学数据中心的人员组成包括天文和空间科学家、计算机科学家、分析家、程序员以及数据技术人员。美国国家科学基金DataNet项目大纲指出,要通过有效整合图书馆、档案科学、信息化基础设施、计算机与信息科学、专业领域科学(library and archival sciences, cyberinfrastructure, computer and information sciences, and domain science expertise),探索创建示范性、新颖的科学数据工作组织结构。

    四、展望

    科学工程研究与教育日益成为数字化、数据密集的工作,科学数据不仅是科研活动的产出物,还是开展科研创新的必备基础。科学数据中心建设不能一蹴而就,是一项需要经过长期积累和精心维护的基础性工作。科学数据作为信息化科研环境的基础设施,科学数据中心的支撑服务是关键,因此必须把科学数据中心的规划建设纳入长期发展战略。最近美国DataNet计划和澳大利亚ANDS计划均指出要以十年为度量,通过数十年的长期培育建立国家科学数据中心及资源整合共享网络。实际上,现有的一些知名专业数据中心也是历经数十年的发展才成长起来的。

    中科院在上世纪80年代就启动了科学数据库重大工程项目,历经了20余年的不间断积累建设。科技部2002年启动国家科学数据共享工程,并列入国家中长期科技发展规划,中科院的大量数据工作也纳入到该工程。长期以来,在面向学科领域的重要研究中,中科院部署和承担了一系列国家重大科学工程、大型科学装置,开展了大规模科学合作活动,调查表明,“十一五”期间这些重要科学活动将产生超过90TB的数据量。因此,处理海量数据的存储、维护和共享应用是中科院科研活动的迫切需求。综上所述,科学数据中心作为重要的信息化支撑服务设施,是科研投入的一个组成部分,同时服务和支撑广泛的科学活动。

    此外,发挥科学数据中心的战略作用,促进科学数据服务的可持续发展,必须紧密与科研活动相结合,长期保存和维护重要数据资源,必须紧密掌握当代数据驱动的科学、工程领域发展需求,构建PB规模的数据存储环境,并结合重大工程科研项目研发数据处理、分析、可视化等应用软件,必须积极推动和创新数据共享政策与机制。加强科学工作的认识和广泛合作,加强数据资源的有效整合和服务,加强与计算、网络资源的协同与整合,并有机融入信息化科研的整体环境,无疑是科学数据中心发展的重要使命和挑战。

    参考文献

    [1] National Science Board, National Science Foundation, Long-lived digital data collections: enabling research and education in 21st century, September 2005

    [2] Office of Scientific and Technical Information of DOE, The State of Data Management in the DOE Research and Development Complex,Report of the Meeting: DOE Data Centers: Preparing for the Future ,November 5, 2004

    [3] National Science Foundation Office of Cyberinfrastructure, Cyberinfrastructure Vision for 21st Century Discovery, March 2007, http://www.nsf.gov/od/oci/CI_Vision_March07.pdf

    [4] Office of Science and Innovation (OSI) of UK, Developing the UK’s e-infrastructure for science and innovation. January 2007. http://www.nesc.ac.uk/ documents/OSI/index.html

    [5] Gray, J., Liu, D., Nieto-Santisteban, M., Szalay, A., DeWitt, G. "Scientific Data Management in the Coming Decade," CTWatch Quarterly, Volume 1, Number 1, February 2005

    [6] The Future of Scholarly Communication: Building the Infrastructure for Cyberscholarship, Workshop on Data-Driven Science & Scholarship, sponsored by the US NSF and UK JISC, Phoenix, Arizona, US, April 17-19, 2007, http://www.sis.pitt.edu/~repwkshop/index.html

  打印本页 关闭本页
© 1996 - 中国科学院 版权所有 京ICP备05002857号  京公网安备110402500047号  联系我们
地址:北京市三里河路52号 邮编:100864