您的位置:首页 > 我的青春之歌
 
孙凝晖:曙光在前
孙凝晖 中科院计算技术研究所

从1953年1月我国成立第一个电子计算机科研小组到今天,我国计算机科研人员已经走过了50多年的艰苦创新历程。在半个世纪的奋斗长河里,“曙光”以其蓬勃的生命力和强劲的创新力“激起千层浪”,成为高性能计算机研制大军中的领头羊。

“曙光”是人们对“曙光系列高性能计算机”的简称。高性能计算机,顾名词义就是性能高、速度快的计算机,一般而言比PC快一到两个数量级以上。发动机设计、模具设计、生物新药设计、新材料的研制、风洞试验仿真、石油勘探与开采等应用都离不开它。高性能计算机的研制对增强国家安全和企业竞争力、提高国家科研水平和政府监控能力有广泛而深远的影响,已成为世界各国特别是发达国家争夺的战略制高点。

我国的高性能计算机的发展明显落后于发达国家。我国科研单位与大学陆续研制成功的几代高性能计算机,在国防建设等方面发挥过重要作用,但是没有面向市场形成产业。为了促进我国高性能计算机的产业化,国家“863”计划从上世纪90年代初开始持续不断地支持曙光并行计算机与超级服务器的研制开发。我们看到,曙光一号、曙光1000、2000、3000、4000、5000系列,一路走来,曙光系列高性能计算机获得了中国科学院科技进步特等奖、国家科技进步一等奖、二等奖等多个奖项,曾两度被两院院士评为当年十大科技新闻。中国科学院计算技术研究所(以下简称“计算所”)在高性能计算机的发展道路上秉承“科研、产业、国际竞争力”的一贯原则不断做出贡献!

偶像的力量无穷大

说到“曙光”,就不能不提到一个人——我的研究生导师,李国杰院士。李老师在湖南的工厂工作过,后来上了北大物理系,毕业后从事计算机的研制,78年上中国科学院的研究生,85年在美国得到博士学位,88年回国,长期致力于计算机体系结构的研究、开发工作,是计算所曙光高性能计算机和龙芯CPU这两项事业的领路人。

这么多年,导师在我眼里一直是背着沉重的十字架奋力前行的“修道者”的形象,十字架上刻着两个大字“国家”。我好几次问他:“您累不累?”,他都默然不语。李老师说,他的梦想就是让中国成为信息技术强国,不再受西方大国的气,重塑中国的大国地位。李老师在我的职业生涯及个人成长过程当中对我影响最大,他是我心目中的偶像,我对他的感情有如父亲一般。他不仅教会了我怎样做事,还教会了我如何做人。

1989年北京大学计算机系本科毕业之后,我来到计算所攻读硕士和博士学位。第一次见到我的导师李国杰院士是在报考硕士生面试的时候,还记得当时的我看见李老师时很吃惊,他的办公室简陋得要命,体态有些消瘦的他藏在一堆乱七八糟的书里。面试时他问我什么问题都记不得了,只记得他说了好多“863计划”的情况,让我产生了一种随他一起投身伟大事业的冲动。

1990年,计算所成立了国家智能计算机研究开发中心,1992年硕士毕业后我留在了这里工作。做“曙光机”之初,我们面临的最大难题不是技术上的突破,而是观念上的更新。李老师的指导思想是:“要在从器件到应用这个长长的增值链上要寻找最有效的增值部分,只做增值高的,要么便宜、要么性能好很多的部件,而不是哪部分难,哪部分技术水平高就要做哪一部分。”在李老师的指导思想的正确指引下,我们不仅在93年研制出了曙光系列机的先行者——“曙光1号”全对称多处理服务器,而且在95年研制成功了“曙光1000”并行计算机,该机突破了大规模并行处理机的关键技术,运算速度达到每秒25亿次,是当时中国最快的计算机,获得了国家科技进步一等奖。

曙光1000大规模并行处理系统,是我参加工作后完成的第一个科研任务,正是它把我领入了高性能计算机这一永不停步的科学跑道。曙光1000这个项目教会了我科学研究要有创新的勇气、一往无前的干劲和海纳百川的胸怀。那时我们这一群刚从学校走出来的年轻人开始了勇敢的创新之旅:曙光1000除了CPU用的是Intel 860,其它核心部件全部自行研制,照着从Internet上下载下来的文章和Intel Paragon的用户手册就做出来了。17年后的2009年,历史开始了新的一轮轮回,在研制曙光6000时,我们连CPU都能自己做了。

在“863计划”支持下,李老师领衔的计算所国家智能计算机研究开发中心又先后研制成功了曙光1000A、曙光2000-I、曙光2000-II和曙光3000机群结构超级服务器,建立了“曙光”这一国产高性能计算机知名名牌。同时在九五攻关计划支持下先后推出了曙光Internet服务器、高可用服务器、NT机群系统和安全服务器。曙光计算机的体系结构从对称式多处理机(SMP)到大规模并行机(MPP)再发展到机群结构(Cluster)。在李老师任董事长的曙光公司的积极努力下,曙光计算机产品从单一品种发展到天潮、天演、天阔三个系列30多种型号并逐步占领市场。

曙光系列高端计算机的研制和推广,不仅已得到国内广大用户认可和赞赏,而且得到国际同行专家高度评价。2000年7月美国亚洲情报中心向美国政府提供了一份评估报告(ATIP00.0025),客观评价了中国高性能计算机的发展与曙光计算机的贡献:“考察中国的高性能计算机的研究开发,从小规模到中规模的系统(不包括最大的系统)到系统软件系统、工具与应用软件,可以发现中国人正在摆脱落后,几乎非常接近西方……自主开发的系统,包括曙光服务器,采用了机群体系结构并有其他与IBM-SP2相关的特性。一台82个节点的曙光系统正在中国科学院运行,并已开发了许多系统软件和应用软件……高性能计算技术的研究与开发集中在一些主要城市大学里的国家高性能计算中心,大多数由国家智能计算机研究开发中心和曙光公司的研究人员指导……特别是他们的曙光服务器系统,提供了在并行硬件和软件领域的重要实践基础……”。

重任在肩,接过曙光的接力棒

弹指一挥间,十年过去了。当时的那些踌躇满志、欲与天公试比高的青年学子已经不再年少轻狂,我们这批人有幸参加了四代曙光系统的研制,和曙光并肩成长。我受李老师的信任和托付,担任曙光4000A的总设计师,从此,我开始由一个听别人指挥的技术人员走向一个要指挥别人来完成一项巨大工程的总设计师。

早在曙光3000刚刚通过国家鉴定时,李老师就高瞻远瞩地及时调整了机群系统的研究思路,将曙光4000系列定位为以国家战略应用为主的基于通用架构的应用专用系统,正是由于李老师在研发决策上的正确把握,为曙光4000系列的今后研制工作指明了核心技术方向,也始终在曙光4000A项目的具体实施中起着指导性作用。

2003年、2004年我们研制成曙光4000-L型、曙光4000-A型高性能计算机,使中国成为除了美国、日本外第三个能够制造和应用十万亿次商品化高性能计算机的国家,在2004年6月进入全球最快的十台高性能计算机的行列,曙光4000在国家级网络安全监管、神州飞船的发射、石油勘探行业中都发挥了重要作用。今天,国产品牌的高性能计算机已经可以在市场上和IBM、HP公司的同类产品竞争了。

成绩的背后,付出的艰辛是常人难以想象的,正是我们计算机机房外墙上贴着的“人生能有几回博”的标语支撑着大家走向成功。

2002年夏天,当大家都憋着股劲准备大干一场时候,曙光4000A的研制经费被减掉了四分之一。正在大连休假的我听到了风声,那时的感觉就是英雄无用武之地,很无奈,很丧气,但只有妥协。当时我面临的选择只有两个:要么冒风险做台大机器,要么按压缩后经费做台小一点的机器。在春节前的几天,我和曙光公司的历军选择了当时还没有正式上市、也从来没有在高性能计算机上用过的兼容32位计算的64位AMD酷龙CPU,趟出一条险路来。因为我深信:创新都是伴生着风险的。

记得2003年2月17日,AMD美国总部方面派来一位高性能计算方面的专家David Rich。我给他介绍了基于AMD的64位机群系统技术特点,对于曙光4000A系统总体设计进行了阐述,简要介绍了计算所和曙光公司的情况,并谈到了联合开发主板的问题。会晤取得了很好的成效,基本就一些合作方面的问题达了一致意见。

2003年五月,AMD全球CEO海特先生访问中国,这时的曙光4000A项目急需AMD美国总部方面战略上的合作和法律上的支持。作为该项目的总负责人,我被提前告知只有半个小时时间用来说服海特先生支持曙光4000A项目。我尽量用更简练的语言,传递更多的信息量。这次大概是我有生以来以最快的语速说英文。据在场的同事说,当时我的嘴不停地张合,除了海特先生外旁人根本无法听清内容。就这样,曙光4000A直接获得了海特先生亲自的支持,为该项目的启动赢取了有利条件。

曙光4000A项目作为国家"863"重点支持项目,包括马捷领导的系统软件组、张佩珩牵头的硬件组,冯圣中负责的高性能计算组,赵晓芳领衔的网格服务器组在内前前后后涉及到的智能中心员工和研究生,达到100人以上,更是始终得到李老师的亲切关怀和悉心指导。可以说曙光4000A项目获得成功并跻身世界十强凝聚了全所上上下下领导和员工的心血和汗水,是集体智慧的结晶。

捅破“天花板”的大系统

自2004年研制成功曙光4000A高性能计算机以后,中国科学院计算所没有承担新的计算机研制任务。在这两年多时间里,科学院、自然科学基金和计算所投入了2000多万元,做高效能计算机的基础性、前瞻性研究,计算所已在技术上为下一代的曙光5000A的研制做了充分准备,与过去研制曙光3000/4000时的技术贮备相比,现在已经大不一样了。曙光公司2006年也实现了脱胎换骨,在天津建立了一流的生产线,同时公司还构建了国内唯一的高性能计算机用户体验中心和可靠性测试中心,技术实力今非昔比,为曙光5000A的研制提供了强有力的工程技术和产品技术支撑。

自2006年起,有3个团队从不同角度和层面围绕着曙光5000A的高墙发起了进攻。一支团队是中国科学院计算所研究人员组成的团队,他们负责攻克核心技术;一支团队来自曙光公司和中国科学院计算所共同建设的国家高性能计算机工程技术研究中心,他们更多地把精力投入到工程设计和关键软件开发方面;曙光公司的技术人员则围绕刀片技术、机柜和工艺设计、制造维护开展工作。共计有200多位技术人员和100多名研究生带着极大的热情投身于这个国家级的大工程中。正是通过众多技术人员的共同努力,迎来了曙光5000的诞生。

“曙光5000A”的性能是“曙光4000A”的20倍,每秒峰值速度达233万亿次,再次位列世界第十,是美国以外世界上最快的计算机,被称为捅破“天花板”的大系统,解决了一系列的世界性难题。

除了参加高性能计算机世界的“选美”大赛外,我们还在紧锣密鼓地办 “选劳模”的小事——研制低成本,惠及大众的个人高性能计算机,让老百姓真正成为高性能计算机的受益者。这符合计算所一直以来的定位:一方面着眼高端,一方面立足现实,走低成本,惠及大众的信息化发展道路。

从曙光历史发展看,从曙光1000的25亿次,曙光3000的4032亿次,到曙光4000的10万亿次,再到曙光5000的233万亿次,曙光高性能计算机不是一步跳高式的跃进,而是一步一个台阶踏踏实实地往上迈,是有连接和传承的。“路漫漫其修远兮、吾将上下而求索”。曙光团队正与龙芯团队合作打造“超龙计划”——研制千万亿次高性能计算机“曙光6000”,这将是能与世界顶尖系统媲美的高性能计算机,是一件涉及国家战略的大事。“曙光6000”将采用自主研发的国产芯片“龙芯3号”,采用我们提出的HPP体系结构,技术上有重大突破。计算所和曙光公司完全有能力抓住国外大公司在技术上调船头的难得机遇,实现千万亿次计算机研制和产业辐射的跨越发展。

成功的曙光就在前面,我们要坚持顶天立地、创新求实的发展思路,将曙光之路越走越宽,越走越好!

© 1996 - 2010 中国科学院 版权所有 备案序号:京ICP备05002857号 联系我们
地址:北京市三里河路52号 邮编:100864