中国超算事业的第一缕“曙光”

发布时间:2024-09-09

在中国科学院计算技术研究所(以下简称计算所)“计算的脚步”历史展厅,“曙光一号”高性能计算机的模型赫然在列。没有玻璃的阻挡,人们可以驻足观看它的每一处细节。然而,在“曙光一号”诞生之前,中国进口的高性能计算机(即超算),只能在“玻璃房”中使用。

“曙光一号”的故事,就是从刺激了一代科学家神经的“玻璃房”开始的。

20世纪80年代末,我国在高性能计算机方面遭到美国等西方国家的严格禁运,不仅只能以高昂价格购进相对低端的产品,就连正常使用也要在对方监控之下——部署到中国的高性能计算机必须安装在一间透明机房中,钥匙由对方掌握,中方人员的一举一动都在“洋人”眼皮底下,运算的数据也要被他们查得清清楚楚。

“‘玻璃房’是中国的耻辱!”时任国家科委主任、两院院士宋健的这句话,又何尝不是每个中国“计算人”心头的苦涩。

那时,工作站性能以上的计算机市场几乎被国外公司垄断,虽有一些自行设计制造的大型计算机,但大多落后几代或应用极为有限,被讥为“‘公机’不会下蛋”。中国民族计算机产业举步维艰。

1 “新世纪的曙光”

1981年,日本开启了野心勃勃的“第五代计算机技术开发计划”。他们希望改进计算机的设计思想,让计算机具有人工智能的能力。该计划以10年为期,投资超过1000亿日元,引发全球极大关注,并迅速掀起了一波智能计算机研究的浪潮。

据中国工程院院士汪成为回忆,在日本“第五代计算机技术开发计划”影响下,直到1986年,全世界对人工智能技术发展都持相当乐观的态度,各国纷纷制订国家级人工智能发展计划。

是年,我国“863”计划正式步入历史舞台。专家们在讨论我国信息技术领域的计划时,一致同意把智能计算机列为一个主题项目(即“306”主题)。1990年3月,国家智能计算机研究开发中心(以下简称智能中心)依托计算所成立,第二届智能计算机专家组成员、计算所研究员李国杰被任命为主任。

“智能中心刚成立就面临发展战略的选择。”李国杰回忆,当时国家的初衷显然是要研制智能计算机,但是要不要追随日本研制以并行推理机为标志的第五代计算机,他和专家组心里都有些打鼓。

为了更广泛听取国内外专家的意见,智能中心于1990年5月在北京召开了智能计算机发展战略国际研讨会。与会的学者包括美国总统科学顾问许瓦尔兹、人工神经网络理论奠基者之一霍普菲尔德、日本第五代计算机负责人之一田中英彦、美国南加州大学教授黄铠和伊利诺伊大学教授华云生、中国科学院院士吴文俊等。

“这次会议对智能中心选择以通用的并行计算机为主攻方向起到了重要的推动作用。”李国杰说。此后,专家组在反复研究世情和国情、深入分析国内外专家反映的意见后,一致决定不走日本“五代机”的路,而是坚持“需求牵引、技术推动”原则,拟定了863-306主题的发展计划纲要,将智能中心的主攻方向确定为“以并行处理为基础的高性能计算机系统”。

采用对称式多处理器共享存储并行体系结构(即SMP方案)的“曙光一号”,成为这个主攻方向的第一个目标。

“曙光一号”计算机(SMP系统)。

李国杰还记得,智能中心内部最开始把要研制的计算机命名为“东方一号”。但在纪念“863”计划5周年的一次文艺演出活动中,他看到舞台背景上有“新时代的曙光”字样,一下子受到触动。他于是决定,智能中心研制的第一台计算机叫“曙光”。

“在我们这一代人手里,中国的高技术应该呈现出灿烂的曙光。”李国杰说。

2 “不怕虎的初生牛犊”

其实,SMP方案的确定并不那么容易,当时“干扰项”很多。

计算所原副所长、中国科学院深圳先进技术研究院原院长樊建平记得,当时国内外传统大型机发展的惯性思路是,采用中小规模集成电路设计运算控制器主板,而非商品化微处理器。例如,一时风头无两的日本“五代机”采用的就不是SMP方案,而是专用机策略。

但专家组最终拍板了SMP方案。一方面,与传统的小型机、大型机比较,SMP方案在性能价格比方面有明显优势;另一方面,基于微处理器的SMP系统的关键技术是软件,技术难点转移对我国有利。并且,一旦掌握SMP技术,易形成高性能计算机系列产品,有利于科技成果产业化。此外,专家组认为,国外的并行机技术也在发展中,没有形成垄断局面,我们有可能迎头赶上。

在“306”专家组的共同努力下,“863”计划的智能计算机研制任务在发展高性能计算机的行动之中落地。用李国杰的话说,那段岁月,我国是以智能计算机的名义发展高性能计算机。

“30多年过去了,现在来看,当时的决策还是正确的。”他说,近几年人工智能十分红火,其必要前提就是强大的算力。863-306主题培育的高性能计算能力为我国在人工智能领域进入世界前列奠定了坚实基础。

李国杰(左二)和团队成员一起检查“曙光一号”主板。

研制“曙光一号”,是智能中心历史上精彩的一幕。

起初,智能中心并没有招到多少有计算机设计经验的人才,李国杰大胆起用国内刚毕业的硕士生、博士生,边做事边培养。智能中心成立一年后,就基本形成了以年轻硕士、博士为主的技术队伍。他们的平均年龄不到30岁。27岁的樊建平刚刚从中国科学院软件研究所博士毕业不到一年,就担任了智能中心系统软件组组长;刚刚硕士毕业的孙凝晖只有24岁,就成为软件组的主力成员;从计算所硕士毕业的刘金水,从外单位回所参与研发“曙光一号”时也只有28岁。

他们可能无暇顾及,“曙光一号”未来的竞争对手是IBM、惠普这些国际巨头。在李国杰眼里,他们是一群“不怕虎的初生牛犊”。

1991年11月前后,“曙光一号”采用Motorola M88100微处理器、共享存储多处理机和并行UNIX操作系统的通用开放系统结构总体方案确定下来。

确定了总体方案,接下来的工作就是全力攻坚。但是,当时国内的研发设计环境实在太差:购买硬件器件速度慢,操作系统、部件与工具厂商技术支持弱,高密度生产技术缺乏……巧妇难为无米之炊,这样下去不是办法。

智能中心大胆决策——派一支小分队到美国硅谷去研发!

3 “洋插队”的日子

陈鸿安、樊建平、刘金水、李如昆、王永杰等人被选中,前往美国硅谷进行“曙光一号”的封闭式研发。出发前,李国杰为他们组织了“誓师大会”,临别赠言只有一句话:“人生能有几回搏”!

“不做成机器回来,无脸见江东父老。”小分队成员也撂下“狠话”。

1992年3月,樊建平等人开始了为期11个月左右的“洋插队”生活。

小分队在美国工作与生活的地方,樊建平记忆犹新。那是一处美式民居,有4间卧室,厨房与客厅很大。为方便加班,大家决定将办公地点设在客厅。除了外出与部件厂商进行技术交流等活动外,他们大部分时间都生活与工作在这个民居里。

“当时被派到美国去的那些人,可不是去过好日子的,他们的条件非常艰苦。”李国杰回忆,“几个人挤在一处民居里,客厅就是工作间,所有房间都没有床,大家都是铺一张床垫睡在地上。他们每天工作十五六个小时以上,没日没夜,衣服都不怎么脱。所以,他们才戏称自己是‘洋插队’。”

生活上,大家以星期为单位,轮班做饭。晚饭后的散步或骑自行车是他们主要的娱乐与体育锻炼活动。后来,他们买了一辆二手汽车,自学开车考驾照成为另一种“娱乐”活动。

他们的每一天被分成上午、下午、晚上3个工作单元,没有周末、没有节假日,除了睡觉、吃饭、散步,其他睁眼的时间都在工作。近一年的时间里,他们安之若素,没有人心猿意马、三心二意。

他们深知,自己肩上扛着的是“曙光一号”的前途命运,是中国计算机事业的使命。

“曙光一号”赴美国研制团队(左起依次为李如昆、樊建平、陈鸿安、贾沛长、刘金水、王永杰)。

在硅谷期间的研发工作,分为总体方案完善、设计、生产加工及部分调试几个阶段。樊建平记得,完善总体方案的那一个多月里,他们与国内交流最为密切,通过传真与国内团队围绕多处理机中断控制器的设计与实现不断进行研讨。当时,智能中心软件组与硬件组部分人员继续配合“曙光一号”硬件及并行程序的设计,同时抽调部分人员组成“曙光1000”组,开启“曙光1000”的早期预研。

由于利用了硅谷的产业环境,“曙光一号”的研发进程大大加快。不到半年,“曙光一号”的硬件设计接近完成。至1992年10月,小分队完成了主板设计并进入印制电路板(PCB)的设计和生产阶段。11月左右,用作中断控制器的FPGA芯片(一种称为可编程逻辑阵列的半定制集成电路)研制成功,这是全对称多处理机的关键芯片。这之后,软件设计调试与硬件并行展开。同时,智能中心软件组对引进的UNIX源程序已进行近两年的逐行分析解读,在参考Encore并行计算机基础上,樊建平等人成功研发中国第一个并行UNIX操作系统,取名为SNIX(Symmetric UNIX),率先在国内实现线程级细粒度并行。

国内的研发团队也在搏命飞奔,在当时十分简陋的科研环境里,常常工作到很晚。

1993年2月,硅谷小分队带着已进行初步调试的几块“曙光一号”主板载誉归来,并迅速与国内的同事开启联调及软件移植工作。

“曙光一号”团队不负众望,仅用了两个月,计算机硬件、显示设备、基本输入输出系统及操作系统核心的调试工作就基本完成。由张兆庆和乔如良领导的并行编译、刘晓华负责的Express编程环境、孙凝晖等负责的计算性能测试与优化、隋雪青等负责的数据库移植与事务处理测试等工作,也在后来的两三个月内逐一完成。

“曙光一号”成了!

1993年10月,科技部组织国内专家学者对“曙光一号”进行成果技术鉴定,专家们给予了高度评价。时任中国科学院副院长胡启恒称:“‘曙光一号’咬住了国际高性能计算机发展的‘尾巴’。”

4 “这一脚踩下去是轰隆隆响的”

胡启恒一直十分关注“曙光一号”的进展。她在一次接受采访时回忆起那段经历,非常感慨地说:“‘曙光一号’这一脚踩下去是轰隆隆响的。”

“曙光一号”诞生后不久,由美、英、日等发达国家组成的“巴黎统筹委员会”组织宣布解除10亿次高性能计算机对中国的禁运。“863”计划的主要发起人、两院院士王大珩在考察智能中心后给中央领导写的报告中指出: “‘曙光一号’研制成功的意义不亚于卫星上天。”

1994年,“曙光一号”作为国内科学技术的两项标志性成就之一,被写入1994年的政府工作报告。

相比此前研发的计算机型号,“曙光一号”的研发仅历时一年多,研究团队成员也只有年轻的硕士、博士,投入经费只有区区200万元。其研制经费之少、研制时间之短、成果商品化程度之高等都与过去形成鲜明对比。可以说,智能中心的一批“小将”以自己的顽强拼搏,为打破高性能计算机领域的国外技术封锁作出了历史性贡献。

“‘曙光一号’带来的科研经验是宝贵的。”李国杰说,正确选择科研方向是成功的首要条件。更可贵的是,此后科研团队并没有专注于发论文,而是担起了更重要的使命——实现产业化。

1994年1月,时任国家科委主任宋健来到智能中心视察,看到“曙光一号”团队的成果“曙光初现”,号召智能中心勇当“敢死队”,“像当年刘邓大军一样杀出重围”。智能中心积极响应这一号召,依托“曙光一号”的科研成果,于1995年成立了曙光信息产业有限公司,即今天的中科曙光。

“曙光机一开始就没有以发表SCI文章为目标,因为我们想的是要在市场上占有一席之地,这个目标非常明确。”李国杰说,“曙光一号”自研制之初,就把产业化、市场化作为目标。

“‘曙光一号’在设计阶段的一个理想就是成为产品,而不仅仅是科研成果,鉴定会就是它的市场推广会。”樊建平告知,当时,“曙光一号”系列机型已在教育行业、信息服务、行政管理及援外项目等领域实现了成功应用。

“‘曙光一号’的成功研制,开辟了一条在开放和市场竞争条件下发展高技术的新路。”李国杰总结,当年智能中心对“洋插队”提出了“两做、两不做原则”——完全属于仿制、没有自主知识产权的产品不做;只为填补空白、市场上没有竞争力的产品不做。那做什么呢?集中力量,做国外对我国封锁的技术和产品;努力赶超,做国外尚不成熟的技术和产品。

“现在看来,这些原则还应当坚持。”李国杰说。

智能中心走廊“人生能有几回搏”标语。计算所供图

以“曙光一号”为起点,中国超算事业拉开了自力更生、自立自强的大幕。此后的30年,在曙光、天河、神威等系统一代代研制者的努力下,国产通用高性能计算机几乎占领了全部国内市场,成为中国打破“禁运”、发展自主可控高技术产业的榜样。

“曙光一号”的意义还在于,它闯出了一条市场导向的高技术研究开发的理念和技术路线。经过20多年发展,以“曙光一号”知识产权为基础成立的中科曙光已成为我国高性能计算的骨干企业,并于2014年在上海证券交易所主板上市。后来中科曙光又控股创办了我国中央处理器(CPU)设计领域的骨干企业海光公司,控股参股孵化出中科星图和曙光数创等上市公司。曙光系上市公司以其近3000亿元的市值,成为“863”计划科研成果转化中最具代表性的案例之一。

(原载于《中国科学报》 2024-09-09 第4版 专题)