上海未来产业基金注资中科天算,助力其把人工智能超算中心送上太空。这家由中国科学院计算技术研究所孵化的公司,已搞定多卡全尺寸GPU架构的天基超算节点原型机,打算在2024年下半年发射实验节点。他们定下的目标是,到2030年部署一个万卡级的太空超算中心,就像在太空中放了一个大数据中心。这个计划不仅能提供实时智能空天信息服务,还能让中国在下一代空间信息标准制定上占得先机。 为啥要把算力放在天上?中科天算创始人刘垚圻博士说了,卫星星座发展太快,数据量爆炸式增长,急需高性能天基计算。以前处理遥感影像地面分辨率才10米,现在能到0.1米,数据量翻了近一万倍。可卫星跟地面通信的带宽太窄、时间窗口太短,只有不到5%的数据能传回来。就算传回来了,还得等上几天时间,这对森林火灾预警这种急活儿根本来不及用。有了天基计算赋能,卫星能直接在天上把高价值信息筛出来,带宽和响应时间都能大大缩短。 在美国那边,SpaceX也想在太空中建数据中心。他们向美国联邦通信委员会申请发射最多100万颗卫星,还买了个搞人工智能的初创公司xAI。这跟地面数据中心比起来有啥好处呢?首先是电力充足。英伟达投资的Starcloud公司算过一笔账:如果把数据中心弄到太阳同步轨道上,24小时不间断晒太阳接收的辐射能量比地面高40%,就能实现能源自给自足。其次是散热容易。太空温度低至零下270℃,热量能直接以辐射方式散发出去。 不过要想让“超算上天”,技术难题还得一道道过。太空辐射干扰大、设备坏了没法修、真空环境没空气对流这些问题都得解决。中科天算依托中国科学院计算所的技术积累,在容错计算和热控系统上搞出了一套跨层协同的机制。比如对付辐射干扰导致的芯片出错,它能保证整个系统还能正确运行;针对高功率GPU散热难的问题,他们设计了封闭式流体回路结构来快速转移热量。 这些方案行不行还得靠实战检验。2024年2月,“东方慧眼”高分01星成功发射了。中科院计算所韩银和团队给这颗星配了台“极光1000·慧眼”星载计算机,它用国产芯片、有系统级容错体系、能提供100 TOPS算力。这台机器不光不用把数据传回地面,还能在天上直接“感知—判定—决策—行动”,甚至还验证了中国首个天基大模型。 现在中科天算手里已经有了多卡全尺寸GPU架构的原型机原型机了。它采用国产高性能GPU,通过可扩展的卡群架构突破了单机性能瓶颈。这次下半年发射上去的就是这款原型机的实验节点。到2030年他们要搞个万卡级的大家伙:由10颗以上卫星组成的系统部署在晨昏太阳同步轨道上。这系统里有三大块:一个1平方公里的太阳能电池阵列能源舱能发电超100兆瓦;一个由100多块高集成度算力板组成的算力舱有10000张国产计算卡(提供10 EOPS算力);还有100多台激光通信器构成的通信舱能做到10 Tbps双向通信。