某生态创新中心是响应省数字经济发展规划、依托中俄区位优势及黑粤对口合作建成的关键算力基础设施,核心承载超算中心、AI训练集群及云资源池三大板块,旨在为基因测序、生物医药、制造业等领域提供国产化算力支撑,培育数字经济新动能。作为整合产业创新资源的核心载体,超算中心需服务省内外企业、高校及科研机构,但传统计算平台逐渐暴露瓶颈:不同行业算力需求差异大,基因测序等场景需高并行计算,而中小企业则需要轻量化普惠算力;同时存在资源调度损耗高、多行业软件适配复杂、运维管理难度大等问题。2022年8月试运营后,为突破算力服务瓶颈,超算中心采用EaaS高性能计算云平台作为调度核心,实现算力资源高效配置与生态化服务。
项目背景
客户需求
- 信创与生态协同需求:需构建国产化算力底座,适配信创产业要求,同时搭建开放生态,实现技术共享与成果转化,培育本地科技企业。
- 性能损耗与适配效率问题:传统虚拟化平台存在计算性能衰减、存储I/O开销高、网络队列不均衡等问题,且X86架构软件迁移适配难度大,影响科研与生产效率。
- 多行业差异化算力调度需求:服务基因测序、生物医药、农业科研等多元领域,需兼顾大规模并行计算与中小微企业普惠算力供给,解决传统平台资源分配僵化问题。
- 资源隔离与性能保证: 在多用户共享、多任务并行的环境中,要求不同集群之间严格隔离,互相不影响,同时保证计算性能接近物理裸机水平。
客户收益
- 极致性能与环境隔离: 平台利用自研容器技术实现了对资源的细粒度隔离和控制。容器的物理性能损耗在 1% 以内,确保了大规模并行计算的效率。
- 实现全硬件兼容: 实现了对部署的所有鲲鹏处理器的完全适配,确保了国产算力基础设施的稳定运行。通过联旌自研核心容器技术,将应用与环境打包为标准镜像,实现了“一次适配、处处运行”,保障了国产化硬件的潜能充分释放。
- 资源统一管控: 平台支持多套虚拟集群共存且互不干扰,。成功实现了统一的超算集群管理,满足了创新中心对多场景、高安全性的要求。并通过与 Pacific 存储系统的打通,解决了异构数据存储和调用的难题。
- 提升服务效率: 平台通过提供 Web 门户、GUI 图形化界面和丰富的应用商店(提供海量预构建科研软件镜像),极大降低了用户使用高性能计算的学习门槛和部署时间,实现了应用实例的即时交付。