鲲鹏社区首页
中文
注册
我要评分
文档获取效率
文档正确性
内容完整性
文档易理解
在线提单
论坛求助

政府HPC场景

场景描述

超级计算机系统作为科技实力和综合国力的重要标志,是一个国家最尖端的信息技术综合体。超级计算作为科研工作的重要支撑平台,采用计算、通信和数据处理能力强大的计算机进行数据处理、信息服务、在线事务处理和科学工程计算,承载了各学科科学和工程计算任务,包括在新材料设计、新型纳米结构、全球气候变化研究、工业工程设计、航空航天制造、人工智能的研究等方面发挥了重要作用。

建设国家(区域)政府HPC中心已成为当前国内发达省市科技竞争的制高点,政府HPC中心基于场景提供不同的HPC算力和AI算力,短期满足区域经济发展、产业升级、科学研究、城市服务等方面需求,长期提供业界一流的高性能计算、人工智能、大数据处理等服务,拉通价值链,通过合作形成产业生态,实现共赢。同时,政府HPC中心作为新时代数字经济发展新引擎,构建城市智能体、工业智能体和科学智能体等能力。

政府HPC中心提供资源+工具型服务,支撑应用层多样化业务/客户。其中,业务/客户以科研、政府、高安全敏感行业等大型负载业务为主,以其它小型负载业务为辅,需根据不同负载灵活调度资源,降低功耗,提高资源利用率。应用领域包括:量子化学、分子模拟、气象预报、天气研究、油气勘探、流体力学、结构力学、核反应等。随着经济发展和社会进步,科学研究、经济建设、国防安全等领域对高性能计算设施及环境提出了越来越高的需求,不仅高性能计算的应用需求急剧增大,而且应用范围从传统领域不断扩大到资源环境、航空航天、新材料、新能源、医疗卫生、金融、互联网、文化产业等经济和社会发展的众多领域。

业务挑战

  • 计算资源多样化

    由于高性能计算中心应用种类多,需求复杂,需要满足各种应用需求,推动CPU+GPU异构计算技术的快速发展。此时,需要更大带宽、更低时延的存储以充分释放算力潜能,需要适配不同的性能模型以匹配业务负载的多样化趋势,比如同时提供对带宽与OPS(Operations per Second)的支持。

  • InfiniBand/OPA网络成为主流

    虽然并非所有的应用软件在计算过程中对网络都有较大的需求,但是依然有数量巨大的应用软件,在实现大规模并行计算时,高带宽和低延时的InfiniBand或Omni-Path网络会带来应用性能和扩展性的大幅提升,尤其随着CPU多核化的快速发展,单节点的计算性能越来越强,带来节点间通讯的压力越来越大,InfiniBand或Omni-Path等高速网络几乎成为许多高性能计算应用的标配。高性能集群对共享文件系统的需求也要求数据通过网络来对集中存储进行访问,高带宽的InfiniBand和Omni-Path网络也会带来数据访问性能的快速增长。

  • 文件系统并行化和分级化

    高性能计算中心应用计算能力强、应用数量多,除了一部分高IO应用会给共享文件系统带来较大压力,同时,海量任务的并发读写也会带给文件系统较大的负载。海量的数据和高性能集群统一文件映像的需求,也要求高性能计算中心有一个海量的单一文件分区。目前比较常用的解决方案为并行文件系统,并行文件系统通过软件的方式能够实现多个存储空间的单一分区和并发读写,突破硬件资源设计的瓶颈,带来灵活的扩展性和性能的大幅提升。

    面对数量巨大的用户,不同用户所享有的权限一般也会分几个等级,那么用户享有的数据安全性程度也有不同。不同应用的文件访问类型也有明显不同,有的是大文件为主,有的是小文件,但是数量巨大。所以在方案设计中,最好使用分层的分级存储。

  • 管理调度系统精细化

    由于高性能计算中心用户数量多,权限有一定差异,离散度高,带来管理的难度加大。计算中心的运维方主要给用户提供服务,对用户的使用权限、记账、管理等方面要求比较高。高性能计算中心对管理软件和调度软件的要求较高,一般除了普通的调度功能外,还要可以实现灵活的策略分配和权限分配,作业记账、用户抢占,限制用户登入、报警、系统快速恢复等功能。同时,还要制定一定的规章制度,来规范用户对资源的申请、使用和分配。

  • 节能和环保越来越重要

    高性能计算中心规模大,电费开支是一项不小的开销。一般一年的电量达到上万甚至数十万千瓦时,节能环保不但能实现设备的绿色低碳,同时也能大大降低运维费用。建设方一般通过低功耗处理器、节能软件、高制冷效率基础设施(水冷机组或封闭式制冷机柜)等方式实现绿色节能。近些年液冷制冷技术已经成熟,越来越多的用户采用液冷服务器。

  • 数据安全日益受到关注
    在高性能集群上的用户数据众多,用户的数据安全需要特别关注。尤其伴随着近些年比特币“挖矿”的热潮,对集群的恶意攻击日益增多,高性能计算系统的安全防护已经成为系统建设和技术发展的重点部分。数据安全主要包含以下两方面的内容。
    • 可能遭到网络黑客的远程攻击,或者其它用户的窃取,或者由于用户名密码的丢失被窃取。解决方法可以是使用防火墙、加密文件系统、以及加密认证登录系统来进行安全防护。
    • 由于设备故障或地震、火灾等因素造成的数据丢失,可以使用数据备份等方式来解决。