首页 > 其他分享 >与时俱进,京东云高性能计算平台

与时俱进,京东云高性能计算平台

时间:2024-12-13 10:20:16浏览次数:5  
标签:AI 平台 与时俱进 高性能 集群 计算 HPC 京东

作者:京东科技 林顺利

持续演进的高性能计算

高性能计算是利用超级计算机实现并行计算的一门技术。通过使用大量通用型计算节点搭建阵列式计算集群,替代单体超级计算机的方式,来实现并行计算加速,已成为高性能计算的通用方案。

经过多年发展,高性能计算已成为各个领域解决复杂计算和进行大规模数据分析的技术底座,如 汽车和航天行业通过空气动力模拟来提升燃油效率、能源行业通过分析地震和地质数据来实现石油勘探、医药行业通过药物筛选和蛋白质结构模拟来加速新药研发、气象行业通过卫星 雷达和探空数据进行计算模拟来预测气候。

近年来人工智能和机器学习迎来了爆炸式发展。DeepMind的科学家开发了能够准确预测蛋白质结构的人工智能工具 AlphaFold,利用AI技术实现了蛋白质合成后从无规则的多肽链自发形成的特定三维结构的精准预测。中国科学技术大学教授研发出数据智能驱动的"机器化学家",通过人工智能完成高通量合成、表征、测试的化学实验全流程,实现了高熵非贵金属析氧反应催化剂的高效创制。

通过人工智能技术来助力和加速科学研究,即AI for Science已成为一种新型的科学研究范式。而AI底层基础设施依赖于高性能计算HPC技术,用于提升AI模型训练和推理速度。

我们可以大胆预测,未来会有越来越多的基础科学研究基于AI+高性能计算的技术来开展。但是对于从事AI的企业和开发者而言,HPC并不是一个能够简易获得、上手即用的方便设施,这里存在着极大地运维和学习成本。

传统的HPC平台

传统的HPC平台基于物理机或云主机,在此之上安装Slurm或PBS调度器实现集群管理和资源监控。对于新入局科学研究行业的企业和开发者、以及AI科学家而言,使用传统高性能计算平台可能会存在诸多问题:

(1)建设成本高

需要采购高主频硬件、RDMA网络和高性能存储;

需要专业的IT运维搭建控制面、数据面、登录节点;

(2)复杂的集群运维

调度组件维护和升级;

SSH用户的文件权限管理;

适应业务动态调整集群资源分区;

存储服务磁盘容量监控、扩容;

用户作业配额管理;

(3)运行任务有一定学习门槛作业提交的交互和非交互模式;作业调度脚本语法;调度器常用命令、参数; (4)弹性能力差

集群满载时,新加入资源从采购到加入集群需要较长时间;

扩容的资源在集群负载不高时闲置,造成资源浪费;

除此之外,容器、微服务、声明式API构成的云原生基础设施,已成为构建AI应用的主流架构。主流人工智能平台和开源的AI框架/套件(如 Tensorflow、Pytorch、Paddlepaddle)支持部署至Kubernetes环境,提升AI模型开发、训练、推理效率。而传统的高性能计算平台目前仍缺乏对云原生底层设施灵活适配的方案和快速扩展的能力。

新一代HPC平台

京东云高性能计算HPC平台致力于降低企业基础设施建设和运维成本,使用户聚焦于高性能计算作业本身,低门槛快速使用平台能力。并且兼顾新型科学研究和AI开发场景,以普惠的方式对外提供高性能计算HPC能力。

兼容物理机、云主机等各类基础设施,支持对用户IDC存量物理节点进行利旧。在此之上构建统一资源管理的调度平台,并最终以产品化交互的方式,对外提供超算作业运行能力。

图片.png

与传统的HPC平台相比,新一代的HPC平台具备种种优势: (1)降低运维和财务成本

  • 基于云的高性能集群,无需用户进行基础设施的搭建和运维;
  • 秒级弹性,一键快速加入集群,扩充计算资源;
  • 集群长时间空闲时快速释放云上资源,降低成本;

图片.png
(2)细粒度权限管控

  • 底层资源使用者不可见不可登录,保障租户安全性;
  • 基于RBAC的权限管理,企业人员变动快速更新权限、停用账户;图片.png

(3)低门槛快速使用

  • 用户无需编写作业脚本,仅需控制台提交作业运行程序,可视化声明资源需求即可运行作业;
  • 适配云原生开发环境,支持通过容器镜像运行作业;
  • 平台集成镜像管理和文件管理能力,制品、算例文件、结果文件在平台内闭环管理;

图片.png(4)丰富的预置软件

平台预置数十款基础科学研究常用的高性能计算软件,用户可直接基于模板软件进行科学计算(部分商业化软件需用户额外购买授权),加速输出计算结果。

图片.png

(5)成本观测和资源优化平台精准跟踪记录用户每一次高性能计算运行所消耗的资源,集群管理者可针对性的进行用户维度的配额限制。过程中的资源监控辅助研发、运维人员观测单任务运行过程实际的资源占用情况,与任务初始分配值对比,优化任务对资源的申领,避免任务申请资源闲置而新任务无法调度。

总结

京东云高性能计算HPC平台以其简易操作的平台体验和云上丰富的弹性资源,为企业和个人开发者在高性能计算任务场景带来了灵活性和便利性。在AI+基础科学的新趋势下,助力企业降本增效。

京东云HPC平台目前处于灰度测试阶段,欢迎通过微信或企业微信扫描下方二维码加入 京东云HPC超算平台交流群 与我们一同交流。

标签:AI,平台,与时俱进,高性能,集群,计算,HPC,京东
From: https://www.cnblogs.com/Jcloud/p/18604361

相关文章

  • 专为高性能汽车设计的Armv9架构的Neoverse V3AE CPU基础知识与软件编码特性解析
    一、ARMv9以及V3AE处理器架构Armv9架构的ArmNeoverseV系列处理器是专为高性能计算设计的产品线,其中V3AE(AdvancedEfficiency)特别强调了性能与效率之间的平衡。以下是关于Armv9架构下NeoverseV3AE处理器结构和指令集的一些详细解读:Armv9架构概述Armv9是ARM最新一代......
  • Next.js 14 实战:使用 App Router 构建高性能 React 应用
    "你们的网站加载速度太慢了,而且SEO效果很差。"上个月,我们接到了一个来自海外客户的紧急需求。他们的电商网站是用传统的ReactSPA构建的,在性能和搜索引擎优化方面都遇到了瓶颈。作为技术负责人,我立刻想到了Next.js14的AppRouter。......
  • 【Nginx-2】使用Docker安装Nginx:快速搭建高性能Web服务器
    Nginx是一款高性能的Web服务器和反向代理服务器,广泛应用于各种Web应用场景。使用Docker安装Nginx可以简化部署过程,提高环境一致性。下面将详细介绍如何使用Docker安装Nginx,并配置一个简单的Web服务器。1.使用Docker安装NginxDocker是一个开源的容器化......
  • 高性能计算-粒子状态模拟计算优化
    1.源码为对粒子移动状态模拟的项目。要求使用多种优化方法,对比串行优化、多线程优化、全部优化下的加速比。2.代码项目代码地址:https://github.com/libo-0379/StellarSim_Optimize以下为核心优化代码及分析/**=========================================================......
  • 【Unity 动态资源管理插件】Runtime Asset Database 支持在游戏或应用运行时加载、卸
    RuntimeAssetDatabase是一款针对Unity开发者的强大插件,它允许开发者在运行时动态管理和加载资源。通过该插件,开发者可以构建一个实时的资源数据库,支持在游戏或应用运行时加载、卸载和管理资产,从而优化资源管理和提高性能。此插件特别适用于需要大规模资源管理或实时内容......
  • LS-DYNA及高性能计算评测
    LS-DYNAx86_64二进制文件大多数版本-ifort+MKL可在IntelXeon和AMDEPYC芯片上运行在两种芯片上通过相同的输入产生相同的显式结果(对于隐式,MKL需要特殊的环境变量)附加版本AOCC+AOCL-可在英特尔至强和AMDEPYC芯片上运行在两种芯片上通过相同的输入生......
  • BlueLM-V-3B:在手机上实现高性能多模态大型语言模型的创新路径
    目录一、前言二、方案概述三、技术创新1、动态图像分辨率优化2、硬件感知的系统优化3、令牌下采样4、模型量化与整体框架优化四、方案亮点五、性能展示1、宽松纵横比匹配效果2、不同基准测试中的表现3、部署效率评估六、应用场景1、智能语音助手2、图像识别与理解3、多......
  • [深入探索FireStore Datastore模式:自动扩展与高性能的结合体]
    #引言在现代应用开发中,数据存储是不可或缺的一环。GoogleFirestore以其强大的扩展性与性能,为开发者提供了一种高效的数据存储解决方案。在这篇文章中,我们将深入探讨Firestore的Datastore模式,并学习如何使用它来保存、加载和删除Langchain文档。同时,我们还将探讨一些常见......
  • 制作类似京东商城产品详细图的放大镜
     源码如下:1<!DOCTYPEhtml>2<htmllang="en">3<head>4<metacharset="UTF-8">5<title></title>6<style>7*{8margin:0;9pad......
  • 基于国产化鸿道Intewell操作系统的高性能实时运动控制解决方案
    工业自动化控制,需要严苛的实时性、稳定性和安全性。随着全球工业自动化技术的不断进步,高性能实时运动控制已成为智能制造的核心,而现在全球竞争紧张的局势下,国产化技术的应用尤为重要,特别是在关键领域和核心产业中。目前国产化高实时运动控制达到了什么样的控制水平呢?软件+......