AMStation训练平台

AMStation是面向人工智能企业训练场景的人工智能开发资源平台,可实现容器化部署、可视化开发、集中化管理等,为用户提供极致高性能的AI计算资源,实现高效的计算力支撑、精准的资源管理和调度、敏捷的数据整合及加速、流程化的AI场景及业务整合,有效打通开发环境、计算资源与数据资源,提升开发效率。

功能特性

AI计算资源集中管理调度

GPU服务器及GPU卡统一管理,使用状态一览展示 

支持资源分组管理,按GPU型号、网络类型、场景用途等

支持用户配额与优先级控制,资源按需申请、动态分配 

支持GPU多维细粒度调度,GPU最小可按1G显存进行资源申请

资源亲和调度策略,支持按设备类型、网络类型、缓存数据等进行亲和性调度

训练数据管理

统一管理个人数据及开发数据集,组内数据协同开发;公共数据共享应用 

对接企业数据存储系统,支持 NFS、HDFS、BeeGFS 等文件系统 

支持文件上传、下载、压缩、解压、新建和删除等 

支持用户访问及下载权限设置,保证数据安全可靠

AI开发环境快速部署 

采用容器技术,秒速部署深度学习环境 

按需申请计算资源,自动调度分配 

多用户之间资源和环境隔离 

提供 jupter 和 shell 工具,便于代码开发和调试

开发环境的超时提醒

托管式训练任务编排 

不同深度学习框架模板,通过模板快速提交训练任务 

多机分布式任务自动分配计算资源,自动编排计算进程 

按需申请计算资源的 CPU 核数和 GPU 卡数内存和训练集等 

紧急任务设置和优先调度策略 

用户组任务轮询调度策略

AI 软件栈支持 

支持镜像上传、下载 

支持镜像分组及镜像分享 

支持tar包导入镜像 

从DockerHub仓库和NGC仓库拷贝镜像 

支持用户自定义创建镜像并保存

产品优势

一站式模型开发训练,缩短模型迭代周期

AMStation涵盖了AI模型开发的所有环节,从数据样本、软件栈管理,到模型架构设计、代码调试、模型训练、调参,到最后的模型管理、评估测试,为算法工程师提供了一站式全流程的AI开发平台,帮助开发人员聚焦模型开发,缩短模型迭代周期;

样本数据本地缓存,提升计算吞吐效率

强大的GPU 算力需要高性能的数据吞吐做支撑,AMStation构建了数据缓存加速机制,支持远端数据的本地加载并参与计算,消除了网络I/O导致的计算延迟。此外,AIStation创新性的提出了数据“零拷贝“传输、多线程拉取、数据增量更新、亲和性调度等策略,可以大幅缩短数据缓存周期,提升模型开发和训练效率。

多维GPU细粒度调度,充分利用计算资源

AMStation实现了对 GPU 显存粒度的资源隔离与调度,用户最小可申请显存为1G的GPU资源进行模型开发,结合平台的超分策略,单卡32G的资源最多可同时提供给48个开发人员隔离使用,AMStation的细粒度调度策略可以大幅缩短用户的资源等待时间,集群整体资源利用率提升30%。

高效弹性的负载调度策略,最大化基础设施的投入产出

AMStation可以为企业级用户提供稳定、高效的算力输出,灵活满足模型开发、调试、训练等不同场景下的算力需求,从单卡多实例的细粒度划分,到多机多卡的大规模并行计算,AIStation可以帮助用户最大限度的释放算力资源。此外,AMStation面向企业多租户多任务的场景,提供了优先级、紧急任务、轮询作业、空载监控等资源调度管理策略,保证计算资源被合理充分利用,有效的提高投资回报率;

智能容错机制,保证计算系统及训练任务稳定可靠

AMStation 针对平台稳定性提供了完善的容错机制和策略,包括节点资源及关键服务的监控和异常处理、训练任务运行监控及异常处理、管理节点HA监控及异常处理,保障平台服务与模型开发业务的平稳运行。