AMStation训练平台

功能特性

AI计算资源集中管理调度

GPU服务器及GPU卡统一管理，使用状态一览展示

支持资源分组管理，按GPU型号、网络类型、场景用途等

支持用户配额与优先级控制，资源按需申请、动态分配

支持GPU多维细粒度调度，GPU最小可按1G显存进行资源申请

资源亲和调度策略，支持按设备类型、网络类型、缓存数据等进行亲和性调度

训练数据管理

统一管理个人数据及开发数据集，组内数据协同开发；公共数据共享应用

对接企业数据存储系统，支持 NFS、HDFS、BeeGFS 等文件系统

支持文件上传、下载、压缩、解压、新建和删除等

支持用户访问及下载权限设置，保证数据安全可靠

AI开发环境快速部署

采用容器技术，秒速部署深度学习环境

按需申请计算资源，自动调度分配

多用户之间资源和环境隔离

提供 jupter 和 shell 工具，便于代码开发和调试

开发环境的超时提醒

托管式训练任务编排

不同深度学习框架模板，通过模板快速提交训练任务

多机分布式任务自动分配计算资源，自动编排计算进程

按需申请计算资源的 CPU 核数和 GPU 卡数内存和训练集等

紧急任务设置和优先调度策略

用户组任务轮询调度策略

AI 软件栈支持

支持镜像上传、下载

支持镜像分组及镜像分享

支持tar包导入镜像

从DockerHub仓库和NGC仓库拷贝镜像

支持用户自定义创建镜像并保存

产品优势

一站式模型开发训练，缩短模型迭代周期

AMStation涵盖了AI模型开发的所有环节，从数据样本、软件栈管理，到模型架构设计、代码调试、模型训练、调参，到最后的模型管理、评估测试，为算法工程师提供了一站式全流程的AI开发平台，帮助开发人员聚焦模型开发，缩短模型迭代周期；

样本数据本地缓存，提升计算吞吐效率

强大的GPU 算力需要高性能的数据吞吐做支撑，AMStation构建了数据缓存加速机制，支持远端数据的本地加载并参与计算，消除了网络I/O导致的计算延迟。此外，AIStation创新性的提出了数据“零拷贝“传输、多线程拉取、数据增量更新、亲和性调度等策略，可以大幅缩短数据缓存周期，提升模型开发和训练效率。

多维GPU细粒度调度，充分利用计算资源

AMStation实现了对 GPU 显存粒度的资源隔离与调度，用户最小可申请显存为1G的GPU资源进行模型开发，结合平台的超分策略，单卡32G的资源最多可同时提供给48个开发人员隔离使用，AMStation的细粒度调度策略可以大幅缩短用户的资源等待时间，集群整体资源利用率提升30%。

高效弹性的负载调度策略，最大化基础设施的投入产出

AMStation可以为企业级用户提供稳定、高效的算力输出，灵活满足模型开发、调试、训练等不同场景下的算力需求，从单卡多实例的细粒度划分，到多机多卡的大规模并行计算，AIStation可以帮助用户最大限度的释放算力资源。此外，AMStation面向企业多租户多任务的场景，提供了优先级、紧急任务、轮询作业、空载监控等资源调度管理策略，保证计算资源被合理充分利用，有效的提高投资回报率；

智能容错机制，保证计算系统及训练任务稳定可靠

AMStation 针对平台稳定性提供了完善的容错机制和策略，包括节点资源及关键服务的监控和异常处理、训练任务运行监控及异常处理、管理节点HA监控及异常处理，保障平台服务与模型开发业务的平稳运行。

公有云

私有云

人工智能

AMStation训练平台