信息高铁智算算力网AI开发平台2.0助力南京城市算力网平台实现首单交易
近日,南京城市算力网平台部署实现首单交易,企业通过平台购买智算算力,用于大模型开发与训练,依托我院的信息高铁综合试验基础设施,信息高铁智算算力网AI开发平台2.0(以下简称AI平台2.0)为本次智算交易提供包括智算并网、智算调度以及智算服务等全面技术功能支持。
AI平台2.0版本集成了最新技术成果,针对当前用户在大模型开发与应用过程中的一系列新的挑战提供更高效的解决方案。
化繁为简,一键操作一键配置
在训练阶段,用户常遇到复杂的环境配置需求以及模型结构的多样性导致的适配难题,AI平台2.0全面支持端到端的大模型开发流程,允许用户通过一键操作提交并统一管理各项任务,相较于1.0版本,平台针对分布式训练参数配置的复杂性进行了优化升级,特别提供了针对大模型训练与微调任务的分布式一键配置功能,简化了用户操作流程,极大提升工作效率。
化难为易,像本地部署一样轻松
在推理阶段,用户在部署本地化、私有化大模型时,常因缺乏相关经验而遭遇性能优化的瓶颈,AI平台2.0集成了高性能的推理服务框架,并提供了多样化的部署机制,用户可以轻松地将大模型应用部署至各类环境中,像本地部署一样轻松。为解决用户在获取资源时可能遇到的困难,平台内置的制品仓库,整合了市面上主流的开发模型、数据集及镜像资源,用户可按需调用。
优化大模型训练效率与稳定性
针对在有限硬件资源条件下高效训练大型AI模型的挑战,降低大规模模型并行训练中的通信成本并提升训练效率,AI平台2.0集成了多种先进的训练和加速框架,确保用户享受高效且稳定的大模型微调支持服务。
此外,针对大模型训练过程中算力资源占用高、稳定性难以保证的难题,AI平台2.0特别推出了基于拓扑感知的大规模模型训练与推理自适应运维调度策略,实现训练任务的分钟级恢复,从而为需要长时间训练的大模型提供一个稳定可靠的运行环境。
增强任务调度能力
在提供选定的算力站调度策略基础上,增加面向资源需求的调度策略,通过智算算力池提供的可调度算力资源目录进行适配与查找,通过智算任务编排管理模块将算力资源、模型特性任务进行统一编排绑定,完成算力资源方法的调用,构建成符合用户调度倾向的调度方案实施调度下发。扩大调度适配范围,提升调度效率。
未来,信息高铁智算算力网AI开发平台将持续更新迭代,以满足不断增长的智算服务需求,助力人工智能技术生态蓬勃发展。
如需了解更多关于AI平台2.0的信息,请访问以下链接:https://aicloud.oneainexus.cn:30013/home/#/home。
来源:中科南京信息高铁研究院