大型号是缺电吗?浪潮信息也来“掘金卖铲子

日期:2023-09-05 10:52:24 / 人气:283


过去一周,浪潮信息发布了新产品OGAI(Open GenAI Infra),意在为大型模型业务提供AI计算系统环境部署、计算能力调度和开发管理能力的软件栈。
浪潮信息作为服务器型企业,具备生成式AI带来的算力牵引潜力,下游客户需求旺盛。另一方面,由于英伟达、英特尔等供应商的出口限制,人工智能芯片普遍供不应求,制作软件也是提升市场竞争力的一个替代方案。
浪潮信息高级副总裁刘军对钛媒体表示,现阶段仍处于大规模模型的开发阶段。除了计算能力不足,基本的模型能力还没有得到足够的提升,最终的成果可能不会真正投入使用。
刘军认为,当计算电源解决到一定程度,基础大模型的开发能力提升到一定程度,就具备了商业化能力,进而打开在各种场景和应用的落地通道。在国内,现阶段还没有真正能达到GPT-4的型号,这意味着把所有的应用和创新能力都寄托在OpenAI上显然是不可能的,也是不现实的。
大模型也需要生产力工具。
公开资料显示,2021年9月,浪潮信息已经在研发大模型,面向大模型场景解决方案,支持AI芯片和服务器构建低时延分布式系统。
浪潮信息发布大型中文语言模型“源1.0”,参数2457亿。在“源”模型的研发过程中,浪潮信息的AI团队逐步建立了从公共数据抓取到数据清洗、格式转换、数据质量评估的完整流程和工具链,完成了5TB高质量中文数据集的清洗。“源”大模型的数据集和清洗经验,已经帮助国内很多AI团队提升了大模型的性能。
在这个过程中,浪潮信息在大模型的开发和应用中遇到了很多问题,比如常见的计算能力调度、数据清洗、大模型分布式训练性能差等等。为此,浪潮信息团队从三个层面进行优化:一是系统全栈,对于涉及多团队、多环节、多流程的业务,需要系统化的架构和全栈解决方案;二是兼容性和适应性,因为模型训练需要大量的开源工具和组件,但是存在兼容性和性能问题;第三是性能优化的挑战。大型集群系统包含成千上万个组件。如何优化性能是个问题。
例如,为了提高大规模模型分布式训练的计算效率,特别是在实际的AI集群环境中,可能会出现GPU之间互连带宽有限,或者AI服务器之间网络互连带宽有限的情况。从2022年开始,浪潮信息为客户将大规模模型训练GPU的峰值效率从30%左右提升到50%,从而提高GPU利用率。
在“源”大模型研发过程中,浪潮信息通过改造云原生调度系统,大幅加快启动速度,重点解决RDMA网络在容器中的接入和适配优化,构建满足大模型需求的计算能力调度系统;针对训练任务的长期稳定运行,浪潮信息还针对集群性能推出了多种监控手段和性能数据分析方法。
客户最关心什么?
然而,除了计算能力资源的限制,AIGC的实现还有很多技术难点,包括极具挑战性的模型训练、效果评估和落地场景应用,这些都是普通开发者和中小企业无法企及的。
OGAI(Open GenAI Infra)元脑智能软件栈整体由五层组成,从L0到L4分别对应基础架构层的智能中心OS产品、系统环境层的PODsys产品、调度平台层的AIStation产品、模型工具层的YLink产品和多模纳米管层的MModel产品。
L0智能计算中心OS的定位是为智能计算中心、多租户场景等公共计算服务平台提供基于裸机的灵活多样的AI计算服务。
L1层PODsys专注于AI集群部署场景,提供了包括基础设施环境安装、环境部署、用户管理、系统监控、资源调度在内的一整套工具链,旨在打造易用、高效、开放、兼容的智能计算集群系统环境部署方案。
L2 AIStation以AI开发场景为核心,通过云原生技术对集群系统中的计算资源、存储资源和网络资源进行统一访问和管理,提供易用的开发环境和作业管理接口,并基于内置的计算能力调度系统和训练稳定性保障系统,实现了一个易于访问、按需分发、灵活扩展、高效稳定的AI R&D应用支撑平台。
L3 YLink专注于大模型开发流程,通过整合浪潮信息在大模型开发流程中的工具和开源工具,为用户提供高效、便捷、标准化的大模型开发优化流程。
L4层MModel定位于多模型管理和服务平台,帮助客户更好地管理和评估模型,加速模型的部署和应用。
浪潮信息人工智能与高性能应用软件部AI架构师欧文朱(Owen ZHU)也对钛媒体表示,“现在企业面临的最大挑战是需要使用大规模的硬件基础设施来训练一个与ChatGPT能力相当的模型。这种复杂性是固有的。”
他解释说,OGAI技术栈是从L0到L4分层设计实现的,也就是说,不需要把整个OGAI技术栈提供给用户来实现大规模的模型开发,而是选择需要实现的层次功能。如果用户只需要提供多租户的裸机解决方案,他们可能只需要L0层的智能计算中心OS,并不关心最终用户将如何开发大型模型。如果用户需要与模型开发相关的工具链,可以根据需要选择L3 YLink为R&D和生产提供的各种工具。
关于发布OGAI的初衷,欧文朱指出“浪潮信息是做这件事的先行者,这是由视角决定的。浪潮信息服务过全球客户,包括国内最重要的AI应用客户群体,能够第一时间感知大模型市场缺什么,遇到什么问题。”
从用户的角度来看,更强的计算基础设施也会倒逼需求方进一步升级。“做模型的不知道算力,做模型的不知道模型”的说法由来已久,但是很多算法的创新和硬件的发展是相辅相成的,需要共同发展。
浪潮信息的这种做法是否可行,还需要市场来验证。
(本文为第一钛媒体APP,作者|杨力)”

作者:焦点娱乐




现在致电 5243865 OR 查看更多联系方式 →

COPYRIGHT © 焦点娱乐 版权所有