中科南京信息高铁智算算力网AI平台支持适配NVIDIA大模型Nemotron-4 340B

 英伟达(NVIDIA)作为全球领先的人工智能和计算平台供应商,一直以来致力于推动技术创新,近日,英伟达推出了Nemotron-4 340B的系列开源模型,为目前开源内参数量最大的LLM模型,开发者可以使用它们生成用于训练大型语言模型(LLM)的合成数据,以应用于医疗、金融、制造、零售及其他各行各业的商业应用。信息高铁智 算算力网AI平台已适配Nemotron-4 340B大模型,用户可一键部署该大模型。

Nemotron-4 340B介绍

模型组成

Nemotron-4 340B由三个主要部分组成:Base模型、Instruct模型和Reward模型,每个模型都有其独特的功能和用途,为定制化LLM的生成和优化提供全面支持,形成合成数据pipeline。   

图解:在这个合成数据pipeline中,(1)Nemotron-4 340B Instruct模型用于生成基于文本的合成输出。然后,评估模型 (2)Nemotron-4 340B Reward评估生成的文本并提供反馈,从而指导迭代改进并确保合成数据的准确

模型训练数据

预训练数据集由三种类型的数据构成:英文自然语言数据(70%)、多语言自然语言数据(15%)和源代码数据(15%)。英文语料库选 自多种来源和领域,包括网页文档、新闻文章、科学论文和书籍等。多语言数据涵盖了53种自然语言,包含单语和平行语料库中的文档。代码数据集则由43种编程语言的数据组成。总训练数据量为9T token,其中前8T token用于正式预训练阶段,最后1T token用于持续预训练阶段。

Nemotron-4 340B在训练过程中大量使用了合成数据,模型对齐过程中使用的数据有超过 98%是合成生成的,充分展示了这些模型在合成数据生成方面的有效性。

模型评估

该模型与其他开放访问的基础模型(如Llama-3 70B、Mistral 8x22和Qwen-2 72B)进行了比较,Nemotron-4-340B-Base在常识推理任务以及BBH等流行基准上表现最为优异。此外,它在MMLU和HumanEval等代码评估基准上的表现也非常有竞争力。

详见论文Nemotron-4 340B Technical Report[1]

支持用户一键部署大模型

信息高铁智算算力网AI平台依托信息高铁综合试验基础设施,提供Notebook服务、分布式训练、模型推理服务、资源管理等功能,支持用户进行灵活的开发、高效的训练和部署。通过智能资源管理和全局调度引擎优化算力利用效率。通过算力并网技术,提供多元异构算力支持、多编辑框架、多人工智能平台支持,可实现一站式、无切换地使用国内外主流AI加速卡,满足用户多样化的智算算力服务需求。

信息高铁智算算力网AI平台第一时间适配Nemotron-4 340B大模型,可实现用户一键部署大模型,并以API或web提供模型推理服务。

 

 

 

截至目前,信息高铁智算算力网AI平台已支持适配了Nemotron-4 340B、Grok-1 314B、Qwen系列、Llama系列、Baichuan系列、chatGLM系列等常用开源大模型供用户选择一键部署,除NVIDIA加速卡外,平台同时还支持国产海光DCU、华为昇腾、寒武纪MLU等。

信息高铁综合试验基础设施是面向国家重大战略需求的新一代算力基础设施,获得江苏省重大科技基础设施预研项目和南京城市算力网创新型产业集群项目的大力支持,参与“东数西算”工程,服务全国一体化算力网建设。依托信息高铁综合试验基础设施的信息高铁智算算力网AI平台,面向异构异属异域的智算算力网场景,已服务几十家客户,涉及多语言大模型、医学大语言模型、AI大模型生长训练、大模型智能客服等领域,赋能行业智能化转型的创新实践。信息高铁智算算力网AI平台现已对外开放,欢迎有需要的伙伴合作试用。

 

联系方式:

运营邮箱:aioperator@ictnj.ac.cn

联系电话:15380837880(微信同号)

 

参考文献:

[1] https://arxiv.org/pdf/2406.11704v1

创建时间:2024-07-06 10:20

来源:中科南京信息高铁研究院