面向开发者的生成式 AI

生成式 AI 引入了新一波开发者工具、框架和应用。不断扩大的生态系统有助于训练大规模的多模态模型、针对用例进行微调、从数据中心到最小的嵌入式设备进行量化和部署。构建生成式 AI 应用程序的开发者需要具有从芯片和系统软件到加速库和应用开发框架的全栈优化的加速计算平台。借助 NVIDIA 托管的模型 API 和预构建的推理微服务，您可以随时随地部署模型。

了解详情

NVIDIA 全栈生成式 AI 软件生态系统

NVIDIA 提供一整套加速计算平台专为生成式 AI 工作负载打造该平台兼具深度和广度，提供硬件、软件和服务的组合，所有这些都由 NVIDIA 及其广泛的合作伙伴生态系统构建而成，以便开发者提供尖端解决方案。

Explore NVIDIA full-stack generative AI software ecosystem

构建特定领域的应用程序

为特定用例和领域构建应用程序需要用户友好的 API、高效的微调技术，在 LLM 应用程序的背景下，还需要与稳健的第三方应用程序、向量数据库和护栏系统集成。 NVIDIA 提供托管的 API 端点和预构建的推理微服务让开发者能够随时随地部署最新的 AI 模型，从而快速构建自定义生成式 AI 应用。

我们的软件堆栈为 OpenAI、Cohere、Google VertexAI 和 AzureML 等合作伙伴提供支持，使开发者能够使用生成式 AI API 端点。对于特定领域的自定义或使用数据库增强应用程序，除了 NVIDIA NeMo™NVIDIA 的生态系统包括 Hugging Face、LangChain、LlamaIndex 和 Milvus。

评估和部署安全模型

为部署安全可靠的模型，NeMo 提供了简单工具用于评估经过训练和微调的模型，包括 GPT 和其变体。开发者还可以通过 NeMo 警戒线控制 LLM 应用程序的输出，例如实施控制以避免讨论政治问题，并根据用户请求定制响应。

MLOps 和 LLMOps 工具可进一步帮助评估 LLM 模型。 NVIDIA NeMo 可与 LLMOps 工具 (如权重和偏差和 MLFlow。开发者还可以使用 NVIDIA Triton™ 推理服务器来分析模型性能和标准化 AI 模型部署。

优化模型架构和技术

在计算基础架构上加速特定的生成式 AI 计算需要专门设计的库和编译器，以满足 LLM 的需求。一些非常热门的库包括 XLA、Megatron-LM, CUTLASS, CUDA®, NVIDIA ® TensorRT™-LLM, RAFT 和cuDNN。

在加速基础设施上编排生成式 AI 工作负载

构建大规模模型通常需要超过数千个 GPU，而推理则在多节点、多 GPU 配置中进行，以解决内存受限的带宽问题。这需要能够在加速基础设施上精心编排不同的生成式 AI 工作负载的软件。一些管理和编排库包括 Kubernetes、Slurm、Nephele 和 NVIDIA Base Command™.

NVIDIA 加速计算平台为这些应用提供基础架构，以便在数据中心、云端或本地桌面和笔记本电脑上以最经济高效的方式运行。强大的平台和技术包括 NVIDIA DGX™ 平台, NVIDIA HGX™ 系统, NVIDIA RTX™ 系统和 NVIDIA Jetson™。