A NVIDIA leva inferência e IA a novos níveis de desempenho e eficiência da nuvem até o edge, segundo os mais recentes benchmarks do setor. Em uma nova rodada de testes MLPerf, as GPUs NVIDIA H100 Tensor Core executadas em sistemas DGX H100 apresentaram o mais alto desempenho em todos os testes de inferência de IA, o trabalho de executar redes neurais em produção. Graças às otimizações de software, as GPUs apresentaram ganhos de desempenho de até 54% desde sua estreia em setembro.
Alimentada por seu Transformer Engine, a GPU H100, baseada na arquitetura Hopper, se destacou no BERT, um grande modelo de linguagem baseado em transformer que abriu o caminho para o amplo uso da IA generativa. O BERT foi projetado para ajudar os computadores a entender o significado de linguagem ambígua no texto, usando o texto ao redor para estabelecer um contexto.
A IA generativa permite que os usuários criem rapidamente textos, imagens, modelos 3D e muito mais. É um recurso que as empresas, startups e provedores de serviços em nuvem estão adotando rapidamente para habilitar novos modelos de negócios e acelerar os existentes.
Centenas de milhões de pessoas agora estão usando ferramentas de IA generativas como o ChatGPT – também um modelo transformer – esperando respostas instantâneas.
Neste momento da IA do iPhone, o desempenho na inferência é vital. O deep learning agora está sendo implantado em quase todos os lugares, gerando uma necessidade insaciável de desempenho de inferência, desde o chão de fábrica até os sistemas de recomendação online.
GPUs L4 aceleram desde o início
NVIDIA L4 Tensor Core GPUs fizeram sua estreia nos testes MLPerf com mais de 3x a velocidade das GPUs T4 da geração anterior. Empacotados em um form factor de baixo perfil, esses aceleradores são projetados para oferecer alta taxa de transferência e baixa latência em praticamente qualquer servidor.
As GPUs L4 executaram todas as cargas de trabalho MLPerf. Graças ao seu suporte para o formato chave FP8, seus resultados foram particularmente impressionantes no modelo BERT com fome de desempenho.
Além do excelente desempenho de IA, as GPUs L4 oferecem decodificação de imagem até 10x mais rápida, processamento de vídeo até 3,2x mais rápido, gráficos 4x mais rápidos e desempenho de renderização em tempo real.
Anunciados no GTC, esses aceleradores já estão disponíveis nos principais fabricantes de sistemas e provedores de serviços em nuvem. As L4 são a mais novas GPUs adicionadas ao portfólio de plataformas de inferência de IA da NVIDIA, lançadas no GTC.
“Com o avanço da IA generativa, os softwares disponibilizados pela NVIDIA estão auxiliando no desempenho e otimização das cargas de trabalho. É muito importante contribuirmos com essas tecnologias, principalmente para as grandes empresas do setor”, destaca Marcio Aguiar, Diretor da divisão Enterprise da NVIDIA para América Latina.
Software, Network brilham em teste de sistema
A plataforma full-stack IA da NVIDIA mostrou sua liderança em um novo teste MLPerf.
O chamado benchmark de divisão de network transmite dados para um servidor de inferência remoto. Ele reflete o cenário popular de usuários corporativos, executando trabalhos de IA na nuvem, com dados armazenados atrás de firewalls corporativos.
No BERT, os sistemas remotos NVIDIA DGX A100 forneceram até 96% de seu desempenho local máximo, em parte porque precisavam esperar que as CPUs concluíssem algumas tarefas. No teste ResNet-50 para visão computacional, tratado exclusivamente por GPUs, eles atingiram 100%.
Ambos os resultados se devem, em grande parte, à rede NVIDIA Quantum Infiniband, NVIDIA ConnectX SmartNICs e software como o NVIDIA GPUDirect.
Orin mostra ganhos de 3,2x no edge
Separadamente, o sistema em módulo NVIDIA Jetson AGX Orin apresentou ganhos de até 63% em eficiência energética e 81% em desempenho em comparação com seus resultados do ano anterior. O Jetson AGX Orin fornece inferência quando a IA é necessária em espaços restritos com baixos níveis de energia, inclusive em sistemas alimentados por baterias.
Para aplicações que precisam de módulos ainda menores consumindo menos energia, o Jetson Orin NX 16G brilhou em sua estreia nos benchmarks. Ele forneceu até 3,2x o desempenho do processador Jetson Xavier NX da geração anterior.
Um amplo ecossistema de IA da NVIDIA
Os resultados do MLPerf mostram que a NVIDIA AI é apoiada pelo ecossistema mais amplo do setor em deep learning.
Dez empresas apresentaram resultados na plataforma NVIDIA nesta rodada. Eles vieram do serviço de nuvem Microsoft Azure e fabricantes de sistemas, incluindo ASUS, Dell Technologies, GIGABYTE, H3C, Lenovo, Nettrix, Supermicro e xFusion.
O trabalho deles mostra que os usuários podem obter um ótimo desempenho com a NVIDIA AI tanto na nuvem quanto em servidores executados em seus próprios data centers.
Os parceiros da NVIDIA participam do MLPerf porque sabem que é uma ferramenta valiosa para clientes que avaliam plataformas e fornecedores de IA. Os resultados da última rodada demonstram que o desempenho que eles oferecem hoje crescerá com a plataforma NVIDIA.
Os usuários precisam de desempenho versátil
A NVIDIA AI é a única plataforma para executar todas as cargas de trabalho e cenários de inferência MLPerf em data center e computação de edge. Seu desempenho versátil e eficiência tornam os usuários verdadeiros vencedores.
Aplicações do mundo real geralmente empregam muitas redes neurais de diferentes tipos que precisam fornecer respostas em tempo real.
Por exemplo, uma aplicação de IA precisa entender a solicitação através da voz de um usuário, classificar uma imagem, fazer uma recomendação e, em seguida, entregar uma resposta como uma mensagem em voz humana. Cada etapa requer um tipo diferente de modelo de IA.
Os benchmarks MLPerf abrangem essas e outras cargas de trabalho populares de IA. É por isso que os testes garantem que os tomadores de decisão de TI obtenham um desempenho confiável e flexível para implantar.
Os usuários podem confiar nos resultados do MLPerf para tomar decisões de compra informadas, pois os testes são transparentes e objetivos. Os benchmarks contam com o apoio de um amplo grupo que inclui Arm, Baidu, Facebook AI, Google, Harvard, Intel, Microsoft, Stanford e a Universidade de Toronto.
Software que você pode usar
A camada de software da plataforma NVIDIA AI, NVIDIA AI Enterprise, garante que os usuários obtenham desempenho otimizado de seus investimentos em infraestrutura, bem como suporte, segurança e confiabilidade de nível empresarial necessários para executar IA no data center corporativo.
Todo o software usado para esses testes está disponível no repositório MLPerf, para que qualquer pessoa possa obter esses resultados de classe mundial.
As otimizações são continuamente agrupadas em contêineres disponíveis no NGC, o catálogo da NVIDIA para software acelerado por GPU. O catálogo hospeda o NVIDIA TensorRT, usado por todos os envios nesta rodada para otimizar a inferência de IA.
Sobre a NVIDIA
Desde sua fundação em 1993, a NVIDIA (NASDAQ: NVDA) tem sido pioneira em computação acelerada. A invenção da GPU pela empresa em 1999 estimulou o crescimento do mercado de games para PC, redefiniu a computação gráfica, iniciou a era da IA moderna e tem ajudado na criação do metaverso. A NVIDIA agora é uma empresa de computação full-stack com soluções em escala de data center que estão revolucionando o setor. Mais informações em: https://blog.nvidia.com.br/.
Acesse também:
Site oficial da NVIDIA no Brasil: https://www.nvidia.com/pt-br/
Facebook: @NVIDIABrasil
Twitter: @NVIDIABrasil
YouTube: NVIDIA Latinoamérica