NVIDIA anuncia o Dynamo, software aberto de aceleração de inferência de IA para empresas

março 19, 2025 Geeknauta

A NVIDIA anunciou nesta semana seu novo software de inferência de código aberto, o Dynamo. A empresa diz que criou o programa para otimizar o uso de IA profissional em escala industrial, onde são usadas GPUs em grandes quantidades. Segundo a dona das GeForce, o NVIDIA Dynamo acelera o desempenho de IA ao otimizar o processamento das GPUs.

“Orquestrar e coordenar de forma eficiente as solicitações de inferência de IA em uma grande frota de GPUs é crucial para garantir que as fábricas e IA operem com o menor custo possível, maximizando a geração de receita por token”, diz a NVIDIA.

Esquema explica funcionamento do software para otimização de inferência — Fonte: NVIDIA

O NVIDIA Dynamo é um sucesso para o Triton Inference Server, que a companhia afirma ter desempenho consideravelmente melhor. Segundo a NVIDIA, seu novo software é capaz de dobrar o desempenho e receita de instalações para IA com modelo Llama e GPUs Hopper. Em um teste específico num cluster de GB200 NVL72 rodando DeepSeek R1, a geração de token teria aumentado em 30 vezes por GPU.

NVIDIA promete muito mais performance com o Dynamo — Fonte: NVIDIA

“As indústrias ao redor do mundo estão treinando modelos de IA para pensar e aprender de maneiras diferentes, tornando-os mais sofisticados ao longo do tempo”, declarou Jensen Huang, fundador e CEO da NVIDIA. “Para possibilitar um futuro de IA personalizada para raciocínio, o NVIDIA Dynamo ajudará a fornecer esses modelos em escala, gerando economias de custo e eficiências nas fábricas de IA.”

NVIDIA Dynamo funciona com quatro “pilares” de inferência

Para explicar melhor o funcionamento do NVIDIA Dynamo, a empresa separou quatro “pilares” que estruturam melhor como o software promete otimizar as GPUs para inferência de diferentes modelos IA:

GPU Planner: o “planejador de GPU” identifica e adiciona ou remove GPUs de maneira dinâmica para se ajustar à demanda do uso, a fim de evitar provisionamento excessivo ou insuficiente.
Smart Router: o “roteador inteligente” direciona as solicitações e evita recomputações de solicitações repetidas ou sobrepostas no LLM.
Low-Latency Communication Library: uma “biblioteca de comunicação de baixa latência” para ajudar na comunicação entre GPUs de última geração e acelerar a transferência de dados entre dispositivos heterogêneos.
Memory Manager: recurso de “gerenciamento de memória”, que armazena ou apaga dados de inferência em dispositivos de armazenamento de baixo custo.

Novo software aberto já está disponível

O NVIDIA Dynamo chegou primeiro aos microsserviços NVIDIA NIM, então já está disponível na plataforma. O software também será integrado a uma futura versão do NVIDA AI Enterprise, com um suporte mais completo para ser oferecido como serviço às empresas.

Notícias relacionadas:

A NVIDIA falou mais do Dynamo em sua keynote no GTC, para quem se interessar. No site oficial da empresa (em inglês) também tem mais informações detalhadas sobre o serviço, é só clicar aqui.

Facebook Comments Box