NVIDIA anuncia o Dynamo, software aberto de aceleração de inferência de IA para empresas
A NVIDIA anunciou nesta semana seu novo software de inferência de código aberto, o Dynamo. A empresa diz que criou o programa para otimizar o uso de IA profissional em escala industrial, onde são usadas GPUs em grandes quantidades. Segundo a dona das GeForce, o NVIDIA Dynamo acelera o desempenho de IA ao otimizar o processamento das GPUs.
“Orquestrar e coordenar de forma eficiente as solicitações de inferência de IA em uma grande frota de GPUs é crucial para garantir que as fábricas e IA operem com o menor custo possível, maximizando a geração de receita por token”, diz a NVIDIA.

O NVIDIA Dynamo é um sucesso para o Triton Inference Server, que a companhia afirma ter desempenho consideravelmente melhor. Segundo a NVIDIA, seu novo software é capaz de dobrar o desempenho e receita de instalações para IA com modelo Llama e GPUs Hopper. Em um teste específico num cluster de GB200 NVL72 rodando DeepSeek R1, a geração de token teria aumentado em 30 vezes por GPU.

“As indústrias ao redor do mundo estão treinando modelos de IA para pensar e aprender de maneiras diferentes, tornando-os mais sofisticados ao longo do tempo”, declarou Jensen Huang, fundador e CEO da NVIDIA. “Para possibilitar um futuro de IA personalizada para raciocínio, o NVIDIA Dynamo ajudará a fornecer esses modelos em escala, gerando economias de custo e eficiências nas fábricas de IA.”
NVIDIA Dynamo funciona com quatro “pilares” de inferência
Para explicar melhor o funcionamento do NVIDIA Dynamo, a empresa separou quatro “pilares” que estruturam melhor como o software promete otimizar as GPUs para inferência de diferentes modelos IA:
- GPU Planner: o “planejador de GPU” identifica e adiciona ou remove GPUs de maneira dinâmica para se ajustar à demanda do uso, a fim de evitar provisionamento excessivo ou insuficiente.
- Smart Router: o “roteador inteligente” direciona as solicitações e evita recomputações de solicitações repetidas ou sobrepostas no LLM.
- Low-Latency Communication Library: uma “biblioteca de comunicação de baixa latência” para ajudar na comunicação entre GPUs de última geração e acelerar a transferência de dados entre dispositivos heterogêneos.
- Memory Manager: recurso de “gerenciamento de memória”, que armazena ou apaga dados de inferência em dispositivos de armazenamento de baixo custo.
Novo software aberto já está disponível
O NVIDIA Dynamo chegou primeiro aos microsserviços NVIDIA NIM, então já está disponível na plataforma. O software também será integrado a uma futura versão do NVIDA AI Enterprise, com um suporte mais completo para ser oferecido como serviço às empresas.
Notícias relacionadas:
- Resumo da GTC 2025: o que foi apresentado no evento da NVIDIA nos EUA
- NVIDIA RTX PRO 6000 Blackwell é anunciada com 24.064 cores e 96GB
- NVIDIA acelera a inferência no LLM Llama 3 da Meta
A NVIDIA falou mais do Dynamo em sua keynote no GTC, para quem se interessar. No site oficial da empresa (em inglês) também tem mais informações detalhadas sobre o serviço, é só clicar aqui.