Estimador de inferência ML

Estime a latência de inferência e FPS para modelos ML em dispositivos edge.

Modelo Dispositivo

Latência

150 ms

FPS máx

6.7 FPS

Practical Note: Os FPS reais podem ser menores devido à sobrecarga de pré-processamento e carregamento do modelo.

Comparação de latência (todos os dispositivos)

Pi 4 (4GB)

150ms

Pi 5 (8GB)

50ms

Pi 5 + Coral TPU

5ms

Detalhes do modelo

MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.

O que é uma calculadora de inferência ML?

Uma calculadora de inferência ML estima os recursos computacionais necessários para executar a inferência de modelos de machine learning — o processo de usar um modelo treinado para fazer previsões sobre novos dados. Ajuda a determinar a memória GPU necessária, o tempo de computação e o débito para implementar modelos em produção, desde modelos de classificação pequenos a grandes modelos de linguagem (LLMs).

Os requisitos de inferência de modelos dependem do tamanho do modelo (número de parâmetros), precisão (FP32, FP16, INT8), tamanho do lote, comprimento de sequência (para transformers) e débito alvo. Um modelo de 7 mil milhões de parâmetros em FP16 precisa de cerca de 14 GB de memória GPU apenas para os pesos. Esta ferramenta calcula os requisitos de memória e o débito estimado para configurações de hardware comuns.

Como utilizar esta ferramenta

Introduza o tamanho do modelo (número de parâmetros), a precisão (tipo de dados), o tamanho do lote e o hardware alvo. A ferramenta calcula a memória GPU necessária, a latência de inferência estimada e o débito (tokens por segundo para modelos de linguagem, ou imagens por segundo para modelos de visão). Também sugere quais as GPUs que conseguem processar a carga de trabalho.

Conceitos-chave

Parâmetros — os pesos aprendidos num modelo. Mais parâmetros geralmente significam melhor qualidade mas maiores requisitos de recursos.
Precisão — FP32 usa 4 bytes por parâmetro, FP16/BF16 usa 2 bytes, INT8 usa 1 byte. Menor precisão reduz memória e aumenta velocidade com perda mínima de qualidade.
Tamanho do lote — processar múltiplas entradas simultaneamente melhora o débito mas requer mais memória.
Cache KV — para modelos transformer, a cache chave-valor cresce com o comprimento da sequência e consome memória adicional significativa.

Hardware de inferência comum

GPUs de consumidor: RTX 3090 (24 GB), RTX 4090 (24 GB) — boas para modelos até 13B parâmetros em INT8. Profissional: A100 (40/80 GB), H100 (80 GB) — necessárias para modelos maiores. Opções cloud: AWS, GCP e Azure oferecem instâncias GPU por hora. Para inferência em CPU: possível para modelos menores mas 10 a 100 vezes mais lento do que GPU. Os chips Apple M-series oferecem memória unificada que consegue executar modelos surpreendentemente grandes.

Perguntas frequentes

Quanta memória GPU preciso para um modelo de 7B parâmetros?

Com precisão FP16: 7B * 2 bytes = 14 GB apenas para os pesos, mais 2 a 4 GB para cache KV e sobrecarga, totalizando cerca de 16 a 18 GB. Em INT8: 7B * 1 byte = 7 GB para os pesos, cerca de 10 a 12 GB no total. Em INT4 (quantização GPTQ/AWQ): cerca de 4 a 5 GB para os pesos, 6 a 8 GB no total. Uma GPU de consumidor de 24 GB (RTX 3090/4090) consegue executar confortavelmente modelos de 7B na maioria das precisões.

O que é quantização e quanto ajuda?

A quantização reduz a precisão dos pesos do modelo de FP32 (4 bytes) para FP16 (2 bytes), INT8 (1 byte) ou INT4 (0,5 bytes). Isto reduz os requisitos de memória proporcionalmente e frequentemente acelera a inferência. A quantização INT8 tipicamente preserva 99%+ da qualidade do modelo enquanto reduz para metade a memória em comparação com FP16. O INT4 poupa ainda mais memória com ligeiramente mais degradação de qualidade. É a forma mais prática de executar modelos grandes em hardware de consumidor.