Stimatore di inferenza ML

Stima la latenza di inferenza e gli FPS per modelli ML su dispositivi edge.

Modello Dispositivo

Latenza

150 ms

FPS max

6.7 FPS

Practical Note: Gli FPS reali possono essere inferiori a causa dell'overhead di preprocessamento e del caricamento del modello.

Confronto latenza (tutti i dispositivi)

Pi 4 (4GB)

150ms

Pi 5 (8GB)

50ms

Pi 5 + Coral TPU

5ms

Dettagli del modello

MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.

Cos'è un calcolatore di inferenza ML?

Un calcolatore di inferenza ML stima le risorse computazionali necessarie per eseguire l'inferenza di modelli di machine learning — il processo di utilizzo di un modello addestrato per fare previsioni su nuovi dati. Aiuta a determinare la memoria GPU richiesta, il tempo di calcolo e il throughput per il deployment dei modelli in produzione, dai piccoli modelli di classificazione ai grandi modelli linguistici (LLM).

I requisiti di inferenza del modello dipendono dalle dimensioni del modello (numero di parametri), dalla precisione (FP32, FP16, INT8), dalla dimensione del batch, dalla lunghezza della sequenza (per i transformer) e dal throughput target. Un modello da 7 miliardi di parametri in FP16 necessita di circa 14 GB di memoria GPU solo per i pesi. Questo strumento calcola i requisiti di memoria e il throughput stimato per le configurazioni hardware comuni.

Come usare questo strumento

Inserire le dimensioni del modello (numero di parametri), la precisione (tipo di dati), la dimensione del batch e l'hardware target. Lo strumento calcola la memoria GPU richiesta, la latenza di inferenza stimata e il throughput (token al secondo per i modelli linguistici, o immagini al secondo per i modelli di visione). Suggerisce anche quale GPU può gestire il carico di lavoro.

Concetti chiave

Parametri — i pesi appresi in un modello. Più parametri significano generalmente qualità migliore ma requisiti di risorse più elevati.
Precisione — FP32 usa 4 byte per parametro, FP16/BF16 usa 2 byte, INT8 usa 1 byte. Precisione inferiore riduce la memoria e aumenta la velocità con minima perdita di qualità.
Dimensione del batch — elaborare più input contemporaneamente migliora il throughput ma richiede più memoria.
Cache KV — per i modelli transformer, la cache chiave-valore cresce con la lunghezza della sequenza e consuma memoria aggiuntiva significativa.

Hardware comune per l'inferenza

GPU consumer: RTX 3090 (24 GB), RTX 4090 (24 GB) — buone per modelli fino a 13 miliardi di parametri in INT8. Professionali: A100 (40/80 GB), H100 (80 GB) — necessarie per modelli più grandi. Opzioni cloud: AWS, GCP e Azure offrono istanze GPU a ore. Per l'inferenza su CPU: possibile per modelli più piccoli ma 10-100 volte più lenta delle GPU. I chip Apple M-series con memoria unificata possono eseguire sorprendentemente modelli di grandi dimensioni.

Domande frequenti

Quanta memoria GPU mi serve per un modello da 7 miliardi di parametri?

A precisione FP16: 7B × 2 byte = 14 GB solo per i pesi, più 2-4 GB per la cache KV e l'overhead, per un totale di circa 16-18 GB. A INT8: 7B × 1 byte = 7 GB per i pesi, circa 10-12 GB in totale. A INT4 (quantizzazione GPTQ/AWQ): circa 4-5 GB per i pesi, 6-8 GB in totale. Una GPU consumer da 24 GB (RTX 3090/4090) può eseguire comodamente modelli da 7 miliardi di parametri nella maggior parte delle precisioni.

Cos'è la quantizzazione e quanto aiuta?

La quantizzazione riduce la precisione dei pesi del modello da FP32 (4 byte) a FP16 (2 byte), INT8 (1 byte) o INT4 (0,5 byte). Questo riduce i requisiti di memoria proporzionalmente e spesso accelera l'inferenza. La quantizzazione INT8 preserva tipicamente il 99%+ della qualità del modello dimezzando la memoria rispetto a FP16. INT4 risparmia ancora più memoria con una leggermente maggiore degradazione della qualità. È il modo più pratico per eseguire modelli di grandi dimensioni su hardware consumer.