Estimator inferență ML

Estimați latența de inferență și FPS pentru modele ML pe dispozitive edge.

Model Dispozitiv

Latență

150 ms

FPS max

6.7 FPS

Practical Note: FPS-ul real poate fi mai mic din cauza suprasarcinii de preprocesare și a încărcării modelului.

Comparație latență (toate dispozitivele)

Pi 4 (4GB)

150ms

Pi 5 (8GB)

50ms

Pi 5 + Coral TPU

5ms

Detalii model

MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.

Ce este un calculator de inferență ML?

Un calculator de inferență ML estimează resursele de calcul necesare pentru a rula inferența modelului de machine learning — procesul de utilizare a unui model antrenat pentru a face predicții pe date noi. Vă ajută să determinați memoria GPU necesară, timpul de calcul și debitul pentru implementarea modelelor în producție, de la modele mici de clasificare până la modele de limbaj de mari dimensiuni (LLM).

Cerințele de inferență ale modelului depind de dimensiunea modelului (numărul de parametri), precizia (FP32, FP16, INT8), dimensiunea lotului, lungimea secvenței (pentru transformatoare) și debitul țintă. Un model cu 7 miliarde de parametri în FP16 necesită aproximativ 14 GB de memorie GPU doar pentru greutăți. Acest instrument calculează cerințele de memorie și debitul estimat pentru configurații comune de hardware.

Cum se folosește acest instrument

Introduceți dimensiunea modelului (numărul de parametri), precizia (tipul de date), dimensiunea lotului și hardware-ul țintă. Instrumentul calculează memoria GPU necesară, latența estimată de inferență și debitul (tokeni pe secundă pentru modele de limbaj sau imagini pe secundă pentru modele de vedere). Sugerează de asemenea ce GPU-uri pot gestiona sarcina de lucru.

Concepte cheie

Parametri — greutățile învățate dintr-un model. Mai mulți parametri înseamnă de obicei calitate mai bună, dar cerințe de resurse mai mari.
Precizie — FP32 folosește 4 octeți per parametru, FP16/BF16 folosește 2 octeți, INT8 folosește 1 octet. Precizia mai mică reduce memoria și crește viteza cu pierdere minimă de calitate.
Dimensiunea lotului — procesarea simultană a mai multor intrări îmbunătățește debitul, dar necesită mai multă memorie.
Cache KV — pentru modelele transformatoare, cache-ul cheie-valoare crește cu lungimea secvenței și consumă memorie suplimentară semnificativă.

Hardware comun pentru inferență

GPU-uri pentru consumatori: RTX 3090 (24 GB), RTX 4090 (24 GB) — bune pentru modele de până la 13 miliarde de parametri în INT8. Profesionale: A100 (40/80 GB), H100 (80 GB) — necesare pentru modele mai mari. Opțiuni cloud: AWS, GCP și Azure oferă instanțe GPU pe oră. Pentru inferență pe CPU: posibil pentru modele mai mici, dar de 10-100 ori mai lent decât pe GPU. Cipurile Apple M-series cu memorie unificată pot rula modele surprinzător de mari.

Întrebări frecvente

De câtă memorie GPU am nevoie pentru un model cu 7 miliarde de parametri?

La precizie FP16: 7B * 2 octeți = 14 GB pentru greutăți singure, plus 2-4 GB pentru cache KV și overhead, totalizând aproximativ 16-18 GB. La INT8: 7B * 1 octet = 7 GB pentru greutăți, aproximativ 10-12 GB total. La INT4 (cuantizare GPTQ/AWQ): aproximativ 4-5 GB pentru greutăți, 6-8 GB total. Un GPU consumer de 24 GB (RTX 3090/4090) poate rula confortabil modele de 7 miliarde de parametri în majoritatea preciziilor.

Ce este cuantizarea și cât de mult ajută?

Cuantizarea reduce precizia greutăților modelului de la FP32 (4 octeți) la FP16 (2 octeți), INT8 (1 octet) sau INT4 (0,5 octeți). Aceasta reduce cerințele de memorie proporțional și adesea accelerează inferența. Cuantizarea INT8 păstrează de obicei 99%+ din calitatea modelului reducând la jumătate memoria față de FP16. INT4 economisește și mai multă memorie cu o degradare ușor mai mare a calității. Este cel mai practic mod de a rula modele mari pe hardware consumer.