ML procjenitelj inferencije
Procijenite latenciju inferencije i FPS za ML modele na rubnim uređajima.
Latencija
150 ms
Maks. FPS
6.7 FPS
Practical Note: Stvarni FPS može biti niži zbog opterećenja pretprocesiranja i učitavanja modela.
Usporedba latencije (svi uređaji)
Detalji modela
MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.
Što je ML inference kalkulator?
ML inference kalkulator procjenjuje računalne resurse potrebne za pokretanje zaključivanja modela strojnog učenja — proces korištenja obučenog modela za predviđanja na novim podacima. Pomaže vam odrediti potrebnu GPU memoriju, računalno vrijeme i propusnost za postavljanje modela u produkciju, od malih modela klasifikacije do velikih jezičnih modela (LLM-ovi).
Zahtjevi za inference modelom ovise o veličini modela (broj parametara), preciznosti (FP32, FP16, INT8), veličini serije, duljini sekvence (za transformere) i ciljnoj propusnosti. Model s 7 milijardi parametara u FP16 treba oko 14 GB GPU memorije samo za težine. Ovaj alat izračunava memorijske zahtjeve i procijenjenu propusnost za uobičajene hardverske konfiguracije.
Kako koristiti ovaj alat
Unesite veličinu modela (broj parametara), preciznost (tip podataka), veličinu serije i ciljni hardver. Alat izračunava potrebnu GPU memoriju, procijenjenu latenciju zaključivanja i propusnost (tokeni u sekundi za jezične modele, ili slike u sekundi za vizualne modele). Predlaže i koji GPU-ovi mogu obraditi radno opterećenje.
Ključni pojmovi
- Parametri — naučene težine u modelu. Više parametara općenito znači bolju kvalitetu, ali veće resurse.
- Preciznost — FP32 koristi 4 bajta po parametru, FP16/BF16 koristi 2 bajta, INT8 koristi 1 bajt. Niža preciznost smanjuje memoriju i povećava brzinu s minimalnim gubitkom kvalitete.
- Veličina serije — simultana obrada više ulaza poboljšava propusnost, ali zahtijeva više memorije.
- KV predmemorija — za transformer modele, predmemorija ključ-vrijednost raste s duljinom sekvence i troši značajnu dodatnu memoriju.
Uobičajeni inference hardver
Potrošački GPU-ovi: RTX 3090 (24 GB), RTX 4090 (24 GB) — dobri za modele do 13B parametara u INT8. Profesionalni: A100 (40/80 GB), H100 (80 GB) — potrebni za veće modele. Cloud opcije: AWS, GCP i Azure nude GPU instance po satu. Za CPU inference: moguće za manje modele, ali 10–100× sporije od GPU-a. Apple M-serija chipovi nude objedinjenu memoriju koja može pokrenuti iznenađujuće velike modele.
Često postavljana pitanja
Koliko GPU memorije trebam za model s 7B parametara?
Pri FP16 preciznosti: 7B × 2 bajta = 14 GB za same težine, plus 2–4 GB za KV predmemoriju i troškove, ukupno oko 16–18 GB. Pri INT8: 7B × 1 bajt = 7 GB za težine, oko 10–12 GB ukupno. Pri INT4 (GPTQ/AWQ kvantizacija): oko 4–5 GB za težine, 6–8 GB ukupno. Potrošački GPU od 24 GB (RTX 3090/4090) ugodno može pokrenuti modele s 7B parametara u većini preciznosti.
Što je kvantizacija i koliko pomaže?
Kvantizacija smanjuje preciznost težina modela s FP32 (4 bajta) na FP16 (2 bajta), INT8 (1 bajt) ili INT4 (0,5 bajta). Ovo proporcionalno smanjuje memorijske zahtjeve i često ubrzava inference. INT8 kvantizacija tipično čuva 99%+ kvalitete modela uz prepolovljavanje memorije u usporedbi s FP16. INT4 štedi još više memorije s nešto više degradacije kvalitete. To je najpraktičniji način pokretanja velikih modela na potrošačkom hardveru.