ML procjenitelj inferencije

Procijenite latenciju inferencije i FPS za ML modele na rubnim uređajima.

Model Uređaj

Latencija

150 ms

Maks. FPS

6.7 FPS

Practical Note: Stvarni FPS može biti niži zbog opterećenja pretprocesiranja i učitavanja modela.

Usporedba latencije (svi uređaji)

Pi 4 (4GB)

150ms

Pi 5 (8GB)

50ms

Pi 5 + Coral TPU

5ms

Detalji modela

MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.

Što je ML inference kalkulator?

ML inference kalkulator procjenjuje računalne resurse potrebne za pokretanje zaključivanja modela strojnog učenja — proces korištenja obučenog modela za predviđanja na novim podacima. Pomaže vam odrediti potrebnu GPU memoriju, računalno vrijeme i propusnost za postavljanje modela u produkciju, od malih modela klasifikacije do velikih jezičnih modela (LLM-ovi).

Zahtjevi za inference modelom ovise o veličini modela (broj parametara), preciznosti (FP32, FP16, INT8), veličini serije, duljini sekvence (za transformere) i ciljnoj propusnosti. Model s 7 milijardi parametara u FP16 treba oko 14 GB GPU memorije samo za težine. Ovaj alat izračunava memorijske zahtjeve i procijenjenu propusnost za uobičajene hardverske konfiguracije.

Kako koristiti ovaj alat

Unesite veličinu modela (broj parametara), preciznost (tip podataka), veličinu serije i ciljni hardver. Alat izračunava potrebnu GPU memoriju, procijenjenu latenciju zaključivanja i propusnost (tokeni u sekundi za jezične modele, ili slike u sekundi za vizualne modele). Predlaže i koji GPU-ovi mogu obraditi radno opterećenje.

Ključni pojmovi

Parametri — naučene težine u modelu. Više parametara općenito znači bolju kvalitetu, ali veće resurse.
Preciznost — FP32 koristi 4 bajta po parametru, FP16/BF16 koristi 2 bajta, INT8 koristi 1 bajt. Niža preciznost smanjuje memoriju i povećava brzinu s minimalnim gubitkom kvalitete.
Veličina serije — simultana obrada više ulaza poboljšava propusnost, ali zahtijeva više memorije.
KV predmemorija — za transformer modele, predmemorija ključ-vrijednost raste s duljinom sekvence i troši značajnu dodatnu memoriju.

Uobičajeni inference hardver

Potrošački GPU-ovi: RTX 3090 (24 GB), RTX 4090 (24 GB) — dobri za modele do 13B parametara u INT8. Profesionalni: A100 (40/80 GB), H100 (80 GB) — potrebni za veće modele. Cloud opcije: AWS, GCP i Azure nude GPU instance po satu. Za CPU inference: moguće za manje modele, ali 10–100× sporije od GPU-a. Apple M-serija chipovi nude objedinjenu memoriju koja može pokrenuti iznenađujuće velike modele.

Često postavljana pitanja

Koliko GPU memorije trebam za model s 7B parametara?

Pri FP16 preciznosti: 7B × 2 bajta = 14 GB za same težine, plus 2–4 GB za KV predmemoriju i troškove, ukupno oko 16–18 GB. Pri INT8: 7B × 1 bajt = 7 GB za težine, oko 10–12 GB ukupno. Pri INT4 (GPTQ/AWQ kvantizacija): oko 4–5 GB za težine, 6–8 GB ukupno. Potrošački GPU od 24 GB (RTX 3090/4090) ugodno može pokrenuti modele s 7B parametara u većini preciznosti.

Što je kvantizacija i koliko pomaže?

Kvantizacija smanjuje preciznost težina modela s FP32 (4 bajta) na FP16 (2 bajta), INT8 (1 bajt) ili INT4 (0,5 bajta). Ovo proporcionalno smanjuje memorijske zahtjeve i često ubrzava inference. INT8 kvantizacija tipično čuva 99%+ kvalitete modela uz prepolovljavanje memorije u usporedbi s FP16. INT4 štedi još više memorije s nešto više degradacije kvalitete. To je najpraktičniji način pokretanja velikih modela na potrošačkom hardveru.