ML-inferensestimator

Uppskatta inferenslatens och FPS för ML-modeller på edge-enheter.

Modell Enhet

Latens

150 ms

Max FPS

6.7 FPS

Practical Note: Verkliga FPS kan vara lägre på grund av förbehandlingsöverhuvud och modellladdning.

Latensjämförelse (alla enheter)

Pi 4 (4GB)

150ms

Pi 5 (8GB)

50ms

Pi 5 + Coral TPU

5ms

Modelldetaljer

MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.

Vad aaer en ML-inferenskalkylator?

En ML-inferenskalkylator uppskatter de beraaekningsresurser som behoevs foer att koera maskininlaaerningsmodellsinferens -- processen att anvaenda en traanad modell foer att goera foerutsaaegelser paa ny data. Den hjaaelper dig att bestaaemma det GPU-minne, beraakningstid och genomstroemning som kraaevs foer att distribuera modeller i produktion, fraan smaa klassificeringsmodeller till stora spraaekmodeller (LLM).

Modellinferenskrav beror paa modellstorlek (antal parametrar), precision (FP32, FP16, INT8), batchstorlek, sekvenslaaengd (foer transformatorer) och maalgenomstroemning. En 7-miljarder parameter-modell i FP16 behoever cirka 14GB GPU-minne bara foer vikterna. Detta verktyg beraaeknar minneskrav och uppskattad genomstroemning foer vanliga haardvarukonfigurationer.

Hur du anvaender detta verktyg

Ange modellstorleken (antal parametrar), precision (datatyp), batchstorlek och maalhaardvara. Verktyget beraaeknar noedvaendigt GPU-minne, uppskattad inferenslatens och genomstroemning (tokens per sekund foer spraaekmodeller, eller bilder per sekund foer visionsmodeller). Det foeresslaar ocksaa vilka GPU:er som kan hantera arbetsbelastningen.

Nyckelbegrepp

Parametrar -- de inlaaerda vikterna i en modell. Fler parametrar innebaaer generellt baaettre kvalitet men hoegre resurskrav.
Precision -- FP32 anvaender 4 byte per parameter, FP16/BF16 anvaender 2 byte, INT8 anvaender 1 byte. Laagre precision minskar minnet och oeekar hastigheten med minimal kvalitetsfoerlust.
Batchstorlek -- bearbetning av flera indata samtidigt foeerbaattrar genomstroemningen men kraaever mer minne.
KV-cache -- foer transformatormodeller vaexer nyckel-vaaerde-cachen med sekvenslaaengd och foeerbrukar betydande extra minne.

Vanlig inferenshaardvara

Konsument-GPU:er: RTX 3090 (24GB), RTX 4090 (24GB) -- bra foer modeller upp till 13B parametrar i INT8. Professionella: A100 (40/80GB), H100 (80GB) -- kraaevs foer stoerre modeller. Molnalternativ: AWS, GCP och Azure erbjuder GPU-instanser per timme. Foer CPU-inferens: moeejligt foer mindre modeller men 10-100x laangsammare aen GPU. Apple M-seriens chip erbjuder enhetligt minne som kan koera foeervaanansvaeertt stora modeller.

Vanliga fraagor

Hur mycket GPU-minne behoever jag foer en 7B-parametermodell?

Vid FP16-precision: 7B gaanger 2 byte = 14GB foer enbart vikter, plus 2-4GB foer KV-cache och overhead, totalt cirka 16-18GB. Vid INT8: 7B gaanger 1 byte = 7GB foer vikter, cirka 10-12GB totalt. Vid INT4 (GPTQ/AWQ-kvantisering): cirka 4-5GB foer vikter, 6-8GB totalt. En 24GB konsument-GPU (RTX 3090/4090) kan bekvaemt koera 7B-modeller i de flesta precisioner.

Vad aaer kvantisering och hur mycket hjaaelper det?

Kvantisering minskar precisionen paa modellvikter fraan FP32 (4 byte) till FP16 (2 byte), INT8 (1 byte) eller INT4 (0,5 byte). Detta minskar minneskraven proportionellt och snabbar ofta upp inferensen. INT8-kvantisering bevarar vanligtvis 99%+ av modellkvaliteten samtidigt som minnet halveras jaaemfoert med FP16. INT4 sparar aaennu mer minne med naagot mer kvalitetsdegradation. Det aaer det mest praktiska saaettet att koera stora modeller paa konsumenthaardvara.