ML Inferentie Schatter

Schat inferentielatentie en FPS voor ML-modellen op edge-apparaten.

Model Apparaat

Latentie

150 ms

Max FPS

6.7 FPS

Practical Note: Werkelijke FPS kunnen lager zijn door preprocessing-overhead en het laden van het model.

Latentievergelijking (alle apparaten)

Pi 4 (4GB)

150ms

Pi 5 (8GB)

50ms

Pi 5 + Coral TPU

5ms

Modeldetails

MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.

Wat is een ML-inferentiecalculator?

Een ML-inferentiecalculator schat de hardware-eisen voor het draaien van machine learning-modellen: VRAM-gebruik, inferentiesnelheid en kosten per query. Essentieel voor het plannen van AI-deployments.

Moderne taalmodellen (LLM's) zoals LLaMA, Mistral en GPT vereisen aanzienlijke GPU-resources. De benodigde VRAM hangt af van het aantal parameters en de kwantisatie (FP16, INT8, INT4).

Hoe gebruikt u deze tool?

Selecteer een modelgrootte (7B, 13B, 70B parameters), kwantisatie-niveau en de beschikbare GPU. De tool berekent VRAM-gebruik, verwachte tokens per seconde en of het model in het geheugen past.

Belangrijke concepten

Parameters — de geleerde gewichten in een model. Meer parameters betekent doorgaans betere kwaliteit maar hogere resourcevereisten.
Precisie — FP32 gebruikt 4 bytes per parameter, FP16/BF16 gebruikt 2 bytes, INT8 gebruikt 1 byte. Lagere precisie vermindert het geheugen en verhoogt de snelheid met minimaal kwaliteitsverlies.
Batchgrootte — meerdere invoeren tegelijk verwerken verbetert de doorvoer maar vereist meer geheugen.
KV-cache — voor transformer-modellen groeit de key-value-cache met de sequentielengte en verbruikt aanzienlijk extra geheugen.

Veelgebruikte inferentie-hardware

Consumer-GPU's: RTX 3090 (24GB), RTX 4090 (24GB) — geschikt voor modellen tot 13B parameters in INT8. Professioneel: A100 (40/80GB), H100 (80GB) — vereist voor grotere modellen. Cloudopties: AWS, GCP en Azure bieden GPU-instances per uur. Voor CPU-inferentie: mogelijk voor kleinere modellen maar 10-100x langzamer dan GPU. Apple M-series-chips bieden unified memory dat verrassend grote modellen kan draaien.

Veelgestelde vragen

Kan ik LLM's op een CPU draaien?

Ja, met llama.cpp en GGUF-formaat. Veel langzamer dan GPU (5-20x), maar mogelijk voor kleine modellen (7B INT4). RAM-vereisten zijn vergelijkbaar met VRAM. Apple Silicon (M1/M2/M3) presteert goed dankzij unified memory.

Wat is kwantisatie?

Het verlagen van de precisie van modelgewichten: van FP32 (32-bit) naar FP16, INT8 of INT4. Dit halveert (of meer) het geheugengebruik en versnelt inferentie. Moderne kwantisatiemethoden (GPTQ, AWQ) behouden het meeste van de modelkwaliteit.