ML Inferentie Schatter
Schat inferentielatentie en FPS voor ML-modellen op edge-apparaten.
Latentie
150 ms
Max FPS
6.7 FPS
Practical Note: Werkelijke FPS kunnen lager zijn door preprocessing-overhead en het laden van het model.
Latentievergelijking (alle apparaten)
Modeldetails
MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.
Wat is een ML-inferentiecalculator?
Een ML-inferentiecalculator schat de hardware-eisen voor het draaien van machine learning-modellen: VRAM-gebruik, inferentiesnelheid en kosten per query. Essentieel voor het plannen van AI-deployments.
Moderne taalmodellen (LLM's) zoals LLaMA, Mistral en GPT vereisen aanzienlijke GPU-resources. De benodigde VRAM hangt af van het aantal parameters en de kwantisatie (FP16, INT8, INT4).
Hoe gebruikt u deze tool?
Selecteer een modelgrootte (7B, 13B, 70B parameters), kwantisatie-niveau en de beschikbare GPU. De tool berekent VRAM-gebruik, verwachte tokens per seconde en of het model in het geheugen past.
Belangrijke concepten
- Parameters โ de geleerde gewichten in een model. Meer parameters betekent doorgaans betere kwaliteit maar hogere resourcevereisten.
- Precisie โ FP32 gebruikt 4 bytes per parameter, FP16/BF16 gebruikt 2 bytes, INT8 gebruikt 1 byte. Lagere precisie vermindert het geheugen en verhoogt de snelheid met minimaal kwaliteitsverlies.
- Batchgrootte โ meerdere invoeren tegelijk verwerken verbetert de doorvoer maar vereist meer geheugen.
- KV-cache โ voor transformer-modellen groeit de key-value-cache met de sequentielengte en verbruikt aanzienlijk extra geheugen.
Veelgebruikte inferentie-hardware
Consumer-GPU's: RTX 3090 (24GB), RTX 4090 (24GB) โ geschikt voor modellen tot 13B parameters in INT8. Professioneel: A100 (40/80GB), H100 (80GB) โ vereist voor grotere modellen. Cloudopties: AWS, GCP en Azure bieden GPU-instances per uur. Voor CPU-inferentie: mogelijk voor kleinere modellen maar 10-100x langzamer dan GPU. Apple M-series-chips bieden unified memory dat verrassend grote modellen kan draaien.
Veelgestelde vragen
Kan ik LLM's op een CPU draaien?
Ja, met llama.cpp en GGUF-formaat. Veel langzamer dan GPU (5-20x), maar mogelijk voor kleine modellen (7B INT4). RAM-vereisten zijn vergelijkbaar met VRAM. Apple Silicon (M1/M2/M3) presteert goed dankzij unified memory.
Wat is kwantisatie?
Het verlagen van de precisie van modelgewichten: van FP32 (32-bit) naar FP16, INT8 of INT4. Dit halveert (of meer) het geheugengebruik en versnelt inferentie. Moderne kwantisatiemethoden (GPTQ, AWQ) behouden het meeste van de modelkwaliteit.