ML-inferensestimator
Estimer inferensforsinkelse og FPS for ML-modeller på edge-enheter.
Forsinkelse
150 ms
Maks FPS
6.7 FPS
Practical Note: Virkelig FPS kan være lavere på grunn av forbehandlingsoverhead og modellasting.
Forsinkelsessammenligning (alle enheter)
Modelldetaljer
MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.
Hva er en ML-inferenskalkulator?
En ML-inferenskalkulator estimerer maskinvarebehovene for å kjøre maskinlæringsmodeller. Den beregner nødvendig GPU-minne (VRAM), systemminne (RAM), lagring og ytelse basert på modellstørrelse (antall parametere), presisjon (FP32, FP16, INT8, INT4) og batchstørrelse. Viktig for å velge riktig GPU eller sky-instans for produksjonsbruk.
Store språkmodeller (LLM) som LLaMA og Mistral krever betydelig VRAM. En 7B-parametermodell i FP16 trenger ca. 14 GB VRAM, mens i INT4-kvantisering trenger den bare ca. 4 GB. Kvantisering reduserer minnebehovet dramatisk med akseptabelt kvalitetstap. Denne kalkulatoren hjelper deg å finne den rette balansen.
Slik bruker du dette verktøyet
Skriv inn antall parametere (f.eks. 7B, 13B, 70B) og velg presisjon. Verktøyet beregner VRAM-behov, anbefalt GPU, estimert inferenshastighet (tokens/sekund) og totalt systemkrav. Du kan sammenligne forskjellige kvanteseringsformater for å finne det beste forholdet mellom kvalitet og ressursbruk.
Nøkkelbegreper
- Parametere — de lærte vektene i en modell. Flere parametere betyr generelt bedre kvalitet, men høyere ressurskrav.
- Presisjon — FP32 bruker 4 byte per parameter, FP16/BF16 bruker 2 byte, INT8 bruker 1 byte. Lavere presisjon reduserer minne og øker hastighet med minimalt kvalitetstap.
- Batchstørrelse — prosessering av flere input samtidig forbedrer gjennomstrømningen, men krever mer minne.
- KV-cache — for transformer-modeller vokser nøkkel-verdi-cachen med sekvenslengde og bruker betydelig ekstra minne.
Vanlig inferens-maskinvare
Forbruker-GPUer: RTX 3090 (24GB), RTX 4090 (24GB) — bra for modeller opptil 13B parametere i INT8. Profesjonelle: A100 (40/80GB), H100 (80GB) — nødvendig for større modeller. Sky-alternativer: AWS, GCP og Azure tilbyr GPU-instanser per time. For CPU-inferens: mulig for mindre modeller, men 10-100x langsommere enn GPU. Apple M-seriens brikker tilbyr unified memory som kan kjøre overraskende store modeller.
Ofte stilte spørsmål
Kan jeg kjøre LLM-er på min vanlige gaming-GPU?
Ja, med kvantisering. En RTX 3060 12GB kan kjøre 7B-modeller i INT4 (ca. 4 GB VRAM). RTX 3090/4090 med 24 GB VRAM håndterer 13B-modeller i INT4 eller 7B i FP16. For 70B-modeller trengs enten flere GPU-er eller svært aggressiv kvantisering. Verktøy som llama.cpp og Ollama gjør lokal kjøring enkelt.
Hva er forskjellen mellom trening og inferens?
Trening krever 3–4 ganger mer minne enn inferens fordi den lagrer gradienter, optimizer-tilstander og aktiveringsdata. Inferens (å bruke en ferdigtrent modell) trenger bare modellvektene og en liten buffer. Derfor kan du kjøre modeller lokalt som ville krevd dyre dataklynger å trene. De fleste bruker forhåndstrenede modeller og gjør kun inferens.