ML-inferenssiestimaattori
Arvioi inferenssilatenssi ja FPS ML-malleille reunalaitteilla.
Latenssi
150 ms
Max FPS
6.7 FPS
Practical Note: Todelliset FPS voivat olla alhaisemmat esikäsittelyn yleiskustannusten ja mallin lataamisen vuoksi.
Latenssivertailu (kaikki laitteet)
Mallin tiedot
MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.
Mika on ML-inferenssilaskin?
ML-inferenssilaskin arvioi koneoppimismallin inferenssin suorittamiseen tarvittavat laskentaresurssit — prosessin, jossa koulutettu malli tekee ennusteita uudella datalla. Laaimaalajuisten kielimallien (LLM) myota oikeiden laitteistovaatimusten ymmartaminen on olennaista.
Mallin inferenssivaatimukset riippuvat mallin koosta (parametrien maara), tarkkuudesta (FP32, FP16, INT8), erakoosta, sekvenssipituudesta ja kohdelaitteistosta. Tama laskin auttaa maarittamaan GPU-muistien, laskentatehon ja varastoinnin tarpeen ennen resurssien hankintaa.
Tyokalun kayttohje
Syota mallin koko (parametrien maara), tarkkuus (tietotyyppi), erakoko ja kohdelaitteisto. Tyokalu laskee vaaditun GPU-muistin, arvion inferenssinopeudesta ja suosittelee sopivia laitteistovaihtoehtoja.
Keskeiset kasitteet
- Parametrit — mallin opitut painot. Enemman parametreja tarkoittaa yleensa parempaa laatua mutta suurempia resurssivaatimuksia.
- Tarkkuus — FP32 kayttaa 4 tavua per parametri, FP16/BF16 kayttaa 2 tavua, INT8 kayttaa 1 tavun. Alempi tarkkuus vahentaa muisti- ja laskentavaatimuksia.
- Erakoko — useiden syotteiden samanaikainen kasittely parantaa lapimenoa mutta vaatii enemman muistia.
- KV-valimuisti — transformer-malleissa avain-arvo-valimuisti kasvaa sekvenssipituuden myota ja kuluttaa merkittavasti lisamuistia.
Yleinen inferenssilaitteisto
Kuluttaja-GPU:t: RTX 3090 (24 Gt), RTX 4090 (24 Gt) — hyvia malleille jopa 13B parametria INT8:ssa. Ammattilais: A100 (40/80 Gt), H100 (80 Gt) — teollisuusstandardi 70B+ malleille. Apple Silicon: M1/M2/M3 yhtenaisella muistilla (jopa 192 Gt M2 Ultra) — tehokas paikalliseen inferenssiin.
Usein kysytyt kysymykset
Kuinka paljon GPU-muistia tarvitsen 7B parametrin mallille?
FP16-tarkkuudella: 7B * 2 tavua = 14 Gt pelkille painoille, plus 2-4 Gt KV-valimuistille ja ylaapuoliskuluille, yhteensa noin 16-18 Gt. INT8-kvantisoinnilla: noin 7-9 Gt. INT4:lla: noin 4-5 Gt. RTX 3090/4090 (24 Gt) pystyy ajamaan 7B-mallin FP16:lla.
Mika on kvantisointi ja kuinka paljon se auttaa?
Kvantisointi vahentaa mallipainojen tarkkuutta FP32:sta (4 tavua) FP16:een (2 tavua), INT8:aan (1 tavu) tai INT4:aan (0,5 tavua). Muistinkaytto pienee lahes lineaarisesti. INT4 mahdollistaa 4 kertaa suuremman mallin samalle GPU:lle pienella laadun heikkenemisella.