ML inferencia becslő

Becsülje meg az inferencia késleltetést és FPS-t ML modellekhez edge eszközökön.

Modell Eszköz

Késleltetés

150 ms

Max FPS

6.7 FPS

Practical Note: A valós FPS alacsonyabb lehet az előfeldolgozás terhelése és a modell betöltése miatt.

Késleltetés összehasonlítás (összes eszköz)

Pi 4 (4GB)

150ms

Pi 5 (8GB)

50ms

Pi 5 + Coral TPU

5ms

Modell részletek

MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.

Mi az ML inferencia-számológép?

Az ML inferencia-számológép megbecsüli a gépi tanulási modell-következtetés futtatásához szükséges számítási erőforrásokat – azt a folyamatot, amelynek során egy betanított modellt új adatokon végzett előrejelzésekre használnak. Segít meghatározni a szükséges GPU-memóriát, számítási időt és átviteli sebességet a modellek éles környezetben való telepítéséhez, a kis osztályozási modellektől a nagy nyelvi modellekig (LLM).

A modell-inferencia követelményei a modell méretétől (paraméterek száma), a precizitástól (FP32, FP16, INT8), a köteg méretétől, a szekvencia hosszától (transzformerekhez) és a cél-átviteli sebességtől függenek. Egy 7 milliárd paraméteres modell FP16-ban csak a súlyokhoz kb. 14 GB GPU-memóriát igényel. Ez az eszköz kiszámítja a memóriakövetelményeket és a becsült átviteli sebességet általános hardverkonfigurációkhoz.

Az eszköz használata

Adja meg a modell méretét (paraméterek száma), a precizitást (adattípus), a köteg méretét és a célhardvert. Az eszköz kiszámítja a szükséges GPU-memóriát, a becsült inferencia-késleltetést és az átviteli sebességet (token/másodperc nyelvi modellekhez vagy kép/másodperc látásmodellekhez). Javaslatot is tesz, melyik GPU-k képesek kezelni a munkaterhelést.

Kulcsfogalmak

Paraméterek – a modell tanult súlyai. Több paraméter általában jobb minőséget jelent, de magasabb erőforráskövetelményt.
Precizitás – az FP32 paraméterkénti 4 bájtot, az FP16/BF16 2 bájtot, az INT8 1 bájtot használ. Az alacsonyabb precizitás csökkenti a memóriát és növeli a sebességet minimális minőségromlással.
Köteg mérete – több bemenet egyidejű feldolgozása növeli az átviteli sebességet, de több memóriát igényel.
KV-gyorsítótár – transzformer-modellekhez a kulcs-érték gyorsítótár a szekvencia hosszával nő, és jelentős額外 memóriát fogyaszt.

Általános inferencia-hardverek

Fogyasztói GPU-k: RTX 3090 (24 GB), RTX 4090 (24 GB) – jók INT8-ban akár 13 milliárd paraméteres modellekhez. Professzionális: A100 (40/80 GB), H100 (80 GB) – nagyobb modellekhez szükséges. Felhős lehetőségek: az AWS, a GCP és az Azure GPU-példányokat kínál óránkénti elszámolással. CPU-s inferenciához: kisebb modelleknél lehetséges, de 10–100× lassabb, mint GPU-n. Az Apple M sorozatú chipek egységes memóriájuk révén meglepően nagy modelleket képesek futtatni.

Gyakran ismételt kérdések

Mekkora GPU-memória szükséges egy 7 milliárd paraméteres modellhez?

FP16 precizitásnál: 7 milliárd × 2 bájt = 14 GB csak a súlyokhoz, plusz 2–4 GB a KV-gyorsítótárhoz és a fejszámhoz, összesen kb. 16–18 GB. INT8-nál: 7 milliárd × 1 bájt = 7 GB a súlyokhoz, összesen kb. 10–12 GB. INT4-nél (GPTQ/AWQ kvantálás): kb. 4–5 GB a súlyokhoz, összesen 6–8 GB. Egy 24 GB-os fogyasztói GPU (RTX 3090/4090) kényelmesen futtathat 7 milliárd paraméteres modelleket a legtöbb precizitással.

Mi a kvantálás, és mennyit segít?

A kvantálás csökkenti a modellsúlyok precizitását FP32-ről (4 bájt) FP16-ra (2 bájt), INT8-ra (1 bájt) vagy INT4-re (0,5 bájt). Ez arányosan csökkenti a memóriaigényt, és gyakran gyorsítja az inferenciát. Az INT8 kvantálás általában megőrzi a modellminőség 99%+-át, miközben a memóriát felezi az FP16-hoz képest. Az INT4 még több memóriát takarít meg, kissé nagyobb minőségromlással. Ez a legpraktikusabb módja a nagy modellek fogyasztói hardveren való futtatásának.