ML inferencia becslő
Becsülje meg az inferencia késleltetést és FPS-t ML modellekhez edge eszközökön.
Késleltetés
150 ms
Max FPS
6.7 FPS
Practical Note: A valós FPS alacsonyabb lehet az előfeldolgozás terhelése és a modell betöltése miatt.
Késleltetés összehasonlítás (összes eszköz)
Modell részletek
MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.
Mi az ML inferencia-számológép?
Az ML inferencia-számológép megbecsüli a gépi tanulási modell-következtetés futtatásához szükséges számítási erőforrásokat – azt a folyamatot, amelynek során egy betanított modellt új adatokon végzett előrejelzésekre használnak. Segít meghatározni a szükséges GPU-memóriát, számítási időt és átviteli sebességet a modellek éles környezetben való telepítéséhez, a kis osztályozási modellektől a nagy nyelvi modellekig (LLM).
A modell-inferencia követelményei a modell méretétől (paraméterek száma), a precizitástól (FP32, FP16, INT8), a köteg méretétől, a szekvencia hosszától (transzformerekhez) és a cél-átviteli sebességtől függenek. Egy 7 milliárd paraméteres modell FP16-ban csak a súlyokhoz kb. 14 GB GPU-memóriát igényel. Ez az eszköz kiszámítja a memóriakövetelményeket és a becsült átviteli sebességet általános hardverkonfigurációkhoz.
Az eszköz használata
Adja meg a modell méretét (paraméterek száma), a precizitást (adattípus), a köteg méretét és a célhardvert. Az eszköz kiszámítja a szükséges GPU-memóriát, a becsült inferencia-késleltetést és az átviteli sebességet (token/másodperc nyelvi modellekhez vagy kép/másodperc látásmodellekhez). Javaslatot is tesz, melyik GPU-k képesek kezelni a munkaterhelést.
Kulcsfogalmak
- Paraméterek – a modell tanult súlyai. Több paraméter általában jobb minőséget jelent, de magasabb erőforráskövetelményt.
- Precizitás – az FP32 paraméterkénti 4 bájtot, az FP16/BF16 2 bájtot, az INT8 1 bájtot használ. Az alacsonyabb precizitás csökkenti a memóriát és növeli a sebességet minimális minőségromlással.
- Köteg mérete – több bemenet egyidejű feldolgozása növeli az átviteli sebességet, de több memóriát igényel.
- KV-gyorsítótár – transzformer-modellekhez a kulcs-érték gyorsítótár a szekvencia hosszával nő, és jelentős額外 memóriát fogyaszt.
Általános inferencia-hardverek
Fogyasztói GPU-k: RTX 3090 (24 GB), RTX 4090 (24 GB) – jók INT8-ban akár 13 milliárd paraméteres modellekhez. Professzionális: A100 (40/80 GB), H100 (80 GB) – nagyobb modellekhez szükséges. Felhős lehetőségek: az AWS, a GCP és az Azure GPU-példányokat kínál óránkénti elszámolással. CPU-s inferenciához: kisebb modelleknél lehetséges, de 10–100× lassabb, mint GPU-n. Az Apple M sorozatú chipek egységes memóriájuk révén meglepően nagy modelleket képesek futtatni.
Gyakran ismételt kérdések
Mekkora GPU-memória szükséges egy 7 milliárd paraméteres modellhez?
FP16 precizitásnál: 7 milliárd × 2 bájt = 14 GB csak a súlyokhoz, plusz 2–4 GB a KV-gyorsítótárhoz és a fejszámhoz, összesen kb. 16–18 GB. INT8-nál: 7 milliárd × 1 bájt = 7 GB a súlyokhoz, összesen kb. 10–12 GB. INT4-nél (GPTQ/AWQ kvantálás): kb. 4–5 GB a súlyokhoz, összesen 6–8 GB. Egy 24 GB-os fogyasztói GPU (RTX 3090/4090) kényelmesen futtathat 7 milliárd paraméteres modelleket a legtöbb precizitással.
Mi a kvantálás, és mennyit segít?
A kvantálás csökkenti a modellsúlyok precizitását FP32-ről (4 bájt) FP16-ra (2 bájt), INT8-ra (1 bájt) vagy INT4-re (0,5 bájt). Ez arányosan csökkenti a memóriaigényt, és gyakran gyorsítja az inferenciát. Az INT8 kvantálás általában megőrzi a modellminőség 99%+-át, miközben a memóriát felezi az FP16-hoz képest. Az INT4 még több memóriát takarít meg, kissé nagyobb minőségromlással. Ez a legpraktikusabb módja a nagy modellek fogyasztói hardveren való futtatásának.