Оцінювач ML-інференції
Оцініть затримку інференції та FPS для ML-моделей на edge-пристроях.
Затримка
150 ms
Макс. FPS
6.7 FPS
Practical Note: Реальні FPS можуть бути нижчими через накладні витрати попередньої обробки та завантаження моделі.
Порівняння затримки (всі пристрої)
Деталі моделі
MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.
Що таке калькулятор ML-інференсу?
Калькулятор ML-інференсу оцінює обчислювальні ресурси, необхідні для виконання інференсу моделей машинного навчання — процесу використання навченої моделі для прогнозування нових даних. Він допомагає визначити необхідну пам'ять GPU, час обчислення та пропускну здатність для розгортання моделей у виробничому середовищі: від невеликих класифікаційних моделей до великих мовних моделей (LLM).
Вимоги до інференсу моделей залежать від розміру моделі (кількість параметрів), точності (FP32, FP16, INT8), розміру пакету, довжини послідовності (для трансформерів) та цільової пропускної здатності. Модель на 7 мільярдів параметрів в FP16 потребує близько 14 ГБ пам'яті GPU лише для ваг. Цей інструмент розраховує вимоги до пам'яті та розрахунковою пропускною здатністю для типових апаратних конфігурацій.
Як користуватися цим інструментом
Введіть розмір моделі (кількість параметрів), точність (тип даних), розмір пакету та цільове обладнання. Інструмент розраховує необхідну пам'ять GPU, розрахункову затримку інференсу та пропускну здатність (токени на секунду для мовних моделей або зображення на секунду для моделей комп'ютерного зору). Він також пропонує, які GPU можуть впоратися з навантаженням.
Ключові поняття
- Параметри — навчені ваги в моделі. Більше параметрів зазвичай означає кращу якість, але вищі вимоги до ресурсів.
- Точність — FP32 використовує 4 байти на параметр, FP16/BF16 — 2 байти, INT8 — 1 байт. Нижча точність зменшує пам'ять і збільшує швидкість з мінімальною втратою якості.
- Розмір пакету — одночасна обробка кількох вхідних даних покращує пропускну здатність, але вимагає більше пам'яті.
- KV-кеш — для трансформерних моделей кеш ключ-значення зростає з довжиною послідовності та займає значну додаткову пам'ять.
Поширене апаратне забезпечення для інференсу
Споживчі GPU: RTX 3090 (24 ГБ), RTX 4090 (24 ГБ) — підходять для моделей до 13 млрд параметрів в INT8. Професійні: A100 (40/80 ГБ), H100 (80 ГБ) — необхідні для більших моделей. Хмарні варіанти: AWS, GCP та Azure пропонують GPU-інстанси погодинно. Для CPU-інференсу: можливий для менших моделей, але в 10–100 разів повільніший за GPU. Чіпи Apple M-серії пропонують єдину пам'ять, що дозволяє запускати напрочуд великі моделі.
Часті запитання
Скільки пам'яті GPU потрібно для моделі на 7 млрд параметрів?
При точності FP16: 7 млрд × 2 байти = 14 ГБ лише для ваг, плюс 2–4 ГБ для KV-кешу та накладних витрат, всього близько 16–18 ГБ. При INT8: 7 млрд × 1 байт = 7 ГБ для ваг, близько 10–12 ГБ загалом. При INT4 (квантизація GPTQ/AWQ): близько 4–5 ГБ для ваг, 6–8 ГБ загалом. Споживчий GPU з 24 ГБ (RTX 3090/4090) може зручно запускати 7-мільярдні моделі в більшості точностей.
Що таке квантизація і наскільки вона допомагає?
Квантизація зменшує точність ваг моделі з FP32 (4 байти) до FP16 (2 байти), INT8 (1 байт) або INT4 (0,5 байта). Це пропорційно зменшує вимоги до пам'яті і часто прискорює інференс. Квантизація INT8 зазвичай зберігає 99%+ якості моделі при вдвічі меншій пам'яті порівняно з FP16. INT4 економить ще більше пам'яті з дещо більшою деградацією якості. Це найпрактичніший спосіб запускати великі моделі на споживчому обладнанні.