Estimador de inferencia ML

Estime la latencia de inferencia y FPS para modelos ML en dispositivos edge.

Modelo Dispositivo

Latencia

150 ms

FPS máximo

6.7 FPS

Practical Note: Los FPS reales pueden ser menores debido a la sobrecarga del preprocesamiento y la carga del modelo.

Comparación de latencia (todos los dispositivos)

Pi 4 (4GB)

150ms

Pi 5 (8GB)

50ms

Pi 5 + Coral TPU

5ms

Detalles del modelo

MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.

¿Qué es una calculadora de inferencia ML?

Una calculadora de inferencia ML estima los recursos computacionales necesarios para ejecutar inferencia de modelos de aprendizaje automático: el proceso de usar un modelo entrenado para hacer predicciones sobre nuevos datos. Te ayuda a determinar la memoria GPU requerida, el tiempo de cómputo y el rendimiento para desplegar modelos en producción, desde pequeños modelos de clasificación hasta grandes modelos de lenguaje (LLMs).

Los requisitos de inferencia dependen del tamaño del modelo (número de parámetros), la precisión (FP32, FP16, INT8), el tamaño de batch, la longitud de secuencia (para transformers) y el rendimiento objetivo. Un modelo de 7000 millones de parámetros en FP16 necesita unos 14GB de memoria GPU solo para los pesos. Esta herramienta calcula los requisitos de memoria y el rendimiento estimado para configuraciones de hardware comunes.

Cómo usar esta herramienta

Introduce el tamaño del modelo (número de parámetros), la precisión (tipo de dato), el tamaño de batch y el hardware objetivo. La herramienta calcula la memoria GPU requerida, la latencia de inferencia estimada y el rendimiento (tokens por segundo para modelos de lenguaje, o imágenes por segundo para modelos de visión). También sugiere qué GPUs pueden manejar la carga.

Conceptos clave

Parámetros — los pesos aprendidos en un modelo. Más parámetros suelen significar mejor calidad pero más recursos.
Precisión — FP32 usa 4 bytes por parámetro, FP16/BF16 usa 2 bytes, INT8 usa 1 byte. Menor precisión reduce memoria y aumenta velocidad con mínima pérdida de calidad.
Tamaño de batch — procesar múltiples entradas simultáneamente mejora el rendimiento pero requiere más memoria.
KV cache — para modelos transformer, la caché key-value crece con la longitud de secuencia y consume memoria adicional significativa.

Hardware común para inferencia

GPUs de consumo: RTX 3090 (24GB), RTX 4090 (24GB) — buenas para modelos hasta 13B parámetros en INT8. Profesionales: A100 (40/80GB), H100 (80GB) — necesarias para modelos mayores. Opciones en la nube: AWS, GCP y Azure ofrecen instancias GPU por hora. Para inferencia en CPU: posible para modelos pequeños pero 10-100x más lento que GPU. Los chips Apple serie M ofrecen memoria unificada que puede ejecutar modelos sorprendentemente grandes.

Ejemplo práctico

Un modelo de lenguaje con 7000 millones de parámetros en precisión de 16 bits necesita 7 000 000 000 × 2 bytes = 14 GB solo para los pesos. Cuantizar a 4 bits lo reduce a unos 3,5 GB, permitiendo que quepa en una GPU de consumo. Si la GPU ofrece 300 GB/s de ancho de banda de memoria, leer 3,5 GB por token limita el rendimiento a cerca de 85 tokens por segundo.

Errores comunes

Un error común es juzgar la velocidad de inferencia solo por el cómputo (FLOPS); en modelos grandes, el ancho de banda de memoria suele limitar la generación de tokens, no el cálculo puro. Otro es ignorar la diferencia entre latencia (tiempo al primer token) y rendimiento (tokens por segundo en un lote). Olvidar que agrupar muchas solicitudes juntas eleva el rendimiento a costa de la latencia por solicitud también es común.

Preguntas frecuentes

¿Cuánta memoria GPU necesito para un modelo de 7B parámetros?

En precisión FP16: 7B * 2 bytes = 14GB solo para los pesos, más 2-4GB para KV cache y sobrecarga, totalizando unos 16-18GB. En INT8: 7B * 1 byte = 7GB para pesos, unos 10-12GB total. En INT4 (cuantización GPTQ/AWQ): unos 4-5GB para pesos, 6-8GB total. Una GPU de consumo de 24GB (RTX 3090/4090) puede ejecutar cómodamente modelos 7B en la mayoría de las precisiones.

¿Qué es la cuantización y cuánto ayuda?

La cuantización reduce la precisión de los pesos del modelo de FP32 (4 bytes) a FP16 (2 bytes), INT8 (1 byte) o INT4 (0,5 bytes). Esto reduce los requisitos de memoria proporcionalmente y a menudo acelera la inferencia. La cuantización INT8 normalmente preserva más del 99 % de la calidad del modelo mientras reduce a la mitad la memoria comparada con FP16. INT4 ahorra aún más memoria con algo más de pérdida de calidad. Es la forma más práctica de ejecutar modelos grandes en hardware de consumo.

¿Por qué la cuantización acelera la inferencia?

La cuantización almacena los pesos en menos bits —8 bits o 4 bits en vez de 16— así que hay menos datos que mover de la memoria por cada token. Como la inferencia de modelos grandes suele estar limitada por el ancho de banda de memoria, reducir a la mitad los bytes por peso duplica aproximadamente la tasa de tokens, con una pérdida de precisión pequeña y a menudo aceptable.