raatools/

Estimador de inferencia ML

Estime la latencia de inferencia y FPS para modelos ML en dispositivos edge.

Latencia

150 ms

FPS máximo

6.7 FPS

Practical Note: Los FPS reales pueden ser menores debido a la sobrecarga del preprocesamiento y la carga del modelo.

Comparación de latencia (todos los dispositivos)

Pi 4 (4GB)
150ms
Pi 5 (8GB)
50ms
Pi 5 + Coral TPU
5ms

Detalles del modelo

MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.

¿Qué es una calculadora de inferencia ML?

Una calculadora de inferencia ML estima los recursos computacionales necesarios para ejecutar inferencia de modelos de aprendizaje automático: el proceso de usar un modelo entrenado para hacer predicciones sobre nuevos datos. Te ayuda a determinar la memoria GPU requerida, el tiempo de cómputo y el rendimiento para desplegar modelos en producción, desde pequeños modelos de clasificación hasta grandes modelos de lenguaje (LLMs).

Los requisitos de inferencia dependen del tamaño del modelo (número de parámetros), la precisión (FP32, FP16, INT8), el tamaño de batch, la longitud de secuencia (para transformers) y el rendimiento objetivo. Un modelo de 7000 millones de parámetros en FP16 necesita unos 14GB de memoria GPU solo para los pesos. Esta herramienta calcula los requisitos de memoria y el rendimiento estimado para configuraciones de hardware comunes.

Cómo usar esta herramienta

Introduce el tamaño del modelo (número de parámetros), la precisión (tipo de dato), el tamaño de batch y el hardware objetivo. La herramienta calcula la memoria GPU requerida, la latencia de inferencia estimada y el rendimiento (tokens por segundo para modelos de lenguaje, o imágenes por segundo para modelos de visión). También sugiere qué GPUs pueden manejar la carga.

Conceptos clave

  • Parámetros — los pesos aprendidos en un modelo. Más parámetros suelen significar mejor calidad pero más recursos.
  • Precisión — FP32 usa 4 bytes por parámetro, FP16/BF16 usa 2 bytes, INT8 usa 1 byte. Menor precisión reduce memoria y aumenta velocidad con mínima pérdida de calidad.
  • Tamaño de batch — procesar múltiples entradas simultáneamente mejora el rendimiento pero requiere más memoria.
  • KV cache — para modelos transformer, la caché key-value crece con la longitud de secuencia y consume memoria adicional significativa.

Hardware común para inferencia

GPUs de consumo: RTX 3090 (24GB), RTX 4090 (24GB) — buenas para modelos hasta 13B parámetros en INT8. Profesionales: A100 (40/80GB), H100 (80GB) — necesarias para modelos mayores. Opciones en la nube: AWS, GCP y Azure ofrecen instancias GPU por hora. Para inferencia en CPU: posible para modelos pequeños pero 10-100x más lento que GPU. Los chips Apple serie M ofrecen memoria unificada que puede ejecutar modelos sorprendentemente grandes.

Preguntas frecuentes

¿Cuánta memoria GPU necesito para un modelo de 7B parámetros?

En precisión FP16: 7B * 2 bytes = 14GB solo para los pesos, más 2-4GB para KV cache y sobrecarga, totalizando unos 16-18GB. En INT8: 7B * 1 byte = 7GB para pesos, unos 10-12GB total. En INT4 (cuantización GPTQ/AWQ): unos 4-5GB para pesos, 6-8GB total. Una GPU de consumo de 24GB (RTX 3090/4090) puede ejecutar cómodamente modelos 7B en la mayoría de las precisiones.

¿Qué es la cuantización y cuánto ayuda?

La cuantización reduce la precisión de los pesos del modelo de FP32 (4 bytes) a FP16 (2 bytes), INT8 (1 byte) o INT4 (0,5 bytes). Esto reduce los requisitos de memoria proporcionalmente y a menudo acelera la inferencia. La cuantización INT8 normalmente preserva más del 99 % de la calidad del modelo mientras reduce a la mitad la memoria comparada con FP16. INT4 ahorra aún más memoria con algo más de pérdida de calidad. Es la forma más práctica de ejecutar modelos grandes en hardware de consumo.