ML Inferenz-Schätzer
Inferenz-Latenz und FPS für ML-Modelle auf Edge-Geräten schätzen.
Latenz
150 ms
Max FPS
6.7 FPS
Practical Note: Reale FPS können durch Vorverarbeitungs-Overhead und Modell-Laden niedriger sein.
Latenzvergleich (alle Geräte)
Modelldetails
MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.
Was ist ein ML-Inferenz-Rechner?
Ein ML-Inferenz-Rechner schaetzt die Hardwareanforderungen und Latenz fuer die Ausfuehrung von Machine-Learning-Modellen. Er hilft bei der Planung von GPU-Speicher, Rechenleistung und Durchsatz.
Inferenz ist die Anwendungsphase eines trainierten Modells — im Gegensatz zum Training. Inferenz erfordert typischerweise weniger Ressourcen, aber niedrige Latenz und hoher Durchsatz sind entscheidend fuer Produktionseinsatz.
So verwenden Sie dieses Tool
Geben Sie Modellgroesse (Parameter), Praezision (FP32/FP16/INT8/INT4) und Ihre verfuegbare GPU ein. Das Tool schaetzt den Speicherbedarf, ob das Modell auf Ihre GPU passt und die erwartete Inferenzgeschwindigkeit.
Wichtige Konzepte
- Latenz — die Zeit fuer eine einzelne Vorhersage. Echtzeit-Anwendungen (Chat, Spracherkennung) benoetigen unter 100ms.
- Durchsatz — Vorhersagen pro Sekunde. Wichtig fuer Batch-Verarbeitung und APIs mit vielen gleichzeitigen Anfragen.
- Speicherbedarf — GPU-RAM fuer Modellgewichte. Ein 7B-Parameter-Modell in FP16 benoetigt ca. 14 GB VRAM.
- Quantisierung — Reduzierung der Genauigkeit (FP32 zu INT8 oder INT4) fuer kleineren Speicherbedarf und schnellere Inferenz bei minimalem Qualitaetsverlust.
Hardware fuer ML-Inferenz
Consumer-GPUs (RTX 4090: 24 GB VRAM) fuer kleine Modelle. Datacenter-GPUs (A100: 80 GB, H100: 80 GB) fuer grosse Modelle. Apple Silicon (M2 Ultra: 192 GB Unified Memory) fuer CPU-basierte Inferenz.
Haeufig gestellte Fragen
Wie viel VRAM brauche ich fuer ein 70B-Modell?
In FP16: ca. 140 GB (2 Bytes pro Parameter). In INT4-Quantisierung: ca. 35 GB. Mit INT4 passt ein 70B-Modell auf eine A100 80GB oder zwei RTX 4090 (je 24 GB) mit Tensor-Parallelismus.
Was ist der Unterschied zwischen Training und Inferenz?
Training optimiert die Modellgewichte anhand von Daten und braucht viel Rechenleistung und Speicher (Gradienten, Optimierer-Zustand). Inferenz wendet das fertige Modell an und braucht nur den Vorwaertsdurchlauf — deutlich weniger Ressourcen.