ML Inferenz-Schätzer

Inferenz-Latenz und FPS für ML-Modelle auf Edge-Geräten schätzen.

Modell Gerät

Latenz

150 ms

Max FPS

6.7 FPS

Practical Note: Reale FPS können durch Vorverarbeitungs-Overhead und Modell-Laden niedriger sein.

Latenzvergleich (alle Geräte)

Pi 4 (4GB)

150ms

Pi 5 (8GB)

50ms

Pi 5 + Coral TPU

5ms

Modelldetails

MobileNet V2: Lightweight image classification. Good for real-time inference on edge devices.

Was ist ein ML-Inferenz-Rechner?

Ein ML-Inferenz-Rechner schaetzt die Hardwareanforderungen und Latenz fuer die Ausfuehrung von Machine-Learning-Modellen. Er hilft bei der Planung von GPU-Speicher, Rechenleistung und Durchsatz.

Inferenz ist die Anwendungsphase eines trainierten Modells — im Gegensatz zum Training. Inferenz erfordert typischerweise weniger Ressourcen, aber niedrige Latenz und hoher Durchsatz sind entscheidend fuer Produktionseinsatz.

So verwenden Sie dieses Tool

Geben Sie Modellgroesse (Parameter), Praezision (FP32/FP16/INT8/INT4) und Ihre verfuegbare GPU ein. Das Tool schaetzt den Speicherbedarf, ob das Modell auf Ihre GPU passt und die erwartete Inferenzgeschwindigkeit.

Wichtige Konzepte

Latenz — die Zeit fuer eine einzelne Vorhersage. Echtzeit-Anwendungen (Chat, Spracherkennung) benoetigen unter 100ms.
Durchsatz — Vorhersagen pro Sekunde. Wichtig fuer Batch-Verarbeitung und APIs mit vielen gleichzeitigen Anfragen.
Speicherbedarf — GPU-RAM fuer Modellgewichte. Ein 7B-Parameter-Modell in FP16 benoetigt ca. 14 GB VRAM.
Quantisierung — Reduzierung der Genauigkeit (FP32 zu INT8 oder INT4) fuer kleineren Speicherbedarf und schnellere Inferenz bei minimalem Qualitaetsverlust.

Hardware fuer ML-Inferenz

Consumer-GPUs (RTX 4090: 24 GB VRAM) fuer kleine Modelle. Datacenter-GPUs (A100: 80 GB, H100: 80 GB) fuer grosse Modelle. Apple Silicon (M2 Ultra: 192 GB Unified Memory) fuer CPU-basierte Inferenz.

Rechenbeispiel

Ein Sprachmodell mit 7 Milliarden Parametern in 16-Bit-Präzision braucht 7.000.000.000 × 2 Byte = 14 GB allein für die Gewichte. Auf 4 Bit zu quantisieren senkt das auf etwa 3,5 GB, sodass es auf eine Consumer-GPU passt. Liefert die GPU 300 GB/s Speicherbandbreite, begrenzt das Lesen von 3,5 GB pro Token den Durchsatz auf rund 85 Token pro Sekunde.

Häufige Fehler

Ein häufiger Fehler ist, die Inferenzgeschwindigkeit allein an der Rechenleistung (FLOPS) zu messen; bei großen Modellen begrenzt meist die Speicherbandbreite die Token-Erzeugung, nicht die reine Rechnung. Ein weiterer ist, den Unterschied zwischen Latenz (Zeit bis zum ersten Token) und Durchsatz (Token pro Sekunde über einen Batch) zu ignorieren. Zu vergessen, dass das Bündeln vieler Anfragen den Durchsatz auf Kosten der Latenz je Anfrage erhöht, ist ebenfalls verbreitet.

Haeufig gestellte Fragen

Wie viel VRAM brauche ich fuer ein 70B-Modell?

In FP16: ca. 140 GB (2 Bytes pro Parameter). In INT4-Quantisierung: ca. 35 GB. Mit INT4 passt ein 70B-Modell auf eine A100 80GB oder zwei RTX 4090 (je 24 GB) mit Tensor-Parallelismus.

Was ist der Unterschied zwischen Training und Inferenz?

Training optimiert die Modellgewichte anhand von Daten und braucht viel Rechenleistung und Speicher (Gradienten, Optimierer-Zustand). Inferenz wendet das fertige Modell an und braucht nur den Vorwaertsdurchlauf — deutlich weniger Ressourcen.

Warum beschleunigt Quantisierung die Inferenz?

Quantisierung speichert Gewichte in weniger Bit — 8 Bit oder 4 Bit statt 16 Bit — sodass pro Token weniger Daten aus dem Speicher zu holen sind. Da die Inferenz großer Modelle meist speicherbandbreitenbegrenzt ist, verdoppelt das Halbieren der Byte je Gewicht die Token-Rate etwa, bei geringem und oft akzeptablem Genauigkeitsverlust.