Leistungsoptimierung für ONNX Runtime

ONNX Runtime bietet eine hohe Leistung für die Ausführung von Deep-Learning-Modellen auf einer Vielzahl von Hardwares. Basierend auf den Anforderungen des Nutzungsszenarios sind Latenz, Durchsatz, Speichernutzung sowie Modell-/Anwendungsgröße gängige Dimensionen, nach denen die Leistung gemessen wird.

Während ORT Out-of-the-Box darauf abzielt, eine gute Leistung für die gängigsten Nutzungsmuster zu bieten, gibt es Modelloptimierungstechniken und Laufzeitkonfigurationen, die zur Verbesserung der Leistung für spezifische Anwendungsfälle und Modelle genutzt werden können.


Inhaltsverzeichnis