Leistungsoptimierung für ONNX Runtime
ONNX Runtime bietet eine hohe Leistung für die Ausführung von Deep-Learning-Modellen auf einer Vielzahl von Hardwares. Basierend auf den Anforderungen des Nutzungsszenarios sind Latenz, Durchsatz, Speichernutzung sowie Modell-/Anwendungsgröße gängige Dimensionen, nach denen die Leistung gemessen wird.
Während ORT Out-of-the-Box darauf abzielt, eine gute Leistung für die gängigsten Nutzungsmuster zu bieten, gibt es Modelloptimierungstechniken und Laufzeitkonfigurationen, die zur Verbesserung der Leistung für spezifische Anwendungsfälle und Modelle genutzt werden können.