Olive – Tool zur hardwaregestützten Modelloptimierung
Olive ist ein einfach zu bedienendes, hardwaregestütztes Modelloptimierungstool, das branchenführende Techniken für Modellkomprimierung, -optimierung und -kompilierung kombiniert. Es arbeitet mit ONNX Runtime als End-to-End-Inferenzoptimierungslösung.
Unter Berücksichtigung von Einschränkungen wie Genauigkeit und Latenz komponiert Olive anhand eines Modells und der Zielhardware die am besten geeigneten Optimierungstechniken, um die effizientesten Modelle und Laufzeitkonfigurationen für die Inferenz mit ONNX Runtime auszugeben. Zu den integrierten Techniken von Olive gehören ONNX Runtime Transformer-Optimierungen, ONNX Runtime-Leistungsabstimmung, HW-abhängige abstimmbare Post-Training-Quantisierung, Quantize-Aware-Training und mehr. Olive ist das empfohlene Tool zur Modelloptimierung für ONNX Runtime.
Beispiele
- BERT-Optimierung auf der CPU (mit Post-Training-Quantisierung)
- BERT-Optimierung auf der CPU (mit Quantize-Aware-Training)
Weitere Details finden Sie im Olive-Repository und in der Olive-Dokumentation.