Azure Container für PyTorch (ACPT)
Azure Container für PyTorch (ACPT) ist eine leichtgewichtige, eigenständige Umgebung, die die notwendigen Komponenten enthält, um optimiertes Training für große Modelle effektiv durchzuführen. Sie hilft bei der Reduzierung von Vorbereitungskosten und beschleunigt die Bereitstellungszeit. ACPT kann verwendet werden, um schnell mit verschiedenen Deep-Learning-Aufgaben mit PyTorch auf Azure zu beginnen.
Inhalt
- Warum sollte ich ACPT verwenden?
- Unterstützte Konfigurationen für Azure Container für PyTorch (ACPT)
- Support
Warum sollte ich ACPT verwenden?
- Flexibilität: Verwenden Sie es wie es ist mit vorinstallierten Paketen oder bauen Sie auf der kuratierten Umgebung auf.
- Benutzerfreundlichkeit: Alle Komponenten sind installiert und gegen Dutzende von Microsoft-Workloads validiert, um Setup-Kosten zu senken und den Zeitaufwand bis zur Wertschöpfung zu beschleunigen.
- Effizienz: Vermeiden Sie unnötige Image-Builds und haben Sie nur die erforderlichen Abhängigkeiten, die direkt im Image/Container zugänglich sind.
- Optimiertes Trainings-Framework: Richten Sie PyTorch-Modelle für große Workloads ein, entwickeln Sie sie und beschleunigen Sie sie, und verbessern Sie die Erfolgsquote beim Training und bei der Bereitstellung.
- Aktueller Stack: Greifen Sie auf die neuesten kompatiblen Versionen von Ubuntu, Python, PyTorch, CUDA/RocM usw. zu.
- Neueste Technologien zur Trainingsoptimierung: Nutzen Sie ONNX Runtime, DeepSpeed, MSCCL und mehr.
Unterstützte Konfigurationen für Azure Container für PyTorch (ACPT)
Die folgenden Konfigurationen werden in der Microsoft Container Registry (MCR) unterstützt: ptca_image_list.md.
Weitere Pakete wie fairscale, horovod, msccl, protobuf, pyspark, pytest, pytorch-lightning, tensorboard, NebulaML, torchvision und torchmetrics werden zur Unterstützung aller Trainingsanforderungen bereitgestellt.
Support
Versionsaktualisierungen für unterstützte Umgebungen, einschließlich der von ihnen referenzierten Basis-Images, werden alle zwei Wochen veröffentlicht, um Schwachstellen zu beheben, die nicht älter als 30 Tage sind. Basierend auf der Nutzung können einige Umgebungen (aus dem Produkt ausgeblendet, aber nutzbar) zur Unterstützung häufigerer Machine-Learning-Szenarien als veraltet gekennzeichnet werden.