Verbesserung der DeepSeek R1-Leistung für Inferenz auf dem Gerät mit ONNX Runtime.
Von
Parinita Rahi, Sunghoon Choi, Kunal Vaishnavi, Maanav Dalal19. FEBRUAR 2025
Sind Sie ein Entwickler, der die lokale Rechenleistung Ihrer Nutzer für KI-Inferenzen auf PCs mit NPUs, GPUs und CPUs nutzen möchte? Suchen Sie nicht weiter!
Mit der neuen Version können Sie diese Modelle jetzt auf CPU und GPU ausführen. Sie können die ONNX-optimierten Varianten der Modelle jetzt von Hugging Face herunterladen und ausführen. Zusätzlich können Sie diese Modelle auch auf NPU ausführen: Windows Developer Blog.
Laden Sie Ihre Modelle einfach herunter und führen Sie sie aus!
Die DeepSeek ONNX-Modelle ermöglichen es Ihnen, DeepSeek auf jeder GPU oder CPU auszuführen und erreichen Leistungsgeschwindigkeiten, die 1,3- bis 6,3-mal schneller sind als die native PyTorch-Implementierung. Um schnell mit dem Modell zu beginnen, können Sie unsere ONNX Runtime Generate() API verwenden.
Schnellstart auf CPU
Installation von onnxruntime-genai und Abhängigkeiten für CPU in einer virtuellen Umgebung
python -m venv .venv && source .venv/bin/activate
pip install requests numpy --pre onnxruntime-genai Laden Sie das Modell direkt mit der Huggingface CLI herunter
huggingface-cli download onnxruntime/DeepSeek-R1-Distill-ONNX --include "deepseek-r1-distill-qwen-1.5B/*" --local-dir ./ CPU Chat-Inferenz. Wenn Sie das Modell von Huggingface heruntergeladen haben, passen Sie das Modellverzeichnis (-m) entsprechend an
wget https://raw.githubusercontent.com/microsoft/onnxruntime-genai/refs/heads/main/examples/python/model-chat.py
python model-chat.py -m deepseek-r1-distill-qwen-1.5B/cpu_and_mobile/cpu-int4-rtn-block-32-acc-level-4 -e cpu Anweisungen für GPU (CUDA, DML) finden Sie hier.
ONNX-Modell-Leistungsverbesserungen
ONNX ermöglicht es Ihnen, Ihre Modelle geräteintern über CPU, GPU und NPU auszuführen. Mit ONNX können Sie Ihre Modelle auf jeder Maschine über alle Silizien von Qualcomm, AMD, Intel und Nvidia ausführen. Die folgende Tabelle zeigt einige wichtige Benchmarks für Windows-GPU- und CPU-Geräte.
| Modell | Genauigkeit | Ausführungs-Provider | Gerät | Token-Generierungsdurchsatz | Beschleunigung vs. PyTorch |
|---|---|---|---|---|---|
| deepseek-ai_DeepSeek-R1-Distill-Qwen-1.5B | fp16 | CUDA | RTX 4090 | 197.195 | 4X |
| deepseek-ai_DeepSeek-R1-Distill-Qwen-1.5B | Int4 | CUDA | RTX 4090 | 313.32 | 6.3X |
| deepseek-ai_DeepSeek-R1-Distill-Qwen-7B | fp16 | CUDA | RTX 4090 | 57.316 | 1.3X |
| deepseek-ai_DeepSeek-R1-Distill-Qwen-7B | Int4 | CUDA | RTX 4090 | 161.00 | 3.7X |
| deepseek-ai_DeepSeek-R1-Distill-Qwen-7B | Int4 | CPU | 13. Gen Intel i9 | 3.184 | 20X |
| deepseek-ai_DeepSeek-R1-Distill-Qwen-1.5B | Int4 | CPU | 13. Gen Intel i9 | 11.749 | 1.4X |
CUDA BUILD SPECS: onnxruntime-genai-cuda==0.6.0, transformers==4.46.2, onnxruntime-gpu==1.20.1
CPU BUILD SPECS: onnxruntime-genai==0.6.0, transformers==4.46.2, onnxruntime==1.20.01
Finetunen Sie Ihre Modelle einfach mit Olive.
Dieses Notebook bietet eine Schritt-für-Schritt-Anleitung zum Finetuning von DeepSeek-Modellen mithilfe des Olive-Frameworks. Es deckt den Prozess der Einrichtung Ihrer Umgebung, der Vorbereitung Ihrer Daten und der Nutzung von Azure AI Foundry zur Optimierung und Bereitstellung Ihrer Modelle ab. Das Notebook ist darauf ausgelegt, Ihnen einen schnellen und effizienten Einstieg in DeepSeek und Olive zu ermöglichen und Ihren KI-Entwicklungsprozess reibungsloser und effektiver zu gestalten.
Schlussfolgerung
Die Optimierung von DeepSeek R1-destillierten Modellen mit ONNX Runtime kann zu erheblichen Leistungssteigerungen führen. Diese optimierten Modelle werden bald über Azure AI Foundry verfügbar sein und können einfach über die Befehlszeile oder das VS Code AI Toolkit abgerufen werden.
Durch die Nutzung unserer KI-Framework-Lösung mit Azure Foundry, AI Toolkit, Olive und ONNX Runtime erhalten Sie Ihre End-to-End-Lösung für ein Modellentwicklungserlebnis. Bleiben Sie dran für weitere Updates und Best Practices zur Verbesserung der Leistung von KI-Modellen.