ONNX Runtime | Verbesserung der DeepSeek R1-Leistung für Inferenz auf dem Gerät mit ONNX Runtime.

Sind Sie ein Entwickler, der die lokale Rechenleistung Ihrer Nutzer für KI-Inferenzen auf PCs mit NPUs, GPUs und CPUs nutzen möchte? Suchen Sie nicht weiter!

Mit der neuen Version können Sie diese Modelle jetzt auf CPU und GPU ausführen. Sie können die ONNX-optimierten Varianten der Modelle jetzt von Hugging Face herunterladen und ausführen. Zusätzlich können Sie diese Modelle auch auf NPU ausführen: Windows Developer Blog.

Laden Sie Ihre Modelle einfach herunter und führen Sie sie aus!

Die DeepSeek ONNX-Modelle ermöglichen es Ihnen, DeepSeek auf jeder GPU oder CPU auszuführen und erreichen Leistungsgeschwindigkeiten, die 1,3- bis 6,3-mal schneller sind als die native PyTorch-Implementierung. Um schnell mit dem Modell zu beginnen, können Sie unsere ONNX Runtime Generate() API verwenden.

Schnellstart auf CPU

Installation von onnxruntime-genai und Abhängigkeiten für CPU in einer virtuellen Umgebung

python -m venv .venv && source .venv/bin/activate
pip install requests numpy --pre onnxruntime-genai

Laden Sie das Modell direkt mit der Huggingface CLI herunter

huggingface-cli download onnxruntime/DeepSeek-R1-Distill-ONNX --include "deepseek-r1-distill-qwen-1.5B/*" --local-dir ./

CPU Chat-Inferenz. Wenn Sie das Modell von Huggingface heruntergeladen haben, passen Sie das Modellverzeichnis (-m) entsprechend an

wget https://raw.githubusercontent.com/microsoft/onnxruntime-genai/refs/heads/main/examples/python/model-chat.py
python model-chat.py -m deepseek-r1-distill-qwen-1.5B/cpu_and_mobile/cpu-int4-rtn-block-32-acc-level-4 -e cpu

Anweisungen für GPU (CUDA, DML) finden Sie hier.

ONNX-Modell-Leistungsverbesserungen

ONNX ermöglicht es Ihnen, Ihre Modelle geräteintern über CPU, GPU und NPU auszuführen. Mit ONNX können Sie Ihre Modelle auf jeder Maschine über alle Silizien von Qualcomm, AMD, Intel und Nvidia ausführen. Die folgende Tabelle zeigt einige wichtige Benchmarks für Windows-GPU- und CPU-Geräte.

Modell	Genauigkeit	Ausführungs-Provider	Gerät	Token-Generierungsdurchsatz	Beschleunigung vs. PyTorch
deepseek-ai_DeepSeek-R1-Distill-Qwen-1.5B	fp16	CUDA	RTX 4090	197.195	4X
deepseek-ai_DeepSeek-R1-Distill-Qwen-1.5B	Int4	CUDA	RTX 4090	313.32	6.3X
deepseek-ai_DeepSeek-R1-Distill-Qwen-7B	fp16	CUDA	RTX 4090	57.316	1.3X
deepseek-ai_DeepSeek-R1-Distill-Qwen-7B	Int4	CUDA	RTX 4090	161.00	3.7X
deepseek-ai_DeepSeek-R1-Distill-Qwen-7B	Int4	CPU	13. Gen Intel i9	3.184	20X
deepseek-ai_DeepSeek-R1-Distill-Qwen-1.5B	Int4	CPU	13. Gen Intel i9	11.749	1.4X

CUDA BUILD SPECS: onnxruntime-genai-cuda==0.6.0, transformers==4.46.2, onnxruntime-gpu==1.20.1
CPU BUILD SPECS: onnxruntime-genai==0.6.0, transformers==4.46.2, onnxruntime==1.20.01

Finetunen Sie Ihre Modelle einfach mit Olive.

Dieses Notebook bietet eine Schritt-für-Schritt-Anleitung zum Finetuning von DeepSeek-Modellen mithilfe des Olive-Frameworks. Es deckt den Prozess der Einrichtung Ihrer Umgebung, der Vorbereitung Ihrer Daten und der Nutzung von Azure AI Foundry zur Optimierung und Bereitstellung Ihrer Modelle ab. Das Notebook ist darauf ausgelegt, Ihnen einen schnellen und effizienten Einstieg in DeepSeek und Olive zu ermöglichen und Ihren KI-Entwicklungsprozess reibungsloser und effektiver zu gestalten.

Schlussfolgerung

Die Optimierung von DeepSeek R1-destillierten Modellen mit ONNX Runtime kann zu erheblichen Leistungssteigerungen führen. Diese optimierten Modelle werden bald über Azure AI Foundry verfügbar sein und können einfach über die Befehlszeile oder das VS Code AI Toolkit abgerufen werden.

Durch die Nutzung unserer KI-Framework-Lösung mit Azure Foundry, AI Toolkit, Olive und ONNX Runtime erhalten Sie Ihre End-to-End-Lösung für ein Modellentwicklungserlebnis. Bleiben Sie dran für weitere Updates und Best Practices zur Verbesserung der Leistung von KI-Modellen.