Blogs & Ankündigungen

Ausgewählte Beiträge

Arm und Microsoft arbeiten zusammen, um KI-Erlebnisse für Anwendungen auf Arm-basierten PCs und Mobilgeräten zu beschleunigen

Die Arm KleidiAI-Integration in ONNX Runtime erweitert die KI-Leistungsoptimierungen für die Betriebssysteme Windows und Android und führt zu einer bis zu 2,6-mal schnelleren KI-Inferenz für beschleunigte Anwendungserlebnisse.

Arm and Microsoft collaboration for AI acceleration on PC and mobile devices

16. Mai 2025

Verbesserung der DeepSeek R1-Leistung für die On-Device-Inferenz mit ONNX Runtime.

Verbessern Sie Ihre KI-Inferenzleistung mit DeepSeek R1, optimiert für den On-Device-Einsatz über ONNX Runtime! Dieser Blog untersucht, wie Sie DeepSeek-Modelle effizient über NPUs, GPUs und CPUs ausführen können, um Geschwindigkeitsverbesserungen von bis zu 6,3x gegenüber PyTorch zu erzielen. Erfahren Sie, wie Sie diese Modelle mit dem Olive-Framework und Azure AI Foundry konvertieren, quantisieren und feinabstimmen.

DeepSeek R1 On Device using ONNX Runtime Gen AI

19. Februar 2025

Plattformübergreifende Edge-KI leicht gemacht mit ONNX Runtime

Angetrieben von der wachsenden Nachfrage nach Benutzerdatenschutz, Echtzeitleistung und Kosteneffizienz verändert Edge-KI die KI-Landschaft. Auf der Ignite freuen wir uns, vier neue Funktionen im ONNX Runtime-Ökosystem ankündigen zu können, die Edge-KI zugänglicher machen.

19. November 2024

Ankündigung von MultiLoRA mit ONNX Runtime: Revolutionierung der KI-Anpassung

MultiLoRA mit ONNX Runtime ermöglicht flexible, effiziente KI-Anpassung durch einfache Integration von LoRA-Adaptern für dynamische, personalisierte Modelle mit minimalem Ressourcenbedarf.

20. November 2024

Ist es besser, vor oder nach dem Finetuning zu quantisieren?

Erfahren Sie, wie Sie in Ihrem Modelloptimierungs-Workflow mit Olive schnell und einfach experimentieren können.

19. November 2024

Scribble to Erase in Goodnotes für Windows, Web und Android, unterstützt von ONNX Runtime

Entdecken Sie, wie Goodnotes die beliebte Scribble-to-Erase-Funktion von iPad auf Windows, Web und Android mit Hilfe von ONNX Runtime bringt und so eine nahtlose, hochperformante KI-Integration über Plattformen hinweg ermöglicht.

18. November 2024

Demokratisierung der KI-Modelloptimierung mit der neuen Olive CLI

Erfahren Sie, wie Sie mit der neuen Olive CLI KI-Modelle einfach für die On-Device-Inferenz optimieren können.

11. November 2024

Verbesserung der Teamkollaboration bei der KI-Modelloptimierung mit dem Olive Shared Cache

Erfahren Sie, wie Sie den gemeinsamen Cache von Olive nutzen können, um die Teamkollaboration bei der Optimierung von KI-Modellen zu verbessern.

30. Oktober 2024

Beschleunigung der LightGlue-Inferenz mit ONNX Runtime und TensorRT

Übertreffen Sie torch.compile deutlich mit ONNX Runtime und TensorRT für die LightGlue-Inferenz.

17. Juli 2024

Hochleistungsfähige On-Device-Echtzeit-ML mit NimbleEdge, unter Verwendung von ONNX Runtime

Die Verwendung von NimbleEdge mit ONNX Runtime liefert Millisekunden-Latenz und minimalen Ressourcenverbrauch, was Echtzeit- und datenschutzkonforme Personalisierung in mobilen Apps ermöglicht.

17. Juni 2024

Hintergrundentfernung im Browser mit ONNX Runtime und WebGPU

Die Verwendung von ONNX Runtime mit WebGPU und WebAssembly führt zu einer 20-fachen Beschleunigung gegenüber Multi-Threaded- und einer 550-fachen Beschleunigung gegenüber Single-Threaded-CPU-Leistung. Dadurch werden interaktive Geschwindigkeiten für hochmoderne Hintergrundentfernung direkt im Browser erzielt.

12. Juni 2024

Phi-3 Small- und Medium-Modelle sind jetzt mit ONNX Runtime und DirectML optimiert

Sie können nun die Phi-3 Medium- und Small-Modelle auf dem Gerät Ihrer Wahl ausführen.

21. Mai 2024

Genießen Sie die Leistung von Phi-3 mit ONNX Runtime auf Ihrem Gerät

Nutzen Sie ONNX Runtime, um Phi-3-mini auf Mobiltelefonen und im Browser auszuführen.

20. Mai 2024

ONNX Runtime unterstützt Phi-3-Mini-Modelle plattform- und geräteübergreifend

Dank ONNX Runtime und DirectML können Sie nun die neuesten selbst entwickelten Phi-3-Modelle von Microsoft auf einer riesigen Bandbreite von Geräten und Plattformen ausführen.

22. April 2024

ONNX Runtime Web entfesselt generative KI im Browser mit WebGPU

Wir freuen uns, die offizielle Einführung von ONNX Runtime Web mit WebGPU ankündigen zu können, das jetzt in der ONNX Runtime 1.17-Version verfügbar ist.

29. Februar 2024

ONNX Runtime 1.17: CUDA 12-Unterstützung, Phi-2-Optimierungen, WebGPU und mehr!

Von Phi-2-Modelloptimierungen bis hin zur CUDA 12-Unterstützung – lesen Sie diesen Beitrag, um mehr über einige der aufregenden neuen Funktionen der ONNX Runtime 1.17-Version zu erfahren.

28. Februar 2024

Beschleunigung von Phi-2, CodeLlama, Gemma und anderen Gen AI-Modellen mit ONNX Runtime

Verbesserungen mit ONNX Runtime für die Inferenz beliebter Gen AI-Modelle.

26. Februar 2024

On-Device-Training: Training eines Modells im Browser

Möchten Sie ML-Training für Ihre Website im Browser durchführen? Erfahren Sie in unserem Blog unten mehr über das Web-Training mit ONNX Runtime und experimentieren Sie mit Ihren eigenen Anwendungen durch unsere leicht verständlichen Tutorials und Demos.

6. Februar 2024

Beschleunigung der SD Turbo- und SDXL Turbo-Inferenz mit ONNX Runtime und Olive

Mit ONNX Runtime und Olive können Benutzer SD Turbo- und SDXL Turbo-Modelle einfach beschleunigen, um in nur einem Schritt praktikable Bilder zu generieren!

15. Januar 2024

Beschleunigung der LLaMA-2-Inferenz mit ONNX Runtime

Erfahren Sie, wie ONNX Runtime die LLaMA-2-Inferenz um bis zu 4,5x beschleunigen kann.

14. November 2023

PyTorch-Modelle am Edge ausführen

Alles, was Sie über die Ausführung von PyTorch-Modellen am Edge mit ONNX Runtime wissen müssen.

12. Oktober 2023

Beschleunigung von über 130.000 Hugging Face-Modellen mit ONNX Runtime

Erfahren Sie mehr darüber, wie ONNX Runtime Benutzern hilft, Open-Source-Machine-Learning-Modelle von Hugging Face zu beschleunigen.

4. Oktober 2023

On-Device-Training mit ONNX Runtime: Ein tiefer Einblick

Dieser Blog präsentiert technische Details des On-Device-Trainings mit ONNX Runtime. Er erklärt, wie On-Device-Training funktioniert und welche verschiedenen Schritte und Artefakte am Trainingsprozess beteiligt sind. Diese Informationen helfen Ihnen beim Trainieren Ihrer Modelle auf Edge-Geräten.

5. Juli 2023

Erstellen und Bereitstellen schneller und portabler Spracherkennungsanwendungen mit ONNX Runtime und Whisper

Erfahren Sie, wie ONNX Runtime Whisper beschleunigt und die Bereitstellung auf Desktops, Mobilgeräten, in der Cloud und sogar im Browser vereinfacht.

7. Juni 2023

On-Device-Training: Effizientes Training am Edge mit ONNX Runtime

Dieser Blog stellt On-Device-Training vor, um das Training von Modellen auf Edge-Geräten mit den dort verfügbaren Daten zu ermöglichen. Er erweitert die ORT-Inferenz am Edge um föderiertes Lernen und Personalisierungsszenarien.

31. Mai 2023

Erschließung des End-to-End-Windows-KI-Entwicklererlebnisses mit ONNX Runtime und Olive

Dieser Blog behandelt die neuen Fähigkeiten von ONNX Runtime und der Olive-Toolchain zur Unterstützung von Hybrid-Inferenz, NPU EPs und hardwarebewussten Modelloptimierungen unter Windows und anderen Plattformen.

23. Mai 2023

Die Leistung von KI auf Windows 11 bringen – eine neue Ära der Produktivität für Kunden und Entwickler mit Windows Copilot und Dev Home erschließen

Dieser Blog behandelt KI in Windows 11, einschließlich ONNX Runtime als Gateway zu Windows AI und neuen ONNX Runtime-Funktionen unter Windows.

23. Mai 2023

DirectML-Leistung mit Olive optimieren

Dieser Blog zeigt, wie Olive verwendet wird, um Modelle für den DML EP in ONNX Runtime zu optimieren.

23. Mai 2023

DirectML ❤ Stable Diffusion

Dieser Blog zeigt, wie das Stable Diffusion-Modell auf dem DML EP mit Olive verwendet wird, um das Stable Diffusion-Modell zu optimieren.

23. Mai 2023

Beschleunigung der Stable Diffusion-Inferenz mit ONNX Runtime

Dieser Blog zeigt, wie die Stable Diffusion-Modelle von Hugging Face auf NVIDIA- und AMD-GPUs mit ONNX Runtime beschleunigt werden. Er enthält Benchmark-Ergebnisse auf A100, RTX3060 und MI250X.

10. Mai 2023

Azure Container für PyTorch ist jetzt allgemein verfügbar in Azure Machine Learning!

ACPT bietet eine gebrauchsfertige verteilte Trainingsumgebung, in der Benutzer auf der neuesten Multi-Node-GPU-Infrastruktur von Azure arbeiten können. Mit Nebula, einer neuen schnellen Checkpointing-Funktion in ACPT, können Sie Ihre Checkpoints 1000-mal schneller mit einer einfachen API speichern, die asynchron mit Ihrem Trainingsprozess funktioniert.

22. März 2023

Hochleistungs-Deep-Learning in Oracle Cloud mit ONNX Runtime

Die Ermöglichung von Szenarien durch die Nutzung von Deep Neural Network (DNN)-Modellen ist entscheidend für unsere KI-Strategie bei Oracle, und unser Cloud AI Services-Team hat eine Lösung entwickelt, um DNN-Modelle für Kunden im Gesundheitswesen bereitzustellen. In diesem Blogbeitrag werden wir die Herausforderungen unseres Teams und wie ONNX Runtime diese als Rückgrat für erfolgreiche Hochleistungs-Inferenz löst, teilen.

15. März 2023

Inferenz von Stable Diffusion mit C# und ONNX Runtime

In diesem Tutorial lernen wir, wie man Inferenz für das beliebte Deep-Learning-Modell Stable Diffusion in C# durchführt. Stable Diffusion-Modelle nehmen einen Text-Prompt entgegen und erstellen ein Bild, das den Text darstellt.

9. März 2023

Video-Super-Resolution in Microsoft Edge

VSR in Microsoft Edge baut auf ONNX Runtime und DirectML auf, was unsere Lösung über GPU-Anbieter hinweg portierbar macht und VSR mehr Benutzern zugänglich macht. Zusätzliche Grafikkarten, die diese Technologien unterstützen und über ausreichende Rechenleistung verfügen, werden zukünftig unterstützt. Die Teams von ONNX Runtime und DirectML haben ihre Technologie über viele Jahre feinabgestimmt, was dazu führt, dass VSR die Leistung und Fähigkeiten der Verarbeitungskraft Ihrer Grafikkarte optimal nutzt.

8. März 2023

OctoML senkt die Produktionskosten für KI-Inferenz bei Microsoft durch neue Integration mit dem ONNX Runtime-Ökosystem

Im vergangenen Jahr arbeiteten OctoML-Ingenieure eng mit Watch For zusammen, um den TVM Execution Provider (EP) für ONNX Runtime zu entwerfen und zu implementieren – und brachten so das Modelloptimierungspotenzial von Apache TVM allen ONNX Runtime-Benutzern zugänglich. Dies baut auf der Zusammenarbeit auf, die wir 2021 begonnen haben, um die Vorteile von TVM's Codeerzeugung und flexibler Quantisierungsunterstützung für die Produktionsskala bei Microsoft zu nutzen.

2. März 2023

Performante On-Device-Inferenz mit ONNX Runtime

Das Serving von Machine-Learning-Modellen am Gerät ist eine schwierige Aufgabe, insbesondere angesichts der begrenzten Bandbreite von Start-ups in der Anfangsphase. Dieser Gastbeitrag des Teams von Pieces teilt die Probleme und Lösungen, die für ihren On-Device-Modell-Serving-Stack evaluiert wurden, und wie ONNX Runtime als Rückgrat ihres Erfolgs dient.

8. Februar 2023

Verbessern Sie die BERT-Inferenzgeschwindigkeit durch Kombination der Leistung von Optimum, OpenVINO™, ONNX Runtime und Azure

In diesem Blog besprechen wir eine Möglichkeit, riesige Modelle wie BERT mit dem OpenVINO™ Neural Networks Compression Framework (NNCF) und ONNX Runtime mit dem OpenVINO™ Execution Provider über Azure Machine Learning kleiner und schneller zu machen.

25. Januar 2023

Optimum + ONNX Runtime: Einfacheres, schnelleres Training für Ihre Hugging Face-Modelle

Die Optimum-Bibliothek von Hugging Face bietet durch ihre Integration mit ONNX Runtime für das Training eine offene Lösung zur Verbesserung der Trainingszeiten um 35 % oder mehr für viele beliebte Hugging Face-Modelle. Wir präsentieren Details sowohl zu Hugging Face Optimum als auch zum ONNX Runtime Training-Ökosystem mit Leistungszahlen, die die Vorteile der Verwendung der Optimum-Bibliothek hervorheben.

24. Januar 2023

Live-Demos von Machine-Learning-Modellen mit ONNX und Hugging Face Spaces

Die Wahl des richtigen Machine-Learning-Modells, das Teilen eines Modells mit einem Kollegen und das schnelle Ausprobieren eines Modells sind alles Gründe, warum Sie schnell Inferenz auf einem Modell durchführen möchten. Sie können Ihre Umgebung konfigurieren und Jupyter-Notebooks herunterladen, aber es wäre schöner, wenn es einen Weg gäbe, ein Modell mit noch weniger Aufwand auszuführen...

6. Juni 2022

Optimierung und Bereitstellung von Transformer INT8-Inferenz mit ONNX Runtime-TensorRT auf NVIDIA GPUs

Transformer-basierte Modelle haben den Bereich der natürlichen Sprachverarbeitung (NLP) revolutioniert. Seit seiner Einführung wurde die Transformer-Architektur in Modelle wie Bidirectional Encoder Representations from Transformers (BERT) und Generative Pre-trained Transformer (GPT) integriert, um Aufgaben wie Textgenerierung, Zusammenfassung und Fragenbeantwortung durchzuführen, um nur einige zu nennen...

2. Mai 2022

Skalierung der PyTorch-Inferenz: Milliarden täglicher NLP-Inferenz mit ONNX Runtime

Skalierung, Leistung und effiziente Bereitstellung von hochmodernen Deep-Learning-Modellen sind allgegenwärtige Herausforderungen, da angewandte maschinelle Lernen in der Industrie wächst. Wir freuen uns, dass die von uns entwickelte und in Microsoft-Produkten und -Diensten mit hohem Volumen verwendete ONNX Runtime Machine Learning-Modellinferenzlösung auch bei unserer Open-Source-Community Anklang findet und neue Fähigkeiten ermöglicht, die die Relevanz von Inhalten und die Produktivität steigern...

19. April 2022

KI zu mobilen Anwendungen mit Xamarin und ONNX Runtime hinzufügen

ONNX Runtime unterstützt nun die Erstellung mobiler Anwendungen in C# mit Xamarin. Die Unterstützung für Android und iOS ist im ONNX Runtime Release 1.10 NuGet-Paket enthalten. Dies ermöglicht C#-Entwicklern, KI-Anwendungen für Android und iOS zu erstellen, um ONNX-Modelle mit ONNX Runtime auf mobilen Geräten auszuführen...

14. Dezember 2021

ONNX Runtime Web – Ihr Machine-Learning-Modell im Browser ausführen

Wir stellen ONNX Runtime Web (ORT Web vor), eine neue Funktion in ONNX Runtime, die es JavaScript-Entwicklern ermöglicht, Machine-Learning-Modelle im Browser auszuführen und bereitzustellen. Sie ermöglicht auch neue Klassen von On-Device-Berechnungen. ORT Web wird das bald veraltete onnx.js ersetzen...

2. September 2021

Beschleunigung des PyTorch-Transformer-Modelltrainings mit ONNX Runtime – ein tiefer Einblick

ONNX Runtime (ORT) für PyTorch beschleunigt das Training von großen Modellen über mehrere GPUs hinweg mit bis zu 37 % mehr Training-Durchsatz als PyTorch und bis zu 86 % Beschleunigung in Kombination mit DeepSpeed...

13. Juli 2021

Beschleunigen Sie das PyTorch-Training mit torch-ort

Mit einer einfachen Änderung an Ihrem PyTorch-Trainingsskript können Sie nun das Training großer Sprachmodelle mit torch_ort beschleunigen. ORTModule, das auf der von Ihnen gewählten Hardware läuft. Das Training von Deep-Learning-Modellen erfordert immer steigende Rechen- und Speicherressourcen. Heute veröffentlichen wir torch_ort.ORTModule, um das verteilte Training von PyTorch-Modellen zu beschleunigen und die Zeit und Ressourcen für das Training zu reduzieren...

13. Juli 2021

ONNX Runtime Version 1.8.1 bietet Vorschau auf Unterstützung für beschleunigtes Training auf AMD GPUs mit der AMD ROCm™ Open Software Platform

ONNX Runtime ist ein Open-Source-Projekt zur Beschleunigung von Machine Learning auf einer Vielzahl von Frameworks, Betriebssystemen und Hardwareplattformen. Heute freuen wir uns, eine Vorschauversion von ONNX Runtime in Version 1.8.1 ankündigen zu können, die Unterstützung für AMD Instinct™ GPUs über die AMD ROCm™ Open-Source-Plattform bietet...

13. Juli 2021

Die Reise zur Optimierung von groß angelegten Transformer-Modellinferenzen mit ONNX Runtime

Groß angelegte Transformer-Modelle wie GPT-2 und GPT-3 gehören zu den nützlichsten selbstüberwachten Transformer-Sprachmodellen für NLP-Aufgaben wie Sprachübersetzung, Fragenbeantwortung, Textzusammenfassung, Texterstellung und so weiter...

30. Juni 2021