NVIDIA DLI KI-Agenten mit Multimodalen Modellen erstellen
Über diesen Kurs
Lernen Sie, wie man neuronale Netzwerk-Agenten erstellt, die über mehrere Datentypen hinweg mit erweiterten Fusionstechniken, OCR und NVIDIA AI Blueprints für reale Anwendungen wie Robotik und Videosuche und -zusammenfassung argumentieren.
Lernziele
In diesem Kurs lernen Sie über:
- Verschiedene Datentypen und wie man sie neuronales-Netzwerk-bereit macht
- Model Fusion und die Unterschiede zwischen früher, später und zwischenzeitlicher Fusion
- PDF-Extraktion mit OCR
- Den Unterschied zwischen Modalitäts- und Agenten-Orchestrierung
- Anpassung von NVIDIA AI Blueprints mit Video Search and Summarization (VSS)
Behandelte Themen
- Beginn mit einem Robotik-Anwendungsfall, um zu zeigen, wie verschiedene Datentypen eine effektive neuronale-Netzwerk-Architektur beeinflussen.
- Anwendung mathematischer Konzepte aus der Robotik auf Large Language Models (LLMs), um sie für nicht-sprachliche Dateneingabe zu modifizieren.
- Ende mit Orchestrierung mehrerer Modelle, um Benutzeranfragen zu beantworten.
Kursübersicht
Frühe und späte Fusion (1 Std.)
- Verwenden Sie Kamera- und LiDAR-Daten, um Objektpositionen vorherzusagen.
- Verschiedene Datentypen konvertieren, um sie neuronales-Netzwerk-bereit zu machen.
Zwischenzeitliche Fusion (1 Std.)
- Die Theorie hinter effektiver multimodaler Modellarchitektur erkunden.
- Ein Contrastive Pretraining-Modell trainieren.
- Eine Vektordatenbank erstellen.
Cross-modale Projektion (2 Std.)
- Ein Sprachmodell in ein Vision Language Model (VLM) umwandeln.
- PDFs mit Optical Character Recognition (OCR) Tools verarbeiten.
Modell-Orchestrierung (2 Std.)
- Video mit Cosmos Nemotron analysieren.
- VSS verwenden, um Benutzeranfragen über Videoinhalte zu beantworten.
- Mit NVIDIA AI Blueprints orchestrieren.
Bewertung (1 Std.)
- Ein vortrainiertes Modell konvertieren, um einen anderen Datentyp mittels Projektion einzugeben.
Kurs beinhaltet
- Praktische Laborübungen
- Branchenrelevante Projekte
- Kompetenznachweis (nach Bestehen der bewerteten Prüfungen)
- Zugang zu NVIDIA DLI vorkonfigurierten Computing-Umgebungen mit GPUs
Erste Schritte
Bereit, Ihre KI-Fähigkeiten zu erweitern? Kontaktieren Sie uns unter info@kineto.ai, um mehr über Kursverfügbarkeit, Terminplanung und Anmeldemöglichkeiten zu erfahren.