Multimodal Agents -

NVIDIA DLI KI-Agenten mit Multimodalen Modellen erstellen

Über diesen Kurs

Lernen Sie, wie man neuronale Netzwerk-Agenten erstellt, die über mehrere Datentypen hinweg mit erweiterten Fusionstechniken, OCR und NVIDIA AI Blueprints für reale Anwendungen wie Robotik und Videosuche und -zusammenfassung argumentieren.

Lernziele

In diesem Kurs lernen Sie über:

Verschiedene Datentypen und wie man sie neuronales-Netzwerk-bereit macht
Model Fusion und die Unterschiede zwischen früher, später und zwischenzeitlicher Fusion
PDF-Extraktion mit OCR
Den Unterschied zwischen Modalitäts- und Agenten-Orchestrierung
Anpassung von NVIDIA AI Blueprints mit Video Search and Summarization (VSS)

Behandelte Themen

Beginn mit einem Robotik-Anwendungsfall, um zu zeigen, wie verschiedene Datentypen eine effektive neuronale-Netzwerk-Architektur beeinflussen.
Anwendung mathematischer Konzepte aus der Robotik auf Large Language Models (LLMs), um sie für nicht-sprachliche Dateneingabe zu modifizieren.
Ende mit Orchestrierung mehrerer Modelle, um Benutzeranfragen zu beantworten.

Kursübersicht

Frühe und späte Fusion (1 Std.)
- Verwenden Sie Kamera- und LiDAR-Daten, um Objektpositionen vorherzusagen.
- Verschiedene Datentypen konvertieren, um sie neuronales-Netzwerk-bereit zu machen.
Zwischenzeitliche Fusion (1 Std.)
- Die Theorie hinter effektiver multimodaler Modellarchitektur erkunden.
- Ein Contrastive Pretraining-Modell trainieren.
- Eine Vektordatenbank erstellen.
Cross-modale Projektion (2 Std.)
- Ein Sprachmodell in ein Vision Language Model (VLM) umwandeln.
- PDFs mit Optical Character Recognition (OCR) Tools verarbeiten.
Modell-Orchestrierung (2 Std.)
- Video mit Cosmos Nemotron analysieren.
- VSS verwenden, um Benutzeranfragen über Videoinhalte zu beantworten.
- Mit NVIDIA AI Blueprints orchestrieren.
Bewertung (1 Std.)
- Ein vortrainiertes Modell konvertieren, um einen anderen Datentyp mittels Projektion einzugeben.

Kurs beinhaltet

Praktische Laborübungen
Branchenrelevante Projekte
Kompetenznachweis (nach Bestehen der bewerteten Prüfungen)
Zugang zu NVIDIA DLI vorkonfigurierten Computing-Umgebungen mit GPUs

Erste Schritte

Bereit, Ihre KI-Fähigkeiten zu erweitern? Kontaktieren Sie uns unter info@kineto.ai, um mehr über Kursverfügbarkeit, Terminplanung und Anmeldemöglichkeiten zu erfahren.