Multimodal Agents

Multimodal Agents


NVIDIA DLI KI-Agenten mit Multimodalen Modellen erstellen

Über diesen Kurs

Lernen Sie, wie man neuronale Netzwerk-Agenten erstellt, die über mehrere Datentypen hinweg mit erweiterten Fusionstechniken, OCR und NVIDIA AI Blueprints für reale Anwendungen wie Robotik und Videosuche und -zusammenfassung argumentieren.


Lernziele

In diesem Kurs lernen Sie über:

  • Verschiedene Datentypen und wie man sie neuronales-Netzwerk-bereit macht
  • Model Fusion und die Unterschiede zwischen früher, später und zwischenzeitlicher Fusion
  • PDF-Extraktion mit OCR
  • Den Unterschied zwischen Modalitäts- und Agenten-Orchestrierung
  • Anpassung von NVIDIA AI Blueprints mit Video Search and Summarization (VSS)

Behandelte Themen

  • Beginn mit einem Robotik-Anwendungsfall, um zu zeigen, wie verschiedene Datentypen eine effektive neuronale-Netzwerk-Architektur beeinflussen.
  • Anwendung mathematischer Konzepte aus der Robotik auf Large Language Models (LLMs), um sie für nicht-sprachliche Dateneingabe zu modifizieren.
  • Ende mit Orchestrierung mehrerer Modelle, um Benutzeranfragen zu beantworten.

Kursübersicht

  1. Frühe und späte Fusion (1 Std.)

    • Verwenden Sie Kamera- und LiDAR-Daten, um Objektpositionen vorherzusagen.
    • Verschiedene Datentypen konvertieren, um sie neuronales-Netzwerk-bereit zu machen.
  2. Zwischenzeitliche Fusion (1 Std.)

    • Die Theorie hinter effektiver multimodaler Modellarchitektur erkunden.
    • Ein Contrastive Pretraining-Modell trainieren.
    • Eine Vektordatenbank erstellen.
  3. Cross-modale Projektion (2 Std.)

    • Ein Sprachmodell in ein Vision Language Model (VLM) umwandeln.
    • PDFs mit Optical Character Recognition (OCR) Tools verarbeiten.
  4. Modell-Orchestrierung (2 Std.)

    • Video mit Cosmos Nemotron analysieren.
    • VSS verwenden, um Benutzeranfragen über Videoinhalte zu beantworten.
    • Mit NVIDIA AI Blueprints orchestrieren.
  5. Bewertung (1 Std.)

    • Ein vortrainiertes Modell konvertieren, um einen anderen Datentyp mittels Projektion einzugeben.

Kurs beinhaltet

  • Praktische Laborübungen
  • Branchenrelevante Projekte
  • Kompetenznachweis (nach Bestehen der bewerteten Prüfungen)
  • Zugang zu NVIDIA DLI vorkonfigurierten Computing-Umgebungen mit GPUs

Erste Schritte

Bereit, Ihre KI-Fähigkeiten zu erweitern? Kontaktieren Sie uns unter info@kineto.ai, um mehr über Kursverfügbarkeit, Terminplanung und Anmeldemöglichkeiten zu erfahren.