AI-Agents
Einführung
Unser AI-Agent-System besteht aus mehreren spezialisierten Agenten, die automatisch LiveKit-Streams analysieren und verarbeiten. Jeder Agent übernimmt eine spezifische Rolle bei der Auswertung von Vorlesungsstreams und trägt zur intelligenten Erfassung und Verarbeitung von Lehrinhalten bei.
Systemarchitektur
Alle AI-Agents sind hauptsächlich an unseren LiveKit-Server angebunden und arbeiten koordiniert zusammen:
- Selbst gehostete Modelle: Alle AI-Modelle laufen auf unserem eigenen AI-Server mit NVIDIA Tesla-Karte
- Koordinierte Zusammenarbeit: Agents kommunizieren über WebRTC-Datenkanäle miteinander
- API-Integration: Ergebnisse werden über die API in MongoDB gespeichert
- Automatisierte Workflows: Agents starten und stoppen basierend auf Stream-Aktivität
AI-Agent-Typen
Agent-Coordinator
Der zentrale Koordinations-Agent für alle Stream-Räume:
- Zentrale Steuerung: Tritt in jeden LiveKit-Raum bei und koordiniert andere Agents
- Agent-Management: Startet und stoppt andere Agents je nach Konfiguration und Stream-Aktivität
- Ressourcen-Optimierung: Verhindert unnötige Ressourcennutzung bei inaktiven Streams
- Status-Überwachung: Überwacht die Funktionsfähigkeit aller untergeordneten Agents
Agent-Slidechange
Spezialisiert auf die Erkennung von Folienwechseln:
- Bildschirmanalyse: Empfängt Bildschirmübertragungen in LiveKit-Räumen
- Change Detection: Erkennt automatisch, wenn Dozierende zur nächsten Folie wechseln
- Slide-Erstellung: Erstellt neue Slide-Einträge über die API in MongoDB
- Screenshot-Upload: Lädt automatisch Screenshots nach MinIO hoch
- Agent-Benachrichtigung: Informiert andere Agents über WebRTC-Datenkanäle über neue Folien
Agent-OCR
Texterkennung auf Vorlesungsfolien:
- Screenshot-Analyse: Wertet Screenshots neuer Folien aus
- Texterkennung: Extrahiert alle sichtbaren Texte von den Folien
- API-Integration: Sendet OCR-Ergebnisse an die API zur Speicherung in MongoDB
- Real-time Updates: Übermittelt Ergebnisse über RTC-Datenkanäle an andere Agents
Agent-YOLO
Objekterkennung auf Vorlesungsfolien:
- Objekterkennung: Analysiert Screenshots und identifiziert Objekte auf Folien
- YOLO-Algorithmus: Nutzt You Only Look Once für schnelle Objekterkennung
- Metadaten-Speicherung: Speichert erkannte Objekte über die API in MongoDB
- Koordination: Teilt Ergebnisse über RTC-Datenkanäle mit anderen Agents
Agent-Summarize
LLM-basierte Inhaltszusammenfassung:
- Content Analysis: Nutzt Large Language Models zur Analyse von Slide-Inhalten
- Intelligente Zusammenfassung: Erstellt prägnante Zusammenfassungen der erkannten Inhalte
- Kontextuelle Verarbeitung: Berücksichtigt OCR-Texte und erkannte Objekte
- Wissensbasis: Trägt zur Erstellung durchsuchbarer Vorlesungsinhalte bei
Agent-STT
Speech-to-Text für Audio-Untertitel:
- Audio-Analyse: Analysiert die Audiospur von LiveKit-Streams
- Sprache-zu-Text: Erstellt automatische Untertitel für übertragene Inhalte
- Real-time Processing: Live-Untertitel während der Übertragung
- Barrierefreiheit: Unterstützt Accessibility für hörbeeintr ächtigte Teilnehmer
Datenfluss & Integration
Workflow-Koordination
Diagramm könnte hier zeigen: Der komplette Workflow von Agent-Coordinator über Slidechange, OCR, YOLO bis hin zur Speicherung in MongoDB und MinIO sowie Real-time Updates an die UI
- Agent-Coordinator tritt LiveKit-Raum bei und koordiniert andere Agents
- Agent-Slidechange erkennt Folienwechsel und erstellt neuen Slide via
/slide/create - Screenshot wird via
/slide/storemit Datei-Upload in MinIO gespeichert - Agent-OCR analysiert Screenshot und speichert Ergebnisse via
/ocrMeta/storemit:slide,slideTimestamp,space,stream,framesize,meta
- Agent-YOLO analysiert parallel und speichert via
/yoloMeta/store - Agent-STT verarbeitet Audio-Stream für Untertitel
- Agent-Summarize erstellt Zusammenfassungen der erkannten Inhalte
- Alle Ergebnisse werden in MongoDB gespeichert und via Socket.io an UI übertragen
System-Integration
- Authentifizierung: Alle Agents nutzen Client-Authentifizierung über Keycloak
- Datenspeicherung: Zentrale Speicherung aller AI-Ergebnisse in MongoDB
- Media-Storage: Screenshots und verarbeitete Medien in MinIO
- Real-time Sync: Live-Updates über Socket.io an die UI
Hardware & Hosting
- Eigene Infrastruktur: Alle AI-Agents und Modelle werden selbst gehostet
- NVIDIA Tesla: Spezialisierte GPU für AI-Workloads
- Skalierbare Architektur: Agents können je nach Bedarf gestartet/gestoppt werden
- Ressourcen-Optimierung: Intelligente Verteilung der Verarbeitungslast
Das AI-Agent-System ermöglicht es, Vorlesungsstreams automatisch zu analysieren, zu indexieren und durchsuchbar zu machen, wodurch eine intelligente Lehr- und Lernumgebung entsteht.