RAG (Retrieval-Augmented Generation)

Was ist RAG?

Die naheliegende Idee: alle Dokumente in den Chat laden. Das scheitert an zwei Grenzen — der KI geht der Platz aus (Kontextfenster), und mit 500 PDFs auf einmal wird die Antwortqualität massiv schlechter.

RAG löst das anders. RAG steht für Retrieval-Augmented Generation — ein Architekturmuster, das die KI mit externen Datenquellen verbindet, ohne alles auf einmal laden zu müssen.

Wie funktioniert RAG?

Drei Schritte:

Indexierung (einmalig): Alle Dokumente werden in kleine Abschnitte zerschnitten und in Zahlenarrays — sogenannte Vektoren — umgewandelt. Diese Vektoren kodieren die Bedeutung des Textes, nicht nur die Wörter.
Abfrage (bei jeder Frage): Deine Frage wird ebenfalls in einen Vektor umgewandelt und mit allen gespeicherten Vektoren verglichen. Gesucht wird nach ähnlicher Bedeutung, nicht nach Stichworten. "Welche Vereinbarung gab es zur Earn-out-Klausel?" findet auch Passagen, die "erfolgsabhängige Kaufpreiskomponente" sagen.
Antwort: Nur die 3-10 relevantesten Abschnitte werden der KI übergeben. Sie antwortet auf Basis dieser gezielten Auswahl — präzise, günstig, skalierbar.

Der entscheidende Unterschied:

Ordner mit allen Files: Alles rein, KI ertrinkt, Kosten explodieren, Qualität sinkt
RAG: Intelligente Vorauswahl — KI bekommt nur, was relevant ist
Keyword-Suche (Ctrl+F): Findet nur exakte Wörter
Semantische Suche (RAG): Findet Bedeutung — auch wenn andere Wörter benutzt werden

Warum ist das wichtig für KMU?

RAG macht internes Firmenwissen für die KI nutzbar — ohne dass du dafür ein Modell trainieren musst. Praktisches Beispiel: "Was waren die Kernkonditionen im Projekt Meier?" — RAG findet den relevanten Abschnitt in Sekunden, auch wenn 2'000 weitere Dokumente im System liegen.

RAG ist heute umsetzbar, die Technologie ist ausgereift und kosteneffizient. Es ist der schnellste Weg, um KI mit firmenspezifischem Wissen zu verbinden.

Dieses Konzept in der Praxis: KI für KMU: Wo anfangen?