
RAG-Modell als Blueprint für Compliance-konforme Nutzung von KI
Das RAG-Modell als Blueprint für Compliance-konforme Nutzung von KI insbesondere eines Large Language Models
Retrieval Augmented Generation (RAG) ist ein Architekturprinzip für KI-Systeme, das die Stärken von abrufbasierten und generativen Modellen kombiniert. RAG kann hilfsweise mit „Erweiterte Abfragen-Generierung“ übersetzt werden.
Der Name bezieht sich auf die drei Hauptkomponenten:
Retrieval: Gezielte Abfrage und Abruf relevanter Daten aus externen Quellen basierend auf einer Anfrage.
Augmentation: Anreicherung des Generierungsprozesses mit den abgerufenen Informationen.
Generation: Erzeugung einer kohärenten und informativen Antwort unter Nutzung des internen Modellwissens und der abgerufenen Daten.
Aus welchen Komponenten besteht ein RAG-Modell?

Large Language Model: Grundsätzlich kommen eine Reihe von LLM´s infrage wie die GPT-Modelle von OpenAI (GPT-3 und GPT-4), Google Gemini, Mistral. Aus Gründen der Compliance insbesondere des Datenschutzes können diese Systeme nach meiner Einschätzung nicht eingesetzt werden. Denn eine der größten Sorgen bei der Verwendung von proprietären LLMs ist das Risiko von Datenlecks oder unbefugtem Zugriff auf sensible Daten durch den LLM-Anbieter oder unbefugten Dritten.
Daher gilt meine Präferenz den Open Source LLM-Systemen. Hierzu zählen Llama 3 von Meta, Bloom von Hugging Face, Falcon des Technology Innovation Institute oder BERT von Google. Der größte Vorteil der Open-Source-Modelle liegt darin, dass sie lokal betrieben werden können sodass personenbezogene oder sensible Daten nicht an externe Server gesendet werden müssen.
Retrieval: Vektorbasierte Repräsentationen spielen eine zentrale Rolle im Retrieval-Modul und sind von grundlegender Bedeutung für die effektive Informationssuche. Ihre Hauptfunktionen umfassen:
🔸Dokumenten- und Anfrage-Repräsentation:
Sowohl Dokumente als auch Suchanfragen werden als Vektoren in einem hochdimensionalen Vektorraum dargestellt. Dies ermöglicht eine mathematische Verarbeitung und Vergleichbarkeit der Inhalte.
🔸Semantische Ähnlichkeitsberechnung:
Durch die Vektordarstellung können Ähnlichkeiten zwischen Dokumenten und Anfragen effizient berechnet werden.
🔸Ranking der Ergebnisse:
Die Ähnlichkeit zwischen Anfrage- und Dokumentenvektoren wird genutzt, um die Relevanz der Dokumente zu bestimmen und sie entsprechend zu ordnen.
🔸Dimensionsreduktion:
Vektorbasierte Modelle erlauben es, komplexe Inhalte auf wesentliche Merkmale zu reduzieren, was die Verarbeitung großer Datenmengen effizienter macht.
🔸Gewichtung von Termen:
In vektorbasierten Modellen können einzelne Terme unterschiedlich gewichtet werden, um ihre Bedeutung für den Inhalt zu reflektieren.
Durch diese Eigenschaften ermöglichen vektorbasierte Repräsentationen im Retrieval-Modul eine präzise und effiziente Informationssuche, die über einfache Schlüsselwortübereinstimmungen hinausgeht und semantische Zusammenhänge berücksichtigt.

Externe Datenquellen
Externe Datenquellen ermöglichen es dem RAG-Modell, auf ein breiteres Spektrum an Informationen zuzugreifen und somit genauere und aktuellere Antworten zu generieren. Mit „extern“ wird zum Ausdruck gebracht, dass die Antworten des Systems im Wesentlichen aus eigenen, firmenspezifischen Informationen generiert werden und weniger aus dem trainierten LLM selbst.
Im RAG-Modell können grundsätzlich verschiedene „externe“ - also eigene - Datenquellen genutzt werden, um die Generierung von Antworten zu ermöglichen:
🔸Relationale wie Nicht-relationale Datenbanken: Strukturierte und unstrukturierte Informationen können in speziellen Wissensdatenbanken gespeichert und schnell abgerufen werden.
🔸Vektordatenbanken: Diese speichern numerische Darstellungen von Daten, die für das Sprachmodell leicht verständlich sind.
🔸Externe Schnittstellen ermöglichen den Zugriff auf aktuelle Daten aus verschiedenen Quellen und Drittsystemen wie ein CRM, ERP oder PPS.
🔸Webseiten: Aktuelle Informationen aus dem Internet oder Intranet können einbezogen werden.
🔸Echtzeitdaten: Aktuelle Informationen, die für spezifische Anwendungsfälle relevant sind.
Vorteile und Nachteile des RAG-Modells
Vorteile
Zugriff auf große Datenmengen: RAG ermöglicht es, riesige Mengen an zusätzlichen Daten zu durchsuchen und zu analysieren.
Unabhängigkeit vom LLM: Die konkrete Ausprägung und Aktualität des LLM ist weniger relevant. Die referenzierten Datenquellen stehen im Fokus. Das LLM dient der natürlich-sprachlichen Ein- und Ausgabe.
Sprachqualität: Es ist zu beachten, dass die etablierten LL-Modelle bei einer deutschen Ausgabe Fehler machen können bzw. Qualitätseinbußen aufweisen, insbesondere da sie hauptsächlich von englischsprachigen Entwicklern programmiert und mit englischen Quellen trainiert wurden. Das RAG-Modell reduziert diese Unzulänglichkeiten.

🔸Personalisierung:
RAG kann Inhalte und Dienstleistungen an die individuellen Bedürfnisse und Präferenzen der Nutzer anpassen.
🔸Genauigkeit:
RAG sorgt für weniger falsche Antworten oder Halluzinationen: Indem die Ausgabe des LLM-Modells auf relevantes externes Wissen aufsetzt, versucht RAG, das Risiko falscher oder erfundener Informationen (sogenannter „Halluzinationen“) zu vermeiden.
🔸Filter:
Zusätzlich fungiert RAG als Filter, um den Kontext „erwünschter“ Fragen und Antworten zu festzulegen. Z.B. können unsinnige oder unangemessene Antworten verhindert werden.
🔸Dynamische Wissenserweiterung:
RAG greift in Echtzeit auf externe Datenquellen zu, um aktuellere und spezifischere Antworten zu generieren
🔸Keine Neutrainierung erforderlich:
Im Gegensatz zum Fine-Tuning muss das zugrunde liegende LLM bei RAG nicht neu trainiert werden.
🔸Flexibilität:
RAG kann leicht an neue Domänen oder Wissensbasen angepasst werden, ohne das Basismodell (LLM) zu verändern oder auszutauschen.
🔸Präzision und Aktualität:
Durch den Zugriff auf aktuelle externe Daten kann RAG genauere und zeitgemäßere Antworten liefern als Modelle, die nur auf ihrem Trainingswissen basieren.
🔸Kontextbezogene Antworten:
Im Vergleich zu reinem Prompt-Engineering kann RAG kontextuell angemessenere Antworten generieren, da es zusätzliche relevante Informationen einbezieht.
Nachteile
Als Nachteile und Herausforderungen von RAG sind zu nennen: Der zusätzliche Abrufschritt kann zu langsameren Antwortzeiten führen. Veraltete oder ungenaue zugrunde liegende Daten können die Gesamtleistung des Modells negativ beeinflussen. Und RAG-Systeme benötigen zusätzliche Rechenressourcen für die Verarbeitung großer Datenmengen. Aber auch gilt, die flexible Skalierung der Cloud zu nutzen.
Einsatzszenarien für RAG-basierte Lösungen

Retrieval Augmented Generation (RAG) bietet einen generischen Ansatz. Hier ein paar konkrete Anwendungsfälle:
🔸Kundenservice und Support:
RAG ermöglicht präzise und kontextbezogene Antworten auf Kundenanfragen, indem es auf aktuelle Unternehmensdaten, FAQs und Produktinformationen zugreift. Dies führt zu schnelleren und genaueren Antworten sowie einer personalisierten Betreuung.
🔸Frage-Antwort-Systeme:
RAG verbessert die Genauigkeit und Relevanz von Antworten in Q&A-Systemen durch die Integration externer Wissensquellen.
🔸Produktempfehlungen im Einzelhandel:
RAG kann individuelle Empfehlungen basierend auf Kundenpräferenzen, Kaufhistorie und aktuellen Trends generieren.
🔸Finanzdienstleistungen:
Anwendungen umfassen personalisierte Vermögensverwaltung, Betrugs- und Risikoanalysen sowie die Korrelation von Finanzberichten mit Markttrends.
🔸Gesundheitswesen:
RAG kann bei der Erstellung digitaler Krankenakten, Krankenverlaufsplänen und personalisierten Behandlungsvorschlägen unterstützen.
🔸Inhaltserstellung und Übersetzungen:
Durch die Einbeziehung aktueller Daten verbessert RAG die Genauigkeit und das Engagement bei der Erstellung und Übersetzungen von Inhalten.
🔸Unternehmensinterne Wissensverwaltung:
RAG kann als effiziente Suchmaschine für Mitarbeiter dienen, um schnell relevante Informationen zu Verträgen, Produkten oder HR-Themen zu finden.
🔸Personalisiertes Marketing:
Inhalte können basierend auf den Interessen und dem Verhalten einzelner Interessenten und Kunden generiert werden.
Die Welt dreht sich weiter – Agenten werden die Prompts ersetzen
Ja, Agenten lassen sich effektiv mit dem RAG-Modell (Retrieval Augmented Generation) verbinden, was zu leistungsfähigeren und kontextbewussteren KI-Systemen führt. Diese Kombination wird oft als "Agentic RAG" bezeichnet und bietet mehrere Vorteile:
Der Endbenutzer muss die Feinheiten des Promptings nicht beherrsche, der Zugang zu den KI-Assistenten wird dadurch erleichtert. RAG-Agenten können dabei große Datenmengen abrufen, analysieren und in verwertbare Erkenntnisse umwandeln.
Agenten können zudem das von RAG bereitgestellte externe Wissen nutzen, um ihre Entscheidungsfindung und Aktionen in Echtzeit zu verbessern und dabei in der Kombination von agentenbasierter Logik mit RAGs die Fähigkeit zur präzisen Informationsabfrage erhöhen und dadurch genauere und kontextbezogenere Antworten liefern.
Letztlich ermöglicht es den Agenten, sich an neue Informationen und Kontexte anzupassen, ohne dass ein vollständiges Neutraining des LLM erforderlich ist.
Die KI-Technologiewelle ist schnell und riesig. Eine Compliance-konforme Nutzung der vielfältigen KI-Angebote stellt eine große Herausforderung dar. KI in Unternehmen zu unterschätzen oder gar zu ignorieren ist keine Option. Hier bietet sich mit der RAG-Architektur eine interessante Lösung. Eine on premise oder in der selbstverwalteten Cloud-Umgebung betriebenes RAG-Modell schützt sensible Unternehmensdaten und die vertraulichen personenbezogenen Daten und erfüllt die nicht nur normativen Anforderungen.

Sascha Kendlik
Head of Sales
Ihr Kontakt