Was versteht man unter Retrieval-Augmented Generation (RAG)?

Alan Zeichick | Tech Content Strategist | 19. September 2023

Generative künstliche Intelligenz (KI) zeichnet sich durch die Erstellung von Textantworten auf der Grundlage großer Sprachmodelle (LLMs) aus, bei denen die KI auf einer riesigen Anzahl von Datenpunkten trainiert wird. Die gute Nachricht ist, dass der generierte Text oft leicht zu lesen ist und detaillierte Antworten liefert, die im Allgemeinen auf die von der Software gestellten Fragen (oft auch Eingabeaufforderungen genannt) anwendbar sind.

Die schlechte Nachricht ist, dass die zur Generierung der Antwort verwendeten Informationen auf die Informationen beschränkt sind, die zum Training der KI verwendet werden, häufig ein verallgemeinertes LLM. Die Daten des LLM können Wochen, Monate oder Jahre alt sein und in einem KI-Chatbot des Unternehmens möglicherweise keine spezifischen Informationen über die Produkte oder Services des Unternehmens enthalten. Dies kann zu falschen Reaktionen führen, die das Vertrauen von Kunden und Mitarbeitern in die Technologie untergraben.

Was versteht man unter Retrieval-Augmented Generation (RAG)?

Genau hier kommt Retrieval-Augmented Generation (RAG) ins Spiel. RAG bietet eine Möglichkeit, die Ausgabe eines LLM mit gezielten Informationen zu optimieren, ohne das zugrunde liegende Modell selbst zu ändern. Dadurch sind gezielte Informationen aktueller als das LLM sowie auch spezifisch für eine bestimmte Organisation und Branche. Das bedeutet, dass das generative KI-System kontextbezogenere Antworten auf Eingabeaufforderungen liefern und diese Antworten auf äußerst aktuelle Daten stützen kann.

Entwickler generativer KI wurden erstmals auf RAG aufmerksam, nachdem „Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks“ veröffentlicht wurde, ein Artikel aus dem Jahr 2020, der von Patrick Lewis und einem Team von Facebook AI Research veröffentlicht wurde. Das RAG-Konzept wurde von vielen Wissenschaftlern und Industrieforschern angenommen, die es als eine Möglichkeit sehen, den Wert generativer KI-Systeme erheblich zu verbessern.

Retrieval-Augmented Generation (RAG) erklärt

Stellen Sie sich eine Sportliga vor, die will, dass Fans und Medien per Chat auf ihre Daten zugreifen und Fragen zu Spielern, Mannschaften, der Geschichte und den Regeln des Sports sowie aktuellen Statistiken und Tabellen beantworten können. Ein verallgemeinertes LLM könnte Fragen zur Geschichte und zu den Regeln beantworten oder vielleicht das Stadion einer bestimmten Mannschaft beschreiben. Es wäre nicht in der Lage, über das Spiel von gestern Abend zu berichten oder aktuelle Informationen über die Verletzung eines bestimmten Athleten bereitzustellen, weil das LLM diese Informationen nicht haben würde. Und angesichts der Tatsache, dass ein LLM erhebliche Rechenleistung für das erneute Training benötigt, ist es nicht möglich, das Modell auf dem neuesten Stand zu halten.

Zusätzlich zum großen, relativ statischen LLM besitzt die Sportliga viele andere Informationsquellen oder kann darauf zugreifen, darunter Datenbanken, Data Warehouses, Dokumente mit Spielerbiografien und Newsfeeds, in denen jedes Spiel ausführlich besprochen wird. RAG lässt die generative KI diese Informationen aufnehmen. Somit kann der Chat jetzt Informationen liefern, die aktueller, kontextbezogener und genauer sind.

Einfach ausgedrückt hilft RAG LLMs dabei, bessere Antworten zu geben.

Wichtige Erkenntnisse

  • RAG ist eine relativ neue Technik der künstlichen Intelligenz, die die Qualität generativer KI verbessern kann, indem große Sprachmodelle (LLMs) ohne erneutes Training auf zusätzliche Datenressourcen zugreifen können.
  • RAG-Modelle erstellen Wissensrepositorys auf der Grundlage der unternehmenseigenen Daten. Diese Repositorys können kontinuierlich aktualisiert werden, sodass die generative KI in der Lage ist, zeitnahe, kontextbezogene Antworten bereitzustellen.
  • Außerdem können Chatbots und andere Konversationssysteme, die Natural Language Processing nutzen, stark von RAG und generativer KI profitieren.
  • Für die Implementierung von RAG sind Technologien wie Vektordatenbanken erforderlich, die die schnelle Codierung neuer Daten und Suchvorgänge für diese Daten ermöglichen, um diese in das LLM einzuspeisen.

Funktionsweise der Retrieval-Augmented Generation

Berücksichtigen Sie alle Informationen, über die ein Unternehmen verfügt – die strukturierten Datenbanken, die unstrukturierten PDFs und andere Dokumente, die Blogs, die Newsfeeds, die Chat-Transkripte vergangener Kundenservice-Sitzungen. In RAG wird diese große Menge dynamischer Daten in ein gemeinsames Format übersetzt und in einer Wissensbibliothek gespeichert, auf die das generative KI-System zugreifen kann.

Anschließend werden die Daten in dieser Wissensbibliothek mithilfe eines speziellen Algorithmustyps, eines sogenannten eingebetteten Sprachmodells, in numerische Darstellungen verarbeitet und in einer Vektordatenbank gespeichert. Diese kann wiederum schnell durchsucht und zum Abrufen der richtigen Kontextinformationen verwendet werden.

RAG und große Sprachmodelle (LLMs)

Angenommen, ein Endbenutzer sendet dem generativen KI-System eine bestimmte Aufforderung, zum Beispiel: „Wo wird das Spiel heute Abend ausgetragen, wer sind die Startspieler und was sagen Reporter über das Duell?“ Die Abfrage wird in einen Vektor transformiert und verwendet, um die Vektordatenbank abzufragen, die für den Kontext dieser Frage relevante Informationen abruft. Diese Kontextinformationen sowie die ursprüngliche Eingabeaufforderung werden dann in das LLM eingespeist, das eine Textantwort generiert, die sowohl auf seinem etwas veralteten allgemeinen Wissen als auch auf den äußerst aktuellen Kontextinformationen basiert.

Interessanterweise ist der Prozess des Trainings des generalisierten LLM zwar zeitaufwendig und kostspielig, aber Aktualisierungen des RAG-Modells sind genau das Gegenteil. Neue Daten können in das eingebettete Sprachmodell geladen und kontinuierlich sowie auch inkrementell in Vektoren übersetzt werden. Tatsächlich können die Antworten des gesamten generativen KI-Systems in das RAG-Modell zurückgeführt werden. Dadurch wird dessen Leistung und Genauigkeit verbessert, weil es tatsächlich weiß, wie es bereits eine ähnliche Frage beantwortet hat.

Ein zusätzlicher Vorteil von RAG besteht darin, dass die generative KI durch die Verwendung der Vektordatenbank die in ihrer Antwort genannte spezifische Datenquelle bereitstellen kann – etwas, das LLMs nicht können. Wenn daher eine Ungenauigkeit in der Ausgabe der generativen KI vorliegt, kann das Dokument, das diese fehlerhaften Informationen enthält, schnell identifiziert und korrigiert werden. So können die korrigierten Informationen in die Vektordatenbank eingespeist werden.

Kurz gesagt bietet RAG Aktualität, Kontext und Genauigkeit, die auf Beweisen für generative KI basieren und über das hinausgehen, was das LLM selbst bieten kann.

Retrieval-Augmented Generation im Vergleich zur semantischen Suche

RAG ist nicht die einzige Technik, mit der die Genauigkeit der LLM-basierten generativen KI verbessert wird. Eine weitere Technik ist die semantische Suche, die dem KI-System hilft, die Bedeutung einer Abfrage einzugrenzen, indem es ein tiefes Verständnis der spezifischen Wörter und Ausdrücke in der Eingabeaufforderung anstrebt.

Die traditionelle Suche konzentriert sich auf Stichworte. Beispielsweise könnte eine einfache Abfrage, die nach den in Frankreich heimischen Baumarten fragt, die Datenbank des KI-Systems nach „Bäumen“ und „Frankreich“ als Stichworte durchsuchen und Daten finden, die beide Stichworte enthalten. Jedoch kann es sein, dass das System nicht wirklich die Bedeutung von Bäumen in Frankreich versteht und daher zu viele, zu wenige oder sogar falsche Informationen abruft. Bei dieser auf Stichworten basierten Suche könnten außerdem Informationen fehlen, weil die Stichwortsuche zu wörtlich ist: Die in der Normandie heimischen Bäume könnten übersehen werden, obwohl sie in Frankreich stehen, weil dieses Stichwort fehlt.

Die semantische Suche geht über die Stichwortsuche hinaus, indem sie die Bedeutung von Fragen und Quelldokumenten ermittelt und diese Bedeutung nutzt, um genauere Ergebnisse abzurufen. Die semantische Suche ist ein integraler Bestandteil von RAG.

Einsatz von RAG in Chat-Anwendungen

Wenn eine Person eine sofortige Antwort auf eine Frage möchte, ist es schwer, die Unmittelbarkeit und Benutzerfreundlichkeit eines Chatbots zu übertreffen. Die meisten Bots werden auf eine begrenzte Anzahl von Intents trainiert und reagieren auf diese – also auf die vom Kunden gewünschten Aufgaben oder Ergebnisse. Mit RAG-Funktionen können aktuelle Bots verbessert werden, indem das KI-System Antworten in natürlicher Sprache auf Fragen bereitstellen kann, die nicht in der Intent-Liste enthalten sind.

Das Paradigma „Stellen Sie eine Frage, erhalten Sie eine Antwort“ macht Chatbots aus vielen Gründen zu einem perfekten Anwendungsfall für generative KI. Fragen erfordern oft einen spezifischen Kontext, um eine genaue Antwort zu generieren, und da die Erwartungen von Chatbot-Benutzern an Relevanz und Genauigkeit oft hoch sind, ist klar, wie RAG-Techniken angewendet werden. Tatsächlich könnten Chatbots für viele Unternehmen durchaus der Ausgangspunkt für den Einsatz von RAG und generativer KI sein.

Fragen erfordern oft einen spezifischen Kontext, um eine genaue Antwort zu liefern. Kundenanfragen zu einem neu eingeführten Produkt sind beispielsweise nicht sinnvoll, wenn sich die Daten auf das Vorgängermodell beziehen und möglicherweise irreführend sind. Und ein Wanderer, der wissen möchte, ob ein Park an diesem Sonntag geöffnet ist, erwartet zeitnahe und genaue Informationen über diesen bestimmten Park an diesem bestimmten Tag.

Vorteile der Retrieval-Augmented Generation

RAG-Techniken können verwendet werden, um die Qualität der Reaktionen eines generativen KI-Systems auf Eingabeaufforderungen über das hinaus zu verbessern, was ein LLM allein leisten kann. Zu diesen Vorteilen gehört Folgendes:

  • Die RAG hat Zugriff auf Informationen, die möglicherweise aktueller sind als die Daten, die zum Trainieren des LLM verwendet werden.
  • Die Daten im Wissensspeicher der RAG können kontinuierlich aktualisiert werden, ohne dass nennenswerte Kosten entstehen.
  • Das Wissensrepository der RAG kann Daten enthalten, die kontextbezogener als die in einem generalisierten LLM sind.
  • Die Quelle der Informationen in der Vektordatenbank des RAG kann identifiziert werden. Und da die Datenquellen bekannt sind, können fehlerhafte Angaben im RAG korrigiert bzw. gelöscht werden.

Herausforderungen der Retrieval-Augmented Generation

Da es sich bei RAG um eine relativ neue Technologie handelt, die erstmals im Jahr 2020 vorgestellt wurde, lernen KI-Entwickler immer noch, wie sie ihre Informationsabrufmechanismen am besten in generative KI implementieren können. Einige der wichtigsten Herausforderungen sind:

  • Verbesserung des organisatorischen Wissens und des Verständnisses von RAG, weil es so neu ist.
  • Steigende Kosten: Während die Implementierung generativer KI mit RAG teurer sein wird als die eines LLM allein, ist dieser Weg kostengünstiger als ein regelmäßiges Training des LLM selbst.
  • Bestimmen, wie die strukturierten und unstrukturierten Daten in der Wissensbibliothek und Vektordatenbank am besten modelliert werden können.
  • Entwicklung von Anforderungen für einen Prozess zur schrittweisen Einspeisung von Daten in das RAG-System.
  • Einrichtung von Prozessen zur Bearbeitung von Berichten über Ungenauigkeiten und zur Korrektur oder Löschung dieser Informationsquellen im RAG-System.

Beispiele für Retrieval-Augmented Generation

Es gibt viele mögliche Beispiele für generative KI, die durch RAG erweitert wird.

Cohere, ein führendes Unternehmen auf dem Gebiet der generativen KI und RAG, hat über einen Chatbot geschrieben, der kontextbezogene Informationen zu einer Ferienwohnung auf den Kanarischen Inseln bereitstellen kann. Darüber hinaus ist er in der Lage faktenbasierte Antworten zur Zugänglichkeit des Strandes, Rettungsschwimmern an nahe gelegenen Stränden und der Verfügbarkeit von Volleyballplätzen, die zu Fuß erreichbar sind, zu geben.

Oracle hat weitere Anwendungsfälle für RAG beschrieben, beispielsweise die Analyse von Finanzberichten, die Unterstützung bei der Gas- und Ölentdeckung, die Überprüfung von Transkripten des Austauschs mit Callcenter-Kunden und die Suche in medizinischen Datenbanken nach relevanten Forschungsarbeiten.

Die Zukunft der Retrieval-Augmented Generation

Heute, in den frühen Phasen von RAG, wird die Technologie genutzt, um zeitnahe, genaue und kontextbezogene Antworten auf Anfragen bereitzustellen. Diese Anwendungsfälle eignen sich für Chatbots, E-Mail, Textnachrichten und andere Konversationsanwendungen.

Zukünftig könnte die RAG-Technologie dazu beitragen, dass die generative KI auf der Grundlage von Kontextinformationen und Benutzeraufforderungen geeignete Maßnahmen ergreift. Beispielsweise könnte ein RAG-erweitertes KI-System die am höchsten bewertete Strandferienwohnung auf den Kanarischen Inseln identifizieren und dann während eines Volleyballturniers die Buchung eines Zwei-Zimmer-Bungalows veranlassen, der nur wenige Gehminuten vom Strand entfernt ist.

RAG kann möglicherweise auch bei anspruchsvolleren Fragestellungen behilflich sein. Heutzutage könnte generative KI einen Mitarbeiter möglicherweise über die Richtlinien des Unternehmens zur Erstattung von Studiengebühren informieren. Hier könnte RAG weitere kontextbezogene Daten hinzufügen, um dem Mitarbeiter mitzuteilen, welche Schulen in der Nähe Kurse anbieten, die in diese Richtlinie passen, und ihm möglicherweise Programme empfehlen, die den Tätigkeiten und der bisherigen Schulung des Mitarbeiters entsprechen. Außerdem könnte die Technologie sogar dabei helfen, sich für diese Programme zu bewerben und eine Erstattungsanforderung zu stellen.

Generative KI mit Oracle

Oracle bietet eine Vielzahl fortschrittlicher cloudbasierter KI-Services an, darunter den OCI Generative AI-Service, der auf Oracle Cloud Infrastructure (OCI) ausgeführt wird. Zu den Angeboten von Oracle gehören robuste Modelle, die auf den einzigartigen Daten und Branchenkenntnissen Ihres Unternehmens basieren. Kundendaten werden nicht an LLM-Provider weitergegeben oder von anderen Kunden eingesehen. Außerdem können auf Kundendaten trainierte benutzerdefinierte Modelle nur von diesem Kunden verwendet werden.

Darüber hinaus integriert Oracle generative KI in sein breites Spektrum an Cloud-Anwendungen. Generative KI-Funktionen stehen Entwicklern, die OCI verwenden, und in seinem gesamten Datenbankportfolio zur Verfügung. Zudem bieten die KI-Services von Oracle vorhersehbare Performance und Preise mithilfe von einzelmandantenfähigen KI-Clustern, die speziell für Ihre Nutzung bestimmt sind.

Das Potenzial und die Fähigkeiten von LLMs und generativer KI sind weithin bekannt und verstanden – sie waren im vergangenen Jahr Gegenstand atemloser Schlagzeilen. Retrieval-Augmented Generation baut auf den Vorteilen von LLMs auf, indem sie diese zeitnaher, genauer und kontextbezogener macht. Für Geschäftsanwendungen generativer KI ist RAG eine wichtige Technologie, die es zu beobachten, zu studieren und zu erproben gilt.

Warum eignet sich Oracle bestens für generative KI?

Oracle bietet eine moderne Datenplattform und eine kostengünstige, leistungsstarke KI-Infrastruktur. Weitere Faktoren wie leistungsstarke Modelle, unübertroffene Datensicherheit und eingebettete KI-Services zeigen, warum das KI-Angebot von Oracle wirklich für Unternehmen konzipiert ist.

Häufig gestellte Fragen zur Retrieval-Augmented Generation

Ist RAG dasselbe wie generative KI?

Nein. Die Retrieval-augmented Generation ist eine Technik, die genauere Ergebnisse für Abfragen liefern kann als ein generatives großes Sprachmodell allein, da RAG Wissen außerhalb der bereits im LLM enthaltenen Daten nutzt.

Welche Art von Informationen werden in RAG verwendet?

RAG kann Daten aus vielen Quellen integrieren, wie etwa relationale Datenbanken, unstrukturierte Dokument-Repositorys, Internet-Datenstreams, Medien-Newsfeeds, Audiotranskripte und Transaktionsprotokolle.

Wie wird RAG von der generativen KI genutzt?

Daten aus Unternehmensdatenquellen werden in ein Wissensrepository eingebettet und dann in Vektoren umgewandelt, die in einer Vektordatenbank gespeichert werden. Wenn ein Endbenutzer eine Anfrage stellt, ruft die Vektordatenbank relevante Kontextinformationen ab. Diese Kontextinformationen werden zusammen mit der Abfrage an das große Sprachmodell gesendet, das den Kontext verwendet, um eine zeitnahere, genauere und kontextbezogenere Antwort zu erstellen.

Kann ein RAG Referenzen für die von ihm abgerufenen Daten angeben?

Ja. Die von RAG genutzten Vektordatenbanken und Wissensrepositorys enthalten spezifische Informationen zu den Informationsquellen. Dies bedeutet, dass Quellen zitiert werden können und wenn in einer dieser Quellen ein Fehler auftritt, kann dieser schnell korrigiert oder gelöscht werden. So wird vermieden, dass bei nachfolgenden Abfragen diese falschen Informationen erneut gegeben werden.