Jeffrey Erickson | Senior Writer | 21. November 2024
Allgemein einsetzbare Large Language Models (LLMs) sind in der breiten Öffentlichkeit beliebt, da sie über zahlreiche Themen sprechen und Aufgaben wie das Verfassen von Aufsätzen oder Dankesschreiben übernehmen können. Im Geschäftsbereich reichen solche allgemeinen Ergebnisse jedoch nicht aus. Ein LLM, das beispielsweise technischen Support für ein bestimmtes Gerät leisten soll, muss auf fachspezifisches Wissen zugreifen können.
Derzeit gibt es zwei Ansätze, um generative KI-Modelle mit solch spezialisiertem Wissen auszustatten: Feinabstimmung und Retrieval-Augmented Generation (RAG). Beide Methoden bieten Vorteile – und bringen zugleich Herausforderungen mit sich. Werfen wir einen genaueren Blick auf diese beiden Ansätze, um zu verstehen, wie sie funktionieren – und wann welcher von ihnen am besten eingesetzt wird.
Wichtige Erkenntnisse
RAG, kurz für Retrieval-Augmented Generation, ist ein Architektur-Framework, das von Forschern bei Meta entwickelt wurde, um allgemeine KI-Modelle dabei zu unterstützen, für Unternehmen relevante und nützliche Ergebnisse zu liefern. RAG erreicht dies, indem es einem Large Language Model, oder LLM, Zugriff auf eine interne Wissensdatenbank gewährt, mit der das ursprüngliche Trainingsmaterial erweitert wird. Das Ergebnis ist ein KI-System, das die Sprachkompetenz eines LLMs mit unternehmensspezifischen Daten kombiniert, um gezielte und kontextgerechte Antworten zu liefern. Im Gegensatz zur Feinabstimmung greift dieser Ansatz, ohne das zugrunde liegende Modell selbst zu verändern.
Verwenden Sie RAG, wenn es wichtig ist, dass generative KI-Antworten aktuelle oder unternehmensspezifische Daten enthalten, die nicht Teil des ursprünglichen LLM-Trainings waren. Wenn ein Unternehmen beispielsweise über umfangreiche und verlässliche Informationen zu seinen Produkten oder täglichen Abläufen verfügt, stellt eine RAG-Architektur diese Daten bereit, um die Eingaben und Ausgaben des LLM zu erweitern. Dadurch werden die Ergebnisse nützlicher, überprüfbarer und präziser. Dies kann etwa die Automatisierung von Helpdesks verbessern, Verfügbarkeitsprüfungen im Einzelhandel erleichtern oder im Gesundheitswesen unterstützen, indem ärztliche Notizen schnell für Patienten oder andere Fachkräfte bereitgestellt werden.
Zu den häufigsten Vorteilen von RAG in verschiedenen Branchen zählen eine präzisere und vollständigere Datenerfassung, verbesserter Kundensupport sowie die Möglichkeit, personalisierte Inhalte zu erstellen. Durch die Ergänzung von LLMs mit aktuellen Informationen können Unternehmen KI-Agenten einsetzen, um in Echtzeit kontextrelevante Antworten auf Benutzeranfragen zu liefern – und so den Bedarf an manuellen Eingriffen zu verringern. Die Vielseitigkeit von RAG ermöglicht den Einsatz in zahlreichen Szenarien, unter anderem in den folgenden:
Die Feinabstimmung eines generativen KI-Modells bedeutet, dass ein allgemeines Modell – wie beispielsweise Claude 2 von Anthropic, Command von Cohere oder Llama 2 von Meta – mit zusätzlichen Trainingsrunden auf einer kleineren, fachspezifischen Datenmenge weitertrainiert wird. Dabei werden die Parameter des Modells anhand dieser neuen Daten angepasst. Durch dieses gezielte Training kann das Modell Aufgaben in einem bestimmten Bereich besser ausführen, da es auf die Besonderheiten, Fachbegriffe und Ausdrucksweisen eines spezifischen Themengebiets – beispielsweise Programmierung oder Gesundheitswesen – abgestimmt ist.
Wählen Sie die Feinabstimmung, wenn ein LLM besonders sicher in einem bestimmten Fachgebiet agieren soll. Durch zusätzliches Training kann das Modell Eingaben besser verstehen und Ergebnisse liefern, die die Feinheiten und Terminologie des jeweiligen Bereichs widerspiegeln. Für die Feinabstimmung benötigen Sie einen umfangreichen, sorgfältig zusammengestellten Datensatz oder eine Dokumentensammlung, die für den Trainingsprozess aufbereitet wurde. Der Aufwand lohnt sich jedoch: Die Feinabstimmung ermöglicht eine präzisere Kontrolle über Stil, Ton und Ausdruck der generierten Inhalte – ein klarer Vorteil wie z. B. für Marketingmaterialien oder Kundenkommunikation. Wie auch RAG kann die Feinabstimmung insbesondere in der Medizin, Programmierung und anderen hochspezialisierten Bereichen wertvolle Ergebnisse liefern.
Die Feinabstimmung – also die Anpassung eines allgemeinen KI-Modells an eine spezifische Aufgabe oder ein Fachgebiet – ist eine leistungsstarke Methode, die für viele Unternehmen deutlich bessere Ergebnisse liefern kann, insbesondere wenn Personalisierung und Spezialisierung entscheidend sind. Hier sind einige typische Anwendungsfälle, in denen die Feinabstimmung besonders effektiv ist:
Sowohl die Feinabstimmung als auch RAG machen allgemeine LLMs nützlicher – allerdings auf unterschiedliche Weise. Vereinfacht gesagt: Die Feinabstimmung verleiht einem LLM ein tieferes Verständnis für ein bestimmtes Fachgebiet, wie z. B. Medizin oder Bildung, während die Kombination eines LLM mit einer RAG-Architektur dem Modell Zugriff auf aktuelle, lokale Daten für seine Antworten ermöglicht.
Warum also nicht beide Ansätze kombinieren, um Antworten zu erhalten, die sowohl fundiert als auch aktuell sind? Genau das ist ein wachsender Trend – und er hat sogar ein eigenes Akronym: RAFT, kurz für Retrieval-Augmented Fine-Tuning. Bei diesem hybriden Ansatz wird ein Modell zunächst mit fachspezifischen Daten feinabgestimmt und anschließend in einer RAG-Architektur eingesetzt. Dort nutzt es sein Fachwissen, um während der Antwortgenerierung die relevantesten Informationen abzurufen. Das Ergebnis sind hochpräzise, relevante und kontextbewusste Antworten.
Bevor wir uns RAFT jedoch im Detail ansehen, betrachten wir zunächst die beiden grundlegenden Ansätze etwas genauer.
Sowohl RAG als auch die Feinabstimmung helfen einem LLM, über generische Antworten hinauszugehen, die aus seinen ursprünglichen, allgemein gehaltenen Trainingsdaten stammen. Bei der Feinabstimmung wird ein LLM mit zusätzlichen Trainingsrunden auf Datensätzen trainiert, die speziell auf ein bestimmtes Fachgebiet oder eine Organisation zugeschnitten sind.
RAG verändert ebenfalls die Antworten von LLMs, greift dabei jedoch nicht in das zugrunde liegende Modell ein. Stattdessen nutzt ein RAG-System eine lokale Datenbank oder eine kuratierte Sammlung von Dokumenten, um die Antworten des LLM zu unterstützen – oft mit aktuellen, minutengenauen Informationen.
Die jeweiligen Einschränkungen – aber auch Vorteile – dieser beiden Ansätze haben ganz natürlich dazu geführt, dass immer häufiger ihre Stärken kombiniert werden. Das Ergebnis ist der hybride Ansatz namens RAFT.
Die Entscheidung zwischen einer RAG-Architektur und einem Feinabstimmungsansatz hängt von den verfügbaren Ressourcen und dem geplanten Einsatz des LLM ab. Wie in der folgenden Übersicht dargestellt, profitieren die meisten Anwendungsfälle von einer Kombination beider Methoden – für viele Unternehmen ist RAG der nächste logische Schritt, sobald ein Modell feinabgestimmt wurde. Um zu entscheiden, welcher Ansatz Priorität haben sollte, helfen die folgenden sechs Fragen:
| Anwendungsanforderungen | RAG | Feinabstimmung (Fine-Tuning) | RAFT |
|---|---|---|---|
| Antworten müssen lokale und aktuelle Informationen enthalten. | Ja |
Nein |
Ja |
| Antworten müssen ein hohes Maß an Nachvollziehbarkeit bieten. | Ja |
Nein |
Ja |
| Antworten müssen das tiefgehende Fachwissen einer Organisation widerspiegeln. | Ja |
Ja |
Ja |
| Die Organisation verfügt über ein leistungsstarkes neuronales Netzwerk und GPU-Ressourcen für das KI-Training. | Nein |
Ja |
Ja |
| Antworten müssen den Tonfall und die Marketingsprache der Organisation widerspiegeln. | Nein |
Ja |
Ja |
| Die Organisation verfügt über eine umfangreiche, gut strukturierte und aktuelle Sammlung von Dokumenten, auf die die KI in ihren Antworten zugreifen und daraus zitieren kann. | Ja |
Nein |
Ja |
| Das KI-System verfügt nur über begrenzte Laufzeitressourcen. | Nein |
Ja |
Ja |
| Die Organisation verfügt über einen umfangreichen, kuratierten Datensatz und eine Dokumentensammlung, um eine KI zu trainieren und zu optimieren. | Ja |
Nein |
Ja |
Ganz gleich, ob Sie sich für RAG, Feinabstimmung oder eine Kombination aus beiden entscheiden – Oracle unterstützt Unternehmen wie Ihres dabei, ihre Produktivität mit Oracle Cloud Infrastructure (OCI) Generative AI zu steigern. Dieser vollständig verwaltete Service vereint die Leistungsfähigkeit von OCI mit der Wahl zwischen Open-Source- und proprietären LLMs.
Wir machen es Ihnen leicht, Ihr LLM mit RAG zu kombinieren, damit Sie stets aktuelle Antworten erhalten, die auf Ihren vielfältigen Wissensquellen basieren. Wenn es Zeit ist, Ihre Feinabstimmung durchzuführen, ist Oracle AI Infrastructure die ideale Wahl. Dort stehen Supercluster zur Verfügung, die auf bis zu 65.536 GPUs skalieren – mehr als ausreichend, um selbst anspruchsvollste Trainings- und Inferenz-Workloads zu bewältigen, wie beispielsweise LLM-Antworten, Computer Vision oder Predictive Analytics.
Allgemein einsetzbare LLMs entwickeln sich stetig weiter – neue Versionen erscheinen laufend von Anbietern wie Anthropic, Cohere, Google, Meta und vielen anderen. Doch so versiert diese Modelle im Umgang mit menschlicher Sprache auch sind, sie benötigen stets eine Möglichkeit, ihre Fähigkeiten gezielt mit den spezifischen Anforderungen realer Geschäftsanwendungen zu verbinden. Feinabstimmung und RAG sind derzeit die beiden besten Methoden, um dies zu erreichen. Beide Ansätze werden sich weiterentwickeln – parallel zu den Fortschritten bei KI-Modellen, Hardware und Datenarchitekturen.
Ihr AI Center of Excellence sollte eine zentrale Rolle bei der Einführung von RAG übernehmen. Haben Sie noch kein CoE? Hier erfahren Sie, wie Sie es sofort zum Laufen bringen.
Ist RAG besser als die Feinabstimmung?
RAG und Feinabstimmung sind unterschiedliche Ansätze – beide mit eigenen Vorteilen und Kosten. Beide Methoden werden häufig eingesetzt, um generative KI-Modelle leistungsfähiger zu machen. Jedes Unternehmen sollte die Methode wählen, die am besten zu seinen Anforderungen passt. Eine weitere beliebte Option ist die Kombination beider Ansätze, bekannt als RAFT (Retrieval-Augmented Fine-Tuning).
Was ist besser als RAG?
RAG ist im Grunde eine Methode, mit der ein LLM durch den Zugriff auf Unternehmensdaten und -dokumente präzisere Antworten liefern kann. Eine neue Variante namens GraphRAG wurde entwickelt, um LLM-Antworten über das hinaus zu verbessern, was eine klassische RAG-Architektur leisten kann. Sie bringt jedoch zusätzliche architektonische Komplexität mit sich, und verbreitete Anwendungsfälle stehen noch aus.
Das Fine-Tuning eines KI-Modells ist eine weitere Möglichkeit, einem LLM gezieltere und differenziertere Antworten zu ermöglichen – und in Kombination mit RAG lässt sich die Leistungsfähigkeit des Modells weiter steigern.
Können RAG und Fine-Tuning gemeinsam eingesetzt werden?
Ja. Dieser hybride Ansatz kombiniert ein Modell, das mit fachspezifischen Daten feinabgestimmt wurde, mit einer RAG-Architektur. So kann das Modell sowohl auf sein vertieftes Fachwissen zurückgreifen als auch aktuelle und relevante Informationen in seine Antworten einbeziehen.
Was ist der Unterschied zwischen RAG und Transfer Learning?
RAG verbessert die Antworten eines LLM, indem es auf eine lokale und aktuelle Wissensdatenbank zugreift. Transfer Learning hingegen optimiert die Leistung eines allgemeinen KI-Modells, indem es auf ein separates Modell zurückgreift, das bereits auf ein bestimmtes Fachgebiet feinabgestimmt wurde.
