RAG vs. Fine-Tuning: Wie man wählt

Jeffrey Erickson | Senior Writer | 21. November 2024

Allgemeine große Sprachmodelle oder LLMs sind bei der Öffentlichkeit populär geworden, weil sie eine Vielzahl von Themen diskutieren und Termpapiere schreiben können, Dankesnotizen und viele andere Aufgaben. In der Wirtschaft werden diese generischen Ergebnisse jedoch nicht funktionieren. Ein LLM, das beispielsweise technischen Support für ein bestimmtes Gadget bereitstellen soll, muss auf domänenspezifisches Wissen zurückgreifen.

Derzeit gibt es zwei Möglichkeiten, generative KI-Modelle bei der Bereitstellung von Antworten zu unterstützen, die diese Art von Fachwissen widerspiegeln: Feinabstimmung und Retrieval-Augmented Generation oder RAG. Jedes bietet Vorteile und Herausforderungen. Schauen wir uns diese Optionen genauer an, um zu verstehen, wie sie funktionieren und wann sie verwendet werden sollen.

Wichtige Erkenntnisse

  • Sowohl RAG als auch Feinabstimmung machen generische KI-Modelle in einem bestimmten Bereich oder für einen bestimmten Anwendungsfall nützlicher.
  • RAG bietet einem LLM Zugriff auf die internen Datenspeicher eines Unternehmens. Dies hilft dem LLM, gezieltere Antworten bereitzustellen, was für Anwendungsfälle, die auf aktuellen Informationen basieren, von entscheidender Bedeutung ist.
  • Zu den gängigen Anwendungen von RAG gehören technischer Support, Bestands-Lookup und Einzelhandelsempfehlungen.
  • Bei der Feinabstimmung wird eine Sammlung domänenspezifischer Daten verwendet, um ein allgemeines LLM für eine bestimmte Aufgabe zu trainieren. Denken Sie an Medizin oder Codierung, die ihre eigene Logik und Sprache haben.
  • Feinabstimmung und RAG können kombiniert werden, um einem LLM sowohl fundiertes Domänenwissen als auch aktuelle Informationen zu geben.

Was versteht man unter Retrieval-Augmented Generation (RAG)?

RAG, kurz für Retrieval-Augmented Generation, ist ein Architektur-Framework, das von Forschern bei Meta entwickelt wurde, um universelle KI-Modelle bei der Bereitstellung von Ausgaben zu unterstützen, die für Unternehmen relevant und nützlich sind. RAG gewährt hierzu einem großen Sprachmodell oder LLM Zugriff auf eine interne Wissensdatenbank, mit der es seine ursprünglichen Trainingsdaten erweitern kann. Das Ergebnis ist ein KI-System, das die Sprachkompetenz eines LLM mit lokalen Daten kombiniert, um gezielte, kontextbezogene Antworten zu liefern. Dieser Ansatz funktioniert im Gegensatz zur Feinabstimmung des KI-Modells, ohne das zugrunde liegende Modell selbst zu ändern.

Wann RAG verwendet werden soll

Verwenden Sie RAG, wenn es für generative KI-Antworten wichtig ist, aktuelle oder organisationsspezifische Daten bereitzustellen, die nicht Teil des LLM-Trainings waren. Wenn ein Unternehmen beispielsweise über ein großes Korpus zuverlässiger Informationen über seine Produkte oder seinen täglichen Betrieb verfügt, wird eine RAG-Architektur diese Daten bereitstellen, um die Prompts und Antworten, die das LLM durchlaufen, zu erweitern und die Ausgaben nützlicher, überprüfbarer und präziser zu machen. Dies kann die Helpdesk-Automatisierung, die Überprüfung der Produktverfügbarkeit im Einzelhandel oder sogar das Gesundheitswesen verbessern, da die Notizen von Ärzten schnell für Patienten oder andere Ärzte verfügbar gemacht werden können.

RAG-Anwendungsfälle

Zu den allgemeinen Vorteilen von RAG in allen Branchen gehören ein besserer und umfassenderer Datenabruf, ein verbesserter Kundensupport und die Möglichkeit, personalisierte Inhalte zu generieren. Durch die Ergänzung von LLMs mit aktuellen Informationen können Unternehmen KI-Agenten bereitstellen, um kontextbezogene und in Echtzeit relevante Antworten auf Benutzeranfragen bereitzustellen und so den Bedarf an menschlichem Eingreifen zu minimieren. Die Vielseitigkeit von RAG ermöglicht es, sich an eine Vielzahl von Anwendungen anzupassen, darunter:

  • Business Intelligence. Unternehmen können RAG verwenden, um GenAI-Modellen dabei zu helfen, relevante Marktdaten für die automatisierte Erstellung von Erkenntnissen und Berichten abzurufen. Diese Daten können Marktforschung, Mitbewerberanalyse, Verkaufsvolumen und Kundenfeedback umfassen.
  • Inhaltsempfehlungen. RAG kann Inhaltsempfehlungssysteme verbessern, oft zusammen mit Vektordatenbanken. Mit RAG kann das KI-Modell die Benutzerbewertungen, Bewertungen und Inhaltsbeschreibungen abrufen und analysieren, mit denen das System personalisierte Empfehlungen generieren kann, die auf die Eingabeaufforderung des Benutzers abgestimmt sind.
  • Faktenprüfung im Journalismus und anderen Medien. RAG kann Organisationen dabei helfen, schnell Dokumente abzurufen und Querverweise zu erstellen, um Ansprüche in Artikeln, Berichten oder sozialen Medien zu überprüfen.
  • Medizinische Diagnose. Im Gesundheitswesen kann RAG angewendet werden, um Ärzte und andere Klinikmitarbeiter durch Hilfe bei der Diagnose- und Behandlungsplanung zu unterstützen. Dies geschieht, indem KI-Modelle medizinische Fallstudien, Forschungsarbeiten oder Ergebnisse klinischer Studien abrufen, die für die Symptome oder den Zustand eines Patienten relevant sind.
  • Technischer Support RAG kann verwendet werden, um die Lösungszeit zu verkürzen und die Benutzerzufriedenheit im technischen Support zu verbessern. Das System kann relevante Leitfäden und Dokumentationen zur Fehlerbehebung abrufen oder sogar Forenthreads scannen und diese dem LLM zur Verfügung stellen, um Benutzerprobleme zu lösen. Darüber hinaus kann RAG eine Datenbank referenzieren, die Datensätze der letzten Interaktionen eines Kunden enthält, um einen individuelleren und persönlicheren Service zu erhalten.

Was ist Fine-Tuning?

Die Feinabstimmung eines generativen KI-Modells bedeutet, ein Allzweckmodell wie Claude 2 von Anthropic, Command von Cohere oder Llama 2 von Meta zu verwenden, ihm zusätzliche Trainingsrunden für einen kleineren, domänenspezifischen Datensatz zu geben und die Parameter des Modells basierend auf diesem Training anzupassen. Diese Optimierung hilft dem Modell, bei bestimmten Aufgaben bessere Ergebnisse zu erzielen, da es an die Nuancen und Terminologie einer bestimmten Domäne wie Codierung oder Gesundheitswesen angepasst wurde.

Wann wird Feinabstimmung angewendet?

Wählen Sie die Feinabstimmung, wenn ein LLM in einem bestimmten Bereich besonders geschickt sein muss. Durch zusätzliches Training kann ein LLM Prompts besser verstehen und Ausgaben liefern, die den Nuancen und der Terminologie eines bestimmten Feldes entsprechen. Sie benötigen Zugriff auf einen großen Datensatz oder ein Speicherhaus von Dokumenten, die für den Trainingsprozess kuratiert wurden, aber die Feinabstimmung ist den Aufwand wert, da sie eine bessere Kontrolle über den Stil, den Ton und die Art der generierten Inhalte ermöglicht. Das kann sich in Ihren Marketingmaterialien oder Kundeninteraktionen auszahlen. Feinabstimmung, wie RAG, kann auch in der Medizin, Codierung und anderen hochspezialisierten Bereichen hilfreich sein.

Anwendungsfälle für Feinabstimmung

Die Feinabstimmung, der Prozess der Anpassung eines allgemeinen KI-Modells an eine bestimmte Aufgabe oder einen bestimmten Bereich, ist eine leistungsstarke Technik, die Ergebnisse für eine Reihe von Organisationen erheblich verbessern kann, insbesondere in Fällen, in denen Personalisierung und Spezialisierung der Schlüssel sind. Hier sind einige häufige Anwendungsfälle, in denen es besonders effektiv sein kann:

  • Kundensupportautomatisierung. Die Feinabstimmung eines LLM mit einer großen, gut kuratierten Sammlung von Daten und Dokumenten über die Produkte, Dienstleistungen und Abläufe Ihres Unternehmens kann dazu beitragen, dass ein LLM ein nützlicheres automatisiertes Kundensupportsystem wird. Das fein abgestimmte LLM wird das Vokabular und die Nuancen in Kundeninteraktionen besser verstehen und in der Lage sein, angemessen zu reagieren.
  • Bildungsinhalte. LLMs können auf Bildungsmaterialien in einem bestimmten Bereich, wie Geschichte oder Grammatik, abgestimmt werden. Das LLM kann dann helfen, neue Lerninhalte zu erstellen, Lehrbücher zusammenzufassen, Quizfragen zu generieren und sogar Nachhilfe-Sitzungen in verschiedenen Themenbereichen anzubieten.
  • Medizinische Datenverarbeitung LLMs können mit medizinischer Literatur, anonymisierten Patientenakten und anderen medizinischen Texten und Bildern verfeinert werden, was sie nützlicher macht, um Behandlungen und Diagnosen vorzuschlagen.

Retrieval-Augmented Generation (RAG) vs. Fine-Tuning: Hauptunterschiede

Sowohl die Feinabstimmung als auch die RAG machen Allzweck-LLMs nützlicher, aber sie tun es auf verschiedene Weise. Eine einfache Analogie ist, dass die Feinabstimmung eines LLM ihm ein tieferes Verständnis einer bestimmten Domäne wie Medizin oder Bildung vermittelt, während die Kombination des LLM mit einer RAG-Architektur ihm Zugriff auf aktuelle, lokale Daten für seine Antworten gibt.

Warum nicht beides zusammen nutzen, um differenzierte und zeitnahe Antworten zu erhalten? Es ist ein wachsender Trend und kommt sogar mit einem eigenen Akronym: RAFT, für Retrieval-Augmented Fine-Tuning. Mit diesem hybriden Ansatz wird ein Modell, das auf spezialisierte Domaindaten abgestimmt ist, dann in einer RAG-Architektur bereitgestellt, wo es seine Domänenkompetenz nutzt, um die relevantesten Informationen während der Antwortgenerierung abzurufen. Das Ergebnis sind hochgenaue, relevante und kontextbezogene Ausgaben.

Wir werden RAFT ein wenig weiter besprechen, aber zuerst lernen wir die beiden Ansätze besser kennen.

Feinabstimmung

Sowohl RAG als auch Feinabstimmung helfen einem LLM, über generische Antworten hinauszugehen, die aus seinen ursprünglichen, generalisierten Trainingsdatensätzen stammen. Bei der Feinabstimmung wird ein LLM zusätzliche Schulungsrunden mit Datensätzen durchlaufen, die für eine bestimmte Domain oder Organisation spezifisch sind.

  • Anforderungen
    Dies erfordert, dass IT- und Geschäftsteams die Vorarbeit leisten, um große Datensätze für diese neuen Schulungsrunden zu erfassen, zu bereinigen und zu kennzeichnen. Das Trainingssystem selbst ist rechenintensiv und erfordert eine fortschrittliche KI-Architektur neuronaler Netzwerke, die von genügend GPUs unterstützt werden, um das LLM in einer angemessenen Zeit zu trainieren.
  • Ergebnis
    Das Ergebnis ist ein LLM, das die Informationen und die Parlance einer bestimmten Domain oder eines bestimmten Geschäftsfalls fließend verwendet.
  • Potenzielle Nachteile
    Im Gegensatz zu einem RAG-System ist das LLM vollständig auf das Dataset angewiesen, das für sein Trainingssystem zur Feinabstimmung verwendet wird, und es fehlt der Zugriff auf aktualisiertes externes Wissen. Ein fein abgestimmtes LLM kann auch einige der feineren Punkte seines ursprünglichen Trainings verlieren oder "vergessen". Zum Beispiel könnte es Finesse im allgemeinen Gespräch verlieren, da es in eine bestimmte Spezialität wie Medizin eintaucht. Vielleicht kennen Sie Ärzte, die dasselbe Schicksal erleiden.

RAG

RAG ändert auch die Antworten von LLMs, ändert jedoch nicht das zugrunde liegende Modell. Stattdessen verwendet ein RAG-System eine lokale Datenbank oder eine kuratierte Sammlung von Dokumenten, um die Antworten eines LLM zu informieren, oft mit aktuellen Details.

  • Stärken
    Die RAG-Architektur gilt in Bezug auf Datensicherheit und Datenschutz als der Feinabstimmung überlegen, da Daten in einer sicheren Umgebung mit strengen Zugriffskontrollen gespeichert werden können und so sicherstellen, dass private Daten nicht in KI-Antworten widergespiegelt werden.
  • Schwächen
    Eine Schwäche dieses Ansatzes im Vergleich zur Feinabstimmung besteht darin, dass die Sprachmodelle in keinem bestimmten Bereich auf Genauigkeit trainiert werden. Sie arbeiten aus dem allgemeinen Wissen über die Schulung des LLM.

Vergleich von Skillsets und Kosten

  • Skillsets
    In Bezug auf Skillsets, während RAG einfacher zu implementieren ist, erfordern RAG und Feinabstimmung sich überschneidende Kenntnisse in Codierung und Datenmanagement. Darüber hinaus benötigt ein Team, das an der Feinabstimmung beteiligt ist, mehr Fachwissen in den Bereichen Natural Language Processing (NLP), Deep Learning und Modellkonfiguration.
  • Zeit und Kosten
    Die Feinabstimmung erfordert mehr Vorabarbeit, während RAG zur Laufzeit mehr Ressourcen benötigt. Feinabstimmung bedeutet Runden rechenintensiven Trainings, bevor das LLM bereitgestellt werden kann, was es zu einem teureren Projekt im Vergleich zu einer RAG-Architektur macht. Sobald ein fein abgestimmtes LLM in Betrieb genommen wurde, ist die Laufzeitarchitektur jedoch ziemlich einfach. An diesem Punkt fügt ein RAG-System dem LLM eine zusätzliche Komplexität hinzu, sodass ein Team eine aktuelle Datenbank und zusätzliche Berechnungsressourcen für jeden Prompt verwalten muss.

Hybridansatz: RAFT

Die Einschränkungen – und Vorteile – dieser beiden Ansätze haben ganz natürlich zu einem wachsenden Trend geführt, um ihre Stärken zu kombinieren. Das Ergebnis ist der hybride Ansatz namens RAFT.

So wählen Sie zwischen RAG und Feinabstimmung

Die Wahl zwischen einer RAG-Architektur oder einem Feinabstimmungsregime hängt von den Ressourcen ab, die Sie haben, und davon, wie Sie Ihr LLM verwenden. Wie in der folgenden Tabelle angegeben, werden die meisten Anwendungsfälle von den Bemühungen profitieren, die beiden Ansätze zu kombinieren - für die meisten Unternehmen ist RAG eine natürliche Ergänzung, sobald sie sich um die Feinabstimmung bemüht haben. Aber hier sind sechs Fragen, um zu bestimmen, welche priorisiert werden sollen:

  1. Müssen Antworten lokale und sehr aktuelle Daten enthalten? LLM-Antworten mit Ihren eigenen aktuellen Daten zu informieren, ist eine Stärke von RAG und warum sie schnell an Popularität gewonnen hat.
  2. Arbeitet das LLM in einer spezialisierten Branche? Die Feinabstimmung ermöglicht es einem LLM, Prompts besser zu interpretieren und Antworten in der einzigartigen Sprache einer bestimmten Aufgabe oder eines bestimmten Geschäftsbereichs, wie z. B. im Gesundheitswesen, bereitzustellen.
  3. Sind der Datenschutz und die Sicherheit von größter Bedeutung? Eine RAG-Architektur ermöglicht es einem Unternehmen, sensible Daten in einer gut gesicherten, lokalen Datenbank zu speichern.
  4. Sind Ton und Art der Reaktion wichtig? Mit der Feinabstimmung kann ein LLM Antworten in der von einer Organisation oder einem bestimmten Feld bevorzugten Fachsprache anbieten. Wenn Kunden, Einzelhandelskunden oder Partner das LLM abfragen, fügt die Feinabstimmung einen professionellen Ton hinzu.
  5. Sind Laufzeitressourcen begrenzt? Ein fein abgestimmtes LLM erfordert nicht mehr Laufzeitressourcen als ein Allzweck-LLM. RAG ist komplexer und erfordert, dass das LLM lokale Datenbanken abfragt, um Antworten zu erweitern. Das erhöht den Overhead.
  6. Gibt es Zugriff auf Compute-Infrastruktur und KI-Skills? Die Feinabstimmung eines LLM erfordert beides. RAG benötigt Laufzeitressourcen und Dateninfrastruktur, aber weniger KI-Kenntnisse.
Anwendungsfallanforderungen RAG Feinabstimmung RAFT
Antworten müssen lokale, aktuelle Informationen enthalten.
Ja
Nein
Ja
Die Antworten müssen ein hohes Maß an Erklärbarkeit enthalten.
Ja
Nein
Ja
Antworten müssen das umfassende Fachwissen eines Unternehmens widerspiegeln.
Ja
Ja
Ja
Das Unternehmen hat Zugriff auf ein leistungsstarkes neuronales Netzwerk und GPU-Ressourcen für das KI-Training.
Nein
Ja
Ja
Antworten müssen den Ton und die Marketingsprache einer Organisation widerspiegeln.
Nein
Ja
Ja
Das Unternehmen verfügt über eine große, gut organisierte, aktuelle Sammlung von Dokumenten, aus denen die KI ihre Antworten abrufen und zitieren kann.
Ja
Nein
Ja
Das KI-System hat Zugriff auf begrenzte Laufzeitressourcen.
Nein
Ja
Ja
Das Unternehmen verfügt über einen großen, kuratierten Datensatz und einen Dokumentspeicher, um eine KI zu trainieren und zu optimieren.
Ja
Nein
Ja

Mehr Geschäftswert von GenAI mit Oracle Cloud Infrastructure

Ob Sie sich für RAG oder Feinabstimmung oder beides entscheiden, Oracle ist darauf spezialisiert, Unternehmen wie Ihrem dabei zu helfen, mit Oracle Cloud Infrastructure (OCI) Generative AI, einem vollständig verwalteten Service, der die Leistungsfähigkeit von OCI und eine Auswahl an Open-Source- oder proprietären LLMs umfasst, Produktivitätssteigerungen zu erzielen.

Wir machen es Ihnen einfach, Ihr LLM mit RAG zu kombinieren, damit Sie aktuelle Antworten erhalten, die auf Ihren vielfältigen Wissensdatenbanken basieren. Wenn es an der Zeit ist, Ihr Optimierungsregime auszuführen, ist die Oracle AI-Infrastruktur eine gute Wahl. Sie finden Supercluster, die auf bis zu 65.536 GPUs skaliert werden – mehr als genug, um Ihre anspruchsvollsten Trainings- und Inferenz-Workloads auszuführen, wie LLM-Antworten, Computer Vision und Predictive Analytics.

General-Purpose LLMs weiter zu verbessern, mit einem konstanten Fluss von neuen Versionen kommen aus wie Anthropic, Cohere, Google, Meta und viele andere. Aber egal, wie geschickt diese KI-Modelle mit menschlicher Sprache umgehen, sie werden immer eine Möglichkeit benötigen, diese Fähigkeiten mit den spezifischen Anforderungen von Geschäftsanwendungsfällen zu verbinden. Fine-Tuning und RAG sind derzeit die beiden besten Methoden dafür. Achten Sie darauf, dass sich KI-Modelle, -Hardware und -Datenarchitekturen weiterentwickeln.

Ihr KI-Exzellenzzentrum sollte eine zentrale Rolle bei der Einführung von RAG spielen. Sie haben keine CoE? Hier erfahren Sie, wie Sie es sofort zum Laufen bringen.

RAG vs. Feinabstimmung FAQs

Ist RAG besser als Feinabstimmung?

Die Feinabstimmung von RAG- und KI-Modellen ist unterschiedlich, mit ihren eigenen Vorteilen und Kosten. Beide sind beliebte Methoden, generative KI-Modelle nützlicher zu machen, und jedes Unternehmen sollte die Methode auswählen, die seinen Anforderungen am besten entspricht. Eine weitere beliebte Option ist die Kombination der beiden Ansätze, genannt RAFT, für Retrieval-Augmented Fine-Tuning.

Was ist besser als RAG?

RAG ist einfach eine Technik, um einem LLM zu helfen, bessere Antworten zu liefern, indem die Daten und Dokumente eines Unternehmens referenziert werden. Eine Methode namens GraphRAG hat sich als eine Möglichkeit herausgestellt, LLM-Antworten weiter zu verbessern, die über das hinausgehen, was eine RAG-Architektur alleine tun kann, aber sie fügt architektonische Komplexität hinzu und beliebte Anwendungsfälle sind noch nicht entstanden.

Die Feinabstimmung eines KI-Modells ist eine weitere Methode, die einem LLM helfen kann, gezieltere oder differenziertere Antworten anzubieten, und sie kann mit RAG kombiniert werden, um die Performance des LLM weiter zu verbessern.

Können RAG und Feinabstimmung zusammen verwendet werden?

Ja. Dieser hybride Ansatz bietet ein Modell, das auf spezialisierte Domaindaten abgestimmt ist und dann in einer RAG-Architektur bereitgestellt wird, damit es die neuesten oder relevantesten Informationen in seinen Antworten bereitstellen kann.

Was ist der Unterschied zwischen RAG und Transfer Learning?

RAG verbessert die Antworten eines LLM, indem es auf eine lokale, aktuelle Wissensdatenbank zugreift. Transfer Learning verbessert die Reaktionen eines Allzweck-KI-Modells, indem es auf ein separates KI-Modell zugreift, das auf die Arbeit in einer bestimmten Domain abgestimmt wurde.