RAG ou réglage fin : comment choisir

Jeffrey Erickson | Senior Writer | 21 novembre 2024

Les grands modèles de langage à usage général, ou LLM, sont devenus populaires auprès du public parce qu'ils peuvent discuter d'une grande variété de sujets et écrire des documents de termes, des notes de remerciement et de nombreuses autres tâches. En affaires, cependant, ces sorties génériques ne feront pas. Un LLM qui devrait fournir une assistance technique pour un gadget particulier, par exemple, doit s'appuyer sur des connaissances propres à un domaine.

Il existe actuellement deux façons d'aider les modèles d'IA générative à fournir des réponses qui reflètent ce type d'expertise : le réglage fin et la génération augmentée de récupération, ou la RAG. Chacun d'entre eux présente des avantages et des défis. Examinons ces options plus en détail pour comprendre comment elles fonctionnent et quand les utiliser.

Principaux points à retenir

  • La RAG et le réglage fin rendent les modèles d'IA génériques plus utiles dans un domaine particulier ou pour un cas d'utilisation spécifique.
  • La RAG donne à un LLM un accès aux banques de données internes d'une entreprise, ce qui aide le LLM à fournir des réponses plus ciblées, ce qui est essentiel pour les cas d'utilisation qui reposent sur des informations à jour.
  • Les utilisations courantes de la RAG incluent le support technique, la recherche de stock et les recommandations de vente au détail.
  • Le réglage fin utilise un ensemble de données propres au domaine pour entraîner un LLM à usage général pour une tâche particulière. Pensez à la médecine ou au codage, qui ont leur propre logique et langage.
  • Le réglage fin et la RAG peuvent être combinés pour donner à un LLM une connaissance approfondie du domaine et des informations à jour.

Qu'est-ce que la génération augmentée de récupération (RAG, retrieval-augmented generation) ?

La RAG, courte pour la génération augmentée par extraction, est un cadre architectural développé par des chercheurs de Meta pour aider les modèles d'IA à usage général à fournir des résultats pertinents et utiles aux entreprises. Pour ce faire, la RAG donne à un grand modèle de langage, ou LLM, un accès à une base de connaissances interne qu'elle peut utiliser pour enrichir ses données d'entraînement d'origine. Le résultat est un système d'IA qui combine la fluidité linguistique d'un LLM avec des données locales pour fournir des réponses ciblées et adaptées au contexte. Cette approche, contrairement à l'affinage du modèle d'IA, fonctionne sans modifier le modèle sous-jacent lui-même.

Quand utiliser la RAG

Utilisez la RAG lorsqu'il est important que les réponses d'IA générative fournissent des données à jour ou spécifiques à l'entreprise qui ne faisaient pas partie de l'entraînement du LLM. Par exemple, si une entreprise dispose d'un grand corpus d'informations fiables sur ses produits ou ses opérations quotidiennes, une architecture RAG fournira ces données pour augmenter les invites et les réponses qui passent par le LLM, ce qui rend les sorties plus utiles, vérifiables et précises. Cela peut améliorer l'automatisation du service d'assistance, les contrôles de disponibilité des produits dans la vente au détail ou même les soins de santé, car les notes des médecins peuvent être rapidement mises à la disposition des patients ou d'autres cliniciens.

Cas d'utilisation RAG

Les avantages communs de la RAG dans tous les secteurs comprennent une extraction de données meilleure et plus complète, un support client amélioré et la possibilité de générer du contenu personnalisé. En complétant les LLM avec des informations actuelles, les entreprises peuvent déployer des agents d'IA pour fournir des réponses en temps réel et contextuellement pertinentes aux requêtes des utilisateurs, ce qui réduit le besoin d'intervention humaine. La polyvalence de RAG lui permet de s'adapter à un large éventail d'applications, y compris les suivantes :

  • Business intelligence. Les entreprises peuvent utiliser la RAG pour aider les modèles de GenAI à extraire des données de marché pertinentes pour la production automatisée d'informations et de rapports. Ces données peuvent inclure une étude de marché, une analyse des concurrents, le volume des ventes et les commentaires des clients.
  • Recommandations de contenu. La RAG peut améliorer les systèmes de recommandation de contenu, souvent en parallèle avec les bases de données vectorielles. La RAG permet au modèle d'IA d'extraire et d'analyser les évaluations, les évaluations et les descriptions de contenu utilisateur qui permettent au système de générer des recommandations personnalisées alignées sur le prompt de l'utilisateur.
  • Vérification des faits dans le journalisme et les autres médias. La RAG peut aider les entreprises à récupérer et à recouper rapidement les documents pour vérifier les réclamations faites dans les articles, les rapports ou les réseaux sociaux.
  • Diagnostic médical. Dans les soins de santé, la RAG peut être appliquée pour soutenir les médecins et autres cliniciens en aidant à la planification du diagnostic et du traitement. Pour ce faire, il aide les modèles d'IA à récupérer des études de cas médicales, des documents de recherche ou des résultats d'essais cliniques pertinents pour les symptômes ou la condition d'un patient.
  • Support technique. La RAG peut être utilisée pour réduire le temps de résolution et améliorer la satisfaction des utilisateurs en matière de support technique. Le système peut extraire les guides et la documentation de dépannage pertinents ou même analyser les threads de forum et les fournir au LLM pour aider à résoudre les problèmes des utilisateurs. En outre, la RAG peut référencer une base de données qui contient les enregistrements des interactions récentes d'un client pour un service plus personnalisé et personnel.

Qu'est-ce que le réglage fin ?

Affiner un modèle d'IA générative signifie prendre un modèle à usage général, tel que Claude 2 d'Anthropic, Command de Cohere ou Llama 2 de Meta, lui donner des cycles d'entraînement supplémentaires sur un ensemble de données plus petit et spécifique au domaine et ajuster les paramètres du modèle en fonction de cet entraînement. Ce réglage aide le modèle à mieux effectuer des tâches spécifiques car il a été adapté aux nuances et à la terminologie d'un domaine particulier, tel que le codage ou les soins de santé.

Utilisation du réglage fin

Choisissez le réglage fin lorsqu'un LLM doit être habillé dans un domaine particulier. Grâce à une formation supplémentaire, un LLM peut mieux comprendre les prompts et fournir des résultats qui reflètent les nuances et la terminologie d'un domaine particulier. Vous aurez besoin d'accéder à un grand ensemble de données ou à un magasin de documents organisés pour le processus de formation, mais le réglage fin en vaut la peine car il permet un meilleur contrôle sur le style, le ton et la manière du contenu généré. Cela peut payer dans vos supports marketing ou vos interactions avec les clients. Le réglage fin, comme la RAG, peut également être utile en médecine, en codage et dans d'autres domaines hautement spécialisés.

Cas d'utilisation du réglage fin

Le réglage fin, processus d'adaptation d'un modèle général d'IA à une tâche ou un domaine spécifique, est une technique puissante qui peut améliorer considérablement les résultats pour un éventail d'organisations, en particulier dans les cas où la personnalisation et la spécialisation sont essentielles. Voici quelques cas d'utilisation courants où il peut être particulièrement efficace :

  • Automatisation du support client. Le réglage fin d'un LLM à l'aide d'un grand ensemble bien organisé de données et de documents sur les produits, services et opérations de votre entreprise peut aider un LLM à devenir un système de support client automatisé plus utile. Le LLM affiné comprendra mieux le vocabulaire et les nuances dans les interactions avec les clients et sera en mesure de répondre de manière appropriée.
  • Contenu éducatif. Les LLM peuvent être affinés sur du matériel éducatif dans un domaine spécifique, tel que l'histoire ou la grammaire. Le LLM peut ensuite aider à créer un nouveau contenu d'apprentissage, résumer des manuels, générer des questions de quiz, voire fournir des sessions de tutorat dans divers domaines.
  • Traitement des informations médicales. Les LLM peuvent être affinés avec de la documentation médicale, des dossiers de patients anonymisés et d'autres textes et images médicaux, ce qui les rend plus utiles pour suggérer des traitements et des diagnostics.

Génération augmentée de récupération (RAG) ou réglage fin : différences clés

Le réglage fin et la RAG rendent les LLM à usage général plus utiles, mais ils le font de différentes manières. Une analogie simple est que le réglage fin d'un LLM lui donne une compréhension plus approfondie d'un domaine particulier, tel que la médecine ou l'éducation, tandis que le couplage du LLM avec une architecture RAG lui donne accès à des données locales à jour pour ses réponses.

Pourquoi ne pas les utiliser ensemble pour obtenir des réponses à la fois nuancées et opportunes ? C'est une tendance croissante et vient même avec son propre acronyme : RAFT, pour le réglage fin augmenté par extraction. Avec cette approche hybride, un modèle affiné sur des données de domaine spécialisées est ensuite déployé dans une architecture RAG, où il utilise son expertise de domaine pour récupérer les informations les plus pertinentes lors de la génération de réponse. Les résultats sont très précis, pertinents et contextuels.

Nous discuterons plus en détail du RAFT, mais commençons par mieux comprendre les deux approches.

Réglage fin

La RAG et le réglage fin aident un LLM à dépasser les réponses génériques tirées de ses jeux de données d'entraînement généralisés d'origine. Le réglage fin consiste à placer un LLM dans des cycles d'entraînement supplémentaires à l'aide d'ensembles de données spécifiques à un domaine ou à une organisation spécifique.

  • Conditions requises
    Pour ce faire, les équipes informatiques et commerciales doivent commencer à collecter, nettoyer et étiqueter des ensembles de données volumineux pour ces nouveaux cycles de formation. Le régime d'entraînement lui-même exige beaucoup de calcul, ce qui nécessite une architecture d'IA avancée de réseaux neuronaux soutenue par suffisamment de GPU pour entraîner le LLM dans un délai raisonnable.
  • Résultat
    Le résultat est un LLM qui parle couramment les informations et le langage d'un domaine ou d'une analyse de rentabilité spécifique.
  • Incidents potentiels
    Contrairement à un système RAG, le LLM dépend entièrement du jeu de données utilisé pour son régime d'entraînement de réglage fin et n'a pas accès aux connaissances externes mises à jour. Un LLM affiné peut également perdre, ou "oublier", certains des points les plus fins de sa formation initiale. Par exemple, il peut perdre de la finesse dans la conversation générale à mesure qu'il s'immerge dans une spécialité particulière, comme la médecine. Peut-être avez-vous connu des médecins qui subissent le même sort.

RAG

La RAG modifie également les réponses des LLM, mais elle ne modifie pas le modèle sous-jacent. Au lieu de cela, un système RAG utilise une base de données locale ou un ensemble organisé de documents pour informer les réponses d'un LLM, souvent avec des détails à la minute près.

  • Forces
    L'architecture RAG est considérée comme supérieure à l'affinage en termes de sécurité et de confidentialité des données, car les données peuvent être stockées dans un environnement sécurisé avec des contrôles d'accès stricts, ce qui garantit que les données privées ne sont pas reflétées dans les réponses de l'IA.
  • Faiblesses
    L'une des faiblesses de cette approche par rapport au réglage fin est que les modèles de langage ne sont pas entraînés pour être précis dans un domaine particulier ; ils travaillent à partir des connaissances générales de l'entraînement du LLM.

Comparaison des ensembles de compétences et des coûts

  • Ensembles de compétences
    En termes de compétences, bien que la RAG soit plus simple à implémenter, la RAG et le réglage fin nécessitent une expertise en matière de codage et de gestion des données qui se chevauche. Au-delà, cependant, une équipe impliquée dans le réglage fin a besoin de plus d'expertise dans le traitement du langage naturel, l'apprentissage profond et la configuration des modèles.
  • Temps et coût
    Le réglage fin nécessite plus de travail anticipé tandis que la RAG nécessite plus de ressources lors de l'exécution. Le réglage fin signifie des cycles d'entraînement intensif en calcul avant le déploiement du LLM, ce qui en fait un projet plus coûteux qu'une architecture RAG. Une fois qu'un LLM affiné est mis en service, l'architecture d'exécution est assez simple. A ce stade, un système RAG ajoute une couche supplémentaire de complexité au LLM, nécessitant une équipe pour maintenir une base de données à jour et des ressources de calcul supplémentaires pour chaque invite.

Approche hybride : RAFT

Les limites et les avantages de ces deux approches ont naturellement conduit à une tendance croissante à combiner leurs forces. Le résultat est l'approche hybride appelée RAFT.

Comment choisir entre la RAG et le réglage fin

Le choix entre l'utilisation d'une architecture RAG ou d'un régime de réglage fin dépend des ressources dont vous disposez et de la façon dont vous utiliserez votre LLM. Comme indiqué dans le tableau ci-dessous, la plupart des cas d'utilisation bénéficieront de l'effort de combiner les deux approches - pour la plupart des entreprises, une fois qu'elles auront fait l'effort d'affiner, la RAG est un ajout naturel. Mais voici six questions à poser pour déterminer lesquelles établir des priorités :

  1. Les réponses doivent-elles inclure des données locales et très actuelles ? Informer les réponses des LLM avec vos propres données à jour est une force de la RAG et pourquoi elle a rapidement gagné en popularité.
  2. Le LLM fonctionne-t-il dans un secteur spécialisé ? Le réglage fin permet à un LLM de mieux interpréter les invites et de fournir des réponses dans la langue unique d'une tâche ou d'un domaine d'opérations particulier, tels que les soins de santé.
  3. La confidentialité et la sécurité des informations sont-elles primordiales ? Une architecture RAG permet à une entreprise de conserver des données sensibles dans une base de données locale bien sécurisée.
  4. Le ton et la manière de réagir sont-ils importants ? Le réglage fin permet à un LLM d'offrir des réponses dans la langue spécialisée préférée par une organisation ou un domaine particulier. Si des clients, des clients de détail ou des partenaires vont interroger le LLM, le réglage fin ajoute un ton professionnel.
  5. Les ressources d'exécution sont-elles limitées ? Un LLM affiné ne nécessite pas plus de ressources d'exécution qu'un LLM à usage général. La RAG est plus complexe, ce qui oblige le LLM à interroger les bases de données locales pour augmenter les réponses. Cela ajoute des frais généraux.
  6. Existe-t-il un accès à l'infrastructure de calcul et aux compétences en IA ? Le réglage fin d'un LLM nécessite les deux. La RAG a besoin de ressources d'exécution et d'infrastructure de données, mais moins de compétences en IA.
Exigences de cas d'utilisation RAG Réglage fin RAFT
Les réponses doivent inclure des informations locales et à jour.
oui
non
oui
Les réponses doivent inclure un niveau élevé d'explicabilité.
oui
non
oui
Les réponses doivent refléter la connaissance approfondie du domaine d'une organisation.
oui
oui
oui
L'entreprise a accès à un réseau neuronal puissant et à des ressources GPU pour l'entraînement de l'IA.
non
oui
oui
Les réponses doivent refléter le ton et le langage marketing d'une organisation.
non
oui
oui
L'organisation dispose d'un grand ensemble de documents bien organisés et à jour à partir desquels l'IA peut s'inspirer et citer ses réponses.
oui
non
oui
Le système d'IA a accès à des ressources d'exécution limitées.
non
oui
oui
L'entreprise dispose d'un grand ensemble de données et d'un magasin de documents organisés pour entraîner et affiner une IA.
oui
non
oui

Tirez le meilleur parti de la Genai avec Oracle Cloud Infrastructure GenAI

Que vous choisissiez la RAG ou le réglage fin, ou les deux, Oracle se spécialise dans l'aide à des entreprises comme la vôtre à réaliser des gains de productivité avec l'IA générative d'Oracle Cloud Infrastructure (OCI), un service entièrement géré qui inclut la puissance d'OCI et un choix de LLM open source ou propriétaires.

Nous facilitons la combinaison de votre LLM avec la RAG afin que vous puissiez obtenir des réponses à jour basées sur vos diverses bases de connaissances. Lorsqu'il est temps d'exécuter votre régime de réglage fin, l'infrastructure Oracle AI est un excellent choix. Vous trouverez des superclusters pouvant évoluer jusqu'à 65 536 GPU, soit plus que suffisant pour exécuter vos workloads d'entraînement et d'inférence les plus exigeantes, tels que les réponses aux LLM, la vision par ordinateur et les analyses prédictives.

Les LLM à usage général continuent de s'améliorer, avec un flux constant de nouvelles versions arrivant d'Anthropic, Cohere, Google, Meta et bien d'autres. Mais peu importe la façon dont ces modèles d'IA gèrent le langage humain, ils auront toujours besoin d'un moyen de connecter cet ensemble de compétences aux besoins spécifiques des cas d'utilisation commerciaux. Le réglage fin et la RAG sont actuellement les deux meilleures méthodes pour ce faire. Cherchez à ce qu'ils continuent à évoluer à mesure que les modèles d'IA, le matériel et les architectures de données avancent.

Votre centre d'excellence en IA devrait jouer un rôle central dans le déploiement de la RAG. Vous n'avez pas de CoE ? Voici comment en avoir un dès maintenant.

FAQ sur la RAG ou le réglage fin

La RAG est-elle meilleure que le réglage fin ?

Le réglage fin des modèles de RAG et d'IA est différent, avec leurs propres avantages et coûts. Les deux sont des méthodes populaires pour rendre les modèles d'IA générative plus utiles, et chaque entreprise doit choisir la méthode qui répond le mieux à ses besoins. Une autre option populaire est de combiner les deux approches, appelées RAFT, pour le réglage fin augmenté par extraction.

Quoi de mieux que la RAG ?

La RAG est simplement une technique pour aider un LLM à fournir de meilleures réponses en référençant les données et les documents d'une entreprise. Une méthode appelée GraphRAG est apparue comme un moyen d'améliorer davantage les réponses des LLM au-delà de ce qu'une architecture RAG peut faire seule, mais elle ajoute de la complexité architecturale et des cas d'utilisation populaires n'ont pas encore émergé.

Le réglage fin d'un modèle d'IA est une autre méthode qui peut aider un LLM à offrir des réponses plus ciblées ou nuancées, et il peut être combiné avec la RAG pour améliorer davantage les performances du LLM.

La RAG et le réglage fin peuvent-ils être utilisés ensemble ?

Oui. Cette approche hybride offre un modèle affiné sur des données de domaine spécialisées, puis déployé dans une architecture RAG afin de pouvoir offrir les informations les plus récentes ou les plus pertinentes dans ses réponses.

Quelle est la différence entre la RAG et l'apprentissage par transfert ?

La RAG améliore les réponses d'un LLM en accédant à une base de connaissances locale et à jour. L'apprentissage par transfert améliore les réponses d'un modèle d'IA à usage général en accédant à un modèle d'IA distinct qui a été affiné pour fonctionner dans un domaine particulier.