RAG ou finetuning : comment choisir

Jeffrey Erickson | Senior Writer | 21 novembre 2024

Contenu de l'article

Qu'est-ce que la génération augmentée par récupération (RAG) ?
Qu'est-ce que le finetuning ?
La RAG ou le finetuning ? Les différences clés
Comment choisir entre la RAG et le finetuning ?
Boostez la valeur métier de l'IA générative avec Oracle Cloud Infrastructure
FAQ : la RAG ou le finetuning ?

Les grands modèles de langage (LLM) à usage général sont devenus populaires auprès du public parce qu'ils peuvent discuter d'une grande variété de sujets et rédiger des conclusions de recherches scientifiques, des notes de remerciement et réaliser de nombreuses autres tâches. Dans le monde des affaires, cependant, ces sorties génériques ont une utilité limitée. Un LLM qui devrait fournir une assistance technique pour un gadget particulier, par exemple, doit s'appuyer sur des connaissances propres à un domaine.

Il existe actuellement deux façons d'aider les modèles d'IA générative à fournir des réponses qui reflètent ce type d'expertise : le finetuning et la génération augmentée de récupération (RAG). Chacun d'entre eux présente des avantages et des difficultés. Examinons ces options plus en détail pour comprendre comment elles fonctionnent et quand les utiliser.

Points à retenir

La RAG et le finetuning rendent les modèles d'IA génériques plus utiles dans un domaine particulier ou pour un cas d'utilisation spécifique.
La RAG donne à un LLM un accès aux banques de données internes d'une entreprise, ce qui aide le LLM à fournir des réponses plus ciblées, ce qui est essentiel pour les cas d'utilisation qui reposent sur des informations à jour.
Les utilisations courantes de la RAG incluent le support technique, la recherche de stock et les recommandations de retail.
Le finetuning utilise un jeu de données propres au domaine pour entraîner un LLM à usage général pour une tâche particulière. Pensez à la médecine ou au codage, qui ont leur propre logique et langage.
Le finetuning et la RAG peuvent être combinés pour donner à un LLM une connaissance approfondie du domaine et des informations à jour.

Qu'est-ce que la génération augmentée de récupération (RAG, retrieval-augmented generation) ?

La RAG, courte pour la génération augmentée par extraction, est un cadre architectural développé par des chercheurs de Meta pour aider les modèles d'IA à usage général à fournir des résultats pertinents et utiles aux entreprises. Pour ce faire, la RAG donne à un grand modèle de langage, ou LLM, un accès à une base de connaissances interne qu'elle peut utiliser pour enrichir ses données d'entraînement d'origine. Le résultat est un système d'IA qui combine la fluidité linguistique d'un LLM avec des données locales pour fournir des réponses ciblées et adaptées au contexte. Cette approche, contrairement au finetuning du modèle d'IA, fonctionne sans modifier le modèle sous-jacent lui-même.

Quand utiliser la RAG ?

La RAG s'avère pertinente lorsqu'il est important que les réponses d'IA générative fournissent des données à jour ou spécifiques à l'entreprise qui ne faisaient pas partie de l'entraînement du LLM. Par exemple, si une entreprise dispose d'un grand corpus d'informations fiables sur ses produits ou ses opérations quotidiennes, une architecture RAG fournira ces données pour augmenter les invites et les réponses qui passent par le LLM, ce qui rend les sorties plus utiles, vérifiables et précises. Cela peut améliorer l'automatisation du service d'assistance, les contrôles de disponibilité des produits dans le retail ou même les soins de santé, car les notes des médecins peuvent être rapidement mises à la disposition des patients ou d'autres cliniciens.

Cas d'utilisation de la RAG

La RAG présente généralement les avantages suivants : une extraction de données meilleure et plus complète, un support client amélioré et la possibilité de générer du contenu personnalisé. En complétant les LLM avec des informations actuelles, les entreprises peuvent déployer des agents d'IA pour fournir des réponses en temps réel et contextuellement pertinentes aux requêtes des utilisateurs, ce qui réduit le besoin d'intervention humaine. La polyvalence de la RAG lui permet de s'adapter à un large éventail d'applications, y compris les suivantes :

Informatique décisionnelle. Les entreprises peuvent utiliser la RAG pour aider les modèles l'IA générative à extraire des données de marché pertinentes pour la production automatisée d'informations et de rapports. Ces données peuvent inclure une étude de marché, une analyse des concurrents, le volume des ventes et les commentaires des clients.
Recommandations de contenu. La RAG peut améliorer les systèmes de recommandation de contenu, souvent en parallèle avec les bases de données vectorielles. La RAG permet au modèle d'IA d'extraire et d'analyser les évaluations, les évaluations et les descriptions de contenu utilisateur qui permettent au système de générer des recommandations personnalisées alignées sur l'invite de l'utilisateur.
Vérification des faits dans le journalisme et les autres médias. La RAG peut aider les entreprises à récupérer et à recouper rapidement les documents pour vérifier les réclamations faites dans les articles, les rapports ou les médias sociaux.
Diagnostic médical. Dans les soins de santé, la RAG peut être appliquée pour soutenir les médecins et autres soignants en aidant à la planification du diagnostic et du traitement. Elle aide les modèles d'IA à récupérer des études de cas médicales, des documents de recherche ou des résultats d'essais cliniques pertinents pour les symptômes ou la condition d'un patient.
Support technique. La RAG peut être utilisée pour réduire le temps de résolution et améliorer la satisfaction des utilisateurs en matière de support technique. Le système peut extraire les guides et la documentation de dépannage pertinents ou même analyser les threads de forum et les fournir au LLM pour aider à résoudre les problèmes des utilisateurs. En outre, la RAG peut référencer une base de données qui contient les enregistrements des interactions récentes d'un client pour un service plus personnalisé et personnel.

Qu'est-ce que le finetuning ?

Finetuner un modèle d'IA générative signifie prendre un modèle à usage général, tel que Claude 2 d'Anthropic, Command de Cohere ou Llama 2 de Meta, et réaliser des cycles d'entraînement supplémentaires sur un jeu de données plus petit et spécifique au domaine afin d'ajuster les paramètres du modèle en fonction de cet entraînement. Ce réglage aide le modèle à mieux effectuer des tâches spécifiques car il a été adapté aux nuances et à la terminologie d'un domaine particulier, tel que le codage ou les soins de santé.

Utilisation du finetuning

Choisissez le finetuning lorsqu'un LLM doit être expert dans un domaine particulier. Grâce à l'entraînement supplémentaire, un LLM peut mieux comprendre les invites et fournir des résultats qui reflètent les nuances et la terminologie d'un domaine particulier. Vous aurez besoin d'accéder à un grand jeu de données ou à un magasin de documents organisés pour le processus de formation, mais le finetuning en vaut la peine car il permet un meilleur contrôle sur le style, le ton et la manière du contenu généré. Cela peut s'avérer payant pour vos contenus marketing ou vos interactions avec les clients. Le finetuning, comme la RAG, peut également être utile en médecine, en codage et dans d'autres domaines hautement spécialisés.

Cas d'utilisation du finetuning

Le finetuning, processus d'adaptation d'un modèle général d'IA à une tâche ou un domaine spécifique, est une technique puissante qui peut améliorer considérablement les résultats pour un éventail d'organisations, en particulier dans les cas où la personnalisation et la spécialisation sont essentielles. Voici quelques cas d'utilisation courants où il peut être particulièrement efficace :

Automatisation du support client. Le finetuning d'un LLM à l'aide d'un grand ensemble bien organisé de données et de documents sur les produits, services et opérations de votre entreprise peut aider un LLM à devenir un système de support client automatisé plus utile. Le LLM finetuné comprendra mieux le vocabulaire et les nuances dans les interactions avec les clients et sera en mesure de répondre de manière appropriée.
Contenu éducatif. Les LLM peuvent être finetuné avec du matériel éducatif dans un domaine spécifique, tel que l'histoire ou la grammaire. Le LLM peut ensuite aider à créer un nouveau contenu d'apprentissage, résumer des manuels, générer des questions de quiz, voire fournir des sessions de tutorat dans divers domaines.
Traitement des informations médicales. Les LLM peuvent être finetuné avec de la documentation médicale, des dossiers de patients anonymisés et d'autres textes et images médicaux, ce qui les rend plus utiles pour suggérer des traitements et des diagnostics.

Génération augmentée de récupération (RAG) ou finetuning : différences clés

Le finetuning et la RAG rendent les LLM à usage général plus utiles, mais ils le font de différentes manières. Une analogie simple est que le finetuning d'un LLM lui donne une compréhension plus approfondie d'un domaine particulier, tel que la médecine ou l'éducation, tandis que le couplage du LLM avec une architecture RAG lui donne accès à des données locales à jour pour ses réponses.

Pourquoi ne pas les utiliser ensemble pour obtenir des réponses à la fois nuancées et opportunes ? C'est une tendance croissante, connue sous l'accronyme de RAFT (retrieval-augmented fine-tuning). Avec cette approche hybride, un modèle finetuné sur des données de domaine spécialisées est ensuite déployé dans une architecture RAG, où il utilise son expertise de domaine pour récupérer les informations les plus pertinentes lors de la génération de réponse. Le résultat est des résultats très précis, pertinents et contextuels.

Nous discuterons plus en détail du RAFT, mais commençons par mieux comprendre les deux approches.

Finetuning

La RAG et le finetuning aident un LLM à dépasser les réponses génériques tirées de ses jeux de données d'entraînement généralisés d'origine. Le finetuning consiste à placer un LLM dans des cycles d'entraînement supplémentaires à l'aide d'jeux de données spécifiques à un domaine ou à une organisation spécifique.

Conditions requises
Pour ce faire, les équipes informatiques et commerciales doivent commencer à collecter, nettoyer et étiqueter des jeux de données volumineux pour ces nouveaux cycles d'entraînement. Le régime d'entraînement lui-même exige beaucoup de calcul, ce qui nécessite une architecture d'IA avancée de réseaux neuronaux soutenue par suffisamment de GPU pour entraîner le LLM dans un délai raisonnable.
Résultat
Le résultat est un LLM qui parle couramment les informations et le langage d'un domaine ou d'une analyse de rentabilité spécifique.
Problèmes potentiels
Contrairement à un système RAG, le LLM dépend entièrement du jeu de données utilisé pour son régime d'entraînement de finetuning et n'a pas accès aux connaissances externes mises à jour. Un LLM finetuné peut également perdre, ou « oublier », certains des points les plus fins de sa formation initiale. Par exemple, il peut perdre de la finesse dans la conversation générale à mesure qu'il s'immerge dans une spécialité particulière, comme la médecine. Peut-être connaissez-vous des médecins qui subissent le même sort.

RAG

La RAG modifie également les réponses des LLM, mais elle ne modifie pas le modèle sous-jacent. Au lieu de cela, un système RAG utilise une base de données locale ou un ensemble organisé de documents pour informer les réponses d'un LLM, souvent avec des détails à la minute près.

Forces
L'architecture RAG est considérée comme supérieure au finetuning en termes de sécurité et de confidentialité des données, car les données peuvent être stockées dans un environnement sécurisé avec des contrôles d'accès stricts, ce qui garantit que les données privées ne sont pas reflétées dans les réponses de l'IA.
Faiblesses
L'une des faiblesses de cette approche par rapport au finetuning est que les modèles de langage ne sont pas entraînés pour être précis dans un domaine particulier ; ils travaillent à partir des connaissances générales de l'entraînement du LLM.

Comparaison des ensembles de compétences et des coûts

Ensembles de compétences
En termes de compétences, bien que la RAG soit plus simple à implémenter, la RAG et le finetuning nécessitent une expertise en matière de codage et de gestion des données qui se chevauche. Au-delà, cependant, une équipe impliquée dans le finetuning a besoin de plus d'expertise dans le traitement du langage naturel, l'deep learning et la configuration des modèles.
Temps et coût
Le finetuning nécessite plus de travail anticipé tandis que la RAG nécessite plus de ressources lors de l'exécution. Le finetuning signifie des cycles d'entraînement intensif en calcul avant le déploiement du LLM, ce qui en fait un projet plus coûteux qu'une architecture RAG. Une fois qu'un LLM finetuné est mis en service, l'architecture d'exécution est assez simple. À ce stade, un système RAG ajoute une couche supplémentaire de complexité au LLM, nécessitant une équipe pour maintenir une base de données à jour et des ressources de calcul supplémentaires pour chaque invite.

Approche hybride : RAFT

Les limites et les avantages de ces deux approches ont naturellement conduit à une tendance croissante à combiner leurs forces. Le résultat est l'approche hybride appelée RAFT.

Comment choisir entre la RAG et le finetuning ?

Le choix entre l'utilisation d'une architecture RAG ou d'un régime de finetuning dépend des ressources dont vous disposez et de la façon dont vous utiliserez votre LLM. Comme indiqué dans le tableau ci-dessous, la plupart des cas d'utilisation bénéficieront de l'effort de combiner les deux approches. Pour la plupart des entreprises, une fois qu'elles auront fait l'effort de finetuner un modèle, la RAG est un ajout naturel. Mais voici six questions à poser pour déterminer lesquelles établir des priorités :

Les réponses doivent-elles inclure des données locales et très actuelles ? Informer les réponses des LLM avec vos propres données à jour est une force de la RAG et pourquoi elle a rapidement gagné en popularité.
Le LLM fonctionne-t-il dans un secteur spécialisé ? Le finetuning permet à un LLM de mieux interpréter les invites et de fournir des réponses dans la langue unique d'une tâche ou d'un domaine d'opérations particulier, tels que les soins de santé.
La confidentialité et la sécurité des informations sont-elles primordiales ? Une architecture RAG permet à une entreprise de conserver des données sensibles dans une base de données locale bien sécurisée.
Le ton et la manière de réagir sont-ils importants ? Le finetuning permet à un LLM d'offrir des réponses dans la langue spécialisée préférée par une organisation ou un domaine particulier. Si des clients, des clients de détail ou des partenaires vont interroger le LLM, le finetuning ajoute un ton professionnel.
Les ressources d'exécution sont-elles limitées ? Un LLM finetuné ne nécessite pas plus de ressources d'exécution qu'un LLM à usage général. La RAG est plus complexe, ce qui oblige le LLM à interroger les bases de données locales pour augmenter les réponses. Cette approche est plus couteuse.
Existe-t-il un accès à l'infrastructure de calcul et aux compétences en IA ? Le finetuning d'un LLM nécessite les deux. La RAG a besoin de ressources d'exécution et d'infrastructure de données, mais moins de compétences en IA.

Exigences des cas d'utilisation	RAG	Fine-tuning	RAFT
Les réponses doivent inclure des informations locales et à jour.	oui	non	oui
Les réponses doivent inclure un niveau élevé d'explicabilité.	oui	non	oui
Les réponses doivent refléter la connaissance approfondie du domaine d'une organisation.	oui	oui	oui
L'entreprise a accès à un réseau neuronal puissant et à des ressources GPU pour l'entraînement de l'IA.	non	oui	oui
Les réponses doivent refléter le ton et le langage marketing d'une organisation.	non	oui	oui
L'organisation dispose d'un grand ensemble de documents bien organisés et à jour à partir desquels l'IA peut s'inspirer et citer ses réponses.	oui	non	oui
Le système d'IA a accès à des ressources d'exécution limitées.	non	oui	oui
L'entreprise dispose d'un grand jeu de données et d'un magasin de documents organisés pour entraîner et affiner une IA.	oui	non	oui

Tirez le meilleur parti de l'IA générative avec Oracle Cloud Infrastructure

Que vous choisissiez la RAG, le finetuning ou les deux, Oracle se spécialise pour aider des entreprises comme la vôtre à réaliser des gains de productivité avec Oracle Cloud Infrastructure (OCI) Generative AI, un service entièrement géré qui inclut la puissance d'OCI et un choix de LLM open source ou propriétaires.

Nous facilitons la combinaison de votre LLM avec la RAG afin que vous puissiez obtenir des réponses à jour basées sur vos diverses bases de connaissances. Lorsqu'il est temps d'exécuter votre régime de finetuning, l'infrastructure Oracle AI est un excellent choix. Vous trouverez des superclusters pouvant évoluer jusqu'à 65 536 GPU, ce qui est plus que suffisant pour exécuter vos workloads d'entraînement et d'inférence les plus exigeants, tels que les réponses des LLM, la vision par ordinateur et les analyses prédictives.

Les LLM à usage général continuent de s'améliorer, avec un flux constant de nouvelles versions arrivant d'Anthropic, Cohere, Google, Meta et bien d'autres. Mais peu importe la façon dont ces modèles d'IA gèrent le langage humain, ils auront toujours besoin d'un moyen de connecter cet ensemble de compétences aux besoins spécifiques des cas d'utilisation commerciaux. Le finetuning et la RAG sont actuellement les deux meilleures méthodes pour ce faire. COUCOUCherchez-les à continuer d'évoluer à mesure que les modèles d'IA, le matériel et les architectures de données avancent.

Votre centre d'excellence en IA devrait jouer un rôle central dans le déploiement de la RAG. Vous n'avez pas de centre d'excellence ? Voici comment en avoir un dès maintenant.

Consulter l'e-book

FAQ sur la RAG ou le finetuning

La RAG est-elle meilleure que le finetuning ?

La RAG et le finetuning d'IA est différent. Chaque technique a ses avantages et engage des coûts. Les deux sont des méthodes populaires pour rendre les modèles d'IA générative plus utiles. Chaque entreprise doit choisir la méthode qui répond le mieux à ses besoins. Une autre option populaire est de combiner ces deux approches pour former ce qu'on appelle le finetuning augmenté par extraction (RAFT, en anglais).

Existe-t-il une meilleure approche que la RAG ?

La RAG est simplement une technique pour aider un LLM à fournir de meilleures réponses en référençant les données et les documents d'une entreprise. Une méthode appelée GraphRAG s'impose pour pousser encore plus loin les réponses des LLM, au-delà de ce qu'une architecture RAG offre seule. Elle ajoute toutefois de la complexité architecturale et ses cas d'usage phares restent à émerger.

Le finetuning d'un modèle d'IA est une autre méthode qui aide un LLM à fournir des réponses plus ciblées et plus nuancées ; combiné à la RAG, il améliore encore ses performances.

Peut-on utiliser la RAG et le finetuning ensemble ?

Oui. Cette approche hybride propose un modèle affiné par finetuning sur des données métier spécialisées, puis déployé dans une architecture RAG pour fournir, dans ses réponses, les informations les plus récentes et les plus pertinentes.

Quelle est la différence entre la RAG et l'apprentissage par transfert ?

La RAG améliore les réponses d'un LLM en s'appuyant sur une base de connaissances locale et à jour. L'apprentissage par transfert améliore les réponses d'un modèle d'IA généraliste en s'appuyant sur un autre modèle d'IA, déjà optimisé par finetuning pour un domaine spécifique.