Jeffrey Erickson | Senior Writer | 21 novembre 2024
Les grands modèles de langage (LLM) à usage général sont devenus populaires auprès du public parce qu'ils peuvent discuter d'une grande variété de sujets et rédiger des conclusions de recherches scientifiques, des notes de remerciement et réaliser de nombreuses autres tâches. Dans le monde des affaires, cependant, ces sorties génériques ont une utilité limitée. Un LLM qui devrait fournir une assistance technique pour un gadget particulier, par exemple, doit s'appuyer sur des connaissances propres à un domaine.
Il existe actuellement deux façons d'aider les modèles d'IA générative à fournir des réponses qui reflètent ce type d'expertise : le finetuning et la génération augmentée de récupération (RAG). Chacun d'entre eux présente des avantages et des difficultés. Examinons ces options plus en détail pour comprendre comment elles fonctionnent et quand les utiliser.
Points à retenir
La RAG, courte pour la génération augmentée par extraction, est un cadre architectural développé par des chercheurs de Meta pour aider les modèles d'IA à usage général à fournir des résultats pertinents et utiles aux entreprises. Pour ce faire, la RAG donne à un grand modèle de langage, ou LLM, un accès à une base de connaissances interne qu'elle peut utiliser pour enrichir ses données d'entraînement d'origine. Le résultat est un système d'IA qui combine la fluidité linguistique d'un LLM avec des données locales pour fournir des réponses ciblées et adaptées au contexte. Cette approche, contrairement au finetuning du modèle d'IA, fonctionne sans modifier le modèle sous-jacent lui-même.
La RAG s'avère pertinente lorsqu'il est important que les réponses d'IA générative fournissent des données à jour ou spécifiques à l'entreprise qui ne faisaient pas partie de l'entraînement du LLM. Par exemple, si une entreprise dispose d'un grand corpus d'informations fiables sur ses produits ou ses opérations quotidiennes, une architecture RAG fournira ces données pour augmenter les invites et les réponses qui passent par le LLM, ce qui rend les sorties plus utiles, vérifiables et précises. Cela peut améliorer l'automatisation du service d'assistance, les contrôles de disponibilité des produits dans le retail ou même les soins de santé, car les notes des médecins peuvent être rapidement mises à la disposition des patients ou d'autres cliniciens.
La RAG présente généralement les avantages suivants : une extraction de données meilleure et plus complète, un support client amélioré et la possibilité de générer du contenu personnalisé. En complétant les LLM avec des informations actuelles, les entreprises peuvent déployer des agents d'IA pour fournir des réponses en temps réel et contextuellement pertinentes aux requêtes des utilisateurs, ce qui réduit le besoin d'intervention humaine. La polyvalence de la RAG lui permet de s'adapter à un large éventail d'applications, y compris les suivantes :
Finetuner un modèle d'IA générative signifie prendre un modèle à usage général, tel que Claude 2 d'Anthropic, Command de Cohere ou Llama 2 de Meta, et réaliser des cycles d'entraînement supplémentaires sur un jeu de données plus petit et spécifique au domaine afin d'ajuster les paramètres du modèle en fonction de cet entraînement. Ce réglage aide le modèle à mieux effectuer des tâches spécifiques car il a été adapté aux nuances et à la terminologie d'un domaine particulier, tel que le codage ou les soins de santé.
Choisissez le finetuning lorsqu'un LLM doit être expert dans un domaine particulier. Grâce à l'entraînement supplémentaire, un LLM peut mieux comprendre les invites et fournir des résultats qui reflètent les nuances et la terminologie d'un domaine particulier. Vous aurez besoin d'accéder à un grand jeu de données ou à un magasin de documents organisés pour le processus de formation, mais le finetuning en vaut la peine car il permet un meilleur contrôle sur le style, le ton et la manière du contenu généré. Cela peut s'avérer payant pour vos contenus marketing ou vos interactions avec les clients. Le finetuning, comme la RAG, peut également être utile en médecine, en codage et dans d'autres domaines hautement spécialisés.
Le finetuning, processus d'adaptation d'un modèle général d'IA à une tâche ou un domaine spécifique, est une technique puissante qui peut améliorer considérablement les résultats pour un éventail d'organisations, en particulier dans les cas où la personnalisation et la spécialisation sont essentielles. Voici quelques cas d'utilisation courants où il peut être particulièrement efficace :
Le finetuning et la RAG rendent les LLM à usage général plus utiles, mais ils le font de différentes manières. Une analogie simple est que le finetuning d'un LLM lui donne une compréhension plus approfondie d'un domaine particulier, tel que la médecine ou l'éducation, tandis que le couplage du LLM avec une architecture RAG lui donne accès à des données locales à jour pour ses réponses.
Pourquoi ne pas les utiliser ensemble pour obtenir des réponses à la fois nuancées et opportunes ? C'est une tendance croissante, connue sous l'accronyme de RAFT (retrieval-augmented fine-tuning). Avec cette approche hybride, un modèle finetuné sur des données de domaine spécialisées est ensuite déployé dans une architecture RAG, où il utilise son expertise de domaine pour récupérer les informations les plus pertinentes lors de la génération de réponse. Le résultat est des résultats très précis, pertinents et contextuels.
Nous discuterons plus en détail du RAFT, mais commençons par mieux comprendre les deux approches.
La RAG et le finetuning aident un LLM à dépasser les réponses génériques tirées de ses jeux de données d'entraînement généralisés d'origine. Le finetuning consiste à placer un LLM dans des cycles d'entraînement supplémentaires à l'aide d'jeux de données spécifiques à un domaine ou à une organisation spécifique.
La RAG modifie également les réponses des LLM, mais elle ne modifie pas le modèle sous-jacent. Au lieu de cela, un système RAG utilise une base de données locale ou un ensemble organisé de documents pour informer les réponses d'un LLM, souvent avec des détails à la minute près.
Les limites et les avantages de ces deux approches ont naturellement conduit à une tendance croissante à combiner leurs forces. Le résultat est l'approche hybride appelée RAFT.
Le choix entre l'utilisation d'une architecture RAG ou d'un régime de finetuning dépend des ressources dont vous disposez et de la façon dont vous utiliserez votre LLM. Comme indiqué dans le tableau ci-dessous, la plupart des cas d'utilisation bénéficieront de l'effort de combiner les deux approches. Pour la plupart des entreprises, une fois qu'elles auront fait l'effort de finetuner un modèle, la RAG est un ajout naturel. Mais voici six questions à poser pour déterminer lesquelles établir des priorités :
| Exigences des cas d'utilisation | RAG | Fine-tuning | RAFT |
|---|---|---|---|
| Les réponses doivent inclure des informations locales et à jour. | oui |
non |
oui |
| Les réponses doivent inclure un niveau élevé d'explicabilité. | oui |
non |
oui |
| Les réponses doivent refléter la connaissance approfondie du domaine d'une organisation. | oui |
oui |
oui |
| L'entreprise a accès à un réseau neuronal puissant et à des ressources GPU pour l'entraînement de l'IA. | non |
oui |
oui |
| Les réponses doivent refléter le ton et le langage marketing d'une organisation. | non |
oui |
oui |
| L'organisation dispose d'un grand ensemble de documents bien organisés et à jour à partir desquels l'IA peut s'inspirer et citer ses réponses. | oui |
non |
oui |
| Le système d'IA a accès à des ressources d'exécution limitées. | non |
oui |
oui |
| L'entreprise dispose d'un grand jeu de données et d'un magasin de documents organisés pour entraîner et affiner une IA. | oui |
non |
oui |
Que vous choisissiez la RAG, le finetuning ou les deux, Oracle se spécialise pour aider des entreprises comme la vôtre à réaliser des gains de productivité avec Oracle Cloud Infrastructure (OCI) Generative AI, un service entièrement géré qui inclut la puissance d'OCI et un choix de LLM open source ou propriétaires.
Nous facilitons la combinaison de votre LLM avec la RAG afin que vous puissiez obtenir des réponses à jour basées sur vos diverses bases de connaissances. Lorsqu'il est temps d'exécuter votre régime de finetuning, l'infrastructure Oracle AI est un excellent choix. Vous trouverez des superclusters pouvant évoluer jusqu'à 65 536 GPU, ce qui est plus que suffisant pour exécuter vos workloads d'entraînement et d'inférence les plus exigeants, tels que les réponses des LLM, la vision par ordinateur et les analyses prédictives.
Les LLM à usage général continuent de s'améliorer, avec un flux constant de nouvelles versions arrivant d'Anthropic, Cohere, Google, Meta et bien d'autres. Mais peu importe la façon dont ces modèles d'IA gèrent le langage humain, ils auront toujours besoin d'un moyen de connecter cet ensemble de compétences aux besoins spécifiques des cas d'utilisation commerciaux. Le finetuning et la RAG sont actuellement les deux meilleures méthodes pour ce faire. COUCOUCherchez-les à continuer d'évoluer à mesure que les modèles d'IA, le matériel et les architectures de données avancent.
Votre centre d'excellence en IA devrait jouer un rôle central dans le déploiement de la RAG. Vous n'avez pas de centre d'excellence ? Voici comment en avoir un dès maintenant.
La RAG est-elle meilleure que le finetuning ?
La RAG et le finetuning d'IA est différent. Chaque technique a ses avantages et engage des coûts. Les deux sont des méthodes populaires pour rendre les modèles d'IA générative plus utiles. Chaque entreprise doit choisir la méthode qui répond le mieux à ses besoins. Une autre option populaire est de combiner ces deux approches pour former ce qu'on appelle le finetuning augmenté par extraction (RAFT, en anglais).
Existe-t-il une meilleure approche que la RAG ?
La RAG est simplement une technique pour aider un LLM à fournir de meilleures réponses en référençant les données et les documents d'une entreprise. Une méthode appelée GraphRAG s'impose pour pousser encore plus loin les réponses des LLM, au-delà de ce qu'une architecture RAG offre seule. Elle ajoute toutefois de la complexité architecturale et ses cas d'usage phares restent à émerger.
Le finetuning d'un modèle d'IA est une autre méthode qui aide un LLM à fournir des réponses plus ciblées et plus nuancées ; combiné à la RAG, il améliore encore ses performances.
Peut-on utiliser la RAG et le finetuning ensemble ?
Oui. Cette approche hybride propose un modèle affiné par finetuning sur des données métier spécialisées, puis déployé dans une architecture RAG pour fournir, dans ses réponses, les informations les plus récentes et les plus pertinentes.
Quelle est la différence entre la RAG et l'apprentissage par transfert ?
La RAG améliore les réponses d'un LLM en s'appuyant sur une base de connaissances locale et à jour. L'apprentissage par transfert améliore les réponses d'un modèle d'IA généraliste en s'appuyant sur un autre modèle d'IA, déjà optimisé par finetuning pour un domaine spécifique.
