Dans le but de rationaliser les tâches répétitives ou de les automatiser entièrement, pourquoi ne pas faire appel à l'IA ? L'utilisation d'un modèle de base pour automatiser les tâches répétitives peut sembler attrayante, mais elle peut mettre en danger les données confidentielles. La génération augmentée par extraction (RAG) est une alternative au réglage fin, en conservant les données d'inférence isolées du corpus d'un modèle.
Nous voulons séparer nos données d'inférence et notre modèle, mais nous voulons également choisir le modèle de langage de grande taille (LLM) que nous utilisons et un GPU puissant pour l'efficacité. Imaginez si vous pouviez faire tout cela avec un seul GPU !
Dans cette démonstration, nous allons montrer comment déployer une solution RAG à l'aide d'un seul GPU NVIDIA A10, d'un framework open source tel que LangChain, LlamaIndex, Qdrant ou vLLM et d'un LLM léger de 7 milliards de paramètres de Mistral AI. C'est un excellent équilibre entre prix et performances et maintient les données d'inférence séparées tout en mettant à jour les données selon les besoins.