Solution IA

Automatiser les tâches en toute sécurité avec RAG et un choix de LLM

Introduction

Dans le but de rationaliser les tâches répétitives ou de les automatiser entièrement, pourquoi ne pas faire appel à l'IA ? L'utilisation d'un modèle de base pour automatiser les tâches répétitives peut sembler attrayante, mais elle peut mettre en danger les données confidentielles. La génération augmentée par extraction (RAG) est une alternative au réglage fin, en conservant les données d'inférence isolées du corpus d'un modèle.

Nous voulons séparer nos données d'inférence et notre modèle, mais nous voulons également choisir le modèle de langage de grande taille (LLM) que nous utilisons et un GPU puissant pour l'efficacité. Imaginez si vous pouviez faire tout cela avec un seul GPU !

Dans cette démonstration, nous allons montrer comment déployer une solution RAG à l'aide d'un seul GPU NVIDIA A10, d'un framework open source tel que LangChain, LlamaIndex, Qdrant ou vLLM et d'un LLM léger de 7 milliards de paramètres de Mistral AI. C'est un excellent équilibre entre prix et performances et maintient les données d'inférence séparées tout en mettant à jour les données selon les besoins.

Démonstration

Démonstration : Automatiser les tâches en toute sécurité avec RAG et un choix de LLM (1:15)

Prérequis et configuration

  1. Compte Oracle Cloud - Page d'inscription
  2. Instance de calcul de GPU Oracle - documentation
  3. LlamaIndex-Documentation
  4. LangChain-Documentation
  5. vLLM-Documentation
  6. Qdrant-Documentation