A geração aumentada de recuperação (RAG) pode ser útil para consultas diretas. Mas e se as consultas forem complexas, exigindo raciocínio em várias etapas e tomada de decisões? É quando, por exemplo, um chatbot de suporte que poderia solucionar problemas, não apenas recuperar perguntas frequentes, seria mais útil.
Nesta solução, vamos configurar um pipeline RAG multiagente e implantá-lo na Oracle Cloud Infrastructure (OCI) para responder de forma inteligente a uma consulta. Os grandes agentes do modelo de linguagem (LLM) planejam, pesquisam e raciocinam a resposta da IA; esse processo de cadeia de pensamento (CoT) emula a solução de problemas humanos. Uma interface Gradio orquestra o processamento de dados – várias fontes de dados são carregadas, ingeridas e armazenadas como vetores usando ferramentas de código aberto. O Gradio também fornece a interface de chat para inserir uma consulta de linguagem natural.
Com a visualização CoT no Gradio, você verá as etapas e decisões tomadas por cada agente para fornecer a resposta final e sintetizada. Essa solução fornece um exemplo fácil de seguir de como a IA agêntica pode aprimorar os recursos de raciocínio de modelos locais e baseados em nuvem.