為了簡化重複性工作或完全自動化,為什麼不列入 AI 的協助?使用基礎模型來自動化重複性工作可能相當吸引人,但可能會讓機密資料面臨風險。擷取擴增產生 (RAG) 是微調的替代方案,讓推論資料與模型的核心隔離。
我們希望保留推論資料和模型分開,但我們也希望選擇我們使用的大型語言模型 (LLM) 和強大的 GPU 以提高效率。想像一下,只要使用一個 GPU 就能做到這一切!
在這個示範中,我們將說明如何使用單一 NVIDIA A10 GPU 部署 RAG 解決方案;開放原始碼架構,例如 LangChain、LlamaIndex、Qdrant 或 vLLM;以及來自 Mistral AI 的輕型 7 億參數 LLM。這是價格與效能的絕佳平衡,並視需要保留推論資料,同時更新資料。