반복 작업을 간소화하거나 완전히 자동화하려는 노력에서 AI의 도움을 청하지 않는 이유는 무엇입니까? 기초 모델을 사용하여 반복 작업을 자동화하면 매력적으로 보일 수 있지만 기밀 데이터를 위험에 빠뜨릴 수 있습니다. 검색 증강 생성(Retrieval-augmented generation)(RAG)은 미세 조정의 대안으로, 추론 데이터를 모델의 코퍼스와 분리된 상태로 유지합니다.
우리는 추론 데이터와 모델을 분리하고 싶지만, 우리가 사용하는 대규모 언어 모델(LLM)과 효율성을 위한 강력한 GPU를 선택하기를 원합니다. 당신이 단지 하나의 GPU로이 모든 것을 할 수 있다면 상상해보십시오!
이 데모에서는 단일 NVIDIA A10 GPU, LangChain, LlamaIndex, Qdrant 또는 vLLM과 같은 오픈 소스 프레임워크, Mistral AI의 가벼운 70억 매개변수 LLM을 사용하여 RAG 솔루션을 배포하는 방법을 보여드리겠습니다. 가격과 성능의 균형이 뛰어나며 필요에 따라 데이터를 업데이트하는 동안 추론 데이터를 분리합니다.