Aaron Ricadela | Senior Writer | 2025년 3월 18일
생성형 AI가 인간과 컴퓨터의 상호작용을 바꾸어 놓으면서, 생성형 AI의 답변의 기반이 되는 데이터를 저장 및 검색하는 데이터베이스와 관련된 새로운 수요가 발생하고 있습니다. 벡터 데이터베이스는 방대한 비정형 또는 반정형 데이터셋을 다루는 개발자를 위해 설계되었으며, 원시 데이터로부터 계산된 수십억 개 벡터의 임베딩(수학적 공간상의 위치)을 저장합니다. 벡터 데이터베이스는 벡터 간의 관계를 신속히 계산해 AI 모델의 지식을 보강해 주는 결과값을 제공합니다.
쿼리와 정확히 일치하는 검색에 강한 전통적 데이터베이스와 달리, Weaviate(및 Milvus, Pinecone, Chroma, Qdrant 등)와 같은 벡터 데이터베이스는 다차원 벡터 공간에서의 객체 간의 거리로 유사성을 표현합니다. 쿼리와 정확히 일치하는 값이 아니어도 의미상으로 가까운 정보를 신속히 찾아냄으로써 모델이 사용자의 의도를 추정하고 그에 부합하는 답을 반환할 수 있도록 지원합니다.
따라서 Weaviate를 비롯한 벡터 데이터베이스는 전자상거래 및 스트리밍 서비스의 추천 기능, 시맨틱 또는 유사성 검색, 이상 탐지, 검색 증강 생성(RAG) 등의 사용 사례를 지원하는 강력한 자연어 처리 도구 역할을 수행합니다.
Weaviate는 네덜란드의 스타트업 Weaviate가 개발한 제품으로서 수십억 개에 달하는 벡터를 빠르게 검색할 수 있는 특수한 벡터 데이터베이스입니다. Weaviate의 검색 아키텍처는 데이터를 여러 서버로 분산하는 데이터베이스 샤딩 기법을 사용해 확장성과 성능을 향상시킵니다.
Weaviate는 데이터세트의 크기에 따라 다양한 인덱스를 사용해 성능을 향상시킵니다. Weaviate의 플랫 인덱스는 벡터 위치를 저장하는 데 사용되고 소규모 데이터에 적합합니다. HNSW(hierarchical navigable small world) 인덱스는 구축 속도는 느리지만 대규모 데이터에 더 적합합니다.
Weaviate는 Python, JavaScript, Go, Java 클라이언트 라이브러리와 GraphQL 쿼리 언어 API 등의 다양한 도구 및 인터페이스를 제공해 개발자 생산성 향상에 집중합니다. Weaviate 데이터베이스는 BSD-3-Clause 오픈소스 라이선스로 배포됩니다. Weaviate의 장점은 생성형 AI 쿼리 결과를 향상시켜주는 근사 최근접 이웃(ANN) 검색입니다.
고객사는 보유 중인 컴퓨터, 서버리스 모델의 퍼블릭 클라우드 서비스, 또는 전용 하드웨어를 제공하는 기업의 관리형 클라우드 서비스 등을 통해 Weaviate를 사용할 수 있습니다.
Oracle Database 23ai에도 Weaviate처럼 벡터를 저장 및 검색하고, 1초 미만의 응답 시간을 지원하는 AI 벡터 검색 기능이 포함되어 있습니다. 그러나 단일 목적의 벡터 데이터베이스 대신 Oracle Database 23ai를 사용하는 개발팀은 관계형, 그래프, 공간, JSON, IoT 데이터 등을 벡터 데이터와 함께 저장 및 검색할 수 있습니다. Oracle 데이터베이스를 사용하면 여러 DB와 데이터 복제본을 관리할 필요가 줄어들고 복잡성이 낮아집니다.
Weaviate가 가용성 향상을 위한 클러스터링을 지원하는 반면, Oracle Database 23ai 는 내결함성 및 로드 밸런싱을 위해 데이터베이스 인스턴스를 별도의 서버에서 구동하는 Oracle Real Application Clusters, 대기 데이터베이스로의 즉각적인 복제를 통해 계획되지 않은 가동 중단 시 데이터 손실 방지를 지원하는 Active Data Guard, 여러 사이트 간 데이터 일관성을 보장하는 GoldenGate 등의 더 폭넓은 고가용성 옵션들을 제공합니다. 확장성 측면에서 Oracle Globally Distributed Database는 벡터 검색, 쿼리 라우팅, 갱신/삽입/삭제 작업 등을 샤드에 분산하는 샤딩을 지원합니다.
전용 벡터 데이터베이스는 빠르게 변하는 데이터의 주기적인 배치 업데이트를 사용하므로 데이터 일관성 문제가 생길 수 있습니다. 반면 Oracle Database 23ai에서는 RAG 파이프라인과 기반 데이터 소스가 지속적으로 동기화됩니다. 쿼리 측면에서 Oracle Autonomous Database Select AI는 Anthropic, Cohere, Google, Meta, Microsoft, OpenAI 등의 LLM을 활용해 자연어를 SQL로 변환합니다. 또한 Oracle Database 23ai는 Google의 Gemini 모델, Microsoft의 Azure AI 서비스, OpenAI의 LLM 등 다른 대형 클라우드 공급업체들의 AI 서비스 역시 Oracle에 저장된 엔터프라이즈 데이터와 함께 활용할 수 있도록 지원합니다.
Oracle Database 23ai의 벡터 검색이 귀사의 애플리케이션과 연동되는 방식을 확인해 보세요.
Weaviate는 시맨틱 및 벡터 검색을 어떻게 처리하나요?
Weaviate는 비정형 데이터에서 생성된 벡터 임베딩의 저지연 검색을 지원함으로써 다양한 애플리케이션에 활용되고 있습니다. 추천 엔진 및 RAG는 물론, 텍스트, 이미지, 오디오, 비디오 간의 관계에 대한 시맨틱 이해와 키워드 검색을 결합한 하이브리드 검색도 지원합니다.
Pinecone과 Weaviate의 차이점은 무엇인가요?
Weaviate는 BSD-3-Clause 라이선스로 배포되며 온프레미스 또는 퍼블릭 클라우드에서 실행됩니다. Pinecone은 상용 라이선스로 배포되며 클라우드(및 AWS 프라이빗 클라우드로의 링크)를 통해 실행됩니다. Pinecone은 다양한 데이터 유형을 폭넓게 지원하고, Weaviate는 오픈소스 라이선스이므로 커스터마이징이 용이합니다.
Weaviate를 NLP 모델과 함께 사용할 수 있나요?
예. Weaviate의 기본 제공 모델 외에도 사용자의 자체 자연어 처리 모델을 실행 및 확장할 수 있습니다.
Weaviate가 다른 벡터 데이터베이스와 차별화되는 점은 무엇인가요?
Weaviate는 다양한 언어 및 AI 도구를 지원해 개발자들이 자사 제품을 사용하도록 유인하고 있습니다. Weaviate의 아키텍처는 샤딩 기반 수평 확장을 지원합니다.