Aaron Ricadela | Senior Writer | 2024년 4월 15일
대규모 언어 모델과 비정형 데이터 세트를 사용하는 유사성 검색 애플리케이션을 구축하는 AI 개발팀들은 수백만, 수십억 개에 달하는 데이터 포인트들의 특성을 빠르게 비교할 수 있도록 설계된 벡터 데이터베이스로 눈을 돌리고 있습니다.
Chroma, Pinecone, Qdrant, Weaviate, Zilliz 등의 기업들이 새롭게 선보인 전문 벡터 데이터베이스는 고차원 수학 공간에서 비정형 콘텐츠를 표현하는 벡터 임베딩 간의 관계를 비교해 데이터 세트 특성 간의 의미적 관계를 보여줍니다. 벡터 데이터베이스는 이미지 및 비디오 검색, 제품 및 스트리밍 추천, 사용자 의도 기반의 더 적합한 정보 탐색, 검색 증강 생성(RAG)을 통한 기업 독점 데이터 보강 등을 위한 AI 애플리케이션들을 지원합니다. 벡터 데이터베이스는 데이터 세트에서 근사 최근접 이웃(ANN) 매칭을 찾는 작업에 뛰어난 성능을 보입니다.
Chroma는 샌프란시스코의 스타트업 Chroma가 개발한 오픈 소스 데이터베이스로서 ANN 검색, 이미지 검색, RAG, 이커머스 추천 등의 애플리케이션 구축을 지원합니다. 개발자 노트북에서의 빠른 프로토타이핑을 위해서도, 퍼블릭 및 프라이빗 클라우드 서비스에서도 사용할 수 있는 경량 벡터 데이터베이스입니다. Chroma는 신속한 데이터 액세스를 위해 Apache Arrow 데이터 형식을 사용합니다.
개발팀은 단일 노드에서 클라이언트/서버 모드로 Chroma를 실행하고, Docker 컨테이너나 퍼블릭 클라우드의 호스팅 머신을 사용해 배포할 수 있습니다. Chroma의 관리형 서비스인 Chroma Cloud에서도 실행 가능하고, AWS, Google Cloud Platform, Microsoft Azure에 배포할 수 있습니다. Chroma는 상업적 사용이 가능한 Apache 2.0 라이선스로 제공됩니다.
개발자 친화적 데이터베이스로서 OpenAI, Google, Cohere, Hugging Face 등의 다양한 임베딩 모델을 제공합니다. LangChain, LlamaIndex, Braintrust와 Python/JavaScript 통합, Streamlit을 비롯한 AI 도구와의 Python 통합을 제공합니다. Python, JavaScript, Ruby, Java, Go, C#, Elixir, Rust 등의 다양한 언어용 클라이언트를 지원합니다.
Oracle Database 23ai의 AI Vector Search는 Chroma와 같은 스탠드얼론 벡터 데이터베이스보다 훨씬 폭넓은 고가용성 및 보안 옵션을 제공합니다. Oracle Virtual Private Database와 Oracle Label Security 기능을 활용해 사용자의 역할 또는 권한 등급에 따라 내부 데이터 액세스를 제어할 수 있습니다. Oracle Real Application Clusters를 사용하면 데이터베이스 인스턴스를 복수의 서버로 구성된 클러스터에서 실행해 내결함성을 확보하고 로드 밸런싱을 수행할 수 있습니다. Oracle Active Data Guard는 대기 데이터베이스로의 즉각적 복제를 통해 우발적 시스템 중단이 발생해도 데이터 손실을 방지합니다.
또한 Oracle Database 23ai는 관계형 컬럼에 저장된 추가 필터를 벡터 검색 전에 적용할지, 후에 적용할지 판단해 벡터 검색을 최적화할 수 있습니다. 즉, 유사성 검색 애플리케이션이 상위 K개 결과를 반환할 때, Oracle Database가 데이터의 관계형 속성에 기반하여 벡터 검색 이전, 실행 중, 실행 이후 중 어느 시점에 검색 결과를 더욱 좁힐지 판단할 수 있습니다.
AI의 데이터 접근성을 향상시켜 결과를 개선하고 사용 방법을 단순화하는 방법을 살펴보세요.
Chroma란 무엇이고 어떻게 작동하나요?
Chroma는 벡터 임베딩 공간의 유사성 검색에 기반한 애플리케이션을 구축할 수 있는 경량 벡터 데이터베이스입니다. 유사성 검색용 벡터 인덱스 제공 비용을 낮추기 위한 객체 저장소 계층이 포함되어 있습니다.
Chroma와 다른 벡터 데이터베이스들과의 차이점은 무엇인가요?
Chroma 데이터베이스는 소규모 프로젝트 진행에 특화되어 대규모 하드웨어 투자 없이 개발자의 노트북에 설치해 빠르게 프로토타이핑할 수 있습니다. 또한 다양한 개발 언어 및 AI 도구를 폭넓게 지원합니다.
Chroma는 정형 데이터와 비정형 데이터를 모두 처리할 수 있나요?
Chroma는 구조화된 관계형 데이터의 처리가 아닌 벡터 임베딩의 저장 및 검색을 위해 설계되었습니다.
Chroma는 오픈 소스인가요?
네. Chroma는 사용자가 자체 제품에 코드를 재배포할 수 있는 오픈 소스 Apache 2.0 라이선스로 제공됩니다.