Aaron Ricadela | Senior Writer | 18. März 2025
So wie generative KI die Art und Weise verändert, wie Menschen mit Computern interagieren, stellt sie auch neue Anforderungen an die Datenbanken, die die Informationen speichern und abrufen, auf denen die Antworten dieser Systeme basieren. Vektordatenbanken, die für Entwickler entwickelt wurden, die mit sehr großen unstrukturierten oder halbstrukturierten Datensätzen arbeiten, speichern die sogenannten „Embeddings“ – also die Positionen im mathematischen Raum potenziell Milliarden von Vektoren, die aus den Rohdaten berechnet werden. Diese Datenbanken können Antworten liefern, die das Wissen von KI-Modellen erweitern, indem sie Beziehungen zwischen Vektoren in kürzester Zeit berechnen.
Im Gegensatz zu herkömmlichen Datenbanken, die auf exakte Abfrageergebnisse spezialisiert sind, stellen Vektordatenbanken – wie Weaviate (sowie Milvus, Pinecone, Chroma und Qdrant) – Ähnlichkeiten zwischen gespeicherten Objekten über deren Abstand zueinander in einem mehrdimensionalen Vektorraum dar. Dadurch können sie verwandte Informationen schnell finden und Ergebnisse auf Basis dessen liefern, was Modelle als die beabsichtigte Bedeutung einer Anfrage interpretieren – selbst wenn diese nur annähernd und nicht exakt übereinstimmt.
Das macht Weaviate und andere Vektordatenbanken zu leistungsstarken Tools für die Verarbeitung natürlicher Sprache, wie z. B. für Produktempfehlungen im E-Commerce und bei Streamingdiensten, semantische oder Ähnlichkeitssuchen, Betrugserkennung und Retrieval-Augmented Generation (RAG).
Weaviate, im Besitz des gleichnamigen niederländischen Start-ups, ist eine spezialisierte Vektordatenbank, die sich durch extrem schnelle Suchvorgänge über Milliarden von Vektoren auszeichnet. Ihre Sucharchitektur nutzt Datenbank-Sharding – eine Technik, bei der Informationen über viele Server verteilt werden –, um Skalierbarkeit und Leistung zu erhöhen.
Weaviate verwendet je nach Datensatzgröße unterschiedliche Indexarten zur Leistungsoptimierung. Der Flat-Index speichert Vektorpositionen und eignet sich für kleinere Datensätze. Der HNSW-Index (Hierarchical Navigable Small World) benötigt zwar mehr Zeit beim Aufbau, ist jedoch besser für große Datensätze geeignet.
Zur Steigerung der Entwicklerproduktivität bietet Weaviate eine Vielzahl von Tools und Schnittstellen, darunter Client-Bibliotheken für Python, JavaScript, Go und Java sowie eine API für die Abfragesprache GraphQL. Die Datenbank wird unter der Open-Source-Lizenz BSD-3-Clause bereitgestellt. Ihre besondere Stärke liegt in der „Approximate Nearest Neighbor“ (ANN)-Suche, deren Ergebnisse generative KI-Abfragen verbessern.
Kunden können Weaviate auf eigenen Servern, in einer Public Cloud im serverlosen Modell oder über den Managed Cloud Service des Unternehmens mit dedizierter Hardware betreiben.
Oracle Database 23ai bietet ebenfalls eine KI-gestützte Vektorsuche, mit der sich – ähnlich wie bei Weaviate – Vektoren speichern und durchsuchen lassen, und das mit Antwortzeiten im Millisekundenbereich. Im Gegensatz zu einer spezialisierten Vektordatenbank können Entwicklungsteams mit Oracle Database 23ai jedoch neben Vektoren auch relationale, Graph-, Raum-, JSON- und IoT-Daten speichern und durchsuchen. Damit entfällt für IT-Teams die Verwaltung mehrerer Datenbanken und Datenkopien – was die Komplexität deutlich reduziert.
Während Weaviate Clustering zur Verbesserung der Datenbankverfügbarkeit unterstützt, bietet Oracle Database 23ai ein deutlich breiteres Spektrum an Hochverfügbarkeitsoptionen. Dazu gehören Oracle Real Application Clusters, die es ermöglichen, Datenbankinstanzen auf verschiedenen Servern auszuführen, um Ausfallsicherheit und Lastverteilung zu gewährleisten, Oracle Active Data Guard für die sofortige Replikation auf eine Standby-Datenbank, damit bei ungeplanten Ausfällen keine Daten verloren gehen, sowie Oracle GoldenGate zur Sicherstellung der Datenkonsistenz über mehrere Standorte hinweg. Für eine höhere Skalierbarkeit unterstützt Oracle Globally Distributed Database Sharding für Vektorsuchen, das Routing von Abfragen sowie Update-, Insert- und Delete-Operationen auf die einzelnen Shards.
Spezialisierte Vektordatenbanken arbeiten oft mit periodischen Batch-Updates bei sich schnell ändernden Daten, was zu Inkonsistenzen führen kann. Mit Oracle Database 23ai bleiben dagegen die RAG-Pipeline und die zugrunde liegenden Datenquellen jederzeit synchron. Bei Abfragen wandelt Oracle Autonomous Database Select AI natürliche Sprachbefehle mithilfe von LLMs von Anthropic, Cohere, Google, Meta, Microsoft und OpenAI automatisch in SQL-Befehle um. Zudem ermöglicht Oracle Database 23ai die Nutzung externer KI-Services großer Cloud-Anbieter – darunter Googles Gemini-Modelle, Microsoft Azure AI-Services und die LLMs von OpenAI – mit den im Oracle System gespeicherten Unternehmensdaten.
Erfahren Sie, wie die Vektorsuche von Oracle Database 23ai mit Ihrer Anwendung funktioniert.
Wie funktioniert bei Weaviate die semantische und vektorbasierte Suche?
Die Weaviate-Datenbank ermöglicht Suchvorgänge mit niedriger Latenz über Vektor-Embeddings, die aus unstrukturierten Daten erzeugt werden – geeignet für zahlreiche Anwendungen. Dazu gehören Empfehlungssysteme und RAG sowie hybride Suchverfahren, die das semantische Verständnis von Zusammenhängen zwischen Text, Bildern, Audio und Video mit herkömmlicher Stichwortsuche kombinieren.
Was ist der Unterschied zwischen Pinecone und Weaviate?
Weaviate wird unter der BSD-3-Clause-Lizenz bereitgestellt und kann sowohl On-Premises als auch in einer Public Cloud betrieben werden. Pinecone hingegen basiert auf einer proprietären Lizenz und läuft in der Cloud (sowie über eine Anbindung an eine private AWS-Cloud). Während Pinecone eine breite Palette an Datentypen unterstützt, lässt sich Weaviate dank seiner Open-Source-Lizenz individuell anpassen.
Kann Weaviate mit NLP-Modellen verwendet werden?
Ja, Weaviate ermöglicht es Anwendern, eigene Natural-Language-Processing-Modelle zu betreiben und zu skalieren – zusätzlich zu den Modellen, die standardmäßig mit der Software ausgeliefert werden.
Was unterscheidet Weaviate von anderen Vektordatenbanken?
Weaviate richtet sich gezielt an Entwickler und bietet Unterstützung für verschiedene Programmiersprachen und KI-Tools. Die Architektur ist auf horizontale Skalierbarkeit durch Datensharding ausgelegt.