Bei einer Diagrammdatenbank handelt es sich um eine spezialisierte Einzweckplattform zum Erstellen und Bearbeiten von Diagrammen. Die Diagramme enthalten Knoten, Kanten und Eigenschaften, die alle auf eine Weise zum Darstellen und Speichern von Daten verwendet werden können, wie es bei relationalen Datenbanken nicht möglich ist.
Ein weiterer üblicher Begriff ist die „Diagrammanalyse“. Dieser bezieht sich speziell auf den Prozess der Analyse von Daten in einem Diagrammformat. Dabei werden Datenpunkte als Knoten und Beziehungen als Kanten verwendet. Die Diagrammanalyse erfordert eine Datenbank, die Diagrammformate unterstützen kann – dies kann eine dedizierte Diagrammdatenbank sein oder eine konvergente Datenbank, die mehrere Datenmodelle, einschließlich Diagramme, unterstützt.
Es gibt zwei gängige Modelle von Diagrammdatenbanken: Eigenschaftsdiagramme und RDF-Diagramme Das Eigenschaftsdiagramm konzentriert sich auf Analyse und Abfrage, während das RDF-Diagramm die Datenintegration betont. Beide Diagrammtypen bestehen aus einer Sammlung von Punkten (Eckpunkten) und den Verbindungen zwischen diesen Punkten (Kanten). Es gibt aber auch Unterschiede.
Eigenschaftsdiagramme werden zum Modellieren von Beziehungen zwischen Daten verwendet und ermöglichen Abfrage- und Datenanalysen basierend auf diesen Beziehungen. Ein Eigenschaftsdiagramm enthält Eckpunkte, die detaillierte Informationen zu einem Thema enthalten können, sowie Kanten, die die Beziehung zwischen den Eckpunkten angeben. Die Eckpunkte und Kanten können Attribute haben, die als Eigenschaften bezeichnet werden und denen sie zugeordnet sind.
In diesem Beispiel werden eine Reihe von Kollegen und ihre Beziehungen als Eigenschaftsdiagramm dargestellt.
Aufgrund ihrer Vielseitigkeit werden Immobiliendiagramme in einer Vielzahl von Branchen und Sektoren verwendet, z. B. in den Bereichen Finanzen, Fertigung, öffentliche Sicherheit, Einzelhandel und vielen anderen.
RDF-Diagramme (RDF bedeutet Resource Description Framework) entsprechen einer Reihe von W3C-Standards (Worldwide Web Consortium) zur Darstellung von Anweisungen und eignen sich am besten zur Darstellung komplexer Metadaten und Stammdaten. Sie werden häufig für verknüpfte Daten, Datenintegration und Wissensdiagramme verwendet. Sie können komplexe Konzepte in einer Domäne darstellen oder eine umfassende Semantik und Rückschlüsse auf Daten bieten.
Beim RDF-Modell wird eine Anweisung durch drei Elemente dargestellt: zwei Knoten, die durch eine Kante verbunden sind, und Subjekt, Prädikat und Objekt eines Satzes repräsentieren – Dies wird als RDF-Tripel bezeichnet. Jeder Eckpunkt und jede Kante wird durch einen eindeutigen URI (Unique Resource Identifier) identifiziert. Das RDF-Modell bietet eine Möglichkeit, Daten in einem Standardformat mit genau definierter Semantik zu veröffentlichen und so den Informationsaustausch zu ermöglichen. Regierungsstatistikagenturen, Pharmaunternehmen und Gesundheitsorganisationen haben RDF-Diagramme weitgehend übernommen.
Diagramme und Diagrammdatenbanken bieten Diagrammmodelle zur Darstellung von Beziehungen in Daten. Es ermöglicht Anwendern die Ausführung von Durchquerungsabfragen basierend auf Verbindungen und wendet Diagrammalgorithmen an, um Muster, Pfade, Communities, Influencer, einzelne Fehlerquellen und andere Beziehungen zu finden, die eine effizientere Analyse im Maßstab anhand großer Datenmengen ermöglichen. Die Stärke von Diagrammen liegt in der Analyse, den Einblicken, die sie bieten, und ihrer Fähigkeit, inkompatible Datenquellen zu verknüpfen.
Bei der Analyse von Diagrammen untersuchen Algorithmen die Pfade und den Abstand zwischen den Eckpunkten, die Bedeutung der Eckpunkte und die Häufung der Eckpunkte. Um die Wichtigkeit zu bestimmen, betrachten Algorithmen z. B. häufig eingehende Kanten, die Wichtigkeit benachbarter Knoten und andere Indikatoren.
Diagrammalgorithmen sind Operationen, die speziell entwickelt wurden, um die Beziehungen und das Verhalten zwischen Diagrammdaten zu analysieren. Sie ermöglichen das Verständnis von Sachverhalten, die mit anderen Methoden schwer zu erkennen sind. Bei der Analyse von Diagrammen untersuchen Algorithmen die Pfade und den Abstand zwischen den Eckpunkten, die Bedeutung der Eckpunkte und die Häufung der Eckpunkte. Die Algorithmen betrachten oft eingehende Kanten, die Wichtigkeit von benachbarten Knoten und andere Indikatoren, um die Wichtigkeit zu bestimmen. So können Diagrammalgorithmen zum Beispiel identifizieren, welche Person oder welches Element in sozialen Netzwerken oder bei Geschäftsprozessen am meisten mit anderen verbunden ist. Die Algorithmen können Communities, Anomalien, häufige Muster und Pfade aufdecken, durch die Einzelpersonen oder verwandte Transaktionen miteinander verbunden sind.
Da Diagrammdatenbanken Beziehungen explizit speichern, können Abfragen und Algorithmen, die die Konnektivität zwischen Eckpunkten nutzen, in Sekundenbruchteilen anstatt in Stunden oder Tagen ausgeführt werden. Benutzer müssen nicht unzählige Verknüpfungen ausführen, und die Daten können einfacher für Analysen und maschinelles Lernen verwendet werden, um mehr über die Welt um uns herum zu erfahren.
Das Diagrammformat ist eine weitaus flexiblere Plattform, um entfernte Verbindungen aufzudecken oder Daten auf der Basis von Kriterien wie der Stärke oder Qualität der Beziehung zu analysieren. Mit Diagrammen können Sie Verbindungen und Muster in sozialen Netzwerken, IoT, Big Data, Data Warehouses und auch komplexen Transaktionsdaten für mehrere geschäftliche Anwendungsfälle erforschen und entdecken, z. B. zur Betrugserkennung im Bankwesen, zur Entdeckung von Verbindungen in sozialen Netzwerken und für Kunden-Übersichten. Heute werden Diagrammdatenbanken zunehmend als Teil der Datenwissenschaft eingesetzt, um Zusammenhänge in Beziehungen deutlicher zu machen.
Da Diagrammdatenbanken die Beziehungen explizit speichern, können Abfragen und Algorithmen, die die Konnektivität zwischen den Eckpunkten nutzen, in Subsekunden statt in Stunden oder Tagen ausgeführt werden. Benutzer müssen nicht unzählige Verknüpfungen ausführen, und die Daten können einfacher für Analysen und maschinelles Lernen verwendet werden, um mehr über die Welt um uns herum zu erfahren.
Diagrammdatenbanken sind ein überaus flexibles und äußerst leistungsfähiges Werkzeug. Mithilfe des Diagrammformats lassen sich komplexe Beziehungen bestimmen, sodass fundiertere Erkenntnisse mit sehr viel weniger Aufwand möglich sind. Diagrammdatenbanken führen Abfragen im Allgemeinen in Sprachen wie PGQL (Property Graph Query Language) aus. Das folgende Beispiel zeigt dieselbe Abfrage in PGQL und in SQL.
Wie im obigen Beispiel zu sehen ist, ist der PGQL-Code einfacher und weitaus effizienter. Da Diagramme die Beziehungen zwischen Daten hervorheben, lassen sich mit ihnen ideal mehrere unterschiedliche Analysearten durchführen. Insbesondere eignen sich Diagrammdatenbanken besonders gut für:
Ein einfaches Beispiel für Diagrammdatenbanken in Aktion ist das folgende Bild, das eine visuelle Darstellung des beliebten Partyspiels „Six Degrees of Kevin Bacon“ zeigt. Für Neueinsteiger bedeutet dieses Spiel, Verbindungen zwischen Kevin Bacon und einem anderen Schauspieler herzustellen, die auf einer Kette gemeinsamer Filme basieren. Diese Betonung auf den Beziehungen macht es ideal geeignet, um die Diagrammanalyse zu veranschaulichen.
Stellen Sie sich dazu einen Datensatz mit zwei Kategorien von Knoten vor: Jeder Film, der jemals gedreht wurde, und jeder Schauspieler, der in diesen Filmen mitgewirkt hat. Anschließend führen wir mithilfe eines Diagramms eine Abfrage aus, bei der Kevin Bacon mit der bekannten Muppet-Figur Miss Piggy in Beziehung gesetzt werden soll. Als Ergebnis würden wir Folgendes erhalten:
In diesem Beispiel sind die verfügbaren Knoten (Eckpunkte) sowohl Schauspieler als auch Filme und die Beziehungen (Kanten) sind der Status von „Hat mitgespielt in“. Von hier aus gibt die Abfrage die folgenden Ergebnisse aus:
Diagrammdatenbanken können für dieses Kevin Bacon-Beispiel viele verschiedene Beziehungen abfragen. Beispielsweise:
Dieses Beispiel ist natürlich unterhaltsamer als die meisten anderen Anwendungen der Diagrammanalyse. Aber dieser Ansatz funktioniert in fast allen Big-Data-Situationen, in denen eine große Anzahl von Datensätzen eine natürliche Verbindung zueinander aufweist. Zu den beliebtesten Anwendungen der Diagrammanalyse gehört das Analysieren von sozialen Netzwerken oder Kommunikationsnetzwerken, des Verkehrs und der Nutzung einer Webseite, von realen Straßendaten sowie von Finanztransaktionen und Konten.
Geldwäsche ist konzeptionell einfach. Schmutziges Geld wird herumgereicht, um es mit legitimen Geldern zu mischen, und dann in harte Vermögenswerte umgewandelt. Dies ist die Art von Prozess, die in der Panama Papers-Analyse verwendet wurde.
Genauer gesagt handelt es sich bei einer zirkulären Geldüberweisung um einen Kriminellen, der große Mengen an betrügerisch erlangtem Geld an sich selbst sendet – dies aber durch eine lange und komplexe Reihe von gültigen Überweisungen zwischen „normalen“ Konten versteckt. Diese „normalen“ Konten sind tatsächlich Konten, die mit falschen Identitäten erstellt wurden. Sie teilen normalerweise bestimmte ähnliche Informationen, da sie aus gestohlenen Identitäten (E-Mail-Adressen, Adressen usw.) generiert werden. Diese verwandten Informationen machen die Diagrammanalyse so gut geeignet, dass sie ihre betrügerischen Ursprünge aufdecken.
Um die Betrugserkennung zu vereinfachen, können Anwender ein Diagramm aus Transaktionen zwischen Entitäten sowie Entitäten erstellen, die einige Informationen gemeinsam nutzen, einschließlich E-Mail-Adressen, Kennwörtern, Adressen und mehr. Sobald ein Diagramm erstellt wurde, werden durch Ausführen einer einfachen Abfrage alle Kunden mit Konten gefunden, die ähnliche Informationen haben, und es wird angezeigt, welche Konten Geld aneinander senden.
Diagrammdatenbanken können in vielen verschiedenen Szenarien verwendet werden. Besonders häufig werden sie jedoch zur Analyse sozialer Netzwerke eingesetzt. In der Tat stellen soziale Netzwerke den idealen Anwendungsfall dar, da sie eine große Anzahl von Knoten (Nutzer-Konten) und mehrdimensionale Verbindungen (Kontakte in viele verschiedene Richtungen) beinhalten. Eine Diagrammanalyse eines sozialen Netzwerks kann beispielsweise Folgendes bestimmen:
Diese Informationen sind jedoch nutzlos, wenn sie von Bots unnatürlich verzerrt wurden. Glücklicherweise ist die Diagrammanalyse auch ein hervorragendes Mittel, um Bots zu identifizieren und herauszufiltern.
In einem realen Anwendungsfall verwendete das Team von Oracle die Oracle Marketing Cloud, um Werbewirkung und Zugkraft von sozialen Medien zu bewerten. Dabei ging es insbesondere um das Auffinden von Bot-Konten, die in täuschender Absicht Daten verzerrten. Das häufigste Verhalten dieser Bots war das Retweeten von Zielkonten, was deren Popularität künstlich erhöhte. Im Rahmen einer einfachen Musteranalyse wurde ein Blick auf die Anzahl der Retweets sowie der Dichte der Verbindungen zu Nachbarknoten geworfen. Tatsächlich beliebte Konten zeigten andere Beziehungen zu ihren Nachbarn als die Konten, die durch Bots unterstützt wurden.
Diese Abbildung zeigt tatsächlich beliebte Konten.
Und diese Abbildung stellt das Verhalten eines Bot-unterstützten Kontos dar.
Den Schlüssel stellen hier die Möglichkeiten einer Diagrammanalyse dar, ein natürliches Verhaltensmuster gegenüber dem Verhalten von Bots abzugrenzen. Anschließend lassen sich diese Konten problemlos herausfiltern. Aber es ist auch möglich, tiefergehende Untersuchungen durchzuführen, beispielsweise im Hinblick auf die Beziehung zwischen Bots und retweeteten Konten.
Soziale Mediennetzwerke tun ihr Möglichstes, um Bot-Konten zu eliminieren, da diese sich fundamental auf die gesamte Nutzererfahrung auswirken. Um zu verifizieren, ob die Bot-Erkennung auch korrekt war, wurden die markierten Konten nach einem Monat überprüft. Die Ergebnisse waren wie folgt:
Der extrem hohe Prozentsatz der sanktionierten Konten (91,2 %) verdeutlicht die Genauigkeit sowohl der Mustererkennung wie auch des Bereinigungsprozesses. Mit einer Standarddatenbank in Tabellenformat hätte dies erheblich länger gedauert. Aber die Diagrammanalyse ermöglicht es, komplexe Muster schnell zu identifizieren.
Diagrammdatenbanken sind in der Finanzbranche zu einem leistungsstarken Tool zur Aufdeckung von Betrug geworden. Trotz technologischer Fortschritte bei der Betrugsbekämpfung, wie beispielsweise die Verwendung eingebetteter Chips in Karten, kann es nach wie vor auf verschiedene Weisen zu betrügerischen Handlungen kommen. Geräte zum Ausspähen (Skimming) können Daten von Magnetstreifen stehlen – eine Technik, die häufig an Orten eingesetzt wird, an denen noch keine Chip-Lesegeräte installiert sind. Sobald diese Daten gespeichert wurden, können sie auf eine gefälschte Karte geladen werden, um mit dieser Einkäufe zu tätigen oder Geld abzuheben.
Bei der Betrugserkennung ist die Identifikation von Mustern häufig die erste Verteidigungslinie. Erwartete Kaufmuster basieren auf dem Standort, der Häufigkeit, den Arten der Läden und anderen Faktoren, die zu einem Nutzer-Profil passen. Wenn etwas völlig anomal erscheint – zum Beispiel eine Person, die sich normalerweise die meiste Zeit über in der San Francisco Bay Area aufhält und dann plötzlich spät in der Nacht in Florida einkauft –, wird dies als möglicher Betrugsversuch gekennzeichnet.
Durch Diagrammanalysen wird die dafür benötigte Rechenleistung erheblich reduziert. Die Diagrammanalyse eignet sich hervorragend, um Muster zwischen Knoten zu identifizieren. In diesem Fall werden die Knotenkategorien als Konten (Karteninhaber), Kauforte, Kaufkategorie, Transaktionen und Terminals definiert. So lassen sich natürliche Verhaltensmuster problemlos feststellen. Zum Beispiel könnte eine Person in einem bestimmten Monat:
Bei der Betrugserkennung wird üblicherweise maschinelles Lernen eingesetzt. Die Diagrammanalyse kann diese Aufgabe jedoch ergänzen, sodass dieser Prozess genauer und effizienter wird. Dank des Fokus auf den Beziehungen lassen sich mit den Ergebnissen wirksam betrügerische Datensätze erkennen und markieren. Die Daten werden so kuratiert und vorbereitet, bevor sie tatsächlich verwendet werden können.
Diagrammdatenbanken und Diagrammtechniken haben sich mit zunehmender Rechenleistung und im Rahmen von Big Data in den letzten 10 Jahren deutlich weiterentwickelt. Tatsächlich wird immer deutlicher, dass sie wohl künftig das Standardwerkzeug zur Analyse komplexer Datenbeziehungen sein werden. Da Unternehmen und Organisationen in immer höherem Ausmaß auf die Möglichkeiten von Big Data und von Analysen setzen, um auf zunehmend komplexere Weise Erkenntnisse zu gewinnen, werden Diagrammdatenbanken geradezu zu einem Muss. Nur so lassen sich die aktuellen Geschäftsanforderungen erfüllen und künftige Erfolge sichern.
Oracle macht es einfach, Diagrammtechnologien einzuführen. Oracle Database und Oracle Autonomous Database enthalten eine Diagrammdatenbank und eine Diagrammanalyse-Engine, sodass Anwender mithilfe von Diagrammalgorithmen, Musterabgleichsabfragen und Visualisierung mehr Einblicke in ihre Daten gewinnen können. Diagramme sind Teil von konvergierten Datenbanken von Oracle, die Multimodell- und Multiworkload-Anforderungen unterstützen und dabei mehrmandantenfähig sind – alles in einer einzigen Datenbank-Engine.
Obwohl alle Diagrammdatenbanken für sich in Anspruch nehmen, hochperformant zu sein, sind die Diagrammangebote von Oracle sowohl in der Abfrageleistung als auch in den Algorithmen performant und eng mit der Oracle Database integriert. Dies erleichtert Entwicklern das Hinzufügen von Diagrammanalysen zu vorhandenen Anwendungen und nutzt die Skalierbarkeit, Konsistenz, Wiederherstellung, Zugriffskontrolle und Sicherheit, die die Datenbank standardmäßig bietet.