Was ist der Unterschied zwischen strukturierten und unstrukturierten Daten - und warum ist das wichtig? Für viele Unternehmen und Organisationen haben derartige Unterscheidungen möglicherweise das Gefühl, dass sie ausschließlich der IT-Abteilung angehören, die sich mit Big Data beschäftigt.
Obwohl es eine gewisse Wahrheit gibt, lohnt es sich für alle, den Unterschied zu verstehen, denn sobald Sie die Definition von strukturierten Daten und unstrukturierten Daten (zusammen mit dem Ort, an dem diese Daten leben und wie sie verarbeitet werden), werden Sie sehen, wie dies zur Verbesserung jedes datengesteuerten Prozesses verwendet werden kann.
Vertrieb, Marketing, Betrieb, Personalwesen - all diese Gruppen erzeugen Daten. Selbst die kleinsten Kleinunternehmen, wie z. B. ein Ladengeschäft mit physischem Bestand und einem lokalen Kundenstamm, erstellen strukturierte und unstrukturierte Daten aus E-Mails, Kreditkartentransaktionen, Bestandskäufen und Social Media. Die Nutzung der von Ihrem Unternehmen erstellten Daten erfolgt durch Verständnis der beiden und der Zusammenarbeit.
Strukturierte Daten sind Daten, die ein vordefiniertes und erwartetes Format verwenden. Dies kann aus vielen verschiedenen Quellen kommen, aber der häufigste Faktor ist, dass die Felder fixiert sind, ebenso wie die Art und Weise, wie sie gespeichert werden (dann, strukturiert). Dieses vordefinierte Datenmodell ermöglicht die einfache Eingabe, Abfrage und Analyse.
Betrachten Sie beispielsweise Transaktionsdaten aus einem Onlinekauf. In diesen Daten verfügt jeder Datensatz über einen Zeitstempel, einen Kaufbetrag, zugeordnete Kontoinformationen (oder ein Gastkonto), gekaufte Artikel, Zahlungsinformationen und eine Bestätigungsnummer. Da jedes Feld einen definierten Zweck hat, können Sie diese Daten problemlos manuell abfragen (entspricht der Eingabe von STRG+F in einer Excel-Tabelle). Es ist auch für Algorithmen des maschinellen Lernens einfach, Muster zu identifizieren - und in vielen Fällen Anomalien außerhalb dieser Muster zu identifizieren.
Strukturierte Daten führen einen Drilldown zu festgelegten und erwarteten Elementen durch. Zeitstempel kommen in einem definierten Format an; sie werden keinen Zeitstempel übertragen, der in Worten beschrieben ist, weil er außerhalb der Struktur liegt. Ein vordefiniertes Format ermöglicht eine einfache Skalierbarkeit und Verarbeitung, auch wenn es schließlich manuell bearbeitet wird.
Strukturierte Daten können beliebig verwendet werden, solange die Quelle die Struktur definiert. Zu den häufigsten Verwendungszwecken im Unternehmen gehören CRM-Formulare, Online-Transaktionen, Aktiendaten, Unternehmensnetzwerküberwachungsdaten und Websiteformulare.
Wie strukturierte Daten definiert werden, fehlt bei unstrukturierten Daten die Definition. Anstatt vordefinierte Felder in einem zielgerichteten Format zu verwenden, können unstrukturierte Daten in allen Ausprägungen und Größen vorliegen. Obwohl in der Regel Text (wie ein offenes Textfeld in einem Formular) enthält, können unstrukturierte Daten in vielen Formen als Objekte gespeichert werden: Bilder, Audio, Video, Dokumentdateien und andere Dateiformate. Der gemeinsame Thread mit allen unstrukturierten Daten ist nicht definiert.
Unstrukturierte Daten sind häufiger verfügbar (siehe unten), und Felder haben möglicherweise nicht dieselben Zeichen- oder Speicherplatzbegrenzungen wie strukturierte Daten. Angesichts der Vielzahl von Formaten, die unstrukturierte Daten umfassen, ist es nicht verwunderlich, dass dieser Typ typischerweise etwa 80% der Daten eines Unternehmens ausmacht.
Mediendateien sind ein Beispiel für unstrukturierte Daten. Etwas wie ein Podcast hat keine Struktur für seinen Inhalt. Die Suche nach der Datei MP3 des Podcasts ist standardmäßig nicht einfach. Metadaten wie Dateiname, Zeitstempel und manuell zugewiesene Tags können die Suche unterstützen, aber die Audiodatei selbst hat keinen Kontext ohne weitere Analyse oder Beziehungen.
Dies gilt auch für Videodateien. Video-Assets sind heutzutage überall, von kurzen Clips in sozialen Medien bis hin zu größeren Dateien, die vollständige Webinare oder Diskussionen zeigen. Wie bei Podcast-Dateien MP3 fehlen auch Inhalte dieser Daten außerhalb der Metadaten. Sie können einfach keine bestimmte Videodatei basierend auf ihrem tatsächlichen Inhalt in der Datenbank suchen.
In der heutigen datengesteuerten Geschäftswelt ist die Verwendung sowohl strukturierter als auch unstrukturierter Daten eine gute Möglichkeit, Erkenntnisse zu gewinnen. Gehen wir zurück zum Beispiel der Social Media-Posts eines Unternehmens, insbesondere Posts mit einer Form von Medienanhang. Wie kann ein Unternehmen Einblicke in das Marketing-Engagement gewinnen?
Verwenden Sie zunächst strukturierte Daten, um Social-Media-Posts nach dem höchsten Engagement zu sortieren, und filtern Sie dann Hashtags, die nicht mit dem Marketing zusammenhängen (z.B. Entfernen von Posts mit hohem Engagement mit einem Hashtag im Zusammenhang mit dem Kundenservice). Von dort aus können die zugehörigen unstrukturierten Daten - die tatsächlichen Social Media-Postinhalte - auf Messaging, Medien, Ton und andere Elemente untersucht werden, die einen Einblick darüber geben können, warum der Post Engagement generiert hat.
Das mag klingen, als ob eine Menge manuelle Arbeit involviert ist, und das war vor einigen Jahren wahr. Fortschritte im Bereich maschinelles Lernen und künstliche Intelligenz ermöglichen jedoch ein hohes Maß an Automatisierung. Beispiel: Wenn Audiodateien in natürlicher Sprache verarbeitet werden, um eine Ausgabe von Sprache zu Text zu erstellen, kann der Text auf Schlüsselwortmuster oder positive/negative Nachrichten analysiert werden. Diese Erkenntnisse werden dank hochmoderner Tools beschleunigt, die aufgrund der Tatsache, dass Big Data größer wird und der Großteil dieser Big Data unstrukturiert ist, immer wichtiger werden.
Heute werden Daten aus vielen verschiedenen Quellen generiert. Sehen wir uns ein mittelständisches Unternehmen mit einem Standard-E-Commerce-Setup an. In diesem Fall stammen wahrscheinlich Daten aus folgenden Bereichen:
Und es können viele weitere Datenquellen vorhanden sein. Tatsächlich ist die Datenmenge, die heutzutage von einem Unternehmen abgerufen wird, sprunghaft. Sie müssen kein großes Unternehmen sein, um Teil der Big Data Revolution zu sein. Aber wie Sie diese Daten verarbeiten, ist der Schlüssel, um sie nutzen zu können. Die beste Lösung ist in vielen Fällen ein Data Lake.
Data Lakes sind Repositorys, die strukturierte und unstrukturierte Daten erhalten. Durch die Möglichkeit, mehrere Dateneingaben in einer einzigen Quelle zu konsolidieren, sind Data Lakes ein wesentlicher Bestandteil jeder Big Data-Infrastruktur. Wenn Daten in einen Data Lake gelangen, wird jede inhärente Struktur so entfernt, dass es sich um Rohdaten handelt, sodass sie einfach skalierbar und flexibel ist. Wenn die Daten gelesen und verarbeitet werden, erhält sie dann nach Bedarf Struktur und Schema, um sowohl Volumen als auch Effizienz auszugleichen.
Powered by Oracle Cloud, Oracle Big Data-Services beschleunigen die Verwaltung und Verarbeitung von Rohdaten. Von Blockspeicher bis hin zu Data Lakes bietet Oracle flexible Lösungen, die sowohl strukturierte als auch unstrukturierte Daten verarbeiten.