Was ist Data Mining?

2. Mai 2022

Data Mining-Definition

Was ist Data Mining? Einfach ausgedrückt ist es der Prozess, Erkenntnisse zu gewinnen, wenn es um große Datenmengen geht. Diese Daten können aus vielen Quellen oder einer einzigen Datenbank stammen, und Erkenntnisse können durch manuelle Erkennung oder Automatisierung generiert werden. Es gibt viele verschiedene Wege, um Erkenntnisse zu gewinnen, oft abhängig von Variablen, wie Ressourcen, Funktionen für maschinelles Lernen/künstliche Intelligenz, Datenkomplexität, Datenvolumen sowie der Schulung und Erfahrung der Mitarbeiter. Dieser Prozess beinhaltet eine tiefe Analyse der Daten, um Muster und zugrunde liegende Faktoren zu erkennen, um Schlussfolgerungen zu ziehen und fundierte Entscheidungen zu treffen.

Data Mining in Big Data

Der Einsatz von Data Mining stieg in den letzten zwanzig Jahren deutlich an, da mehr Datenquellen eine Big-Data-Umgebung bereitstellten. Big Data bezieht sich auf riesige Datenmengen, häufig in kontinuierlichen Streams aus mehreren Quellen und mit hoher Geschwindigkeit. In den frühen Tagen der Business Intelligence wurden Datentabellen oft von Geräten exportiert und manuell auf Erkenntnisse vorbereitet. Da die Welt jedoch zunehmend vernetzt ist, können Daten zu massiven Datenmengen für die manuelle Dissektion gelangen, insbesondere wenn es um eine Mischung aus strukturierten und unstrukturierten Daten geht.

Data Mining ist ein Prozess, der Big-Data-Funktionen ermöglicht. Ohne Data Mining würden Unternehmen am Ende auf Terabyte an Daten aus einer Vielzahl von Quellen sitzen: Internet of Things (IoT) Geräte, Datenbanken, Corporate Social Media, Marketing-E-Mails, Sensoren, Website-Nutzung und vieles mehr, jedes mit seinen eigenen Metadaten. Die Kombination durch umfangreiche Datenmengen ist physisch unmöglich. Data-Mining-Techniken verwenden Algorithmen, um Muster durch diese riesige Gruppe von Datensätzen zu identifizieren, und geben dann eine Reihe von Empfehlungen aus, auf die Teams reagieren können.

Ein einfaches Beispiel dafür ist das Online-Shopping für Einzelhändler. In diesen Situationen werden Kundenverläufe in einer umfangreichen Datenbank zusammengestellt. Ein Algorithmus durchsucht diese Daten, um nach Korrelationen zu suchen, zum Beispiel Menschen, die nur eine bestimmte Marke von Hundefutter kaufen. Dieser Algorithmus sucht nach Informationen über zugehörige Käufe, wie z. B. Ergänzungen oder behandelte Marken. Wenn Muster entstehen, können diese Informationen an das Marketingteam weitergeleitet werden, um Promotions zu erstellen, die im Zusammenhang mit dieser bestimmten Marke ausgelöst werden.

Funktionsweise von Data Mining

Im obigen Abschnitt wird Data Mining auf einer Big-Picture-Ebene erläutert, aber wir untersuchen den tatsächlichen Data Mining-Prozess. Sowohl die automatisierte Verarbeitung als auch die menschliche Analyse werden verwendet, um das Beste aus dem Data Mining herauszuholen, wobei die Mitarbeiter die Richtlinien festlegen, während maschinelles Lernen und künstliche Intelligenz große Datenmengen durchforsten. Im Allgemeinen wird der folgende Workflow verwendet:

  1. Ziele: Was ist das Ziel Ihres Data Mining? Dies zwischen allen Beteiligten zu schaffen, ist der wichtigste Teil des Prozesses. Wenn das Ziel nicht klar und nachdenklich festgelegt ist, muss möglicherweise die gesamte Anstrengung abgeschafft und neu gestartet werden.
  2. Datenaufbereitung: Die Datenaufbereitung kann eine Vielzahl von Prozessen umfassen, darunter das Ablegen von Datenquellen, das Festlegen von Formaten und das Bereinigen von Datensätzen von Anomalien und Rauschen.
  3. Aufbau des Modells: Data Scientists erstellen dann das Modell und entwickeln es und trainieren es durch Iteration. In vielen Fällen werden mehrere Modelle erstellt und getestet, um den am besten geeigneten Weg zum Ziel zu finden. Dieser Evaluierungsprozess erfordert einen breiten Ansatz für die Validierung, mit Techniken wie Kreuzvalidierung und Receiver Operating Characteristic (ROC)-Kurvenanalyse.

Sobald das Data-Mining-Modell erstellt wurde, ist es an der Zeit, es über Datasets hinweg bereitzustellen. Eine aktive Überwachung ist erforderlich, um sicherzustellen, dass es keine Überraschungen oder Gründe gibt, das Modell zu optimieren und zu verfeinern. Wenn alles wie geplant funktioniert, sollten die daraus resultierenden Daten klare Maßstäbe für Gültigkeit und Nützlichkeit setzen und somit bereit sein, Geschäftsanwender auf datengestützte Entscheidungen zu überprüfen.

Data Mining – Anwendungsfälle

Neben dem obigen Beispiel für den Einzelhandel kann Data Mining ein transformativer Prozess für eine Reihe von Branchen sein. Die folgenden Beispiele zeigen, wie Data Mining auf branchenspezifische Anforderungen angewendet werden kann.

Data Mining für das Gesundheitswesen

Data Mining kann die Gesundheitsbranche verändern, indem es die Erfahrungen sowohl für Anbieter als auch für Patienten verbessert und beschleunigt. Anbieter können Data Mining verwenden, um die Forschung zu beschleunigen und einzubinden, Betriebsdaten zu verstehen, um den Personalbedarf optimal zu unterstützen, und rote Fahnen für Versicherungs- und Datensatzbetrug zu identifizieren. Für Patienten identifiziert Data Mining Muster, die präventive Behandlungsoptionen vorantreiben, und stellt sicher, dass Gespräche beginnen können, bevor Behandlungen erforderlich sind. Es kann auch versteckte Muster in Dingen wie Nebenwirkungen identifizieren und die Tür öffnen, um ein besseres Gefühl dafür zu bekommen, wie Behandlungen durch den spezifischen und einzigartigen Zustand eines Patienten beeinflusst werden können.


Data Mining für die Fertigung

Für die Fertigungsindustrie werden Daten über den gesamten Prozess generiert: Beschaffung von Materialien, Baugruppenlogistik, Qualitätskontrolle, Versandtermine und Rücksendungen aufgrund von Fertigungsfehlern. Data Mining kann sowohl einzelne Schritte im Prozess als auch das Gesamtbild untersuchen. Auf diese Weise können Teams Probleme sowohl in einer Mikro- als auch in einer Makroansicht beheben.

Beispielsweise kann Data Mining erkennen, dass ein bestimmter Anbieter längere Lieferzeiten hat, aber insgesamt weniger Mängel aufweist, sodass Manager entscheiden können, welches Risiko sich lohnt, da parallel Schritte ausgeführt werden können, um die Auswirkungen von Verzögerungen zu mindern. Auf der anderen Seite kann es auch zeigen, dass ein Anbieter konsistent liefert, aber seine höhere Fehlerrate führt zu einer größeren Auswirkung auf den Prozess. Data Mining kann diese Verbindungen herstellen, sodass Entscheidungen den gesamten Fertigungsprozess optimieren, anstatt im Vakuum getroffen zu werden.


Data Mining für Finanzdienstleistungen

Data Mining bietet zahlreiche Vorteile für Finanzdienstleister, sowohl für den internen Betrieb als auch für die Kundenerfahrung. Im operativen Bereich kann Data Mining alles von der Personalabteilung bis zum Marketing beeinflussen. Speziell für diese Branche kann Data Mining jedoch IT-Risiken minimieren, da Verfügbarkeit und Sicherheit für alles, was das Finanzwesen betrifft, höchste Priorität haben.

Auf Kundenseite bietet Data Mining sowohl Schutzelemente als auch ein besseres Kundenerlebnis. Data Mining über Transaktionsmuster hinweg kann Artikel identifizieren und kennzeichnen, die nach Geografie, Tageszeit, Kaufkategorie oder all diesen zusammen ungewöhnlich erscheinen. Die Ergebnisse können dann an Betrugsteams weitergeleitet werden, um zu sehen, ob sie Folgemaßnahmen erfordern. Für den Endbenutzer können Data-Mining-Muster Marketing-Trigger für spezielle Werbeaktionen wie Refinanzierung oder HELOC-Kredite erstellen.

Data Mining für Unternehmen

Jede Organisation in einem Unternehmen, vom internen Betrieb bis zum Kundenservice, kann von Data Mining profitieren. Erfolgreiches Data Mining beginnt mit einer starken Infrastruktur, um mehrere Datenquellen mit hoher Geschwindigkeit zu nutzen. Oracle Cloud Infrastructure kostenlos testen, um zu erfahren, wie es die Grundlage für Data Mining bildet.