Michael Chen | Content Strategist | 4. September 2024
Datenduplizierung ist ein einfaches Konzept: Es ist die Idee, dass jedes Datenelement ein oder mehrere exakte Duplikate irgendwo in der Infrastruktur eines Unternehmens hat. Dies kann ein Datensatz in einer Datenbank, eine Datei in einem Speicher-Volume oder ein VM-Image sein. Duplizierung mag für sich genommen gutartig, sogar vorteilhaft erscheinen. Wer mag keine extra Kopie? Bei der Erweiterung auf die Unternehmensgröße wird jedoch der Umfang des Problems deutlich. Da fast jedes moderne Gerät ständig Daten, Backups und Archive erstellt, die regelmäßig geplant und ausgeführt werden, sowie Dateien, die über viele Plattformen hinweg gemeinsam genutzt werden, ist die Datenduplizierung von einem Ärgernis zu einem massiven Kosten- und technologischen Aufwand gewachsen. Die Lösung des Problems beginnt damit, zu verstehen, wie und warum Daten dupliziert werden.
Bei der Datenduplizierung wird eine oder mehrere identische Versionen von Daten erstellt, entweder absichtlich, z. B. für geplante Backups, oder unbeabsichtigt. Duplikate können als gespeicherte Daten in Dateien, VM-Images, Blöcken oder Datensätzen in einer Datenbank oder anderen Datentypen vorhanden sein. Unabhängig von der Ursache verschwendet die Datenduplizierung Speicherplatz, wobei die Kosten zusammen mit der Größe der Datenspeicher steigen. Es kann auch zu Datenmanagementproblemen beitragen. Beispiel: Wenn nicht alle Kopien einer Datei gleichzeitig aktualisiert werden, können Inkonsistenzen zu fehlerhaften Analysen führen.
Bei der Duplizierung von Daten handelt es sich um Datenredundanz oder um mehrere Datensätze, die als redundante Sicherheitsnetze für die primären Datenversionen fungieren. Das Gegenteil von Datenduplizierung ist die Datendeduplizierung, bei der doppelte Daten eliminiert werden, um Ressourcen freizugeben und möglicherweise veraltete Kopien zu entfernen.
Wichtige Erkenntnisse
Doppelte Daten sind nicht unbedingt eine schlechte Sache. Die absichtliche Duplizierung von Daten kann erhebliche Vorteile bieten, einschließlich leicht zugänglicher Backups, umfassender Archivierung und effektiver Disaster Recovery. Um diese Vorteile ohne übermäßige Kosten zu erhalten, ist jedoch eine Strategie für die Durchführung von Backups und regelmäßige, geplante Deduplizierung erforderlich. Ohne das können doppelte Daten bestenfalls unnötig zusätzlichen Speicherplatz beanspruchen und im schlimmsten Fall zu Verwirrung bei den Benutzern und zu verzerrten Datenanalysen führen.
Obwohl die Begriffe "Datenduplizierung" und "Datenredundanz" häufig synonym verwendet werden, gibt es einen Unterschied. Doppelte Daten sind nicht unbedingt zweckmäßig redundant; manchmal wird ein Duplikat von einem Menschen oder einer Maschine unvorsichtig oder irrtümlich gemacht. Aus technischer Sicht besteht das Konzept der Redundanz jedoch darin, im Falle eines Problems ein Sicherheitsnetz herzustellen. Dies führt zu einer beabsichtigten Duplizierung. Redundanz ist an sich ein Grundprinzip solider Ingenieurspraxis – auch wenn übermäßige Redundanz durchaus möglich und nicht immer sinnvoll ist. In diesem Fall bieten sie, selbst wenn die zusätzlichen Sätze von Duplikaten zweckmäßig generiert werden, einen begrenzten Wert für die Menge der Ressourcen, die sie verwenden.
Daten können auf verschiedene Weise von Menschen und automatisierten Prozessen dupliziert werden. Die meisten Menschen haben mehrere Versionen einer Datei mit leicht unterschiedlichen Namen und oft minimalen Änderungen gespeichert, wenn ein Dokument den Revisionsprozess durchläuft – denken Sie an "salesreport_final.docx" oder "salesreport_final_v2.docx" usw. Diese werden in der Regel nicht gelöscht, sobald der Bericht wirklich endgültig ist. Oder eine Datei kann im gesamten Unternehmen per E-Mail gesendet werden, und zwei verschiedene Personen speichern dieselbe Version an separaten Stellen auf einem freigegebenen Laufwerk. Eine EXE- oder Mediendatei der Anwendung wird möglicherweise mehrmals heruntergeladen, und VM-Instanzen können an mehreren Stellen gespeichert werden. Ebenso können in einer Datenbank dieselben Daten zweimal eingegeben werden. Ein Kunde oder Mitarbeiter hat möglicherweise zweimal Informationen hochgeladen, entweder durch mehrere Personen, die eine Datei importieren oder die Datensätze eingeben. Diese Art von Duplizierung kann auch auftreten, wenn verschiedene Abteilungen denselben Datensatz erstellen, z. B. Kundeninformationen, in lokalen Anwendungen oder in verschiedenen Anwendungen mit kompatiblen Dateitypen. Dies bedeutet, dass Sie möglicherweise redundante Kopien über verschiedene Backupversionen hinweg haben, die selbst Duplikate sein können.
Je datengetriebener ein Unternehmen ist, desto problematischer kann eine Duplizierung werden. Big Data können zu hohen Kosten für Speicherüberschüsse führen. Die Automatisierung kann auch Duplikate erstellen. In diesem Fall kann ein automatisierter Backup-Prozess mit der Absicht der Redundanz doppelte Dateien erzeugen. Probleme treten jedoch auf, wenn dieselbe Datei mehrmals gesichert wird. Unnötige Redundanzgrade führen zu ineffizienter Speichernutzung.
Weniger häufig führen unerwartete Ereignisse zu Datenduplizierung. Wenn beispielsweise ein Stromausfall oder eine Naturkatastrophe während eines Backup-Prozesses auftritt, kann das Backup zurückgesetzt werden, und der Prozess wird neu gestartet, nachdem einige Dateien bereits geschrieben wurden. Hardwarefehler können ähnliche Probleme verursachen, was zu ungeplanter Duplizierung während eines Backup- oder Archivierungsprozesses führt.
Doppelte Daten sind nicht unbedingt eine schlechte Sache. IT-Teams müssen verstehen, ob die Duplizierung beabsichtigt war, wie viele Ressourcen zum Speichern von Duplikaten verwendet werden und wie teuer der Status Quo ist. Ein absichtlich erstelltes Archiv der dritten Generation, das Verweise auf vollständig geklonte Duplikate in einem Archiv der zweiten Generation enthält, ist eine völlig andere Situation als mehrere gespeicherte Versionen derselben riesigen PowerPoint-Datei auf einem gemeinsamen Laufwerk.
Im Folgenden werden die häufigsten Arten von Datenduplikaten und deren Auswirkungen auf Ihre Organisation aufgeführt.
Doppelte Daten verursachen einen Ripple-Effekt zusätzlicher Belastungen in Bezug auf Hardware, Bandbreite, Wartung und Datenmanagement, die sich alle zu einem Berg unnötiger Kosten summieren. In einigen Fällen sind Probleme gering, aber in Worst-Case-Szenarien können die Ergebnisse katastrophal sein. Berücksichtigen Sie einige der folgenden Wege, wie Datenredundanz Data Science-Vorhaben beeinträchtigen kann.
Speicherplatz. Dies sind die direktesten Kosten für die Datenduplizierung. Redundante Kopien belegen wertvolle Kapazität auf lokalen Festplatten, Servern und Cloud-Speicher, was zu höheren Kosten führt. Stellen Sie sich eine Abteilung mit 10 Terabyte an Daten vor, und 10% sind doppelt vorhanden. Das ist ein Terabyte an verschwendetem Speicher, was zu erheblichen Kosten führen könnte, insbesondere wenn es sich um einen cloudbasierten Primärspeicher im Vergleich zu einem Archivspeicher handelt.
Tools für die Datendeduplizierung. Eine weitere harte Kosten, Deduplizierungstools können Duplikate aus Speicherdatenträgern entfernen. Diese Dienste und Tools basieren in der Regel auf dem Volumen pro Datensatz. Je mehr dedupliziert werden muss, desto höher sind die Kosten.
Gesperrte Daten. Doppelte Datensätze können Fehler in die Datenanalyse und Visualisierungen einführen, indem sie ungenaue Metriken erstellen. Beispiel: Angenommen, ein neuer Kunde wurde zweimal in eine Vertriebsdatenbank mit leicht unterschiedlichen Namen eingegeben, oder zwei Administratoren geben dieselbe Bestellung ein.
Jedes der oben genannten Elemente erfordert auch kostspielige Personalarbeit. Speicher-Volumes müssen verwaltet werden. Jemand muss Deduplizierungssysteme auswerten, kaufen und ausführen. Bei verzerrten Daten müssen Datensätze entfernt und Datenbanken bereinigt werden. Wenn fehlerhafte Daten in weitere Berichte oder Kommunikation propagiert werden, müssen alle nachfolgenden Arbeiten zurückgenommen und rückgängig gemacht und dann repariert werden.
Unbeabsichtigt duplizierte Dateien und Datenbankdatensätze können zu Problemen in einer Organisation führen, wenn sie deaktiviert bleiben. Im Folgenden sind einige der häufigsten Probleme aufgeführt, die bei der Datenduplizierung auftreten.
Durch gemeinsam genutzte Laufwerke, IoT-Geräte, importierte öffentliche und Partnerdaten, gestufte Cloud-Speicher, fortschrittlichere Replikations- und Disaster Recovery-Systeme sowie zahlreiche weitere Quellen verfügen Unternehmen heute über mehr Daten denn je. Das führt zu mehr Möglichkeiten zur Duplizierung, was bedeutet, dass Unternehmen Strategien priorisieren sollten, um die Erstellung doppelter Daten zu minimieren und sie bei der Propagierung zu eliminieren.
Einige der gängigsten Strategien zur Erreichung dieses Ziels sind:
Da Unternehmen immer datengesteuerter werden, wird die Eliminierung doppelter Daten immer notwendiger und nützlicher. Durch proaktive Schritte zur Minimierung von Redundanz können Sie die Speicherinfrastruktur optimieren, die Effizienz des Datenmanagements verbessern, die Compliance verbessern und Geld und Personalressourcen für andere Prioritäten freigeben.
Im Folgenden werden einige der häufigsten Vorteile der Datendeduplizierung beschrieben:
Der beste Weg, um Probleme mit der Datenduplizierung zu minimieren, besteht darin, sie überhaupt zu verhindern. Oracle HeatWave kombiniert Online-Transaktionsverarbeitung, Echtzeitanalysen über Data Warehouses und Data Lakes hinweg, maschinelles Lernen (ML) und generative KI in einem Cloud-Service. Kunden können auf verschiedene Weise profitieren.
Insgesamt bricht die Datendeduplizierung Informationssilos auf, verbessert den Datenzugriff und fördert eine kollaborative Umgebung, in der Teams die kollektiven Dateneinblicke des Unternehmens für eine bessere Entscheidungsfindung nutzen können. Sie können Situationen vermeiden, in denen Ihr Marketingteam ein CRM-System mit Kundenkontaktinformationen verwendet, während das Vertriebsteam ein separates Leadmanagementsystem mit ähnlichen Daten verwendet. Ein Programm zur Vermeidung von Duplikaten kann diese Informationen konsolidieren, sodass beide Teams auf eine einheitliche Kundenansicht zugreifen und effektiver an Marketingkampagnen und Vertriebsaktivitäten zusammenarbeiten können.
Möchten Sie das Potenzial der KI ausschöpfen? Es geht um Ihre Dateninfrastruktur. Dieser umfassende Leitfaden stattet CIOs mit Strategien aus, mit denen sie Daten und KI nutzen können, um strategische Entscheidungen zu treffen, Abläufe zu optimieren und einen Wettbewerbsvorteil zu erzielen.
Was sind zukünftige Trends bei der Datenduplizierung?
Mit der Weiterentwicklung der technologischen Fähigkeiten hat die IT eine größere Fähigkeit erlangt, die Menge doppelter Daten zu minimieren. Beispiele für diese Fortschritte sind:
Wie überwachen Sie die Datenduplizierung?
Es stehen verschiedene Strategien zur Verfügung, um doppelte Daten zu überwachen und zu identifizieren. Dazu gehören Tools wie Datenprofilerstellung, Datenabgleich und Datenkatalogisierung. Datenbereinigungstools für eingehende Datenquellen können ein gewisses Maß an Identifikation bieten, während spezialisierte Datendeduplizierungstools doppelte Daten erkennen und eliminieren können.
Welche Herausforderungen bringt die Datenduplizierung mit sich?
Die Duplizierung von Daten stellt Unternehmen jeder Größe vor eine große Herausforderung. Das offensichtlichste Problem ist der Verlust von Speicherplatz. Doppelte Kopien belegen wertvolle Kapazität auf Servern, Festplatten und Cloud-Speicher, was zu höheren Kosten führt. Die systemübergreifende Verwaltung doppelter Daten ist auch für IT-Mitarbeiter zeitaufwändig, die Duplikate identifizieren, die primäre Version bestimmen und dann redundante Kopien löschen müssen. Übermäßige Datenduplizierung kann auch Systeme verlangsamen, da doppelte Dateien, die über Speicherorte verteilt sind, länger für den Zugriff und Abruf benötigen.
Es gibt auch Dateninkonsistenzen, wenn Updates nicht auf alle Kopien angewendet werden. Dies kann zu ungenauen Berichten, unnötigem Aufwand aufgrund veralteter Informationen und Verwirrung führen, wenn verschiedene Teams auf widersprüchliche Datasets angewiesen sind. Doppelte Daten können es schwierig machen, Vorschriften einzuhalten, die genaue Praktiken zur Datenspeicherung und -löschung erfordern. Je mehr Daten Sie haben, desto größer ist Ihre Angriffsfläche.
Gibt es Vorteile, doppelte Daten zu haben?
Versehentlich duplizierte Daten, wie Backups und Archive, bieten viele Vorteile für Funktionen im Zusammenhang mit Geschäftskontinuität und Disaster Recovery. Um doppelte Daten erfolgreich zu verwenden, müssen Unternehmen einen strategischen Ansatz verfolgen, mit dem sichergestellt wird, dass Duplikate auf einen bestimmten und begrenzten Betrag gehalten werden, wodurch ein übermäßiger Ressourcenverbrauch und andere Probleme vermieden werden.
