مايكل تشن | خبير استراتيجي للمحتوى | 4 سبتمبر 2024
تكرار البيانات هو مفهوم بسيط: إنها فكرة أن أي جزء من البيانات يحتوي على تكرار واحد أو أكثر في مكان ما في البنية التحتية للمؤسسة. قد يكون سجلاً في قاعدة بيانات أو ملفًا في وحدة تخزين أو صورة جهاز ظاهري. من تلقاء نفسه، قد يبدو التكرار حميدًا وحتى مفيدًا. من لا يحب وجود نسخة إضافية؟ ولكن عندما يتم توسيع نطاق المشكلة إلى نطاق المؤسسة، يصبح نطاق المشكلة واضحًا. مع ما يقرب من كل جهاز حديث ينتج باستمرار البيانات والنسخ الاحتياطية والمحفوظات المجدولة والمنفذة بانتظام، والملفات المشتركة عبر العديد من المنصات، نما تكرار البيانات من إزعاج إلى تكلفة هائلة وعبء تكنولوجي. يبدأ حل المشكلة بفهم كيفية حدوث تكرار البيانات وسبب حدوثه.
تكرار البيانات هو عملية إنشاء إصدار واحد أو أكثر من البيانات المتطابقة، إما عن قصد، مثل النسخ الاحتياطية المخططة، أو عن غير قصد. قد توجد التكرارات كبيانات مخزنة في الملفات أو صور الأجهزة الظاهرية أو الكتل أو السجلات في قاعدة البيانات أو أنواع بيانات أخرى. بغض النظر عن السبب، يؤدي تكرار البيانات إلى إهدار مساحة التخزين، مع زيادة التكلفة إلى جانب حجم مخازن البيانات. كما يمكن أن تسهم في مشكلات إدارة البيانات. على سبيل المثال، إذا لم يتم تحديث جميع نُسخ الملف في وقت واحد، فقد تؤدي حالات عدم الاتساق إلى تحليل معيب.
فيما يتعلق بتكرار البيانات هو تكرار البيانات، أو وجود سجلات متعددة للعمل كشبكات أمان احتياطية للإصدارات الأساس من البيانات. العكس من تكرار البيانات هو إلغاء تكرار البيانات، والذي يستلزم إزالة البيانات المكررة لتحرير الموارد وإزالة النسخ القديمة المحتملة.
النقاط الرئيسة
البيانات المكررة ليست بالضرورة شيئًا سيئًا. يمكن أن يوفر تكرار البيانات المتعمد فوائد كبيرة، بما في ذلك النسخ الاحتياطية التي يمكن الوصول إليها بسهولة، والأرشفة الشاملة، واستعادة القدرة على العمل بعد الكوارث بشكل أكثر فعالية. ومع ذلك، فإن الحصول على هذه المزايا دون تكلفة غير ضرورية يتطلب إستراتيجية لإجراء عمليات النسخ الاحتياطي وإلغاء البيانات المكررة المنتظمة والمجدولة. وبدون ذلك، يمكن أن تشغل البيانات المكررة، في أحسن الأحوال مساحة تخزين إضافية دون داع، وفي أسوأ الأحوال، تسبب الارتباك بين المستخدمين وتحليل البيانات.
على الرغم من أن مصطلحي "تكرار البيانات" و"فائض البيانات" غالبًا ما يتم استخدامهما بالتبادل، إلا أن هناك فَرقًا بينهما. البيانات المكررة ليست بالضرورة زائدة عن الحاجة عن قصد؛ في بعض الأحيان، يتم تكرارها دون إهمال أو عن طريق الخطأ من إنسان أو جهاز. ومع ذلك، من منظور هندسي، فإن مفهوم التكرار هو إنتاج شبكة أمان في حالة حدوث مشكلة. يؤدي ذلك إلى التكرار مع الغرض. التكرار في حد ذاته هو مبدأ من الممارسات الهندسية القوية، على الرغم من أنه من الممكن بالتأكيد إنشاء فائض في التكرار. في هذه الحالة، حتى لو تم إنشاء مجموعات إضافية من التكرارات مع الغرض، فإنها توفر قيمة محدودة لكمية الموارد التي تستخدمها.
يمكن تتكرر البيانات بعدة طرق من البشر والعمليات الآلية. قام معظم الأشخاص بحفظ إصدارات متعددة من ملف بأسماء مختلفة قليلاً، وغالبًا ما يكون الحد الأدنى من التغييرات، إذ ينتقل المستند عبر عملية المراجعة—فكر في "salesreport_final.docx" مقابل "salesreport_final_v2.docx" وما إلى ذلك. لا يتم حذفها بشكل عام بمجرد أن يكون التقرير نهائيًا. أو، قد يتم إرسال ملف عبر البريد الإلكتروني عبر المؤسسة، ويقوم شخصان مختلفان بحفظ الإصدار نفسه في نقاط منفصلة على محرك أقراص مشترك. قد يتم تنزيل ملف .exe للتطبيق أو ملف الوسائط عدة مرات، وقد يتم حفظ مثيلات الأجهزة الافتراضية في عدد من الأماكن. وبالمثل، يمكن إدخال نفس البيانات مرتين داخل قاعدة البيانات. قد يكون العميل أو الموظفون قد قاموا بتحميل المعلومات مرتين، إما من خلال أشخاص متعددين يقومون باستيراد ملف أو كتابة السجلات. ويمكن أن يحدث هذا النوع من التكرار أيضًا عندما تقوم أقسام مختلفة بإنشاء نفس السجل، مثل معلومات العملاء، على التطبيقات المحلية أو التطبيقات المختلفة ذات أنواع الملفات المتوافقة. وهذا يعني أنه قد يكون لديك نسخ احتياطية عبر إصدارات نسخ احتياطية مختلفة—والتي قد تكون مكررة في حد ذاتها.
وكلما زادت المؤسسة القائمة على البيانات، زادت مشكلة التكرار. يمكن أن تؤدي البيانات الكبيرة إلى تكاليف كبيرة للتخزين الزائد. قد تؤدي الأتمتة أيضًا إلى إنشاء تكرارات. في هذه الحالة، قد تقوم عملية النسخ الاحتياطي التلقائية بإنشاء ملفات مكررة بقصد التكرار. تنشأ المشكلات على الرغم من ذلك، عندما يتم نسخ نفس الملف احتياطيًا عدة مرات. تؤدي المستويات غير الضرورية من التكرار إلى استخدام غير فعال للتخزين.
أقل شيوعًا، تؤدي الأحداث غير المتوقعة إلى تكرار البيانات. في حالة حدوث انقطاع التيار الكهربائي أو كارثة طبيعية أثناء عملية النسخ الاحتياطي، على سبيل المثال، قد تتم إعادة تعيين النسخ الاحتياطي، مما يؤدي إلى إعادة بدء العملية بعد كتابة بعض الملفات بالفعل. قد تؤدي حالات فشل الأجهزة إلى حدوث مشكلات مماثلة، مما يؤدي إلى تكرار غير مخطط له أثناء عملية النسخ الاحتياطي أو الأرشفة.
البيانات المكررة ليست بالضرورة شيئًا سيئًا. تحتاج فرق تكنولوجيا المعلومات إلى فهم إذا كان التكرار مقصودًا، وعدد الموارد المستخدمة لتخزين التكرارات، ومدى تكلفة الوضع الراهن. إن أرشيف الجيل الثالث المتعمد الذي يحتوي على مؤشرات إلى تكرارات مستنسخة بالكامل في أرشيف الجيل الثاني هو ظرف مختلف تمامًا عن المثيلات المحفوظة المتعددة لنفس ملف PowerPoint العملاق عبر محرك أقراص مشترك.
فيما يلي الأنواع الأكثر شيوعًا من تكرارات البيانات وكيفية تأثيرها على مؤسستك.
تنشئ البيانات المكررة تأثيرًا مضاعفًا للأعباء الإضافية عبر الأجهزة وعرض النطاق الترددي والصيانة وإدارة البيانات، وكلها تضيف إلى مجموعة هائلة من التكاليف غير الضرورية. في بعض الحالات، تكون المشكلات بسيطة، ولكن في أسوأ السيناريوهات، يمكن أن تكون النتائج كارثية. فكر في بعض الطرق التالية التي يضر بها تكرار البيانات بمساعي علوم البيانات.
مساحة التخزين. هذه هي التكلفة الأكثر مباشرة لتكرار البيانات. تستهلك النسخ الزائدة سعة قيمة على محركات الأقراص الثابتة والخوادم والتخزين السحابي المحلي، مما يؤدي إلى ارتفاع التكاليف. تخيل قسمًا يحتوي على 10 تيرابايت من البيانات، و10% مكرر. هذا تيرابايت من التخزين المهدر، والذي يمكن أن يترجم إلى تكاليف كبيرة، خاصةً إذا كان في التخزين الأساس المستند إلى السحابة مقابل تخزين الأرشيف.
أدوات إلغاء تكرار البيانات. تكلفة ثابتة أخرى، يمكن لأدوات إلغاء البيانات المكررة تنظيف التكرارات من وحدات تخزين التخزين. وتستند هذه الخدمات والأدوات عادةً إلى حجم كل سجل. وبالتالي، كلما زاد الاستنتاج، زادت التكلفة.
البيانات المنحرفة. يمكن أن تؤدي السجلات المكررة إلى حدوث أخطاء في تحليل البيانات والتمثيلات المرئية من خلال تكوين مقاييس غير دقيقة. على سبيل المثال، لنفترض أنه تم إدخال عميل جديد مرتين في قاعدة بيانات مبيعات بأسماء مختلفة قليلاً، أو أن اثنين من المسؤولين أدخلوا نفس أمر الشراء.
ويتطلب كل عنصر من العناصر المذكورة أعلاه أيضًا عملاً مكلفًا من الموظفين. يجب صيانة وحدات التخزين. يحتاج شخص ما إلى تقييم أنظمة إلغاء البيانات المكررة وشرائها وتشغيلها. تتطلب البيانات المنحرفة إزالة السجلات وتنظيف قواعد البيانات. إذا تم نشر البيانات السيئة إلى الأمام في تقارير أو اتصالات أخرى، فيجب التراجع عن جميع الأعمال التي تلت ذلك والتراجع عنها، ثم إصلاحها.
يمكن أن تتسبب الملفات المكررة عن غير قصد وسجلات قاعدة البيانات في حدوث مشكلات في جميع أنحاء المؤسسة عند تركها دون تحديد. فيما يلي بعض من أكثر المشكلات شيوعًا التي تنشأ مع تكرار البيانات.
من خلال محركات الأقراص المشتركة وأجهزة Internet of Things والبيانات المستوردة العامة ولدى الشركاء والتخزين السحابي المتدرج والنسخ المتماثل الأكثر قوة واستعادة القدرة على العمل بعد الكوارث والعديد من المصادر الأخرى، تحتفظ المؤسسات ببيانات أكثر من أي وقت مضى. ويؤدي ذلك إلى المزيد من الفرص للازدواجية، مما يعني أنه يجب على المؤسسات إعطاء الأولوية للاستراتيجيات للحد من إنشاء البيانات المكررة والقضاء عليها عند نشرها.
بعض الاستراتيجيات الأكثر شيوعًا لتحقيق ذلك هي كما يلي:
مع زيادة اعتماد المؤسسات على البيانات، يصبح التخلص من البيانات المكررة ضروريًا ومفيدًا أكثر من أي وقت مضى. يمكن أن يؤدي اتخاذ خطوات استباقية لتقليل التكرار إلى تحسين البنية التحتية للتخزين وتحسين كفاءة إدارة البيانات وتحسين الامتثال وتوفير المال وموارد الموظفين لأولويات أخرى.
فيما يلي تفاصيل عن بعض المزايا الأكثر شيوعًا لإلغاء تكرار البيانات:
تتمثل أفضل طريقة لتقليل مشكلات تكرار البيانات في منعها في المقام الأول. تجمع Oracle HeatWave بين معالجة المعاملات عبر الإنترنت والتحليلات في الوقت الفعلي عبر مستودعات البيانات وبحيرات البيانات والتعلم الآلي (ML) والذكاء الاصطناعي التوليدي في خدمة سحابية واحدة. يمكن للعملاء الاستفادة بطرق متعددة.
بشكل عام، تعمل ميزة إلغاء البيانات المكررة على تقسيم مستودعات المعلومات وتحسين إمكانية الوصول إلى البيانات وتعزيز بيئة تعاونية حيث يمكن للفرق الاستفادة من رؤى البيانات الجماعية للمؤسسة لاتخاذ قرارات أفضل. يمكنك تجنب المواقف التي يستخدم فيها فريق التسويق الخاص بك نظام إدارة علاقات العملاء مع معلومات اتصال العميل بينما يستخدم فريق المبيعات نظام إدارة فرص تسويقية منفصل مع بيانات مماثلة. يمكن لبرنامج القضاء على تكرار دمج هذه المعلومات، مما يتيح لكلا الفريقين الوصول إلى عرض موحد للعملاء والتعاون بشكل أكثر فعالية في الحملات التسويقية والتوعية بالمبيعات.
هل تبحث عن تسخير إمكانات الذكاء الاصطناعي؟ الأمر كله يتعلق بالبنية التحتية للبيانات. يزود هذا الدليل الشامل مديري المعلومات التنفيذيين باستراتيجيات للاستفادة من البيانات والذكاء الاصطناعي لدفع عملية اتخاذ القرارات الاستراتيجية وتحسين العمليات واكتساب ميزة تنافسية.
ما هي بعض الاتجاهات المستقبلية في تكرار البيانات؟
ومع تطور القدرات التكنولوجية، اكتسبت تكنولوجيا المعلومات قدرة أكبر على تقليل كمية البيانات المكررة. وتشمل بعض الأمثلة على هذه التطورات ما يلي:
كيف تراقب تكرار البيانات؟
تتوفر استراتيجيات مختلفة لمراقبة وتحديد البيانات المكررة. وتتضمن هذه الأدوات أدوات مثل توصيف البيانات ومطابقة البيانات وكتالوج البيانات. يمكن أن توفر أدوات تصحيح البيانات لمصادر البيانات الواردة مستوى من التحديد بينما يمكن لأدوات إلغاء تكرار البيانات المتخصصة اكتشاف البيانات المكررة والقضاء عليها.
ما هي تحديات تكرار البيانات؟
يشكل تكرار البيانات تحديًا كبيرًا للمؤسسات من جميع الأحجام. المشكلة الأكثر وضوحًا هي إهدار مساحة التخزين. تستهلك النسخ المكررة سعة قيمة على الخوادم ومحركات الأقراص الثابتة والتخزين السحابي، مما يؤدي إلى ارتفاع التكاليف. كما أن إدارة البيانات المكررة عبر الأنظمة تستغرق وقتًا طويلاً للعاملين في تكنولوجيا المعلومات، الذين يحتاجون إلى تحديد التكرارات، وتحديد الإصدار الأساس، ثم حذف النسخ المكررة. يمكن أن يؤدي التكرار المفرط للبيانات إلى إبطاء الأنظمة أيضًا، حيث تستغرق الملفات المكررة المنتشرة عبر مواقع التخزين وقتًا أطول للوصول إليها واستردادها.
يوجد أيضًا عدم اتساق في البيانات، عندما لا يتم تطبيق التحديثات على كل النسخ. يمكن أن يؤدي ذلك إلى إعداد تقارير غير دقيقة، وإهدار الجهد استنادًا إلى معلومات قديمة، والارتباك عندما تعتمد الفرق المختلفة على مجموعات بيانات متضاربة. يمكن أن تجعل البيانات المكررة من الصعب الامتثال للوائح التي تتطلب ممارسات دقيقة للاحتفاظ بالبيانات وحذفها، ومن منظور أمني، كلما زادت البيانات لديك، كلما زاد سطح الهجوم.
هل هناك أي فوائد لوجود بيانات مكررة؟
تأتي البيانات المكررة عن قصد، مثل النسخ الاحتياطية والمحفوظات، مع الكثير من الفوائد للوظائف المتعلقة باستمرارية الأعمال واستعادة القدرة على العمل بعد الكوارث. لاستخدام البيانات المكررة بنجاح، يجب على المؤسسات استخدام نهج استراتيجي يساعد على ضمان الاحتفاظ بالتكرارات بكمية محددة ومحدودة، وبالتالي منع الاستخدام المفرط للموارد والمشاكل الأخرى.
