مايكل تشن | خبير استراتيجي للمحتوى | 4 سبتمبر 2024
تُعد تكرار البيانات مفهوم بسيط: إنها فكرة تعتمد على أن أي جزء من البيانات يحتوي على تكرار واحد أو أكثر في مكان ما في البنية التحتية للمؤسسة. قد يكون سجلاً في قاعدة بيانات أو ملفًا في وحدة تخزين أو صورة جهاز ظاهري. من تلقاء نفسه، قد يكون التكرار بسيطًا، أو حتى مفيدًا. مَن لا يحب امتلاك نسخة إضافية؟ لكن عندما يتم توسيع نطاق المشكلة إلى النطاق المؤسسي، يصبح نطاق المشكلة واضحًا. مع ما يقرب من كل جهاز حديث ينتج باستمرار البيانات والنسخ الاحتياطية والأرشيفات المجدولة والمنفذة بانتظام، والملفات المشتركة عبر العديد من المنصات، زاد تكرار البيانات من كونه مصدر إزعاج إلى تكلفة هائلة وعبء تكنولوجي. يبدأ حل المشكلة بفهم طريقة حدوث تكرار البيانات وسبب حدوثه.
يُعد تكرار البيانات عملية إنشاء إصدار واحد أو أكثر من البيانات المتطابقة، إما عن قصد، مثل النسخ الاحتياطية المخططة، أو عن غير قصد. قد توجد التكرارات باعتبارها بيانات مُخزنة في الملفات أو صور الجهاز الظاهري أو الكتل أو السجلات في قاعدة البيانات أو أنواع بيانات أخرى. بغض النظر عن السبب، يؤدي تكرار البيانات إلى إهدار مساحة التخزين، مع زيادة التكلفة إلى جانب حجم مخازن البيانات. كما يمكن أن تسهم في مشكلات بإدارة البيانات. على سبيل المثال، إذا لم يتم تحديث جميع نُسخ الملف في وقت واحد، فقد تؤدي حالات عدم الاتساق إلى تحليل خاطئ.
إن ما يتعلق بتكرار البيانات هو فائضية البيانات، أو وجود سجلات متعددة للعمل باعتبارها شبكات أمان احتياطية للإصدارات الأساسية من البيانات. يكون العكس من تكرار البيانات في إلغاء تكرار البيانات، والذي ينطوي على إزالة البيانات المكررة لتحرير الموارد وإزالة النسخ القديمة المحتملة.
النقاط الرئيسة
ليست البيانات المكررة بالضرورة شيئًا سيئًا. يمكن أن يوفر تكرار البيانات عن قصد مزايا كبيرة، بما في ذلك النسخ الاحتياطية التي يمكن الوصول إليها بسهولة، والأرشفة الشاملة، والتعافي من الكوارث بشكل أكثر فعالية. مع ذلك، يتطلب الحصول على هذه المزايا دون تكلفة غير ضرورية إستراتيجية لإجراء عمليات النسخ الاحتياطي وإلغاء تكرار البيانات المنتظم والمجدول. بدون ذلك، يمكن أن تشغل البيانات المكررة في أحسن الأحوال، مساحة تخزين إضافية دون داع، وفي أسوأ الأحوال، تسبب الارتباك بين المستخدمين وتحليل البيانات.
على الرغم من أن مصطلحي "تكرار البيانات" و"فائضية البيانات" يتم غالبًا استخدامهما بالتبادل، إلا أنه يوجد فَرقًا. إن البيانات المكررة ليست بالضرورة زائدة عن الحاجة عن قصد؛ وفي بعض الأحيان يتم تكرارها دون إهمال أو عن طريق الخطأ من الإنسان أو الجهاز. مع ذلك ومن منظور هندسي، يكون مفهوم الفائضية في إنتاج شبكة أمان في حالة حدوث مشكلة. يؤدي هذا إلى التكرار مع الهدف. تكون الفائضية في حد ذاتها أساس الممارسات الهندسية القوية، على الرغم من أنه من الممكن بالتأكيد إنشاء زيادة في الفائضية. في هذه الحالة، حتى لو تم إنشاء مجموعات إضافية من التكرارات مع هدف، فإنها توفر قيمة محدودة لكمية الموارد التي تستخدمها.
يمكن أن تُتكرر البيانات بعدة طرق من البشر والعمليات الآلية. حَفِظ معظم الأشخاص إصدارات متعددة لملف بأسماء مختلفة قليلاً، تكون غالبًا مع الحد الأدنى من التغييرات، إذ ينتقل المستند عبر عملية المراجعة—فكِّر في "salesreport_final.docx" مقابل "salesreport_final_v2.docx" وما إلى ذلك. لا يتم حذفها بشكل عام بمجرد أن يكون التقرير نهائيًا. أو، قد يتم إرسال الملف عبر البريد الإلكتروني من خلال المؤسسة، ويحفظ شخصان مختلفان الإصدار نفسه في نقاط منفصلة على محرك أقراص مشترك. قد يتم تنزيل ملف .exe للتطبيق أو ملف الوسائط عدة مرات، وقد يتم حفظ مثيلات الأجهزة الظاهرية في عدد من الأماكن. بالمثل، يمكن إدخال نفس البيانات مرتين داخل قاعدة البيانات. قد يكون العميل أو الموظفون قد حمَّلوا المعلومات مرتين، إما من خلال أشخاص متعددين يستوردون ملف أو يكتبون السجلات. يمكن أن يحدث هذا النوع من التكرار أيضًا عندما تنشئ أقسام مختلفة نفس السجل، مثل معلومات العملاء على التطبيقات المحلية أو التطبيقات المختلفة ذات أنواع الملفات المتوافقة. يعني هذا أنه قد يكون لديك نسخ احتياطية عبر إصدارات نسخ احتياطية مُختلفة—والتي قد تكون تكرارات في حد ذاتها.
كلما كانت المؤسسة مستندة إلى البيانات، زادت مشكلة التكرار. يمكن أن تؤدي البيانات الكبيرة إلى تكاليف كبيرة للتخزين الزائد. قد تؤدي الأتمتة أيضًا إلى إنشاء تكرارات. في هذه الحالة، قد تنشئ عملية النسخ الاحتياطي التلقائية ملفات مكررة بقصد الفائضية. على الرغم من ذلك تنشأ مشكلات، عندما يتم نسخ نفس الملف احتياطيًا عدة مرات. تؤدي المستويات غير الضرورية من الفائضية إلى استخدام غير فعَّال للتخزين.
وأقل شيوعًا، تؤدي الأحداث غير المتوقعة إلى تكرار البيانات. في حالة حدوث انقطاع التيار الكهربائي أو كارثة طبيعية أثناء عملية النسخ الاحتياطي على سبيل المثال، فقد يُعاد تعيين النسخ الاحتياطي، مما يؤدي إلى إعادة بدء العملية بعد كتابة بعض الملفات بالفعل. قد تؤدي حالات تعطل الأجهزة إلى حدوث مشكلات مماثلة، مما يؤدي إلى تكرار غير مُخطط له أثناء عملية النسخ الاحتياطي أو الأرشفة.
ليست البيانات المكررة بالضرورة شيئًا سيئًا. تحتاج فِرق تكنولوجيا المعلومات إلى فهم إذا كان التكرار مقصودًا، وعدد الموارد المستخدمة لتخزين التكرارات، ومدى تكلفة الوضع الراهن. يُعد أرشيف من الجيل الثالث المتعمد يحتوي على مؤشرات إلى تكرارات مستنسخة بالكامل في أرشيف من الجيل الثاني ظرف مختلف تمامًا عن المثيلات المحفوظة المتعددة لنفس ملف PowerPoint العملاق عبر مساحة تخزين مشتركة.
فيما يلي الأنواع الأكثر شيوعًا من تكرارات البيانات وطريقة تأثيرها على مؤسستك.
تُنشئ البيانات المتكررة تأثيرًا مُضاعفًا للأعباء الإضافية عبر الأجهزة وعرض النطاق الترددي والصيانة وإدارة البيانات، وكلها تضيف إلى كم هائل من التكاليف غير الضرورية. في بعض الحالات، تكون المشكلات بسيطة، لكن في أسوأ السيناريوهات، يمكن أن تكون النتائج كارثية. فكِّر في بعض الطرق التالية التي يضر بها تكرار البيانات بمساعي علوم البيانات.
مساحة التخزين. تُعد هذه هي التكلفة الأكثر مباشرةً لتكرار البيانات. تلتهم النسخ الزائدة سعة قيِّمة في محركات الأقراص الثابتة والخوادم والتخزين السحابي المحلي، مما يؤدي إلى ارتفاع التكاليف. تخيَّل قسمًا يحتوي على 10 تيرابايت من البيانات، و10% منه بيانات متكررة. تلك التيرابايت من التخزين المهدر، والذي يمكن أن يترجم إلى تكاليف كبيرة، خاصةً إذا كان في مساحة التخزين الأساس المستند إلى السحابة مقابل تخزين الأرشيفي.
أدوات إلغاء تكرار البيانات. تكلفة كبيرة أخرى، يمكن لأدوات إلغاء تكرار البيانات تنظيف التكرارات من وحدات التخزين. تستند هذه الخدمات والأدوات عادةً إلى حجم كل سجل. بالتالي، كلما زاد إلغاء التكرار، زادت التكلفة.
البيانات المُنحرفة. يمكن أن تؤدي السجلات المتكررة إلى حدوث أخطاء في تحليل البيانات والتمثيلات المرئية من خلال إنشاء مقاييس غير دقيقة. على سبيل المثال، لنفترض أنه تم إدخال عميل جديد مرتين في قاعدة بيانات مبيعات بأسماء مُختلفة قليلاً، أو أن اثنين من المسؤولين أدخلوا نفس أمر الشراء.
يتطلب كل عنصر من العناصر المذكورة أعلاه أيضًا عملاً مُكلفًا من الموظفين. يجب صيانة وحدات التخزين في هذه الحالة. يلزم وجود شخص ما لتقييم أنظمة إلغاء تكرار البيانات وشرائها وتشغيلها. تتطلب البيانات المنحرفة إزالة السجلات وتنظيف قواعد البيانات. إذا تم نشر البيانات غير الصالحة مستقبلاً في تقارير أو رسائل أخرى، فيجب التراجع عن جميع الأعمال التي تلت ذلك وعدم إتمامها، ثم إصلاحها.
يمكن أن تتسبب الملفات المتكررة عن غير قصد وسجلات قواعد البيانات في حدوث مشكلات في جميع أنحاء المؤسسة عند تركها دون تحديد. فيما يلي بعض من أكثر المشكلات شيوعًا التي تنشأ بسبب تكرار البيانات.
باستخدام محركات الأقراص المشتركة وأجهزة إنترنت الأشياء والبيانات العامة والشركاء المُستوردة والتخزين السحابي المُتدرج والاستنساخ الأقوى والتعافي من الكوارث والعديد من المصادر الأخرى، تحتفظ المؤسسات ببيانات أكثر من أي وقت مضى. يؤدي ذلك إلى المزيد من فرص التكرار، مما يعني أنه يجب على المؤسسات إعطاء الأولوية للاستراتيجيات للحد من إنشاء البيانات المتكررة والقضاء عليها عند انتشارها.
فيما يلي بعض الاستراتيجيات الأكثر شيوعًا لتحقيق ذلك:
مع زيادة اعتماد المؤسسات على البيانات، يصبح التخلص من البيانات المتكررة ضروريًا ومُفيدًا أكثر من أي وقت مضى. يمكن أن يؤدي اتخاذ خطوات استباقية لتقليل التكرار إلى تحسين البنية التحتية للتخزين وتعزيز كفاءة إدارة البيانات وتحسين الامتثال وتوفير المال وموارد الموظفين لأولويات أخرى.
فيما يلي تفاصيل عن بعض المزايا الأكثر شيوعًا لإلغاء تكرار البيانات:
تتمثل أفضل طريقة لتقليل مشكلات تكرار البيانات في منعها في المقام الأول. تجمع Oracle HeatWave بين معالجة المعاملات عبر الإنترنت والتحليلات الفورية عبر مستودعات البيانات وبحيرات البيانات والتعلم الآلي (ML) والذكاء الاصطناعي التوليدي في خدمة سحابية واحدة. يمكن للعملاء الاستفادة بطرق متعددة.
بشكل عام، تقسِّم ميزة إلغاء البيانات المكررة مستودعات المعلومات وتحسِّن إمكانية الوصول إلى البيانات وتعزز بيئة تعاونية يمكن فيها للفِرق الاستفادة من رؤى البيانات الجماعية للمؤسسة لاتخاذ قرارات أفضل. يمكنك تجنب المواقف التي يستخدم فيها فريق التسويق الخاص بك نظام إدارة علاقات العملاء مع معلومات اتصال العميل بينما يستخدم فريق المبيعات نظام إدارة عملاء محتملين مُنفصل مع بيانات مماثلة. يمكن لبرنامج التخلص من التكرار دمج هذه المعلومات، مما يتيح لكلا الفريقين الوصول إلى عرض موحد للعملاء والتعاون بشكل أكثر فعالية في الحملات التسويقية والتوعية بالمبيعات.
هل تبحث عن تسخير إمكانات الذكاء الاصطناعي؟ يتعلق الأمر كله بالبنية التحتية للبيانات. يزود هذا الدليل الشامل مديري المعلومات التنفيذيين باستراتيجيات للاستفادة من البيانات والذكاء الاصطناعي لتعزيز عملية اتخاذ القرارات الاستراتيجية وتحسين العمليات واكتساب ميزة تنافسية.
ما هي بعض الاتجاهات المستقبلية في تكرار البيانات؟
مع تطور الإمكانات التكنولوجية، اكتسبت تكنولوجيا المعلومات قدرة أكبر على تقليل كمية البيانات المتكررة. تشمل بعض الأمثلة على هذه التطورات ما يلي:
كيف تراقب تكرار البيانات؟
تتوفر استراتيجيات مُختلفة لمراقبة البيانات المتكررة وتحديدها. تتضمن هذه الأدوات أدوات مثل توصيف البيانات ومطابقة البيانات وكتالوج البيانات. يمكن أن توفر أدوات تصحيح البيانات لمصادر البيانات الواردة مستوى من التحديد بينما يمكن لأدوات إلغاء تكرار البيانات المُتخصصة اكتشاف البيانات المتكررة والتخلص منها.
ما هي تحديات تكرار البيانات؟
يشكل تكرار البيانات تحديًا كبيرًا للمؤسسات من جميع الأحجام. تتمثل المشكلة الأوضح في إهدار مساحة التخزين. تلتهم النسخ المتكررة سعة قيِّمة على الخوادم ومحركات الأقراص الثابتة والتخزين السحابي، مما يؤدي إلى ارتفاع التكاليف. كما أن إدارة البيانات المتكررة عبر الأنظمة تستغرق وقتًا طويلاً للعاملين في تكنولوجيا المعلومات الذين يحتاجون إلى تحديد التكرارات، وتحديد الإصدار الأساس، ثم حذف النُسخ الزائدة. يمكن أن يؤدي التكرار المُفرط للبيانات إلى إبطاء الأنظمة أيضًا، إذ تستغرق الملفات المتكررة المنتشرة عبر مواقع التخزين وقتًا أطول للوصول إليها واستردادها.
يوجد أيضًا عدم اتساق في البيانات، عندما لا تُطبَّق التحديثات على كل النسخ. يمكن أن يؤدي هذا إلى إعداد تقارير غير دقيقة، وإهدار الجهد على أساس معلومات قديمة، والارتباك عندما تعتمد الفِرق المختلفة على مجموعات بيانات مُتضاربة. يمكن أن تجعل البيانات المتكررة من الصعب الامتثال إلى اللوائح التي تتطلب ممارسات دقيقة للاحتفاظ بالبيانات وحذفها، ومن منظور أمني، كلما زادت البيانات لديك، زاد سطح الهجوم.
هل توجد أي مزايا من البيانات المتكررة؟
تأتي البيانات المتكررة عن قصد، مثل النسخ الاحتياطية والأرشيفات مع الكثير من المزايا للوظائف المتعلقة باستمرارية الأعمال والتعافي من الكوارث. لاستخدام البيانات المتكررة بنجاح، يجب على المؤسسات استخدام نهج استراتيجي يساعد في ضمان الاحتفاظ بالتكرارات بكمية محددة ومحدودة، وبالتالي؛ منع الاستخدام المفرط للموارد والمشكلات الأخرى.
