ما هو كتالوج البيانات ولماذا تحتاج إلى كتالوج؟

ببساطة، كتالوج البيانات هو مخزون منظم من أصول البيانات في المؤسسة. ويستخدم البيانات الوصفية لمساعدة المؤسسات على إدارة بياناتها. كما يساعد متخصصي البيانات في جمع البيانات الوصفية وتنظيمها والوصول إليها وإثرائها لدعم اكتشاف البيانات وحوكمتها.

تعريف كتالوج البيانات وتحليله

لقد قدمنا تعريفًا قصيرًا لكتالوج البيانات أعلاه، باعتباره شيئًا يستخدم بيانات التعريف لمساعدة المؤسسات على إدارة بياناتها. ولكن دعنا نتوسع في ذلك من خلال تشبيه المكتبة.

عندما تذهب إلى مكتبة وتحتاج إلى العثور على كتاب، فأنت تستخدم كتالوجها لاكتشاف ما إذا كان الكتاب موجودًا، أي إصدار هو، أين يقع، وصف كل ما تحتاجه حتى تتمكن من تحديد ما إذا كنت تريد ذلك، وإذا كنت تفعل ذلك، كيفية الذهاب والعثور عليه.

هذا ما تقدمه اليوم متاجر الكائنات وقواعد البيانات ومستودعات البيانات.

ولكن الآن، فكر مرة أخرى في تشبيه تلك المكتبة والكتالوج. والآن قم بتوسيع قوة هذا الكتالوج ليشمل كل مكتبة في البلاد. تخيل أن لديك واجهة واحدة وفجأة، يمكنك العثور على كل مكتبة في البلاد التي لديها نسخة من الكتاب الذي تبحث عنه، ويمكنك العثور على كل التفاصيل التي تريدها على كل واحد من تلك الكتب.

هذا ما يفعله كتالوج بيانات المؤسسة لجميع بياناتك. فهو يمنحك رؤية واحدة شاملة وأعمق لجميع بياناتك، وليس فقط لكل مخزن بيانات في المرة الواحدة.

ربما تتساءل لماذا تحتاج إلى عرض كهذا؟

التحديات التي يمكن أن يتصدى لها كتالوج البيانات

ومع زيادة البيانات أكثر من أي وقت مضى، أصبحت القدرة على العثور على البيانات الصحيحة أكثر صعوبة من أي وقت مضى. وفي الوقت نفسه، ثمة أيضًا قواعد ولوائح يتم فرضها أكثر من أي وقت مضى-مع كون القانون العام لحماية البيانات (GDPR) واحدًا فقط منها.

لذلك، لا يصبح الوصول إلى البيانات تحديًا فحسب، بل أصبحت إدارة البيانات تحديًا أيضًا. من المهم أن تفهم نوع البيانات التي لديك الآن، ومَن يقوم بنقلها، وما الغرض من استخدامها، وكيف يجب حمايتها. لكن يجب عليك أيضًا تجنب وضع طبقات كثيرة جدًا حول البيانات الخاصة بك - لأن البيانات لا قيمة لها إذا كان من الصعب استخدامها.

لسوء الحظ، هناك العديد من التحديات في العثور على البيانات الصحيحة والوصول إليها. وتتضمن ما يلي:

  • إضاعة الوقت والجهد في العثور على البيانات والوصول إليها
  • تتحول بحيرات البيانات إلى مستنقعات بيانات
  • لا توجد مفردات عمل شائعة
  • من الصعب فهم البنية ومجموعة متنوعة من "البيانات المظلمة"
  • من الصعب تقييم مصدر وجودة ومصداقية
  • لا توجد طريقة لكسب المعرفة الضمنية أو المفقودة
  • صعوبة إعادة استخدام أصول المعرفة والبيانات
  • جهود إعداد البيانات اليدوية والمخصصة

مستخدمو كتالوج البيانات

كل مشكلات إدارة البيانات هذه تُحبط المستخدمين مثل مهندسي البيانات وعلماء البيانات ومسئولي البيانات وكبار مسؤولي البيانات. وتريد جميع هذه المجموعات من الأشخاص الوصول بسهولة إلى البيانات الموثوقة. فيما يلي بعض التحديات التي يواجهونها:

يريد مهندسو البيانات معرفة كيف ستؤثر أي تغييرات على النظام ككل. قد يسألون:

  • ما تأثير تغيير المخطط في تطبيق إدارة علاقات العملاء؟
  • ما مدى اختلاف هياكل بيانات Peoplesoft وإدارة الرأسمال البشري؟

يريد علماء البيانات سهولة الوصول إلى البيانات وهم يريدون معرفة المزيد عن جودة البيانات. وهم يبحثون عن معلومات مثل:

  • أين يمكنني العثور على بعض بيانات الموقع الجغرافي واستكشافها؟
  • كيف يمكنني الوصول بسهولة إلى البيانات الموجودة في مستودع البيانات؟

يتم تكليف مسؤولي البيانات بالعملية المدارة للبيانات. وهي تهتم بالمفاهيم والاتفاقيات بين أصحاب المصلحة وإدارة دورة حياة البيانات نفسها. وسوف يطرحون أسئلة مثل:

  • هل نعمل على تحسين جودة بياناتنا التشغيلية؟
  • هل قمنا بتحديد معايير لعناصر البيانات الرئيسية المهمة؟

يهتم كبير موظفي البيانات بمن يفعل ما في المؤسسة. وهي لا تستخدم كتالوج البيانات عادة، ولكنها لا تزال تريد معرفة إجابات عن أسئلة مثل:

  • من يمكنه الوصول إلى معلومات العملاء الشخصية؟
  • هل لدينا سياسات الاحتفاظ المعرفة لكل البيانات؟

هل لدينا سياسات الاحتفاظ المعرفة لكل البيانات؟

حالات استخدام Data Catalog

في السنوات القليلة الماضية، أصبح مفهوم كتالوج البيانات شائعًا بسبب الكميات الكبيرة بشكل متزايد من البيانات التي يجب إدارتها والوصول إليها الآن. لقد بدأت تحليلات السحابة والبيانات الكبيرة والذكاء الاصطناعي والتعلم الآلي في تغيير الطريقة التي نحتاجها لرؤية بياناتنا وإدارتها والاستفادة منها - وليس فقط إدارتها، بل أيضًا القدرة على استخدامها والوصول إليها بشكل كامل.

يعني استخدام كتالوج البيانات الطريقة الصحيحة استخدام البيانات بشكل أفضل، وكلها تسهم في:

  • وفورات التكلفة
  • الفعالية التشغيلية
  • مزايا تنافسية
  • تجربة أفضل للعملاء
  • ميزة تجنب الاحتيال والمخاطر
  • والمزيد

فيما يلي بعض حالات الاستخدام لكتالوج بيانات. ولكن في الواقع، يمكن استخدام كتالوج البيانات بطرق عديدة نظرًا لأنه أساسًا يتعلق بالحصول على رؤية أوسع ووصول أعمق إلى بياناتك.

التحليلات ذاتية الخدمة. يواجه العديد من مستخدمي البيانات مشكلة في العثور على البيانات الصحيحة. وليس فقط العثور على البيانات الصحيحة ولكن فهم ما إذا كانت مفيدة. يمكنك اكتشاف ملف يسمى customer_info.csv. وقد تحتاج إلى ملف حول العملاء. ولكن هذا لا يعني أنه هو المناسب لأنه يمكن أن يكون واحدًا من 50 ملفات مماثلة. قد يحتوي الملف على العديد من الحقول وقد لا تفهم كل عناصر البيانات هذه. ستحتاج إلى طريقة أسهل لرؤية سياق الأعمال حوله، مثل ما إذا كان موردًا مدارًا أو من مخزن البيانات الصحيح أو العلاقة مع البيانات الاصطناعية الأخرى.

يمكن أن يستلزم الاكتشاف أيضًا فهم شكل وخصائص البيانات، من شيء بسيط مثل توزيع القيمة أو المعلومات الإحصائية أو شيء مهم ومعقد مثل معلومات التعريف الشخصية (PII) أو معلومات الصحة الشخصية (PHI).

إدارة التدقيق والامتثال والتغيير. مع اللوائح الحكومية المتزايدة باستمرار حول البيانات، غالبًا ما تحتاج إلى إظهار مصدر البيانات - سواء كانت بعض البيانات الاصطناعية تأتي من هذا المصدر أو ذلك المصدر، أو كيف يتم تحويلها قبل الوصول إلى أي هدف نهائي. عند النظر إلى جدول أو تقرير أو ملف، غالبًا ما يريد مستخدمو البيانات فهم مصدر البيانات وكيفية انتقالها عبر المؤسسة بطرق مختلفة. من منظور إدارة التغييرات، من المهم عرض كيفية تأثير التغييرات في أحد أجزاء مسار البيانات على أجزاء أخرى من النظام. ولهذا السبب يسعى العملاء للحصول على مصدر بيانات تفصيلي.

دعم إدارة البيانات باستخدام قاموس الأعمال. تحتوي معظم المؤسسات على مفردات يوافق عليها الجميع وتتفهم بشكل متسق أنه يمكنهم استخدامها لمفاهيم الأعمال. ولكن في كثير من الأحيان، يتم تسجيلها في أوراق Excel في مكان ما - وهذا إذا كانت المؤسسة محظوظة. كتالوج البيانات هو مكان أفضل بكثير حيث يمكنك تخزين وإدارة معلومات الأعمال الحيوية هذه.

يتيح لك دليل البيانات أيضًا إنشاء روابط بين شروط العمل لإنشاء تصنيف. وعلاوة على ذلك، يمكنه تسجيل العلاقات بين المصطلحات والأصول الفعلية مثل الجداول والأعمدة. كما أنه يتيح للمستخدمين فهم مفاهيم الأعمال ذات الصلة بالبيانات الفنية. كما أنه يتيح للمستخدمين فهم مفاهيم الأعمال ذات الصلة بالبيانات الفنية. ويساعد ذلك من خلال زيادة ثقة المستخدمين في ما يبحثون عنه، لأنهم يمكنهم رؤية كل ما يتعلق ببياناتهم وغالبًا ما يكون نقطة بداية جيدة لإدارة البيانات.

ما الذي يلزم للاستفادة الكاملة من البيانات في كتالوج بيانات؟

لذلك دعونا نتراجع ونشرح بسرعة بيانات التعريف لأولئك الذين قد لا يكونون على دراية بها تمامًا. ما المقصود بالبيانات الوصفية؟ هناك ثلاثة أنواع من بيانات التعريف:

  • البيانات الوصفية التقنية: المخططات والجداول والأعمدة وأسماء الملفات وأسماء التقارير - أي شيء موثق في النظام المصدر
  • البيانات الوصفية الخاصة بالأعمال: عادة ما تكون هذه هي المعرفة بمجال الأعمال التي لدى المستخدمين حول الأصول في المؤسسة. قد يتضمن ذلك أوصاف الأعمال والتعليقات التوضيحية والتصنيفات وملاءمة الاستخدام والتصنيفات والمزيد.
  • بيانات التعريف التشغيلية: متى تم تجديد هذا الكائن؟ ما وظيفة ETL التي أنشأتها؟ كم مرة قام مستخدمون بالوصول إلى الجدول - وأي منهم؟

في السنوات القليلة الماضية، شهدنا ثورة مصغرة حول كيفية استخدام هذه البيانات الوصفية القيمة. يتم استخدام بيانات التعريف في الغالب فقط للمراجعة والتسلسل وإعداد التقارير فقط لمرة واحدة. ولكن اليوم، تدفع الابتكارات التكنولوجية مثل المعالجة بدون خادم، وقواعد بيانات الرسوم البيانية، وخاصة تقنيات الذكاء الاصطناعي والتعلم الآلي الجديدة أو الأكثر سهولة، الحدود وجعل الأمور ممكنة باستخدام البيانات الوصفية التي لم تكن ممكنة على هذا النطاق من قبل.

واليوم، يمكن استخدام البيانات الوصفية لزيادة إدارة البيانات. يمتد كل شيء بدءًا من إعداد بيانات الخدمة الذاتية إلى التحكم في الوصول إلى قاعدة محتوى الأدوار والبيانات، . حالات الخلل المؤتمتة في تسجيل البيانات ومراقبتها وتنبيهها. موارد الإعداد الآلي والقياس الآلي إلخ. ويمكن الآن تعزيز كل هذا بمساعدة بيانات التعريف.

ويستخدم كتالوج البيانات بيانات التعريف لمساعدتك على تحقيق أكثر من أي وقت مضى في إدارة بياناتك.

ما الذي يجب أن يقدمه كتالوج البيانات؟

يجب أن يوفر كتالوج البيانات الجيد:

البحث والاكتشاف. يجب أن يكون لكتالوج البيانات خيارات بحث وترشيح مرنة للسماح للمستخدمين بالعثور بسرعة على مجموعات البيانات ذات الصلة من أجل علوم البيانات أو التحليلات أو هندسة البيانات. أو استعراض بيانات التعريف استنادًا إلى تدرج فني لأصول البيانات. كما يؤدي تمكين المستخدمين من إدخال معلومات فنية أو علامات محددة بواسطة المستخدم أو مصطلحات أعمال إلى تحسين إمكانات البحث.

جمع بيانات التعريف من مصادر مختلفة. تأكد من أن كتالوج البيانات الخاص بك يمكنه جمع بيانات التعريف الفنية من مجموعة متنوعة من أصول البيانات المتصلة، بما في ذلك تخزين الكائنات وقواعد البيانات ذاتية التوجيه والأنظمة المحلية وغير ذلك الكثير.

معالجة بيانات التعريف. يمكنك توفير طريقة للخبراء المتخصصين للمساهمة في المعرفة التجارية في شكل مسرد أعمال للمؤسسة والعلامات والارتباطات والتعليقات التوضيحية التي يحددها المستخدم والتصنيفات والتقييمات والمزيد.

الأتمتة وذكاء البيانات. في مقاييس البيانات التي ذكرناها، غالبًا ما يكون الذكاء الاصطناعي والتعلم الآلي ضروريين. يجب أتمتة أي وجميع المهام اليدوية التي يمكن أتمتتها باستخدام تقنيات الذكاء الاصطناعي والتعلم الآلي في بيانات التعريف التي تم جمعها. بالإضافة إلى ذلك، يمكن أن يبدأ الذكاء الاصطناعي والتعلم الآلي في زيادة الإمكانات حقًا باستخدام البيانات، مثل تقديم توصيات البيانات لمستخدمي كتالوج البيانات ومستخدمي الخدمات الأخرى في نظام أساسي حديث للبيانات.

إمكانات على مستوى المؤسسة. تعتبر بياناتك مهمة، وتحتاج إلى إمكانات من فئة المؤسسات لاستخدامها بشكل صحيح، مثل إدارة الهوية والوصول والإمكانيات الرئيسية عبر واجهات برمجة تطبيقات REST. وهذا يعني أيضًا أن العملاء والشركاء يمكنهم المساهمة ببيانات التعريف (مثل وحدات التجميع المخصصة) وكذلك عرض إمكانات كتالوج البيانات في التطبيقات الخاصة بهم عبر خدمة REST.

بالإضافة إلى كل ذلك، يجب أن يصبح كتالوج البيانات الخاص بك كتالوج نظام إلغاء البيانات الفعلية، مما يوفر التجريد عبر جميع طبقات الثبات الخاصة بك مثل متجر الكائنات، وHadoop، وقواعد البيانات، ومستودع البيانات، وللاستعلام عن الخدمات التي تعمل عبر جميع مخازن البيانات.

وهذا أيضًا هو السبب في أن كتالوج البيانات لم يعد جيدًا. بل أصبحت ضرورة حتمية.

ماسبب اختيارOracle Cloud Infrastructure Data Catalog؟

يجب أن يكون لكل مؤسسة كتالوج بيانات قوي. ولكن لماذا تريد Oracle Cloud Infrastructure Data Catalog؟

يتم تضمين Oracle Cloud Infrastructure Data Catalog مع جميع اشتراكات Oracle Cloud Infrastructure ويساعد العملاء على تنظيم أصول البيانات الخاصة بهم والتحكم فيها. إنه حل تعاوني واحد لمحترفي البيانات ليس فقط لتنظيم البيانات والتحكم فيها، ولكن أيضًا جمع البيانات الوصفية التقنية والتجارية والتشغيلية والوصول إليها وإثراؤها وتنشيطها لدعم اكتشاف بيانات الخدمة الذاتية وحوكمتها للثقة في أصول البيانات في Oracle Cloud وخارجها.

ومن الناحية العملية، سيقوم بما يلي:

  • جمع بيانات التعريف الفنية حول أصول البيانات على Oracle Cloud Infrastructure مثل Oracle Cloud Infrastructure Object Storage وOracle Autonomous Database وOracle Database.
  • البحث عن البيانات المناسبة واستكشافها من مجموعة متنوعة من المصادر المختلفة من خلال المرشحات والبحث متعدد الأوجه
  • إدارة قاموس الأعمال لتسجيل مفردات الأعمال للمؤسسة
  • إثراء فهم البيانات المتاحة من خلال تسجيل المعرفة الضمنية في نموذج التعليقات التوضيحية والعلامات المعرفة بواسطة المستخدم
  • احصل على عرض شامل لأصول البيانات عن طريق إقران العلامات وشروط الأعمال
  • دمج الإمكانيات في تطبيقات أخرى باستخدام واجهات برمجة تطبيقات REST وSDK
  • الوصولالمؤمن مع الأنظمة المستندة إلى مجموعة IAM

النتيجة

تسعى المؤسسات جاهدة لتكون قائمة على البيانات. إنهم يريدون تحليلات أفضل وأسرع دون التضحية بالحوكمة. وهذا ما يجعل إدارة البيانات أكثر أهمية وتحديًا. يساعد كتالوج البيانات على تسهيل إدارة البيانات، كما يسهل تلبية الطلبات العديدة. من خلال Oracle Cloud Infrastructure Data Catalog، اتخذت Oracle خطوات لمساعدة الجميع على اكتشاف البيانات واستخدامها بالطريقة التي يريدونها دائمًا.