ما هو التعلم شبه الخاضع للإشراف؟

مايكل تشن | خبير استراتيجيات المحتوى | 29 أكتوبر 2024

التعلم شبه الخاضع للإشراف هو شكل من أشكال التعلم الآلي الذي ينطوي على كل من مجموعات بيانات التدريب المسمى وغير المسمى. كما يستدل من اسمه، تتضمن هذه الطريقة عناصر من كل من التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف. يستخدم التعلم شبه الخاضع للإشراف عملية من خطوتين. أولاً، يتم تدريب خوارزمية المشروع في البداية باستخدام مجموعة بيانات مصنفة، كما هو الحال في التعلم الخاضع للإشراف. بعد ذلك، تتحرك الخوارزمية إلى الأمام من خلال التدريب باستخدام مجموعة بيانات غير مصنفة.

يعتبر التعلم شبه الخاضع للإشراف مثاليًا عندما تحتوي المشروعات على الكثير من بيانات التدريب، ولكن معظمها أو كلها غير مصنف. في حالة المشروعات التي لا تتوفر بها سوى بيانات غير مصنفة، يمكن للتعلم شبه الخاضع للإشراف تشغيل المشروعات من خلال إجراء تدريب أولي باستخدام بيانات محددة يدويًا قبل التبديل إلى بيانات التدريب غير المصنفة فحسب. مع استخدام المشروعات لهذا النهج، يجب على الفِرق توخي الحذر عند وضع العلامات يدويًا على البيانات لأنها تصبح الأساس الذي تم بناء بقية المشروع عليه.

غالبًا ما يرجع قرار استخدام التعلم شبه الخاضع للإشراف إلى مجموعات البيانات المتاحة. في عصر البيانات الضخمة، تكون البيانات غير المصنفة متاحة ويمكن الوصول إليها أكثر بكثير من البيانات المصنفة، ووفقًا إلى المصدر، ويكلف الحصول عليها أقل.

ومع ذلك، قد يضطر المشروع إلى المضي قدمًا مع بيانات غير مصنفة فحسب. عندما يحدث ذلك، يجب على الفرق أن تقرر ما إذا كان من المفيد توظيف الطبيعة الاستكشافية للتعلم غير الخاضع للإشراف مقابل قضاء الوقت والمال لوضع علامة على جزء من مجموعة البيانات كوسيلة للتدريب الأولي على الخوارزمية.

ما هو التعلم شبه الخاضع للإشراف؟

التعلم شبه الخاضع للإشراف هو أسلوب التعلم الآلي الذي يقع بين التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف. يستخدم كل من البيانات المصنفة وغير المصنفة لتدريب الخوارزميات وقد يحقق نتائج أفضل من استخدام البيانات المصنفة وحدها.

لتحديد ما إذا كان التعلم شبه الخاضع للإشراف مناسبًا للمشروع، يجب على الفرق طرح الأسئلة بما في ذلك ما يلي:

  • ما هي مجموعات البيانات المتاحة لنا لهذا المشروع؟
  • هل تمت تصنيف أي من مجموعات البيانات هذه؟ قد يكون مثال على تسميات مجموعة البيانات المالية هو بيانات المعاملات ذات التصنيفات التي تشير إلى ما إذا كانت المعاملة احتيالية أم مشروعة.
  • إذا كانت جميع مجموعات البيانات غير مصنفة، فهل لدى الفريق الموارد اللازمة لتصنيف بعض البيانات على الأقل؟
  • هل أهداف المشروع أكثر قابلية للتحقيق من خلال التعلم الخاضع للإشراف أو غير الخاضع للإشراف؟ تتضمن عوامل الترجيح هنا مزيجًا من الجوانب العملية والتقنية، بما في ذلك موارد الحوسبة والميزانية والمواعيد النهائية والنتائج المرجوة.
  • هل مجموعة البيانات المصنفة لدينا كافية لتعليم النموذج أنماط وخصائص، على سبيل المثال، المعاملات الاحتيالية والمشروعة؟

ستحدد الإجابات على هذه الأسئلة الجدوى. بمجرد اتخاذ القرار للتحول مع التعلم شبه الخاضع للإشراف، فإن الخطوة التالية هي إعداد مجموعتين من بيانات التدريب. الأول هو مجموعة بيانات صغيرة تحمل علامة لترسيخ التدريب التأسيسي للمشروع. مجموعة بيانات التدريب الثانية أكبر - غالبًا أكبر بكثير - وغير مصنفة. عندما يقوم النظام بمعالجة مجموعة البيانات غير المصنفة، فإنه يقوم بإنشاء تصنيفات زائفة باستخدام ما تعلمه من المجموعة المصنفة. ثم تتكرر هذه العملية لتنقيح الخوارزمية وتحسين الأداء.

أكثر أنواع التعلم شبه الخاضع للإشراف شيوعًا هي:

  • التدريب الذاتي: باستخدام التدريب الذاتي، تستخدم العملية مجموعة البيانات المصنفة لتدريب الخوارزمية، ثم يقوم التدريب اللاحق بإنشاء تصنيفات زائفة عالية الثقة (أكثر من 99% من الاحتمالات) لمجموعة البيانات غير المصنفة بحيث تحتوي كل السجلات على تصنيفات. بعد ذلك، يتدرب النظام على مجموعة البيانات الموسعة التي تضم بيانات التدريب الأصلية التي تحمل علامة متعاقبة مع مجموعة البيانات غير المصنفة باستخدام التصنيفات الزائفة، مما يسمح بالتدريب على كميات أكبر من البيانات مقارنة بمجموعة البيانات الأصلية المصنفة.
  • التدريب المشترك: من خلال التدريب المشترك، تأخذ العملية مجموعة بيانات صغيرة تحمل علامة وتقترب منها مع عرضين مميزين (مجموعات الميزات) يركزان على المعلومات التكميلية والمستقلة. تقوم كل مجموعة بتدريب خوارزمية منفصلة، ثم تنتقل إلى إجراء تنبؤات على مجموعة بيانات غير مصنفة لتصنيف التصنيفات الزائفة لكل نموذج ناتج. يأتي كل تصنيف زائف تم إنشاؤها بواسطة مصنف (خوارزمية تتوقع تسمية) بمجموع نقاط احتمالية، ثم تتم إضافة التصنيف الزائف بمجموع نقاط الاحتمالية الأعلى إلى مجموعة بيانات التدريب الأخرى.

على سبيل المثال، قد يبدأ نموذج التنبؤ بالطقس بمجموعة بيانات باستخدام تصنيفات على المقاييس المسجلة، مثل سرعة الرياح والضغط الجوي والرطوبة، بينما يستخدم النموذج الآخر بيانات أكثر عمومية، مثل الموقع الجغرافي والتاريخ/الوقت ومتوسط هطول الأمطار المسجل. يقوم كلا النموذجين بإنشاء تصنيفات زائفة، وعندما يكون لنموذج المقاييس درجة احتمالية أعلى من النموذج العام، يتم تطبيق هذا التصنيف الزائف على النموذج العام، والعكس صحيح.

وتواصل كل طريقة التدريب على تحسين المجالات ذات النتائج المنخفضة الاحتمال إلى أن يتم إنتاج نموذج نهائي شامل.

إيجابيات وسلبيات التعلم شبه الخاضع للإشراف

إيجابيات سلبيات
أقل تكلفة. ومن خلال الاستفادة من البيانات غير المصنفة، يقلل التعلم شبه الخاضع للإشراف من الحاجة إلى وضع علامات شاملة على البيانات اليدوية، مما يوفر الوقت والمال. حساس لجودة البيانات المسماة. تؤثر دقة وأهمية البيانات المصنفة بشكل كبير على أداء النموذج، لذلك يجب تخصيص الرعاية والمال لضمان وضع علامات الجودة.
تحسين أداء النموذج. في كثير من الحالات، يمكن لنماذج التعلم شبه الخاضعة للإشراف تحقيق دقة أفضل مقارنة بالنماذج المدربة فقط على البيانات المصنفة، خاصةً عندما تكون البيانات المصنفة نادرة. غير مناسب لمجموعات البيانات المعقدة والمتنوعة. قد يواجه النموذج صعوبة في العثور على علاقات ذات معنى بين البيانات المصنفة وغير المصنفة إذا كان الهيكل الأساس معقدًا للغاية.
فعال للبيانات غير المنظمة. التعلم شبه الخاضع للإشراف مناسب بشكل خاص للمهام مثل النص أو الفيديو أو التصنيف الصوتي، حيث تكون البيانات غير المصنفة غالبًا وفيرة. الشفافية المحدودة. يمكن أن يكون فهم كيفية وصول نموذج التعلم شبه الخاضع للإشراف إلى توقعاته والتحقق من الدقة أكثر صعوبة مقارنة بالتعلم الخاضع للإشراف.

يجمع التعلم الآلي شبه الخاضع للإشراف بين بنية إطلاق مشروع باستخدام التعلم الخاضع للإشراف وفوائد التعلم غير الخاضع للإشراف، مثل الكشف المتقدم عن أوجه الخلل والقدرة على الكشف عن الأنماط والهياكل الخفية داخل البيانات غير المسماة. ومع أن مرونتها المتأصلة غير ملائمة لكل حالة، فإنها تجعلها خيارًا ممكنًا لمجموعة واسعة من احتياجات المشروع وأهدافه.

قد تجد الشركات التي تكافح لتطوير استراتيجية الذكاء الاصطناعي أن إنشاء مركز امتياز يضعها على طريق النجاح المستدام. تعرف على السبب واحصل على خارطة طريق لإنشاء CoE الآن.

الأسئلة الشائعة حول التعلم شبه الخاضع للإشراف

ما هي الحالات التي يستخدم فيها التعلم شبه الخاضع للإشراف عادةً؟

يعمل التعلم شبه الخاضع للإشراف بشكل أفضل عندما يكون للمشروعات إمكانية الوصول إلى البيانات غير المصنفة فحسب أو في الغالب. في هذه الظروف، يمكن للفرق تصنيف مجموعة فرعية من البيانات يدويًا لإنشاء مجموعة بيانات التدريب للخطوة الأولى، ثم السماح للنموذج باستكشاف مجموعة البيانات غير المصنفة.

ما هو الفرق بين التعلم شبه الخاضع للإشراف وغير الخاضع للإشراف؟

يسمح التعلم غير الخاضع للإشراف للنماذج باستكشاف مجموعات البيانات غير المصنفة بهدف اكتشاف الأنماط والعلاقات بين المدخلات والمخرجات بمفردها. يستخدم التعلم شبه الخاضع للإشراف هذه الطريقة، ولكن مع خطوة سابقة لتدريب الخوارزمية على مجموعة بيانات صغيرة مصنفة لبناء اتجاه أساس للمشروع.

ما هي بعض إيجابيات وسلبيات التعلم شبه الخاضع للإشراف؟

تشمل إيجابيات التعلم شبه الخاضع للإشراف ما يلي:

  • يستخدم كل من مجموعات البيانات المسماة وغير المصنفة.
  • هناك إمكانات أفضل للبيانات غير المنظمة، مثل الكميات الكبيرة من النصوص أو الفيديو أو الصوت.
  • ويستخدم مجموعات بيانات غير مصنفة يسهل الوصول إليها وأقل تكلفة.
  • تحسين أداء النموذج، خاصةً مع البيانات المحدودة.

تشمل سلبيات التعلم شبه الخاضع للإشراف ما يلي:

  • قد يتطلب الأمر وقتًا ومالًا لتصنيف مجموعة بيانات التدريب يدويًا.
  • من المحتمل أن تكون هناك دقة وشفافية أقل مقارنة بالتعلم الخاضع للإشراف مع مجموعات بيانات ذات جودة عالية.
  • إنه غير مناسب لبعض أنواع المشاريع، مثل تلك التي لديها إرشادات صارمة أو التي تتطلب معايير عالية الدقة للسلامة.
  • ليس مناسبًا تمامًا لمجموعات البيانات المعقدة والمتنوعة.