מהי למידה מונחית למחצה?

מייקל צ'ן | אסטרטג תוכן | 29 באוקטובר 2024

למידה מונחית למחצה היא סוג של למידת מכונה הכוללת גם מערכי נתוני אימון מתויגים וגם לא מתויגים. כפי שאפשר להסיק משמה, שיטה זו משלבת אלמנטים של למידה מונחית ולמידה לא מונחית. למידה מונחית למחצה משתמשת בתהליך דו-שלבי. ראשית, האלגוריתם של הפרויקט מאומן בהתחלה באמצעות מערך נתונים מתויג, כמו בלמידה מונחית. לאחר מכן, האלגוריתם מתקדם על ידי אימון על מערך נתונים לא מתויג.

למידה מונחית למחצה היא אידיאלית כאשר לפרויקטים יש הרבה נתוני אימון, אבל רוב הנתונים או כולם לא מתויגים. במקרה של פרויקטים עם נתונים לא מתויגים זמינים בלבד, למידה מונחית למחצה יכולה להפעיל פרויקטים על ידי ביצוע הדרכה ראשונית עם נתונים מתויגים ידנית לפני המעבר לנתוני אימון לא מתויגים בלבד. עם פרויקטים המשתמשים בגישה זו, צוותים חייבים להיות זהירים בתיוג נתונים ידני מכיוון שהם הופכים לבסיס שעליו נבנה שאר הפרויקט.

ההחלטה להשתמש בלמידה מונחית למחצה מסתכמת לעיתים קרובות במערכי הנתונים הזמינים. בעידן הביג דאטה, נתונים לא מתויגים זמינים ונגישים בהרבה לעומת נתונים מתויגים, ועלות ההשגה שלהם תהיה נמוכה יותר, תלוי במקור.

עם זאת, ייתכן שפרויקט יצטרך להתקדם עם נתונים לא מתויגים בלבד. כשזה קורה, צוותים חייבים להחליט אם כדאי לנצל את האופי החוקר של למידה לא מונחית או לבזבז את הזמן והכסף כדי לתייג חלק ממערך הנתונים כאמצעי לאימון אלגוריתם ראשוני.

מהי למידה מונחית למחצה?

למידה מונחית למחצה היא טכניקה של למידת מכונה בין למידה מונחית ל למידה לא מונחית. היא משתמשת בנתונים מתויגים ולא מתויגים כדי לאמן אלגוריתמים, והיא עשויה לספק תוצאות טובות יותר משהייתה מספקת עם נתונים מתויגים בלבד.

כדי להחליט אם למידה מונחית למחצה מתאימה לפרויקט, על הצוותים לשאול שאלות כולל:

  • אילו מערכי נתונים זמינים לנו לפרויקט זה?
  • האם אחד ממערכי הנתונים האלה מתויגים? דוגמה לתוויות של מערך נתונים כספיים עשויה להיות נתוני עסקאות עם תוויות המציינות אם העסקה היא הונאה או לגיטימית.
  • אם כל מערכי הנתונים אינם מתויגים, האם לצוות יש משאבים לתייג לפחות חלק מהנתונים?
  • האם יעדי הפרויקט יהיו קלים יותר למימוש באמצעות למידה מונחית או לא מונחית? הגורמים שיש להביא בחשבון כאן כוללים שילוב של יכולות פרקטיות וטכניות, כולל משאבי מחשוב, תקציב, מועדים אחרונים ותוצאות רצויות.
  • האם מערך הנתונים המתויג שלנו מספיק כדי ללמד את המודל את הדפוסים והמאפיינים של עסקאות לגיטימיות והונאות?

התשובות לשאלות אלה יקבעו את ההתאמה לפרויקט. לאחר קבלת ההחלטה להשתמש בלמידה מונחית למחצה, השלב הבא הוא להכין שני מערכי נתונים לאימון. המערך הראשון הוא בדרך כלל נתונים עם תוויות קטנות שישמשו עוגן לתהליך האימון של הפרויקט. מערך נתוני האימון השני יהיה גדול יותר - לעיתים קרובות אפילו ממש גדול - ולא מתויג. כאשר המערכת מעבדת את מערך הנתונים הלא מתויג, היא מייצרת תוויות מדומות באמצעות מה שהיא למדה מהנתונים המתויגים. לאחר מכן, תהליך זה חוזר על עצמו כדי לחדד את האלגוריתם ולמטב את הביצועים.

הסוגים הנפוצים ביותר של למידה מונחית למחצה הם:

  • אימון עצמי: באימון עצמי משתמשים במערך הנתונים המתויג כדי לאמן את האלגוריתם, ולאחר מכן באימון הבא נוצרים תוויות מדומות מהימנות למדי (בהסתברות של יותר מ-99%) לנתונים הלא מתויגים, כך שלכל הרשומות יש תוויות. לאחר מכן, המערכת מתאמנת על מערך הנתונים המורחב הכולל את נתוני האימון המתויגים המקוריים המשורשרים עם מערך הנתונים שלא מתויגים בתוויות מדומות, מה שמאפשר אימון בנפחים גדולים יותר של נתונים בהשוואה למערך הנתונים המתויג המקורי.
  • אימון משותף: באימון משותף משתמשים במערך נתונים מתויג קטן וניגשים אליו בשתי גישות שונות (קבוצות תכונות) המתמקדות במידע משלים ועצמאי. כל קבוצה מאמנת אלגוריתם נפרד, ואז ממשיכה לבצע תחזיות על מערך נתונים לא מתויג כדי לסווג תוויות מדומות לכל מודל שנוצר. כל תווית מדומה שנוצרה על ידי מסווג (אלגוריתם שחוזה תוויות) מגיעה עם ציון הסתברות, והתווית המדומה עם ציון ההסתברות הגבוה יותר מתווספת למערך נתוני האימון האחר.

לדוגמה, מודל חיזוי מזג אוויר עשוי להתחיל במערך נתונים שמשתמש בתוויות על מדדים מתועדים, כגון מהירות רוח, לחץ אטמוספרי ולחות, ואילו המודל השני משתמש בנתונים כלליים יותר, כגון מיקום גאוגרפי, תאריך/שעה וכמות משקעים ממוצעת מתועדת. שני המודלים מייצרים תוויות מדומות, וכאשר למודל המדדים יש ציון הסתברות גבוה יותר מהמודל הכללי, התווית המדומה מוחלת על המודל הכללי ולהיפך.

כל שיטה ממשיכה להתאמן כדי למקד אזורים שתוצאות ההסתברות שלהם נמוכות עד שיופק מודל סופי מקיף.

היתרונות והחסרונות בלמידה מונחית למחצה

יתרונות חסרונות
זול יותר. על ידי מינוף נתונים לא מתויגים, למידה מונחית למחצה מפחיתה את הצורך בתיוג נתונים ידני נרחב, וחוסכת זמן וכסף. רגישות לאיכות נתונים מתויגת. הדיוק והרלוונטיות של הנתונים המתויגים משפיעים באופן משמעותי על ביצועי המודל,ולכן צריך להשקיע מאמץ וכסף כדי להבטיח תיוג איכותי.
ביצועי מודל משופרים. במקרים רבים, מודלים של למידה מונחית למחצה יכולים להגיע לדיוק טוב יותר בהשוואה למודלים שאומנו רק על נתונים מתויגים, במיוחד כאשר נתונים מתויגים הם נדירים יותר. אי-התאמה למערכי נתונים מורכבים ומגוונים. המודל עשוי להיאבק למצוא קשרים משמעותיים בין נתונים מתויגים לנתונים לא מתויגים אם המבנה הבסיסי מורכב מדי.
יעילות עבור נתונים לא מובנים. למידה מונחית למחצה מתאימה במיוחד למשימות כגון חלוקה לקטגוריות טקסט, סרטון או שמע, שבהן נתונים לא מתויגים הם לרוב נפוצים. שקיפות מוגבלת. הבנת האופן שבו מודל למידה מונחית למחצה מגיע לתחזיותיו ובדיקת הדיוק שלו יכולה להיות מאתגרת יותר בהשוואה ללמידה מונחית.

למידת מכונה מונחית למחצה משלבת את המבנה של השקת פרויקט באמצעות למידה מונחית עם היתרונות של למידה לא מונחית, כגון זיהוי חריגות מתקדם והיכולת לחשוף דפוסים ומבנים נסתרים בנתונים לא מתויגים. אמנם האפשרות לא מתאימה לכל מצב, אבל הגמישות הטבועה במודל הופכת אותו לאפשרי עבור מגוון רחב של צרכים ומטרות של פרויקטים.

חברות שנאבקות לפתח אסטרטגיית בינה מלאכותית עשויות לגלות שהקמת מרכז מצוינות מובילה אותן להצלחה בת קיימא. גלו למה, וקבלו מפת דרכים לבניית מרכז מצוינות משלכם כבר עכשיו.

שאלות נפוצות על למידה מונחית למחצה

באילו מצבים משתמשים בדרך כלל בלמידה מונחית למחצה?

למידה מונחית למחצה פועלת בצורה הטובה ביותר כאשר לפרויקטים יש גישה לנתונים לא מתויגים בלבד או בעיקר. בנסיבות אלה, הצוותים יכולים לתייג באופן ידני תת-קבוצה של נתונים כדי ליצור את מערך נתוני האימון לשלב הראשון, ולאחר מכן לאפשר למודל לחקור את מערך הנתונים הלא מתויגים.

מה ההבדל בין למידה מונחית למחצה לבין למידה לא מונחית?

למידה לא מונחית מאפשרת למודלים לחקור מערכי נתונים לא מתויגים במטרה לגלות דפוסים וקשרים בין קלטים ופלטים בעצמם. למידה מונחית למחצה משתמשת בשיטה זו, אבל עם שלב מקדים של אימון האלגוריתם על מערך נתונים מתויג קטן כדי להכווין את הפרויקט.

מהם כמה יתרונות וחסרונות של למידה מונחית למחצה?

היתרונות של למידה מונחית למחצה כוללים:

  • היא משתמשת הן במערכי נתונים מתויגים והן במערכי נתונים לא מתויגים.
  • יש יכולות טובות יותר עבור נתונים לא מובנים, כגון נפחים כבדים של קובצי טקסט, סרטון או שמע.
  • היא משתמשת במערכי נתונים לא מתויגים נגישים יותר וזולים יותר.
  • ביצועי מודל משופרים, בעיקר בנתונים מוגבלים.

החסרונות של למידה מונחית למחצה כוללים:

  • ייתכן שיהיה צורך בזמן ובכסף כדי לתייג ידנית מערך נתוני אימון.
  • יש פוטנציאל נמוך יותר לדיוק ושקיפות בהשוואה ללמידה מונחית עם מערכי נתונים מתויגים איכותיים.
  • היא לא מתאימה עבור סוגים מסוימים של פרויקטים, כגון אלה עם הנחיות קפדניות או אלה הדורשים סטנדרטים מדויקים במיוחד לבטיחות.
  • היא לא מתאימה במיוחד למערכי נתונים מגוונים ומורכבים.