מהי למידה בלתי מונחית?

מייקל צ'ן | אסטרטג תוכן | 17 ביולי 2024

למידה בלתי מונחית היא טכניקה של למידת מכונה שמשתמשת בסלי נתונים לא מתויגים לאימון. בלמידה בלתי מונחית, למודל אין הנחיות מבוססות בנוגע לערכי פלט או לקשרים רצויים. במקום זאת, המטרה היא לחקור את הנתונים ובכך לגלות דפוסים, מגמות וקשרים.

למידה בלתי מונחית היא הבחירה האופטימלית לפרויקט של למידת מכונה עם כמות גדולה של נתונים לא מתויגים ולרוב מגוונים, שבהם הדפוסים והקשרים עדיין לא ידועים. האלגוריתם יגלה לרוב תובנות שאחרת לא ניתן היה למצוא אותן. לדוגמה, בחינת סל נתונים של היסטוריית רכישות יכולה לחשוף אשכולות של לקוחות שקונים בדרכים דומות, שבעבר לא היו ידועות. מקבלי החלטות עשויים להשתמש במידע זה כדי לפתח תוכניות פעולה חדשות למכירות.

אופיה החקרני של למידה בלתי מונחית הופך אותה לבחירה הטובה ביותר לתרחישים ספציפיים. תרחישים אלה כוללים:

ניתוח נתונים גולמיים: האלגוריתמים של למידה בלתי מונחית יכולים לחקור נפחי נתונים לא מובנים וגדולים במיוחד, כגון טקסט, כדי למצוא דפוסים ומגמות. דוגמה לכך היא מגיעה משאילתות היסטוריות שנשלחו בדוא"ל מלקוחות. כאן, האלגוריתם של למידה בלתי מונחית יכול לחקור סל נתונים לא מובנה של הודעות דוא"ל מלקוחות. למרות שאין תיוג נתונים להגדרת האיכות או המטרה של האינטראקציות האלו, האלגוריתם יכול להבחין בדפוסים שעשויים להדגיש הזדמנויות לשיפור, כמו כמות גדולה של שאילתות בנוגע לאותה בעיה טכנית.

קיבוצים: עבור פילוח נתונים, למידה בלתי מונחית יכולה לבחון את התכונות של נקודות נתונים כדי לקבוע מאפיינים דומים ודפוסים וליצור קבוצות. דוגמה לכך מגיעה מפרויקט לאימון מודל שפה גדול (LLM) כדי להשיב לקלט מלקוח. באמצעות משוב לקוח לא מובנה מצ'טבוטים ומהודעות, האלגוריתם יכול ללמוד לזהות קטגוריות בהתאם לטקסט, כמו שאלה על חיוב, משוב חיובי או שלילי, שאלה טכנית או פנייה בנוגע להעסקה. סיווג זה יכול לעזור למודל לזהות תגובות מתאימות גם מבחינת השפה וגם מבחינת הטון.

קשרים: בדומה לקיבוצים, למידה בלתי מונחית יכולה להסתכל על המשקל (חשיבות המאפיינים או ערכי הקלט שחופפים לנקודות נתונים), על מרחק (מידת הדמיון הכולל בין נקודות נתונים), ועל איכות הקשרים כדי לקבוע איך נקודות הנתונים מחוברות. חשבו על אלגוריתם לאיתור הונאה שלא רק מסמן באופן בינארי רשומות שמוטלות בספק על ידי בחירת נקודות הנתונים הקשורות השונות, כמו רכישות דומות שבוצעו על ידי חשבונות שסומנו בעבר או רכישות אחרות שבוצעו על ידי החשבון הנדון. ניתוח קשרים מספק הקשר, ומאפשר למוסדות לקבוע אם הרשומה שסומנה הייתה מופע חד-פעמי, חלק מדפוס התנהגות נרחב יותר, או הונאה.

בכל אחד מהמקרים האלו, למידה בלתי מונחית מזהה דפוסים ומאפיינים בתוך הנתונים. תהליך זה יכול להוביל להבנה טובה יותר של מה שניתן ללמוד כדי לעזור בקבלת החלטות.

מהי למידה בלתי מונחית?

למידה בלתי מונחית היא סוג של למידת מכונה שבה האלגוריתם מתאמן על נתונים לא מתויגים. פרויקט של למידה בלתי מונחית מתחיל בקביעת הבעיה שיש לפתור או יעד אחר. בעזרת מידע זה, מנהלי הפרויקט יכולים לבחור את סוג האלגוריתם של הפרויקט. בחירה זו בדרך כלל מבוססת על התוצאה הרצויה: קיבוץ באשכולות או ממדיות – התהליך של זיהוי מאפיינים והגדרתם, או משתנים בתוך סל נתונים. יעדים קובעים גם את החיפוש אחר סלים של נתוני אימון, מכיוון שיעדי הפרויקט וסוגי האלגוריתמים שלו קובעים את סוג הנתונים הנדרשים.

ברגע שקובעים את הפרמטרים האלו, האלגוריתם עובר אימון באמצעות ניסוי וטעייה כדי לחקות קשרי קלט/פלט מבוססים עד שהאלגוריתם יעמוד בתקן ביצועים מקובל. מומחי נתונים מנתחים את התוצאות כדי לראות אם המודל גילה תובנות רצויות ומבצעים איטרציה על ידי כוונון המודל והתאמת הפרמטרים לשיפור הביצועים.

ההחלטה להשתמש בלמידה בלתי מונחית כוללת תנאים. מכיוון שלמידה בלתי מונחית היא שיטת אימות מורכבת יותר לעומת למידה מונחית או למידה מונחית למחצה, בגלל המחסור בנתונים מתויגים שעוזרים לאמת את התוצאות, היא לרוב דורשת השגחה של מומחים שיכולים לאמת את ביצועי המודל. לכן, בעוד שלמידה בלתי מונחית היא תהליך אוטומטי מנקודת מבט של תיוג נתונים והכנה, היא דורשת פיקוח צמוד כדי לוודא שאין סטייה. לדוגמה, במודל בינה מלאכותית גנרטיבית שקיבל משימה להפיק איורים מציאותיים, מומחי דומיין יצטרכו לבחון בקפידה את התוצאות כדי להבטיח שהדפוסים והקשרים שעזרו ליצור את התמונה מדויקים בתחומים כגון תאורה, אנטומיה והיתכנות מבנית. אחרת, אתם עשויים לקבל אצבעות נוספות בידיים או ברגליים.

הסוגים הנפוצים ביותר של למידה בלתי מונחית הם:

קיבוץ באשכולות: כאשר האלגוריתם מחפש קבוצות של נתונים דומים ואת המאפיינים המשותפים ביניהם. דוגמאות מציאותיות כוללות פילוח לקוחות וסינון אוטומטי של הודעות דוא"ל.

כלל שיוך: כשהאלגוריתם בוחן קשרים בין נקודות נתונים, בין אם הן על פני השטח או מוסתרות מתחת לכמה שכבות. דוגמאות מציאותיות כוללות דפוסי רכישות של לקוחות וקשרי סימפטומים לאבחון רפואי.

הפחתת ממדיות: כאשר המודל בוחן סל נתונים כדי להפחית את מספר המאפיינים (ממדים) הלא רלוונטיים שנמצאים בשימוש. דוגמאות מציאותיות כוללות אלגוריתמים לזיהוי תמונה ולדחיסת נתונים.

למידת מכונה בלתי מונחית מאפשרת לחברות לגלות דפוסים ותובנות בסלי נתונים גדולים, מגוונים ולא מובנים שחסרים בהן קטגוריות או תוויות מוגדרות מראש, ללא התערבות אנושית. התהליך דומה לסינון אלפי גרגרי חול כדי למצוא חלקיקי זהב – קבלת האפשרות למציאת הזדמנויות חדשות לצמיחה וחדשנות.

איזה תרחיש שימוש של בינה מלאכותית הוא המתאים ביותר ללמידה בלתי מונחית? גלו זאת ועוד בספר האלקטרוני הזה

שאלות נפוצות על למידה בלתי מונחית

מהם שני הסוגים של למידה בלתי מונחית?

טכניקות של למידה בלתי מונחית מסווגות לרוב כאחד משני סוגים שונים. קיבוץ באשכולות מתייחס לתהליך של קיבוץ נתונים בהתאם לתכונות, עם אלגוריתמים שמשתמשים בשיטות ניתוח כמו קיבוץ באשכולות היררכי – יצירת אשכולות בעצים היררכיים, כגון כוח רכישה של לקוחות לפי מיקוד – וקיבוץ באשכולות הסתברותי, שמשתמש בציוני הסתברות שמחשבים את הסיכוי לשייכות, כגון מאפייני סיכון של לקוח בניתוח הלוואה. למידת כלל שיוך מתייחסת לתהליך של זיהוי קשרים בין נקודות נתונים כדי לקבוע דפוסים ומגמות, כאשר האלגוריתמים משתמשים בשיטות כמו שיוך כמותני – קשרים משויכים בהתאם למאפיינים מספריים או כמותיים בין נקודות נתונים, כגון מגמות רכישה לפי גיל – ושיוך מרובה קשרים, כלומר קשרים משויכים בין כמה משתנים אפשריים בין נקודות נתונים, כגון ביצועים של אתלט מקצועי בהתאם לגיל, איכות חברי הקבוצה, משכורת ותוכנית לימודים באוניברסיטה.

מהי דוגמה טובה ללמידה בלתי מונחית?

דוגמה טובה ללמידה בלתי מונחית היא ‏מודל שפה גדול של בינה מלאכותית עבור תעשיית שירותי הבריאות. במקרה הזה, מודל השפה הגדול מתאמן על סלי נתונים לא מובנים, כגון ספרי לימוד רפואיים, רשומות מטופלים ונתוני מחקרים. באמצעות אימון חזרתי, מודל השפה הגדול לומד קשרים ודפוסים, כאשר היעד הסופי של מודל השפה הגדול הוא לענות על שאילתות באמצעות שפה רפואית מתאימה ברמת דיוק גבוהה.

מה ההבדל בין למידה מונחית ללמידה בלתי מונחית?

למידה מונחית משתמשת בסלי נתונים מתויגים באימון האלגוריתם. בעזרת תוויות פלט וקלט ברורות, הלמידה המונחית מתבססת על התשתית של הגדרות מבוססות. לדוגמה, אלגוריתם לזיהוי חתולים מתאמן על תמונות שתויגו בבירור בתור תמונות שכוללות חתולים או תמונות שלא כוללות חתולים. למידה בלתי מונחית משתמשת בסלי נתונים לא מתויגים באימון. ללא תוויות, האלגוריתם חוקר את סלי הנתונים כדי לזהות דפוסים ומגמות. אם נשתמש באותה דוגמה של זיהוי חתולים, המערכת יכולה לאמן מראש בעזרת סלי נתונים לא מתויגים של טקסט בסגנון אנציקלופדיה כללית ותמונות כדי ללמוד דפוסים חזותיים ומושגים הקשורים לחתולים. לאחר מכן, ניתן לבצע מיקוד על ידי אימון על סלים של נתוני תמונות קטנים יותר עבור פריטים ספציפיים, כגון פרצופים של חתולים, כפות וזנבות.

מהי דוגמה של למידת מאפיין בלתי מונחית?

בלמידת מכונה, מאפיינים הם משתנים שנמצאים בסל נתונים. דוגמה של מאפיין עבור אלגוריתם של מזג אוויר הוא היום בשנה. במקרה הספציפי של למידה בלתי מונחית, המאפיינים מזוהים בזמן שהאלגוריתם חוקר את הנתונים. אם נחזור לדוגמה של מזג האוויר, המודל עשוי לגלות דרך חקירת הנתונים שהתאריך הוא פקטור חשוב בחישוב תחזיות ולכן הוא יקבע שהוא מאפיין קלט נדרש עבור המודל.