What Is Retrieval-Augmented Generation (RAG)?

That’s where retrieval-augmented generation (RAG) comes in. RAG provides a way to optimize the output of an LLM with targeted information without modifying the underlying model itself; that targeted information can be more up-to-date than the LLM as well as specific to a particular organization and industry. That means the generative AI system can provide more contextually appropriate answers to prompts as well as base those answers on extremely current data. RAG first came to the attention of generative AI developers after the publication of “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks,” a 2020 paper published by Patrick Lewis and a team at Facebook AI Research. The RAG concept has been embraced by many academic and industry researchers, who see it as a way to significantly improve the value of generative AI systems.

How Does Retrieval-Augmented Generation Work?

Consider all the information that an organization has—the structured databases, the unstructured PDFs and other documents, the blogs, the news feeds, the chat transcripts from past customer service sessions. In RAG, this vast quantity of dynamic data is translated into a common format and stored in a knowledge library that’s accessible to the generative AI system. The data in that knowledge library is then processed into numerical representations using a special type of algorithm called an embedded language model and stored in a vector database, which can be quickly searched and used to retrieve the correct contextual information.

Is RAG the same as generative AI?

No. Retrieval-augmented generation is a technique that can provide more accurate results to queries than a generative large language model on its own because RAG uses knowledge external to data already contained in the LLM.

What type of information is used in RAG?

RAG can incorporate data from many sources, such as relational databases, unstructured document repositories, internet data streams, media newsfeeds, audio transcripts, and transaction logs.

How does generative AI use RAG?

Data from enterprise data sources is embedded into a knowledge repository and then converted to vectors, which are stored in a vector database. When an end user makes a query, the vector database retrieves relevant contextual information. This contextual information, along with the query, is sent to the large language model, which uses the context to create a more timely, accurate, and contextual response.

Can a RAG cite references for the data it retrieves?

Yes. The vector databases and knowledge repositories used by RAG contain specific information about the sources of information. This means that sources can be cited, and if there’s an error in one of those sources it can be quickly corrected or deleted so that subsequent queries won’t return that incorrect information.

מהי יצירה מועצמת ע"י שליפה (RAG)?

אלן צייצ'יק | אסטרטג תוכן טכני | 19 בספטמבר 2023

במאמר זה

מה זה Retrieval-Augmented Generation (RAG)?
כל מה שצריך לדעת על Retrieveal-Augmented Generation
כיצד Retrieveal-Augmented Generation עובד?
שימוש ב-RAG ביישומי צ'אט
היתרונות של Retrieveal-Augmented Generation
האתגרים הכרוכים ב-Retrieveal-Augmented Generation
דוגמאות ל-Retrieveal-Augmented Generation
עתידו של Retrieveal-Augmented Generation
בינה מלאכותית גנרטיבית עם Oracle
שאלות נפוצות על Retrieveal-Augmented Generation

בינה מלאכותית (AI) גנרטיבית מצטיינת ביצירת תגובות טקסט המבוססות על מודלי שפה גדולים (LLMs) שבהן ה-AI מאומנת בעזרת מספר עצום של נקודות נתונים. החדשות הטובות הן שהטקסט שנוצר הוא לעיתים קרובות קל לקריאה ומספק תשובות מפורטות הניתנות ליישום רחב לשאלות הנשאלות מהתוכנה, המכונות 'מנחים'.

החדשות הרעות הן שהמידע שמשמש ליצירת התגובות מוגבל למידע ששומש לאימון הבינה המלאכותית, ולרוב מדובר ב-LLM כללי. ייתכן מאוד שהנתונים ב-LLM לא עודכנו במשך שבועות, חודשים או שנים, ובצ'אטבוטים נמתכי-AI של חברות, הם עלולים שלא לכלול מידע ספציפי על המוצרים או השירותים של הארגון. הדבר עלול להוביל לתגובות לא נכונות, השוחקות את האמון בטכנולוגיה בקרב לקוחות ועובדים.

מהי יצירה מועצמת ע"י שליפה (RAG)?

וכאן נכנס לתמונה retrieval-augmented generation (RAG). RAG מספק דרך למטב את פלט ה-LLM עם מידע ממוקד, מבלי לשנות את המודל הבסיסי עצמו; המידע הממוקד יכול להיות עדכני יותר מאשר המידע ב-LLM וספציפי לארגון והתעשייה הפרטניים. זה אומר שמערכת AI גנרטיבית יכולה לספק תשובות מתאימות יותר לפי ההקשר של המנחים שהיא מקבלת, ולבסס תשובות אלה על הנתונים העדכניים ביותר.

RAG תפס לראשונה את תשומת ליבם של מפתחי בינה מלאכותית גנרטיבית לאחר פרסום המאמר "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" ב-2020 על ידי פטריק לואיס וצוות של Facebook AI Research. המושג RAG אומץ על ידי חוקרים רבים באקדמיה ובתעשייה, אשר רואים בו דרך משמעותית לשיפור הערך של מערכות AI גנרטיביות.

כל מה שצריך לדעת על Retrieveal-Augmented Generation

קחו, לדוגמה, ליגת ספורט שרוצה שאוהדים וחברי התקשורת יוכלו להשתמש בצ'אט כדי לגשת לנתונים שלה ולענות לשאלות על שחקנים, קבוצות, ההיסטוריה והכללים של הספורט וסטטיסטיקות ודירוגים עדכניים. LLM כללי יוכל לענות לשאלות על ההיסטוריה והכללים, או אולי לתאר את האצטדיון של קבוצה מסוימת. הוא לא יהיה מסוגל לספר על המשחק שהתרחש בערב הקודם או לספק מידע עדכני על פציעה של ספורטאי מסוים, כי ל-LLM לא יהיה את המידע הזה – ולאור העובדה שנדרש כוח מחשוב משמעותי כדי לאמן מחדש מודלי LLM, זה לא ריאלי לשמור על המודל מעודכן תמיד.

בנוסף ל-LLM הסטטי ורחב-ההיקף, לליגת הספורט יש גישה למקורות מידע רבים אחרים, כולל מסדי נתונים, מחסני נתונים, מסמכים המכילים ביוגרפיות של שחקנים והיזני חדשות אשר דנים בכל משחק לעומק. RAG מאפשר לבינה מלאכותית גנרטיבית לבלוע את כל המידע זה. כעת, הצ'אט יכול לספק מידע עדכני יותר, מדויק יותר ומתאים יותר להקשר.

במילים פשוטות, RAG עוזר ל-LLM לתת תשובות טובות יותר.

תובנות מרכזיות

RAG היא טכניקת AI חדשה יחסית, שיכולה לשפר את איכות הבינה המלאכותית הגנרטיבית בכך שהיא מאפשרת למודלי שפה גדולים (LLM) לנצל משאבי נתונים נוספים ללא צורך באימון מחדש.
מודלי RAG בונים מאגרי ידע המבוססים על הנתונים של הארגון עצמו, ואת המאגרים האלה ניתן לעדכן באופן מתמשך כדי לעזור ל-AI הגנרטיבית לספק תשובות עדכניות והקשריות יותר.
צ'אטבוטים ומערכות שיחה אחרות המשתמשות בעיבוד שפה טבעית יכולים להפיק תועלת רבה מ-RAG ובינה מלאכותית גנרטיבית.
הטמעת RAG דורשת טכנולוגיות כגון מסדי נתונים וקטוריים, המאפשרות קידוד מהיר של נתונים חדשים, ויכולות חיפוש בנתונים אלה כדי להזינם ל-LLM.

כיצד Retrieveal-Augmented Generation עובד?

חשבו על כל המידע שיש לארגון שלכם – מסדי נתונים מובנים, קובצי PDF ומסמכים לא-מובנים אחרים, בלוגים, היזני חדשות ותמלילי צ'אט מפניות לשירות הלקוחות. ב RAG, כמות עצומה כזו של נתונים דינמיים מתורגמת לפורמט משותף ומאוחסנת בספריית ידע הנגישה למערכת ה-AI הגנרטיבית.

לאחר מכן, הנתונים בספריית הידע מעובדים לייצוגים מספריים באמצעות סוג מיוחד של אלגוריתם הנקרא 'מודל שפה מוטבעת' ומאוחסנים במסד נתונים וקטורי, שניתן לחפש בו ולהשתמש בו במהירות כדי לאחזר את המידע בהקשר הנכון.

RAG ומודלי שפה גדולים (LLM)

נניח שמשתמש קצה שולח למערכת AI גנרטיבית מנחה ספציפי – למשל, "איפה יתקיים המשחק הלילה, אילו שחקנים יעלו ראשונים ומה אומרים בתקשורת על המשחק?" השאילתא עוברת תרגום לווקטור ומשמשת לביצוע שאילתא במסד הנתונים הווקטורי, שמאחזר מידע רלוונטי לפי ההקשר של השאלה. מידע הקשרי זה יחד עם המנחה המקורי מוזן לתוך ה-LLM, אשר מייצר תגובת טקסט המבוססת גם על המידע הכללי והמיושן-מעט שלו וגם על המידע ההקשרי העדכני ביותר.

מעניין לציין שבעוד שתהליך אימון ה-LLM הכללי דורש זמן וכסף רבים, ההפך הוא הנכון ביחס לעדכון מודלי RAG. למודל השפה המשובץ אפשר לטעון נתונים חדשים ולתרגמם לווקטורים באופן מתמשך והדרגתי. למעשה, את כל התשובות ממערכת הבינה המלאכותית הגנרטיבית אפשר להזין בחזרה למודל ה-RAG ולשפר את הביצועים והדיוק שלו, כי הוא יודע איך הוא כבר ענה על שאלה דומות.

יתרון נוסף של RAG הוא שבשימוש במסד נתונים ווקטורי, ה-AI הגנרטיבית יכולה לצטט את מקור הנתונים המדויק בתשובה שלה – משהו ש-LLM לא יכול לעשות. לכן, אם יש חוסר דיוק בפלט ה-AI הגנרטיבית, אפשר לזהות ולתקן במהירות את המסמך שמכיל מידע שגוי ואז להזין את המידע המתוקן במסד הנתונים הווקטורי.

בקצרה, RAG מספק ל-AI גנרטיבית מידע עדכני, הקשרי ומדויק המבוסס על ראיות – הרבה מעבר למה ש-LLM לבדו יכול לספק.

Retrieval-Augmented Generation לעומת חיפוש סמנטי

RAG היא לא הטכניקה היחידה המשמשת לשיפור הדיוק של בינה מלאכותית גנרטיבית מבוססת-LLM. טכניקה נוספת היא חיפוש סמנטי, המסייע למערכות AI למקד את המשמעות של שאילתות בעזרת הבנה עמוקה של מילים וביטויים ספציפיים במנחה.

שיטות חיפוש מסורתיות מתמקדות במילות מפתח. לדוגמה, שאילתא פשוטה על סוגי העצים הגדלים בצרפת עשויה לחפש במסד הנתונים של מערכת ה-AI באמצעות מילות המפתח "עצים" ו"צרפת" ולמצוא נתונים המכילים את שתי המילים – אך ייתכן שהמערכת לא באמת תבין את משמעות המושג 'עצים הגדלים בצרפת', ולכן היא עשויה לאחזר מידע רב מדי או מועט מדי, או אפילו מידע שגוי. חיפוש מבוסס-מילות מפתח שכזה עלול גם להתעלם ממידע חשוב, מכיוון שהחיפוש עם מילות המפתח הוא מילולי מדי: ייתכן שעצים שגדלים רק בנורמנדי יתפספסו, למרות שהם נמצאים בצרפת, בגלל שמילת המפתח הספציפית חסרה.

החיפוש הסמנטי הולך מעבר לחיפוש מילות מפתח על ידי קביעת משמעותם של השאלות ומסמכי המקור ושימוש במשמעות זו לאחזור תוצאות מדויקות יותר. חיפוש סמנטי הוא חלק אינטגרלי מ-RAG.

שימוש ב-RAG ביישומי צ'אט

כאשר משתמשים רוצים תשובה מיידית לשאלה, קשה להתעלות על המיידיות וקלות השימוש של צ'אטבוטים. רוב הבוטים מאומנים בעזרת מספר מוגבל של כוונות – כלומר, הפעולות או התוצאות הרצויות של הלקוח – והם מגיבים לכוונות אלה. יכולות RAG עשויות לשפר את הבוטים הקיימים בכך שהן מאפשרות למערכת ה-AI לספק תשובות בשפה טבעית לשאלות שאינן ברשימת הכוונות.

התפיסה של 'שואלים שאלה ומקבלים תשובה' הופכת את הצ'אטבוטים למקרה שימוש מושלם עבור AI גנרטיבית, מסיבות רבות. לעיתים קרובות, שאלות דורשות הקשר ספציפי כדי ליצור תשובה מדויקת, ולאור העובדה שהציפיות של משתמשי הצ'אטבוט לגבי הרלוונטיות והדיוק של המידע הן לרוב גבוהות, ברור מאליו כיצד ניתן ליישם בו טכניקות RAG. למעשה, עבור ארגונים רבים, צ'אטבוטים יכולים להיות נקודת המוצא עבור השימוש ב-RAG ו-AI גנרטיבית.

לעיתים קרובות, שאלות דורשות הקשר ספציפי כדי ליצור תשובה מדויקת. שאילתות מלקוחות על מוצרים חדשים, לדוגמה, אינן שימושיות אם הנתונים נוגעים לדגם הקודם של המוצר ועלולות למעשה להיות מטעות. ומטיילים שרוצה לדעת אם פארק מסוים פתוח בשבת הקרובה מצפים למידע מדויק על הפארק הספציפי בתאריך הספציפי.

היתרונות של Retrieveal-Augmented Generation

ניתן להשתמש בטכניקות RAG כדי לשפר את איכות התשובות שמתקבלות ממערכות AI גנרטיבית – הרבה מעבר למה ש-LLM לבדו יכול לספק. היתרונות כוללים:

ל-RAG יש גישה למידע שעשוי להיות עכשווי יותר מהנתונים ששימשו לאימון ה-LLM.
את הנתונים במאגר הידע של ה-RAG אפשר לעדכן באופן מתמשך, ללא עלויות משמעותיות.
מאגר הידע של ה-RAG יכול להכיל נתונים הקשריים יותר מהנתונים ב-LLM הכללי.
מקור המידע ניתן לזיהוי במסד הנתונים הווקטורי של RAG. ומכיוון שמקורות הנתונים ידועים, אפשר לתקן או למחוק מידע שגוי ב-RAG.

האתגרים הכרוכים ב-Retrieveal-Augmented Generation

מכיוון ש-RAG היא טכנולוגיה חדשה יחסית, שיצאה לאור לראשונה בשנת 2020, מפתחי AI עדיין לומדים כיצד ליישם בצורה הטובה ביותר את מנגנוני אחזור המידע שלה ב-AI גנרטיבית. כמה מהאתגרים המרכזיים הם

שיפור הידע וההבנה הארגוניים בנוגע ל-RAG, כי מדובר בטכנולוגיה חדשה כל כך
עלויות גבוהות יותר; בעוד השימוש ב-AI גנרטיבית עם RAG יהיה יקר יותר ליישום בהשוואה לשימוש ב-LLM בלבד, אפשרות זו היא פחות יקרה מאשר אימון חוזר ונשנה של ה-LLM.
קביעת המודל הטוב ביותר עבור הנתונים המובנים והלא-מובנים בספריית הידע ובמסד הנתונים הווקטורי
פיתוח דרישות לתהליך להזנת נתונים למערכת ה-RAG באופן הדרגתי
קביעת תהליכים לטיפול בדוחות על אי-דיוקים ותיקון או מחיקת מקורות מידע אלה במערכת RAG

דוגמאות ל-Retrieval-Augmented Generation

ישנן דוגמאות רבות של בינה מלאכותית גנרטיבית המשופרת באמצעות RAG.

Cohere, מובילה בתחום ה-AI הגנרטיבית וה- RAG, כתבה על צ'אטבוט שיכול לספק מידע הקשרי על השכרת נופש באיים הקנריים, כולל תשובות מבוססות-עובדות על נגישות ההגעה לחוף, מצילים בחופים סמוכים וזמינותם של מגרשי כדורעף במרחק הליכה.

Oracle תיארה תרחישי שימוש אחרים עבור RAG, כגון ניתוח דוחות כספיים, סיוע בגילוי גז ונפט, סקירת תמלילים מפניות של לקוחות למוקדי שירות וחיפוש מאמרי מחקר רלוונטיים במסדי נתונים רפואיים.

העתיד של Retrieval-Augmented Generation

כיום, כשה-RAG נמצא בשלביו המוקדמים, הטכנולוגיה משמשת כדי לספק תגובות עדכניות, מדויקות והקשריות לשאילתות. תרחישי שימוש אלה מתאימים לצ'אטבוטים, לדואר אלקטרוני, להעברת הודעות טקסט וליישומי שיחה אחרים.

בעתיד, אחד הכיוונים האפשריים לטכנולוגיית RAG יהיה לעזור לבינה מלאכותית גנרטיבית לנקוט בפעולות המתאימות על בסיס מידע הקשרי ומנחי המשתמשים. לדוגמה, מערכת AI בסיוע RAG עשויה לזהות את בית הנופש בעל הדירוג הגבוה ביותר על חופי האיים הקנריים, ולאחר מכן ליזום הזמנה של חדר זוגי במרחק הליכה מחוף הים במהלך טורניר כדורעף.

RAG יכול לסייע גם בשאילתות מתוחכמות יותר. כיום, בינה מלאכותית גנרטיבית יכולה אולי לספר לעובד על מדיניות החזר שכר הלימוד של החברה; RAG יוכל להוסיף נתונים הקשריים נוספים כדי לספר לעובד שיש בבתי הספר הסמוכים קורסים שמתאימים למדיניות זו, ואולי להמליץ על תוכניות שמתאימות לתפקיד ולהכשרות הקודמות של העובד – ואף לסייע בהגשת מועמדות לתוכניות אלה ושליחת בקשה להחזר שכר הלימוד.

בינה מלאכותית גנרטיבית עם Oracle

Oracle מציעה מגוון שירותי בינה מלאכותית מתקדמים מבוססי-ענן, כולל שירות OCI Generative AI הפועל על Oracle Cloud Infrastructure (OCI). היצע המוצרים של Oracle כולל מודלים חזקים המבוססים על הנתונים הייחודיים והידע התעשייתי של הארגון שלכם. נתוני הלקוחות אינם משותפים עם ספקי LLM או מוצגים ללקוחות אחרים, ומודלים בהתאמה אישית שאומנו באמצעות נתוני הלקוח משמשים רק את אותו לקוח ספציפי.

בנוסף, Oracle משלבת בינה מלאכותית גנרטיבית בכל מגוון יישומי הענן שלה, ויכולות בינה מלאכותית גנרטיבית זמינות למפתחים המשתמשים ב-OCI ובכל מסדי הנתונים שלו. בנוסף, שירותי הבינה המלאכותית של Oracle מציעים ביצועים ותמחור ניתנים לחיזוי באמצעות אשכולות בינה מלאכותית במתכונת דייר יחיד המוקדשים לשימוש שלכם.

הכוח והיכולות של LLMs ו-AI גנרטיבית כבר ידועים וברורים לכולם – אינספור כותרות הוקדשו לנושא בשנה האחרונה. Retrieval-augmented generation בונה על היתרונות של LLMs על ידי הפיכתם לעדכניים, מדויקים והקשריים יותר. עבור יישומים עסקיים עם AI גנרטיבית, RAG היא טכנולוגיה חשובה שכדאי לעקוב אחריה, ללמוד אותה וליישם אותה.

מה הופך את Oracle למתאימה ביותר לבינה מלאכותית גנרטיבית?

Oracle מציעה פלטפורמת נתונים מודרנית ותשתית AI בעלות נמוכה ועם ביצועים גבוהים. גורמים נוספים, כגון מודלים בעלי ביצועים גבוהים, אבטחת נתונים ללא תחרות ושירותי בינה מלאכותית מובנים, מוכיחים כי היצע מוצרי הבינה המלאכותית של Oracle הוא המתאים ביותר לארגונים.

למידע נוסף על אסטרטגיית הבינה המלאכותית הגנרטיבית של Oracle

שאלות נפוצות בנושא Retrieveal-Augmented Generation

האם RAG הוא אותו הדבר כמו בינה מלאכותית גנרטיבית?

לא. Retrieval-augmented generation הוא טכניקה שיכולה לספק תוצאות מדויקות יותר לשאילתות בהשוואה לאלה המתקבלות ממודל שפה גדול גנרטיבי בלבד, מכיוון ש-RAG משתמש בידע חיצוני בנוסף לנתונים שכבר כלולים ב-LLM.

באילו סוגי מידע נעשה שימוש ב-RAG?

RAG יכול לשלב נתונים ממקורות רבים, כגון מסדי נתונים יחסיים, מאגרי מסמכים לא-מובנים, זרמי נתונים באינטרנט, היזני חדשות, תמלילי שמע ויומני תנועות.

כיצד בינה מלאכותית גנרטיבית משתמשת ב-RAG?

נתונים ממקורות ארגוניים מוטבעים במאגר ידע ומומרים לווקטורים, המאוחסנים במסד נתונים וקטורי. כאשר משתמש קצה מבצע שאילתא, מסד הנתונים הווקטורי מאחזר מידע הקשרי רלוונטי. מידע הקשרי זה, יחד עם השאילתא, נשלח למודל השפה הגדול, המשתמש בהקשר ליצירת תגובה עדכנית, מדויקת והקשרית יותר.

האם RAG יכול להפנות לנתונים שהוא מאחזר?

כן. מסדי הנתונים הווקטוריים ומאגרי הידע המשמשים את ה-RAG מכילים מידע ספציפי על מקורות המידע. פירוש הדבר הוא שאפשר לצטט מקורות, ואם יש שגיאה באחד מהמקורות האלה, אפשר לתקן או למחוק אותה במהירות, כדי שהשאילתות הבאות לא יחזירו מידע שגוי.