جيفري إريكسون | كاتب أول | 14 نوفمبر 2025
إن عبارة "كلما عملت بجد، بدا ذلك أسهل" هو اقتباس من لاعب الهوكي العظيم جوناثان تووز، لكن يمكن أيضًا أن يمثل شعار البحث عن التشابه. بالتأكيد، يبدو الأمر سهلاً—تقديم الإجابات والتوصيات في ثوانٍ. لكن تدفقات البيانات المُعقدة وأنظمة الذكاء الاصطناعي وقوة الحوسبة المصطفة خلف تقنية البحث هذه هائلة. من خلال تحديد التطابقات بسرعة، حتى في مجموعات البيانات الكبيرة، أصبح البحث عن التشابه لاعبًا محوريًا في معالجة اللغة الطبيعية وأنظمة التوصية والكشف عن الاحتيال ومحركات البحث، بالإضافة إلى عدد مُتزايد من حالات الاستخدام في الصناعة، بما في ذلك اكتشاف العلاجات. لكن كيف تتعامل هذه التقنية السريعة مع الكثير من البيانات غير المُنظمة بهذه السرعة؟ وكيف تختلف عن عمليات البحث عن الكلمات الرئيسة المتمرسة وتُكملها؟ اربط الحزام ودعنا نستكشف خصوصيات البحث عن التشابه وعمومياته.
البحث عن التشابه، المعروف أيضًا باسم بحث الجار الأقرب، وهي تقنية تستخدم في استرجاع المعلومات وتحليل البيانات التي تعثر على عناصر في مجموعة بيانات تشبه إلى حد كبير عنصر استعلام. يفيد هذا في التطبيقات التي يكون فيها الهدف هو تحديد الكائنات أو المستندات أو الصور أو نقاط البيانات الأخرى التي تشترك في الخصائص العامة مع استعلام معين. يمكنك رؤية البحث عن التشابه عمليًا في تطبيقات مثل محرك بحث الصور أو في توصيات محتوى خدمة البث.
ينشئ نظام البحث عن التشابه مجموعة أرقام، تسمى المتجه، لكل عنصر في مجموعة بيانات؛ يمثل المتجه رقميًا ميزات العنصر. يعطي هذا الكمبيوتر طريقة رقمية لفهم الأفكار والكائنات في العالم الحقيقي، سواء العناصر في مجموعة بيانات صور أو نص أو صوت أو فيديو أو أنواع أخرى من البيانات.
يتم بعد ذلك تخزين المتجهات التي تمثل العديد من أجزاء البيانات المُختلفة في قاعدة بيانات المتجه ويتم إنشاء فهرس متجهات، مما يتيح البحث السريع في البيانات. عند الاستعلام عن مجموعة البيانات، يتم إنشاء تضمين متجهات للميزات والأفكار التي تمثلها مصطلحات الاستعلام، مع استخدام نفس الخوارزمية المُستخدمة في الأصل لإنشاء المتجهات المُخزنة في قاعدة البيانات. ثم تستخدم قاعدة البيانات الخوارزميات لتحديد أقرب المطابقات للاستعلام في مجموعة البيانات.
في بعض الحالات، يُشار إلى هذا النوع من البحث باسم "البحث الدلالي" لأنه يطابق العناصر بخصائص الكائنات والأفكار التصورية الممثلة في عنصر، ليس بالكلمات الرئيسة في مستند أو بالبكسل في صورة. إن قدرة البحث عن التشابه في توفير نتائج سريعة ودقيقة، حتى مع مجموعات البيانات الكبيرة جدًا، تجعله لا غنى عنه للأنظمة القائمة على الذكاء الاصطناعي، مثل معالجة اللغة الطبيعية والتعرُّف على الصور والتصفية القائمة على المحتوى.
ليس غريبًا العثور على تطبيقات الأعمال التي تتضمن أفضل طرق البحث عن التشابه والبحث عن الكلمات الرئيسة التقليدية—فكِّر في نظام توصية يتضمن معلومات أعمال مُحدَّثة، مثل التسعير والتوافر. يمكن إنجاز هذه الأنواع من الوظائف عن طريق نقل البيانات بين قاعدة بيانات متجهات مُتخصصة ومخازن بيانات قائمة، أو باستخدام قاعدة بيانات متعددة الوسائط تعالج في الأصل كل من بيانات المتجهات والبيانات العلائقية.
بكلمات يسيطة، يدور البحث التقليدي حول العثور على ما تطلبه صراحةً، في حين يدور البحث عن التشابه حول العثور على ما يشبه ما لديك أو تسأل عنه.
يتم استخدام البحث التقليدي غالبًا في استعلامات قاعدة البيانات للعثور على المطابقات الدقيقة أو العناصر ذات الصلة العالية في البيانات المُنظمة على أساس كلمات رئيسة أو معايير محددة. على سبيل المثال، إذا كنت تبحث عن "أفضل رامن في سان فرانسيسكو"، فيمكن أن يرجع محرك البحث التقليدي صفحات الويب التي تحتوي على تلك الكلمات الرئيسة الدقيقة، والمصطلحات المُحددة مُسبقًا المرتبطة ارتباطًا وثيقًا، وربما تصنيفًا رقميًا. ينصب التركيز على ضمان دقة النتائج ومعالجة مصطلحات الاستعلام مباشرةً.
يتم توجيه البحث عن التشابه نحو البحث عن العناصر التي تقترب من المطابقات التصورية أو الهيكلية لاستعلامك. من المُفيد أن تكون البيانات غير مُنظمة أو شبه مُنظمة، مثل الصور أو النصوص أو نقاط البيانات المُعقدة. إذا كنت تبحث عن صور مثل صورتك، فينظر البحث عن التشابه في الصور التي تشترك في الميزات أو الأنماط المرئية، مثل العشب أو ناطحات السحاب أو الألوان أو المشاعر المجسدة، حتى لو لم تكن متطابقة. أو قد يُرجع نظام استرجاع المستندات المقالات التي تناقش مواضيع مماثلة أو تستخدم لغة مماثلة، حتى لو لم تكن الكلمات الرئيسة موجودة بها. في مثالنا الرامن، يمكن أن تشكل متجهات النص الواردة في المراجعات أساس البحث عن التشابه.
الفروق الرئيسية
يمكننا التفكير في الفروق الرئيسة بين البحث التقليدي والبحث عن التشابه بعدة طرق، بما في ذلك هدف أسلوب البحث، وأنواع البيانات المُستخدمة، والتقنيات الرياضية المُستخدمة، وحالات الاستخدام التي يتم بها النشر بشكل أفضل. كما ذكرنا أعلاه، يهدف البحث التقليدي إلى الوصول إلى مطابقات دقيقة أو عناصر ذات صلة عالية على أساس الكلمات الرئيسة أو معايير محددة، في حين يركز البحث عن التشابه في العثور على عناصر تشبه الاستعلام من الناحية المفاهيمية أو الهيكلية.
يعتمد البحث التقليدي على بيانات الجدول المُنظمة الشائعة في التطبيقات المؤسسية—فكِّر في الصفوف والأعمدة المستخدمة لتنظيم سجلات المخزون أو الموظفين—في حين أن البحث عن التشابه أفضل في التعامل مع البيانات غير المُنظمة أو شبه المُنظمة، مثل الصور والصوت ونقاط البيانات المُعقدة، وغالبًا بتنسيق JSON.
توجد رياضيات مُختلفة وراء النوعين من البحث. بالنسبة إلى أحد النوعين، يعتمد البحث التقليدي على المنطق المنطقي ومطابقة الكلمات الرئيسة وخوارزميات التصنيف لتحديد مدى ملاءمة عنصر في مجموعة بيانات. من ناحية أخرى، يستخدم البحث عن التشابه قياسات مسافة المتجه مثل تشابه جيب التمام، والمسافة الإقليدية، وتشابه جاكارد، لتحديد درجة التشابه بين العناصر التي تتم فهرستها. نناقش هذه المقاييس بمزيد من التفصيل لاحقًا في هذه المقالة. كما قد تخمِّن، يتم استخدام البحث التقليدي بشكل أشيع عندما تكون النتائج الدقيقة من استعلامات قاعدة البيانات لأنظمة استرداد معلومات الأعمال مطلوبة، بينما يتم استخدام البحث عن التشابه في أنظمة التوصية والتعرُّف على الصور والتصفية المستندة إلى المحتوى.
يجب أن نلاحظ هنا أنه في العديد من حالات استخدام الأعمال، ويستخدم النظام المجهز بالتوليد المعزز بالاسترجاع (RAG) كلاً من تقنيات الاستعلام بالإضافة إلى نموذج LLM لربط عمليات إرجاع البحث الدلالي مع بيانات الشركة المُحدثة للوصول إلى المخرجات الأدق والأفيد لأغراض الأعمال. على سبيل المثال، يطابق محرك التوصية عنصرًا على أساس البحث عن التشابه إلى جانب السعر والإتاحة المستمدة من استعلام SQL التقليدي ويوفر هذه المعلومات إلى LLM لإنشاء إجابة سهلة الفهم باللغة الطبيعية.
النقاط الرئيسة
يمثل البحث عن التشابه تقنية في علوم البيانات والتعلم الآلي تسعى إلى العثور بسرعة على العناصر في مجموعة بيانات تشبه إلى حد كبير عنصر الاستعلام. كيف تعرف هذه الأنظمة أن العناصر الموجودة في مجموعة بيانات، مثل صورة أو جزء من نص أو ملف صوتي مُتشابهة؟ يشغِّل النظام هذه البيانات من خلال نموذج ذكاء اصطناعي مُتطور يحدد ميزات العالم الحقيقي لكل عنصر حتى يمكن تقييمها رياضيًا. تسمى الأرقام التي تصف عنصرًا بتضمين المتجهات لديه. تعطي تضمينات المتجهات أجهزة الكمبيوتر أرقامًا يمكنها العمل معها والتي تمثل الأفكار والكائنات الموجودة في البيانات غير المُنظمة. تقوم قاعدة البيانات المتجهات بتخزين وفهرسة وتمكين البحث عن أعداد كبيرة من المتجهات، إذ يمثل كل منها عنصرًا فرديًا في مساحة عالية الأبعاد. يجعل هذا من الممكن تحديد مدى قرب أو تشابه عنصرين لبعضها بعضًا.
يحدد النظام بعد ذلك أقرب المطابقات على أساس مقياس مسافة معروف، مثل مسافة إقليدية، أو تشابه جيب التمام، أو تشابه جاكارد. يختار علماء البيانات الذين يطورون نظام البحث عن التشابه المقاييس وخوارزميات البحث بناءً على نوع البيانات التي يتم البحث عنها ونوع العمل الذي يقوم به النظام، مثل اكتشاف أوجه الخلل أو التوصية بالمنتج أو معالجة اللغة الطبيعية. على سبيل المثال، تم تصميم خوارزمية مثل الجار الأقرب التقريبي (ANN) لتسريع عملية البحث عن التشابه من خلال توفير مُفاضلة بين الدقة والسرعة—خاصةً في مجموعات البيانات التي قد تحتوي على مليارات العناصر. تشمل أساليب ANN الشائعة Annoy، وهي مكتبة مفتوحة المصدر توفِّر هيكل يشبه الشجرة للبحث الفعَّال، وFaiss، التي تستخدم تقنيات فهرسة مُتقدمة للتعامل مع مليارات المتجهات.
يعمل البحث عن التشابه من خلال تحديد الميزات المُتشابهة بين الاستعلام والعناصر في مجموعة البيانات التي يتم البحث عنها. يتم ذلك غالبًا من خلال تقنيات مثل عمليات تضمين المتجه والفهرسة وبحث الجار الأقرب. فيما يلي نظرة عن كثب على الخطوات المشمولة:
يُعد البحث عن التشابه أداة قوية مُفيدة لبعض التطبيقات، وخاصةً تلك التي تنطوي على بيانات غير مُنظمة. مع ذلك، من المهم أن تكون على دراية بحدوده واختيار التقنيات والمقاييس المناسبة للمشكلة المُحددة المطروحة.
يعد فهم المفاهيم الرئيسة للبحث عن التشابه أمرًا ضروريًا لتنفيذ التكنولوجيا واستخدامها بفعالية في تطبيقاتك. تعمل التقنيات والأساليب أدناه معًا لتحقيق النتائج المرجوة.
إن تمثيل المتجه هو العملية التي يتم فيها تحويل ميزات وخصائص المحتوى المُخزن إلى متجهات رقمية في مساحة متعددة الأبعاد. تسجِّل هذه المتجهات أسس عنصر البيانات، مثل معنى الكلمات في النص، أو العناصر المرئية في الصور، أو أنماط الصوت. إن المتجه الناتج الذي يصف العنصر هو تضمين المتجه. من خلال تكوين متجهات للبيانات وكذلك الاستعلامات، يمكن أن تستخدم قاعدة بيانات المتجهات التمثيلات لقياس مدى قرب العناصر والاستعلامات المُختلفة ومقارنتها بكفاءة.
تظهر مقاييس المسافة بأنها ضرورية في البحث عن التشابه لأنها تحدد حجم التشابه أو التباين بين المتجهات. يعتمد اختيار مقياس المسافة على طبيعة البيانات والمتطلبات المُحددة للتطبيق. تشمل مقاييس المسافات الشائعة مسافة إقليدية، والتي تقيس مسافة الخط المستقيم بين نقطتين؛ تشابه جيب التمام، الذي يقيِّم جيب التمام للزاوية بين متجهين لتحديد اتجاههما؛ وتشابه جاكارد، وهو مُفيد لمقارنة مجموعات من الميزات الممثلة في متجهات حتى لو كانت بأحجام مختلفة.
تختار المؤسسة تقنية البحث عن التشابه بناءً على الهدف النهائي لتطبيقها. على سبيل المثال، هل تنشئ نظام للكشف عن أوجه الخلل أو البحث عن الصور أو معالجة اللغة الطبيعية؟ تتضمن هذه التقنيات مقاييس المسافة المذكورة أعلاه لتنفيذ مهمتها. فيما يلي اثنين من التقنيات الشائعة وهي KNN وANN، كما موضح:
خوارزمية أقرب الجيران، أو KNN: في بحث التشابه المستند إلى تقنية KNN، تتم مقارنة متجه الاستعلام بمجموعة من متجهات البيانات، وتحدد الخوارزمية نقاط بيانات "k" الأقرب إلى الاستعلام على أساس مقياس مسافة مُحدد، مثل مسافة إقليدية أو تشابه جيب التمام. تتنبأ KNN بفئة أو قيمة جزء جديد من البيانات أو الاستعلام بمقارنته مع الجيران القريبة في مجموعة البيانات، بافتراض وجود بيانات مماثلة بالقرب من بعضها بعضًا في مساحة المتجه.
تحسب KNN المسافات بين الاستعلام وكل البيانات في المجموعة، مما يجعلها مُكلفة حسابيًا، خاصةً مع مجموعات البيانات الكبيرة. على الرغم من ذلك، يمكن أن تكون KNN فعَّالة للعديد من التطبيقات، بما في ذلك أنظمة التوصية والتعرُّف على الصور والكشف عن أوجه الخلل.
الجار الأقرب التقريبي، أو ANN: تمثل ANN تقنية تستخدم في البحث عن التشابه للعثور بكفاءة على العناصر في مجموعة بيانات قريبة للغاية من المتجه الذي يمثل استعلامًا—لكن دون الحاجة إلى حساب المسافات الدقيقة لكل نقطة. إن هذه الطريقة جيدة لمجموعات البيانات واسعة النطاق، إذ يتطلب بحث الجار الأقرب الدقيق الكثير من قوة الحوسبة ليكون مُفيدًا. تُجري خوارزميات ANN، مثل التجزئة الحساسة للموقع (LSH) والأساليب المستندة إلى الشجرة بحث تقريبي عن طريق تقليل بُعدية البيانات أو استخدام بُنى الفهرسة لتقليل المرشحين المحتملين بسرعة. قد لا تكون النتائج دقيقة تمامًا، لكنها تكون غالبًا قريبة بما فيه الكفاية لتحقيق أهداف عملية. تُستخدم ANN بشكل شائع في تطبيقات مثل عمليات البحث عن الصور ومعالجة اللغة الطبيعية.
إن البحث عن التشابه شائع لعدة أنواع من التطبيقات. قد يواجه الشخص بحثًا عن التشابه عند تقديمه توصيات من خدمة تدفق أو إجابات من محرك بحث. لكن يمكن الوصول إلى تقنية البحث هذه أيضًا في الخلفية في مجال الإدراة المالية وأمان البيانات. فيما يلي نظرة على التطبيقات الشائعة الأخرى للبحث عن التشابه:
توجد العديد من الأدوات والمكتبات المُصممة لمساعدة المؤسسات في تنفيذ البحث عن التشابه بكفاءة، لكنها تختلف في أساليبها وميزاتها. فيما يلي بعض الأمثلة على ذلك:
هل تنفذ البحث عن التشابه أو تخطط له في تطبيقاتك؟ إذا كان الأمر كذلك، فلا تُدخل الذكاء الاصطناعي على بياناتك. دع Oracle تُدخل البحث عن الذكاء الاصطناعي والتشابه إلى بيانات أعمالك في بنية مُبسطة وعلى مستوى مؤسسي.
يسهِّل البحث عن متجهات الذكاء الاصطناعي الأصلي في Oracle AI Database تصميم البحث عن التشابه وإنشائه وتشغيله إلى جانب أنواع البيانات الأخرى لتحسين تطبيقاتك. يتضمن هذا أنواع البيانات العلائقية والنصية وJSON والبيانات المكانية والرسوم البيانية—كل ذلك في قاعدة بيانات واحدة، ويمكنك تجربتها مجانًا.
تتضمن إمكانات بحث متجهات Oracle AI—تحميل المستندات والتحويل والتجميع والتضمين والبحث عن التشابه وRAG باستخدام نماذج LLM—المتاحة محليًا أو من خلال واجهات API داخل قاعدة البيانات.
أنشئ إمكانات البحث عن التشابه على البنية التحتية من Oracle Cloud ويمكنك الوصول إلى الذكاء الاصطناعي المُصمم للمؤسسة—مع قابلية التوسع والأداء والتوافر العالي والأمان المُضمن في المنصة لإدارة البيانات التي تدعم تطبيق الذكاء الاصطناعي.
هل تم إعداد البنية التحتية للبيانات للتعامل مع البحث عن التشابه ومبادرات الذكاء الاصطناعي الأخرى؟ يضع كتابنا الإلكتروني خطة لإنشاء أساس بيانات قوي بما يكفي لدعم نجاح الذكاء الاصطناعي.
كيف يمكن أن يفيد البحث عن التشابه مؤسستي؟
يمكن لنظام البحث عن متجهات الذكاء الاصطناعي في مؤسستك أن يسهِّل على الأشخاص استكشاف مخازن البيانات والمستندات باستخدام متجهات اللغة الأصلية. كما يمكن أن يساعد مؤسستك في بناء التخصيص في الخدمات التي تقدمها للعملاء، مثل محرك توصية للبيع بالتجزئة عبر الإنترنت.
ما أنواع هي البيانات التي يمكن استخدامها في البحث عن التشابه؟
يمكن استخدام البحث عن التشابه مع أي بيانات تحتوي على تضمين متجهات، لكن يتم استخدامه غالبًا مع بيانات غير مُنظمة أو شبه مُنظمة، مثل النصوص والصور والفيديو والملفات الصوتية.
كيف يُحسِّن البحث عن التشابه من تجارب العملاء؟
يمكن أن يؤدي البحث عن التشابه إلى تحسين تجربة العملاء من خلال تخصيص المحتوى واقتراحه للعملاء على أساس تفضيلاتهم وخياراتهم السابقة.
ما مدى قابلية التوسع في البحث عن التشابه لمجموعات البيانات الكبيرة؟
يمثل البحث عن التشابه طريقة بحث مرنة وقابلة إلى التوسع. إذ يعالج مجموعات البيانات الكبيرة عن طريق فهرسة بيانات المتجهات بطريقة تسهِّل تحديد موقع العناصر المشابهة وإرجاعها إلى استعلام.