هل تساءلت من قبل عن كيفية نشر نموذج لغة كبير (LLM) على Oracle Cloud Infrastructure (OCI)؟ في هذا الحل، ستتعرف على كيفية نشر نماذج اللغة الكبيرة باستخدام مثيلات OCI Compute Bare Metal المتسارعة بواسطة وحدات معالجة الرسومات NVIDIA مع خادم استدلال يسمى vLLM.
يمكن نشر vLLM كخادم يقوم بتنفيذ بروتوكول واجهة برمجة التطبيقات OpenAI. يسمح ذلك باستخدام vLLM كبديل مباشر للتطبيقات باستخدام واجهة برمجة تطبيقات OpenAI، مما يعني أنه يمكننا اختيار نماذج OpenAI (مثل GPT-3.5 أو GPT-4) لإنشاء نص لطلبنا استنادًا إلى أمرين فقط.
يمكن أن تأتي نماذج اللغة الكبيرة هذه من أي مستودع تم تشكيله بشكل جيد لـ Hugging Face (اختيار المطور)، لذلك سنحتاج إلى المصادقة على Hugging Face لسحب النماذج (إذا لم نبنيها من التعليمات البرمجية المصدر) باستخدام رمز مصادقة.
يمكن أيضًا نشر نماذج اللغات الكبيرة باستخدام NVIDIA NIM، وهي مجموعة من الخدمات الصغيرة سهلة الاستخدام المصممة للنشر الآمن والموثوق لنموذج الذكاء الاصطناعي عالي الأداء الذي يستنتج على المثيلات المتسارعة بوحدة معالجة الرسومات NVIDIA على OCI.