إعداد البيانات

وصول مرن للبيانات

يمكن لعلماء البيانات الوصول إلى أي مصدر بيانات واستخدامه في أي سحابة أو في أماكن العمل. يوفر ذلك ميزات بيانات محتملة أكثر تؤدي إلى نماذج أفضل.

تسمية البيانات

تعد تسمية بيانات Oracle Cloud Infrastructure (OCI) خدمة لبناء مجموعات بيانات مسماة لتدريب نماذج الذكاء الاصطناعي والتعلم الآلي بشكل أدق. باستخدام تسمية بيانات OCI، يقوم المطورون وعلماء البيانات بتجميع البيانات، وتكوين مجموعات البيانات واستعراضها، وتطبيق التسميات على سجلات البيانات.

إعداد البيانات على نطاق واسع باستخدام Spark

إرسال استعلامات Spark التفاعلية إلى مجموعة Spark لتدفق بيانات OCI. أو استخدم Oracle Accelerated Data Science SDK لتطوير تطبيق Spark بسهولة وتشغيله على نطاق واسع في تدفق بيانات OCI، كل ذلك من بيئة علوم البيانات.

مخزن الميزات (المعاينة)

حدد مسارات هندسية للميزات وقم بإنشاء ميزات باستخدام التنفيذ المدار بالكامل. إصدار وتوثيق كل من الميزات ومسارات الميزات. مشاركة الوصول إلى الميزات وإدارتها والتحكم فيها. استهلك الميزات لكل من سيناريوهات الاستدلال في الوقت الفعلي والدفعات.

بناء النماذج

واجهة JupyterLab

تُمكِّن بيئات الحواسيب المحمولة من JupyterLab المدمجة والمستضافة على السحابة فِرق علم البيانات من إنشاء النماذج وتدريبها باستخدام واجهة مستخدم مألوفة.

أطر عمل التعلم الآلي مفتوحة المصدر

توفر OCI Data Science المعرفة وتعدد الاستخدامات لعلماء البيانات، مع مئات الأدوات وأطر العمل مفتوحة المصدر الشائعة، مثل TensorFlow أو PyTorch، أو إضافة أطر عمل قابلة للاختيار. تتيح الشراكة الاستراتيجية بين OCI وAnaconda لمستخدمي OCI تنزيل الحزم وتثبيتها مباشرة من مستودع Anaconda دون تكلفة—لتكون مصدرًا مفتوحًا آمنًا يمكن الوصول إليه أكثر من أي وقت مضى.

مكتبة Oracle Accelerated Data Science (ADS)

تمثل Oracle Accelerated Data Science SDK مجموعة أدوات Python سهلة الاستخدام تدعم عالم البيانات من خلال سير العمل الكامل لعلوم البيانات.

التدريب على النماذج

أجهزة قوية، بما في ذلك وحدات معالجة الرسومات (GPU)

باستخدام وحدات معالجة الرسومات NVIDIA، يمكن لعلماء البيانات إنشاء نماذج تعلم عميقة وتدريبها في وقت أقل. بالمقارنة مع وحدات المعالجة المركزية، يمكن أن تكون سرعات الأداء أسرع من 5 إلى 10 مرات.

الوظائف

استخدام الوظائف لتشغيل مهام علوم البيانات القابلة للتكرار في وضع الدفعات. زيادة نطاق تدريبك النموذجي بدعم وحدات معالجة الرسومات NVIDIA بدون أنظمة تشغيل والتدريب الموزع.

تحرير البيانات الاصطناعية للوظيفة بوحدة التحكم

تكوين البيانات الاصطناعية لوظيفة علوم البيانات وتحريرها وتشغيلها بسهولة من وحدة تحكم OCI باستخدام محرر التعليمات البرمجية. يأتي مع تكامل Git والتشغيل التلقائي والتخصيص والمزيد.

الإشراف وإدارة النماذج

كتالوج النماذج

يستخدم علماء البيانات كتالوج النماذج للحفاظ على نماذج التعلم الآلي المكتملة ومشاركتها. يخزن الكتالوج البيانات الاصطناعية ويسجل بيانات التعريف حول التصنيف وسياق النموذج والمعلمات التشعبية وتعريفات مخططات بيانات مدخلات النموذج والمخرجات ومعلومات المنشأ التفصيلية المتعلقة بأصل النموذج، بما في ذلك التعليمات البرمجية المصدر وبيئة التدريب.

التقييم النموذجي والمقارنة

إنشاء تلقائي لمجموعة شاملة من المقاييس والتمثيلات المرئية لقياس أداء النماذج مقارنة بالبيانات الجديدة ومقارنة مرشحي النماذج.

بيئات قابلة لإعادة الإنتاج

استفد من بيئات conda المنسقة والمنشأة مسبقًا لمعالجة مجموعة متنوعة من حالات الاستخدام، مثل معالجة اللغة الطبيعية (NLP) ورؤية الكمبيوتر والتنبؤ وتحليلات الرسوم البيانية وSpark. نشر بيئات مخصصة ومشاركتها مع الزملاء، مع ضمان قابلية إعادة إنتاج بيئات التدريب والاستدلال.

عنصر تحكم في الإصدار

يمكن لعلماء البيانات الاتصال بمستودع Git في مؤسستهم للحفاظ على عمل التعلم الآلي واسترداده.

الأتمتة وMLOps

نشر النموذج المُدار

نشر نماذج التعلم الآلي كنقاط نهاية HTTP لتقديم تنبؤات بالنماذج على البيانات الجديدة في الوقت الفعلي. ما عليك سوى النقر للنشر من كتالوج النماذج، بينما تتعامل OCI Data Science مع جميع عمليات البنية الأساسية، بما في ذلك إعداد الحوسبة وموازنة الأحمال.

مسارات التعلّم الآلي

قم بتشغيل عمليات سير عمل تطوير النماذج والتدريب والنشر وأتمتتها باستخدام خدمة مدارة بالكامل لكتابة مسارات التعلم الآلي وتصحيح أخطائها وتتبعها وإدارتها وتنفيذها.

مراقبة التعلم الآلي

المراقبة المستمرة للنماذج في الإنتاج لانحراف البيانات والمفاهيم. تمكين علماء البيانات ومهندسي موثوقية الموقع ومهندسي DevOps من تلقي التنبيهات وتقييم سريع لاحتياجات إعادة تدريب النموذج.

تطبيقات التعلّم الآلي

تم تصميم تطبيقات التعلّم الآلي في الأصل لتطبيقات SaaS الخاصة بـ Oracle لتضمين ميزات الذكاء الاصطناعي، وتُتاح الآن لأتمتة دورة حياة MLOps بأكملها، بما في ذلك التطوير والإمداد والصيانة المستمرة وإدارة الأسطول، لمورّدي البرامج المستقلين (ISV) الذين لديهم مئات النماذج لكل الآلاف العملاء لديهم.

الإجراءات السريعة للذكاء الاصطناعي

الوصول دون تعليمات برمجية

استخدم نماذج اللغات الكبيرة من Mistral وMeta وغيرها من دون كتابة سطر واحد من التعليمات البرمجية عبر واجهة مستخدم سلسة في دفاتر ملاحظات علم بيانات OCI.

استورد أي نموذج لغة كبير من تخزين كائنات OCI، ثم اضبط وانشر عبر واجهة مستخدم سهلة الاستخدام.

حزمة البرامج

انشر نماذج اللغة الكبيرة ببضع نقرات، مدعومة بواسطة خوادم استدلال شائعة مثل نموذج اللغة الكبير الظاهري (من UC Berkeley) أو استدلال إنشاء النص (من Hugging Face) أو TensorRT-LLM (من NVIDIA) للحصول على الأداء الأمثل.

الموالفة الجيدة

لتحقيق الأداء الأمثل، استفد من التدريب الموزع باستخدام PyTorch أو Hugging Face Accelerate أو DeepSpeed من أجل الضبط الدقيق لنماذج اللغة الكبيرة. ومكِّن تخزين الأوزان المضبوطة بدقة مع تخزين الكائنات. بالإضافة إلى ذلك، تلغي Condas الموفرة للخدمة متطلبات بيئات Docker المخصصة وتتيح المشاركة وتقليل التباطؤ.

التقييم

قم بإعداد تقارير تقييم تفصيلية لنموذج اللغة الكبير الخاص بك على أساس BERTScore أو الدراسة البديلة الموجهة لتقييم المضمون (ROUGE)، لمساعدتك على فهم كيفية مقارنة أداء النموذج بالنماذج الأخرى.