إعداد البيانات

وصول مرن للبيانات

يمكن لعلماء البيانات الوصول إلى أي مصدر بيانات واستخدامه في أي سحابة أو في أماكن العمل. يوفر ذلك ميزات بيانات محتملة أكثر تؤدي إلى نماذج أفضل.

تسمية البيانات

تعد تسمية بيانات Oracle Cloud Infrastructure (OCI) خدمة لبناء مجموعات بيانات مسماة لتدريب نماذج الذكاء الاصطناعي والتعلم الآلي بشكل أدق. باستخدام تسمية بيانات OCI، يقوم المطورون وعلماء البيانات بتجميع البيانات، وتكوين مجموعات البيانات واستعراضها، وتطبيق التسميات على سجلات البيانات.

إعداد البيانات على نطاق واسع باستخدام Spark

إرسال استعلامات Spark التفاعلية إلى مجموعة Spark لتدفق بيانات OCI. أو استخدم Oracle Accelerated Data Science SDK لتطوير تطبيق Spark بسهولة وتشغيله على نطاق واسع في تدفق بيانات OCI، كل ذلك من بيئة علوم البيانات.

مخزن الميزات (المعاينة)

حدد مسارات هندسية للميزات وقم بإنشاء ميزات باستخدام التنفيذ المدار بالكامل. إصدار وتوثيق كل من الميزات ومسارات الميزات. مشاركة الوصول إلى الميزات وإدارتها والتحكم فيها. استهلك الميزات لكل من سيناريوهات الاستدلال في الوقت الفعلي والدفعات.

بناء النماذج

واجهة JupyterLab

تُمكِّن بيئات الحواسيب المحمولة من JupyterLab المدمجة والمستضافة على السحابة فِرق علم البيانات من إنشاء النماذج وتدريبها باستخدام واجهة مستخدم مألوفة.

أطر عمل التعلم الآلي مفتوحة المصدر

توفر OCI Data Science المعرفة وتعدد الاستخدامات لعلماء البيانات، مع مئات الأدوات وأطر العمل مفتوحة المصدر الشائعة، مثل TensorFlow أو PyTorch، أو إضافة أطر عمل قابلة للاختيار. تتيح الشراكة الاستراتيجية بين OCI وAnaconda لمستخدمي OCI تنزيل الحزم وتثبيتها مباشرة من مستودع Anaconda دون تكلفة—لتكون مصدرًا مفتوحًا آمنًا يمكن الوصول إليه أكثر من أي وقت مضى.

مكتبة Oracle Accelerated Data Science (ADS)

تمثل Oracle Accelerated Data Science SDK مجموعة أدوات Python سهلة الاستخدام تدعم عالم البيانات من خلال سير العمل الكامل لعلوم البيانات.

التدريب على النماذج

أجهزة قوية، بما في ذلك وحدات معالجة الرسومات (GPU)

باستخدام وحدات معالجة الرسومات NVIDIA، يمكن لعلماء البيانات إنشاء نماذج تعلم عميقة وتدريبها في وقت أقل. بالمقارنة مع وحدات المعالجة المركزية، يمكن أن تكون سرعات الأداء أسرع من 5 إلى 10 مرات.

الوظائف

استخدام الوظائف لتشغيل مهام علوم البيانات القابلة للتكرار في وضع الدفعات. زيادة نطاق تدريبك النموذجي بدعم وحدات معالجة الرسومات NVIDIA بدون أنظمة تشغيل والتدريب الموزع.

تحرير البيانات الاصطناعية للوظيفة بوحدة التحكم

تكوين البيانات الاصطناعية لوظيفة علوم البيانات وتحريرها وتشغيلها بسهولة من وحدة تحكم OCI باستخدام محرر التعليمات البرمجية. يأتي مع تكامل Git والتشغيل التلقائي والتخصيص والمزيد.

الإشراف وإدارة النماذج

كتالوج النماذج

يستخدم علماء البيانات كتالوج النماذج للحفاظ على نماذج التعلم الآلي المكتملة ومشاركتها. يخزن الكتالوج البيانات الاصطناعية ويسجل بيانات التعريف حول التصنيف وسياق النموذج والمعلمات التشعبية وتعريفات مخططات بيانات مدخلات النموذج والمخرجات ومعلومات المنشأ التفصيلية المتعلقة بأصل النموذج، بما في ذلك التعليمات البرمجية المصدر وبيئة التدريب.

التقييم النموذجي والمقارنة

إنشاء تلقائي لمجموعة شاملة من المقاييس والتمثيلات المرئية لقياس أداء النماذج مقارنة بالبيانات الجديدة ومقارنة مرشحي النماذج.

بيئات قابلة لإعادة الإنتاج

استفد من بيئات conda المنسقة والمنشأة مسبقًا لمعالجة مجموعة متنوعة من حالات الاستخدام، مثل معالجة اللغة الطبيعية (NLP) ورؤية الكمبيوتر والتنبؤ وتحليلات الرسوم البيانية وSpark. نشر بيئات مخصصة ومشاركتها مع الزملاء، مع ضمان قابلية إعادة إنتاج بيئات التدريب والاستدلال.

عنصر تحكم في الإصدار

يمكن لعلماء البيانات الاتصال بمستودع Git في مؤسستهم للحفاظ على عمل التعلم الآلي واسترداده.

الأتمتة وMLOps

نشر النموذج المُدار

نشر نماذج التعلم الآلي كنقاط نهاية HTTP لتقديم تنبؤات بالنماذج على البيانات الجديدة في الوقت الفعلي. ما عليك سوى النقر للنشر من كتالوج النماذج، بينما تتعامل OCI Data Science مع جميع عمليات البنية الأساسية، بما في ذلك إعداد الحوسبة وموازنة الأحمال.

مسارات التعلّم الآلي

قم بتشغيل عمليات سير عمل تطوير النماذج والتدريب والنشر وأتمتتها باستخدام خدمة مدارة بالكامل لكتابة مسارات التعلم الآلي وتصحيح أخطائها وتتبعها وإدارتها وتنفيذها.

مراقبة التعلم الآلي

المراقبة المستمرة للنماذج في الإنتاج لانحراف البيانات والمفاهيم. تمكين علماء البيانات ومهندسي موثوقية الموقع ومهندسي DevOps من تلقي التنبيهات وتقييم سريع لاحتياجات إعادة تدريب النموذج.

تطبيقات التعلّم الآلي

تم تصميم تطبيقات التعلّم الآلي في الأصل لتطبيقات SaaS الخاصة بـ Oracle لتضمين ميزات الذكاء الاصطناعي، وتُتاح الآن لأتمتة دورة حياة MLOps بأكملها، بما في ذلك التطوير والإمداد والصيانة المستمرة وإدارة الأسطول، لمورّدي البرامج المستقلين (ISV) الذين لديهم مئات النماذج لكل الآلاف العملاء لديهم.

الإجراءات السريعة للذكاء الاصطناعي (مسودة تجريبية)

الوصول دون تعليمات برمجية

استفد من نماذج اللغات الكبيرة، مثل Llama 2 وMistral 7B، بنقرة واحدة من خلال التكامل السلس مع أجهزو الكمبيوتر المحمولة لعلم البيانات.

حزمة البرامج

دعم الوصول لنشر النموذج باستخدام استدلال إنشاء النص من (Hugging Face) وvLLM (UC Berkeley) وNVIDIA Triton الذي يقدم أمثلة عامة عن

  • Llama 2 مع 7 مليار معلمة و 13 مليار معلمة باستخدام وحدات معالجة الرسومات طراز NVIDIA A10
  • Llama 2 مع 70 مليار معلمة باستخدام وحدات معالجة الرسومات طراز NVIDIA A100 وA10 عبر تقنية GPTQ
  • نموذج Mistral 7B
  • استخدام نماذج Jina Embeddings على معالج الرسومات NVIDIA A100

الموالفة الجيدة

يمكن للمستخدمين الوصول إلى عناصر التحكم في الإشراف على المحتوى، وتبديل نموذج نقطة النهاية بدون توقف، وإمكانيات إلغاء تنشيط نقاط النهاية وتفعيلها. استفد من التدريب الموزع باستخدام PyTorch، وHugging Face Accelerate، وDeepSpeed لضبط نماذج اللغات الكبيرة لتحقيق أداء أمثل. تمكين نقاط التدقيق وتخزين الأوزان المضبوطة بدقة دون عناء مع التركيب لتخزين العناصر ونظام الملفات كخدمة. بالإضافة إلى ذلك، تلغي Condas الموفرة للخدمة متطلبات بيئات Docker المخصصة وتتيح المشاركة وتقليل التباطؤ.