Les data scientists peuvent accéder à n'importe quelle source de données et l'utiliser dans n'importe quel cloud ou sur site. Cela fournit davantage de fonctionnalités de données potentielles qui conduisent à de meilleurs modèles.
Oracle Cloud Infrastructure (OCI) Data Labeling est un service conçu pour créer des jeux de données étiquetées afin d'entraîner plus précisément des modèles d'IA et de machine learning. Grâce à OCI Data Labeling, les développeurs et les data scientists assemblent des données, créent et parcourent des ensembles de données et étiquettent leurs données.
Soumettez des requêtes Spark interactives à votre cluster Spark OCI Data Flow. Vous pouvez également utiliser le kit SDK Oracle Accelerated Data Science pour développer facilement une application Spark, puis l'exécuter à grande échelle sur OCI Data Flow, le tout à partir de l'environnement Data Science.
Définissez des pipelines d'ingénierie des fonctionnalités et créez des fonctionnalités avec une exécution entièrement gérée. Créez une version et documentez les fonctionnalités et les pipelines de fonctionnalités. Partagez, gérez et contrôlez l'accès aux fonctionnalités. Utilisez les fonctionnalités pour les scénarios d'inférence par lots et en temps réel.
Les environnements de bloc-notes JupyterLab intégrés et hébergés dans le cloud permettent aux équipes de data scientists de créer et de former des modèles avec une interface utilisateur familière.
OCI Data Science offre familiarité et polyvalence aux data scientists, avec des centaines d'outils et de frameworks open source populaires, comme TensorFlow ou PyTorch, ou la possibilité d'ajouter des frameworks de leur choix. Un partenariat stratégique entre OCI et Anaconda permet aux utilisateurs d'OCI de télécharger et d'installer des packages directement à partir du référentiel Anaconda sans coût supplémentaire, ce qui rend la source ouverte sécurisée plus accessible que jamais.
Le SDK Oracle Accelerated Data Science est une boîte à outils Python conviviale qui accompagne le data scientist tout au long de son workflow de data science de bout en bout.
Avec les GPU NVIDIA, les data scientists peuvent créer et former des modèles d'apprentissage approfondi en moins de temps. Par rapport aux processeurs, les performances peuvent être 5 à 10 fois plus rapides.
Utilisez Jobs pour exécuter des tâches de data science reproductibles en mode lot. Redimensionnez votre entraînement de modèle grâce à la prise en charge des processeurs graphiques NVIDIA bare metal et à l'entraînement distribué.
Créez, modifiez et exécutez facilement des artefacts de travail en data science directement à partir de la console OCI, à l'aide de l'éditeur de code. Livré avec l'intégration Git, l'autoversion, la personnalisation, et plus encore.
Les data scientistes utilisent le catalogue de modèles pour conserver et partager des modèles de machine learning terminés. Le catalogue stocke les artefacts et capture les métadonnées relatives à la taxonomie et au contexte du modèle, les hyperparamètres, les définitions des schémas de données d'entrée et de sortie du modèle, ainsi que des informations de provenance détaillées sur l'origine du modèle, y compris le code source et l'environnement d'entraînement.
Générez automatiquement une suite complète d'indicateurs et de visualisations pour mesurer les performances du modèle par rapport à de nouvelles données et comparez les candidats modèles.
Tirez parti d'environnements conda prédéfinis et organisés pour répondre à divers cas d'utilisation, tels que le traitement du langage naturel, la vision par ordinateur, les prévisions, l'analyse graphique et Spark. Publiez des environnements personnalisés et partagez-les avec vos collègues afin de garantir la reproductibilité des environnements de formation et d'inférence.
Les data scientists se connectent au référentiel Git de leur organisation pour préserver et récupérer le travail d'apprentissage automatique.
Déployez des modèles d'apprentissage automatique en tant que terminaux HTTP pour servir les prédictions de modèle sur les nouvelles données en temps réel. Cliquez simplement pour effectuer le déploiement à partir du catalogue de modèles. OCI Data Science gère toutes les opérations d'infrastructure, y compris le provisionnement du calcul et l'équilibrage de charge.
Opérationnalisez et automatisez les processus de développement, de formation et de déploiement de vos modèles avec un service entièrement géré permettant de créer, de déboguer, de suivre, de gérer et d'exécuter des pipelines de machine learning.
Surveillez en permanence les modèles en production pour détecter les dérives des données et des concepts. Faites en sorte que les data scientists, les ingénieurs spécialisés dans la fiabilité du site et les ingénieurs DevOps reçoivent des alertes et évaluent rapidement les besoins de réentraînement du modèle.
Conçues à l'origine pour les applications SaaS d'Oracle afin d'intégrer des fonctionnalités d'IA, les applications de machine learning sont désormais disponibles pour automatiser l'ensemble du cycle de vie MLOps, y compris le développement, le provisionnement et la maintenance continue et la gestion de flotte, pour les ISV disposant de centaines de modèles pour chacun de leurs milliers de clients.
Utilisez des LLM de Mistral, Meta et d'autres fournisseurs sans écrire une seule ligne de code via une interface utilisateur transparente dans les blocs-notes OCI Data Science.
Importez le LLM de votre choix à partir d'OCI Object Storage, puis fine-tuner-le et déployez-le via une interface utilisateur facile à utiliser.
Déployer des LLM en quelques clics, optimisés par des serveurs d'inférence populaires, tels que vLLM (UC Berkeley), Text Generation Inference (Hugging Face) ou TensorRT-LLM (NVIDIA), pour des performances optimales.
Pour obtenir des performances optimales, tirez parti de l'entraînement distribué avec PyTorch, Hugging Face Accelerate ou DeepSpeed pour le fine-tuning de LLM. Activez le stockage de poids affinés avec le stockage d'objets. De plus, les Condas fournis par le service éliminent la nécessité d'environnements Docker personnalisés et permettent le partage avec moins de ralentissement.
Produisez des rapports d'évaluation détaillés pour votre LLM, avec BERTScore ou Recall-Oriented Understudy for Gisting Evaluation (ROUGE), afin de comparer ses performances aux autres modèles.