Data Scientists können auf jede Datenquelle in jeder Cloud oder On-Premises zugreifen und diese verwenden. Dadurch werden mehr potenzielle Datenfeatures bereitgestellt, die zu besseren Modellen führen.
Oracle Cloud Infrastructure (OCI) Data Labeling ist ein Service zum Erstellen von beschrifteten Datensätzen, um KI- und ML-Modelle genauer zu trainieren. Mit OCI Data Labeling können Entwickler und Data Scientists Daten sammeln, Datensätze erstellen und durchsuchen sowie Kennzeichnungen auf Datensätze anwenden.
Leiten Sie interaktive Spark-Abfragen an Ihr OCI Data Flow Spark-Cluster weiter. Oder verwenden Sie das Oracle Accelerated Data Science-SDK, um problemlos eine Spark-Anwendung zu entwickeln und sie dann in großem Maßstab in OCI Data Flow auszuführen – alles aus der Data Science-Umgebung heraus.
Definieren Sie Feature Engineering-Pipelines und erstellen Sie Funktionen mit vollständig verwalteter Ausführung. Versionieren und dokumentieren Sie sowohl Funktionen als auch Funktionspipelines. Teilen, verwalten und kontrollieren Sie den Zugriff auf Funktionen. Nutzen Sie Funktionen sowohl für Batch- als auch für Echtzeitinterferenzszenarien.
Dank der integrierten, in der Cloud gehosteten JupyterLab-Notebook-Umgebungen können Data-Science-Teams Modelle über eine vertraute Benutzeroberfläche erstellen und trainieren.
OCI Data Science bietet Data Scientists Vertrautheit und Vielseitigkeit mit Hunderten von beliebten Open-Source-Tools und -Frameworks wie TensorFlow oder PyTorch. Außerdem haben Sie die Möglichkeit, Frameworks Ihrer Wahl hinzuzufügen. Eine strategische Partnerschaft zwischen OCI und Anaconda ermöglicht es OCI-Benutzern, Pakete direkt und kostenlos aus dem Anaconda-Repository herunterzuladen und zu installieren – sicheres Open Source ist so zugänglich wie nie zuvor.
Das Oracle Accelerated Data-Science-SDK ist ein benutzerfreundliches Python-Toolkit, das Data Scientists über den gesamten Data-Science-Workflow hinweg unterstützt.
Mit NVIDIA-GPUs können Data Scientists Deep-Learning-Modelle in kürzerer Zeit erstellen und trainieren. Im Vergleich zu CPUs können Leistungsbeschleunigungen 5- bis 10-mal schneller sein.
Verwenden Sie Jobs, um wiederholbare Data-Science-Aufgaben im Batch-Modus auszuführen. Skalieren Sie Ihr Modelltraining mit Unterstützung für NVIDIA-GPUs und verteiltes Training.
Erstellen, bearbeiten und führen Sie Data-Science-Jobartefakte problemlos direkt aus der OCI-Konsole mit dem Code-Editor aus. Verfügt über Git-Integration, Autoversionierung, Personalisierung und mehr.
Data Scientists verwenden den Modellkatalog, um abgeschlossene Modelle für maschinelles Lernen aufzubewahren und freizugeben. Der Katalog speichert die Artefakte und erfasst Metadaten rund um die Taxonomie und den Kontext des Modells, Hyperparameter, Definitionen der Eingabe- und Ausgabedatenschemata des Modells und detaillierte Herkunftsinformationen über den Ursprung des Modells, einschließlich des Quellcodes und der Trainingsumgebung.
Generieren Sie automatisch eine umfassende Suite von Kennzahlen und Visualisierungen, um die Modellleistung anhand neuer Daten zu messen und Modellkandidaten zu vergleichen.
Nutzen Sie vorgefertigte, kuratierte Conda-Umgebungen für eine Vielzahl von Anwendungsfällen, wie NLP, Computer Vision, Prognosen, Diagrammanalysen und Spark. Darüber hinaus können Sie benutzerdefinierte Umgebungen veröffentlichen und sie mit Kollegen teilen, um die Reproduzierbarkeit von Trainings- und Inferenzumgebungen sicherzustellen.
Data Scientists können sich mit dem Git-Repository ihrer Organisation verbinden, um Machine Learning-Arbeiten aufzubewahren und abzurufen.
Stellen Sie Machine Learning-Modelle als HTTP-Endpunkte bereit, um Modellvorhersagen für neue Daten in Echtzeit zu bieten. Einfach aus dem Modellkatalog per Mausklick bereitstellen, und OCI Data Science übernimmt alle Infrastrukturvorgänge, einschließlich Computing-Provisioning und Load Balancing.
Operationalisieren und automatisieren Sie Ihre Workflows für die Modellentwicklung, -schulung und -bereitstellung mit einem vollständig verwalteten Service zum Erstellen, Debuggen, Verfolgen, Verwalten und Ausführen von ML-Pipelines.
Überwachen Sie die Modelle in der Produktion kontinuierlich auf Daten- und Konzeptabweichungen. Ermöglicht es Data Scientists, Site Reliability Engineers und DevOps Engineers, Warnmeldungen zu erhalten und den Bedarf an Modellumschulungen schnell zu ermitteln.
ML-Anwendungen wurden ursprünglich für die eigenen SaaS-Anwendungen von Oracle entwickelt, um KI-Funktionen einzubetten. Sie sind jetzt verfügbar, um den gesamten MLOps-Lebenszyklus zu automatisieren, einschließlich Entwicklung, Bereitstellung und kontinuierlicher Wartung und Flottenverwaltung für ISVs mit Hunderten von Modellen für jeden ihrer Tausenden Kunden.
Verwenden Sie LLMs von Mistral, Meta und anderen über eine nahtlose Benutzeroberfläche in OCI Data Science-Notebooks , ohne eine einzige Zeile Code zu schreiben.
Importieren Sie ein beliebiges LLM aus OCI Object Storage und nehmen Sie dann über eine benutzerfreundliche Oberfläche die Feinabstimmung und Bereitstellung vor.
Stellen Sie LLMs mit wenigen Klicks bereit und erzielen Sie so eine optimale Performance mithilfe beliebter Inferenzserver wie vLLM (von UC Berkeley), Text Generation Inference (von Hugging Face) oder TensorRT-LLM (von NVIDIA).
Um eine optimale Leistung zu erzielen, sollten Sie verteiltes Training mit PyTorch, Hugging Face Accelerate oder DeepSpeed für die Feinabstimmung von LLMs nutzen. Ermöglichen Sie die Speicherung fein abgestimmter Gewichte mit dem Objektspeicher. Darüber hinaus erübrigen sich durch die vom Service bereitgestellten Condas benutzerdefinierte Docker-Umgebungen, und die gemeinsame Nutzung ist mit weniger Verzögerungen möglich.
Erstellen Sie detaillierte Auswertungsberichte für Ihr LLM, basierend auf BERTScore oder Recall-Oriented Understudy for Gisting Evaluation (ROUGE), um zu verstehen, wie die Performance des Modells im Vergleich zu anderen Modellen abschneidet.