Data Science-Service – Funktionen


Datenvorbereitung

Flexibler Datenzugriff

Data Scientists können auf jede Datenquelle in jeder Cloud oder On-Premises zugreifen und diese verwenden. Dadurch werden mehr potenzielle Datenfeatures bereitgestellt, die zu besseren Modellen führen.

Datenlabeling

Oracle Cloud Infrastructure (OCI) Data Labeling ist ein Service zum Erstellen von beschrifteten Datensätzen, um KI- und ML-Modelle genauer zu trainieren. Mit OCI Data Labeling können Entwickler und Data Scientists Daten sammeln, Datensätze erstellen und durchsuchen sowie Kennzeichnungen auf Datensätze anwenden.

Datenvorbereitung in großem Maßstab mit Spark

Leiten Sie interaktive Spark-Abfragen an Ihr OCI Data Flow Spark-Cluster weiter. Oder verwenden Sie das Oracle Accelerated Data Science-SDK, um problemlos eine Spark-Anwendung zu entwickeln und sie dann in großem Maßstab in OCI Data Flow auszuführen – alles aus der Data Science-Umgebung heraus.

Funktionsshop (in Vorschau)

Definieren Sie Feature Engineering-Pipelines und erstellen Sie Funktionen mit vollständig verwalteter Ausführung. Versionieren und dokumentieren Sie sowohl Funktionen als auch Funktionspipelines. Teilen, verwalten und kontrollieren Sie den Zugriff auf Funktionen. Nutzen Sie Funktionen sowohl für Batch- als auch für Echtzeitinterferenzszenarien.

Modellerstellung

JupyterLab-Schnittstelle

Dank der integrierten, in der Cloud gehosteten JupyterLab-Notebook-Umgebungen können Data-Science-Teams Modelle über eine vertraute Benutzeroberfläche erstellen und trainieren.

Open-Source-Frameworks für Machine Learning

OCI Data Science bietet Data Scientists Vertrautheit und Vielseitigkeit mit Hunderten von beliebten Open-Source-Tools und -Frameworks wie TensorFlow oder PyTorch. Außerdem haben Sie die Möglichkeit, Frameworks Ihrer Wahl hinzuzufügen. Eine strategische Partnerschaft zwischen OCI und Anaconda ermöglicht es OCI-Benutzern, Pakete direkt und kostenlos aus dem Anaconda-Repository herunterzuladen und zu installieren – sicheres Open Source ist so zugänglich wie nie zuvor.

Oracle Accelerated Data Science-(ADS-)Bibliothek

Das Oracle Accelerated Data-Science-SDK ist ein benutzerfreundliches Python-Toolkit, das Data Scientists über den gesamten Data-Science-Workflow hinweg unterstützt.

Modelltraining

Leistungsstarke Hardware, einschließlich Grafikprozessoren (GPUs)

Mit NVIDIA-GPUs können Data Scientists Deep-Learning-Modelle in kürzerer Zeit erstellen und trainieren. Im Vergleich zu CPUs können Leistungsbeschleunigungen 5- bis 10-mal schneller sein.

Arbeitsplätze

Verwenden Sie Jobs, um wiederholbare Data-Science-Aufgaben im Batch-Modus auszuführen. Skalieren Sie Ihr Modelltraining mit Unterstützung für NVIDIA-GPUs und verteiltes Training.

Bearbeitung von Jobartefakten in der Konsole

Erstellen, bearbeiten und führen Sie Data-Science-Jobartefakte problemlos direkt aus der OCI-Konsole mit dem Code-Editor aus. Verfügt über Git-Integration, Autoversionierung, Personalisierung und mehr.

Governance und Modellverwaltung

Modellkatalog

Data Scientists verwenden den Modellkatalog, um abgeschlossene Modelle für maschinelles Lernen aufzubewahren und freizugeben. Der Katalog speichert die Artefakte und erfasst Metadaten rund um die Taxonomie und den Kontext des Modells, Hyperparameter, Definitionen der Eingabe- und Ausgabedatenschemata des Modells und detaillierte Herkunftsinformationen über den Ursprung des Modells, einschließlich des Quellcodes und der Trainingsumgebung.

Modellbewertung und -vergleich

Generieren Sie automatisch eine umfassende Suite von Kennzahlen und Visualisierungen, um die Modellleistung anhand neuer Daten zu messen und Modellkandidaten zu vergleichen.

Reproduzierbare Umgebungen

Nutzen Sie vorgefertigte, kuratierte Conda-Umgebungen für eine Vielzahl von Anwendungsfällen, wie NLP, Computer Vision, Prognosen, Diagrammanalysen und Spark. Darüber hinaus können Sie benutzerdefinierte Umgebungen veröffentlichen und sie mit Kollegen teilen, um die Reproduzierbarkeit von Trainings- und Inferenzumgebungen sicherzustellen.

Versionskontrolle

Data Scientists können sich mit dem Git-Repository ihrer Organisation verbinden, um Machine Learning-Arbeiten aufzubewahren und abzurufen.

Automatisierung und MLOps

Verwaltete Modellbereitstellung

Stellen Sie Machine Learning-Modelle als HTTP-Endpunkte bereit, um Modellvorhersagen für neue Daten in Echtzeit zu bieten. Einfach aus dem Modellkatalog per Mausklick bereitstellen, und OCI Data Science übernimmt alle Infrastrukturvorgänge, einschließlich Computing-Provisioning und Load Balancing.

ML-Pipelines

Operationalisieren und automatisieren Sie Ihre Workflows für die Modellentwicklung, -schulung und -bereitstellung mit einem vollständig verwalteten Service zum Erstellen, Debuggen, Verfolgen, Verwalten und Ausführen von ML-Pipelines.

ML-Überwachung

Überwachen Sie die Modelle in der Produktion kontinuierlich auf Daten- und Konzeptabweichungen. Ermöglicht es Data Scientists, Site Reliability Engineers und DevOps Engineers, Warnmeldungen zu erhalten und den Bedarf an Modellumschulungen schnell zu ermitteln.

ML-Anwendungen

ML-Anwendungen wurden ursprünglich für die eigenen SaaS-Anwendungen von Oracle entwickelt, um KI-Funktionen einzubetten. Sie sind jetzt verfügbar, um den gesamten MLOps-Lebenszyklus zu automatisieren, einschließlich Entwicklung, Bereitstellung und kontinuierlicher Wartung und Flottenverwaltung für ISVs mit Hunderten von Modellen für jeden ihrer Tausenden Kunden.

AI Quick Actions

No-Code-Zugriff

Verwenden Sie LLMs von Mistral, Meta und anderen über eine nahtlose Benutzeroberfläche in OCI Data Science-Notebooks , ohne eine einzige Zeile Code zu schreiben.

Importieren Sie ein beliebiges LLM aus OCI Object Storage und nehmen Sie dann über eine benutzerfreundliche Oberfläche die Feinabstimmung und Bereitstellung vor.

Bereitstellung

Stellen Sie LLMs mit wenigen Klicks bereit und erzielen Sie so eine optimale Performance mithilfe beliebter Inferenzserver wie vLLM (von UC Berkeley), Text Generation Inference (von Hugging Face) oder TensorRT-LLM (von NVIDIA).

Feinabstimmung

Um eine optimale Leistung zu erzielen, sollten Sie verteiltes Training mit PyTorch, Hugging Face Accelerate oder DeepSpeed für die Feinabstimmung von LLMs nutzen. Ermöglichen Sie die Speicherung fein abgestimmter Gewichte mit dem Objektspeicher. Darüber hinaus erübrigen sich durch die vom Service bereitgestellten Condas benutzerdefinierte Docker-Umgebungen, und die gemeinsame Nutzung ist mit weniger Verzögerungen möglich.

Bewertung

Erstellen Sie detaillierte Auswertungsberichte für Ihr LLM, basierend auf BERTScore oder Recall-Oriented Understudy for Gisting Evaluation (ROUGE), um zu verstehen, wie die Performance des Modells im Vergleich zu anderen Modellen abschneidet.