Funkcje usługi Data Science

Najważniejsze funkcje

Przygotowanie danych
Tworzenie modeli
Szkolenie modeli
Nadzór i zarządzanie modelami
Automatyzacja i MLOps
AI Quick Actions

Przygotowanie danych

Elastyczny dostęp do danych

Badacze danych mogą uzyskiwać dostęp do dowolnych źródeł danych w dowolnej chmurze lub lokalnie. Zapewnia to więcej potencjalnych funkcji danych, które prowadzą do powstawania lepszych modeli.

Przygotowywanie danych na dużą skalę z użyciem Spark

Przesyłaj interaktywne zapytania Spark do klastra OCI Data Flow Spark. Można też użyć pakietu Oracle Accelerated Data Science SDK do łatwego tworzenia aplikacji Spark, a następnie uruchamiania jej na dużą skalę w usłudze OCI Data Flow – wszystko w obrębie środowiska usługi Data Science.

Magazyn funkcji (podgląd)

Definiowanie potoków funkcji inżynierskich i tworzenie funkcji dzięki w pełni zarządzanemu wykonywaniu. Tworzenie wersji i dokumentowanie funkcji oraz potoków funkcji. Udostępnianie funkcji, zarządzanie nimi i kontrola dostępu do nich. Korzystanie z funkcji dla scenariuszy grupowych i wnioskowania w czasie rzeczywistym.

Tworzenie modeli

Interfejs JupyterLab

Wbudowane, chmurowe środowiska notebooka JupyterLab umożliwiają zespołom danologicznym tworzenie i szkolenie modeli przy użyciu znajomego interfejsu użytkownika.

Środowiska uczenia maszynowego typu open source

Usługa OCI Data Science zapewnia znajome i wszechstronne środowisko dla badaczy danych dzięki setkom popularnych narzędzi i struktur open source, takich jak TensorFlow lub PyTorch. Pozwala również na dodawanie własnych środowisk.

Biblioteka Oracle Accelerated Data Science (ADS)

Oracle Accelerated Data Science SDK to przyjazny dla użytkownika zestaw narzędzi Python, wspierający badaczy danych w trakcie całego procesu analizy danych.

Zestaw SDK Oracle Accelerated Data Science

Szkolenie modeli

Wydajny sprzęt, w tym procesory graficzne (GPU)

Dzięki procesorom graficznym firmy NVIDIA analitycy danych mogą tworzyć i szkolić modele uczenia głębokiego w krótszym czasie. Wydajność może być od 5 do 10 razy szybsza w porównaniu ze zwykłymi procesorami.

Zadania

Używaj zadań do uruchamiania powtarzalnych zadań badania danych w trybie grupowym. Skaluj szkolenie modeli, korzystając z wsparcia dla procesorów graficznych NVDIA typu bare metal i szkolenia rozproszonego.

Edytowanie artefaktów zadań w konsoli

Łatwe tworzenie, edytowanie i uruchamianie artefaktów zadań usługi Data Science, bezpośrednio z konsoli OCI za pomocą edytora kodów. Oferuje integrację Git, automatyczną obsługę wersji, personalizację i o wiele więcej.

Nadzór i zarządzanie modelami

Katalog modeli

Badacze danych używają katalogu modeli do zachowywania i udostępniania ukończonych modeli uczenia maszynowego. Katalog przechowuje artefakty i zachowuje metadane związane z taksonomią i kontekstem modelu, hiperparametry, definicje wejściowych i wyjściowych schematów danych modelu oraz szczegółowe informacje o pochodzeniu modelu, w tym kod źródłowy i środowisko szkoleniowe.

Ocena i porównanie modeli

Automatyczne generowanie wszechstronnych pakietów miar i wizualizacji w celu zmierzenia wydajności modeli przy użyciu nowych danych i porównania kandydatów modeli.

Odtwarzalne środowiska

Wykorzystanie wstępnie utworzonych i wyselekcjonowanych środowisk conda do różnych przypadków użycia, takich jak NLP, widzenie komputerowe, prognozowanie, analiza grafów oraz Spark. Publikacja niestandardowych środowisk i udostępnianie ich współpracownikom, przy zapewnieniu odtwarzalności środowisk szkoleniowych i wnioskowych.

Kontrola wersji

Badacze danych mogą się połączyć z firmowym repozytorium Git w celu zachowania i pobrania zadań związanych z uczeniem maszynowym.

Automatyzacja i MLOps

Zarządzane wdrażanie modeli

Wdrażanie modeli uczenia maszynowego jako punktów końcowych HTTP w celu podawania w czasie rzeczywistym prognoz modelu opartych na nowych danych. Wdrożenie z katalogu modeli za pomocą kliknięcia. Usługa OCI Data Science obsługuje wszystkie operacje infrastrukturalne, w tym udostępnianie zasobów obliczeniowych i równoważenie obciążenia.

Potoki uczenia maszynowego

Automatyzacja i operacyjne dostosowanie procesów rozwoju, szkolenia i wdrożenia modeli dzięki w pełni zarządzanej usłudze tworzenia, wykrywania błędów, śledzenia i uruchamiania potoków uczenia maszynowego oraz zarządzania nimi.

Monitorowanie uczenia maszynowego

Stałe monitorowanie modeli w produkcji pod kątem odchyleń danych i koncepcji. Umożliwia wysyłanie powiadomień badaczom danych, inżynierom niezawodności witryny i inżynierom DevOps oraz szybką ocenę potrzeby ponownego szkolenia modeli.

Aplikacje uczenia maszynowego

Zaprojektowane pierwotnie z myślą o aplikacjach Oracle SaaS do wbudowania funkcji sztucznej inteligencji, aplikacje uczenia maszynowego są teraz dostępne, aby zautomatyzować cały cykl MLOps – w tym tworzenie, udostępnianie, ciągłą konserwację i zarządzanie flotą – dla niezależnych dostawców oprogramowania (ISV), z setkami modeli dla każdego z tysięcy ich klientów.

Dokumentacja aplikacji ML

AI Quick Actions

Dostęp bez kodu

Korzystaj z modeli LLM oferowanych przez Mistral, Meta i inne platformy bez pisania ani jednego wiersza kodu za pośrednictwem intuicyjnego interfejsu użytkownika w notatnikach OCI Data Science.

Zaimportuj dowolny model LLM z OCI Object Storage, a następnie dostosuj i wdróż go za pomocą łatwego w użyciu interfejsu użytkownika.

Wdrożenie

Wdrażaj modele LLM za kilkoma kliknięciami, korzystając z popularnych serwerów wnioskowania, takich jak vLLM (od UC Berkeley), Text Generation Inference (od Hugging Face) lub TensorRT-LLM (od NVIDIA), aby uzyskać optymalną wydajność.

Precyzyjne dostrajanie

Aby osiągnąć optymalną wydajność, wykorzystaj szkolenie rozproszone z użyciem PyTorch, Hugging Face Accelerate lub DeepSpeed w celu precyzyjnego dostrojenia modeli LLM. Aktywuj przechowywanie precyzyjnie dostrojonych wag w magazynie obiektów. Ponadto dostarczane przez usługę narzędzia Conda eliminują wymagania dotyczące niestandardowych środowisk Docker i umożliwiają udostępnianie przy mniejszym spowolnieniu.

Ocena

Twórz szczegółowe, oparte na kryteriach BERTScore lub Recall-Oriented Understudy for Gisting Evaluation (ROUGE) raporty oceny swojego modelu LLM, które pomogą Ci zrozumieć, jak jego wydajność wypada na tle innych modeli.