Data Science Service Features

Principais recursos

Preparação de dados
Criação de modelo
Treinamento de modelo
Gerenciamento de governança e modelos
Automação e MLOps
AI Quick Actions

Preparação de dados

Acesso flexível a dados

Os cientistas de dados podem acessar e usar qualquer origem de dados em qualquer nuvem ou on-premises. Isso fornece mais recursos de dados potenciais que geram modelos melhores.

Preparação de dados em escala com o Spark

Envie consultas interativas do Spark para o cluster Spark do OCI Data Flow. Ou use o Oracle Accelerated Data Science SDK para desenvolver facilmente uma aplicação Spark e executá-la em escala no OCI Data Flow, tudo dentro do ambiente do Data Science.

Loja de recursos (em visualização)

Defina pipelines de engenharia de recursos e crie recursos com execução totalmente gerenciada. Versione e documente recursos e pipelines de recursos. Compartilhe, governe e controle o acesso aos recursos. Consuma recursos para cenários de inferência em lote e em tempo real.

Criação de modelo

Interface JupyterLab

Os ambientes de notebook JupyterLab integrados e hospedados na nuvem permitem que as equipes de ciência de dados criem e treinem modelos usando uma interface de usuário familiar.

Estruturas de machine learning de código aberto (open source)

O OCI Data Science oferece familiaridade e versatilidade para cientistas de dados, com centenas de ferramentas e estruturas de código aberto populares, como TensorFlow ou PyTorch, ou adiciona estruturas de sua escolha.

Biblioteca do Oracle Accelerated Data Science (ADS)

O Oracle Accelerated Data Science SDK é um kit de ferramentas Python fácil de usar que oferece suporte ao cientista de dados em todo o fluxo de trabalho de ciência de dados de ponta a ponta.

Oracle Accelerated Data Science SDK

Treinamento de modelo

Hardware avançado, incluindo unidades de processamento gráfico (GPUs)

Com as GPUs NVIDIA, os cientistas de dados criam e treinam modelos de deep learning em menos tempo. Em comparação com as CPUs, o desempenho pode ser acelerado de 5 a 10 vezes.

Trabalhos

Use Jobs para executar tarefas de ciência de dados repetíveis no modo em lote. Aumente seu treinamento de modelo com suporte para GPUs NVIDIA bare metal e treinamento distribuído.

Edição no console de artefatos de job

Crie, edite e execute facilmente artefatos de job do Data Science diretamente do OCI Console usando o Code Editor. Vem com integração do Git, controle automático de versões, personalização e muito mais.

Governança e gerenciamento de modelos

Catálogo de modelos

Os cientistas de dados usam o catálogo de modelos para preservar e compartilhar modelos de machine learning completos. O catálogo armazena os artefatos e captura metadados em torno da taxonomia e do contexto do modelo, hiperparâmetros, definições dos esquemas de dados de entrada e saída do modelo e informações detalhadas de proveniência sobre a origem do modelo, incluindo o código-fonte e o ambiente de treinamento.

Avaliação e comparação de modelos

Gere automaticamente um conjunto abrangente de métricas e visualizações para medir o desempenho do modelo em relação a novos dados e comparar candidatos a modelo.

Ambientes repetíveis

Aproveite ambientes conda pré-construídos e com curadoria para abordar uma variedade de casos de uso, como PNL, visão computacional, previsão, análise de gráficos e Spark. Publique ambientes personalizados e compartilhe com colegas, garantindo a reprodutibilidade de ambientes de treinamento e inferência.

Controle de versão

Os cientistas de dados podem se conectar ao repositório Git de sua organização para preservar e recuperar o trabalho de machine learning.

Automação e MLOps

Implementação de modelo gerenciado

Implemente modelos de machine learning como pontos de extremidade HTTP para atender a previsões de modelo em novos dados em tempo real. Basta clicar para implementar do catálogo de modelos para que o OCI Data Science se encarregue de todas as operações de infraestrutura, incluindo provisionamento de computação e balanceamento de carga.

Pipelines de ML

Operacionalize e automatize seus fluxos de trabalho de desenvolvimento, treinamento e implementação de modelos com um serviço totalmente gerenciado para criar, depurar, rastrear, gerenciar e executar pipelines de ML.

Monitoramento de ML

Monitore continuamente os modelos em produção para dados e desvios de conceito. Permite que cientistas de dados, engenheiros de confiabilidade do site e engenheiros de DevOps recebam alertas e avaliem rapidamente as necessidades de retreinamento do modelo.

Aplicações de ML

Originalmente projetadas para as próprias aplicações SaaS da Oracle para incorporar recursos de IA, as aplicações de ML agora estão disponíveis para automatizar todo o ciclo de vida de MLOps, incluindo desenvolvimento, provisionamento e manutenção contínua e gerenciamento de frota, para ISVs com centenas de modelos para cada um de seus milhares de clientes.

Documentação de aplicações de ML

AI Quick Actions

Acesso sem código

Use LLMs da Mistral, Meta, entre outros, sem escrever uma única linha de código por meio de uma interface de usuário perfeita em notebooks do OCI Data Science.

Importe qualquer LLM do OCI Object Storage, faça o ajuste e implemente por meio de uma interface de usuário fácil de usar.

Implementação

Implemente LLMs com apenas alguns cliques, alimentados por servidores de inferência populares, como vLLM (UC Berkeley), Text Generation Inference (Hugging Face) ou TensorRT-LLM (NVIDIA), para obter o desempenho ideal.

Ajuste

Para atingir o desempenho ideal, aproveite o treinamento distribuído com PyTorch, Hugging Face Accelerate ou DeepSpeed para ajustar LLMs. Ative o armazenamento de pesos ajustados com o armazenamento de objetos. Além disso, os condas fornecidos pelo serviço eliminam a necessidade de ambientes Docker personalizados e permitem o compartilhamento com menos lentidão.

Avaliar

Crie relatórios de avaliação detalhados para seu LLM, com base em BERTScore ou Recall-Oriented Understudy for Gisting Evaluation (ROUGE), para ajudar a comparar o desempenho entre o seu modelo e o de outros.