Preparação de dados

Acesso flexível a dados

Os cientistas de dados podem acessar e usar qualquer origem de dados em qualquer nuvem ou on-premises. Isso fornece mais recursos de dados potenciais que geram modelos melhores.

Rótulo de dados

O Oracle Cloud Infrastructure (OCI) Data Labeling é um serviço para criar conjuntos de dados rotulados para treinar modelos de IA e machine learning com mais precisão. Com o OCI Data Labeling, desenvolvedores e cientistas de dados reúnem dados, criam e navegam em conjuntos de dados e aplicam rótulos a registros de dados.

Preparação de dados em escala com o Spark

Envie consultas interativas do Spark para o cluster Spark do OCI Data Flow. Ou use o Oracle Accelerated Data Science SDK para desenvolver facilmente uma aplicação Spark e executá-la em escala no OCI Data Flow, tudo dentro do ambiente do Data Science.

Loja de recursos (em visualização)

Defina pipelines de engenharia de recursos e crie recursos com execução totalmente gerenciada. Versione e documente recursos e pipelines de recursos. Compartilhe, governe e controle o acesso aos recursos. Consuma recursos para cenários de inferência em lote e em tempo real.

Criação de modelo

Interface JupyterLab

Os ambientes de notebook JupyterLab integrados e hospedados na nuvem permitem que as equipes de ciência de dados criem e treinem modelos usando uma interface de usuário familiar.

Estruturas de machine learning de código aberto (open source)

O OCI Data Science oferece familiaridade e versatilidade para cientistas de dados, com centenas de ferramentas e estruturas de código aberto populares, como TensorFlow ou PyTorch, ou adiciona estruturas de sua escolha. Uma parceria estratégica entre a OCI e o Anaconda permite que os usuários da OCI baixem e instalem pacotes diretamente do repositório do Anaconda sem nenhum custo, tornando o código aberto seguro mais acessível do que nunca.

Biblioteca do Oracle Accelerated Data Science (ADS)

O Oracle Accelerated Data Science SDK é um kit de ferramentas Python fácil de usar que oferece suporte ao cientista de dados em todo o fluxo de trabalho de ciência de dados de ponta a ponta.

Treinamento de modelo

Hardware avançado, incluindo unidades de processamento gráfico (GPUs)

Com as GPUs NVIDIA, os cientistas de dados criam e treinam modelos de deep learning em menos tempo. Em comparação com as CPUs, o desempenho pode ser acelerado de 5 a 10 vezes.

Trabalhos

Use Jobs para executar tarefas de ciência de dados repetíveis no modo em lote. Aumente seu treinamento de modelo com suporte para GPUs NVIDIA bare metal e treinamento distribuído.

Edição no console de artefatos de job

Crie, edite e execute facilmente artefatos de job do Data Science diretamente do OCI Console usando o Code Editor. Vem com integração do Git, controle automático de versões, personalização e muito mais.

Governança e gerenciamento de modelos

Catálogo de modelos

Os cientistas de dados usam o catálogo de modelos para preservar e compartilhar modelos de machine learning completos. O catálogo armazena os artefatos e captura metadados em torno da taxonomia e do contexto do modelo, hiperparâmetros, definições dos esquemas de dados de entrada e saída do modelo e informações detalhadas de proveniência sobre a origem do modelo, incluindo o código-fonte e o ambiente de treinamento.

Avaliação e comparação de modelos

Gere automaticamente um conjunto abrangente de métricas e visualizações para medir o desempenho do modelo em relação a novos dados e comparar candidatos a modelo.

Ambientes repetíveis

Aproveite ambientes conda pré-construídos e com curadoria para abordar uma variedade de casos de uso, como PNL, visão computacional, previsão, análise de gráficos e Spark. Publique ambientes personalizados e compartilhe com colegas, garantindo a reprodutibilidade de ambientes de treinamento e inferência.

Controle de versão

Os cientistas de dados podem se conectar ao repositório Git de sua organização para preservar e recuperar o trabalho de machine learning.

Automação e MLOps

Implementação de modelo gerenciado

Implemente modelos de machine learning como pontos de extremidade HTTP para atender a previsões de modelo em novos dados em tempo real. Basta clicar para implementar do catálogo de modelos para que o OCI Data Science se encarregue de todas as operações de infraestrutura, incluindo provisionamento de computação e balanceamento de carga.

Pipelines de ML

Operacionalize e automatize seus fluxos de trabalho de desenvolvimento, treinamento e implementação de modelos com um serviço totalmente gerenciado para criar, depurar, rastrear, gerenciar e executar pipelines de ML.

Monitoramento de ML

Monitore continuamente os modelos em produção para dados e desvios de conceito. Permite que cientistas de dados, engenheiros de confiabilidade do site e engenheiros de DevOps recebam alertas e avaliem rapidamente as necessidades de retreinamento do modelo.

Aplicações de ML

Originalmente projetadas para as próprias aplicações SaaS da Oracle para incorporar recursos de IA, as aplicações de ML agora estão disponíveis para automatizar todo o ciclo de vida de MLOps, incluindo desenvolvimento, provisionamento e manutenção contínua e gerenciamento de frota, para ISVs com centenas de modelos para cada um de seus milhares de clientes.

AI Quick Actions (Beta)

Acesso sem código

Aproveite LLMs como Llama 2 e Mistral 7B, com um clique por meio da integração perfeita com os notebooks de Data Science.

Implementação

Acesse o suporte para implementação de modelo usando Inferência de Geração de Texto (Hugging Face), vLLM (UC Berkeley) e NVIDIA Triton servindo com exemplos públicos para

  • Llama 2 com 7 bilhões de parâmetros e 13 bilhões de parâmetros usando GPUs A10 da NVIDIA
  • Llama 2 com 70 bilhões de parâmetros usando GPUs A100 e A10 da NVIDIA via quantização de GPTQ
  • Mistral 7B
  • Modelos de Jina Embeddings usando a GPU A100 da NVIDIA

Ajuste

Os usuários podem acessar controles de moderação de conteúdo, troca de modelos de endpoints sem tempo de inatividade e recursos de desativação e ativação de endpoints. Aproveite o treinamento distribuído com PyTorch, Hugging Face Accelerate e DeepSpeed para ajustar os LLMs para alcançar o desempenho ideal. Ative o checkpoint e o armazenamento sem esforço de pesos ajustados com montagem para armazenamento de objetos e sistema de arquivos como serviço. Além disso, os condas fornecidos pelo serviço eliminam a necessidade de ambientes Docker personalizados e permitem o compartilhamento com menos lentidão.