Funciones del servicio Data Science

Preparación de datos

Acceso flexible a datos

Los científicos de datos pueden acceder y utilizar cualquier origen de datos en cualquier nube u entorno local. Esto proporciona más funciones de datos potenciales que conducen a mejores modelos.

Etiquetado de datos

Oracle Cloud Infrastructure (OCI) Data Labeling es un servicio para crear conjuntos de datos etiquetados con el fin de entrenar de forma más precisa los modelos de inteligencia artificial y aprendizaje automático. Con OCI Data Labeling, los desarrolladores y los científicos de datos reúnen datos, crean y examinan conjuntos de datos y aplican etiquetas a los registros de datos.

Preparación de datos a escala con Spark

Envía consultas de Spark interactivas al cluster de OCI Data Flow Spark. O bien, utiliza Oracle Accelerated Data Science SDK para desarrollar fácilmente una aplicación Spark y luego ejecutarla a escala en OCI Data Flow, todo ello desde el entorno de Data Science.

Almacén de características (en vista previa)

Define pipelines de ingeniería de funciones y crea funciones con una ejecución totalmente gestionada. Crea versiones y documenta tanto las funciones como los pipelines de funciones. Comparte, controla y monitorea el acceso a las funciones. Usa funciones tanto para escenarios de inferencia por lotes como en tiempo real.

Creación de modelos

Interfaz de JupyterLab

Los entornos de bloc de notas JupyterLab integrados y alojados en la nube permiten a los equipos de ciencias de datos crear y entrenar modelos mediante una interfaz de usuario familiar.

Marcos de código abierto para aprendizaje automático

OCI Data Science proporciona familiaridad y versatilidad a los científicos de datos, con cientos de herramientas y marcos de código abierto populares, como TensorFlow o PyTorch, o agrega marcos preferidos. Una asociación estratégica entre OCI y Anaconda permite a los usuarios de OCI descargar e instalar paquetes directamente desde el repositorio de Anaconda gratuitos y de código abierto seguro.

Biblioteca de Oracle Accelerated Data Science (ADS)

El SDK de Oracle Accelerated Data Science es un conjunto de herramientas de Python fácil de usar que respalda al científico de datos a través de todo su flujo de trabajo completo de ciencia de datos.

Entrenamiento de modelo

Hardware potente, incluidas las unidades de procesamiento gráfico (GPU)

Con las GPU NVIDIA, los científicos de datos pueden crear y entrenar modelos de aprendizaje profundo en menos tiempo. En comparación con las CPU, las aceleraciones de rendimiento pueden ser entre 5 y 10 veces más rápidas.

Trabajos

Utiliza Jobs para ejecutar tareas de ciencia de datos repetibles por lotes. Amplía el entrenamiento de modelo con soporte para GPU NVIDIA con hardware dedicado y formación distribuida.

Edición en la consola de artefactos de trabajo

Crea, edita y ejecuta fácilmente artefactos de trabajo de Data Science directamente desde la consola de OCI mediante el editor de código. Incluye integración, control de versiones automático y personalización de Git, entre otros aspectos.

Control y gestión de modelos

Catálogo de modelos

Los científicos de datos utilizan el catálogo de modelos para conservar y compartir modelos completos de aprendizaje automático. El catálogo almacena los artefactos y captura metadatos en torno a la taxonomía y el contexto del modelo, hiperparámetros, definiciones de los esquemas de datos de entrada y salida del modelo e información detallada de procedencia sobre el origen del modelo, incluido el código fuente y el entorno de formación.

Evaluación y comparación de modelos

Genera automáticamente un conjunto completo de métricas y visualizaciones para medir el rendimiento del modelo con respecto a los datos nuevos y comparar a los candidatos.

Entornos reproducibles

Aprovecha los entornos Conda seleccionados y predefinidos para abordar una amplia gama de casos de uso, como NLP, visión informática, previsión, análisis de gráficos y Spark. Publica entornos personalizados y compártelos con tus compañeros para garantizar la reproducibilidad de los entornos de entrenamiento e inferencia.

Control de versiones

Los científicos de datos se pueden conectar al repositorio Git de su organización para conservar y recuperar el trabajo de aprendizaje automático.

Automatización y MLOps

Implementación de modelos administrada

Implementa modelos de aprendizaje automático como puntos finales HTTP para entregar predicciones de modelos sobre nuevos datos en tiempo real. Solo tienes que hacer clic para implementar desde el catálogo de modelos y OCI Data Science gestionará todas las operaciones de infraestructura, incluido el aprovisionamiento informático y el equilibrio de carga.

Pipelines de aprendizaje automático

Operacionaliza y automatiza los flujos de trabajo de desarrollo, entrenamiento y despliegue de modelos con un servicio totalmente gestionado para crear, depurar, rastrear, gestionar y ejecutar pipelines de aprendizaje automático.

Supervisión de AA

Controla de forma continua los modelos de producción en busca de cambios en los datos y conceptos. Permite a los científicos de datos, los ingenieros de fiabilidad del sitio y los ingenieros de DevOps recibir alertas y evaluar rápidamente las necesidades de reciclaje del modelo.

Aplicaciones de aprendizaje automático

Diseñadas originalmente para las propias aplicaciones SaaS de Oracle para integrar funciones de IA, las aplicaciones de aprendizaje automático están ahora disponibles para automatizar todo el ciclo de vida de MLOps, incluido el desarrollo, el aprovisionamiento y el mantenimiento continuo y la gestión de flotas, para ISV con cientos de modelos para cada uno de sus miles de clientes.

AI Quick Actions (Beta)

Acceso sin código

Aprovecha los LLM, como Llama 2 y Mistral 7B, con un sólo clic a través de una integración perfecta con los notebooks de Data Science.

Despliegue

Accede al soporte para la implementación de modelos utilizando Text Generation Inference (Hugging Face), vLLM (UC Berkeley), y NVIDIA Triton sirviendo con ejemplos públicos para

  • Llama 2 con 7 mil millones de parámetros y 13 mil millones de parámetros utilizando GPU NVIDIA A10
  • Llama 2 con 70 mil millones de parámetros utilizando GPU NVIDIA A100 y A10 mediante cuantificación GPTQ
  • Mistral 7B
  • Modelos de Jina Embeddings utilizando GPU NVIDIA A100

Ajuste fino

Los usuarios pueden acceder a controles de moderación, intercambio de modelos de puntos de conexión sin tiempo de inactividad y funciones de desactivación y activación de puntos de conexión. Aprovecha la capacitación distribuida con PyTorch, Hugging Face Accelerate y DeepSpeed para ajustar los LLM a fin de lograr un desempeño ideal. Habilita puntos de control y almacenamiento sin esfuerzo de pesos ajustados con montaje para almacenar objetos y sistema de archivos como servicio. Además, las Condas proporcionadas por el servicio eliminan el requisito de entornos de Docker personalizados y permiten compartir con menos ralentización.