Los científicos de datos pueden acceder y utilizar cualquier origen de datos en cualquier nube u entorno local. Esto proporciona más funciones de datos potenciales que conducen a mejores modelos.
Oracle Cloud Infrastructure (OCI) Data Labeling es un servicio para crear conjuntos de datos etiquetados con el fin de entrenar de forma más precisa los modelos de inteligencia artificial y aprendizaje automático. Con OCI Data Labeling, los desarrolladores y los científicos de datos reúnen datos, crean y examinan conjuntos de datos y aplican etiquetas a los registros de datos.
Envía consultas de Spark interactivas al cluster de OCI Data Flow Spark. O bien, utiliza Oracle Accelerated Data Science SDK para desarrollar fácilmente una aplicación Spark y luego ejecutarla a escala en OCI Data Flow, todo ello desde el entorno de Data Science.
Define pipelines de ingeniería de funciones y crea funciones con una ejecución totalmente gestionada. Crea versiones y documenta tanto las funciones como los pipelines de funciones. Comparte, controla y monitorea el acceso a las funciones. Usa funciones tanto para escenarios de inferencia por lotes como en tiempo real.
Los entornos de bloc de notas JupyterLab integrados y alojados en la nube permiten a los equipos de ciencias de datos crear y entrenar modelos mediante una interfaz de usuario familiar.
OCI Data Science proporciona familiaridad y versatilidad a los científicos de datos, con cientos de herramientas y marcos de código abierto populares, como TensorFlow o PyTorch, o agrega marcos preferidos. Una asociación estratégica entre OCI y Anaconda permite a los usuarios de OCI descargar e instalar paquetes directamente desde el repositorio de Anaconda gratuitos y de código abierto seguro.
El SDK de Oracle Accelerated Data Science es un conjunto de herramientas de Python fácil de usar que respalda al científico de datos a través de todo su flujo de trabajo completo de ciencia de datos.
Con las GPU NVIDIA, los científicos de datos pueden crear y entrenar modelos de aprendizaje profundo en menos tiempo. En comparación con las CPU, las aceleraciones de rendimiento pueden ser entre 5 y 10 veces más rápidas.
Utiliza Jobs para ejecutar tareas de ciencia de datos repetibles por lotes. Amplía el entrenamiento de modelo con soporte para GPU NVIDIA con hardware dedicado y formación distribuida.
Crea, edita y ejecuta fácilmente artefactos de trabajo de Data Science directamente desde la consola de OCI mediante el editor de código. Incluye integración, control de versiones automático y personalización de Git, entre otros aspectos.
Los científicos de datos utilizan el catálogo de modelos para conservar y compartir modelos completos de aprendizaje automático. El catálogo almacena los artefactos y captura metadatos en torno a la taxonomía y el contexto del modelo, hiperparámetros, definiciones de los esquemas de datos de entrada y salida del modelo e información detallada de procedencia sobre el origen del modelo, incluido el código fuente y el entorno de formación.
Genera automáticamente un conjunto completo de métricas y visualizaciones para medir el rendimiento del modelo con respecto a los datos nuevos y comparar a los candidatos.
Aprovecha los entornos Conda seleccionados y predefinidos para abordar una amplia gama de casos de uso, como NLP, visión informática, previsión, análisis de gráficos y Spark. Publica entornos personalizados y compártelos con tus compañeros para garantizar la reproducibilidad de los entornos de entrenamiento e inferencia.
Los científicos de datos se pueden conectar al repositorio Git de su organización para conservar y recuperar el trabajo de aprendizaje automático.
Implementa modelos de aprendizaje automático como puntos finales HTTP para entregar predicciones de modelos sobre nuevos datos en tiempo real. Solo tienes que hacer clic para implementar desde el catálogo de modelos y OCI Data Science gestionará todas las operaciones de infraestructura, incluido el aprovisionamiento informático y el equilibrio de carga.
Operacionaliza y automatiza los flujos de trabajo de desarrollo, entrenamiento y despliegue de modelos con un servicio totalmente gestionado para crear, depurar, rastrear, gestionar y ejecutar pipelines de aprendizaje automático.
Controla de forma continua los modelos de producción en busca de cambios en los datos y conceptos. Permite a los científicos de datos, los ingenieros de fiabilidad del sitio y los ingenieros de DevOps recibir alertas y evaluar rápidamente las necesidades de reciclaje del modelo.
Diseñadas originalmente para las propias aplicaciones SaaS de Oracle para integrar funciones de IA, las aplicaciones de aprendizaje automático están ahora disponibles para automatizar todo el ciclo de vida de MLOps, incluido el desarrollo, el aprovisionamiento y el mantenimiento continuo y la gestión de flotas, para ISV con cientos de modelos para cada uno de sus miles de clientes.
Utiliza modelos grandes de lenguaje (LLM) de Mistral y Meta, entre otros, sin escribir una sola línea de código a través de una interfaz de usuario perfecta en blocs de notas de OCI Data Science.
Importa cualquier LLM desde OCI Object Storage y, a continuación, realiza los ajustes y despliegues necesarios con una interfaz de usuario fácil de usar.
Implementa LLM con unos pocos clics, con tecnología de servidores de inferencia populares, como vLLM (de UC Berkeley), Text Generation Inference (de Hugging Face) o TensorRT-LLM (de NVIDIA), para obtener un rendimiento óptimo.
Para lograr un rendimiento óptimo, aprovecha la formación distribuida con PyTorch, Hugging Face Accelerate o DeepSpeed para ajustar los LLM. Activa el almacenamiento de pesos ajustados con Object Storage. Además, las Condas proporcionadas por el servicio eliminan el requisito de entornos de Docker personalizados y permiten compartir con menos ralentización.
Genera informes de evaluación detallados para tu LLM, basados en BERTScore o en Recall-Oriented Understudy for Gisting Evaluation (ROUGE), para ayudarte a comprender cómo es el rendimiento de modelo en comparación con otros.