Aprendizaje automático en base de datos con HeatWave AutoML

Michael Chen | Estratega de contenido | 15 de octubre de 2024

El aprendizaje automático en la base de datos se refiere a la integración de algoritmos y técnicas de aprendizaje automático en un sistema de gestión de bases de datos. Todos los procesos, incluida la selección de conjuntos de datos, los algoritmos de entrenamiento y la evaluación de modelos, permanecen en la base de datos. Con el aprendizaje automático en la base de datos, las organizaciones pueden realizar tareas analíticas complejas directamente dentro de sus bases de datos, eliminando la necesidad de mover datos entre sistemas. Esto elimina la latencia, la integridad de los datos y los problemas de seguridad relacionados con los procesos de importación/exportación de datos.

Considere una empresa que de repente está experimentando una gran cantidad de abandono de clientes. Los algoritmos de aprendizaje automático (ML) pueden predecir qué clientes pueden llegar a convertirse en competidores y sugerir campañas de marketing personalizadas y hacer otras recomendaciones sobre cómo volver a atraer a esos compradores. Tal vez tenga exceso de inventario de artículos comprados con frecuencia. Ofrecer una promoción especial puede mover el stock y hacer felices a los clientes. Si el aprendizaje automático está disponible directamente en la base de datos, estas sugerencias se pueden generar mucho más rápido, en los datos más actualizados. La empresa puede girar rápidamente. Y debido a que no hay necesidad de mover datos a un motor de aprendizaje automático externo, las preocupaciones sobre la exposición de la información del cliente se eliminan.

¿Qué es el aprendizaje automático en la base de datos?

El aprendizaje automático en la base de datos trae algoritmos de aprendizaje automático directamente a la base de datos, eliminando la necesidad de mover datos entre diferentes sistemas. Tradicionalmente, el aprendizaje automático requería que los datos se extrajeran de la base de datos y se procesaran en una plataforma o herramienta de análisis de aprendizaje automático independiente. Esto puede llevar mucho tiempo y requiere muchos recursos, especialmente cuando se trata de grandes conjuntos de datos.

Con el aprendizaje automático en la base de datos, los datos se mantienen mientras que los algoritmos de aprendizaje automático se ejecutan de forma nativa en el entorno de la base de datos. Una ventaja clave de integrar algoritmos de aprendizaje automático en la base de datos es un análisis más rápido y eficiente.

En pocas palabras, mover los datos ralentiza todo.

El aprendizaje automático en la base de datos es particularmente útil para los grandes conjuntos de datos necesarios, por ejemplo, para entrenar modelos de IA. Con el aprendizaje automático en la base de datos, el entorno de base de datos utiliza herramientas para la codificación, la creación de modelos y las pruebas nativas de la plataforma. Esto permite que todas las tablas de la base de datos se utilicen para proyectos que hacen un uso intensivo de los datos, con solo unos clics.

El aprendizaje automático en la base de datos también proporciona coherencia de la infraestructura, ya sea en el entrenamiento o el despliegue, lo que significa que los equipos de TI están libres de crear nuevas infraestructuras listas para la producción, sin mencionar el mantenimiento relacionado y el trabajo de control de calidad, para soportar las siguientes etapas del uso del modelo.

Conclusiones clave

  • El aprendizaje automático en la base de datos permite a las organizaciones codificar, crear, probar e implementar modelos de aprendizaje automático en el entorno de la base de datos.
  • Al permanecer dentro de la base de datos, el proceso de aprendizaje automático se mueve mucho más eficientemente.
  • Los modelos creados con aprendizaje automático en la base de datos suelen ser menos complejos que los creados con herramientas independientes, ya que se basan en las funciones disponibles en el entorno.

Explicación del Machine Learning en base de Datos

El aprendizaje automático en la base de datos es una experiencia perfecta porque los empleados trabajan con sus sistemas y herramientas de base de datos familiares. Del mismo modo, los analistas pueden utilizar sus bases de datos existentes y lenguajes de consulta familiares para realizar análisis avanzados sin la necesidad de inversiones adicionales de software o hardware. Al analizar los datos directamente dentro de la base de datos, las organizaciones pueden descubrir información valiosa sobre los datos más recientes y tomar decisiones más oportunas y basadas en datos.

Sin el aprendizaje automático en la base de datos, las empresas que buscan aplicar análisis de aprendizaje automático a sus datos deberán realizar procesos de extracción/transformación/carga (ETL) o extracción/carga/transformación (ELT) y trasladar los datos a sistemas externos. Bajo este modelo tradicional, los científicos de datos pueden realizar operaciones manuales de importación/exportación, o los sistemas pueden integrarse a través de API; en cualquier caso, se necesitan varios pasos adicionales para preparar los conjuntos de datos para las funciones de aprendizaje automático, y esos pasos adicionales abren la puerta a posibles problemas, incluidos:

  • Errores de datos duplicados
  • Errores de corrupción de datos
  • Fallas de seguridad
  • Uso excesivo de recursos y recursos informáticos, y costos asociados
  • Problemas de compatibilidad de integración
  • Problemas de compatibilidad de formato

El aprendizaje automático en la base de datos omite los pasos de exportación/importación, manteniendo las tareas de aprendizaje automático en el mismo entorno que los datos en sí, sin necesidad de reconstruir ni cambiar el formato de los esfuerzos para garantizar la compatibilidad. Al permanecer en la base de datos, también se elimina la necesidad de mantener sistemas capaces de manejar el intermediario.

Importancia del aprendizaje automático en la base de datos

A escala, existen una serie de obstáculos al utilizar un conjunto diverso de orígenes de datos para tareas de aprendizaje automático, en particular el entrenamiento de modelos de IA. Incluyen lo siguiente:

  • Modelar restricciones de entrenamiento. Debido a que muchos conjuntos de datos son demasiado grandes para someterse constantemente al procesamiento ETL/ELT, los equipos de datos suelen utilizar solo subconjuntos de sus datos para el entrenamiento de modelos. Esto crea limitaciones, ya que los modelos pueden entrenarse en datos que no representan todo el espectro de escenarios que encontrarán cuando se implementen en el "mundo real".
  • Complejidad de los orígenes de datos. Las fuentes de datos pueden ser muchas y variadas: sensores de Internet of Things (IoT) en tiempo real en una fábrica, bases de datos de clientes con historiales largos y numerosos campos, enormes archivos log de seguridad. La falta de un formato único, unificado y simplificado crea problemas para las aplicaciones, incluidos los sistemas de inteligencia empresarial, y mucho menos para funciones más complejas, como el aprendizaje automático.

El aprendizaje automático en la base de datos es importante para los equipos de datos en este momento debido al rápido y continuo crecimiento del volumen y la variedad de datos. En pocas palabras, las tareas que requieren un uso intensivo de datos van a ser más difíciles, no más fáciles, por lo que es más importante que nunca integrar el aprendizaje automático en la base de datos en los flujos de trabajo.

¿Cómo funciona el aprendizaje automático en la base de datos?

En su forma más básica, el aprendizaje automático en la base de datos funciona de manera similar al aprendizaje automático estándar. La principal diferencia es que todos los pasos necesarios para mover datos entre sistemas, desde extracciones hasta transformación/limpieza, simplemente se eliminan. Sin embargo, esto conlleva algunas limitaciones y requisitos debido a la naturaleza del trabajo dentro de un entorno de base de datos.

En líneas generales, así es como funciona el aprendizaje automático en la base de datos.

1. Los datos se cargan y procesan previamente en una base de datos de análisis.

Todo comienza con la carga inicial en la base de datos, aunque para el aprendizaje automático en la base de datos, queda una advertencia: la base de datos debe soportar la capacidad, específicamente, mantener el código cerca de los datos para permitir las mejoras de eficiencia completas posibles con el aprendizaje automático en la base de datos.

2. Los algoritmos de aprendizaje automático están optimizados

Ya sea que los algoritmos de aprendizaje automático se encuentren en la base de datos o en una plataforma de terceros, aún deben someterse al proceso de optimización requerido. Eso significa entrenar el modelo, evaluar los resultados y ajustar según sea necesario. La mayor diferencia con el aprendizaje automático en la base de datos es que estos pasos se realizan dentro de la base de datos, en lugar de en un sistema que está separado del lugar donde se alojan los datos. Esto elimina la necesidad de mover datos entre varios sistemas y almacenes de datos diferentes para realizar tareas de optimización de modelos.

3. Los científicos de datos utilizan API especializadas para entrenar el aprendizaje automático

En el aprendizaje automático tradicional, los datos se deben mover de bases de datos a un repositorio, como un lago de datos, para entrenar el modelo, evaluar los resultados y realizar acotaciones, como ajustar algoritmos y parámetros individuales. Estos pasos utilizan recursos informáticos y sopesan la infraestructura. Las API nativas de base de datos pueden manejar estas tareas, incluso cuando el modelo se transfiere de entornos de desarrollo a entornos de prueba a entornos de producción.

4. Las estadísticas predictivas se pueden ejecutar directamente en los sistemas operativos sin interrupciones

Mediante el aprendizaje automático en la base de datos, las revisiones del modelo de aprendizaje automático se pueden propagar a otras bases de datos, ya sea en entornos de desarrollo, prueba o producción, simplemente mediante el control de versiones de una tabla. Los refinamientos se integran instantáneamente, lo que permite que las funciones se ejecuten sin interrupciones a partir de pasos adicionales o recursos informáticos combinados.

5. Los resultados se devuelven en tiempo real con una precisión mejorada

Cuando se generan estadísticas mediante modelos de aprendizaje automático directamente dentro de una base de datos, el resultado es estadísticas casi en tiempo real sin pasos adicionales ni preocupaciones sobre la latencia de ETL/ELT y la integridad de los datos.

Ventajas del Machine Learning en la base de datos en comparación con otros métodos

El aprendizaje automático en la base de datos acorta naturalmente los procesos y reduce las necesidades de hardware de las organizaciones, creando una serie de beneficios. Si bien este enfoque viene con su propio conjunto de limitaciones, los beneficios comunes son los siguientes:

Procesamiento de análisis más rápido

Mover datos entre sistemas es, en el mejor de los casos, engorroso. En el peor de los casos, puede introducir errores, latencia y riesgos de seguridad mientras ralentiza las operaciones. Al mantener las tareas de análisis dentro de la base de datos, los obstáculos adicionales involucrados con ELT/ETL (a través de la exportación, la transformación de datos y la carga) se niegan, lo que garantiza que el proceso de análisis general se mueva lo más rápido posible.

Reducción del costo de la propiedad

Cuando una organización elimina la necesidad de cambiar grandes conjuntos de datos, obtiene ahorros en almacenamiento y mano de obra experta, así como menos latencia. Después de todo, el tiempo es dinero. Además, la eficiencia mejorada reduce las horas dedicadas a la resolución de problemas de hardware y software para un nivel secundario de reducción de costos.

Mayor escalabilidad

La escalabilidad a menudo depende de los recursos: cuanto más dinero, mano de obra o CPU se necesitan para un proceso, más difícil es escalar a demanda. La eliminación de los procesos de movimiento de datos elimina la potencia de cálculo adicional necesaria para completar pasos como la exportación o la conversión de formato. Mantener los datos dentro de la base de datos reduce la necesidad de abordar los problemas de compatibilidad y mejora la eficiencia de los recursos informáticos, lo que ofrece una flexibilidad mucho mayor y una ampliación más sencilla para satisfacer la demanda.

Rendimiento y precisión mejorados

Los procesos ELT/ETL son una fuente principal de datos duplicados dentro de una red. La duplicación puede provenir de muchas fuentes, como un problema de hardware que interrumpe la exportación y deja datos dañados, o problemas con herramientas de transformación de datos que llevan a la edición o eliminación accidental. Cada paso de un proceso ELT/ETL abre riesgos que pueden dañar la calidad y precisión de un conjunto de datos al tiempo que ralentizan la eficiencia del proceso.

Despliegue y mantenimiento automatizados

El aprendizaje automático en la base de datos mantiene los datos en un solo lugar. Esto elimina la necesidad de mover datos, lo que reduce la exportación/importación y la entrada/salida. Como resultado, los procesos pueden ocurrir dentro del entorno nativo, sin depender de otros sistemas. Esto libera herramientas y capacidades de automatización para diversas tareas, como la implementación, la auditoría y las comprobaciones de mantenimiento. Los usuarios pueden beneficiarse de estas funciones sin preocuparse por problemas de compatibilidad o integración que puedan surgir.

Herramientas y servicios de Machine Learning en la base de datos

Las herramientas de aprendizaje automático en la base de datos incluyen una amplia gama de servicios y capacidades. En muchos casos, estas herramientas son similares a lo que un proveedor de bases de datos puede proporcionar como capacidades independientes, ya sea como un subconjunto de funciones integradas o como una conexión integrada a la plataforma de aprendizaje automático del proveedor. Por ejemplo, Oracle Database proporciona capacidades de aprendizaje automático en el entorno para eliminar la necesidad de mover datos de un sistema a otro. En este caso, Oracle Database proporciona exploración, preparación y modelado mediante herramientas de Oracle Machine Learning, como SQL, R, Python, REST, Machine Learning automatizado (AutoML) e interfaces sin código, junto con una variedad de algoritmos disponibles.

Captura de pantalla del panel de control de Oracle Machine Learning

Desventajas del aprendizaje automático en base de datos

Aunque ofrece ventajas atractivas, el Machine Learning en la base de datos depende en gran medida de las funciones y capacidades del entorno de base de datos. Esto puede generar problemas con la migración futura o cuando el modelo de aprendizaje automático requiere algo más allá de las capacidades nativas del entorno.

Entre los inconvenientes y limitaciones más comunes del Machine Learning en la base de datos se incluyen los siguientes:

Dificultad para desplegar modelos

Si todo se ajusta a las necesidades y objetivos de aprendizaje automático de un proyecto, pasar de la prueba al despliegue es en realidad un paso simple. Sin embargo, estos modelos se basan en las capacidades específicas de las herramientas en la base de datos de una organización. ¿Qué sucede cuando el proyecto se convierte en algo más complejo o requiere migración? Trabajar con herramientas en la base de datos puede hacer que la carga de trabajo de aprendizaje automático inmediata sea más rápida y eficiente, pero el futuro puede ser un signo de interrogación, por lo que es necesario considerar si los objetivos a largo plazo se alinean con las capacidades actuales.

Complejidad limitada del modelo

El Machine Learning integrado en la base de datos solo funciona en aplicaciones de base de datos soportadas y puede ofrecer un conjunto limitado de API. Esto está cambiando a medida que crecen las capacidades de los sistemas de aprendizaje automático en la base de datos, pero como regla general, las herramientas independientes ofrecen más potencia y características, junto con una gran cantidad de especialistas disponibles para ayudar a las empresas a explotar esas características.

Falta de transparencia de datos

La mayor fortaleza del aprendizaje automático en la base de datos también conduce a uno de sus mayores inconvenientes: al mantener los datos dentro del entorno de la base de datos, se omiten los pasos de ETL/ELT, pero eso significa que también se omiten las oportunidades de auditoría y limpieza de datos.

Limitaciones de computación

En muchos casos, las bases de datos no compartirán los mismos recursos informáticos que las herramientas de aprendizaje automático, especialmente para modelos a gran escala o extremadamente complejos que requieren computación de alto rendimiento. Por ello, el ámbito de los modelos de Machine Learning en la base de datos suele tener un límite. Cada configuración organizacional es diferente; de manera similar, las necesidades de cada proyecto son diferentes, y esto es una compensación a considerar durante las etapas iniciales de planificación.

Introducción al aprendizaje automático en la base de datos con HeatWave AutoML

HeatWave proporciona IA generativa y ML automatizados, integrados y seguros en el mismo servicio de la nube para transacciones y análisis a escala del lago. HeatWave AutoML incluye todo lo que necesitan los usuarios para construir, entrenar y explicar modelos de aprendizaje automatizado dentro de HeatWave, sin costo adicional. Con el machine learning integrado en la bases de datos en HeatWave, los clientes no necesitan mover datos a un servicio del ML independiente. Puedes aplicar fácilmente y de forma segura la inferencia, la explicación y el entrenamiento del aprendizaje automático a los datos almacenados tanto dentro de MySQL como en el almacén de objetos. HeatWave está disponible en Oracle Cloud Infrastructure, Amazon Web Services y Microsoft Azure.

Para empezar, las organizaciones deben asegurarse de que su base de datos proporciona aprendizaje automático en la base de datos, lo que puede cambiar las reglas del juego para las organizaciones que buscan aprovechar completamente el poder del aprendizaje automático. Al incorporar algoritmos de aprendizaje automático a los datos, en lugar de viceversa, los responsables de la toma de decisiones obtienen análisis más rápidos y eficientes.

Datos e IA: una guía para el éxito del CIO

Los modelos de IA vienen en muchos tamaños y niveles de complejidad, desde LLM hasta modelos de ML más simples. ¿Qué tienen todos en común? hambre de datos. Aquí hay 4 componentes de una infraestructura de datos lista para IA.

Preguntas frecuentes sobre el Machine Learning en base de Datos

¿Cómo se puede utilizar eficazmente el aprendizaje automático en la base de datos?

El aprendizaje automático en la base de datos solo funciona cuando las empresas emplean una base de datos que admite capacidades en la base de datos. Se debe considerar la base de recursos informáticos de esa base de datos, junto con el tamaño y el ámbito de la base de datos y el modelo de aprendizaje automático.

¿Cuáles son las ventajas del aprendizaje automático en la base de datos?

El aprendizaje automático en la base de datos elimina la necesidad de extraer y mover datos entre sistemas. Esto crea un conjunto natural de beneficios en términos de eficiencia y, en algunos casos, puede reducir los tiempos de proceso de semanas a días, ya que elimina la necesidad de confiar en herramientas externas para ETL / ELT. Desde una perspectiva general, esto también reduce el costo de propiedad y aumenta la escalabilidad y la eficiencia operativa a través de un menor uso de recursos.

¿Cuáles son algunos problemas a tener en cuenta al utilizar el aprendizaje automático en la base de datos?

Antes de decidir utilizar el aprendizaje automático en la base de datos para un proyecto, los equipos deben sopesar los siguientes factores:

  • ¿Qué tan rápido tiene que moverse el proyecto?
  • ¿Qué tan complejo es el modelo?
  • ¿Necesitará un especialista acceso al modelo o a los datos? Si es así, ¿qué herramientas prefieren?
  • ¿Qué tipo de recursos informáticos hay disponibles para la base de datos en comparación con las herramientas de Machine Learning independientes?

Estas preguntas pueden aclarar los pros y los contras del aprendizaje automático en la base de datos y deben considerarse para cada proyecto.

¿Cuáles son algunas tendencias futuras en el aprendizaje automático en la base de datos?

Los proveedores siguen mejorando y ampliando sus capacidades de aprendizaje automático en la base de datos, lo que significa que se vislumbran varias tendencias. A medida que más y más herramientas y plataformas admitan el aprendizaje automático en la base de datos, los científicos de datos podrán crear e implementar modelos más complejos. Esto también ofrece una mayor transparencia porque el modelo existe en una plataforma unificada en lugar de limitarse a quien esté utilizando e impulsando las herramientas de aprendizaje automático. Las mayores capacidades también significan usabilidad con conjuntos de datos más grandes y, por lo tanto, un entrenamiento, pruebas e implementación más rápidos.