Michael Chen | Estratega de contenido | 15 de octubre de 2024
El aprendizaje automático en base de datos se refiere a la integración de algoritmos y técnicas de ML en un sistema de gestión de bases de datos. Todos los procesos, incluida la selección de conjuntos de datos, los algoritmos de entrenamiento y la evaluación de modelos, permanecen en la base de datos. Con el aprendizaje automático en base de datos, las organizaciones pueden realizar tareas analíticas complejas directamente dentro de sus bases de datos, eliminando la necesidad de mover datos entre sistemas. Esto elimina la latencia, la integridad de los datos y los problemas de seguridad relacionados con los procesos de importación/exportación de datos.
Considera una empresa que de repente está experimentando una gran rotación de clientes. Los algoritmos de aprendizaje automático (ML) pueden predecir qué clientes pueden llegar a convertirse en competidores y sugerir campañas de marketing personalizadas y hacer otras recomendaciones sobre cómo volver a atraer a esos compradores. Tal vez tenga exceso de inventario de artículos comprados con frecuencia. Ofrecer una promoción especial puede mover el stock y contentar a los clientes. Si el aprendizaje automático está disponible directamente en la base de datos, estas sugerencias se pueden generar mucho más rápido, en los datos más actualizados. La empresa puede girar rápidamente. Y dado que no hay necesidad de mover datos a un motor de aprendizaje automático externo, se elude toda preocupación sobre la exposición de la información del cliente.
El aprendizaje automático en base de datos incorpora algoritmos de aprendizaje automático directamente a la base de datos, eliminando la necesidad de mover datos entre diferentes sistemas. Tradicionalmente, el aprendizaje automático requería que los datos se extrajeran de la base de datos y se procesaran en una plataforma o herramienta de análisis de aprendizaje automático independiente. Esto puede tomar mucho tiempo y requerir muchos recursos, especialmente cuando se trata de grandes conjuntos de datos.
Con el aprendizaje automático en base de datos, los ML se ejecutan de forma nativa en el entorno de la base de datos. Una ventaja clave de integrar algoritmos de aprendizaje automático en base de datos es que permite realizar un análisis más rápido y eficiente.
En pocas palabras, mover los datos ralentiza todo.
El aprendizaje automático en base de datos es particularmente útil para los grandes conjuntos de datos necesarios, por ejemplo, para entrenar modelos de IA. Con el aprendizaje automático en base de datos, el entorno de base de datos utiliza herramientas para la codificación, la creación de modelos y las pruebas nativas de la plataforma. Esto permite que todas las tablas de la base de datos se utilicen para proyectos que hacen un uso intensivo de los datos, con solo unos clics.
El aprendizaje automático en base de datos también proporciona coherencia de la infraestructura, ya sea en el entrenamiento o el despliegue, lo que significa que los equipos de TI están libres de crear nuevas infraestructuras listas para la producción, sin mencionar el mantenimiento relacionado y el trabajo de control de calidad, para soportar las siguientes etapas del uso del modelo.
Conclusiones clave
El aprendizaje automático en base de datos es una experiencia perfecta porque los empleados trabajan con sus sistemas y herramientas de base de datos familiares. Del mismo modo, los analistas pueden utilizar sus bases de datos existentes y lenguajes de consulta familiares para realizar análisis avanzados sin la necesidad de inversiones adicionales de software o hardware. Al analizar los datos directamente dentro de la base de datos, las organizaciones pueden descubrir insights valiosos sobre los datos más recientes y tomar decisiones más oportunas y basadas en datos.
Sin el aprendizaje automático en base de datos, las empresas que buscan aplicar análisis de aprendizaje automático a sus datos deberán realizar procesos de extracción/transformación/carga (ETL) o extracción/carga/transformación (ELT) y trasladar los datos a sistemas externos. Bajo este modelo tradicional, los científicos de datos pueden realizar operaciones manuales de importación/exportación, o los sistemas pueden integrarse a través de API; en cualquier caso, se necesitan varios pasos adicionales para preparar los conjuntos de datos para las funciones de aprendizaje automático, y esos pasos adicionales abren la puerta a posibles problemas, incluidos:
El aprendizaje automático en la base de datos omite los pasos de exportación/importación, manteniendo las tareas de aprendizaje automático en el mismo entorno que los datos en sí, sin necesidad de reconstruir ni cambiar el formato de los esfuerzos para garantizar la compatibilidad. Al permanecer en la base de datos, también se elimina la necesidad de mantener sistemas capaces de manejar el paso intermedio.
A escala, encontramos una serie de obstáculos al utilizar un conjunto diverso de fuentes de datos para tareas de aprendizaje automático, en particular el entrenamiento de modelos de IA. A continuación, detallamos algunos:
En estos momentos, el aprendizaje automático en base de datos es importante para los equipos de datos debido al rápido y continuo crecimiento del volumen y la variedad de la información. En pocas palabras, las tareas que requieren un uso intensivo de datos van a ser más complicadas, no más fáciles, por lo que será más importante que nunca integrar dentro de los flujos de trabajo el aprendizaje automático en base de datos.
En su forma más básica, el aprendizaje automático en base de datos funciona de manera similar al ML estándar. La principal diferencia es que todos los pasos necesarios para mover datos entre sistemas, desde extracciones hasta transformación/limpieza, simplemente se eliminan. Sin embargo, esto conlleva algunas limitaciones y requisitos debido a la naturaleza del trabajo dentro de un entorno de base de datos.
En líneas generales, así es como funciona el aprendizaje automático en base de datos.
Todo comienza con la carga inicial en la base de datos, aunque para el aprendizaje automático en base de datos es preciso tener en cuenta un factor fundamental: la base de datos debe contar con la debida capacidad —específicamente, mantener el código cerca de los datos para permitir las mejoras de eficiencia completas posibles con el aprendizaje automático en base de datos.
Tanto si los algoritmos de aprendizaje automático se encuentran en la base de datos o en una plataforma de terceros, aún deben someterse al proceso de optimización requerido. Eso significa entrenar el modelo, evaluar los resultados y realizar los ajustes necesarios. La mayor diferencia con el aprendizaje automático en base de datos es que estos pasos se realizan dentro de la base de datos, en lugar de en un sistema apartado del lugar donde se alojan los datos. Esto elimina la necesidad de mover datos entre varios sistemas y almacenes de datos diferentes para realizar tareas de optimización de modelos.
En el aprendizaje automático tradicional, los datos se deben mover de bases de datos a un repositorio, como un data lake, para entrenar el modelo, evaluar los resultados y realizar acotaciones, como ajustar algoritmos y parámetros individuales. Estos pasos utilizan recursos informáticos y sopesan la infraestructura. Las API nativas de base de datos pueden manejar estas tareas, incluso cuando el modelo se transfiera de entornos de desarrollo a entornos de prueba y a entornos de producción.
Mediante el aprendizaje automático en base de datos, las revisiones del modelo de aprendizaje automático se pueden propagar a otras bases de datos, ya sea en entornos de desarrollo, prueba o producción, simplemente mediante el control de versiones de una tabla. Los ajustes se integran instantáneamente, lo que permite que las funciones se ejecuten sin interrupciones a partir de pasos adicionales o recursos informáticos combinados.
Cuando se generan insights utilizando modelos de aprendizaje automático directamente dentro de una base de datos, se obtienen insights casi en tiempo real sin pasos adicionales ni preocupaciones sobre la latencia de ETL/ELT y la integridad de los datos.
El aprendizaje automático en base de datos acorta naturalmente los procesos y reduce las necesidades de hardware de las organizaciones, creando una serie de beneficios. Si bien este enfoque presenta su propio conjunto de limitaciones, los beneficios comunes son los siguientes:
Mover datos entre sistemas es, en el mejor de los casos, engorroso. En el peor de los casos, puede introducir errores, latencia y riesgos de seguridad al tiempo que ralentiza las operaciones. Al mantener las tareas de análisis dentro de la base de datos, los obstáculos adicionales involucrados con ELT/ETL (a través de la exportación, la transformación de datos y la carga) se rechazan, lo que garantiza que el proceso de análisis general se mueva lo más rápido posible.
Cuando una organización elimina la necesidad de cambiar grandes conjuntos de datos, obtiene ahorros en almacenamiento y mano de obra experta, y reduce la latencia. Al final, el tiempo es oro. Además, la eficiencia mejorada reduce las horas dedicadas a la resolución de problemas de hardware y software para un nivel secundario de reducción de costos.
La escalabilidad a menudo depende de los recursos: cuanto más dinero, mano de obra o CPU se necesitan para un proceso, más difícil es escalar a demanda. La eliminación de los procesos de movimiento de datos elimina la capacidad de procesamiento adicional necesaria para completar pasos como la exportación o la conversión de formato. Mantener los datos dentro de la base de datos reduce la necesidad de abordar los problemas de compatibilidad y mejora la eficiencia de los recursos informáticos, lo que brinda una flexibilidad mucho mayor y facilita el escalado para satisfacer la demanda.
Los procesos ELT/ETL son una de las principales fuentes de datos duplicados dentro de una red. La duplicación puede provenir de múltiples fuentes, como un problema de hardware que interrumpe la exportación y deja datos dañados, o problemas con herramientas de transformación de datos que llevan a la edición o eliminación accidental. Cada paso de un proceso ELT/ETL abre riesgos que pueden dañar la calidad y precisión de un conjunto de datos al tiempo que ralentizan la eficiencia del proceso.
El aprendizaje automático en base de datos mantiene los datos en un único lugar. Esto elimina la necesidad de mover datos, lo que reduce la exportación/importación y la entrada/salida. Como resultado, los procesos pueden ocurrir dentro del entorno nativo, sin depender de otros sistemas. Esto libera herramientas y capacidades de automatización para diversas tareas, como la implementación, la auditoría y las comprobaciones de mantenimiento. Los usuarios pueden beneficiarse de estas funciones sin preocuparse por problemas de compatibilidad o integración que puedan surgir.
Las herramientas de aprendizaje automático en base de datos incluyen una amplia gama de servicios y capacidades. En muchos casos, estas herramientas son similares a lo que un proveedor de bases de datos puede proporcionar como capacidades independientes, ya sea como un subconjunto de funciones integradas o como una conexión integrada a la plataforma de aprendizaje automático del proveedor. Por ejemplo, Oracle Database proporciona capacidades de aprendizaje automático en el entorno para eliminar la necesidad de mover datos de un sistema a otro. En este caso, Oracle Database proporciona exploración, preparación y modelado mediante herramientas de Oracle Machine Learning, como SQL, R, Python, REST, ML automatizado (AutoML) e interfaces sin código, junto con una variedad de algoritmos disponibles.
Aunque ofrece ventajas atractivas, el aprendizaje automático en base de datos depende en gran medida de las funciones y capacidades del entorno de la base de datos. Esto puede generar problemas con la migración futura o cuando el modelo de aprendizaje automático requiere algo más que las capacidades nativas del entorno.
Entre los inconvenientes y limitaciones más comunes del aprendizaje automático en base de datos se incluyen los siguientes:
Si todo se ajusta a las necesidades y objetivos de aprendizaje automático de un proyecto, pasar de la prueba a la implementación supone en realidad un paso sencillo. Sin embargo, estos modelos se basan en las capacidades específicas de las herramientas que se incluyan en la base de datos de cada organización. ¿Qué sucede cuando el proyecto se convierte en algo más complejo o requiere migración? Trabajar con herramientas en la base de datos puede hacer que la carga de trabajo de aprendizaje automático inmediata sea más rápida y eficiente, pero el futuro puede ser un signo de interrogación, por lo que es necesario considerar si los objetivos a largo plazo se alinean con las capacidades actuales.
El aprendizaje automático en base de datos solo funciona en aplicaciones de base de datos soportadas y puede ofrecer un conjunto limitado de API. Esto está cambiando a medida que crecen las capacidades de los sistemas de aprendizaje automático en base de datos, pero como regla general, las herramientas independientes ofrecen más potencia y características, junto con una gran cantidad de especialistas disponibles para ayudar a las empresas a aprovechar esas características.
La mayor fortaleza del aprendizaje automático en base de datos también conduce a uno de sus mayores inconvenientes: al mantener los datos dentro del entorno de la base de datos, se omiten los pasos de ETL/ELT, pero eso significa que también se omiten las oportunidades de auditoría y limpieza de datos.
En muchos casos, las bases de datos no compartirán los mismos recursos informáticos que las herramientas de aprendizaje automático, especialmente para modelos a gran escala o extremadamente complejos que requieran computación de alto rendimiento. Por ello, el ámbito de los modelos de aprendizaje automático en base de datos suele tener un límite. La configuración de cada organización es distinta y, de igual forma, las necesidades de cada proyecto son diferentes, y esto supone una renuncia que se debe considerar durante las etapas iniciales de planificación.
HeatWave proporciona IA generativa y aprendizaje automático automatizados, integrados y seguros en un único servicio en la nube totalmente gestionado para transacciones y análisis a escala de lakehouse. HeatWave AutoML incluye todo lo que los usuarios necesitan para construir, entrenar y explicar modelos de aprendizaje automático dentro de HeatWave, sin costo adicional. Con la herramienta de ML en base de datos integrada en HeatWave, no es necesario mover los datos a un servicio de ML separado. Pueden aplicar fácilmente y de forma segura el entrenamiento de ML, la inferencia y la explicación a los datos almacenados tanto dentro de MySQL como en el almacenamiento de objetos. HeatWave está disponible en Oracle Cloud Infrastructure , Amazon Web Services, y Microsoft Azure.
Para empezar, las organizaciones deben asegurarse de que su base de datos proporciona aprendizaje automático en base de datos, lo que puede cambiar las reglas del juego para aquellas que traten de aprovechar al máximo el poder del ML. Al incorporar algoritmos de aprendizaje automático a los datos, y no viceversa, los responsables de la toma de decisiones obtienen análisis más rápidos y eficientes.
Los modelos de IA están disponibles en múltiples tamaños y niveles de complejidad, desde LLM hasta modelos de ML más simples. ¿Qué tienen todos en común? Necesitan datos. A continuación, incluimos cuatro componentes de una infraestructura de datos lista para IA.
¿Cómo se puede utilizar eficazmente el aprendizaje automático en base de datos?
El aprendizaje automático en base de datos solo funciona cuando las empresas emplean una base de datos que admite capacidades integradas en bases de datos. Se debe considerar la base de recursos informáticos de esa base de datos, junto con su tamaño y alcance y el modelo de aprendizaje automático.
¿Cuáles son las ventajas del aprendizaje automático en base de datos?
El aprendizaje automático en base de datos elimina la necesidad de extraer y mover datos entre sistemas. Esto crea un conjunto natural de beneficios en términos de eficiencia y, en algunos casos, puede reducir los tiempos de proceso de semanas a días, ya que elimina la necesidad de confiar en herramientas externas para ETL / ELT. Desde una perspectiva general, esto también reduce el costo de propiedad y aumenta la escalabilidad y la eficiencia operativa a través de un menor uso de recursos.
¿Qué problemas se deben tener en cuenta cuando se utiliza el aprendizaje automático en base de datos?
Antes de decidir utilizar el aprendizaje automático en base de datos para un proyecto, los equipos deben sopesar los siguientes factores:
Estas preguntas pueden aclarar los pros y los contras del aprendizaje automático en base de datos y deben considerarse para cada proyecto.
¿Qué tendencias presenta de cara al futuro el aprendizaje automático en base de datos?
Los proveedores siguen mejorando y ampliando sus capacidades de aprendizaje automático en base de datos, lo cual deja entrever diversas tendencias. A medida que más y más herramientas y plataformas admitan el aprendizaje automático en base de datos, los científicos de datos podrán crear e implementar modelos más complejos. Esto también ofrece mayor transparencia porque el modelo existe en una plataforma unificada en lugar de limitarse a quien esté utilizando e impulsando las herramientas de aprendizaje automático. Las mayores capacidades también significan usabilidad con conjuntos de datos más grandes y, por lo tanto, un entrenamiento, pruebas e implementación más rápidos.