Aprendizaje automático y analítica: una guía experta

Michael Chen | Escritor sénior | 22 de octubre de 2024

El aprendizaje automático y la analítica se han convertido en herramientas indispensables para las empresas que buscan extraer información valiosa de sus datos. Mediante el uso de potentes algoritmos y modelos estadísticos, las organizaciones pueden descubrir patrones ocultos, tomar más decisiones basadas en datos y obtener una ventaja competitiva en el mercado en rápida evolución de hoy.

Si bien los equipos pueden analizar datos sin aprendizaje automático, los resultados pueden no cumplir con las expectativas. El hecho es que el aprendizaje automático aumenta significativamente las capacidades de las plataformas de análisis.

¿Qué es el machine learning?

El aprendizaje automático es un subconjunto de la inteligencia artificial que utiliza algoritmos entrenados en grandes conjuntos de datos para reconocer tendencias, identificar patrones y relaciones, y luego utilizar esa información para hacer predicciones o informar decisiones sin ser programado explícitamente y con una intervención humana mínima.

La tecnología de aprendizaje automático tiene aplicaciones en muchos sectores, como la atención médica, las finanzas, el marketing y la ciberseguridad. Los resultados mejoran a través de un proceso de aprendizaje iterativo que se centra en aumentar la precisión, agregar personalización y reducir los errores en el modelo.

¿Qué es la analítica?

Analítica es el proceso de derivar insights de los datos y utilizarlos para sacar conclusiones o tomar decisiones. Implica recopilar, limpiar y organizar datos para identificar tendencias, correlaciones y patrones. Mediante el uso de diversas técnicas estadísticas y matemáticas, la analítica ayuda a las organizaciones a tomar decisiones mejor informadas, mejorar el rendimiento y optimizar las operaciones.

La analítica está relacionada con el campo de las estadísticas, que proporciona los conceptos subyacentes que ayudan a las empresas a comprender sus datos y utilizarlos para impulsar el crecimiento y el éxito. En los negocios, el término analítica a menudo se refiere al uso de software para ordenar los datos, encontrar relaciones únicas y presentar los resultados de una manera accesible a través de visualizaciones.

Conclusiones clave

  • El aprendizaje automático y la analítica son tecnologías simbióticas.
  • El aprendizaje automático puede acelerar y ampliar las capacidades de análisis, incluso mediante la identificación de patrones e información que a menudo se pierden por otros medios.
  • La analítica genera valor organizacional al procesar datos en un contexto adecuado para obtener insights útiles.
  • Tanto para proyectos de aprendizaje automático como de análisis, considere la posibilidad de un control continuo para comprobar si hay sesgos e inexactitudes ocultos.

Explicación del aprendizaje automático y la analítica

Los esfuerzos de analítica se benefician significativamente de la aplicación de aprendizaje automático y otras técnicas de IA. Las herramientas de análisis que no dependen del aprendizaje automático utilizan algoritmos estáticos que pueden perder patrones oscuros pero importantes en los datos. El machine learning puede encontrar esos patrones y, si es necesario, examinar conjuntos de datos más grandes y variados de lo que pueden manejar las herramientas de análisis heredadas.

¿La analítica incluye el aprendizaje automático?

La analítica no requiere necesariamente aprendizaje automático. Durante años, las empresas utilizaron herramientas basadas en el análisis estadístico para analizar tendencias en los datos, predecir resultados futuros y evaluar la efectividad de las estrategias. Sin el beneficio del aprendizaje automático, intentaron responder preguntas como: ¿Qué tan bien funcionó nuestra estrategia de descuentos navideños? ¿Qué productos o servicios son los más populares en este segmento de clientes? ¿Cuáles son las más rentables? Mientras que los métodos tradicionales podrían producir respuestas, sin ML el proceso es limitado en alcance y el número de puntos de datos disponibles.

Para encontrar respuestas, el procesamiento analítico en línea, u OLAP, se ha utilizado durante décadas para tomar un segmento de datos transaccionales y analizarlo utilizando el análisis estadístico clásico. Cuando los datos están estructurados, al igual que en una base de datos relacional, OLAP es muy eficaz. Sin embargo, cuando los datos están estructurados y no estructurados e incluyen información no numérica sobre el negocio, el análisis estadístico no puede proporcionar el mismo nivel de percepción. Entre otras ventajas, el aprendizaje automático permite a los analistas identificar patrones no lineales más complejos, incluso en fuentes de datos no estructuradas.

A medida que las organizaciones pongan más datos no estructurados en sus almacenes de datos, el aprendizaje automático será cada vez más importante para analizarlo todo.

¿Por qué el aprendizaje automático y la analítica son importantes para las empresas?

Juntos, el aprendizaje automático y los análisis extraen información y predicciones valiosas de una amplia gama de datos. Esto puede ofrecer una ventaja competitiva a las empresas porque hoy en día, los datos provienen de todas partes y, en algunos casos, todo el tiempo: métricas operativas internas, inventarios de proveedores y proveedores, resultados de campañas de marketing, datos de aplicaciones de clientes, datos relacionados de fuentes públicas, datos financieros, datos generados por dispositivos de Internet of Things: el ecosistema de tecnología moderna genera datos de casi todas las interacciones y los alimenta en un almacén de datos o un repositorio basado en la nube, como un lago de datos.

Eso es mucha información, y presenta muchas oportunidades para que las empresas encuentren información sobre operaciones, marketing, cadena de suministro y mucho más, pero solo si pueden analizar grandes volúmenes de datos diversos. Introducción al aprendizaje automático. Con el aprendizaje automático, todo el proceso de análisis empresarial se vuelve más manejable y más amplio en el ámbito por razones que incluyen lo siguiente:

  • La automatización a través del aprendizaje automático puede hacer que los procesos de transformación de datos, como la limpieza de datos y el reconocimiento de problemas de calidad de datos, sean más eficientes.
  • El aprendizaje automático dentro de las herramientas de análisis puede generar insights de "ahora" basados en consultas simples de usuarios empresariales.
  • Las herramientas de analítica basadas en aprendizaje automático también pueden identificar patrones ocultos en datos complejos, lo que genera nuevas ideas y discusiones que pueden crear nuevas oportunidades.

La escalabilidad y la flexibilidad que ofrecen los almacenes de datos y herramientas de análisis basados en la nube aumentan la emoción en torno a los análisis basados en aprendizaje automático. Grandes cantidades de datos y complejos algoritmos de aprendizaje automático requieren mucha potencia informática para un análisis eficiente. Y debido a que este es un espacio en rápida evolución, los desarrolladores y científicos de datos que buscan construir e implementar nuevos modelos se benefician de herramientas y servicios en línea diseñados específicamente para el aprendizaje automático y la analítica. La nube permite a las organizaciones utilizar las últimas innovaciones en análisis de datos al tiempo que proporciona un fácil acceso a cualquier persona de la organización con las credenciales adecuadas para usar el sistema.

Uso del aprendizaje automático en análisis empresariales

Una vez que una organización recopila entradas de varias fuentes en un repositorio, los sistemas de aprendizaje automático pueden comenzar a procesar grandes volúmenes de datos en apoyo de iniciativas estratégicas. Estas iniciativas pueden ser parte de las operaciones, el marketing, la logística e incluso el compromiso público en las redes sociales.

Estos son algunos de los usos más populares del aprendizaje automático en análisis empresariales.

  • Segmentación de clientes: el aprendizaje automático es útil en ambos lados de la ecuación de segmentación de clientes. Para determinar qué perfiles de comprador pertenecen a qué segmentos de clientes, el aprendizaje automático puede analizar los historiales de compras y los datos de interacción para generar categorizaciones. Por otro lado, el aprendizaje automático puede determinar rápidamente la eficacia de las campañas en segmentos específicos, dejando a los equipos de marketing algo de espacio para modificar los mensajes u otros factores de la campaña.
  • Detección de fraude: el aprendizaje automático puede identificar patrones potencialmente fraudulentos considerando la geografía, la frecuencia de compra, los tipos de compra, el importe gastado y otros detalles de transacciones individuales y comparándolos con los perfiles de los clientes. Mediante el uso de capacidades de detección de anomalías, el sistema puede marcar rápidamente la actividad fuera de carácter y enviar transacciones potencialmente ilegítimas para una mayor investigación.
  • Supply Chain Management: las cadenas de suministro pueden involucrar a una variedad de socios, mayoristas y proveedores de logística de todo el mundo. Cuando interrumpen el flujo de bienes necesarios, los eventos locales pueden convertirse rápidamente en la preocupación de los fabricantes y minoristas a miles de millas de distancia. El aprendizaje automático puede recopilar y ordenar los datos de los proveedores y las empresas de logística para identificar posibles interrupciones. Además, los sistemas de aprendizaje automático correlacionan los datos con los programas de fabricación para determinar problemas temporales, así como detectar tendencias que pueden llevar a la optimización de costos y procesos, como la identificación de proveedores propensos a fallas en piezas o entregas tardías.
  • Análisis de sentimiento: el análisis de sentimiento toma texto de mensajes, transcripciones y revisiones; determina el tono general; y luego analiza más a fondo los datos para obtener insights de marketing y ventas. El aprendizaje automático es necesario para procesar grandes volúmenes de datos textuales de diversas fuentes lo suficientemente rápido como para ajustarse si, por ejemplo, a un producto le falta con frecuencia una parte clave o un representante de servicio es problemático.
  • Análisis predictivo: el análisis predictivo sin la ayuda del aprendizaje automático ha sido un elemento básico del análisis empresarial durante el tiempo que se han mantenido los libros mayores. Las simples parcelas de ventas del año anterior en comparación con las ventas del año actual son el punto de partida, y los estadísticos han avanzado enormemente en la ciencia de predecir el futuro del pasado. El aprendizaje automático se basa en ese patrimonio procesando con mayor precisión más datos y utilizando metodologías más complejas. El aprendizaje automático también ayuda a analizar escenarios hipotéticos que ayudan a guiar el pensamiento de los líderes empresariales.
  • Optimización de precios: ¿a qué precio se maximiza el beneficio? Demasiado caro, y no mucha gente va a comprar. Muy barato y los márgenes sufren. Más allá de los hábitos de gasto, factores como los precios de los competidores, la estacionalidad, el clima y la escasez de inventario forman un algoritmo de precios complejo y dinámico. El aprendizaje automático y el análisis de datos pueden clasificar todos estos datos para crear escenarios de precios óptimos.

Comprendiendo la analítica

Siempre es útil revisar las acciones que ha tomado para determinar si logró el mejor resultado posible. Reflexionar sobre el rendimiento pasado generalmente conduce a mejoras la próxima vez. La analítica siempre debe tener este tipo de objetivos: ¿qué puede lograr al encontrar información procesable en los datos?

El análisis estadístico de datos numéricos es un punto de partida digno. Pero eso potencialmente deja una gran cantidad de datos sin analizar o, al menos, produce resultados lentos al abrir la puerta al error humano. El aprendizaje automático puede ayudar a ampliar el análisis para encontrar información que no se pueda discernir fácilmente de otra manera.

Tipos de análisis

Las empresas tienen una amplia gama de tipos y técnicas de análisis para elegir, y la mejor opción para un proyecto a menudo depende de lo que el equipo quiera obtener de sus datos. Las siguientes son cuatro categorías de análisis.

  • Análisis descriptivo. Los sistemas de análisis descriptivos toman datos históricos y determinan patrones y métricas para obtener la información necesaria para crear un análisis situacional. Por ejemplo, un modelo financiero podría incorporar datos de ventas, marketing, RR. HH. y gastos para crear un análisis trimestral para una organización. Los paneles de control suelen ser la forma de visualizar análisis descriptivos.
  • Análisis de diagnóstico. Los sistemas de análisis de diagnóstico toman datos históricos para encontrar la causa raíz de una situación, tendencia o relación. Por ejemplo, si una organización está experimentando un aumento en las quejas sobre la calidad de un producto específico, puede emplear una herramienta analítica de diagnóstico que considere los datos desde la cadena de suministro hasta la entrega del producto para determinar si la causa raíz está en un material en particular, un paso de fabricación u otra causa.
  • Análisis predictivo. Los sistemas de análisis predictivo crean una previsión del rendimiento futuro basada en datos actuales y pasados relevantes. La predicción puede relacionarse con cualquier cosa: modelos climáticos, niveles óptimos de stock, comportamiento del cliente en una campaña de marketing. Cuantos más datos haya, mejor será crear un perfil situacional que permita obtener información predictiva.
  • Análisis prescriptivo. La analítica prescriptiva es similar a la analítica predictiva, pero va más allá al sugerir soluciones a los problemas encontrados. Por ejemplo, un sistema de análisis predictivo podría pronosticar ventas estancadas para el próximo trimestre. La analítica prescriptiva puede combinar datos históricos y análisis de mercado para producir acciones prescriptivas para superar las proyecciones de ventas más débiles.

Pasos del proceso de análisis

En general, el proceso requiere recopilar y limpiar datos, elegir una técnica, interpretar los resultados y comunicar información a las partes interesadas. La colaboración entre analistas de datos, expertos en dominios y responsables de la toma de decisiones puede ser útil para garantizar que las estadísticas generadas sean relevantes e impactantes.

  1. Identifique el problema. Todos los análisis deben abordar un problema empresarial. ¿Estás tratando de analizar los datos de marketing? Averigua qué está impulsando la rotación de empleados Descubre el eslabón débil de tu cadena de suministro La identificación de la incidencia crea un punto de partida para los proyectos de análisis.
  2. Recopila y limpia los datos. Ahora que se establecen los objetivos del proyecto, identifica las fuentes de datos necesarias para la plataforma de análisis. Las opciones incluyen el uso de un sistema iPaaS que enlaza orígenes de datos o la conexión a un repositorio, como un lago de datos o un almacén de datos. Para garantizar la compatibilidad y la precisión, los datos también necesitan un formato adecuado para el procesamiento. La limpieza suele implicar la eliminación de entradas duplicadas y la desnormalización de datos antes del análisis. En el caso de orígenes de datos repetibles, el aprendizaje automático puede ayudar a automatizar parte del proceso de limpieza y transformación para mejorar la eficiencia.
  3. Explora y visualiza los datos. Con las herramientas de análisis, puede crear visualizaciones de datos y generar estadísticas iniciales. Este proceso crea hallazgos generales que establecen los parámetros de cualquier hipótesis basada en datos que servirá como base de los modelos de datos, incluidos los conjuntos de datos que proporcionan más valor.
  4. Modelación de los datos. Con una comprensión básica del objetivo y las fuentes de datos disponibles, los ingenieros de datos crean modelos para estructurar y organizar los datos, lo que reduce la brecha entre los datos sin procesar y los datos listos para el almacenamiento y la recuperación por parte de las aplicaciones de análisis.
  5. Evalúa el modelo. Aquí es donde analizas. Con el modelo de datos listo, los equipos pueden comenzar el proceso de análisis para lograr los objetivos iniciales del proyecto. El análisis de datos puede implicar diferentes formas de análisis estadístico, incluyendo el uso de lenguajes de programación y herramientas de análisis.
  6. Despliegue y supervisión. Ahora es el momento de actuar. Con los informes y las visualizaciones listos, los usuarios pueden presentar los resultados a las partes interesadas para comenzar las discusiones sobre decisiones críticas. Con la analítica, las recomendaciones se derivan de la evidencia encontrada en los datos y se presentan claramente con visualizaciones, a menudo con conocimientos más profundos que las técnicas de evaluación tradicionales o manuales.
  7. Técnicas clave en analítica

    La práctica de la analítica se basa en una serie de técnicas establecidas en el campo de la estadística, que luego se amplían a través de las capacidades del aprendizaje automático. Algunas de las técnicas más comunes utilizadas en la analítica son las siguientes:

    • Análisis descriptivo. El análisis de regresión es una de las técnicas primarias en datos y modelado estadístico. Con el análisis de regresión, el modelo de aprendizaje automático analiza los datos para ver qué variables influyen en un resultado y cuánto. El análisis de regresión abarca una familia de técnicas, incluida la regresión lineal, la regresión no lineal y la regresión logística.
    • Agrupación en clústeres. La agrupación en clusters es un tipo de análisis que se utiliza con modelos de Machine Learning sin supervisión. Con la agrupación en clusters, un modelo de aprendizaje automático explora un juego de datos para encontrar grupos más pequeños de datos relacionados y, a continuación, deriva conexiones y patrones de esos grupos más pequeños para generar una mayor comprensión.
    • Análisis de series de tiempo. En estadísticas y modelado de datos, el análisis de series temporales analiza los puntos de datos recopilados dentro de un rango de tiempo específico para patrones, cambios e impacto de variables para crear un modelo de predicción. Uno de los ejemplos más comunes de análisis de series temporales son los datos meteorológicos a lo largo de un año para predecir los patrones estacionales.
    • Minería de reglas de asociación. Algunas de las estadísticas de datos más profundas pueden venir de la identificación de patrones y la búsqueda de relaciones interesantes dentro de grandes conjuntos de datos, una de las ideas principales de análisis de gráficos. La minería de reglas de asociación es un tipo de aprendizaje automático que encuentra conexiones ocultas y elementos comunes en las relaciones variables. Por ejemplo, una cadena de comida rápida puede utilizar la minería de reglas de asociación para buscar artículos que se suelen pedir juntos y, a continuación, ofrecerlos como paquetes con descuento para impulsar a los clientes.
    • Minería de texto. La minería de texto es una forma de aprendizaje automático sin supervisión que toma el texto entrante de fuentes como correos electrónicos, comentarios de sitios web o publicaciones en redes sociales, y luego utiliza el procesamiento de lenguaje natural para derivar patrones significativos. Estos patrones se pueden asociar a otras variables, como métricas de interacción o datos de ventas, para impulsar la comprensión de la intención y el sentimiento.

Descripción del aprendizaje automático

En esencia, el aprendizaje automático trata de encontrar conexiones y patrones dentro de los datos. El aprendizaje automático hace esto utilizando técnicas tan sencillas como los árboles de decisión y tan complejas como las redes neuronales, con sus capas más profundas capaces de proporcionar relaciones no lineales en los datos. Sin embargo, no importa el método, el aprendizaje automático ayuda a las organizaciones a mejorar los procesos engorrosos y profundizar en sus datos para impulsar una mayor productividad y una mejor toma de decisiones.

Tipos de aprendizaje automático (ML)

Existe una amplia gama de modelos de aprendizaje automático en función de los recursos, los objetivos y las limitaciones de un proyecto. Comprender los diferentes tipos de técnicas de aprendizaje automático permite a los equipos tomar la decisión correcta para su proyecto. Los tipos comunes de escalado incluyen lo siguiente:

  • Supervisado. En el aprendizaje supervisado, los algoritmos de aprendizaje automático se entrenan a partir de conjuntos de datos etiquetados con el objetivo de identificar patrones conocidos para refinar iterativamente la precisión de los resultados. Este proceso se caracteriza por ser supervisado porque el número de parámetros conocidos implicados permite una medición clara de la mejora del modelo.
  • No supervisado. El aprendizaje no supervisado permite que los modelos de aprendizaje automático procesen conjuntos de datos sin etiquetas sin tener en cuenta objetivos o métricas. En cambio, un enfoque no supervisado proporciona un sandbox para el aprendizaje orgánico a través de la detección de patrones, la detección de relaciones u otras formas de información generada. Cuando tengan éxito, los modelos entrenados a través del aprendizaje no supervisado podrán imitar adecuadamente el entorno presentado por el conjunto de datos y, por lo tanto, formar predicciones precisas.
  • Semisupervisado. El aprendizaje semi-supervisado combina técnicas supervisadas y no supervisadas para acelerar el proceso de aprendizaje automático. Con el aprendizaje semi-supervisado, un modelo obtiene una ventaja con el uso de una pequeña cantidad de datos etiquetados. Después de terminar con ese conjunto de datos, el modelo comienza a explorar un conjunto de datos sin etiquetar más grande para aplicar los conceptos básicos aprendidos en el primer paso antes de refinar sus predicciones de una manera orgánica y sin supervisión.
  • Aprendizaje por refuerzo. El aprendizaje de refuerzo se refiere al proceso de permitir que un modelo explore un conjunto de datos con el propósito de lograr un resultado específico. Cada decisión en el camino genera retroalimentación en términos de refuerzo positivo o negativo, que luego informa al modelo a medida que se revisa para anticipar una respuesta adecuada a las situaciones.

Pasos en el proceso de aprendizaje automático

Independientemente de tus objetivos y parámetros para tu modelo de aprendizaje automático, estos proyectos a menudo siguen un proceso estándar. Comprender este proceso antes de iniciar un proyecto proporciona una hoja de ruta para la asignación de recursos y la presupuestación a lo largo de todo el ciclo de vida del aprendizaje automático.

A continuación se muestran los pasos comunes para desarrollar modelos de aprendizaje automático.

  1. Identifique el problema. ¿Cuál es el propósito de tu modelo de aprendizaje automático? Más importante aún, ¿han otros ya producido modelos para esa tarea, y si es así, es suficiente para sus objetivos? Cada proyecto debe ser capaz de resolver un problema, y la calidad de esa solución debe definir los parámetros del proyecto desde el punto de partida hasta las métricas que dictan el éxito.
  2. Recopila y limpia los datos. Para impulsar cualquier proyecto de aprendizaje automático, necesita datos. Esto significa identificar fuentes de datos de entrenamiento similares a los datos que el modelo entrenado encontrará en uso general y luego recopilar y transformar esos datos en un formato unificado y compatible libre de duplicados y errores. El descuido en este paso podría crear sesgos que sesgan o incluso descarrilar un proyecto. Tomarse el tiempo para gestionar cuidadosamente el conjunto de datos de un proyecto es una inversión para garantizar el éxito.
  3. Ingeniero de funciones. No todo en un juego de datos es necesario para entrenar un modelo de aprendizaje automático. Un primer paso crucial para el aprendizaje automático es identificar parámetros importantes para el proyecto y luego curar conjuntos de datos que presentan diversidad en torno a esos parámetros. La ingeniería de funciones requiere iteración guiada por expertos, lo que en última instancia impulsa las transformaciones al agregar, eliminar o combinar datos para un mayor contexto que mejore la precisión del modelo.
  4. Seleccione y entrene el modelo. Los objetivos de su proyecto determinarán una breve lista de técnicas de aprendizaje automático. Las limitaciones prácticas, como los recursos informáticos, la cronología del proyecto, la disponibilidad de orígenes de datos de calidad y la experiencia de los miembros del equipo, pueden reducir las opciones y, en última instancia, determinar la mejor opción para un proyecto. Una vez seleccionado, el modelo se entrena iterativamente en un conjunto de datos de entrenamiento curado, refinando los resultados y los resultados hasta que logre una precisión consistente.
  5. Evalúa el modelo. Un modelo entrenado con éxito ofrece resultados repetibles, explicables y precisos. Evalúa el modelo entrenado utilizando datos reales para medir el rendimiento fuera de su juego de datos de entrenamiento. La evaluación indica a los equipos lo cerca que está el proyecto de alcanzar sus objetivos originales.
  6. Despliegue y supervisión. Si un modelo maneja correctamente los datos de prueba del mundo real de forma consistente, está listo para un entorno de producción. Si bien el despliegue solo se debe realizar después de que se cumplan determinados puntos de referencia, eso no marca el final de la evolución del modelo. Los equipos deben supervisar continuamente los resultados de un modelo para asegurarse de que mantiene la precisión, la coherencia y otros resultados deseados, y si los resultados se desvían, descubra por qué.
  7. Técnicas clave en el aprendizaje automático

    Muchas técnicas de aprendizaje automático están en uso, pero no todas las técnicas se aplican necesariamente a los objetivos o limitaciones de un proyecto. El truco para el aprendizaje automático exitoso es saber qué técnica seleccionar en función de los parámetros de su proyecto individual.

    Las técnicas populares utilizadas en el aprendizaje automático incluyen lo siguiente:

    • Árboles de decisión: los árboles de decisión utilizan el aprendizaje supervisado para comprender las diversas opciones que se deben tener en cuenta a medida que los elementos se mueven por un flujo de trabajo. Por ejemplo, cuando entra una nueva factura, se deben tomar ciertas decisiones antes de pagar la factura. Los árboles de decisión pueden facilitar el análisis de regresión y la agrupación en clusters para determinar, por ejemplo, si una factura es válida, con una factura completa en lugar de posiblemente fraudulenta o sin los datos necesarios para el pago.
    • Bosque aleatorio. Un único árbol de decisiones proporciona sólo una vista limitada de una situación. Los bosques aleatorios se refieren a la técnica de combinar múltiples árboles de decisión, de ahí un bosque, para crear un resultado acumulativo con una perspectiva más amplia. Los bosques aleatorios superan muchas de las limitaciones de los árboles de decisión y ofrecen una mayor flexibilidad tanto en función como en alcance. En la detección de fraudes, por ejemplo, la decisión sobre si una transacción es legítima o no puede depender de muchos factores, como dónde se originó la transacción, si la combinación de artículos es típica para un cliente y si el tamaño de la compra es inusual. Los árboles de decisión dentro de un bosque pueden manejar cada parámetro de evaluación.
    • Máquinas de vectores de soporte . A veces, los datos caen naturalmente en grupos, sean obvios o no. Las máquinas vectoriales de soporte (SVM) son un tipo de aprendizaje supervisado que busca encontrar formas de maximizar la diferencia o la distancia entre dos clusters de datos. A veces hay una línea divisoria lineal obvia entre las agrupaciones de datos, a veces la función divisoria no es lineal. Si no hay una agrupación en clusters obvia en las vistas bidimensionales, los SVM pueden utilizar análisis de dimensiones superiores para encontrar formas de agrupar datos.
    • Redes neuronales: las redes neuronales organizan los nodos de cálculo de una manera similar a las redes neuronales en nuestro cerebro. Cada capa dentro de una red neuronal aplica funciones únicas para determinar cómo se deben clasificar los datos de entrada y si las predicciones se pueden hacer a partir de los datos de entrada.
    • Aumento de gradiente: cada predicción de modelo de aprendizaje automático tiene un nivel de confianza. Por ejemplo, supongamos que una transacción se parece a un fraude con 0,8 de confianza, donde 1,0 es perfectamente seguro. Esa es una predicción bastante segura. Cuando un modelo hace su evaluación, algunos cálculos en el camino contribuirán significativamente a la predicción, mientras que algunos no contribuirán mucho en absoluto. En muchos modelos, los contribuyentes bajos son descontados ya que aparecen por sí mismos como ruido. Gradient boosting busca combinar algunos de estos bajos contribuyentes de una manera que les permita contribuir más significativamente a la predicción, reduciendo así las tasas de error y aumentando las calificaciones de confianza.

Desafíos de la analítica y del aprendizaje automático

El aprendizaje automático y la analítica se basan en muchas de las mismas técnicas. Debido a eso, ambos esfuerzos se enfrentan a desafíos similares, ya sea tomado por separado o como un proyecto combinado de "aprendizaje basado en la analítica por máquina". A continuación se presentan algunos desafíos comunes a los que se enfrentan los equipos de proyecto.

  • Calidad de datos: el aprendizaje automático requiere muchos datos. Sin embargo, cuando esos datos tienen un formato inconsistente, duplicados y otros problemas, puede sesgar el proceso de entrenamiento del modelo. La calidad de los datos es uno de los principales desafíos en la creación de un modelo eficaz, pero tenga en cuenta que cuando se trata de aprendizaje automático, "calidad" significa que los datos están correctamente formateados y reflejan lo que el modelo verá en escenarios reales. Si los datos de entrenamiento son demasiado limpios y no representan la variabilidad del mundo real que experimentará el modelo en la producción, puede sobreajustarse a los datos de entrenamiento, es decir, no puede manejar la variabilidad y complejidad presentes en los conjuntos de datos reales. Las organizaciones deben emplear estrategias para mantener la calidad de los datos, incluida la verificación de orígenes de datos con técnicas de transformación adecuadas y la desduplicación regular. Pero necesitan lograr un equilibrio, limpiando los datos lo suficiente como para eliminar el ruido y los errores al tiempo que conservan la variedad.
  • Selección y optimización del algoritmo: cada proyecto viene con necesidades específicas y, dependiendo de los objetivos del proyecto, diferentes técnicas y algoritmos harán que se ajuste mejor. A veces esas elecciones parecen obvias, como si supieras que la naturaleza estructurada de los árboles de decisión funcionará para el alcance y la naturaleza del problema en cuestión. En otros casos, la selección de modelos es menos clara. Documenta las características de tus datos, como el tamaño, el tipo y la complejidad, y luego considera el problema que estás buscando resolver. ¿Cuánta potencia de procesamiento se necesita para entrenar y utilizar el modelo, y se puede escalar para manejar tus datos? Lo mejor es empezar más simple y avanzar en complejidad. Herramientas como AutoML pueden ayudar a automatizar las pruebas y la selección del mejor algoritmo para su proyecto.
  • Sobreajuste e inadecuación: si los datos de entrenamiento no proporcionan al modelo un equilibrio adecuado de amplitud y calidad, puede producirse sobreajuste o inadecuación. El sobreajuste se produce cuando los datos de entrenamiento contienen solo ciertos géneros de datos. Si quieres una aplicación que pueda identificar títulos de canciones y cantantes, pero solo le das música country durante el entrenamiento, se perderá cuando se trata de rock o R&B. La falta de adecuación se refiere a lo contrario: el modelo no se ha entrenado lo suficiente y falla incluso en lo que deberían ser consultas obvias o entradas prístinas.
  • Interpretabilidad y explicabilidad: la interpretabilidad y la explicabilidad son propiedades similares pero distintas de un modelo de IA. Cuando la salida de un modelo de IA es explicable, entendemos lo que nos está diciendo y, a un alto nivel, de dónde proviene la respuesta. Si la IA generativa escribe un resumen de cuatro párrafos de una reunión de la junta, puede leer las actas de la reunión y comprender cómo el sistema eligió escribir lo que hizo. O si un modelo predice que un producto aumentará en ventas en un 3% este año, puede ver los informes de ventas y comprender de dónde proviene ese número. Eso es explicabilidad.

    Interpretabilidad significa entender lo que el modelo hizo para llegar a los detalles de su respuesta. ¿Por qué el sistema GenAI eligió las palabras que eligió en el orden en que las eligió para resumir esa reunión de la junta? ¿Qué cálculos utilizó para incluir esa previsión de aumento de ventas del 3%? Cuando la IA cita sus fuentes, mejora la explicabilidad. Pero a medida que los modelos se vuelven más complejos, son cada vez menos interpretables.

Mejores prácticas de análisis y aprendizaje automático

La analítica y el aprendizaje automático comparten prácticas comunes con respecto a factores como orígenes de datos, algoritmos y métricas de evaluación. A continuación, se tratan prácticas comunes para análisis y aprendizaje automático.

  1. Definición del problema y las métricas del éxito: ¿cuál es el objetivo de su proyecto de análisis? Esa simple pregunta es la base de todo lo que sucede después. Sepa qué problema está tratando de resolver, y las decisiones como el algoritmo y la selección de origen de datos caen en cascada desde allí. Eso establece el punto de partida, pero la línea de meta también necesita definición. ¿Cómo medirás el éxito? Estas dos preguntas proporcionan el marco amplio para un proyecto, y a partir de ahí, los equipos pueden comenzar a completar los detalles.
  2. Uso de juegos de datos diversos y de alta calidad: los resultados de un proyecto solo son tan buenos como los datos de origen. Los conjuntos de datos de baja calidad con problemas como la duplicación y fuentes poco realistas y uniformes crean problemas, en el mejor de los casos, sesgando los resultados, en el peor de los casos, lo que lleva a conclusiones incorrectas que cuestan tiempo, dinero y clientes a la empresa. Tanto para la analítica como para la IA, los conjuntos de datos deben estar actualizados y reflejar las condiciones del mundo real, al tiempo que aportan una gama de perspectivas relevantes pero diversas.
  3. Elige los algoritmos y la arquitectura de modelos adecuados: las técnicas de aprendizaje automático se han desarrollado para fines específicos. Los sistemas de detección de anomalías son diferentes de los sistemas jerárquicos de agrupación en clusters o de identificación de objetos. Algunos métodos de aprendizaje automático requieren más potencia de procesamiento y pueden ser malas opciones para aplicaciones más simples. Del mismo modo, los modelos de análisis también tienen sus mejores usos. Puede que valga la pena probar algunos algoritmos diferentes en sus datos y comparar su rendimiento.
  4. Regularizar y optimizar modelos: en el aprendizaje automático, el sobreajuste se produce cuando el conjunto de entrenamiento del modelo carece de la diversidad que estará presente en el uso de producción. Si un modelo está altamente entrenado en un juego de datos limitado, es posible que no pueda interpretar entradas que sean diferentes de su juego de entrenamiento. La regularización busca eliminar el sobreajuste y hacer que el modelo sea más generalmente aplicable. La optimización ajusta iterativamente un modelo para garantizar una alta precisión.
  5. Comunicar los resultados claramente: las prácticas mencionadas anteriormente involucran elementos técnicos de proyectos. Sin embargo, una de las mayores claves potenciales para el éxito a menudo se pasa por alto: comunicar resultados. Los equipos pueden centrarse en ajustar modelos o auditar fuentes de datos y olvidar que las partes interesadas clave necesitan saber cómo está progresando un proyecto. Eso requiere una comunicación clara con métricas procesables y una evaluación concisa de "¿Cómo va?"

Casos de uso y aplicaciones de análisis y aprendizaje automático

¿Cómo se aplican los análisis y el aprendizaje automático en el mundo real? Mientras existan datos, las organizaciones de cualquier sector pueden integrar análisis y aprendizaje automático. De hecho, diferentes departamentos, como ingeniería, operaciones, marketing y ventas, pueden usarlos de diferentes maneras. A continuación, se tratan solo algunos casos de uso que muestran las ventajas de la analítica y el aprendizaje automático en una variedad de sectores y funciones.

  • Marketing: los departamentos de marketing obtienen datos de todo tipo de vías: seguimiento de interacciones en correos electrónicos y publicaciones en redes sociales, historiales de compras, uso de aplicaciones, comportamiento de navegación y mucho más. ¿Qué hacer con esa avalancha de información? Los sistemas de aprendizaje automático pueden compilarlo para buscar patrones específicos y crear un perfil basado en análisis de clientes individuales y segmentos para usuarios empresariales. A partir de ahí, las decisiones basadas en datos pueden activar más estrategias, como ofertas microdirigidas o participación estacional por datos demográficos.
  • Finanzas: cuando los datos de toda una organización se consolidan, los departamentos financieros pueden utilizar el aprendizaje automático para compilar esos volúmenes masivos para descifrar con análisis. Los insights resultantes basados en datos pueden proporcionar una visión más detallada de factores críticos, como el flujo de caja, las tendencias de nómina y los patrones de compra de activos. La analítica puede obtener nuevos niveles de información a través de la detección de tendencias y predicciones basadas en modelos, al tiempo que proporciona asistencia con la detección de fraudes.
  • Atención médica: entre los registros médicos electrónicos, los dispositivos conectados y las métricas operativas de las instalaciones, el aprendizaje automático y la analítica pueden trabajar juntos para ayudar a las organizaciones sanitarias a optimizar las operaciones y ofrecer una mejor atención individual. Para las operaciones, el personal puede escalar y reducir en función de los ciclos de uso probados desencadenados por factores como la temporada y el clima. Para las personas, las estadísticas basadas en datos pueden proporcionar indicadores sobre cuándo reservar ciertos exámenes de detección o nuevos tratamientos prometedores.
  • Robotics: casi todos los usos de la robótica generan datos, desde el ciclo de fabricación hasta el producto final en uso de producción. Para este último, los datos pueden provenir de fuentes que incluyen sensores de temperatura, uso de CPU y articulaciones y motores mecánicos. Los análisis pueden tomar esa enorme cantidad de datos y apuntar a optimizar todas las facetas de la producción, como el abastecimiento de fabricación y el mantenimiento del motor, lo que en última instancia reduce los costos de mantenimiento.
  • Economía: el aprendizaje automático puede beneficiar la investigación y el análisis económicos de muchas maneras. En su forma más sencilla, puede procesar grandes cantidades de datos y crear visualizaciones. Sin embargo, los analistas económicos también emplean el aprendizaje automático para investigar puntos de datos relacionados, como el sentimiento basado en texto, proporcionando un mayor contexto para el cómo y el por qué de un hallazgo particular.

Oracle: Utiliza la analítica y el aprendizaje automático para ayudar a mejorar tu negocio

Los sistemas Oracle Analytics son lo suficientemente potentes para los científicos de datos, pero lo suficientemente intuitivos para los usuarios profesionales, y ofrecen potentes funciones integradas con el aprendizaje automático. Los productos de Oracle Analytics pueden permitirle explorar datos con procesamiento de lenguaje natural, crear visualizaciones en una interfaz sin código y disfrutar de insights basados en IA con un solo clic. Oracle ayuda a poner la información en contexto al tiempo que democratiza el acceso a los datos y la accesibilidad de IA/ML, incluso a través de capacidades sin código y de tipo AutoML.

El aprendizaje automático y la analítica ofrecen un inmenso potencial para transformar las empresas e impulsar la innovación. Al aprovechar el poder de los datos y aprovechar las técnicas avanzadas, las organizaciones pueden obtener información valiosa, tomar decisiones basadas en datos y potencialmente lograr una ventaja competitiva. A medida que la tecnología continúa evolucionando, las aplicaciones del aprendizaje automático a la analítica solo se expandirán, ofreciendo oportunidades emocionantes para empresas de todos los tamaños.

Datos e IA: una guía para el éxito del CIO

Dado lo fundamental que son los datos para el éxito empresarial, los CIO necesitan una estrategia de aprendizaje automático y análisis.

Preguntas frecuentes sobre el aprendizaje automático y la analítica

¿Cuál es la diferencia entre el aprendizaje automático y el análisis?

El machine learning es el proceso de evaluar grandes conjuntos de datos para identificar patrones y construir un modelo predictivo, ya sea para pequeñas tareas de automatización o para procesos más grandes y complejos que requieren pensamiento crítico. La analítica se refiere a la ciencia del análisis sistémico de datos y estadísticas. La analítica se puede beneficiar al integrar el aprendizaje automático para generar modelos de datos, pero los dos conceptos existen por separado a menos que se utilicen juntos de forma intencionada. En el panorama empresarial actual, la combinación de aprendizaje automático y análisis puede posicionar a una organización para el éxito.

¿Cuáles son los tipos de análisis con machine learning?

En general, cualquier tipo de análisis puede utilizar el aprendizaje automático siempre que la plataforma de análisis lo admita y esté correctamente conectada a un repositorio de datos. Funcionalmente, casi cualquier proyecto de análisis puede beneficiarse del uso del aprendizaje automático para acelerar el proceso de recopilación de datos.

¿Cómo se pueden utilizar el aprendizaje automático y la analítica para realizar predicciones empresariales?

Los análisis pueden ayudar a las organizaciones a realizar predicciones empresariales mediante el procesamiento de datos históricos, la identificación de patrones para aspectos como los ciclos de ventas, las tendencias del mercado, el comportamiento del cliente o incluso los procesos de fabricación. Con insights predictivos sobre cualquiera de estos, las organizaciones pueden tomar decisiones para aprovechar mejor los resultados para obtener mejores resultados empresariales.

¿Cómo pueden las organizaciones garantizar que sus proyectos de aprendizaje automático y análisis tengan éxito?

Para los proyectos de aprendizaje automático y análisis, considere las siguientes prácticas, que pueden ayudar a posicionarlos para el éxito, incluidas las siguientes:

  • Para ambos: uso de fuentes de datos de alta calidad.
  • Para análisis: tener ingenieros de datos garantiza que el modelado y los datos cumplan con los estándares antes de su uso.
  • Para analítica: selección de técnicas que mejor equilibren los objetivos del proyecto y los recursos prácticos.
  • Para el aprendizaje automático: solución de problemas para problemas como el sobreajuste y la falta de ajuste.
  • Para el aprendizaje automático: supervisar continuamente un modelo después del despliegue para ver si se necesitan más revisiones y ajustes.