Michael Chen | Estratega de contenido | 6 de diciembre de 2023
En la cultura popular, la IA a veces tiene mala reputación. Las películas lo muestran como el primer paso en el camino hacia un apocalipsis robótico, mientras que las noticias están llenas de historias de cómo la IA tomará todos nuestros trabajos. La verdad es que la IA ha existido por un tiempo, y ninguno de esos peores escenarios es probablemente inminente.
Fundamentalmente, la IA utiliza datos para hacer predicciones. Esa capacidad puede impulsar consejos sobre servicios de transmisión, pero también está detrás de los chatbots capaces de comprender las consultas de lenguaje natural y predecir la respuesta correcta y las aplicaciones que miran una foto y usan el reconocimiento facial para sugerir quién está en la imagen. Llegar a esas predicciones, sin embargo, requiere un entrenamiento eficaz del modelo de IA, y las aplicaciones más nuevas que dependen de la IA pueden exigir enfoques ligeramente diferentes del aprendizaje.
En esencia, un modelo de IA es tanto un conjunto de algoritmos seleccionados como los datos utilizados para entrenar esos algoritmos para que puedan realizar las predicciones acertadas posibles. En algunos casos, un modelo simple utiliza un único algoritmo, por lo que los dos términos pueden solaparse, pero el modelo en sí es el resultado tras el entrenamiento.
En un sentido matemático, un algoritmo puede ser considerado una ecuación con coeficientes indefinidos. El modelo se combina cuando los algoritmos seleccionados resumen los conjuntos de datos para determinar qué valores de coeficiente se ajustan mejor, creando así un modelo para las predicciones. El término "entrenamiento de modelos de IA" se refiere a este proceso: alimentar los datos del algoritmo, examinar los resultados y ajustar la salida del modelo para aumentar la precisión y la eficacia. Para ello, los algoritmos necesitan cantidades masivas de datos que capturen toda la gama de datos entrantes.
Los valores atípicos, las sorpresas, las inconsistencias, los patrones que no tienen sentido al principio glance...algorithms deben tratar todos estos y más, repetidamente, en todos los conjuntos de datos entrantes. Este proceso es la base del aprendizaje: la capacidad de reconocer patrones, comprender el contexto y tomar decisiones apropiadas. Con suficiente entrenamiento de modelos de IA, el conjunto de algoritmos dentro del modelo representará un predictor matemático para una situación determinada que se acumula en tolerancias para lo inesperado y maximiza la previsibilidad.
Conclusiones clave
El entrenamiento del modelo de IA es un proceso iterativo cuyo éxito depende de la calidad y profundidad de la entrada, así como de la capacidad de los entrenadores para identificar y compensar las deficiencias. Los científicos de datos suelen encargarse del proceso de formación, aunque incluso los usuarios profesionales pueden participar en algunos entornos con poco código o sin código. De hecho, el ciclo de procesamiento, observación, retroalimentación y mejora es similar a enseñar a un niño una nueva habilidad. Con el entrenamiento del modelo de IA, el objetivo es crear un modelo matemático que cree con precisión una salida mientras equilibra las diferentes variables posibles, valores atípicos y complicaciones en los datos. Si lo piensas, la paternidad ofrece un recorrido similar, aunque mucho más desordenado.
Piensa en cómo aprenden los niños una habilidad. Por ejemplo, supongamos que quieres enseñar a un niño pequeño a identificar la diferencia entre perros y gatos. Empieza con imágenes básicas y estímulos. Luego se introducen más variables, con detalles como tamaños promedio, cortezas versus matices y patrones de comportamiento. En función de las dificultades que tenga el niño, puedes hacer más hincapié en un área determinada para facilitar el aprendizaje. Al final de este proceso, el niño debe ser capaz de identificar todo tipo de perros y gatos, desde los animales domésticos comunes hasta las especies salvajes.
El entrenamiento de un modelo de IA es similar.
IA: seleccione algoritmos y el juego de datos de entrenamiento inicial para el modelo.
Niño: utiliza fotos básicas para establecer las diferencias generales entre un perro y un gato.
IA: evalúa la precisión de la salida y ajusta el modelo para reducir o eliminar ciertas inexactitudes.
Niño: elogia o corrige según las respuestas.
IA: proporciona juegos de datos adicionales con diversas entradas específicas para personalizar y ajustar el modelo.
Niño: resalta diferentes rasgos, unidades y tamaños como parte del proceso de aprendizaje.
Al igual que ocurre con los niños, el entrenamiento inicial del modelo de IA puede influir mucho en lo que ocurra más adelante, y en si se necesitan más lecciones para desaprender las malas influencias. Esto pone de relieve la importancia de las fuentes de datos de calidad, tanto para el entrenamiento inicial como para el aprendizaje iterativo continuo, incluso después del lanzamiento del modelo.
La mayoría de las organizaciones ya se benefician de la IA en sus flujos de trabajo y procesos, gracias a las aplicaciones que generan análisis, destacan los datos atípicos o utilizan el reconocimiento de texto y el procesamiento del lenguaje natural. Piensa, por ejemplo, en transcribir recibos y documentos en papel a registros de datos. Sin embargo, muchas organizaciones buscan desarrollar modelos de IA con el fin de abordar una necesidad específica y acuciante. El propio proceso de desarrollo puede desbloquear capas más profundas de beneficios, desde el valor a corto plazo, como la aceleración de los procesos, hasta la ganancia a largo plazo, como el descubrimiento de perspectivas antes ocultas o quizá incluso el lanzamiento de un nuevo producto o servicio.
Una razón principal para invertir en una infraestructura capaz de apoyar la IA proviene de la forma en que las empresas crecen. En pocas palabras, los datos están en todas partes. Con tantos datos procedentes de todas las direcciones, se pueden generar nuevas estadísticas para casi todas las partes de una organización, incluidas las operaciones internas y el rendimiento de los equipos de ventas y marketing. Teniendo esto en cuenta, un entrenamiento adecuado y una aplicación meditada permiten que la IA aporte valor empresarial en casi cualquier circunstancia.
Para considerar cómo una organización podría entrenar a la IA para obtener el máximo beneficio, el primer paso es identificar las entradas y lo que entra en una decisión sólida. Por ejemplo, piensa en una cadena de suministro de fabricación. Una vez que todos los datos relevantes estén a disposición de un sistema de IA debidamente entrenado, podrá calcular los gastos de envío, predecir los plazos de entrega y los índices de calidad/defectos, recomendar cambios de precios en función de las condiciones del mercado y realizar muchas más tareas. La combinación de grandes volúmenes de datos entrantes y la necesidad de tomar decisiones basadas en datos hacen que las cadenas de suministro estén listas para la resolución de problemas de IA. Por el contrario, en los casos en los que las competencias interpersonales siguen siendo una prioridad absoluta, la IA puede proporcionar información de apoyo, pero es poco probable que ofrezca un cambio revolucionario. Un ejemplo es la evaluación de un gerente sobre el rendimiento de los empleados durante las revisiones anuales. En este caso, la IA podría facilitar la recopilación de métricas, pero no puede reemplazar las evaluaciones realizadas en función de la interacción entre humanos.
Para aprovechar al máximo una inversión en IA, las organizaciones deben tener en cuenta lo siguiente:
Al establecer esos parámetros, las organizaciones pueden identificar las áreas de negocio que tienen más probabilidades de beneficiarse de la IA y luego comenzar a tomar medidas para hacerlas realidad.
Mientras que cada proyecto viene con sus propios desafíos y requisitos, el proceso general para entrenar modelos de IA sigue siendo el mismo.
Estos cinco pasos incluyen una visión general para entrenar un modelo de IA.
Prepara los datos: el entrenamiento exitoso del modelo de IA comienza con datos de calidad que representan de manera precisa y consistente situaciones reales y auténticas. Sin ella, los resultados posteriores no tienen sentido. Para tener éxito, los equipos de proyecto deben seleccionar los orígenes de datos adecuados, crear procesos e infraestructura para la recopilación de datos manual y automatizada, e instituir procesos de limpieza/transformación adecuados.
Selecciona un modelo de entrenamiento: si la selección de datos proporciona la base para el proyecto, la selección de modelos crea el mecanismo. Las variables para esta decisión incluyen la definición de parámetros y objetivos del proyecto, la selección de la arquitectura y la selección de algoritmos de modelo. Debido a que los diferentes modelos de entrenamiento requieren diferentes cantidades de recursos, estos factores deben sopesarse con elementos prácticos como los requisitos informáticos, los plazos, los costos y la complejidad.
Realiza el entrenamiento inicial: al igual que con el ejemplo anterior de enseñar a un niño a decirle a un gato de un perro, el entrenamiento del modelo de IA comienza con lo básico. El uso de un conjunto de datos demasiado amplio, demasiado complejo de un algoritmo o el tipo de modelo incorrecto podría conducir a un sistema que simplemente procesa datos en lugar de aprender y mejorar. Durante el entrenamiento inicial, los científicos de datos deben centrarse en obtener resultados dentro de los parámetros esperados mientras observan los errores que rompen algoritmos. Al entrenar sin exceso de alcance, los modelos pueden mejorar metódicamente en pasos estables y seguros.
Valida el entrenamiento: una vez que el modelo pasa la fase de entrenamiento inicial, crea de forma fiable los resultados esperados en los criterios clave. La validación del entrenamiento representa la siguiente fase. Aquí, los expertos se propusieron desafiar adecuadamente el modelo en un esfuerzo por revelar problemas, sorpresas o brechas en el algoritmo. Esta etapa utiliza un grupo independiente de juegos de datos de la fase inicial, generalmente con mayor amplitud y complejidad en comparación con los juegos de datos de entrenamiento.
A medida que los científicos de datos ejecutan pases con estos conjuntos de datos, evalúan el rendimiento del modelo. Si bien la precisión de la salida es importante, el proceso en sí es igual de esencial. Las principales prioridades para el proceso incluyen variables como la precisión, el porcentaje de predicciones precisas y la recuperación, el porcentaje de identificación de clase correcta. En algunos casos, los resultados se pueden juzgar con un valor de métrica. Por ejemplo, una puntuación F1 es una métrica asignada a modelos de clasificación que incorporan los pesos de diferentes tipos de falsos positivos/negativos, lo que permite una interpretación más holística del éxito del modelo.
Prueba el modelo: una vez que el modelo se ha validado mediante conjuntos de datos seleccionados y adecuados para su uso, los datos activos se pueden utilizar para probar el rendimiento y la precisión. Los conjuntos de datos para esta etapa deben extraerse de escenarios del mundo real, un paso proverbial de "tomar las ruedas de entrenamiento" para permitir que el modelo vuele por sí solo. Si el modelo ofrece resultados precisos, y lo que es más importante, esperados, con datos de prueba, está listo para la puesta en marcha. Si el modelo presenta deficiencias de alguna manera, el proceso de entrenamiento se repite hasta que el modelo cumple o supera los estándares de rendimiento.
Si bien la puesta en marcha es un hito significativo, lograr esa etapa no significa el final del entrenamiento del modelo. Dependiendo del modelo, cada conjunto de datos procesado puede ser otra "lección" para la IA, lo que lleva a una mayor mejora y refinamiento del algoritmo. Los científicos de datos deben seguir supervisando el rendimiento y los resultados, especialmente cuando el modelo se ocupa de datos atípicos inesperados. Si se obtuvieran resultados inexactos, aunque sólo fuera en raras ocasiones, podría ser necesario ajustar más el modelo para no empañar los resultados futuros.
El entrenamiento de IA viene en muchas formas diferentes que varían en complejidad, tipos de resultados, capacidades y potencia de cálculo. Un método puede consumir más recursos de los necesarios, mientras que en otros casos un método puede dar una respuesta binaria, como un sí o un no para la aprobación de un préstamo, cuando la situación requiere un resultado más cualitativo, como un no" condicional hasta que se aporte más documentación.
La elección del método utilizado para un modelo de IA debe tener en cuenta tanto los objetivos como los recursos; aventurarse sin una planificación cuidadosa puede obligar a los equipos de ciencia de datos a volver a empezar desde cero, con la consiguiente pérdida de tiempo y dinero.
Mientras que algunos modelos de IA utilizan reglas e insumos para tomar decisiones, las redes neuronales profundas ofrecen la capacidad de manejar decisiones complejas basadas en diversas relaciones de datos. Las redes neuronales profundas funcionan con numerosas capas que identifican patrones y relaciones ponderadas entre puntos de datos para hacer predicciones o evaluaciones informadas. Ejemplos de redes neuronales profundas incluyen asistentes activados por voz como Siri de Apple o Alexa de Amazon.
En estadística, la regresión lineal se utiliza para determinar la relación entre la entrada y la salida. En su forma más simple, esto puede ser representado por la fórmula algebraica y = Ax + B. Este modelo utiliza un juego de datos para crear esa fórmula basada en los coeficientes de entrada, salida y posibles variables. El modelo final utilizado para la predicción supone una relación lineal entre la entrada y la salida. Un ejemplo de caso de uso para la regresión lineal es una previsión de ventas basada en datos de ventas anteriores.
Tomada del campo de la estadística, la regresión logística es un modelo efectivo para situaciones binarias. La regresión logística se basa en la función logística, que es una ecuación de curva S utilizada a menudo para calcular la probabilidad. En el caso del modelado de IA, la regresión logística determina la probabilidad y ofrece un resultado binario para finalmente hacer predicciones o decidir, por ejemplo, si un solicitante debe ser aprobado para un préstamo. Un ejemplo de caso de uso para la regresión logística es una aplicación financiera que realiza la detección de fraudes.
La mayoría de las personas tienen experiencia con árboles de decisión, incluso fuera de la IA. Los árboles de decisión funcionan de forma similar a los nodos de los diagramas de flujo. En machine learning, los procesos de entrenamiento alimentan el árbol a través de datos iterativos para identificar cuándo agregar nodos y dónde enviar las diferentes rutas de nodo. Un ejemplo de caso de uso para árboles de decisión es la aprobación de préstamos financieros.
Los árboles de decisión pueden volverse demasiado aptos para sus conjuntos de entrenamiento al establecer demasiada profundidad. La técnica de bosque aleatorio compensa eso combinando un grupo de árboles de decisión, de ahí el término "bosque", y encontrando el mayor consenso o un promedio ponderado en los resultados. Un ejemplo de caso de uso para un bosque aleatorio es predecir el comportamiento del cliente en función de una variedad de árboles de decisión en diferentes elementos del perfil de un cliente.
En términos de educación infantil, el aprendizaje supervisado es el equivalente a que su hijo pase por un plan de estudios establecido con lecciones metódicas. Para el modelado de IA, eso significa usar conjuntos de datos de entrenamiento establecidos y parámetros definidos para entrenar el modelo, con científicos de datos que actúan como maestros proverbiales en la selección de conjuntos de datos de entrenamiento, la ejecución de conjuntos de datos de prueba y la provisión de retroalimentación del modelo. Un ejemplo de caso de uso para el aprendizaje supervisado es encontrar células anormales en las radiografías pulmonares. El conjunto de datos de entrenamiento son rayos X con y sin anomalías y que indican al modelo cuál es cuál.
Continuando con la analogía de la educación infantil, el aprendizaje no supervisado es similar a la filosofía Montessori, donde los niños se presentan con una gama de posibilidades y la libertad de autodirigirse en función de su curiosidad. Para el modelado de IA, eso significa ingerir un conjunto de datos sin etiquetas sin parámetros u objetivos; depende de la IA determinar patrones en los datos. Un ejemplo de caso de uso para el aprendizaje no supervisado es un minorista que alimenta datos de ventas trimestrales de un modelo de IA con el objetivo de encontrar correlaciones en el comportamiento del cliente.
Si alguna vez has reforzado el comportamiento deseado con golosinas, has participado en el aprendizaje de refuerzo. A nivel de IA, el aprendizaje de refuerzo comienza con decisiones experimentales que conducen a un refuerzo positivo o negativo. Después de un tiempo, la IA aprende las mejores decisiones, como en las más precisas o exitosas, para manejar una situación y maximizar el refuerzo positivo. Un ejemplo de caso de uso para el aprendizaje de refuerzo es la lista de sugerencias "que también te pueden gustar" presentadas por YouTube en función del historial de visualización.
Un modelo de IA puede tener éxito cuando se aplica a una situación diferente. El aprendizaje por transferencia en los modelos de IA se refiere al proceso de utilizar un modelo existente como punto de partida para un nuevo proyecto. Esta reutilización funciona mejor cuando el modelo existente maneja un escenario general; cualquier cosa demasiado específica puede resultar demasiado difícil de volver a entrenar. Un ejemplo de caso de uso para el aprendizaje de transferencia es un nuevo modelo de IA para un tipo específico de clasificación de imágenes basado en parámetros de un modelo de clasificación de imágenes existente.
Usando principios de aprendizaje supervisado y no supervisado, el aprendizaje semi-supervisado comienza con el entrenamiento del modelo en un pequeño grupo de conjuntos de datos etiquetados. A partir de ahí, el modelo utiliza juegos de datos sin etiquetas y sin precisión para acotar patrones y crear estadísticas inesperadas. En general, el aprendizaje semi-supervisado utiliza solo conjuntos de datos etiquetados para los primeros pasos, como ruedas de entrenamiento. Después, el proceso se apoya en gran medida en datos no etiquetados. Un ejemplo de caso de uso para el aprendizaje semi-supervisado es un modelo de clasificación de texto, que utiliza un conjunto curado para establecer parámetros básicos antes de ser alimentado grandes volúmenes de documentos de texto no supervisados.
Los modelos generativos son un método de IA no supervisado que utiliza conjuntos de datos de ejemplo muy grandes para crear una salida solicitada. Ejemplos de esto son imágenes generadas por IA basadas en los metadatos de un archivo de imágenes o texto predictivo basado en una base de datos de oraciones escritas. En lugar de simplemente clasificar los datos en su salida, los resultados de los modelos generativos pueden tomar miles, posiblemente millones, de datos de ejemplo para aprender y crear una salida original. Un ejemplo de caso de uso de un modelo generativo es un chatbot, como ChatGPT.
Para que un modelo de IA esté adecuadamente entrenado, necesita datos, muchos datos. De hecho, los datos son el elemento más crucial en el entrenamiento de modelos de IA. Sin ella, el modelo simplemente no puede aprender. Y sin datos de calidad, el modelo aprenderá las cosas equivocadas. Por lo tanto, los científicos de datos seleccionan conjuntos de datos para sus proyectos con intención y cuidado.
La curación de conjuntos de datos debe implicar los siguientes factores para un entrenamiento óptimo del modelo de IA:
El entrenamiento del modelo de IA incluye sus propios desafíos únicos. Algunos de ellos son logísticos: infraestructura, potencia de cálculo y otras consideraciones prácticas de llegar de principio a fin. Otros desafíos requieren la introspección por parte de los científicos de datos, como desarrollar una comprensión de cómo mitigar los sesgos y mantener el objetivo del sistema resultante.
Los siguientes desafíos deben ser consideraciones para cualquier iniciativa de entrenamiento de modelos de IA:
Sesgo de datos: para obtener resultados precisos de un modelo de IA, el entrenamiento requiere datos de calidad. Para mitigar el sesgo de datos, los científicos de datos deben examinar minuciosamente las fuentes de datos antes de seleccionar conjuntos de datos de entrenamiento.
Los datos adecuados: Los conjuntos de datos de entrenamiento requieren grandes volúmenes de datos que representen la diversidad y granularidad adecuadas. Esto no solo llama a los equipos a curar grandes cantidades de datos de calidad, sino que trae muchas consideraciones prácticas. El almacenamiento, la limpieza/transformación, el procesamiento y el control de calidad general se hacen cada vez más difíciles a medida que aumenta el tamaño de un conjunto de datos.
Requisitos de infraestructura y potencia de computación: cuanto más complejo sea el modelo de IA, más potencia de cálculo y soporte de infraestructura se requieren. La practicidad de ejecutar el modelo, desde el entrenamiento hasta la puesta en marcha, debe tenerse en cuenta al seleccionar el método de modelo. Si un tipo de modelo requiere más recursos de los que es posible entregar, todo el proyecto se colapsará.
Sobreajuste: cuando un modelo de IA se ajusta demasiado a los conjuntos de datos de entrenamiento, puede bloquearse en esos detalles en lugar de ser capaz de manejar la diversidad y las sorpresas. Ese fenómeno se conoce como "sobreajuste", y evita predicciones precisas en el futuro. Un ejemplo de sobreajuste es cuando el conjunto de datos de entrenamiento produce un 99% de precisión, pero un conjunto de datos real produce solo un 75% a un 85% de precisión. Ten en cuenta que la precisión percibida en la IA se refiere al rendimiento que parece tener un sistema en términos de precisión en función de sus capacidades actuales. Es la precisión que observan o experimentan los usuarios o las partes interesadas. Por otro lado, la precisión potencial en la IA se refiere al nivel máximo de precisión que un sistema podría lograr en condiciones ideales, con recursos excelentes. Comprender la diferencia entre la precisión percibida y la precisión potencial es importante para evaluar el rendimiento de un sistema de IA e identificar áreas de mejora o desarrollo futuro.
Los términos "sobreajuste" y "sobreentrenamiento" a menudo se usan indistintamente, pero tienen significados distintos. El sobreajuste, como se discutió, es cuando la IA se desempeña extremadamente bien en sus datos de entrenamiento, pero no se generaliza bien en nuevos datos. El sobreentrenamiento es cuando un modelo ha sido entrenado en exceso, lo que lleva a un bajo rendimiento tanto en los datos de entrenamiento como en los nuevos datos. El sobreentrenamiento puede ocurrir cuando un modelo se entrena durante demasiado tiempo o con demasiada complejidad, lo que hace que tenga dificultades para generalizarse. Ambos problemas deben evitarse en el proceso de entrenamiento del modelo.
Explicabilidad: un problema pendiente en el modelado de IA es la falta de explicabilidad sobre cómo se toman las decisiones. Los usuarios pueden hacer inferencias basadas en salidas, pero las razones del modelo pueden seguir siendo nebulosas. Algunos desarrolladores han creado herramientas para cerrar esta brecha, incluidos modelos diseñados para tener una explicabilidad más transparente. Sin embargo, la implementación, la usabilidad, los detalles y la accesibilidad varían, tanto para la entrada como para la salida.
Si bien la IA ha existido de alguna manera desde los albores de la computación, los avances en algoritmos, la potencia de la CPU, la potencia de la unidad de procesamiento gráfico (GPU) y el intercambio de recursos basado en la nube han impulsado significativamente la IA en las últimas dos décadas. La IA está integrada en tantas aplicaciones que muchos usuarios la emplean sin darse cuenta. Cuando transmites música, las listas de reproducción personalizadas provienen de una IA que analiza tus canciones y artistas favoritos. Cuando escribes un mensaje de texto, una IA ofrece sugerencias predictivas basadas en tus palabras de uso común. Si has encontrado un nuevo programa de televisión que te encanta gracias a una recomendación automatizada, gracias a la IA.
Ese es el presente de la IA, pero ¿qué en el horizonte?
El potencial de la IA depende de la evolución de las capacidades del entrenamiento de modelos. Echemos un vistazo a las posibilidades futuras en el entrenamiento de modelos de IA.
Si se siente que las innovaciones de la IA han crecido exponencialmente, hay una buena razón para eso: la explosión de datos y conectividad en la última década ha facilitado mucho el entrenamiento de sistemas de IA y ha permitido la realización de modelos complejos, y los algoritmos nuevos y mejorados se están sumando al éxito. Debido a eso, una serie de objetivos elevados parecen factibles en la próxima década, incluido un razonamiento profundo, donde la IA adquiere la capacidad de comprender cómo y por qué detrás de las situaciones; una mayor eficiencia de entrenamiento utilizando conjuntos de datos más pequeños; y modelos más eficientes y precisos desarrollados a partir del aprendizaje no supervisado.
Para las personas, las habilidades transferibles aumentan la empleabilidad y la productividad al facilitar mucho el inicio de una nueva tarea. Lo mismo se aplica a la transferencia de aprendizaje en IA. Sin embargo, el aprendizaje efectivo de transferencia sigue enfrentando una serie de desafíos. Actualmente, el aprendizaje por transferencia funciona mejor en dominios inmediatamente similares para el modelo original, limitando su uso. Ampliar las capacidades del aprendizaje de transferencia requerirá significativamente más potencia de cálculo y recursos para respaldar la mayor complejidad del reciclaje. Sin innovaciones en eficiencia y procesamiento, puede ser más fácil simplemente construir un modelo desde cero.
Tal vez el rasgo más poderoso de la IA sea su capacidad para realizar tareas de manera más rápida y precisa que los humanos, lo que evita que los empleados de envío, los contadores y otros realicen tareas repetitivas. Por supuesto, llegar a ese punto requiere tiempo y esfuerzo para curar conjuntos de datos, observar las salidas y ajustar el modelo.
Una variedad de herramientas de entrenamiento de modelos de IA pueden acelerar el proceso de desarrollo y entrenamiento. Estas herramientas incluyen bibliotecas de modelos predefinidas, marcos de código abierto, asistentes de codificación y entorno y aumento de gradiente. Algunas dependen del tipo de modelo utilizado, mientras que otras requieren determinados estándares para los recursos informáticos.
Para determinar qué herramienta o herramientas funcionan mejor para tu proyecto, compila las respuestas a las siguientes preguntas:
Estas respuestas pueden ayudar a crear una breve lista de herramientas efectivas para ayudar a tu proceso de entrenamiento de modelos de IA.
Entrenar modelos complejos de IA puede ser una iniciativa que requiere muchos recursos, ya que cientos, posiblemente miles, de servicios independientes coordinan y comparten información. Oracle Cloud Infrastructure (OCI) proporciona GPU conectadas a través de una red Ethernet de alto rendimiento para ahorrar tiempo y dinero a los clientes, al tiempo que maximiza la disponibilidad y la estabilidad. Con OCI, los clientes obtienen interconexiones simples y rápidas para respaldar la formación y el despliegue de modelos altamente complejos a escala.
Los precursores del aprendizaje automático para la IA se construyeron sobre reglas intensivas y la probabilidad impulsada por cálculos de alta potencia. La supercomputadora Deep Blue compitió en torneos de ajedrez de clase mundial de esa manera. Sin embargo, la IA ha evolucionado más allá del uso de reglas impulsadas por datos externos; en cambio, los modelos de IA ahora se centran en generar información interna mediante el entrenamiento a través de grandes volúmenes de conjuntos de datos. Mientras que algunos modelos de IA todavía utilizan árboles de decisión basados en reglas, otros admiten procesos complejos y predicciones gracias a las redes neuronales.
Los avances en IA son emocionantes, pero el futuro de esta tecnología depende de una capacitación de alta calidad.
Las empresas que emprendan un modelo de formación, en cualquier nivel, querrán garantizar que los conjuntos de datos pertinentes y los conocimientos institucionales estén bien documentados. Una gran manera de lograrlo es un centro de excelencia de IA, que ofrece innumerables beneficios más allá del soporte de entrenamiento.
¿Qué es el entrenamiento de modelos de IA?
El entrenamiento de modelos de IA es el proceso de alimentar conjuntos de datos seleccionados de un modelo de IA para evolucionar la precisión de su salida. El proceso puede ser largo, dependiendo de la complejidad del modelo de IA, la calidad de los conjuntos de datos de entrenamiento y el volumen de datos de entrenamiento. Una vez que el proceso de entrenamiento pasa un punto de referencia para los éxitos esperados, los científicos de datos continúan monitoreando los resultados. Si el modelo presenta dificultades para manejar ciertos tipos de situaciones, puede requerir un entrenamiento adicional.
¿Dónde puedo entrenar un modelo de IA?
Cualquier persona con acceso a las herramientas adecuadas puede entrenar un modelo de IA utilizando cualquier PC, suponiendo que tenga acceso a los datos necesarios. Los pasos incluyen la identificación del problema, la selección del modelo de entrenamiento, la búsqueda de conjuntos de datos de entrenamiento y la ejecución de los procesos de entrenamiento. Puede ser a pequeña escala, a escala local o a gran escala empresarial, según el alcance del proyecto y los recursos disponibles. Los desarrolladores nuevos o independientes pueden aprovechar los servicios en la nube que proporcionan recursos de CPU en una variedad de lenguajes de programación y eliminar la geografía de la ecuación.
¿Cuánto cuesta entrenar modelos de IA?
El costo del entrenamiento de un modelo de IA depende del alcance del proyecto. En todo el sector, los costos continúan con tendencia a la baja, ya que la potencia de la CPU/GPU y el acceso a la nube proporcionan más recursos. De hecho, el costo promedio de capacitación para un proyecto pequeño, como la clasificación de imágenes, fue de $1,000 en 2017, pero solo $5 en 2022, según el Índice de IA del Instituto de Inteligencia Artificial Centrado en el Humano de Stanford.
En comparación, el costo de los proyectos de IA de grandes empresas está aumentando. Por ejemplo, algo como la capacitación en ChatGPT puede requerir un presupuesto estimado de $3 millones a $5 millones. Esta disparidad se debe a la complejidad de los proyectos y al hecho de que los recursos crecientes hacen que los proyectos cada vez más complejos y que empujan los límites estén disponibles, si se los puede permitir.
¿Cómo aprender el modelado de IA?
Para aprender a realizar el entrenamiento del modelo de IA, se requiere educación formal o capacitación en el trabajo. Una vez que tengas la experiencia, comienza con los cuatro pasos involucrados en la creación de un modelo de IA.
¿Cuáles son los cuatro tipos de modelos de IA?
En general, los cuatro tipos de modelos de IA son los siguientes:
Algunos científicos de datos también utilizan el aprendizaje de transferencia, donde un modelo de IA existente es un punto de partida para un nuevo modelo, y el aprendizaje semi-supervisado, que combina el aprendizaje supervisado y no supervisado.