No se han encontrado resultados

Su búsqueda no coincide con ningún resultado.

Le sugerimos que pruebe lo siguiente para encontrar lo que busca:

  • Compruebe la ortografía de la búsqueda por palabras clave.
  • Utilice sinónimos de la palabra clave que escribió; por ejemplo, pruebe con “aplicación” en lugar de “software”.
  • Pruebe una de las búsquedas populares que se muestran a continuación.
  • Realice una nueva búsqueda.
Preguntas más populares

Definición de Data Science

Mujer mirando su tablet

A continuación puede ver una definición sencilla de data science

Data science combina múltiples campos que incluyen estadística, métodos científicos y análisis de datos para extraer valor de los datos.

Quienes practican data science se llaman científicos de datos y combinan diversas habilidades para analizar los datos recopilados en la web, los teléfonos inteligentes, los clientes, los sensores y otras fuentes.

Data Science: un recurso sin explotar para el machine learning

La Data science es uno de los campos más apasionantes que existen en la actualidad. ¿Por qué es tan importante?

Porque las empresas están sentadas sobre un tesoro de datos. Ya que la tecnología moderna ha permitido la creación y almacenamiento de cantidades cada vez mayores de información, los volúmenes de datos se han incrementado. Se estima que el 90 % de los datos en el mundo se creó en los últimos dos años. Por ejemplo, los usuarios de Facebook suben 10 millones de fotos por hora.

Pero a menudo estos datos están almacenados aún en bases de datos y lagos de datos, en su mayoría intactos.

La gran cantidad de datos recopilados y almacenados por estas tecnologías puede generar beneficios transformadores para las organizaciones y sociedades de todo el mundo, pero solo si sabemos interpretarlos. Ahí es donde entra en acción data science.

Data science revela tendencias y genera información que las empresas pueden utilizar para tomar mejores decisiones y crear productos y servicios más innovadores. Quizás lo más importante es que permite que los modelos de machine learning aprendan de las grandes cantidades de datos que se les suministran, en lugar de depender principalmente de los analistas empresariales para ver qué pueden descubrir a partir de los datos.

Los datos son los cimientos de la innovación, pero su valor proviene de la información que los científicos de datos pueden extraer de ellos y luego utilizar.

¿Cuál es la diferencia entre data science, inteligencia artificial y machine learning?

¿Cuál es la diferencia entre data science, inteligencia artificial y machine learning?

Para comprender mejor data science, y cómo se puede aprovechar, es igualmente importante conocer otros términos relacionados con este campo, como inteligencia artificial (IA) y machine learning. A menudo, encontrará que estos términos se usan indistintamente, pero hay matices.

A continuación encontrará un desglose sencillo:

  • IA significa hacer que un ordenador imite el comportamiento humano de alguna manera.
  • Data science es un subconjunto de la IA que aborda principalmente las áreas interconectadas de estadísticas, métodos científicos y análisis de datos, todas las cuales se utilizan para extraer significado y conocimientos de los datos.
  • El machine learning es otro subconjunto de la IA y está fundado en las técnicas que permiten a los ordenadores averiguar cosas a partir de los datos y ofrecer aplicaciones de IA.

Y por si acaso, incluiremos otra definición:

  • Aprendizaje profundo, que es un subconjunto del machine learning que permite a los ordenadores resolver problemas más complejos

Cómo está transformando data science a las empresas

Data Science y el crecimiento de los datos

Las organizaciones utilizan data science para convertir los datos en una ventaja competitiva al perfeccionar los productos y servicios. Algunos casos de uso de data science y machine learning son:

  • Determinar la rotación de clientes analizando los datos recopilados en los call centers, para que el departamento de marketing pueda tomar medidas para retenerlos.
  • Mejorar la eficiencia analizando los patrones de tráfico, las condiciones climáticas y otros factores, para que las empresas de logística puedan mejorar los tiempos de entrega y reducir costes.
  • Mejorar los diagnósticos de los pacientes analizando los datos de pruebas médicas y los síntomas descritos, para que los médicos puedan diagnosticar las enfermedades antes y tratarlas de manera más eficaz.
  • Optimizar la cadena de suministro prediciendo cuándo se averiará el equipo.
  • Detectar el fraude en los servicios financieros al reconocer comportamientos sospechosos y acciones anómalas.
  • Mejorar las ventas creando recomendaciones para los clientes basadas en compras anteriores.

Muchas empresas han dado prioridad a data science y están realizando grandes inversiones en ella. En la última encuesta de Gartner a más de 3.000 directores de tecnología y sistemas, los encuestados clasificaron la analítica y la inteligencia empresarial como las tecnologías de diferenciación más importantes para sus organizaciones. Los directores de tecnología (CIO) encuestados consideran que estas tecnologías son las más estratégicas para sus empresas y están invirtiendo en consecuencia.

Cómo se lleva a cabo la data science

Cómo se lleva a cabo la data science

El proceso de analizar y utilizar los datos es iterativo en lugar de lineal, pero este es el modo en que el ciclo de vida de data science fluye normalmente en un proyecto de modelado de datos:

Planificación: se define un proyecto y sus posibles resultados.

Construcción de un modelo de datos: los científico de datos a menudo usan diversas bibliotecas de código abierto o herramientas incluidas en la base de datos para construir modelos de machine learning. Con frecuencia, los usuarios querrán que las API ayuden con la ingestión de datos, la visualización y creación de perfiles de datos o la ingeniería de funciones. Necesitarán herramientas adecuadas, así como acceso a los datos correctos y otros recursos, como el poder de computación.

Evaluación de un modelo: los científico de datoss deben lograr un alto porcentaje de precisión de sus modelos para tener confianza en que se pueden implementar. La evaluación del modelo generalmente generará un conjunto completo de métricas de evaluación y visualizaciones para medir el rendimiento del modelo frente a nuevos datos, y también clasificarlos a lo largo del tiempo a fin de lograr un comportamiento óptimo en producción. La evaluación del modelo va más allá del rendimiento y tiene en cuenta el comportamiento base esperado.

Explicación de los modelos: ser capaz de explicar la mecánica interna de los resultados de los modelos de machine learning en términos humanos no siempre ha sido posible, pero es cada vez más importante. Los científico de datoss quieren explicaciones automatizadas de la ponderación relativa y la importancia de los factores que intervienen en la generación de una predicción, así como detalles explicativos específicos sobre las predicciones del modelo.

Implementación de un modelo: tomar un modelo de machine learning entrenado e implementarlo en los sistemas correctos es a menudo un proceso difícil y laborioso. Esto se puede hacer más fácil si los modelos se ponen en funcionamiento como API escalables y seguras o si se utilizan modelos de machine learning incluidos en la base de datos.

Supervisión de modelos: desafortunadamente, implementar un modelo no es el final. Los modelos siempre deben supervisarse después de la implementación para garantizar que funcionen correctamente. Los datos con los que se entrenó el modelo pueden dejar de ser relevantes para futuras predicciones después de un período de tiempo. Por ejemplo, en la detección de fraudes, los delincuentes siempre encuentran nuevas formas de piratear cuentas.

Herramientas para data science

Herramientas para data science

Crear, evaluar, implementar y supervisar modelos de machine learning puede ser un proceso complejo. Por eso, ha aumentado la cantidad de herramientas de data science. Los científico de datoss utilizan muchos tipos de herramientas, pero una de las más comunes son las libretas de código abierto, que son aplicaciones web para escribir y ejecutar código, visualizar datos y ver resultados, todo en el mismo entorno.

Algunas de las libretas más populares son Jupyter, RStudio y Zeppelin. Las libretas son muy útiles para realizar análisis, pero presentan ciertas limitaciones cuando los científico de datoss necesitan trabajar en equipo. Las plataformas de data science se crearon para resolver este problema.

Para determinar qué herramienta de data science es adecuada para usted, es importante hacerse las siguientes preguntas: ¿Qué tipo de lenguajes utilizan sus científico de datoss? ¿Qué tipo de métodos de trabajo prefieren? ¿Qué tipo de fuentes de datos están usando?

Por ejemplo, algunos usuarios prefieren tener un servicio independiente de la fuente de datos que utilice bibliotecas de código abierto. Otros prefieren la velocidad de los algoritmos de machine learning incluidos en la base de datos.

¿Quién supervisa el proceso de data science?

¿Quién supervisa el proceso de data science?

En la mayoría de las organizaciones, tres tipos de administradores suelen supervisar los proyectos de data science:

Responsables empresariales: estos gerentes trabajan con el equipo de data science para definir el problema y desarrollar una estrategia para el análisis. Pueden ser los responsables de una línea de negocio, como marketing, finanzas o ventas y contar con un equipo de data science que dirigen. Trabajan codo a codo con los responsables de TI y data science para garantizar que los proyectos se entreguen.

Directores de TI: los directores sénior de TI son responsables de la infraestructura y la arquitectura que sustentarán las operaciones de data science. Supervisan continuamente las operaciones y la utilización de recursos para garantizar que los equipos de data science operen de manera eficiente y segura. También pueden ser responsables de la creación y actualización de los entornos de TI para los equipos de data science.

Directores de data science: supervisan el equipo de data science y su trabajo diario. Son creadores de equipos que pueden equilibrar el desarrollo del equipo con la planificación y la supervisión del proyecto.

Pero el actor más importante en este proceso es el científico de datos.

¿Qué es un científico de datos?

¿Qué es un científico de datos?

Como especialidad, la data science aún es nueva. Surgió de los campos del análisis estadístico y de la minería de datos. Data Science Journal debutó en 2002, a través de la publicación del Consejo Internacional para la Ciencia: Comité de Información para Ciencia y Tecnología. En 2008 surgió el nombre de científico de datos y este campo prosperó rápidamente. Desde entonces, ha habido escasez de científico de datoss, a pesar de que cada vez más colegios y universidades ofrecen titulaciones en data science.

Las tareas de un científico de datos pueden incluir el desarrollo de estrategias para analizar datos, la preparación de datos para su análisis, explorar, analizar y visualizar datos, construir modelos con datos mediante el uso de lenguajes de programación como Python y R y desplegar modelos en aplicaciones.

El científico de datos no trabaja solo. De hecho, la data science más efectiva se ejecuta en equipos. Además de un científico de datos, este equipo puede incluir un analista empresarial que defina el problema, un ingeniero de datos que prepare los datos y el método para acceder a ellos, un arquitecto de TI que supervise los procesos subyacentes y la infraestructura y un desarrollador de aplicaciones que implemente los modelos o los resultados del análisis en aplicaciones y productos.

Desafíos de la implementación de proyectos de data science

Desafíos de la implementación de proyectos de data science

A pesar de las expectativas generadas por la data science y las grandes inversiones en equipos de data science, muchas empresas no están materializando todo el valor de sus datos. En su carrera por contratar talento y crear programas de data science, algunas empresas han experimentado flujos de trabajo de equipo ineficientes en los que distintas personas utilizan diferentes herramientas y procesos que no funcionan correctamente de forma conjunta. Sin una gestión centralizada y más disciplinada, los ejecutivos podrían no obtener un retorno completo de sus inversiones.

Este ambiente caótico presenta muchos desafíos.

Los científico de datoss no pueden trabajar de forma eficiente. Debido a que el acceso a los datos lo debe otorgar un administrador de TI, los científico de datoss a menudo deben esperar demasiado tiempo a recibir los datos y los recursos que necesitan para analizarlos. Una vez que se obtiene acceso, el equipo de data science podría analizar los datos a través de varias herramientas posiblemente incompatibles. Por ejemplo, un científico podría desarrollar un modelo utilizando el lenguaje R, pero la aplicación en la que se usará está escrita en un lenguaje distinto. Este es el motivo por el que la implementación de modelos en aplicaciones útiles puede llevar desde semanas hasta incluso meses.

Los desarrolladores de aplicaciones no pueden acceder al machine learning utilizable. A veces, los modelos de machine learning que los desarrolladores reciben no están listos para implementarlos en aplicaciones. Además, ya que los puntos de acceso pueden ser inflexibles, los modelos no se pueden implementar en todos los casos y la escalabilidad queda a responsabilidad del desarrollador de la aplicación.

Los administradores de TI dedican demasiado tiempo al soporte. Debido a la proliferación de herramientas de código abierto, TI puede tener una lista cada vez mayor de herramientas a las que proporcionar soporte. Un científico de datos en marketing, por ejemplo, podría usar herramientas distintas a las que usa un científico de datos en finanzas. Los equipos también pueden tener distintos flujos de trabajo, lo que significa que TI debe reconstruir y actualizar continuamente los entornos.

Los responsables empresariales están muy alejados de la data science. Los flujos de trabajo de la data science no siempre están integrados en los procesos y en los sistemas de toma de decisiones empresariales, lo que dificulta que los responsables empresariales colaboren de manera inteligente con los científico de datoss. Si no cuentan con una integración mejor, a los responsables empresariales les resulta difícil comprender por qué lleva tanto tiempo pasar del prototipo a la producción y es menos probable que respalden la inversión en proyectos que consideran demasiado lentos.

La plataforma de data science ofrece nuevas capacidades

La plataforma de data science ofrece nuevas capacidades

Muchas empresas se dieron cuenta de que, sin una plataforma integrada, el trabajo de data science era ineficiente, inseguro y difícil de ampliar. Esto provocó el desarrollo de plataformas de data science. Estas plataformas son centros de software alrededor de los cuales se lleva a cabo todo el trabajo de data science. Una buena plataforma alivia muchos de los desafíos de la implementación de la data science y ayuda a las empresas a convertir sus datos en información de forma más rápida y eficiente.

Con una plataforma centralizada (la plataforma de machine learning), los científico de datoss pueden trabajar en un entorno de colaboración a través de sus herramientas favoritas de código abierto y todo su trabajo se sincroniza mediante un sistema de control de versiones.

Los beneficios de una plataforma de data science

Los beneficios de una plataforma de data science

Una plataforma de data science disminuye la redundancia e impulsa la innovación al permitir que los equipos compartan código, resultados e informes. Los cuellos de botella en el flujo de trabajo se eliminan al simplificar la gestión e incorporar mejores prácticas.

En general, las mejores plataformas de data science tienen como objetivo:

  • Hacer más productivos a los científico de datoss al ayudarles a acelerar y entregar modelos con más rápidez y menos errores.
  • Facilitar que los científico de datoss trabajen con grandes volúmenes y variedades de datos.
  • Ofrecer inteligencia artificial fiable de nivel empresarial, libre de sesgos, auditable y reproducible.

Las plataformas de data science están diseñadas para la colaboración de una variedad de usuarios, incluidos los científico de datoss expertos, científico de datoss de ciudadanos, ingenieros de datos e ingenieros o especialistas en machine learning. Por ejemplo, una plataforma de data science podría permitir a los científico de datos implementar modelos como API, lo que facilita su integración en diferentes aplicaciones. Los científico de datoss pueden acceder a herramientas, datos e infraestructura sin tener que esperar por la TI.

La demanda de plataformas de data science ha explotado en el mercado. De hecho, se espera que la plataforma del mercado crezca a una tasa anual compuesta de más del 39 % en los próximos años y se proyecta que alcance los 385 mil millones de dólares para 2025.

¿Qué necesita un científico de datos en una plataforma?

¿Qué necesita un científico de datos en una plataforma?

Si está listo para explorar las capacidades de las plataformas de data science, hay ciertas capacidades clave que debe considerar:

Elija una interfaz de usuario basada en proyectos que fomente la colaboración. La plataforma debe potenciar a las personas para que trabajen conjuntamente en un modelo, desde su concepción hasta el desarrollo final. Debe otorgar a cada miembro del equipo acceso de autoservicio a los datos y a los recursos.

Priorice la integración y la flexibilidad. Asegúrese de que la plataforma incluya soporte para las últimas herramientas de código abierto, proveedores comunes de control de versiones como GitHub, GitLab y Bitbucket y una estrecha integración con otros recursos.

Incluya capacidades de nivel empresarial. Asegúrese de que la plataforma pueda escalar con su negocio a medida que crece su equipo. La plataforma debe contar con un alto grado de disponibilidad, tener controles de acceso robustos y admitir una gran cantidad de usuarios simultáneos.

Ofrezca más autoservicio para la data science. Busque una plataforma que elimine la carga de TI e ingeniería y facilite a los científico de datoss la creación instantánea de entornos, el seguimiento de todo su trabajo y la implementación sencilla de modelos en producción.

Garantice una implementación de modelos más sencilla. La implementación y puesta en funcionamiento del modelo es uno de los pasos más importantes del ciclo de vida del machine learning, pero a menudo se ignora. Asegúrese de que el servicio que elija facilite la puesta en funcionamiento de modelos, ya sea proporcionando API o asegurando que los usuarios creen modelos de una manera que permita una fácil integración.

Cuando una plataforma de data science es el paso correcto

Su organización podría estar lista para una plataforma de data science si ha observado que:

  • La productividad y la colaboración muestran signos de presión.
  • Los modelos de machine learning no se pueden auditar ni reproducir.
  • Los modelos nunca llegan a producción.

Una plataforma de data science puede ofrecer un valor real a su negocio. La plataforma de data science de Oracle incluye una amplia gama de servicios que brindan una experiencia integral de principio a fin, diseñada para acelerar la implementación del modelo y mejorar los resultados de data science.