Análisis multivariado para Big Data
Pero, ¿qué hacemos con este tsunami de información? ¿cómo debemos analizarla?
Alguna de esta información puede ser analizada y entendida con estadística simple, uni- bi-variada, pero en muchos casos vamos a necesitar técnicas estadísticas multivariante, más complejas, para convertir los datos en conocimiento.
El análisis de datos multivariado es una herramienta poderosa para los investigadores, la aplicación adecuada de estas técnicas revelan relaciones que de otra manera no serían identificadas.
Contenidos
- El mundo es mutivariado
- ¿Cómo extraer información de grandes volúmenes de datos?
- 10 razones para utilizar el análisis multivariado
- ¿Cómo funciona la estadística multivariada?
- Hoja de ruta
El mundo es multivariado
La mayoría de los problemas reales son de naturaleza multivariada – lo que significa que existen múltiples variables que contribuyen a ellos.
Los patrones que vemos están generalmente determinados por un número de procesos que interactúan y varíanen el espacio y en el tiempo.
La distribución, abundancia o comportamiento de un organismo, por ejemplo, están afectados simultáneamente por varios factores bióticos y abióticos.
Asimismo, existen sinergismos y retroalimentaciones entre los procesos bióticos y abióticos y los patrones que crean.
Esta multiplicidad e interacciones de factores causales vuelve a los sistemas biológicos excepcionalmente difíciles de analizar.
¿Cómo extraer información de grandes volúmenes de datos?
En la mayoría de las investigaciones científicas nos encontramos con múltiples variables de interés.
¿Deberíamos evaluar una variable la vez?
¿Qué se puede perder al realizar este análisis univariado?
¿En qué se diferencian los análisis de datos multivariados de los métodos univariados que son más familiares?
¿Por qué necesitamos el análisis multivariado?
Extraer información de un gran volumen de datos mediante gráficos simples y métodos de análisis univariados es una misión casi imposible y a veces hasta errónea.
Aunque en algunos casos puede tener sentido aislar cada variable y estudiarla por separado, en la mayoría de los casos esto no es así.
Las variables estarán relacionadas en mayor o menor grado y en consecuencia, si cada variable se analiza aisladamente, la estructura completa de los datos puede no ser revelada.
Los datos complejos requieren métodos de análisis que puedan hacer frente a múltiples variables simultáneamente, que no sólo revelen variables influyentes sino también la relación que dichas variables tienen entre sí para comprender completamente la estructura y las características clave de los datos.
Por ejemplo, no podemos simplemente utilizar la estación del año para predecir el tiempo, ya que muchas otras variables son parte de la relación con el clima.
10 razones para utilizar el análisis multivariado
En resumen…
El análisis univariado no necesariamente cuentan la historia completa de los datos o pueden ni siquiera ser exactos.
El análisis multivariado es una herramienta para encontrar patrones y relaciones entre varias variables simultáneamente.
Algunos ejemplos de aplicación
- En estudios financieros, los activos en el mercado de valor son observados simultáneamente y su desarrollo conjunto es analizado para entender mejor las tendencias generales y para construir índices.
- En medicina, las observaciones de sujetos en diferentes localidades son la base de diagnósticos de confianza y medicación.
- En marketing, las preferencias de los consumidores son colectadas para construir modelos de comportamiento del consumidor.
¿Cómo funciona la estadística multivariada?
Comencemos por ver qué tipo de datos utiliza, un pequeño repaso a la estadística básica.
La matriz de datos que estudiaremos presentará los casos en las filas, y las variables en las columnas.
Imaginemos que estamos realizando un estudio de ecología, nuestros datos podrían ser los siguientes:
Una forma de resumir las técnicas multivariantes.
- Análisis de interdependencias. Cuando queremos describir la información de los datos disponibles o explorar los datos, no buscamos una relación de causalidad entre las variables, sino la relación entre todas ellas. Ej: análisis de conglomerados (cluster).
- Análisis de dependencia. Cuando buscamos obtener conclusiones sobre la población que ha generado los datos, lo que requiere la creación de un modelo explicativo y productivo, buscamos una explicación o inferencia. Ej: MANOVA, MRPP, ANOSIM, LDA.
También podemos establecer dos tipos de técnicas según nuestros objetivos.
- Grupos
- Encontrar grupos (Cluster)
- Comparar grupos (análisis de varianza multivariado MANOVA, el test de permutación multi-respuesta MRPP, el análisis de similitudes de grupos ANOSIM, y el test de mantel MANTEL)
- Discriminar entre grupos (análisis discriminante lineal LDA, árbol de regresión o clasificación CART/MRT)
- Gradientes
- Ordenación no restringida (análisis de componentes principales PCA, análisis de correspondencia CA, análisis de correspondencias sin tendencia DCA, escalamiento multidimensional métrico MDS y no métrico NMDS)
- Ordenación restringida (análisis de redundancia RDA, análisis de correspondencia canónico CCA)
Todos los problemas multivariados pueden conceptualizarse geométricamente como una nube de datos en un espacio de datos P-dimensional, donde las dimensiones (o ejes) son definidas por las variables de interés.
La forma, agrupamiento y dispersión de esta nube son reveladas por las técnicas multivariantes.
Hoja de ruta
Siguiendo las recomendaciones de Zuur et al. 2007 (pág. 21) vamos a resumir los principales puntos a tener en cuenta para elegir la técnica multivariante apropiada, y discutir sus pros y sus contras.
¡Da el salto y lánzate a las técnicas multivariadas!
Rosana Ferrero
4 comentarios
Quisiera saber si los cursos son virtuales? Dan certificados y si el estudiante se encuentra en otro país como sería el proceso?
Meriele del Carmen Rebolledo Contreras 15 de mayo de 2022, 00:20
Buenas Meriele,
los cursos son 100% virtuales, gracias a esta flexibilidad tenemos alumnos de todo el mundo, y sí se otorgan certificados a los estudiantes que aprueban el curso.
Ponte en contacto con nuestra comercial de sudamérica Joana Gorosito al +598 94 707 187 (también en whatsapp).
Avísame si necesitas algo más.
Saludos
Rosana Ferrero 16 de mayo de 2022, 07:19
Hola.
¿Cómo evalúan la calidad de las predicciones?
Muchas gracias.
Eslaen 3 de julio de 2022, 14:41
Buenos días Eslaen,
depende de la técnica multivariante a la que te refieras. Damos cursos de PCA, CA, Cluster, MANOVA, etc donde vemos estos detalles. Consúltanos al +34 635 659 391
Cursos: https://www.maximaformacion.es/tematica/ciencia-de-datos/
Saludos
Rosana Ferrero 7 de julio de 2022, 10:43