Blog de Estadística & R Software

Blog de Máxima Formación dedicado a Estadística aplicada con R Software
Tamaño de fuente: +

Análisis multivariado para Big Data

La información disponible para la toma de decisiones explotó en los últimos años, y lo continuará haciendo en el futuro, probablemente aún más rápidamente. 

Pero, ¿qué hacemos con este tsunami de información? ¿cómo debemos analizarla?

Alguna de esta información puede ser analizada y entendida con estadística simple, uni- bi-variada, pero en muchos casos vamos a necesitar técnicas estadísticas multivariante, más complejas, para convertir los datos en conocimiento. 

El análisis de datos multivariado es una herramienta poderosa para los investigadores, la aplicación adecuada de estas técnicas revelan relaciones que de otra manera no serían identificadas.

El mundo es multivariado

La mayoría de los problemas reales son de naturaleza multivariada - lo que significa que existen múltiples variables que contribuyen a ellos. 

Los patrones que vemos están generalmente determinados por un número de procesos que interactúan y varían en el espacio y en el tiempo. 

La distribución, abundancia o comportamiento de un organismo, por ejemplo, están afectados simultáneamente por varios factores bióticos y abióticos. 

Asimismo, existen sinergismos y retroalimentaciones entre los procesos bióticos y abióticos y los patrones que crean. 

Esta multiplicidad e interacciones de factores causales vuelve a los sistemas biológicos excepcionalmente difíciles de analizar.


¿Cómo extraer información de grandes volúmenes de datos?

En la mayoría de las investigaciones científicas nos encontramos con múltiples variables de interés. 

¿Deberíamos evaluar una variable la vez? 

¿Qué se puede perder al realizar este análisis univariado? 

¿En qué se diferencian los análisis de datos multivariados de los métodos univariados que son más familiares? 

¿Por qué necesitamos el análisis multivariado?


Extraer información de un gran volumen de datos mediante gráficos simples y métodos de análisis univariados es una misión casi imposible y a veces hasta errónea

Aunque en algunos casos puede tener sentido aislar cada variable y estudiarla por separado, en la mayoría de los casos esto no es así. 

Las variables estarán relacionadas en mayor o menor grado y en consecuencia, si cada variable se analiza aisladamente, la estructura completa de los datos puede no ser revelada.


Los datos complejos requieren métodos de análisis que puedan hacer frente a múltiples variables simultáneamente, que no sólo revelen variables influyentes sino también la relación que dichas variables tienen entre sí para comprender completamente la estructura y las características clave de los datos. 

Por ejemplo, no podemos simplemente utilizar la estación del año para predecir el tiempo, ya que muchas otras variables son parte de la relación con el clima. 


10 razones para utilizar el análisis multivariado

En resumen...
El
análisis univariado no necesariamente cuentan la historia completa de los datos o pueden ni siquiera ser exactos.

El análisis multivariado es una herramienta para encontrar patrones y relaciones entre varias variables simultáneamente.

Algunos ejemplos de aplicación

  • En estudios financieros, los activos en el mercado de valor son observados simultáneamente y su desarrollo conjunto es analizado para entender mejor las tendencias generales y para construir índices. 
  • En medicina, las observaciones de sujetos en diferentes localidades son la base de diagnósticos de confianza y medicación. 
  • En marketing, las preferencias de los consumidores son colectadas para construir modelos de comportamiento del consumidor. 

¿Cómo funciona la estadística multivariada?

Comencemos por ver qué tipo de datos utiliza, un pequeño repaso a la estadística básica.

La matriz de datos que estudiaremos presentará los casos en las filas, y las variables en las columnas.

Imaginemos que estamos realizando un estudio de ecología, nuestros datos podrían ser los siguientes:

Una forma de resumir las técnicas multivariantes.

  • Análisis de interdependencias. Cuando queremos describir la información de los datos disponibles o explorar los datos, no buscamos una relación de causalidad entre las variables, sino la relación entre todas ellas. Ej: análisis de conglomerados (cluster).
  • Análisis de dependencia. Cuando buscamos obtener conclusiones sobre la población que ha generado los datos, lo que requiere la creación de un modelo explicativo y productivo, buscamos una explicación o inferencia. Ej: MANOVA, MRPP, ANOSIM, LDA.

También podemos establecer dos tipos de técnicas según nuestros objetivos.

  •  Grupos 
    • Encontrar grupos (Cluster) 
    • Comparar grupos (análisis de varianza multivariado MANOVA, el test de permutación multi-respuesta MRPP, el análisis de similitudes de grupos ANOSIM, y el test de mantel MANTEL) 
    • Discriminar entre grupos (análisis discriminante lineal LDA, árbol de regresión o clasificación CART/MRT)
  • Gradientes 
    • Ordenación no restringida (análisis de componentes principales PCA, análisis de correspondencia CA, análisis de correspondencias sin tendencia DCA, escalamiento multidimensional métrico MDS y no métrico NMDS) 
    • Ordenación restringida (análisis de redundancia RDA, análisis de correspondencia canónico CCA)


Todos los problemas multivariados pueden conceptualizarse geométricamente como una nube de datos en un espacio de datos P-dimensional, donde las dimensiones (o ejes) son definidas por las variables de interés. 

La forma, agrupamiento y dispersión de esta nube son reveladas por las técnicas multivariantes.

Hoja de ruta

Siguiendo las recomendaciones de Zuur et al. 2007 (pág. 21) vamos a resumir los principales puntos a tener en cuenta para elegir la técnica multivariante apropiada, y discutir sus pros y sus contras.


¡Da el salto y lánzate a las técnicas multivariadas!


Valora este artículo del blog:
Cómo calcular resúmenes por grupo rápidamente
 

Comentarios (0)

Rated 0 out of 5 based on 0 votes
There are no comments posted here yet

Deja tus comentarios

Posting comment as a guest.
Archivos adjuntos (0 / 3)
Share Your Location
Escribe el texto que se muestra en la siguiente imagen. ¿No lo ves claro?

Únete a nuestra comunidad