Grupos de investigación > GR-EADC > Líneas de investigación
Ir al contenido (clic en "Intro")
UdG Hombre UdG Hombre
Cerrar
Menú

Research Group in Statistics and Compositional Data Analysis

Líneas de investigación

Análisis de datos composicionales

Hoy en día hay varias líneas de investigación que complementan y generalizan los métodos composicionals y que proponen nuevos problemas que requieren esfuerzos de investigación suplementaria. Entre ellos destacamos:

Estos métodos tienen aplicación, entre otros en las ciencias ómicas;

Estos métodos se ocupan tanto de la composición que optimiza alguna variable respuesta como del diseño óptimo de experimentos (DOE) para mezclas. Este enfoque tiene aplicación, entre otros campos, en la industria alimentaria, la economía, la medicina, el uso del tiempo en actividades físicas y el desarrollo sostenible.

Los fundamentos de estos métodos requieren el estudio de propiedades matemáticas para una optimización restringida al símplex en términos de la geometría de Aitchison

Los ceros son una dificultad a la hora de aplicar técnicas log-ratios. Este "problema de ceros" es una línea de investigación activa desarrollada a lo largo de varios proyectos liderados por este equipo con publicaciones de alto impacto.

Sin embargo, todavía quedan dos problemas importantes sin resolver: uno, el desarrollo de una metodología para el tratamiento de ceros absolutos, donde las técnicas para la imputación de datos que faltan no son adecuadas, un escenario habitual a la hora de optimizar la información tal como se ha descrito anteriormente; y, en segundo lugar, ampliar la metodología para el tratamiento del número de ceros en datos de alta dimensión.

El origen del ámbito de investigación en datos composicionales (CoDa) se remonta a finales del siglo XIX cuando K. Pearson advierte de los peligros de utilizar la correlación lineal (de Pearson) para el análisis de la relación entre índices que comparten la misma información al denominador: ha nacido el concepto de correlación espuria . Hasta los años ochenta del siglo XX, se fueron haciendo esfuerzos por solucionar esta dificultad. Pero no es hasta los años ochenta, que J. Aitchison , basándose en el suyo conocimientos de la distribución de probabilidad lognormal, presenta una metodología para el análisis estadístico de las CoDa. Uno de los legados más importantes de Aitchison es la introducción de una primera definición de la propiedad de invariabilidad del análisis estadístico por cambio de escalera, totalmente relacionada con la correlación espuria. Además, basándose en el uso habitual del diagrama ternario (o diagrama de Finetti ) en biología y geología para la representación de tres proporciones, Aitchison define el símplex como espacio muestral de las CoDa: vectores aleatorios de componentes positivos con suma constante (uno para proporciones, 100 por porcentajes, un millón por ppm). Este espacio muestral es un espacio restringido con su propia operación interna: la perturbación. Esta operación está relacionada con la idea de utilizar el cociente en vez del resto para la comparación de proporciones. Además, Aitchison introduce el concepto de subcomposición (subconjunto de partes de una composición) para definir una relación entre espacios y subespacios en términos de proyección geométrica. Esta definición es crucial para la propiedad de coherencia subcomposicional de los análisis estadísticos. En esencia, esta propiedad requiere que en el análisis de una subcomposición no se puedan obtener resultados contradictorios con el análisis de una composición que la contenga. El incumplimiento de esta propiedad por parte de la correlación lineal explica la correlación espuria encuentro para K. Pearson. La formación de subcomposiciones, como proyección geométrica, también está relacionada con aspectos métricos del análisis de las CoDa. En este sentido, la distancia entre dos muestras que utilizan una subcomposición tiene que ser menor o igual que cuando se utiliza la composición original. Los aspectos métricos tienen un papel muy relevante en las técnicas estadísticas no paramétricas, como algunas de las técnicas del análisis de clústeres. La naturaleza relativa de la información contenida en las CoDa sugiere que, cuando compararemos dos composiciones (distancias entre muestras) y cuando analizamos el vínculo entre las partes de una composición (correlación entre partes), se tiene que utilizar cocientes, entre filas o columnas de la matriz de datos, respectivamente. Estas proporciones cogen valores positivos del espacio real, o bien en el intervalo (0, 1) o bien, mediante la relación inversa, en el intervalo (1, + infinito). No obstante, cuando se toman logaritmos, los log-quocients se definen en todo el espacio real, donde aquí existe una relación simétrica entre los intervalos (-infinito, 0) y (0, + infinito). Utilizando este enfoque, a partir de log-quocients de las partes de la composición se pueden construir las variables básicas para cualquier análisis estadístico.

Al principio del siglo XXI, y sobre todo a raíz de los proyectos liderados por miembros del CoDa-Research Group, se consolidan los fundamentos matemáticos y estadísticos para el análisis composicional. Una serie de contribuciones establecen estos fundamentos según la geometría del símplex y definen su estructura euclidiana mediante las operaciones introducidas por Aitchison en los años ochenta. La estructura métrica del espacio muestral nos lleva a crear coordenadas log-quocient sobre una base ortonormal para la representación de los vectores composicionals. Siguiendo el principio de “trabajar en coordenadas”, el análisis composicional utiliza los métodos clásicos sobre estas coordenadas. La necesidad de encontrar una base ortonormal ha motivado la introducción de tres algoritmos para construirla automáticamente. Dos de estos algoritmos se pueden aplican a composiciones de alta dimensión.

Un resultado crucial para la consolidación (descrita anteriormente) de los métodos composicionals es la definición del espacio composicional como clases de equivalencia de vectores en el espacio real positivo. Destacar que con este paso se introduce la definición del análisis composicional de datos como metodología para aquellos investigadores interesados en el estudio de la información relativa de las partes sin la restricción de la suma constante de las partes. Esta propuesta amplía el uso de los métodos composicionals y abre una puerta por el uso general en otros campos. Además, con el fin de tener información más completa de los datos, el análisis composicional se tiene que complementar con la información en relación el "total composicional". Este enfoc se aplica para desarrollar una metodología diseñada para resolver el problema de "recuperar las unidades originales". Notes que esta dificultad aparece cuando los resultados obtenidos en coordenadas composicionals se transforman de nuevo en términos de las unidades originales de las partes de la composición.

Escoge qué tipos de galletas aceptas que la web de la Universidad de Girona pueda guardar en tu navegador.

Las imprescindibles para facilitar vuestra conexión. No hay opción de inhabilitarlas, dado que son las necesarias por el funcionamiento del sitio web.

Permiten recordar vuestras opciones (por ejemplo lengua o región desde la cual accedéis), con el fin de proporcionaros servicios avanzados.

Proporcionan información estadística y permiten mejorar los servicios. Utilizamos cookies de Google Analytics que podéis desactivar instalándoos este plugin.

Para ofrecer contenidos publicitarios relacionados con los intereses del usuario, bien directamente, bien por medio de terceros (“adservers”). Hay que activarlas si quieres ver los vídeos de Youtube incrustados en la web de la Universidad de Girona.