Los datos composicionales (CoDa) se han definido históricamente como vectores aleatorias con componentes estrictamente positivas, cuya suma es constante (por ejemplo, uno, 100, o un millón).Más recientemente, el término CoDa cubre todos aquellos vectores que representan las partes de un todo, de manera que la información contenida en el vector es relativa, incluyendo así no sólo las partes por unidad o porcentajes, sino también composiciones en sus unidades originales (por ejemplo kg, euros, o minutos).
Este tipo de datos aparecen en muchas aplicaciones y no se puede subestimar el interés y la importancia de tratar los datos con métodos estadísticos consistentes.Aunque la preocupación por los problemas relacionados con este tipo de datos se mantuvo viva principalmente para investigadores del campo de las geociencias, la conciencia de la necesidad de métodos coherentes crece en otros campos, como las ciencias médicas y medioambientales.Ejemplos típicos de estos diferentes campos son: economía (distribución de ingresos / gastos), medicina (composición corporal: grasa, hueso, magro), datos de encuestas (datos ipsatives de preferencias), industria alimentaria (composición alimentaria: grasa, azúcar, etc ), química (composición química), ecología (abundancia de diferentes especies), paleontología (taxones foraminíferos), agricultura (equilibrio iónico de nutrientes), sociología (encuestas de uso del tiempo), ciencias ambientales (contaminación del suelo, aguas y aire), microbioma (composición OTU), ciencias de la salud (tiempo diario en diferentes actividades físicas), y genética (frecuencia del genotipo).
La investigación en CoDa tiene hoy un amplio impacto dentro de estos campos.Sin embargo, se ha tardado mucho en encontrar una solución al problema de cómo realizar un análisis estadístico adecuado de este tipo de datos, es decir, a resolver el problema de la correlación espuria , tal como fue denominada por Karl Pearson en 1897, o el problema del cierre de los datos, como lo llamó Felix Chayes al 1960's. En resumen, estos autores constataron que las técnicas estadísticas estándar perdían su aplicabilidad e interpretación clásica cuando se aplicaban a las CoDa, y, por lo tanto, había que desarrollar nuevas técnicas.Hasta el año 1980 no se había propuesto ninguna solución teóricamente sólida.Fue John Aitchison quién expuso una teoría consistente basada en log-cocientes.Desarrollos posteriores han demostrado que el fundamento matemático de un análisis estadístico adecuado para este tipo de datos se basa en la definición de una geometría específica al símplex (el espacio muestral de las CoDa).Basado en este resultado, es posible desarrollar con rigor cualquier análisis estadístico multivariante como son, entre otros, el análisis de clústeres, el análisis discriminante, el análisis de factores, y los modelos de regresión lineales.
Actualmente, esta línea de investigación la desarrollan los miembros del CoDa-Research Group . El núcleo del grupo pertenece a la Universidad de Girona (UdG) e incluye miembros de la Universitat Politècnica de Catalunya (UPC ) y del Biomathematics & Statistics Scotland (BioSS ). La difusión y transferencia de los resultados de la investigación incluyen las actividades: el CoDaCourse internacional, el paquete estadístico CoDaPack, el taller bianual CoDaWork y el sitio web CoDaWeb . ¡Visitadlo para obtener más información!
Todos los investigadores que estén trabajando tanto en estudios de casos reales como en los fundamentos matemáticos de las CoDa son bienvenidos.¡Únete a nosotros!