Les dades composicionals (CoDa) s'han definit històricament com a vectors aleatoris amb components estrictament positives, la suma de les quals és constant (per exemple, u, 100, o un milió). Més recentment, el terme CoDa cobreix tots aquells vectors que representen les parts d’un tot, de manera que la informació continguda en el vector és relativa, incloent així no només les parts per unitat o percentatges, sinó també composicions en les seves unitats originals (per exemple kg, euros, o minuts).
Aquest tipus de dades apareixen en moltes aplicacions i no es pot subestimar l’interès i la importància de tractar les dades amb mètodes estadístics consistents. Tot i que la preocupació pels problemes relacionats amb aquest tipus de dades es va mantenir viva principalment per investigadors del camp de les geociències, la consciència de la necessitat de mètodes coherents creix en altres camps, com ara les ciències mèdiques i mediambientals. Exemples típics d’aquests diferents camps són: economia (distribució d’ingressos / despeses), medicina (composició corporal: greix, os, magre), dades d’enquestes (dades ipsatives de preferències), indústria alimentària (composició alimentària: greix, sucre, etc ), química (composició química), ecologia (abundància de diferents espècies), paleontologia (tàxons foraminífers), agricultura (equilibri ionòmic de nutrients), sociologia (enquestes d’ús del temps), ciències ambientals (contaminació del sòl, aigües i aire), microbioma (composició OTU), ciències de la salut (temps diari en diferents activitats físiques), i genètica (freqüència del genotip).
La recerca en CoDa té avui un ampli impacte dins aquests camps. Tanmateix, s’ha trigat molt a trobar una solució al problema de com realitzar una anàlisi estadística adequada d’aquest tipus de dades, és a dir, a resoldre el problema de la correlació espúria , tal com va ser anomenada per Karl Pearson el 1897, o el problema del tancament de les dades, com el va anomenar Felix Chayes el 1960's. En resum, aquests autors van constatar que les tècniques estadístiques estàndard perdien la seva aplicabilitat i interpretació clàssica quan s’aplicaven a les CoDa, i calia, per tant, desenvolupar noves tècniques. Fins l’any 1980 no s’havia proposat cap solució teòricament sòlida. Va ser John Aitchison qui va exposar una teoria consistent basada en log-quocients. Desenvolupaments posteriors han demostrat que el fonament matemàtic d'una anàlisi estadística adequada per a aquest tipus de dades es basa en la definició d'una geometria específica al símplex (l'espai mostral de les CoDa). Basat en aquest resultat, és possible desenvolupar amb rigor qualsevol anàlisi estadística multivariant com són, entre altres, l’anàlisi de clústers, l’anàlisi discriminant, l’anàlisi de factors, i els models de regressió lineals.
Actualment, aquesta línia de recerca la desenvolupen els membres del CoDa-Research Group . El nucli del grup pertany a la Universitat de Girona (UdG) i inclou membres de la Universitat Politècnica de Catalunya (UPC ) i del Biomathematics & Statistics Scotland (BioSS ). La difusió i transferència dels resultats de la investigació inclouen les activitats: el CoDaCourse internacional, el paquet estadístic CoDaPack, el taller bianual CoDaWork i el lloc web CoDaWeb . Visiteu-lo per obtenir més informació!
Tots els investigadors que estiguin treballant tant en estudis de casos reals com en els fonaments matemàtics de les CoDa són benvinguts. Uneix-te a nosaltres!