Anar al contingut (clic a Intro)
UdG Home UdG Home
UdG 30 anys
Tancar
Menú

Grup de Recerca en Estadística i Anàlisi de Dades Composicionals

Línies de recerca

Anàlisi de dades composicionals

Avui en dia hi ha diverses línies de recerca que complementen i generalitzen els mètodes composicionals i que proposen nous problemes que requereixen esforços d’investigació suplementària. Entre ells destaquem:

Aquests mètodes tenen aplicació, entre d'altres en les ciències òmiques;

Aquests mètodes s’ocupen tant de la composició que optimitza alguna variable resposta com del disseny òptim d’experiments (DOE) per a mescles. Aquest enfocament té aplicació, entre altres camps, en la indústria alimentària, l'economia, la medicina, l'ús del temps en activitats físiques i el desenvolupament sostenible.

Els fonaments d’aquests mètodes requereixen l’estudi de propietats matemàtiques per a una optimització restringida al símplex en termes de la geometria d’Aitchison

Els zeros són una dificultat a l’hora d’aplicar tècniques log-ratios. Aquest "problema de zeros" és una línia de recerca activa desenvolupada al llarg de diversos projectes liderats per aquest equip amb publicacions d'alt impacte.

Tanmateix, encara queden dos problemes importants sense resoldre: un, el desenvolupament d’una metodologia per al tractament de zeros absoluts, on les tècniques per a la imputació de dades que falten no són adequades, un escenari habitual a l’hora d’optimitzar la informació tal com s’ha descrit anteriorment; i, en segon lloc, ampliar la metodologia per al tractament del nombre de zeros en dades d'alta dimensió.

L’origen de l’àmbit de recerca en dades composicionals (CoDa) es remunta a finals del segle XIX quan K. Pearson adverteix dels perills d’utilitzar la correlació lineal (de Pearson) per a l’anàlisi de la relació entre índexs que comparteixen la mateixa informació al denominador: ha nascut el concepte de correlació espúria. Fins als anys vuitanta del segle XX, es van anar fent esforços per solucionar aquesta dificultat. Però no és fins als anys vuitanta, que J. Aitchison, basant-se en el seu coneixements de la distribució de probabilitat lognormal, presenta una metodologia per a l’anàlisi estadística de les CoDa. Un dels llegats més importants d’Aitchison és la introducció d’una primera definició de la propietat d’invariància de l’anàlisi estadística per canvi d’escala, totalment relacionada amb la correlació espúria. A més, basant-se en l’ús habitual del diagrama ternari (o diagrama de Finetti ) en biologia i geologia per a la representació de tres proporcions, Aitchison defineix el símplex com espai mostral de les CoDa: vectors aleatoris de components positius amb suma constant (u per a proporcions, 100 per percentatges, un milió per ppm). Aquest espai mostral és un espai restringit amb la seva pròpia operació interna: la pertorbació. Aquesta operació està relacionada amb la idea d’utilitzar el quocient en comptes de la resta per a la comparació de proporcions. A més, Aitchison introdueix el concepte de subcomposició (subconjunt de parts d’una composició) per definir una relació entre espais i subespais en termes de projecció geomètrica. Aquesta definició és crucial per a la propietat de coherència subcomposicional de les anàlisis estadístiques. En essència, aquesta propietat requereix que en l'anàlisi d'una subcomposició no es puguin obtenir resultats contradictoris amb l'anàlisi d'una composició que la contingui. L’incompliment d'aquesta propietat per part de la correlació lineal explica la correlació espúria trobada per K. Pearson. La formació de subcomposicions, com a projecció geomètrica, també està relacionada amb aspectes mètrics de l’anàlisi de les CoDa. En aquest sentit, la distància entre dues mostres que utilitzen una subcomposició ha de ser menor o igual que quan s’utilitza la composició original. Els aspectes mètrics tenen un paper molt rellevant en les tècniques estadístiques no paramètriques, com ara algunes de les tècniques de l’anàlisi de clústers. La naturalesa relativa de la informació continguda en les CoDa suggereix que, quan compararem dues composicions (distàncies entre mostres) i quan analitzem el lligam entre les parts d'una composició (correlació entre parts), s'ha d'utilitzar quocients, entre files o columnes de la matriu de dades, respectivament. Aquestes proporcions prenen valors positius de l’espai real, o bé en l’interval (0, 1) o bé, mitjançant la relació inversa, en l’interval (1, + infinit). No obstant això, quan es prenen logaritmes, els log-quocients es defineixen en tot l'espai real, on aquí existeix una relació simètrica entre els intervals (-infinit, 0) i (0, + infinit). Utilitzant aquest enfoc, a partir de log-quocients de les parts de la composició es poden construir les variables bàsiques per a qualsevol anàlisi estadística.

A principis del segle XXI, i sobretot arran dels projectes liderats per membres del CoDa-Research Group, es consoliden els fonaments matemàtics i estadístics per a l’anàlisi composicional. Un seguit de contribucions estableixen aquests fonaments segons la geometria del símplex i defineixen la seva estructura euclidiana mitjançant les operacions introduïdes per Aitchison als anys vuitanta. L’estructura mètrica de l’espai mostral ens porta a crear coordenades log-quocient sobre una base ortonormal per a la representació dels vectors composicionals. Seguint el principi de “treballar en coordenades”, l’anàlisi composicional utilitza els mètodes clàssics sobre aquestes coordenades. La necessitat de trobar una base ortonormal ha motivat la introducció de tres algorismes per construir-la automàticament. Dos d'aquests algorismes es poden apliquen a composicions d'alta dimensió.

Un resultat crucial per a la consolidació (descrita anteriorment) dels mètodes composicionals és la definició de l’espai composicional com classes d'equivalència de vectors en l'espai real positiu. Destacar que amb aquest pas s’introdueix la definició de l’anàlisi composicional de dades com a metodologia per a aquells investigadors interessats en l’estudi de la informació relativa de les parts sense la restricció de la suma constant de les parts. Aquesta proposta amplia l'ús dels mètodes composicionals i obre una porta per l’ús general en altres camps. A més, per tal de tenir informació més completa de les dades, l’anàlisi composicional s’ha de complementar amb la informació en relació el "total composicional". Aquest enfoc s'aplica per a desenvolupar una metodologia dissenyada per a resoldre el problema de "recuperar les unitats originals". Notis que aquesta dificultat apareix quan els resultats obtinguts en coordenades composicionals es transformen de nou en termes de les unitats originals de les parts de la composició.

Escull quins tipus de galetes acceptes que el web de la Universitat de Girona pugui guardar en el teu navegador.

Les imprescindibles per facilitar la vostra connexió. No hi ha opció d'inhabilitar-les, atès que són les necessàries pel funcionament del lloc web.

Permeten recordar les vostres opcions (per exemple llengua o regió des de la qual accediu), per tal de proporcionar-vos serveis avançats.

Proporcionen informació estadística i permeten millorar els serveis. Utilitzem cookies de Google Analytics que podeu desactivar instal·lant-vos aquest plugin.

Per a oferir continguts publicitaris relacionats amb els interessos de l'usuari, bé directament, bé per mitjà de tercers (“adservers”). Cal activar-les si vols veure els vídeos de Youtube incrustats en el web de la Universitat de Girona.