L’origen de l’àmbit de recerca en dades composicionals (CoDa) es remunta a finals del segle XIX quan K. Pearson adverteix dels perills d’utilitzar la correlació lineal (de Pearson) per a l’anàlisi de la relació entre índexs que comparteixen la mateixa informació al denominador: ha nascut el concepte de correlació espúria . Fins als anys vuitanta del segle XX, es van anar fent esforços per solucionar aquesta dificultat. Però no és fins als anys vuitanta, que J. Aitchison , basant-se en el seu coneixements de la distribució de probabilitat lognormal, presenta una metodologia per a l’anàlisi estadística de les CoDa. Un dels llegats més importants d’Aitchison és la introducció d’una primera definició de la propietat d’invariància de l’anàlisi estadística per canvi d’escala, totalment relacionada amb la correlació espúria. A més, basant-se en l’ús habitual del diagrama ternari (o diagrama de Finetti ) en biologia i geologia per a la representació de tres proporcions, Aitchison defineix el símplex com espai mostral de les CoDa: vectors aleatoris de components positius amb suma constant (u per a proporcions, 100 per percentatges, un milió per ppm). Aquest espai mostral és un espai restringit amb la seva pròpia operació interna: la pertorbació. Aquesta operació està relacionada amb la idea d’utilitzar el quocient en comptes de la resta per a la comparació de proporcions. A més, Aitchison introdueix el concepte de subcomposició (subconjunt de parts d’una composició) per definir una relació entre espais i subespais en termes de projecció geomètrica. Aquesta definició és crucial per a la propietat de coherència subcomposicional de les anàlisis estadístiques. En essència, aquesta propietat requereix que en l'anàlisi d'una subcomposició no es puguin obtenir resultats contradictoris amb l'anàlisi d'una composició que la contingui. L’incompliment d'aquesta propietat per part de la correlació lineal explica la correlació espúria trobada per K. Pearson. La formació de subcomposicions, com a projecció geomètrica, també està relacionada amb aspectes mètrics de l’anàlisi de les CoDa. En aquest sentit, la distància entre dues mostres que utilitzen una subcomposició ha de ser menor o igual que quan s’utilitza la composició original. Els aspectes mètrics tenen un paper molt rellevant en les tècniques estadístiques no paramètriques, com ara algunes de les tècniques de l’anàlisi de clústers. La naturalesa relativa de la informació continguda en les CoDa suggereix que, quan compararem dues composicions (distàncies entre mostres) i quan analitzem el lligam entre les parts d'una composició (correlació entre parts), s'ha d'utilitzar quocients, entre files o columnes de la matriu de dades, respectivament. Aquestes proporcions prenen valors positius de l’espai real, o bé en l’interval (0, 1) o bé, mitjançant la relació inversa, en l’interval (1, + infinit). No obstant això, quan es prenen logaritmes, els log-quocients es defineixen en tot l'espai real, on aquí existeix una relació simètrica entre els intervals (-infinit, 0) i (0, + infinit). Utilitzant aquest enfoc, a partir de log-quocients de les parts de la composició es poden construir les variables bàsiques per a qualsevol anàlisi estadística.
A principis del segle XXI, i sobretot arran dels projectes liderats per membres del CoDa-Research Group, es consoliden els fonaments matemàtics i estadístics per a l’anàlisi composicional. Un seguit de contribucions estableixen aquests fonaments segons la geometria del símplex i defineixen la seva estructura euclidiana mitjançant les operacions introduïdes per Aitchison als anys vuitanta. L’estructura mètrica de l’espai mostral ens porta a crear coordenades log-quocient sobre una base ortonormal per a la representació dels vectors composicionals. Seguint el principi de “treballar en coordenades”, l’anàlisi composicional utilitza els mètodes clàssics sobre aquestes coordenades. La necessitat de trobar una base ortonormal ha motivat la introducció de tres algorismes per construir-la automàticament. Dos d'aquests algorismes es poden apliquen a composicions d'alta dimensió.
Un resultat crucial per a la consolidació (descrita anteriorment) dels mètodes composicionals és la definició de l’espai composicional com classes d'equivalència de vectors en l'espai real positiu. Destacar que amb aquest pas s’introdueix la definició de l’anàlisi composicional de dades com a metodologia per a aquells investigadors interessats en l’estudi de la informació relativa de les parts sense la restricció de la suma constant de les parts. Aquesta proposta amplia l'ús dels mètodes composicionals i obre una porta per l’ús general en altres camps. A més, per tal de tenir informació més completa de les dades, l’anàlisi composicional s’ha de complementar amb la informació en relació el "total composicional". Aquest enfoc s'aplica per a desenvolupar una metodologia dissenyada per a resoldre el problema de "recuperar les unitats originals". Notis que aquesta dificultat apareix quan els resultats obtinguts en coordenades composicionals es transformen de nou en termes de les unitats originals de les parts de la composició.