Departament d'Informàtica, Matemàtica Aplicada i Estadística > Lectura de Tesi doctoral - Aportacions de l'anàlisi composicional a les mixtures de distribucions

24/10/2018

Tesis doctorals

Marc Comas Cufí

Ph.D. Student, CoDa-research group

Aportacions de l'anàlisi composicional a les mixtures de distribucions

(Dir. Tesi: G. Mateu-Figueras, J.A. Martín-Fernández)

Abstract:

La present tesi representa un compendi de tres treballs originals realitzats durant els anys 2014-2018. Aquests treballs comparteixen un nexe comú: tots ells són diferents aportacions de l’anàlisi composicional a l’estudi dels models basats en mixtures de distribucions de probabilitat. D’una forma molt breu, podrı́em dir que l’anàlisi composicional és una metodologia consistent en estudiar una mostra de mesures estrictament positives des d’un punt de vista relatiu i que les mixtures de distribucions, també anomenades barreges de distribucions, són un tipus particular de distribucions de probabilitat definides com la combinació lineal convexa d’altres distribucions.

En el primer treball que forma part d’aquesta tesis, es van analitzar quines opcions existien per a definir mixtures de distribucions de probabilitat dins l’espai mostral de les dades composicionals (Sı́mplex) considerant la seva particular estructura algebràica. Entre les diferents opcions existents, es va constatar que, o bé les mixtures de distribucions no estaven ben definides en el Sı́mplex, o bé les mixtures de distribucions no eren prou riques en quan a la capacitat per a modelar conjunts de dades composicionals reals. Això, portà a considerar la metodologia logquocient com a eina per a resoldre les problemàtiques existents. Mitjançant l’anàlisi composicional basada en logquocients es va proposar una metodologia per a la construcció de mixtures de distribucions de probabilitat ben definides en el Sı́mplex, les qual són tant riques com les distribucions existents per a modelar dades reals multivariants.

En general, els models basats en mixtures de distribucions s’ajusten amb l’algoritme EM. Aquest algoritme obté els paràmetres de les distribucions que intervenen en la mixtura i els paràmetres de la pròpia barreja. A part d’aquests paràmetres, l’algoritme també calcula la probabilitat de que cadascuna de les observacions hagi estat generada per cada una de les components que conformen la mixtura de distribucions. Aquestes probabilitats, anomenades probabilitats a posteriori, permeten classificar cadascuna de les observacions en la component més probable, convertint aquest procés en un mètode d’agrupació molt popular. Alguns autors han proposat utilitzar aquestes probabilitats no només per classificar les observacions sinó també per definir una estructura jeràrquica de les components d’una mixtura de distribucions. En el segon treball d’aquesta tesis, es presentà un model que integrava totes les propostes trobades en la literatura, les quals basaven la construcció d’aquesta jerarquia en els vectors de probabilitats a posteriori. A més d'aquest nou model integrador, es van introduir nous mètodes per a la creació de jerarquies utilitzant mesures coherents, des d’un punt de vista composicional, per als vectors de probabilitats.

Les mixtures més freqüents, emergeixen de compondre una distribució categòrica amb una altra distribució de probabilitat, generalment definida a l’espai real. Aixı́, en considerar la distribució categòrica composta amb una funció de distribució de probabilitat obtenim una mixtura finita d’aquesta distribució concreta amb pesos donats pels paràmetres de la distribució categòrica. En aquest cas, es diu que la distribució categòrica és la distribució pes, l’altre distribució s’anomena la distribució nucli. Aquest procés es pot realitzar sempre que existeixi un mecanisme que permeti definir els paràmetres de la distribució nucli a partir dels valors observats d’una variable aleatòria amb la distribució pes. Concretament, si considerem la distribució multinomial com a distribució pes i la distribució logquocient-normal en el Símplex com a distribució nucli, tindrem el que es coneix com la distribució de probabilitat logquocient-normal-multinomial. En el tercer i últim treball d’aquest compendi es deriven diferents propietats d’aquesta distribució, es presenta un nou mètode per estimar-ne els paràmetres i es mostra la seva capacitat per a modelar dades de comptatges enfront la distribució de probabilitat Dirichlet-multinomial, una de les més populars en aquest context.