Universitat de Girona > L’aprenentatge per reforçament permet als robots submarins localitzar i seguir objectes sota l’aigua

La UdG participa en aquest estudi liderat per l’ICM-CSIC publicat a la revista Science Robotics. El treball demostra per primer cop com un robot submarí és capaç d’aprendre la trajectòria òptima per monitoritzar el fons marí i fer seguiment d’espècies. Les proves s’han fet a Sant Feliu de Guíxols amb vehicles submarins autònoms de VICOROB; i a Califòrnia, amb vehicles del Bioinspiration Lab.

27 de juliol 2023

Un equip liderat per l’Institut de Ciències del Mar (ICM-CSIC) de Barcelona en col·laboració amb la Universitat de Girona (UdG) ha demostrat per primera vegada que l’aprenentatge per reforç profund permet als vehicles autònoms i robots submarins localitzar i fer un seguiment acurat d’objectes i animals marins que es troben sota l’aigua. L’aprenentatge per reforç és una xarxa neuronal que aprèn quina és la millor acció que cal realitzar en cada moment d’acord amb una sèrie de recompenses.

Els detalls d’aquesta recerca es recullen en un article científic publicat a Science Robòtics, la principal revista científica en l’àmbit de la robòtica. El Monterey Bay Aquarium Research Institute (MBARI) de Califòrnia i la Universitat Politècnica de Catalunya (UPC) també han participat a l’estudi.

En l’actualitat, la robòtica submarina s’erigeix com una eina clau per a millorar el coneixement dels oceans davant les nombroses dificultats per explorar-los, amb vehicles capaços de baixar fins als 4.000 metres de fondària. A més, les dades in situ que proporcionen ajuden a complementar-ne d’altres, com les obtingudes a través dels satèl·lits. Aquesta tecnologia permeten estudiar fenòmens que passen a petita escala, com per exemple la captura de CO₂per part d’organismes marins, la qual cosa contribueix a regular el canvi climàtic.

En concret, aquest nou treball revela que l’aprenentatge per reforçament –molt utilitzat en l’àmbit del control i robòtica, com també en el desenvolupament d'eines relacionades amb el processament del llenguatge natural com el ChatGPT– permet que els robots submarins aprenguin quines accions han de realitzar en cada moment per a assolir un objectiu específic. Aquestes polítiques d’acció igualen, o fins i tot milloren en determinades circumstàncies, els mètodes tradicionals, basats en un desenvolupament analític.

“Aquest tipus d’aprenentatge ens permet entrenar una xarxa neuronal per tal d'optimitzar una tasca especifica, la qual cosa seria molt difícil d’aconseguir d’una altra manera. Per exemple, hem pogut demostrar que és possible optimitzar la trajectòria d'un vehicle per a localitzar i fer un seguiment dels objectes que es mouen a sota l'aigua”, explica l’autor principal de l’estudi, Ivan Masmitjà.

Això “permetrà poder aprofundir en l’estudi de fenòmens ecològics com es la migració o moviment a petita i gran escala de multitud d’espècies marines utilitzant robots autònoms. A part, aquests avenços faran possible la supervisió d’altres instruments oceanogràfics en temps real mitjançant una xarxa de robots, on uns poden estar en superfície monitoritzant i transmetent per satèl·lit les accions que fan altres plataformes robòtiques en el fons del mar”, comenta l’investigador del ICM-CSIC Joan Navarro.

Per a l’elaboració del treball, els autors van fer servir les conegudes com a “tècniques d’acústica de rang”, que permeten estimar la posició d'un objecte tenint en compte mesures de distància preses en diferents punts. Aquest fet, però, fa que la precisió en la localització de l'objecte depengui molt del lloc on es prenen les mesures acústiques de rang. Per tant, és aquí on pren importància l’aplicació de la intel·ligència artificial i, en concret, l’aprenentatge per reforç, que permet identificar els millors punts i, a conseqüència, la trajectòria òptima que ha de realitzar el robot.

Les xarxes neuronals van ser entrenades, en part, utilitzant el clúster d’ordinadors del Centre Nacional de Supercomputació de Barcelona, on s’hi troba el superordinador més potent de l’Estat espanyol i un dels més potents d’Europa. “Això va permetre ajustar els paràmetres de diferents algoritmes de forma molt més ràpida que no pas utilitzant ordinadors convencionals”, indica el professor del department de Ciències de la Computació de la UPC i coautor de l’estudi, Mario Martin.

Un cop entrenats, els algoritmes es van provar en diferents vehicles autònoms, entre ells l’AUV l’Sparus II desenvolupat per VICOROB, en una sèrie de missions experimentals desenvolupades al port de Sant Feliu de Guíxols i a la badia de Monterey (Califòrnia), en col·laboració amb la investigadora principal del Bioinspiration Lab del MBARI, Kakani Katija.

“El nostre entorn de simulació incorpora l’arquitectura de control de vehicles reals, la qual cosa ens va permetre implementar els algoritmes de forma eficaç abans d’anar al mar”, comenta l’investigador de VICOROB, Narcís Palomeras.

De cara a futures investigacions l’equip estudiarà la possibilitat d'aplicar els mateixos algoritmes per resoldre missions més complicades. Per exemple, l'ús de múltiples vehicles per localitzar objectes, detectar fronts i termoclines, o l’aflorament d’algues de manera cooperativa a través de tècniques d'aprenentatge per reforç multi plataforma.

Aquesta investigació s’ha dut a terme gràcies a la prestigiosa beca Europea Marie Curie Individual Fellowship que va guanyar l’investigador Ivan Masmitjà el 2020 i el projecte BITER, finançat pel Ministeri de Ciència i Innovació del Govern d’Espanya, que es troba actualment en execució.

Article de referència: Ivan Masmitjà, Mario Martin, Tom O'Reilly, Brian Kieft, Narcís Palomeras, Joan Navarro, and Kakani Katija (2023). Dynamic robotic tracking of underwater targets using Reinforcement Learning. Science Robotics, ade7811. DOI: 10.1126/scirobotics.ade7811