Extracción de conocimiento en bases de datos astronómicas mediante redes de neuronas artificialesaplicaciones en la misión Gaia

  1. Fustes Villadóniga, Diego
Supervised by:
  1. Bernardino Arcay Director
  2. Minia Manteiga Director

Defence university: Universidade da Coruña

Fecha de defensa: 20 June 2014

Committee:
  1. A. Pazos Chair
  2. Luis Manuel Sarro Secretary
  3. Carme Jordi Nebot Committee member
  4. Ioannis Bellas-Velidis Committee member
  5. Kester W. Smith Committee member

Type: Thesis

Teseo: 366528 DIALNET lock_openRUC editor

Abstract

En la llamada era de las TIC, las capacidades de los sistemas de adquisición de datos han aumentado enormemente, de forma que resulta complicado almacenar toda la información que producen, así como su análisis posterior. Esta explosión de datos ha aparecido recientemente en el campo de la Astronomía, donde cada vez se observan un número mayor de objetos, con mayor periodicidad. Un ejemplo de esto es la próxima misión Gaia, que observará múltiples propiedades de hasta mil millones de estrellas, cuya información tendrá un volumen del orden del petabyte. Por lo tanto, para analizar tal cantidad de datos, es necesario desarrollar nuevos métodos de análisis que permitan extraer todo el conocimiento presente en los mismos. Esta tesis está dedicada al desarrollo de métodos de análisis de datos, los cuales se integran en la cadena de procesado de Gaia, con el objetivo de extraer conocimiento de los datos recogidos por la misión. Con el objetivo de analizar los datos de la misión Gaia, se ha organizado un consorcio a nivel europeo, llamado Data Processing and Analysis Consortium (DPAC), compuesto por cientos de científicos e ingenieros. DPAC se divide en ocho unidades de coordinación (CUs), estando esta tesis dedicada al desarrollo de algoritmos en la CU8, que se encarga de la estimación de parámetros astrofísicos (APs) y la clasificación de las fuentes. Se desarrollan métodos basados en redes de neuronas artificiales (ANNs) para realizar las tareas relacionadas con dos paquetes de trabajo diferentes en la CU8: El paquete GSP-Spec (GWP-823) y el paquete OA (GWP-836). El paquete GSP-Spec se encarga de la estimación de APs de estrellas mediante el espectro del instrumento Radial Velocity Spectrograph (RVS). Aquí, se presentará el desarrollo de uno de los módulos de GSP-Spec, el cual se basa en la aplicación de ANNs de tipo feed-forward. Se presenta una metodología, basada en algoritmos genéticos de optimización, para la obtención de un conjunto óptimo de parámetros de configuración para la ANN en cada caso, en función de la relación señal a ruido (SNR) en el espectro RVS y del tipo de estrella a parametrizar. Además, con el objetivo de mejorar las estimaciones de APs, se estudian técnicas de procesado wavelet, aplicadas sobre el espectro RVS. A pesar de la efectividad que las ANNs muestran a la hora de estimar APs, en principio éstas carecen de la capacidad de proporcionar un valor de incertidumbre sobre dichas estimaciones, con lo cual resulta imposible conocer la fiabilidad de las mismas. Debido a ello, se presenta una arquitectura novedosa para la ANN, en la cual se invierten las entradas y salidas de la misma, de forma que la ANN estima el espectro RVS a partir de los APs. Dicha arquitectura de denomina red neuronal artificial generativa (GANN) y se aplica a la estimación de APs de un conjunto de espectros RVS simulados para la misión Gaia, donde se muestra más efectiva que el modelo de ANN convencional, en el caso de estrellas débiles, con un bajo SNR. Finalmente, la red GANN puede aplicarse para la obtención de la probabilidad a posteriori de cada uno de los APs dado el espectro RVS, lo cual permitirá un análisis más completo de los mismos. Dada la naturaleza de la misión Gaia, la cual es la primera misión astronómica que observará, de forma no sesgada, toda la bóveda celeste hasta magnitud 20, se espera una gran cantidad de objetos atípicos. El paquete OA en la CU8 se encarga del procesado de dicho tipo de objetos, los cuales se definen como aquellos que no han podido ser clasificados con fiabilidad por los paquetes de clasificación existentes en la cadena de procesamiento. Los métodos de OA se basan en el aprendizaje no supervisado del conjunto de observaciones atípicas. Dicho aprendizaje tiene dos partes: agrupamiento y reducción de dimensionalidad. Se seleccionan los mapas auto-organizativos (SOM) como algoritmo base para realizar dicho aprendizaje, demostrándose su efectividad cuando se aplica, con una configuración óptima, a las simulaciones de Gaia. Además, el algoritmo es aplicado a observaciones atípicas reales, provenientes del catálogo SDSS. Dado que es necesaria una identificación posterior de los grupos obtenidos por la red SOM, se aplican dos métodos de identificación diferentes. El primero está basado en la similitud entre los prototipos de la red y el conjunto de simulaciones de Gaia, mientras que el otro esa basado en la recuperación de clasificaciones almacenadas en el catálogo Simbad, mediante el cruce de coordenadas celestes. Gracias a la visualización de la red SOM, y a ambos métodos de identificación, es posible distinguir entre observaciones válidas y artefactos observacionales. Además, el método posibilita la selección de objetos de interés para observaciones posteriores, con el objetivo de determinar la naturaleza de los mismos.