Arquitectura, técnicas y modelos para posibilitar la Ciencia de datos en el archivo de la misión Gaia
- TAPIADOR DE PEDRO, DANIEL
- Luis Manuel Sarro Zuzendaria
- Eduardo Huedo Cuesta Zuzendaria
Defentsa unibertsitatea: Universidad Complutense de Madrid
Fecha de defensa: 2017(e)ko maiatza-(a)k 26
- Rafael Aurelio Moreno Vozmediano Presidentea
- José Luis Vázquez Poletti Idazkaria
- María de los Santos Pérez Hernández Kidea
- Carlos Dafonte Kidea
- Félix García Carballeira Kidea
Mota: Tesia
Laburpena
El objetivo de esta tesis es proporcionar nuevas arquitecturas y técnicas que ayudarán a realizar la transición hacia Big Data en archivos científicos masivos. La investigación destaca los escollos principales a encarar cuando se adoptan estas nuevas tecnologías y cómo afrontarlos, principalmente cuando los datos y las herramientas de transformación utilizadas en el análisis existen en la organización. Además, se exponen nuevas medidas para facilitar una transición más fluida. Éstas incluyen la utilización de software de alto nivel y específico al caso de uso en cuestión, que haga de puente entre el dominio científico y tecnológico. Esta alternativa ampliará las posibilidades ofrecidas a los científicos y por tanto contribuirá a la reducción del tiempo necesario para generar resultados. La investigación presentada se aplica a la misión de la Agencia Espacial Europea (ESA) Gaia, cuyo archivo final de datos presentará un gran potencial para el descubrimiento y hallazgo desde el punto de vista científico. La misión creará el catálogo en tres dimensiones más grande y preciso de nuestra galaxia (la Vía Láctea), proporcionando medidas sin precedente acerca del posicionamiento, paralaje y movimiento propio de alrededor de mil millones de estrellas. Las oportunidades para la explotación exitosa de este archivo dependerán en gran medida de la capacidad de ofrecer la arquitectura adecuada (infraestructura y servicios), sobre la cual los científicos puedan realizar la exploración y modelado con esta inmensa cantidad de datos. Por tanto, la estrategia a realizar debe ser capaz de combinar los datos con otros archivos científicos, ya que esto producirá sinergias que contribuirán a un incremento en la ciencia producida, tanto en volumen como en calidad de la misma. El conjunto de técnicas e infraestructuras innovadoras presentadas en este trabajo aborda estos problemas, contextualizándolos con los productos de datos que se generarán en la misión Gaia. Todas estas consideraciones han conducido a los fundamentos de la arquitectura que se utilizará en el paquete de trabajo de aplicaciones que posibilitarán la ciencia en el archivo de la misión Gaia (Science Enabling Applications). Por último, la eficacia de la solución se demuestra a través de la implementación de dos problemas estadísticos que requieren cantidades significativas de cómputo, y que usan datos simulados en el mismo formato en el que se producirán en el archivo de la misión Gaia. Estos ambiciosos problemas representan el Gran Reto (Grand Challenge), un nombre grandilocuente que consiste en inferir una serie de parámetros desde un punto de vista probabilístico para la función de masa inicial (Initial Mass Function) y la tasa de formación estelar (Star Formation Rate) dado un conjunto de estrellas (con una muestra grande), desde estimaciones con ruido de sus masas y edades respectivamente. Esto se aborda utilizando modelos jerárquicos bayesianos (Hierarchical Bayesian Modeling). Además, se lleva a cabo el análisis de rendimiento y escalabilidad para probar la idoneidad de la implementación de dichos modelos.