Máquinas de vectores soporte en entornos de supercomputaciónaplicación a fusión nuclear

  1. Ramírez Pérez, Jesús Manuel
Supervised by:
  1. Sebastián Dormido Canto Director
  2. Jesús Antonio Vega Sánchez Director

Defence university: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 10 February 2014

Committee:
  1. Sebastián Dormido Bencomo Chair
  2. José Sánchez Moreno Secretary
  3. Carlos Manuel Fernández Sánchez Committee member
  4. Rodrigo Castro Rojo Committee member
  5. Mariano Ruiz González Committee member

Type: Thesis

Abstract

La motivación principal de esta Tesis Doctoral ha sido la necesidad de tratar de la manera más eficiente posible la enorme cantidad de datos generados en dispositivos de fusión termonuclear. En particular, los trabajos de esta Tesis están relacionados con las bases de datos del dispositivo de fusión Tokamak JET, situaco en Culham (Reino Unido). La fusión nuclear se basa en la producción de energía originada por la transformación de núcleos atómicos, en concreto, por la unión de dos núcleos ligeros para formar uno más pesado. Cada experimento de fusión (descarga) supone adquirir del orden de 15 GB de datos en dispositivos como JET. ITER, que es el dispositivo de siguiente generación, podría llegar a almacenar varios TB por descarga. Por este motivo, se hace necesario el desarrollo de técnicas avanzada que permitan, en diferido, (1) la recuperación inteligente de datos, (2) la creación de aplicaciones basadas en sistemas automáticos de aprendizaje (clasificación y regresión), (3) la localización automática de eventos físicos de interés y (4) la generación de software especializado para derminar qué magnitudes son las más relevantes para describir un comportamiento físico determinado (selección de variables). Sin embargo, no puede pasar desapercibido que la gran cantidad de datos involucrados en estos analisis necesitan de sistemas de supercomputación para un análisis efeiciente desde un punto de vista computacional. Esto implica que la paralelización de los códigos de análisis va a ser un requerimiento fundamental. El objetivo de esta Tesis ha sido la investigación y desarrollo de códigos paralelos que implementen sistemas automáticos de aprendizaje. Su aplicabilidad específica se centra en el análisis de las bases de datos de dispositivos de fusión. En concreto, se aborda la creación de sistemas paralelos de clasificación y selección de variables. La metodología de clasificación utilizada son las máquinas de vectores soporte (Support Vector Machine, SVM, por sus siglas en inglés). Los criterios principales que han justificado esta elección han sido los siguientes: - Capacidad para operar con grandes cantidades de información. - Capacidad para el tratamiento de datos de muy alta dimensionalidad. - Sencillez en la generación de modelos con kermels típicos. - Experiencia personal en el uso SVM. SVM es un sistema para entrenar eficientemente máquinas de parendizaje lineal, tanto para clasificación como para regresión, que permite una fácil paralelización y que haciendo uso de entornos de supercomputación posibilita la obtención de soluciones en un tiempo razonable. Teniendo presente que el primer objetivo de esta Tesis Doctoral ha sido la investigación y desarrollo de códigos paralelos que implementen sistemas automáticos de aprendizaje, durante la fase inicial del trabajo, se ha realizado un estilo de clasificadores existentes basados en SVM como LIBSVM, SVMlight y SVNTorch. El desarrollo SVM elegido ha sido la librería LIBSVM, y como herramienta de parelización, se ha utilizado MPI (Message Passing Interface).Se ha desarrollado la implementación de varios códigos paralelos sobre IBSVM, obteniendo unas medidas de la escalabilidad en la paralización que comparadas con su versión secuencial, muestran resultados muy satisfactorios. La investigación ha perseguido como siguiente objetivo la implementación de un método de selección de variables. En este caso, se combinan los sitemas paralelos SVM de clasificación con técnicas de algoritmos genéticos. Los sitemas paralelos de claisificación y selección de variables se explotan actualmente en tornos de fusión termonuclear. Esto permite un análisis más rápidos y con mayor relevancia estadística de diversa fenomenología presente en plasmas termonuecleares y tales como:. Transiciones de confinamiento L/H y H/L;. Inestabilidades disruptivas (Selección de varialbes y Sistemas predicictivos) y Determinación de eventos de interés.