Análisis exploratorio de datos de expresión genómica mediante el análisis en conceptos formales

  1. González Calabozo, José María
Dirigida por:
  1. Francisco José Valverde Albacete Director
  2. Carmen Peláez Moreno Director/a

Universidad de defensa: Universidad Carlos III de Madrid

Fecha de defensa: 04 de febrero de 2016

Tribunal:
  1. Carlos Bousoño Calzón Presidente/a
  2. Juan Manuel Cigarrán Recuero Secretario
  3. Victoriano Segura Ruiz Vocal

Tipo: Tesis

Resumen

El análisis de Datos de Expresión Genética (ing. "Gene Expression Data", GED) supone un gran reto para la comunidad científica que, debido a sus características, podemos enmarcar en las disciplinas de Descubrimiento de Conocimiento en Bases de Datos (ing. "Knowledge Discovery in Databases", KDD) y Minería de Datos (ing. "Data Mining", DM). En esta tesis proponemos un sistema en el que entendemos el análisis de GED como un proceso Análisis Exploratorio de Datos (ing. "Exploratory Data Analysis", EDA) y en el que mediante la adopción de técnicas basadas en el Análisis en Conceptos Formales (ing. "Formal Concept Analysis", FCA) proporcionamos soporte para la interacción humana con los datos, con el objetivo de mejorar el proceso de abducción de hipótesis. Así, las contribuciones de esta tesis se centran en la adaptación a la cognición humana de la interpretación y visualización de los datos y resultados del proceso de DM. En concreto, el dominio de conocimiento en el que se han aplicado estas estrategias es el de la transcriptómica en el que la co-agrupación (o co-clustering) de genes es el enfoque más comúnmente adoptado. En esta tesis no planteamos simplemente un algoritmo de co-agrupamiento sino un conjunto de herramientas de análisis que giran en torno a K-FCA una generalización de FCA que permite estudiar matrices en el dominio de los números reales. Utilizando como semi-anillos subyacentes las álgebras maxplus y minplus se obtienen interpretaciones de la infra-expresión y la sobre-expresión de los genes, respectivamente introduciendo además la noción de umbral de expresión, un valor que determinará cómo se transforma la matriz de expresión genética (GED) en un retículo de conceptos. De esta manera, el problema del análisis de GED se transforma en la exploración de una secuencia de retículos indexados por dicho umbral que permiten visualizar la estructura jerárquica de los co-agrupamientos con mayor o menor nivel de granularidad. Nuestra representación gráfica de esta secuencia permite comparar cómo varían los retículos de conceptos dibujando siempre los conceptos que involucran al mismo conjunto de condiciones en la misma posición, facilitando su interpretación e introduciendo el concepto de persistencia o robustez de un co-agrupamiento. Por otra parte, el retículo conceptual resultante del FCA puede usarse para indexar bases de datos externas ofreciendo así una nueva manera para acceder a otros recursos disponibles como Gene Ontology (GO), en dónde la secuencia de retículos resultante de un experimento particular indexa o vertebra la visión del investigador de dicho recurso. Además esto nos permite: - obtener una medida de la calidad de los co-agrupamientos mediante el p-valor obtenido a la hora de analizar las terminología de estos recursos, - observar la evolución de un gen a través de los diferentes conceptos formales en los que aparece a medida que se modifica el umbral, contando con amplia información acerca de las características del gen proporcionada por estos recursos y - buscar conceptos formales o co-agrupamientos de interés y ver qué genes están incluidos en función del umbral de confianza aplicado para inferir, por ejemplo, hipótesis sobre su función. Ilustramos este procedimiento con el análisis de datos reales de los efectos del selenio en la Arabidopsis Thalinana y de la respuesta a la doxiciclina de células trisómicas humanas.