Ingeniería de características en inteligencia artificial para datos financieros de alta frecuencia

MANTILLA GÓMEZ, PABLO

Ingeniería de características en inteligencia artificial para datos financieros de alta frecuencia

MANTILLA GÓMEZ, PABLO

Dirigida por:

Sebastián Dormido Canto Director

Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia

Fecha de defensa: 04 de diciembre de 2023

Tribunal:

Jesús Antonio Vega Sánchez Presidente/a
Francisco Esquembre Secretario/a
Natividad Duro Carralero Vocal

Tipo: Tesis

Teseo: 828662 DIALNET TESEO editor

Resumen

Los datos financieros de alta frecuencia están formados por series temporales multivariantes que se registran con precisiones mínimas del orden de milisegundos y a intervalos irregulares, generándose grandes volúmenes de datos. Estos datos provienen de las órdenes de compra y venta que llegan al sistema del mercado financiero, donde algunas de éstas se cruzan, dando lugar a las series de operaciones negociadas, y otras permanecen en cola, cuyo procesamiento consiste en la reconstrucción del denominado libro de órdenes límite. Las series de operaciones negociadas experimentan tendencias intradiarias de duración irregular, por lo que están compuestas de un número variable de observaciones. El objetivo de la investigación es extraer características de este tipo de movimientos y de los estados del libro de órdenes límite en cada instante de las tendencias, con la finalidad de que puedan analizarse y utilizarse como input de modelos de inteligencia artificial para predecir el comportamiento de variables respuesta en tendencias futuras. Este problema puede resolverse de forma satisfactoria con una ingeniería de características específica, cuyo primer paso consiste en obtener secuencias temporales de subconjuntos con un número de observaciones variable, basándose en el criterio de que cada subconjunto debe contener una tendencia intradiaria de la serie de partida. Para ello, es preciso dividir la serie original en fragmentos que contengan las tendencias citadas. La técnica apropiada para fragmentar estas series en tendencias es la segmentación de series temporales. El propósito es que los segmentos contengan movimientos direccionales claramente definidos, por lo que dichos movimientos deben delimitarse de la forma más precisa posible. El método de segmentación que la literatura científica reconoce como más preciso es el denominado método óptimo o exacto, el cual consiste en ajustar las tendencias de la serie temporal con líneas rectas. El inconveniente de este método es su complejidad algorítmica, que es de orden cuadrático, por lo que no estaría indicada su aplicación directa para las series temporales de alta frecuencia con mayor número de observaciones del mercado financiero, ya que los tiempos de ejecución de los trabajos de segmentación serían tan elevados que resultaría inviable el empleo del método. Para salvar este obstáculo, se diseñó un método preciso y viable para segmentar las series temporales de alta frecuencia citadas, que se denominó double segmentation with period aggregation (DSPA). Este método está basado en el método óptimo o exacto y consiste en realizar una agregación previa de los datos a una frecuencia inferior a la inicial. De esta forma, se reduce considerablemente el número de observaciones de la serie de partida. A continuación, se segmenta la serie agregada con el método óptimo o exacto y se obtienen los puntos de ruptura entre un segmento y el siguiente, los cuales se trasladan a la serie original, obteniéndose una primera partición de los datos. Sobre los segmentos resultantes, se realiza una segunda partición, obteniéndose los segmentos finales, los cuales constituyen los subconjuntos sobre los que se van a extraer las características respectivas. Con el fin de proporcionar una aplicación de la técnica desarrollada, se planteó la predicción de tres variables respuesta utilizando la ingeniería de características diseñada, tomando como regresores una selección de variables. Para ello, se construyeron múltiples modelos de aprendizaje automático basados en el algoritmo XGBoost, con el objeto de predecir la volatilidad, la duración y la dirección asociadas a tendencias intradiarias futuras. La experimentación se realizó con 26 activos cotizados de la Bolsa de Valores de Brasil. Los experimentos relativos a la segmentación se ejecutaron con 6 valores localizados entre las últimas posiciones de los 150 activos más negociados del mercado, los cuales tienen un número de observaciones suficientemente pequeño para permitir ejecutar la segmentación con el método óptimo o exacto y poder realizar una comparación con la alternativa propuesta. Los 20 activos restantes se encuentran entre los más operados del mercado, y se emplearon para mostrar la aplicación de la ingeniería de características diseñada. Los resultados del método de segmentación desarrollado se evaluaron estadísticamente, comparando el método óptimo con tres modalidades de agregación de períodos, en términos de tiempo de ejecución, precisión y un criterio de selección de modelos. Los tres tipos de agregación consiguieron mayor rapidez de ejecución que el método óptimo, además de proporcionar un menor error total. El método de doble segmentación consigue la segmentación de series temporales de alta frecuencia de forma precisa y en un tiempo razonable, y permite extraer características de las tendencias intradiarias para su análisis. Asimismo, la ingeniería de características basada en dicho método permite predecir variables respuesta vinculadas a tendencias intradiarias de alta frecuencia mediante la utilización de métodos de inteligencia artificial. La aplicación de la ingeniería de características a la predicción de la volatilidad, la duración y la direccionalidad obtuvo precisiones superiores en las predicciones de las dos primeras variables que en la última. La importancia de las variables seleccionadas se obtuvo a partir de los modelos basados en el algoritmo de inteligencia artificial XGBoost, y se determinó, entre otros aspectos, que las variables vinculadas a las series de precios de cotización explican mejor la varianza de las variables respuesta que las variables asociadas al libro de órdenes límite, con el método y los datos utilizados.