Exploring artificial intelligence techniques in the digital humanities domainfrom authorship verification to automatic sentence simplification
- MENTA GARUZ, ANTONIO
- Ana M. García Serrano Director
Defence university: UNED. Universidad Nacional de Educación a Distancia
Fecha de defensa: 12 December 2024
- Lourdes Araujo Serna Chair
- Paloma Martínez Fernández Secretary
- María Teresa Martín Valdivia Committee member
Type: Thesis
Abstract
Las Humanidades Digitales (HD) son "un movimiento para aplicar las herramientas y métodos de la informática a la temática de las humanidades". Su principal repercusión es el uso de la tecnología en la búsqueda de nuevas formas de tratar e interpretar los datos disponibles. Uno de los principales objetivos de las HD es proporcionar a los investigadores datos y herramientas que permitan abordar nuevas preguntas de investigación. Esto se consigue aumentando la escalabilidad de los proyectos académicos, la interconexión de las bases de datos existentes y mejorando el acceso a la información. Las iniciativas DARIAH y CLARIN, en las que participa España con la red CLARIAH-ES, proporcionan una infraestructura común para la sostenibilidad de estos resultados. El primer objetivo de esta tesis se centra en comprender los métodos y herramientas del procesamiento del lenguaje natural (PLN) que pueden aplicarse en las Humanidades para mejorar la comprensión semántica del patrimonio cultural. Una de las principales dificultades consiste en anotar e indexar los datos de manera que los ordenadores comprendan la complejidad y las relaciones inherentes a estas colecciones culturales. Históricamente, las tecnologías de la web semántica han sido las elegidas para dar respuesta a esta necesidad. Pero no están solas, ya que, en los últimos años, tanto los investigadores como los profesionales han comenzado a utilizar nuevas tecnologías relacionadas con la inteligencia artificial (IA). También se abordan estas nuevas tecnologías para estudiar la viabilidad de su aplicación en las HD. El segundo objetivo es estudiar los campos existentes en el ámbito de las HD, centrándose en mejorar el conocimiento semántico que se puede extraer de las diferentes colecciones de información. Esto se hace con la intención de crear nuevos métodos basados en la semántica distribucional y el aprendizaje profundo. El trabajo desarrollado en la tesis se ha llevado a cabo dentro de un marco que incluye un conjunto de experimentos reproducibles y nuevos conjuntos de datos que permiten reproducir los resultados obtenidos. Un objetivo transversal es, tras estudiar el estado del arte en modelos lingüísticos, el desarrollo de corpus e infraestructuras en dominios específicos de las Humanidades con el fin de identificar las mejores prácticas en la creación de recursos y utilizar este conocimiento en las contribuciones de la tesis. Aunque en el pasado el uso de técnicas de PLN en HD ha sido limitado, los recientes avances en IA brindan la oportunidad de ampliar su alcance. Esta tesis presenta un estudio de diversas técnicas de IA para resolver diferentes tareas, que van desde la verificación de la autoría hasta la simplificación automática de textos. Esta última, con el objetivo de ayudar a los investigadores y al público en general con las colecciones de textos históricos en HD. Para ello, el dominio principal de la tesis es el estudio de periódicos de siglos pasados, en concreto del siglo XVIII y XIX de "El Diario de Madrid", el primer diario publicado en España en 1758. Esta tesis se ha realizado en el marco del proyecto CLARA-HD, que tiene como objetivo el transformar y simplificar el lenguaje que se utiliza en las colecciones de las HD, haciéndolo más accesible tanto a los investigadores como a un público más amplio interesado en las Humanidades y en las nuevas tecnologías. La tesis realiza varias contribuciones clave en el campo de la Lingüística Computacional aplicada a las HD. En primer lugar, se evalúan las capacidades actuales del PLN para las HD, destacándose tres áreas técnicas principales: el Reconocimiento de Entidades Nombradas (NER), la Verificación de Autoría y la Simplificación Automática de Textos. En NER, la investigación se centra en el uso de redes neuronales para extraer entidades de textos históricos, y compara diferentes métodos en el laboratorio de evaluación HIPE, aplicándolos a periódicos históricos en español. En cuanto a la verificación de autoría, la tesis propone un método novedoso que combina redes neuronales con n-gramas y marcas de puntuación. Además, se investiga cómo los modelos de lenguaje pueden simplificar textos históricos del siglo XVIII, adaptándolos para audiencias contemporáneas. En segundo lugar, se desarrollan herramientas y recursos esenciales para la investigación en DH. Entre las herramientas destaca Transkribus, además de una aplicación web creada para anotar y simplificar textos históricos. También se evalúan los modelos de código abierto de la plataforma Huggingface para la extracción de información y simplificación de textos en español e inglés. En cuanto a los recursos, se crearon corpus especializados y bases de datos que facilitan el acceso a textos históricos para investigadores. Se mejoraron los algoritmos para la transcripción de textos y extraer conocimiento semántico de los textos y se desarrollaron métodos para digitalizar y organizar archivos históricos. Finalmente, se buscó acercar las Humanidades al público general mediante versiones simplificadas de los periódicos históricos. Todo ello está en abierto a disposición de trabajos futuros. Conclusiones En esta tesis, hemos examinado varias técnicas de PLN y sus aplicaciones prácticas en las HD. Los avances en la IA de los últimos años han permitido que los modelos tengan una comprensión semántica que hace diez años habría sido difícil de imaginar. Esperamos que los resultados obtenidos en esta tesis despierten el interés de la comunidad de humanidades por esta tecnología y sus posibilidades. Las áreas de las HD donde se pueden aplicar dentro de un proyecto de investigación son variadas. Desde la asistencia en la digitalización, la limpieza de datos y el posterior almacenamiento en bases de datos, hasta la ayuda a los investigadores a la hora de responder a preguntas difíciles cuando el volumen de datos es mayor de lo que el cerebro humano puede procesar. Como hemos visto a lo largo de esta tesis, se han utilizado diversas técnicas. La verificación de autoría ha permitido determinar con un alto grado de precisión si dos obras diferentes pertenecen al mismo autor. Incluso utilizando dos características simples, como los n-gramas de caracteres y los patrones en el uso de la puntuación, hemos demostrado una precisión de más del 90 % para los ejemplos incluidos en la tarea compartida por PAN en la conferencia CLEF 2021. En nuestro trabajo con el Diario de Madrid y versiones históricas de periódicos del siglo XVIII, hemos visto las capacidades del PLN en diferentes etapas de un proyecto de investigación. Gracias a un modelo personalizado entrenado en el proyecto CLARA-HD, hemos mejorado la transcripción al reducir el error de reconocimiento de caracteres a menos del 1 %. Esto facilitó a los historiadores del proyecto CARCEM la búsqueda en los textos de los periódicos. También nos ha permitido experimentar con otras tareas, como el reconocimiento de entidades para entrenar modelos capaces de reconocer a personas destacadas que aparecían en los periódicos, la ubicación de establecimientos comerciales o elementos decorativos de los establecimientos. Nuestras pruebas sugieren que, con suficientes datos etiquetados, estos modelos pueden acelerar el trabajo de los investigadores al extraer automáticamente las entidades de interés. La parte más extensa de nuestra investigación se centró en la simplificación de textos. A lo largo de la tesis, hemos revisado el estado del arte en esta tarea. También hemos entrenado nuestros propios modelos con datos de dominio genérico y hemos demostrado las capacidades de aprendizaje por transferencia de los modelos de lenguaje actuales para generar simplificaciones en dominios distintos a aquellos en los que fueron entrenados. Por último, aplicamos lo que habíamos aprendido a las HD, específicamente al Diario de Madrid. Desafortunadamente, en general, el número de corpus anotados en las HD no es muy alto, especialmente en el campo de la simplificación de textos. Esto significó que tuvimos que generar nuestros propios datos anotados. Para ello, definimos nuestra propia metodología de trabajo, aprovechando los avances en la generación automática de textos gracias a los nuevos modelos de lenguaje que están revolucionando el mundo. Gracias a ellos, es posible generar datos sintéticos para entrenar nuevos modelos o para servir como base para la etiquetación humana, una tarea importante pero que consume mucho tiempo. Gracias a nuestro corpus, hemos demostrado la capacidad de los modelos de lenguaje para generar versiones de las ediciones del Diario de Madrid que sean comprensibles para las audiencias actuales, reduciendo la complejidad de textos que tienen más de doscientos años. Esto abre la puerta a utilizar enfoques similares para otros tipos de audiencias y otros tipos de documentos textuales de otros campos de las HD. En resumen, nos gustaría enfatizar la importancia de crear nuevos recursos para las HD que apoyen a los investigadores. Gracias a ellos, podrán mejorar sus investigaciones y contribuir a la promoción de las nuevas posibilidades del PLN. En esta tesis, hemos contribuido al desarrollo de un nuevo modelo público disponible para la transcripción de periódicos españoles del siglo XVIII y hemos creado un corpus de simplificación de textos dentro de las HD.