Transcripción de periódicos históricosaproximación CLARA-HD
- Antonio Menta 1
- Eva Sánchez-Salido 1
- Ana García-Serrano 1
- 1 ETSI Informática, UNED, Madrid, Spain
- Miguel A. Alonso (ed. lit.)
- Margarita Alonso-Ramos (ed. lit.)
- Carlos Gómez-Rodríguez (ed. lit.)
- David Vilares (ed. lit.)
- Jesús Vilares (ed. lit.)
Publisher: CEUR Workshop Proceedings
Year of publication: 2022
Pages: 70-74
Type: Book chapter
Abstract
Analizar periódicos de los siglos XVIII, XIX y principios del XX exige cierta calidad de lasfuentes digitalizadas y la utilización de recursos específicos de dominio o de la lengua.Cualquier aproximación utilizando las tecnologías actuales, se encuentra con que la mayoría delos modelos PLN disponibles para la transcripción o el reconocimiento de entidades estánentrenados con textos en “lenguajes actuales”. Si además el reto consiste en extraer informaciónde periódicos históricos en español, la complejidad aumenta, ya que la normalización delespañol es relativamente “moderna” y hay que intentar refinar los modelos de PLN o generarnuevos recursos. En esta presentación del corpus construido desde los textos disponibles en laHemeroteca Digital de la BNE, Diario de Madrid (1788-1825), se mostrarán los pasos seguidospara su transcripción automática generando un modelo (99% de rendimiento) en el marco delproyecto CLARA-HD. Finalmente se incluyen unas conclusiones iniciales