La inteligencia artificial en las Humanidades Digitalesdos experiencias con corpus digitales

  1. Ana García Serrano
  2. Antonio Menta Garuz
Revista:
Revista de Humanidades Digitales

ISSN: 2531-1786

Año de publicación: 2022

Número: 7

Páginas: 19-39

Tipo: Artículo

DOI: 10.5944/RHD.VOL.7.2022.30928 DIALNET GOOGLE SCHOLAR lock_openAcceso abierto editor

Otras publicaciones en: Revista de Humanidades Digitales

Resumen

Este artículo se centra en el análisis de dos investigaciones de diverso signo guiadas por la inteligencia artificial dentro del campo de las HD. El primero es una investigación muy conocida y exitosa de dos lingüistas que resuelven un caso de atribución de autoría a través de la construcción de un corpus digital de 150 obras de 40 novelistas italianos. El segundo es la investigación llevada a cabo en el corpus digital DIMH (El Dibujante Ingeniero al servicio de la Monarquía Hispánica. Siglos XVI-XVIII), una evolución de la Colección de mapas, planos y dibujos del Archivo General de Simancas (siglos XVI-XVIII), cuyo objetivo fue desarrollar herramientas de soporte a tareas de anotación semántica, búsqueda de información, extracción de relaciones ocultas en los textos y visualización de los resultados para facilitar la investigación de los historiadores. A través de estos dos ejemplos, este artículo busca mostrar los métodos, procesos y posibilidades de éxito en problemas complejos de investigación en Humanidades resueltos con técnicas de procesamiento del lenguaje natural (PLN) y análisis de datos.

Referencias bibliográficas

  • Allen, J. F. (1983). Maintaining Knowledge about Temporal Intervals. Communications of the ACM, 26(11), 832-843. https://doi.org/10.1145/182.358434
  • Bizer, C., Lehmann, J., Kobilarov, G., Auer, S., Becker, C., Cyganiak, R., & Hellmann, S. (2009). DBpedia - A Crystallization Point for the Web of Data. Journal of Web Semantics, 7(3), 154-165. https://doi.org/10.1016/j.websem.2009.07.002.
  • Castellanos González, A., Cigarrán, J., & García-Serrano, A. (2012). Using IR Techniques for Topic-based Sentiment Analysis through Divergence Models. Workshop on Sentiment Analysis at SEPLN.
  • Castellanos González, A., Cigarrán, J., & García-Serrano, A. (2017a). Formal Concept Analysis for Topic Detection: A Clustering Quality Experimental Analysis. Information Systems. 66,24-42. https://doi.org/10.1016/j.is.2017.01.008.
  • Castellanos González, Á., & García Serrano, A. (2017b). Representación y organización de documentos digitales: Detalles y práctica sobre la ontología DIMH. Revista de Humanidades Digitales, 1, 314- 344. https://doi.org/10.5944/rhd.vol.1.2017.17155.
  • Cebral Loureda, M. (2020). Voluntad y deseo en la filosofía moderna: Un acercamiento computacional. Revista de Humanidades Digitales, 5, 42-65. https://doi.org/10.5944/rhd.vol.5.2020.27495
  • Cigarrán, J. M. (2008). Agrupación de resultados de búsqueda mediante análisis formal de conceptos. [Ph.D. thesis]. UNED. http://e-spacio.uned.es/fez/view/tesisuned:IngInf-Jcigarran.
  • del Rio Riande, G. (2014). ¿De qué hablamos cuando hablamos de Humanidades Digitales?. En: Humanidades Digitales: Culturas, Tecnologías, Saberes. Facultad de Filosofía y Letras de la Universidad de Buenos Aires. https://www.aacademica.org/gimena.delrio.riande/90.pdf
  • Espino, F. (2020). Big data, criticometría y el estudio de las literaturas nacionales en la bibliografía crítica: El caso excepcional de la literatura cubana. Revista de Humanidades Digitales, 5, 66-85. https://doi.org/10.5944/rhd.vol.5.2020.27625
  • Filter, J. (2015). Interactive Visualization of Large Concept Lattices. [Bachelor Thesis]. Supervisors: Nürnberger, A., & García-Serrano, A. Data and Knowledge Engineering Group. Faculty of Computer Science. OVG Univ. of Magdeburg.
  • García-Serrano, A., Castellanos González, A., & Cigarrán, J. (2015). De la preservación digital al acceso semántico de documentos históricos. En II Congreso de Humanidades Digitales Hispánicas - Innovación, globalización e impacto. Madrid. https://humanidadesdigitaleshispanicas.es/wp-content/uploads/2020/02/Humanidades-Digitales-Hisp%C3%A1nicas.-Innovaci%C3%B3n-Globalizaci%C3%B3n-e-Impacto.pdf
  • García Serrano, A. M., & Castellanos González, Á. (2016). Conceptualización, acceso y visibilidad de la información en el proyecto DIMH. En A. Cámara Muñoz, El dibujante ingeniero al servicio de la monarquía hispánica: Siglos XVI-XVIII (pp. 379-400). Fundación Juanelo Turriano. http://www.juaneloturriano.com/coleccion-digital/lecciones-juanelo-turriano-de-historia-de-la-ingenieria
  • García-Serrano, A., & Menta Garuz, A. (2021). Orientaciones y evaluación de técnicas en Humanidades Digitales: de la estadística al deep-learning. HDH 2021-Scire Vías. Humanidades Digitales y Conocimiento. 4-8 octubre. España.
  • Grabmeier, J., & Rudolph, A. (2004). Techniques of Cluster Algorithms in Data Mining. Data Mining and Knowledge Discovery, 6, 303-360.
  • Herranz A., Benjamins, R., Torrubia, A., & Larrañaga, P. (2019). De qué serán capaces la inteligencia artificial y el machine learning en 10 años: los mayores expertos nos responden. Xataka.
  • Inteligencia artificial. (15 de noviembre de 2021). En Wikipedia. https://es.wikipedia.org/w/index.php?title=Inteligencia_artificial&oldid=139728139
  • Kestemont, M., Manjavacas, E., Markov, L., Bevendorff, J., Wiegmann, M., Stamatatos, E., Potthast, M., & Stein B. (2020). Overview of the Cross-Domain Authorship Verification Task at PAN 2020. Working notes CLEF 2020 - Conf. Labs Eval. Forum, pp. 22-25. http://ceur-ws.org/Vol-2696
  • Kunenets, N. (2016). The Technology of Hierarchical Agglomerative Cluster Analysis in Library Research. Econtechmod. An International Quarterly Journal, 5(1), 35-41.
  • Martínez Cantón, C. I. (2017). Poetriae y el Arte de la poesía castellana: bases para la creación de una colección digital de tratados poéticos castellanos. Magnificat: cultura i literatura medievals, 4, 21-42.
  • McGillivray, B., Beatrice, A., Ames, S., Armstrong, G., Beavan, D., & Ciula, A. (2020a). The Challenges and Prospects of the Intersection of Humanities and Data Science: A White Paper from the Alan Turing Institute. Figshare. https://doi.org/10.6084/m9.figshare.12732164.v5
  • McGillivray, B., Poibeau, T., & Ruiz, P. (2020b). Digital Humanities and Natural Language Processing: “Je t'aime... Moi non plus". Digital Humanities Quarterly 14, 2. https://hal.archives-ouvertes.fr/hal-02970302
  • Meeks, E., & Weingart S. (2012). The Digital Humanities Contribution to Topic Modeling. Journal of Digital Humanities, 2(1), 1-6.
  • Merás, A., García-Serrano, A., & Castellanos, A. (2017). Extracción de información temporal de la DBpedia: propuesta de integración en un corpus semiestructurado. Procesamiento del Lenguaje Natural, 58, 117-124.
  • Microsoft España (2019). Inteligencia artificial en España: Cómo 277 organizaciones se benefician de la IA. https://info.microsoft.com/WE-DIGTRNS-CNTNT-FY19-09Sep-27-ArtificialIntelligenceinSpain-MGC0003165_01Registration-ForminBody.html?wt.mc_id=AID732606_QSG_BLOG_278541
  • Microsoft España (2020). IA en el sector público: Perspectivas europeas para 2020 y años siguientes (España). https://info.microsoft.com/rs/157-GQE-382/images/ES-CNTNT-eBook-SRGCM3981-v2.pdf
  • Murtagh F. (2017). Big Data Scaling through Metric Mapping: Exploiting the Remarkable Simplicity of Very High Dimensional Spaces Using Correspondence Analysis. En F. Palumbo, A. Montanari & M. Vichi (Eds.), Data Science. Studies in Classification, Data Analysis, and Knowledge Organization (pp. 295–306). Springer. https://doi.org/10.1007/978-3-319-55723-6_23
  • Piotrowski, M. (2012). Natural Language Processing for Historical Texts. Synthesis Lectures on Human Language Technologies. Morgan and Claypool Publishers. https://doi.org/10.2200/S00436ED1V01Y201207HLT017
  • Pokhriyal, N., Tayal, K., Nwogu, I., & Govindaraju, V. (2017). Cognitive-Biometric Recognition from Language Usage: A Feasibility Study. IEEE Transactions on Information Forensics and Security, 12(1), 134-143.
  • Portaltic (14 de enero de 2021) La adopción de Inteligencia Artificial no aumentó masivamente en 2020, según un informe de McKinsey. https://www.europapress.es/portaltic/empresas/noticia-adopcion-inteligencia-artificial-no-aumento-masivamente-2020-informe-mckinsey-20210114145739.html
  • Rettinger, A., Zhang, L., Tran, T., & Chen, W. (2015). Time-Aware Entity Search in DBpedia. The Semantic Web: ESWC 2015 Satellite Events.
  • Rojas Castro, A. (2017). La edición crítica digital y la codificación TEI. Preliminares para una nueva edición de las Soledades de Luis de Góngora. Revista De Humanidades Digitales, 1, 4-19. https://doi.org/10.5944/rhd.vol.1.2017.16379
  • Sanz Cabrerizo, A. (2021). Para unas lecturas remediadas: análisis cuantitativo y cualitativo de textos. Revista de Humanidades Digitales, 6, 122-128. https://doi.org/10.5944/rhd.vol.6.2021.32297
  • Schmidt, B. M. (2012). Words Alone: Dismantling Topic Models in the Humanities, Journal of Digital Humanities, 2(1), 49-66.
  • SEPLN (2020). Informe SEPLN 2020: Hacia una estrategia para la IA centrada en las tecnologías del lenguaje en España. http://www.sepln.org/actualidad/noticias/publicacion-de-la-estrategia-de-procesamiento-del-lenguaje-natural
  • Spence, P. (2014). La investigación humanística en la era digital: mundo académico y nuevos públicos. Janus Digital, Annex 2, 117-131.
  • Tuzzi, A., & Cortelazzo, M. (2018). What is Elena Ferrante? A Comparative Analysis of a Secretive Bestselling Italian Writer. Digital Scholarship in the Humanities, 33(3), 685-702.
  • Ueda, H., Sanchez-Prieto, P., & Moreno Sandoval, A. (2020). Lematización y visualización cartográfica del corpus CODEA. Estudios de lingüística de español, 42, 245-261.
  • Vázquez, A., & García-Serrano, A. (2015.) Anotación y representación temporal de tweets multilingües. Procesamiento del Lenguaje Natural, 54, 53-60.
  • Vicente-Díez M.T., Moreno-Schneider, J., & Martínez P. (2010). Temporal Information Needs in ResPubliQA: an Attempt to Improve Accuracy. The UC3M Participation CLEF 2010, LABs and Workshops. https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.174.3558&rep=rep1&type=pdf
  • Vivó Capdevila, E.P. (2021). Modelizando una literatura en el olvido: LDA aplicado a corpus españoles sobre Guinea Ecuatorial y. Filipinas. HDH 2021-Scire Vías. Humanidades Digitales y Conocimiento. 4-8 octubre. España.
  • Webis Group (2021). PAN is a Series of Scientific Events and Shared Tasks on Digital Text Forensics and Stylometry. https://pan.webis.de/
  • Wille, R. (1992). Concept Lattices and Conceptual Knowledge Systems. Computers & mathematics with applications, 23(6), 493-515.
  • Yang, T. I., Torget, A. J., & Mihalcea, R. (2011). Topic Modeling on Historical Newspapers. Proc. 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities, 96-104. ACL.