Recommender systems in social settingsproposal, development and testing in real scenarios
- Castellanos González, Ángel
- Ana M. García Serrano Directora
- Juan Manuel Cigarrán Recuero Director
Universidad de defensa: UNED. Universidad Nacional de Educación a Distancia
Fecha de defensa: 30 de noviembre de 2015
- Lourdes Araujo Presidenta
- Federico Alvarez García Secretario/a
- Andreas Nürnberger Vocal
Tipo: Tesis
Resumen
Desde los trabajos más tempranos en Sistemas de Recomendación, el principal objetivo de esta línea de investigación es el de asistir a los usuarios en el descubrimiento de contenidos relevantes entre la abrumadora cantidad de datos disponibles en la web. Los sistemas de recomendación fueron concebidos en los 90 con el auge de Internet y el incremento de los datos disponibles que ello conllevó. Hoy en día, con la explosión de los contenidos generados por los usuarios en el contexto de la Web 2.0, la necesidad de sistemas recomendación es la misma que en los años 90, sino más, pero los problemas relacionados que deben abordar estos sistemas son más y más complejos. Este contexto de los contenidos generados por usuarios y la web social afecta directamente al rendimiento de los sistemas de recomendación, siendo uno de los problemas más acuciantes el modelado con precisión de las preferencias de los usuarios. Los trabajos iniciales en el área principalmente abordaba este aspecto desde el punto de vista de los sistemas de filtro colaborativo; sin embargo, el uso de rasgos basado en el contenido de los ítems está cada día más extendido. De entre esto sistemas basados en el contenido de los ítems, la mayoría de los trabajos propuestos en la literatura normalmente dependen del modelado de usuarios e ítems por separado: los perfiles de usuario son analizados y modelados de acuerdo a rasgos basados en el contenido para luego buscar los ítems más relacionados con este modelo. Esta metodología introduce el problema de la separación entre usuarios e ítems; esto es, la separación entre sus ambos espacios de representación. Para superar este problema, esta tesis propone un espacio común de representación para recomendación. Conceptualmente, modelar las dos dimensiones en conjunto parece ser el método más sensato. En particular, esta tesis propone un modelado conceptual de usuarios-ítems basado en conceptos a través de la aplicación del Análisis de Conceptos Formales (ACF). Nuestra hipótesis principal es que la abstracción basada en conceptos de los perfiles de usuarios e ítems que ACF genera facilitará la mejor identificación de relaciones entre los usuarios y los ítems, las cuales pueden ser entendidas como preferencias de usuario. Por lo tanto, usuarios e ítems serán representados en un espacio común mediante las preferencias de usuario descubiertas (en la forma de conceptos formales), organizadas jerárquicamente de un modo natural de acuerdo a su especificidad. De esta manera, se espera superar el problema de la separación ente usuarios e ítems, mejorando de este modo el proceso de recomendación. De cara a probar nuestra hipótesis de trabajo, hemos aislado el proceso de la evaluación del rendimiento de nuestra propuesta. La razón de ello es la de primero evaluar el rendimiento de ACF para la representación de datos, para luego evaluar esta representación cuando se aplique a la recomendación de contenidos. Para ello, hemos aplicado nuestro modelado basado en ACF a dos escenarios independientes de la tarea de recomendación (Topic Detection @ Replab 2013 e Image Diversification @ MediaEVAL 2014 and 2015). La evaluación de ACF en estos escenarios prueba la idoneidad general de este modelado, logrando resultados en el estado del arte para ambos escenarios. Esta evaluación también prueba que, al contrario que otras propuestas en la literatura, nuestro sistema se ve a penas afectado por los diferentes parámetros relacionados con su funcionamiento. Finalmente, hemos abordado una extensiva comparación, en relación a la calidad de las representaciones generadas, con otras conocidas metodologías para la representación de datos (Hierarchical Agglomerative Clustering y Latent Dirichlet Allocation). Como es probado por esta comparación, la representación basada en ACF tiene más calidad y presenta un comportamiento más homogéneo que el resto de metodologías. En una etapa posterior, hemos extendido esta metodología mediante la integración de rasgos semánticos relacionados con el contenido de los ítems. No solo este modelo logra mejorar la etapa de modelado, sino que también posibilita una representación de más alto nivel y más abstracta, la cual resulta en modelos más compactos y ligeros. Este aspecto facilita abordar los retos relacionados con la aplicación de nuestra propuesta a escenarios sociales (Topic Detection @ Replab 2013). Hemos finalmente aplicado nuestro modelo FCA para crear un espacio de representación común para la recomendación de contenidos. En primer lugar, hemos llevado a cabo una aproximación preliminar para probar la idoneidad de nuestra propuesta en escenarios de recomendación sociales (NEWSREEL 2014 y ESWC LOD-RecSys 2014). Del análisis de los resultados de esta experimentación preliminar, hemos refinado nuestra propuesta para crear un espacio común de recomendación. La evaluación de esta propuesta, llevada a cabo en diferentes escenarios sociales (UMAP 2011 Dataset y ESWC LOD-RecSys 2015), hemos analizado también los diferentes aspectos envueltos en el proceso de recomendación, probando que, cuando están disponibles, el uso de modelos basados en rasgos semánticos de alto nivel conlleva una recomendación más precisa que cuando el texto en bruto es utilizado. Hemos confirmado también que, como ya dicho previamente por otros trabajos experimentales, en entornos sociales, los sistemas que aplican rasgos basados en contenido mejoran a los sistemas basados en filtro colaborativo. Finalmente, este análisis extensivo demuestra que el buen rendimiento de nuestro modelo para la representación de datos permanece cuando es aplicado a la tarea de recomendación. En particular, nuestro espacio de representación común basado en ACF mejora el rendimiento de otros sistemas de recomendación reportados en la literatura como estado del arte para la tarea.