Estudio y nuevas estrategias en el uso de las Entidades Nombradas en el Clustering Bilingüe de noticias

Montalvo Herranz, Soto

Estudio y nuevas estrategias en el uso de las Entidades Nombradas en el Clustering Bilingüe de noticias

Montalvo Herranz, Soto

unter der Leitung von:

Raquel Martínez Unanue Doktormutter
Antonio Sanz Montemayor Doktorvater/Doktormutter
Víctor Fresno Fernández Doktorvater

Universität der Verteidigung: Universidad Rey Juan Carlos

Fecha de defensa: 27 von Februar von 2013

Gericht:

Lourdes Araujo Präsidentin
Juan José Pantrigo Fernández Sekretär/in
Alexandra Balahur Dobrescu Vocal
Arantza Casillas Rubio Vocal
Andrés Montoyo Guijarro Vocal

Art: Dissertation

Teseo: 361148 DIALNET

Zusammenfassung

TÍTULO: Estudio y nuevas estrategias en el uso de las Entidades Nombradas en el clustering bilingüe de noticias. Motivación A diario se publica una ingente cantidad de información nueva en la Red, que supone una sobrecarga y hace necesario el desarrollo y mejora de los métodos de acceso a la información de los que disponemos. Mantener la información organizada es un factor clave para facilitar el acceso a la misma. De toda la cantidad de información nueva disponible cada día en la Red, una buena parte se corresponde con noticias; éstas constituyen una importante fuente de información, permiten estar informados en cualquier momento y en cualquier lugar sin fronteras geográficas. Aunque la información de actualidad que necesitamos pueda estar disponible en la Web, no será información útil si no somos capaces de acceder a ella o si el esfuerzo humano requerido para localizarla resulta excesivo. Con este objetivo, una organización automática de las noticias donde éstas se agrupen por temática resulta muy útil. En esta tesis el interés se centra en el clustering de noticias, que básicamente consiste en agrupar las noticias en base a su similitud temática, con independencia de la lengua en la que las noticias estén escritas. Además, se agruparán las noticias en grupos de grano fino, es decir, que representen una temática particular. Como unidad de texto fundamental para agrupar las noticias se estudian las Entidades Nombradas, que son unidades de información que pueden hacer referencia a personas, lugares, organizaciones, fechas y datos de tiempo o valores numéricos y porcentajes, entre otros elementos. Considerando el estilo de redacción de las noticias, donde lo primordial es informar, y donde en un porcentaje alto se describen uno o más sucesos específicos, es habitual que en el contenido textual de las mismas aparezcan Entidades Nombradas; éstas contienen información acerca de los protagonistas del suceso o evento que se describe en la noticia, así como cuándo y dónde se produce. Ante una noticia el redactor se plantea una serie de cuestiones informativas para describir qué ha sucedido, a quién, cuándo, dónde, etc., conteniendo las Entidades Nombradas la respuesta a todas o parte de estas preguntas. Todo ello hace que las Entidades Nombradas sean muy representativas del contenido de las noticias. Desarrollo Un proceso de clustering se compone de tres etapas principales y en esta tesis se realizan estudios y se plantean propuestas sobre cómo utilizar las Entidades Nombradas en cada una de dichas etapas. El objetivo principal es aprovechar lo máximo posible las Entidades Nombradas, de forma que un uso adecuado de ellas en cada una de las etapas permita mejorar los resultados del clustering de noticias. La primera etapa se corresponde con la representación de los documentos y juega un papel fundamental en el clustering de las noticias, donde diferentes aspectos pueden influir en el resultado final. Se estudia cómo representar las noticias; cómo tratar la información en diferente lengua, variando la forma en el tratamiento de las Entidades Nombradas; se realizan propuestas diferentes para la creación del vocabulario de representación y se utilizan algoritmos de clustering del estado del arte. Todo ello se presenta en dos partes diferenciadas, en primer lugar se realizan propuestas centradas en cómo procesar la información de los documentos escritos en diferente lengua, llevando a cabo un procesamiento básico de las Entidades Nombradas; y en segundo lugar se presentan diferentes propuestas, teniendo en cuenta los resultados de los estudios previos, con un tratamiento más avanzado de las Entidades Nombradas. Por otra parte se propone un nuevo sistema para la identificación de cognados, que es uno de los enfoques utilizados en esta tesis para el tratamiento de la información en diferente lengua. El nuevo sistema, basado en lógica borrosa, se integra en un nuevo sistema heurístico propuesto para identificar Entidades Nombradas equivalentes. En la segunda etapa del proceso de clustering, teniendo en cuenta las conclusiones obtenidas en el estudio de las Entidades Nombradas de la etapa previa, se plantean nuevas formas de medir la similitud entre las noticias utilizando las entidades y la información que aportan sus categorías. Finalmente, en la tercera etapa se proponen diferentes algoritmos de clustering basados también en las Entidades Nombradas que se comparten entre noticias. Para la evaluación y comparación de las diferentes propuestas llevadas a cabo en las distintas etapas del proceso de clustering, se han creado distintas colecciones de noticias en dos lenguas (español e inglés), con características diferentes. De la misma forma, para evaluar la nueva propuesta de identificación de cognados se han creado diferentes conjuntos de datos con pares de palabras en idiomas variados (español, inglés y francés). Por último, también se han creado diferentes conjuntos de datos con pares de Entidades Nombradas en distintos idiomas (español, inglés, francés e italiano) para comparar las propuestas para la tarea de encontrar entidades equivalentes. Tanto las colecciones de noticias como el resto de conjuntos de datos creados se encuentran disponibles para la comunidad científica. Conclusiones Después de los diferentes estudios llevados a cabo y las propuestas planteadas, se ha podido confirmar que la hipótesis de partida planteada al inicio de la investigación era acertada, es decir, que las Entidades Nombradas son muy importantes en el dominio de las noticias. Se ha planteado una investigación sobre cómo utilizar las Entidades Nombradas en las etapas principales de un proceso de clustering, comprobando que el tipo de agrupamiento a llevar a cabo, así como las características de las colecciones de noticias a agrupar, son determinantes para que las entidades sean más o menos efectivas a la hora de representar el contenido de las noticias. Cuanto más particular sea el tema en el que se pueden agrupar las noticias, más representativas de su contenido son las Entidades Nombradas. Por otra parte, se ha comprobado que la importancia de una Entidad Nombrada en una noticia no está asociada únicamente a la categoría de la entidad, sino que depende de otros muchos factores, lo que hace que las diferentes propuestas de uso de las entidades puedan variar en función de la etapa del proceso de clustering para las que se utilicen, para así contemplar todos esos factores en mayor o menor grado.