Detección de Web Spam basada en la Recuperación Automática de Enlaces

  1. Araujo, Lourdes
  2. Martínez Romo, Juan
Revista:
Procesamiento del lenguaje natural

ISSN: 1135-5948

Año de publicación: 2009

Número: 42

Páginas: 39-46

Tipo: Artículo

Otras publicaciones en: Procesamiento del lenguaje natural

Resumen

Actualmente el Web Spam es una guerra abierta entre los motores de búsqueda, tratando de garantizar unos resultados relevantes al usuario, y una comunidad, cuyo interés reside en intentar engañar a los primeros en busca de un mejor ranking para sus páginas. En este trabajo presentamos un estudio preliminar sobre distintas medidas que podrían ser útiles para la construcción de un sistema novedoso en la detección de Web Spam. Algunas de estas medidas se basan en los resultados de un sistema de recuperación automática de enlaces web rotos. El sistema utiliza distintas fuentes de información de la página analizada y la información extraída de estas fuentes se utiliza para realizar una consulta a un motor de búsqueda usual, como Google o Yahoo!. Las páginas recuperadas son ordenadas posteriormente en base a su contenido, utilizando técnicas de recuperación de información. Finalmente, el análisis del grado de recuperación de los enlaces es empleado, junto a otras medidas, como un indicador de Spam.