Diseño  Editorial  Social  en  Portales  de  Información  utilizando  Técnicas  de   Minería  de  Datos

Indexación de Documentos

El modelo de espacio vectorial permite representar el conjunto inicial de documentos, donde cada palabra representa una dimensión, y cada documento es un vector dentro del espacio de palabras. De esta manera, cada artículo se representa como:



Cada componente del vector corresponde al peso (la influencia) del término-j en el documento-i. Para esto existen diversas funciones de peso (ejemplo: TF-IDF). La idea es calcular cuanto ayuda cada término para distinguir unos documentos de otros. Se premia el término frecuente dentro del documento o si aparece en el título o al principio. Se castiga si el término es muy común en la colección (no discrimina).

Principales desafíos:
1) encontrar las palabras que más aportan significado.
2) el problema de la dimensionalidad del espacio: es necesario mantener acotado el vocabulario.



El resultado de este proceso es la creación del espacio de palabras, formado por el vocabulario encontrado. Cada documento es representado como un punto de ese espacio.




Resumen del proceso de filtrado de documentos:




indexacion de documentos
espacio_vectorial - wvtool - filtros - tfidf - stemming - stopwords
clustering batch
clusters - centroides - cluto - distancia_coseno - funcion_objetivo
clustering online
incremental - singlepass - similaridad - eventos - umbrales - purge
 
conjunto de referencia
top-25 tópicos [articulos, graficos]
listado de tópicos (completo)

resultados
resultado batch total
resultado batch enero
resultado online febrero
resultado online marzo

documentación aplicación
documentación JAVADOC
CHANGELOG

archivos de configuración
stopwords (filtro de palabras)
stopterms (filtro de términos)
archivo de parámetros

referencias web
...sobre periodismo y medios de comunicacion
...sobre la web 2.0