Diseño  Editorial  Social  en  Portales  de  Información  utilizando  Técnicas  de   Minería  de  Datos
# parametros del sistema
WEIGHTS=pfidf
STEMMING=true
STOPWORDS=true
CHARMAPPER=rss
INPUTFILTER=rss
MINCHARS=3
MIN_PRUNE_BATCH=5
MAX_PRUNE_BATCH=2000
MIN_PRUNE_ONLINE=2
MAX_PRUNE_ONLINE=2000
TAIL_TOPICS=0.1
SIZEBUFFER=3

# parametros de cluto
SIM=cosine
CLMETHOD=direct
CRFUN=i2
CSTYPE=best

# valores PFIDF
IDF=log
SCORE1=2
SCORE2=1
SCORE3=1

# ventanas de tiempo
WINDOW_WORDLIST=90
WINDOW_GARBAGE=9
WINDOW_RANKING=5
WINDOW_PURGE=90
DELTATBATCH=2007-03-16:2007-03-26
DELTATONLINE=2007-03-10:2007-03-12
RELATEDS=10

# umbrales clustering
THRESHOLD_SINGLEPASS=0.1

# filesytem
HOME=/home/dgomez
TMPDIR=/tmp
CLUTODIR=/home/dgomez/programs/cluto-2.1.1/Linux
WVTOOLDIR=/home/dgomez/programs/wvtool-1.1


indexacion de documentos
espacio_vectorial - wvtool - filtros - tfidf - stemming - stopwords
clustering batch
clusters - centroides - cluto - distancia_coseno - funcion_objetivo
clustering online
incremental - singlepass - similaridad - eventos - umbrales - purge
 
conjunto de referencia
top-25 tópicos [articulos, graficos]
listado de tópicos (completo)

resultados
resultado batch total
resultado batch enero
resultado online febrero
resultado online marzo

documentación aplicación
documentación JAVADOC
CHANGELOG

archivos de configuración
stopwords (filtro de palabras)
stopterms (filtro de términos)
archivo de parámetros

referencias web
...sobre periodismo y medios de comunicacion
...sobre la web 2.0