Posted by Martin Meier on January 31, 2001 at 20:16:32:
Im Skript stehen zwei verschiedene Fromeln zur
'inverse document frequency' (idf):
n
1) idf(ti) = log( ---------- )
df(ti)+1
n
2) idf(ti) = log( ---------- )
df(ti)
Welches ist nun die richtige Formel?
Eigentlich sollte die idf doch nicht negativ sein, was bei der
1. Variante eventuell passieren könnte, wenn der entsprechende
Term in allen Dokumenten vorkommt, dh. df(ti) = n => das Argument
des Logarithmus ist kleiner Eins, was zu einem negativen Resultat
führen würde, was meines Erachtens keinen Sinn macht.