Allg: IR


[ Follow Ups ] [ Post Followup ] [ IS-K Diskussionsforum ]

Posted by Martin Meier on January 31, 2001 at 20:16:32:

Im Skript stehen zwei verschiedene Fromeln zur
'inverse document frequency' (idf):

n
1) idf(ti) = log( ---------- )
df(ti)+1


n
2) idf(ti) = log( ---------- )
df(ti)

Welches ist nun die richtige Formel?

Eigentlich sollte die idf doch nicht negativ sein, was bei der
1. Variante eventuell passieren könnte, wenn der entsprechende
Term in allen Dokumenten vorkommt, dh. df(ti) = n => das Argument
des Logarithmus ist kleiner Eins, was zu einem negativen Resultat
führen würde, was meines Erachtens keinen Sinn macht.



Follow Ups:



Post a Followup

Name:
E-Mail:

Subject:

Comments:

Optional Link URL:
Link Title:
Optional Image URL:


[ Follow Ups ] [ Post Followup ] [ IS-K Diskussionsforum ]
!!! Dieses Dokument stammt aus dem ETH Web-Archiv und wird nicht mehr gepflegt !!!
!!! This document is stored in the ETH Web archive and is no longer maintained !!!