: Re: Allg: IR


[ Follow Ups ] [ Post Followup ] [ IS-K Diskussionsforum ]

Posted by Torsten Grabs on February 01, 2001 at 08:52:34:

In Reply to: Allg: IR posted by Martin Meier on January 31, 2001 at 20:16:32:

: Im Skript stehen zwei verschiedene Fromeln zur
: 'inverse document frequency' (idf):

: n
: 1) idf(ti) = log( ---------- )
: df(ti)+1

:
: n
: 2) idf(ti) = log( ---------- )
: df(ti)

: Welches ist nun die richtige Formel?

: Eigentlich sollte die idf doch nicht negativ sein, was bei der
: 1. Variante eventuell passieren könnte, wenn der entsprechende
: Term in allen Dokumenten vorkommt, dh. df(ti) = n => das Argument
: des Logarithmus ist kleiner Eins, was zu einem negativen Resultat
: führen würde, was meines Erachtens keinen Sinn macht.

Tja, richtig und falsch sind hier wahrscheinlich die falschen Kriterien, da im Vektorraum-Retrieval - wie mit anderen Information Retrieval Modellen uebrigens auch - die angegebenen Formeln lediglich sinnvolle Schaetzungen von Relevanz bzw. Termwichtigkeiten iwe hier mit der idf darstellen sollen. Bottomline: Es handelt also nur um Approximationen von etwas (naemlich dem Informationsbedarf des Nutzers), was wir mit so simplen Formeln sowieso nicht adaequat modellieren koennen.

Somit sind solche Unschoenheiten aus Sicht des IR eher Nebensache. Uebrigens ist auch 2) problematisch, wenn df(ti) 0 wird.

Im Hinblick auf Grenzwerte etc. ist vielleicht diese Darstellung:

3) idf(ti) = log((n+1)/(df(ti)+1))

die angenehmste. Alle drei Varianten finden sich in der Literatur, und falsch im engeren Sinne ist aus den oben geschilderten Gruenden fuer die IR Leute keine.


Follow Ups:



Post a Followup

Name:
E-Mail:

Subject:

Comments:

Optional Link URL:
Link Title:
Optional Image URL:


[ Follow Ups ] [ Post Followup ] [ IS-K Diskussionsforum ]
!!! Dieses Dokument stammt aus dem ETH Web-Archiv und wird nicht mehr gepflegt !!!
!!! This document is stored in the ETH Web archive and is no longer maintained !!!