(Volltextsuche) Stopwords


[ verfasste Antworten ] [ Aussensaiter-Forum ]

Beitrag von Friedlieb vom November 03. 2001 um 11:07:50:

Guten Morgen,

dies ist ein kleiner Hilferuf an Alle.

Nehmen wir an, jemand wollte eine Volltextsuche programmieren. Nehmen wir weiterhin an - um der Sache hier den Off-Topic-Charakter zu nehmen - es ginge um eine Volltextsuche für das Aussensaiter-Forum.

Wenn man so eine Volltextsuche baut, gelangt man sehr schnell zu der Erkenntnis, daß es bistimmte Wörter gibt, nach denen man nicht sucht, weil sie in der Sprache eine Füllfunktion darstellen, weil sie unverhältnismäßig oft vorkommen, weil es nix bringt, nach ihnen zu suchen, denn sie kommen in jedem Beitrag dutzendmal vor. Das sind die sogenannten Stopwords.

Die richtige Auswahl der Stopwords ist eine der geheimen Komponenten beim Bauen eines Web-Crawlers, denn sie ist maßgeblich für die Effizienz der Suchmaschine sowohl beim Indizieren als auch beim Finden. Ich kann also nicht mal eben schnell bei Fritz Google anrufen und ihn um seine Stopword-Liste bitten.

Bis jetzt habe ich außer der Bedingung, daß ein Suchwort mindestens 3 Zeichen lang sein muß, folgende Stopwords:

    aber alle alles als also auch auf aus bei bis bzw dann das
dass dem den denn der des die dieses dir durch ein eine
einem einer einfach etc euch fuer hab habe hast hat hatte
hin ich ihm ihn ihr ihre immer ins ist jede jeden jeder kann
kein keine mal man meine meinem mich mir mit nach nicht noch
nun nur oder oft ohne sehr sein sich sie sind ueber und uns
unser unsere unten unter usw vom von vor war was wenn wer
wie wir zum zur zwar


Wenn man jetzt noch solche Gebilde wie ulllis nciht dazunehmen würde, wäre der Index glatt um die Hälfte kleiner ;-) aber das würde der ganzen Sache den speziellen Charme nehmen, auch nach Aussensaiter-spezifischen Besonderheiten suchen zu können.

Ein Beispiel: ulllis nciht kommt in den Beiträgen 635, 665, 667, 689, 726, 774, 781, 817, 818, 820, 823, 824, 849, 908, 10202, 10728, 11283, 12037, 12063, 12190, 12304, 12307, 12313, 12323, 12326, 12386, 12398, 12399, 12665, 12725, 12728, 12729, 12777, 12789, 12791, 12896, 12945, 13255, 13292, 13347, 13351, 13381, 13446, 13901, 13903, 13914, 13921, 13988, 13990, 14045, 14050, 14076, 14533, 14636, 15109, 15168, 15171, 15597, 16312, 16831, 16935, 17249, 17253, 18200, 18957, 19052, 19175, 19320, 19387, 19527, 19551, 19608, 19617, 20002, 20027, 20028, 20144, 20476, 20477, 20544, 20547, 20877, 22242, 22317, 22354, 22905, 23141, 23692, 23890, 23940, 23941, 23959, 24464, 24499, 24509, 24563, 24602, 25284, 25508, 25509, 25599, 25636, 25637, 25659, 26029, 26119, 26787, 26791, 26930, 26931, 27097, 27139, 27486, 27506, 27533, 27535, 28299, 29119, 29457, 29462, 29836, 29839, 30191, 30461, 30465, 30549, 30563, 30884, 31768, 32009, 32098, 32236, 32340, 32399, 32507, 32521, 32522, 32524, 32535, 32592, 32984, 33022, 33040, 33235, 33603, 33604, 33607, 33609, 33686, 33791, 33793, 33795, 33796, 34046, 34086, 34101, 34258 und 34275 vor. Täte man dieses schöne Wort in die Stopwords-Liste tun, würde man vielleicht dem Index einen Gefallen tun, man könnte es aber andererseits nicht mehr finden, das Wort. Problem verstanden? Es kommt also drauf an, bei der Wahl der Stopwords auch Aussensaiter-Besonderheiten zu berücksichtigen - vielleicht hat jemand als fast einzige Erinnerung an einen gesuchten Artikel ja noch einen besonders markanten Tippfehler oder so im Kopf.
Wobei es mir hier natürlich nicht primär um Tippfehler geht, war ja nur ein Beispiel.

Wer also Vorschläge zur Erweiterung oder Kürzung der Stopwords-Liste hat (nein, Claus, POD ist kein gutes Stopword), der möge das mir bitte kundtun. Danke.

Keep rockin'
Friedlieb


verfasste Antworten:



Dieser Beitrag ist älter als 3 Monate und kann nicht mehr beantwortet werden.