Aussensaiter Forum

Diskussionen mit neuen Beiträgen

Hier darf jeder frei heraus seine Meinung sagen, solange niemand beleidigt wird. Auf Postings von Vollidioten sinnvollerweise gar nicht erst antworten.
Extrem unerwünscht sind reine Werbe-Beiträge. Danke.

(-) Header verbergen



Übersicht

(Volltextsuche) Stopwords

Guten Morgen,

dies ist ein kleiner Hilferuf an Alle.

Nehmen wir an, jemand wollte eine Volltextsuche programmieren. Nehmen wir weiterhin an - um der Sache hier den Off-Topic-Charakter zu nehmen - es ginge um eine Volltextsuche für das Aussensaiter-Forum.

Wenn man so eine Volltextsuche baut, gelangt man sehr schnell zu der Erkenntnis, daß es bistimmte Wörter gibt, nach denen man nicht sucht, weil sie in der Sprache eine Füllfunktion darstellen, weil sie unverhältnismäßig oft vorkommen, weil es nix bringt, nach ihnen zu suchen, denn sie kommen in jedem Beitrag dutzendmal vor. Das sind die sogenannten Stopwords.

Die richtige Auswahl der Stopwords ist eine der geheimen Komponenten beim Bauen eines Web-Crawlers, denn sie ist maßgeblich für die Effizienz der Suchmaschine sowohl beim Indizieren als auch beim Finden. Ich kann also nicht mal eben schnell bei Fritz Google anrufen und ihn um seine Stopword-Liste bitten.

Bis jetzt habe ich außer der Bedingung, daß ein Suchwort mindestens 3 Zeichen lang sein muß, folgende Stopwords:

    aber alle alles als also auch auf aus bei bis bzw dann das
dass dem den denn der des die dieses dir durch ein eine
einem einer einfach etc euch fuer hab habe hast hat hatte
hin ich ihm ihn ihr ihre immer ins ist jede jeden jeder kann
kein keine mal man meine meinem mich mir mit nach nicht noch
nun nur oder oft ohne sehr sein sich sie sind ueber und uns
unser unsere unten unter usw vom von vor war was wenn wer
wie wir zum zur zwar


Wenn man jetzt noch solche Gebilde wie ulllis nciht dazunehmen würde, wäre der Index glatt um die Hälfte kleiner ;-) aber das würde der ganzen Sache den speziellen Charme nehmen, auch nach Aussensaiter-spezifischen Besonderheiten suchen zu können.

Ein Beispiel: ulllis nciht kommt in den Beiträgen 635, 665, 667, 689, 726, 774, 781, 817, 818, 820, 823, 824, 849, 908, 10202, 10728, 11283, 12037, 12063, 12190, 12304, 12307, 12313, 12323, 12326, 12386, 12398, 12399, 12665, 12725, 12728, 12729, 12777, 12789, 12791, 12896, 12945, 13255, 13292, 13347, 13351, 13381, 13446, 13901, 13903, 13914, 13921, 13988, 13990, 14045, 14050, 14076, 14533, 14636, 15109, 15168, 15171, 15597, 16312, 16831, 16935, 17249, 17253, 18200, 18957, 19052, 19175, 19320, 19387, 19527, 19551, 19608, 19617, 20002, 20027, 20028, 20144, 20476, 20477, 20544, 20547, 20877, 22242, 22317, 22354, 22905, 23141, 23692, 23890, 23940, 23941, 23959, 24464, 24499, 24509, 24563, 24602, 25284, 25508, 25509, 25599, 25636, 25637, 25659, 26029, 26119, 26787, 26791, 26930, 26931, 27097, 27139, 27486, 27506, 27533, 27535, 28299, 29119, 29457, 29462, 29836, 29839, 30191, 30461, 30465, 30549, 30563, 30884, 31768, 32009, 32098, 32236, 32340, 32399, 32507, 32521, 32522, 32524, 32535, 32592, 32984, 33022, 33040, 33235, 33603, 33604, 33607, 33609, 33686, 33791, 33793, 33795, 33796, 34046, 34086, 34101, 34258 und 34275 vor. Täte man dieses schöne Wort in die Stopwords-Liste tun, würde man vielleicht dem Index einen Gefallen tun, man könnte es aber andererseits nicht mehr finden, das Wort. Problem verstanden? Es kommt also drauf an, bei der Wahl der Stopwords auch Aussensaiter-Besonderheiten zu berücksichtigen - vielleicht hat jemand als fast einzige Erinnerung an einen gesuchten Artikel ja noch einen besonders markanten Tippfehler oder so im Kopf.
Wobei es mir hier natürlich nicht primär um Tippfehler geht, war ja nur ein Beispiel.

Wer also Vorschläge zur Erweiterung oder Kürzung der Stopwords-Liste hat (nein, Claus, POD ist kein gutes Stopword), der möge das mir bitte kundtun. Danke.

Keep rockin'
Friedlieb

Re: (Volltextsuche) Stopwords

Hallo Friedlieb!
Die Liste sieht gut aus, hab gerade mal frei heraus alle Wörter die mir einfielen auf ein Blatt gekritzelt und diese waren mit Deinen quasi identisch.
Ach Friedlieb, kannst Du mir vielleicht noch mal den link zum Friedlink geben, habe alle Daten kürzlich verloren und ich kann gar nicht selbst verlinken:-)?!
Viele Grüße,
Patrick

Re: Stopwords / George Dennis-Amps

Hallo!
Vielen Dank Friedlieb.

Und an alle: Kennt jemand einen Händler, der Amps von George Dennis anbietet? Bei Musik-Produktiv gab es den Blue 60 (der mich am stärksten interessiert), aber ist jetzt leider ausverkauft.
Von den Amps sieht man sowenige und das bei der Ausstattung und guten Testergebnissen!
Viele Grüße,
Patrick

Re: George Dennis-Amps

Hi

: GEORGE DENNIS Amps gibt es bei Beyer's Music in :Bochum-Wattenscheid...

Aber auch nur sporadisch. Jetzt ist gerade keiner da (war heute dort). Ist wüsste auch nicht, ob sie die wirklich führen oder aber ob es nur gelegentliche Inzahlungnahmen sind, denn ich hab da nur einen bisher gesehen und bin eigentlich häufiger da.

Hat MP keine Dennis Amps?

Gruß,
groby

Re: George Dennis-Amps

: : GEORGE DENNIS Amps gibt es bei Beyer's Music in :Bochum-Wattenscheid...
:
: Aber auch nur sporadisch. Jetzt ist gerade keiner da (war heute dort). Ist wüsste auch nicht, ob sie die wirklich führen oder aber ob es nur gelegentliche Inzahlungnahmen sind, denn ich hab da nur einen bisher gesehen und bin eigentlich häufiger da.
:
: Hat MP keine Dennis Amps?
: : Gruß,
: groby

Jau, Groby, kann sein. Ich hatte vor ein paar Wochen mal ein George Dennis Stack da hinten in diesem Mega-Verstärker Raum gesehen (wo die Triple Rectos, die Uberschalls und die fetten ENGL Schlachtschiffe 'rumstehen).....

Ich glaube, dass die bei MP und Thomann nur Pedale von George Dennis führen.

Gruss,
WP

Re: (Volltextsuche) Stopwords

quel blamage - aber ich hab's ja quasi herusgefordert ¦¬]

Bei allen AS-Eigenarten finde ich doch, nicht aus Eitelkeit, sondern aus genereller Sparsamkeit, dass Du 'nciht', 'ncoh' und 'udn' als Stopwords inserierst. Die sind nun wirklich haeufig und nicht besonders bezeichnend fuer spezielle Postings. Ich habe mir auch vorgenommen, Mavis Beacon mal wieder zu beehren, auf Dauer ist mir schon unangenehm, dass mich keiner fuer die vielen Typos anranzt...

Ich kann sonst keines finden - achso, wie waere es mit 'sonst' ¦¬]

gut Code!
ullli

Re: (Volltextsuche) ein paar mehr...

Guten Abend - also, fuenf Minuten mit Bauchschmerzen auf dem Bett rumliegen, und als Ablenkung mal meinen Schreibstil analysieren bringt einiges zutage... Ich wuerde der Kollektion

:
    aber alle alles als also auch auf aus bei bis bzw dann das
: dass dem den denn der des die dieses dir durch ein eine
: einem einer einfach etc euch fuer hab habe hast hat hatte
: hin ich ihm ihn ihr ihre immer ins ist jede jeden jeder kann
: kein keine mal man meine meinem mich mir mit nach nicht noch
: nun nur oder oft ohne sehr sein sich sie sind ueber und uns
: unser unsere unten unter usw vom von vor war was wenn wer
: wie wir zum zur zwar


die folgenden Worte auf jeden Fall

: 
darum deshalb dessen doch drum eventuell evtl. jupp logo naja hm... sowieso tja vielleicht weil wem wen wessen will wow


hinzufuegen. Nicht so sicher bin ich mir mit

kaum, hoch, mehr


hoch z.B. ist aehnlich wie 'unten' evtl. mal im Zusammenhang mit Sound oder Amp Einstellungen aufgetreten, udn macht Sinn, erhalten zu bleiben? also, die beduerfen Diskussion!

Mal sehen, ob ich noch laenger hier rumliege :-(
Wenigstens tut es einen guten Zweck :-))

gut Ton!
ullli



Re: (Volltextsuche) ein paar mehr...

Hi ullli,

danke für Deine Liste, die meisten Wörter leuchten mir sofort ein. Allerdings darf "drum" kein Stopword sein; wir haben zwar nur wenige Drummer hier, aber der Name eines Instruments muß natürlich suchbar sein. Und "hm" fliegt eh raus, da kürzer als 3 Zeichen. Aber die anderen sind klasse.

: Mal sehen, ob ich noch laenger hier rumliege :-(

Meine besten Wünsche sind mit Dir.

Keep rockin'
Friedlieb

Re: (Volltextsuche) ein paar mehr...


:
: die folgenden Worte auf jeden Fall
:
:
: 
: darum deshalb dessen doch drum eventuell evtl. jupp logo naja hm... sowieso tja vielleicht weil wem wen wessen will wow

:

"logo" vielleicht lieber nicht, sonst findet man nachher das Posting nicht wieder, wo sich Micha über das Design des Peavey-Logos beschwert :-)

Gruß,
Johannes

Re: (Volltextsuche) ein paar mehr...

Hi Johannes,

: "logo" vielleicht lieber nicht,

allein schon, weil es in Hamburg eine Kneipe mit diesem Namen gibt.

: sonst findet man nachher das Posting nicht wieder, wo sich Micha über das Design des Peavey-Logos beschwert :-)

...welches ich übrigens früher total geil fand - das alte Peavey Logo, wohlgemerkt.



Keep rockin'
Friedlieb

Re: (Volltextsuche) häufige Worte

Ja Redi,

: hast Du Dir schon mal so eine Liste angeschaut?

hab ich, danke. Die c't hatte ja vor ein paar Wochen auf die Wortschatzarbeit der Uni Leipzig hingewiesen, und diese Top 10 haben den Grundstock meiner Stopword-Liste gebildet. Übrigens sind "unsere" Top 10 sehr ähnlich gelagert. Bloß bestimmte Worte kommen zwar häufig vor, müssen aber trotzdem suchbar bleiben, z.B. "mehr" in "mehr Gain"...

Keep rockin'
Friedlieb

Re: (Volltextsuche) und weiter geht′s

Ich stelle fest - auch nach Parties, die mit Magenschmerzen anfangen, und mit guter Musik enden, kann wieder deutsche Worte denken...

gar, wegen, muss, weia

fallen mir spontan beim Aufwachen ein.
Weia, mittlerweile wird das ja recht unuebersichtlich. Fast ein Fall fuer eine Datenbank...

gut Ton!
ullli

Re: (Volltextsuche) ein paar mehr...

Moin Friedlieb!

: danke für Deine Liste, die meisten Wörter leuchten mir sofort ein.

Beruhigend...

: Allerdings darf "drum" kein Stopword sein; wir haben zwar nur wenige Drummer hier, aber der Name eines Instruments muß natürlich suchbar sein.

Was wiederum mir voellig einleuhtet!

: Und "hm" fliegt eh raus, da kürzer als 3 Zeichen.

Siehste, habe ich geahnt, weil Dein Skript sicher Interpolation komplett aussen vor laesst. Aber ich war gerade so gut dabei ¦¬]

: : Mal sehen, ob ich noch laenger hier rumliege :-(
:
: Meine besten Wünsche sind mit Dir.


Hat geholfen, Vielen Dank!
ullli

"udn" :) (k/t)

: Guten Abend - also, fuenf Minuten mit Bauchschmerzen auf dem Bett rumliegen, und als Ablenkung mal meinen Schreibstil analysieren bringt einiges zutage... Ich wuerde der Kollektion
:
: :
    aber alle alles als also auch auf aus bei bis bzw dann das
: : dass dem den denn der des die dieses dir durch ein eine
: : einem einer einfach etc euch fuer hab habe hast hat hatte
: : hin ich ihm ihn ihr ihre immer ins ist jede jeden jeder kann
: : kein keine mal man meine meinem mich mir mit nach nicht noch
: : nun nur oder oft ohne sehr sein sich sie sind ueber und uns
: : unser unsere unten unter usw vom von vor war was wenn wer
: : wie wir zum zur zwar

:
: die folgenden Worte auf jeden Fall
:
:
: 
: darum deshalb dessen doch drum eventuell evtl. jupp logo naja hm... sowieso tja vielleicht weil wem wen wessen will wow

:
: hinzufuegen. Nicht so sicher bin ich mir mit
:
:
kaum, hoch, mehr

:
: hoch z.B. ist aehnlich wie 'unten' evtl. mal im Zusammenhang mit Sound oder Amp Einstellungen aufgetreten, udn macht Sinn, erhalten zu bleiben? also, die beduerfen Diskussion!
:
: Mal sehen, ob ich noch laenger hier rumliege :-(
: Wenigstens tut es einen guten Zweck :-))
:
: gut Ton!
: ullli


Re: (Volltextsuche) häufige Worte

Hm, dann wirst Du sicher auch diese Liste kennen:

    ab anderem aufweisen
    aber anderen aufweisende
    als andererseits aufweisenden
    am anderes aus
    an anders
    andere auf
    bei bereits bevor
    beide bestimmt bezueglich
    beidem bestimmte bis
    beiden bestimmtem bisher
    beides bestimmten bzw
    beim bestimmter
    beispielsweise bestimmtes
    da darunter derer
    dabei das derselben
    dadurch dass des
    dafuer davon desselben
    dagegen dazu dessen
    daher dem die
    damit demselben diese
    danach den diesem
    dann denselben diesen
    daran denen dieser
    darauf der dieses
    daraus derart dort
    darin deren durch
    eben einzeln entsprechendem
    ebenfalls einzelne entsprechender
    ein einzelnem entsprechendes
    eine einzelnen entweder
    einem einzelner er
    einen einzelnes erst
    einer entsprechend es
    einerseits entsprechende etwa
    eines entsprechenden etwas
    falls fast fuer
    ganz gegenueber gemeinsam
    gegebenenfalls gekennzeichent genau
    gegen gemaess ggf
    haben hat hinter
    ihre im insbesondere
    ihrem immer insgesamt
    ihren in ist
    ihrer indem
    ihres infolge
    je jeden jedoch
    jede jeder
    jedem jedes
    kann keinem keines
    kein keinen
    keine keiner
    man mehreren mittels
    mehr mehrerer
    mehrere mit
    nach neben noch
    nacheinander nicht nur
    ob oder
    oberhalb ohne
    pro
    schliesslich so somit
    sehr sobald sondern
    selbst sodass sowie
    sich sofern sowohl
    sie sofort statt
    sind solange
    teils teilweise
    ueber und unterhalb
    um unter usw
    vom vor
    von vorher
    waehrend welchen wird
    was welcher wo
    wegen welches wobei
    weiter wenigstens wodurch
    weiterhin wenn worden
    weitgehend werden worauf
    welche wie worin
    welchem wieder wurde
    zu zumindest zusaetzlich
    zueinander zunaechst zwar
    zugleich zur zwecks
    zum zusammen zwischen

ACHTUNG: schlie_ß_lich, Umlaute?

redi

Re: (Volltextsuche) noch mehr/andere häufige Worte

... und diese auch ...
    ab aber ähnlich alle allein allem aller alles allg allgemein als also am an and andere anderes auch auf aus außer been bei beim besonders bevor bietet bis bzw da dabei dadurch dafür daher dann daran darauf daraus das daß davon davor dazu dem den denen denn dennoch der derem deren des deshalb die dies diese diesem diesen dieser dieses doch dort durch eben ein eine einem einen einer eines einfach er es etc etwa etwas for für ganz ganze ganzem ganzen ganzer ganzes gar gleich gute hat hinter ihm ihr ihre ihrem ihren ihrer ihres im in ist ja je jede jedem jeden jeder jedes jene jenem jenen jener jenes jetzt kann kein keine keinem keinen keiner keines kommen kommt können leicht machen man mehr mehrere meist mit muß nach neu neue neuem neuen neuer neues nicht noch nur ob oder of ohne per schwierig sehr sein seinem seinen seiner seines seit selbst sich sie sind so sodaß solch solche solchem solchen solcher solches sollte sollten soviel sowohl statt über um und uns unser unsere unseren unseres unter viel viele vom von vor wann war was wenig wenige weniger wenn wer wie wieder wieviel wird wirklich wo wurde wurden zu zum zur zwischen
redi

Re: (Volltextsuche) Links für Stopwörter

Servus,

aus dieser Linkliste hab ich's her (dort http://www.fiz-karlsruhe.de/stn/documentation/erf98/24.html und http://edvmix3.ub.tu-berlin.de/freitext/stopwords.html).

Übrigens: sind die Datenmengen soo groß, daß man das braucht? Denn man weiß ja nie, ob nicht mal eine Buchstabenkombination nicht eine (neue) Bedeutung erhält. Vielleicht heißt ja der nächste (_näxte_) supergeile Gitarrenverstärker MAL - so wie "Hör doch MAL!".

redi

Re: (Volltextsuche) Links für Stopwörter

Hi Redi,

: Übrigens: sind die Datenmengen soo groß, daß man das braucht?

Wir haben 350 Megabytes an Text, verteilt auf 35000 Files. Tendenz steigend. Und einen Wortschatz von weit über 100000 Wörtern. Die üblichen Verdächtigen (Perlfect Search, HTDig usw.) machen einen guten Job bis so ca. 10000 Dateien und gehen dann in die Knie (HTDig nicht so, scheidet aber aus einem anderen Grund aus). Ich habe inzwischen ne ganze Handvoll etablierte Scripts getestet, sie genehmigen sich allesamt so um die 200MB pro 10000 Files, oder mehr, und das sprengt somit selbst unser Gigabyte Webspace. Daß die meisten dieser Tools nicht inkrementell indizieren können, ist ein weiteres Problem. Ich bin jetzt mit meinem selbsterstellten Verfahren inzwischen von 400 MB für alles auf 20 MB runter, ohne Stopwords habe ich die neueste Optimierung von gestern abend noch nicht getestet. Aber unterm Strich: ja, es ist schon ein Platzproblem.

Es sei denn, es käme jemand und würde sagen, hey Jungs, coole Seite, hier habt ihr zweieinhalbtausend Mark, mietet Euch davon nen dedizierten Server mit 25GB Webspace für ein Jahr. Wenn die Kohle alle ist, sacht Bescheid. Nö, Banners braucht ihr nicht zu schalten, ist ne Spende. Dann wäre Platz kein Problem. So ist er es.

Aber darüber hinaus ist es auch eine Sinnfrage. Es macht einfach keinen Sinn, nach Wörtern wie der, die, das suchen zu können. Denn sie tauchen in jedem Posting auf und sie zu finden ist somit nur von sehr geringem Unterhaltungswert.

: Denn man weiß ja nie, ob nicht mal eine Buchstabenkombination nicht eine (neue) Bedeutung erhält. Vielleicht heißt ja der nächste (_näxte_) supergeile Gitarrenverstärker MAL - so wie "Hör doch MAL!".

Vollkommen richtig. Deshalb hab ich die Frage hier ja auch gestellt. Denn natürlich sind etliche Wörter, die sonst als Stopwords verwendet werden, bei uns von Belang. Aber außer Dir und ullli scheints ja kaum einen zu interessieren - um so besser, jeder, der jetzt schweigt, verliert automatisch nachher das Recht zu kritischen Anmerkungen. ;-)

Keep rockin'
Friedlieb

Re: (Volltextsuche) Links für Stopwörter

Aber außer Dir und ullli scheints ja kaum einen zu interessieren - um so besser, jeder, der jetzt schweigt, verliert automatisch nachher das Recht zu kritischen Anmerkungen. ;-)

Aloha Friedlieb -

you've got mail (im Ynternen) ...

slide on ...
bO²gie

PS: Stopworte? Hmmm, wie wäre es mit: lydisch, frygisch, subdominantseptime, vai ....

Stopwörter und das liebe Geld

Hi!

: Aber außer Dir und ullli scheints ja kaum einen zu interessieren - um so besser, jeder, der jetzt schweigt, verliert automatisch nachher das Recht zu kritischen Anmerkungen. ;-)

Moooment! Das interessiert mich schon, was Du da machst, nur verstehe ich nur die Hälfte maximal. Bislang hatte ich nämlich nicht verstanden, welchen Sinn diese Stopwords haben. Wer allen Ernstes "welchen, diese, haben, wer, alles" in eine Suchmaschine eingibt, hat meiner bescheidenen Ansicht nach ohnehin eine merkwürdige Vorstellung von dem, was er sucht! ;-)

Dennoch fallen hier mal wieder Stichworte, nämlich Platzbedarf, Werbung und Geld. An dieser Stelle möchte ich mal wieder darauf hinweisen, dass wir meiner Ansicht nach ruhig mal mit dem Hut rumgehen können, um diese Seite zu finanzieren. Gleichzeitig stellt sich dann auch die Frage, ob Werbung hier ein Thema sein soll und kann.

Ansonsten halte ich schlicht meinen Schnabel, weil alles andere wenig hilfreich wäre.

Mahlzeit!

Matthias

Re: Stopwörter

Hi Matthias!

Naja, es werden hoffentlich keine Leute einfach nur "nicht" in eine Maschine eingeben, aber seit es Suchmaschinen wie askjeeves.com gibt, kriegen die Kinners ja beigebracht, mit Menschlichen Saetzen zu suchen - was IMHO auch mal ein Fortschritt im Internerd ist!

Aber ich glaube, der wirkliche Haken ist noch etwas unklar geblieben - diese Suche, an der Friedlieb bastelt, funktioniert ja nicht so, dass ein Skript bei jedem Auftrag loslaeuft, und den ganzen Wust durchsucht. Wuerde Stunden dauern. Sondern - einmal fuer alle Zeiten wird der ganze Wust durchsucht und indiziert, d.h., fuer jedes gefundene Wort (abzueglich der Stop-Woerter) wird ein Link in einer Datei angelegt, die Dateien werden nach Art des Telefonbuches sortiert, und mit recht netten Suchalgorithmen wird dann fix mal eben nur diese Datenbank durchsucht. Und die dort gespeicherten Links verweisen eben auf die Postings, die der Suchende dann anklickt.
Und weil allein in diesem Posting nun schon wieder ellenlang das Wort "und" vorkam, sind die Stopwoerter so wichtig, weil sie von vornherein verhindern, dass diese Worte die Datenbank anschwellen lassen...

Ich hoffe, das war jetzt technisch richtig, aber Du sollst nicht einfach hinnehmen, dass Du nicht weisst, wovon die Rede ist!! :0)

gut Ton!
ullli

Re: Stopwörter

Hi Ullli!

Danke für diese blondinengerechte Erklärung! Ich hatte die Sache etwa so gesehen wie Matthias (wer, zum Henker, gibt schon "und" in eine Suchmaschine ein), aber ich wollte mich nicht als total planlos outen *schäm* :-)))

Viele Grüße
Doc

P.S.: jetzt weißt Du auch, warum die Mails nicht umgeleitet werden...

Re: Stopwörter und das liebe Geld

Hi Matthias,

: Wer allen Ernstes "welchen, diese, haben, wer, alles" in eine Suchmaschine eingibt, hat meiner bescheidenen Ansicht nach ohnehin eine merkwürdige Vorstellung von dem, was er sucht! ;-)

Durchaus. Bloß - wer "welchen, diese, haben, wer, alles" suchbar macht, braucht ohne Übertreibung 20mal soviel Speicherplatz für das Wortregister wie beim Verzicht auf die richtigen "falschen" Wörter.

: Dennoch fallen hier mal wieder Stichworte, nämlich Platzbedarf, Werbung und Geld. An dieser Stelle möchte ich mal wieder darauf hinweisen, dass wir meiner Ansicht nach ruhig mal mit dem Hut rumgehen können, um diese Seite zu finanzieren.

Die Geschichte mit dem Platzbedarf für die Wortliste war ja eher hypothetisch, weil man (eben durch den Einsatz von Stopwörtern) und durch sinnfällige Programmierung auch ne Menge Platz sparen kann. Mein momentanes Versuchskaninchen braucht nur 2 Prozent des Speicherplatzes, den der angebliche "Industriestandard" in Sachen Volltextsuche sich genehmigt. Insofern herrscht im Moment keine Not.

Und jetzt rede ich mal nur von mir: ich kann mit der momentanen Situation sehr gut leben. Wenn einer der anderen 7 CGIGANGler das anders sieht, möge er das hier kundtun, ich glaubs aber nicht. Ein Platz-Problem wird eintreten etwa bei Session 20 (wenn die Fotografiererei ungefähr so weitergeht) oder ab ungefähr Posting 200000 (weil dann die Datenbank unser momentanes Platz-Limit überschreiten wird). Das Forums-Script selbst kann mit ca. 2 Milliarden Postings umgehen; bis dahin ist also noch hinreichend Zeit, es entsprechend umzustellen. Ein weiteres Problem könnte auftreten, wenn einer apspringt (oder mehrere). In all diesen Problemfällen werde ich nicht zögern, hier um Hilfe zu rufen, und es ist gut zu wissen, daß diese Rufe dann nicht ungehört verhallen werden. Aber im Moment läuft es imho ganz gut so.

: Gleichzeitig stellt sich dann auch die Frage, ob Werbung hier ein Thema sein soll und kann.

Wer meint, daß man durch Bannerwerbung auf einer Seite wie dieser hier nennenswerte einnahmen erzielen kann, möge erst mal das hier lesen. Abgesehen davon - mich persönlich nerven diese Banner total, und ich würde lieber doppelt soviel Kohle abdrücken wie jetzt, bloß um sie zu vermeiden. :-)


Keep rockin'
Friedlieb

Re: Stopwörter

Hi Doc!

: Danke für diese blondinengerechte Erklärung!

Na hoemma - nun mal nicht so klein machen - nachdem ich es selber nochmal durchlas, fragte ich mich eher, ob es irgendwas helfen taet. Aber schoen, wenns denn recht kam :0)

: P.S.: jetzt weißt Du auch, warum die Mails nicht umgeleitet werden...

Na, wie Du ja jetzt weisst, hilft ein wenig Verstaendnis der Technik auch icht den Augen ¦¬]

gut Ton!
ullli

Re: Stopwörter und das liebe Geld

Lieber Friedlieb,

nach ulllis und Deinen Erklärungen habe ich es jetzt auch begriffen! Hat ja lange genug gedauert, wenn ich auch heimlich glaube, dass es mehr als Doc und mich gab, die vorher mit dem Thema nicht umgehen konnten.

: Insofern herrscht im Moment keine Not.
: In (...) Problemfällen werde ich nicht zögern, hier um Hilfe zu rufen, und es ist gut zu wissen, daß diese Rufe dann nicht ungehört verhallen werden.

Na, das lassen wir nicht so stehen, sondern unterstreichen es DICK!!

Mahlzeit

Matthias

Re: (Volltextsuche) Links für Stopwörter

: : Übrigens: sind die Datenmengen soo groß, daß man das braucht?

Nachtrag: Gerade frisch getestet.

Mit Stopwords etwa 1 Kilobyte Index pro Posting, Zeit für die Erstellung des gesamten Index: gut 1 Stunde. Ohne Stopworts etwa 25% mehr Speicherbedarf (echt moderat dank maßgeschneiderter Speicher-Architektur), Zeit für die Erstellung des gesamten Index: knapp 4 Stunden. Ist also auch eine Performance-Frage.

Da der Index je Posting fortgeschrieben werden soll (schließlich will man in der Volltextsuche auch Postings finden können, die gerade erst geschrieben wurden), spielt hier die Performance eine Rolle. Schließlich hat keiner Bock, beim Posten mehrere Sekunden länger als nötig auf das erlösende "Beitrag wurde gespeichert" zu warten...

Keep rockin'
Friedlieb

Re: (Volltextsuche) Links für Stopwörter

Hi ullli,

: Vermarktest Du das jetzt? Ich meine, wenn alle "professionellen" Tools so schwerfaellig und fett sind?

Nein, das ist ja eine maßgeschneiderte Lösung. Um es zu vermarkten, müßte es universell einsetzbar sein und für alle Zwecke anzupassen. Und wär dann wahrscheinlich auch wieder fett. :-)

Keep rockin'
Friedlieb

NP: Whiskey in the Jarrrryyyyaaaah/Metallica im Radio