EINFÜHRUNG IN DIE INFORMATIONSWISSENSCHAFT
Rafael Capurro

Kapitel 6: Information Retrieval und WWW-Navigation

INHALT

6.1 Einführung
6.2 Der Online-Dialog
6.3 Die Frage nach der Relevanz des Retrievalergebnisses
6.4 Mehrsprachiges Information Retrieval
6.5 Bild- und Ton-Retrieval
6.6 WWW-Navigation
6.7 Informetrie und Bibliometrie
6.8 Zur Vertiefung
6.9 Für Fortgeschrittene
Übungen

6.1 Einführung

6.1.1 Zur Einstimmung

George Anders: Marc Andreessen: Act II February 2001
Ron Lieber: She Reads Customers' Minds February 2001

6.1.2 Literatur

Praktisch-orienterte Einführungen:
J. Bachmann: Der Information Broker. Informationen suchen, sichten, präsentieren. München 2000.
E. Poetzsch: Information Retrieval. Einführung in Grundlagen und Methoden. Potsdam 2001.
Stock, W: Anwendungsbeispiele Online-gestützter Betriebswirtschaft. In: W. Pepels, Hg.: E-Business-Anwendungen in der Betriebswirtschaft. Herne/Berlin: Verlag Neue Wirtschafts-Briefe 2002, S. 198-315.

Grundlegend aus informationswissenschaftlicher Sicht:
K. Sparck Jones, P. Willet, Eds.: Readings in Information Retrieval (Morgan Kaufmann Series in Multimedia Information and Systems) 1997.

und aus Informatik-Sicht:
R. Baeza-Yates, B. Ribeiro Neto: Modern Information Retrieval. Addison Wiley 1999.

Empfohlene Lehrmaterialien:

Klaus Lepsky (FH Köln): Methoden und Verfahren des Information Retrieval (pdf)
Bernhard Debatin (Ohio Univ. USA): information gathering

6.1.3 Historischer Exkurs

"So wie der Aufbau einer Datenbasis ein schöpferischer Prozeß, d.h. eine "ars" ist, so ist es ebenfalls der Prozeß der Wiedergewinnung von im Computer gespeicherten und für die Suche aufbereiteten (bibliographischen) Fachinformationen, das Information Retrieval.

Wenn wir in diesem Zusammenhang von "ars quaerendi", d.h. der Kunst des fragenden Suchens (und Findens) sprechen, dann im Hinblick auf eine andere traditionsreiche und mit unserer Kunst verwandte Methode, nämlich die der "ars inveniendi". Vermutlich war Cicero (106-43 v.Chr.) der erste, der von "ars inveniendi" als der Kunst des Findens von rhetorischen Argumenten sprach, während die "ars judicandi" sich mit der Evaluierung und Strukturierung der Argumente in der Rede befaßte. Cicero beruft sich auf Aristoteles, der im Zusammenhang mit der dialektischen Kunst eine "Topik" bzw. eine "Heuristik" entwickelte (Vgl. Cicero: Topica II.6).

Es war aber vor allem Gottfried Wilhelm Leibniz (1646-1716), der die Begriffe "ars inveniendi", d.h. ein algebraisches Verfahren zur Auffindung neuer Wahrheiten (innerhalb einer Wissenschaft) und "ars iudicandi", d.h. ein algebraisches Verfahren zur Entscheidung über die Wahrheit eines Satzes, prägte (G.W. Leibniz: Dissertatio De Arte Combinatoria, Berlin 1971). Beide Verfahren betreffen also den Findungsprozeß noch nicht bekannter Wahrheiten. Sie sollen der Wahrheitsfindung dienen. Demgegenüber, bemekrt Leibniz an anderer Stelle (G.W. Leibniz: Discours touchant la méthode de la certitude et l'art d'inventer, Kap. LIV, Aalen 1959), steht der gesamte Bereich der schon bekannten und "nützlichen" Wahrheiten ("verités utiles", "connnoissances solides et utiles"). Diese sind zum Teil schriftlich fixiert, befinden sich aber in großer Unordnung ("desordre"), zum Teil sind sie nicht geschrieben, besonders die, welche die Berufspraxis betreffen ("gens de profession"). Um sie zu ordnen und auffindbar zu machen, müsste man sie sammeln bzw. erst niederschreiben, Kataloge erstellen, genaue Register ("indices") mit Verweisen aller Art wären nötig usw. Leibniz erwähnt in diesem Zusammenhang auch die Frage nach dem Suchen von bereits bekannten, gesammelten und geordneten Erkenntnissen, wodurch wir erst in unserem Wissen und Tun fortschreiten können.

In Anschluß an Leibniz wollen wir von "ars quaerendi" - der entsprechende griechische Ausdruck könnte, im Unterschied zu "Heuristik" etwa "Heuretik" heißen - sprechen. Eine ähnliche begriffliche und terminologische Unterscheidung wird im Bereich der "künstliche-Intelligenz-Forschung" zwischen "heuristics" (Technik zur Verbesserung der Effizienz eines Suchprozesses) und "heuretics" (das Wissen um die Suchkunst selbst) gemacht (vgl. E. Rich: Artificial Intelligence, New York 1983, S. 35 ff).

Es geht um die Kunst des Suchens und Findens von Erkenntnissen, sofern diese bereits (schriftlich fixiert) vorliegen. Im Unterschied zur "ars inveniendi" und "iudicandi" geht es nicht um einen Prozeß der Wahrheitsfindung, sondern im Mittelpunkt des suchenden Fragens steht die Relevanz bzw. die Nützlichkeit ("vérités utiles"!) des Gefundenen. Die Wahrheitsfrage stellt sich also sowohl bei "Referenz-" als auch bei "Quellen-Datenbasen" vor der Eingabe (z.B. bei der Evaluierung von numerischen Daten und, selbstverständlich, beim Aufbau von bibliographischen Datenbasen) bzw. nach der Suche. Der Erkenntnisfortschritt (auch Leibniz' Auffindung neuer Wahrheiten durch die "ars inveniendi" bzw. Klärung des noch unvollkommenen Erkannten durch die "méthode de la certitude") und die Möglichkeit, Erkenntnis in die (berufliche) Praxis umzusetzen, gründen nicht zuletzt in der "Kunst", das bereits Gewußte zu suchen und zu finden.

Inwiefern die sogenannten Expertensysteme auch eine "ars inveniendi", oder zumindest eine unmittelbare Unterstützung dafür, darstellen können und sollen, bleibe offen. Die "ars quaerendi" bezieht sich hier auf den Prozeß des Fragens im Hinblick auf die Auffindung (möglicherweise) relevanter Fachinformationen." (Capurro 1986, 165-167)

6.2 Der Online-Dialog

6.2.1 Der Online-Dialog als Interpretationsprozeß
6.2.2 Retrievalsprachen und -strategien
6.2.3 Retrievalsprachen von DB-Anbietern
6.2.4 Kosten und Marketing
6.2.5 Kommunikationsnetze und Datenkommunikation

6.2.1 Der Online-Dialog als Interpretationsprozeß

"Obwohl der Ausdruck "Online-Dialog" längst in der Praxis des Information Retrieval eingebürgert ist, könnte der Einwand erhoben werden, daß der ursprüngliche Ort des Begriffs "Dialog" wohl das zwischenmenschliche Verhältnis ist. Für die Hermeneutik besteht aber eine leitende Gemeinsamkeit zwischen dem Textverständnis und der Verständigung im Gespräch. Dieses besteht darin, daß es in beiden Fällen um ein Verständnis über eine Sache geht und daß dieses Verständnis, wie wir oben gezeigt haben, sich als Frage im Medium der Sprache vollzieht (Vgl. H.G. Gadamer: Wahrheit und Methode, op.cit. S. 344 ff; vgl. II.2.c)

Wir können diese leitende Gemeinsamkeit im Hinblick auf den Zusammenhang zwischen dem Fragenden und der im Computer gespeicherten Datenbasis ausweiten, indem hier eine eigene Dynamik nicht nur von Seiten des Fragenden, sondern auch von der des Textes zustande kommt, die sich dadurch von der Erfahrung des Verständnisses eines gedruckten Textes unterscheidet. Diese Dynamik ist der des zwischenmenschlichen Dialogs vergleichbar, indem hier das System eine dem verobjektivierten Vorverständnis gemäße "Antwort" gibt.

Diese Gemeinsamkeit sollte aber nicht als eine Anthropomorphisierung dieses Vorganges gedeutet werden, denn, wie Oeser mit Recht bemerkt, "der informationsverarbeitende Automat ist in Analogie zum Menschen gebaut und nicht umgekehrt." (E. Oeser: Wissenschaft und Information, op.cit. S. 68). Die hermeneutische Situation gegenüber Texten unterscheidet sich von der des zwischenmenschlichen Gesprächs u.a. dadurch, daß der Text stets des Interpreten bedarf, um "zu Worte zu kommen" (H.G. Gadamer: Wahrheit und Methode, op.cit. S. 365). Auch Datenbasen bedürfen des Interpreten und bei ihrer Befragung findet jene Verbindung aufgrund der gemeinsamen Sache statt, die auch das wirkliche Gespräch charakterisiert. So wie im Falle des Textes von einem "hermeneutischen Gespräch" die Rede ist, so scheint es auch hier berechtigt, von einem "Online-Dialog" zu sprechen. Die dem Online-Dialog eigene Dynamik wird aber dadurch möglich, daß hier bestimmte Vorverständnisse fixiert werden, die den Rahmen und die Grenzen des "antwortenden" Systems bilden. Indem der Fragende die Datenbasis befragt, bringt er sein Vorverständnis der thematisierten Sachverhalte, das er mit der jeweiligen Fachgemeinschaft mit-teilt, ins Spiel. Erst im Licht dieses "Profils", werden die gespeicherten Daten zu Fachinformation, indem sie in einen bestimmten Mitteilungsprozeß einbezogen und von diesem "geformt" werden

Vgl. E. Garfield: What Are Facts (Data) and What is Information? In: ders.: Essays of an Information Scientist, Philadelphia 1977, Vol. II, S. 47ff, der in diesem Zusammenhang auf den etymologischen Ursprung des Informationsbegriffs hinweist. Vgl. v.Vf.: Information, München 1978.

Die Zusammenkunft zwischen einem Fragenden und einem (Informations-)System ist als ein hermeneutischer Prozeß zu deuten, in dessen Verlauf der offene Horizont des Fragenden und der fixierte Horizont des Systems sich vorläufig "verschmelzen", d.h. das verobjektivierte Vorverständnis erscheint jeweils als (mögliche) Antwort auf eine Frage und wird somit verstehend im Online-Dialog wiedergewonnen. Bei dieser Horizontverschmelzung (matching) zeigt sich zugleich die Identität und die Differenz der sich auf- und abhebenden Horizonte.

FRAGENDER <=> SYSTEM

offene Vorverständnisse: - Fachgemeinschaft - Sachverhalte im Netz ihrer Bedeutungen und Verweisungen - Weltoffenheit verobjektivierte Vorverständnisse: - Klassifikationen - Thesauri - Kurzfassungen - bibliogr. Angaben

Horizontverschmelzung (matching) ("hermeneutischer Zirkel")

Auf der einen Seite haben wir den offenen Horizont des Fragenden, eignebettet ins Vorverständnis der Fachgemeinschaft. Aus der Auseinandersetzung mit den Sachverhalten in ihren vielfältigen Bedeutungs- und Verweisungszusammenhängen entspringen die jeweiligen Fragen bzw. Probleme unterschiedlicher Art. Wir sahen, daß Belkin den Begriff des "anomalous state of knowledge" (ASK-Zustand) als Bezeichnung für den Zustand eines Noch-nicht-verstehens vor dem Hintergrund eines bereits gewonnenen Vorverständnisses prägte. Ein solcher Zustand ist immer schon, wie Belkin mit Recht betont (N.J. Belkin, R.N. Oddy, H.M. Brooks.: ASK for Information Retrieval. In:Journal of Documentation 38 (1982) 2, S. 61ff), durch die Interaktion mit unseren Mitmenschen sowie mit der Welt, die wir gemeinsam mit-teilen, vermittelt.

Auf der anderen Seite steht der fixierte Horizont des Systems. Dieser ist zwar ausbau- (bzw. "lern-")fähig, d.h. er kann und wird ständig erweitert und aktualisiert, bleibt aber stets auf die ihm aus dessen Umgebung zufließenden und bereits in ihrer Bedeutung als potentielle Fachinformation vorverstandenen Daten angewiesen. Das gilt sowohl für die "Zielinformationen" selbst, also in unserem Fall für die Literaturhinweise, als auch für die unterschiedlichen Suchmittel (Thesaurus, Klassifikation usw.).

Beim Online-Dialog vollzieht sich eine mehrfache Horizontverschmelzung auf unterschiedlichen Ebenen: so z.B. auf einer "kontextfreien" Ebene, in der die Fachbegrifflichkeit des Fragenden, die eine offene und "diachronische" ist, mit den fixierten "synchronischen" Thesaurusbegriffen zusammenkommt. Die Deskriptoren werden zwar "kontextfrei" aber nicht "horizontfrei" angeboten, wenn wir den Thesaurus als Ganzes als einen (fixierten) Sinnhorizont auffassen. Da sie aber wiederum auf die entsprechenden Texte verweisen bzw. den Zugang zu ihnen ermöglichen, sind sie auch nicht völlig "kontextfrei" und erlauben deshalb eine weitere Stufe der "Horizontverschmelzung" z.B. mit dem Titel der Dokumente oder mit den Kurzfassungen.

Im Falle eines auf der "natürlichen Sprache" basierenden Retrieval-Systems bilden zum einen das jeweilige Fachgebiet und zum anderen das tatsächlich gespeicherte und "invertierte" Textmaterial einen Horizont, der sich dem Fragenden unter Umständen nur allmählich als Gegenstand einer möglichen "Verschmelzung" anbietet, so daß wir am Anfang vor einem Grenzfall dieses Phänomens stehen und deshalb nur bedingt von "Horizontverschmelzung" sprechen können.

Die Grenzen einer Horizontveschmelzung sind außerdem im Falle von bibliographischen Datenbasen offensichtlich: Literaturhinweise sind ein zu dürftiger Anhaltspunkt, als daß sie dem reichhaltigen Horizont des Fragenden entsprechen könnten. Sie können aber zugleich auf die Möglichkeit einer solchen Entsprechung aufmerksam machen und somit den dynmaischen Vorgang der Horizontbildung unterstützen, beschleunigen, vereinfachen usw.

Das Gelingen der unterschiedlichen Horizontverschmelzungen hängt natürlich im beträchtlichen Maße davon ab, ob der Fragende selbst den Online-Dialog durchführt oder ob ein anderer für ihn sucht bzw. fragt. Ein erfahrener "Searcher" aber, der das System und die jeweilige Datenbasis kennt, kann u.U. eine notwendige vermittelnde Rolle einnehmen und tritt dabei als zusätzliche Interpretationsinstanz zwischen dem System und dem Fragenden ein. Der stattfindende Verstehensprozeß zwischen dem Fragenden und dem "Searcher" ist dann Gegenstand der allgemeinen Hermeneutik. Die hier beschriebene "ideale" Situation ist die des sich mit dem System auskennenden Fragenden, der selbst den Online-Dialog durchführt ("end user"). In der Praxis ist man heute häufig auf eine vermittelnde Instanz ("intermediary") angewiesen." (Capuro 1986, 167-172)

"Der Online-Dialog ist ein Suchprozeß, den ursprünglich der Fragende selbst durchführt und der somit stets auf seinen Fragehorizont bezogen bleibt. Das Fragen ist aber wiederum weder als "innerpsychischer Zustand" eines "Subjektes", noch als ein anonym auf ein "für sich bestehendes Fach" bezogen, zu deuten. Im ersten Fall lösen wir den Fragenden von der Fachgemeinschaft bzw. vom Miteinandersein ab, im zweiten hypostasieren wir Fachgebiete bzw. den Horizont einer Fachgemeinschaft.

Mit Recht kritisiert D.R. Swanson (D.R. Swanson: Information Retrieval as a Trial-and-Errof-Process. In: Information Storage & Retrieval 6, 1970, S. 351-361) die Vorstellung des Retrieval-Prozesses als eine bloß auf den Horizont eines Fachgebietes ("topic") bezogene Suche. Er vergleicht in diesem Zusammenhang das Information Retrieval mit dem (Popperschen) Modell der wissenschaftlichen Forschung als einen Prozeß von "Versuch-und-Irrtum" ("trial-and-error"). Kreative wissenschaftliche Forschung, erklärt Swanson, geht nicht von einem "Fachgebiet", sondern von einem "Problem" aus, d.h. es wird eine Vermutung (bzw. eine "Theorie") aufgestellt und auf ihren Wahrheitsgrad geprüft. Es handelt sich dabei um einen interaktiven bzw. rekursiven Prozeß.

Wir bemerkten schon, daß "Fachgebiet" und "Problem" nicht antagonistisch aufzufassen sind. Es wäre ebenso einseitig, sich "Probleme an sich", d.h. losgelöst von einem mit-geteilten "Fachgebiet" (im oben angedeuteten Sinne) vorzustellen. Swanson meint aber offenbar einen solchen Antagonismus nicht, sondern hebt den Bezug auf den Horizont des Fragenden hervor. Die Analogie zwischen der "trial-and-error"-Methode und dem Information Retrieval gründet darin, daß in beiden Fällen ein Fragender von einer von ihm bestimmten Frage (bzw. "Vermutung") ausgeht und die gefundenen Antworten bzw. "Lösungen" nicht "absolut", sondern als Quelle neuen Fragens versteht.

Damit ist der beiden Prozessen gemeinsame hermeneutische Charakter des Fragens angesprochen. Die Analogie kommt aber in verschiedener Hinsich im Retrieval-Prozeß zu kurz. Wir sagten oben, daß das Ziel dieses Prozesses nicht die Prüfung der Wahrheit einer Aussage bzw. Theorie, sondern die Suche nach relevanten bzw. "nützlichen" Erkenntnissen ist. Der Fragende sucht mögliche im Hinblick auf seine Fragestellung relevante Erkenntnisse, wobei er nur Hinweise auf diese am Bildschirm unmittelbar zu sehen bekommt. Aber auch wenn er zugleich den Originaltext oder, im Falle von Faktendatenbasen, die gesuchte Angabe finden würde, wäre ein solcher Prozeß nicht dem einer automatisierten "ars inveniendi" gleich zu setzen. Im Falle der wissenschaftlichen Forschung geht es um "Wahrheit" und "Irrtum", freilich als ein offener Prozeß, ohne "absolute" Kriterien. In diesem engen Sinne von "Irrtum" bzw. "Fehler" kann aber beim Information Retrieval nicht gesprochen werden, da die Suche nach Literaturhinweisen nicht dazu führt (und sie ist auch nicht notwendigerweise im Hinblick darauf erfolgt) den Wahrheitsgehalt der Frage (oder den der Frageformulierung) zu bestätigen oder zu widerlegen.

Außerdem stellt dieses Modell ein Ziel, nämlich das einer bestimmten Form wissenschaftlicher Forschung, in den Vordergrund, während es in Wahrheit,wenn wir z.B. an die berufliche Praxis denken, eine Vielfalt von Zielen für einen solche Suche geben kann. In diesem Sinne schränkt z.B. S.P. Harter dieses Modell als analogen der Online-Suche ein (S. P. Harter: Scientific Inquiry: A Model for Online Searching. In: Journal of the American Soc. for Inf. Science 35, 1984, 2, S. 110-117). Gefundene aber nicht relevante Literaturhinweise sind somit schwerlich als "Fehler" zu kennzeichnen und eine entsprechende Modifizierung der Frage (vielleicht zunächst und zumeist nur der Frageformulierung) bedeutet nicht, daß man ihren Wahrheitsgehalt testet. Der Begriff "Fehler" ist hier relativ zum Zweck und im Rahmen von Relevanz zu sehen. Wir werden im nächsten Abschnitt auf den Relevanzbegriff eingehen.

Der offene Charakter des Retrieval-Prozesses sowie sein Bezug auf den Horizont des Fragenden, der sein Vorverständnis ins Spiel bringt und dabei unterschiedliche Zwecke verfolgen kann, läßt sich demnach allgemein als ein hermeneutischer Prozeß deuten und dessen wiederkehrender und "stimulierender" Charakter als eine besondere Ausformung des "hermeneutischen Zirkels" erkennen. Da es sich hier um einen allgemeinen, d.h. in bezug auf verschiedene Motivationen offenen Prozeß des Suchens und Findens (von Hinweisen auf Erkenntnisse) handelt, soll nicht, wenn schon nach einer "Formel" gesucht wird, von "trial-and-error", sondern von "search-and-find" die Rede sein. Damit hat aber "das Gefundene" nicht die Funktion, den Suchprozeß abzuschließen, genausowenig wie im Falle von "trial-and-error" die "Fehler" einen bloß negativen Charakter haben. Durch die gefundenen Hinweise sowie auch durch den Suchprozeß selbst, kann das Vorverständnis des Fragenden in vieler Hinsich erweitert, bereichert, verändert werden und stellt sich somit als neue Grundlage für das weitere Suchen dar. Wir lernen nicht nur aus unseren "Fehlern", sondern auch aus unseren "Erfolgen"." (Capurro 1986, 173-175)

6.2.2 Retrievalsprachen und -strategien

Grundfunktionen einer Retrievalsprache:
- Auswahl einer oder mehrerer Datenbanken
- Anzeige der möglichen Suchbegriffe (Basic Index, Autorenindex, usw.)
- Suche nach Einzelbegriffen und Verknüpfung derselben (Trunkierung, Kontextsuche, Verknüpfung)
- Ausgabefunktionen für die gefundenen Dokumente
- Speicherfunktionen zum Sichern der Suchprofile

Suchstrategien:
- Blockbildung (= Komponentenzerlegung) (building blocks)
- Spezifische-Wörter-Priorität (most specific first): man gibt den prägnantesten Begriff sofort ein
- Niedrigste-Treffer-Priorität (lowest posting first): falls sehr divergierende Trefferzahlen, wählt man diejenigen mit der niedrigsten Frequenz aus.
- Zitatbasierte Erweiterungsstrategie (citation pearl growing): man tastet sich aufgrund der gefundenen Zitate an das Thema heran.
- Schrittweise Verfeinerung (successive fractions approach): es werden solange Teilmengen gebildet, bis man die gewünschte Ergebnismenge gewonnen hat.

6.2.3 Retrievalsprachen von DB-Anbietern (exemplarisch)
FIZ Karlsruhe / STN International
DIMDI
FIZ Technik
GBI
DIALOG

6.2.4 Kosten und Marketing

Zur Einführung:

S. Grudowski: Marketing für die Informationsvermitlung. In: Buder et al.: Grundlagen der praktischen Information und Dokumentation, Bd. 2, 823-843.

W. Schwuchow: Informationsökonomie. In: Buder et al.: Grundlagen der praktischen Information und Dokumentation, Bd. 2, 751-778.

S. A. E. Webber: Pricing and marketing Online Information Services. In: Williams, Martha E. (ed.): Annual Review of Information Science and Technology (ARIST), published on behalf of the ASIS (American Society for Information Science), Information Today Inc., Medford, N.J., Vol. 33 (1998), 39-83.

6.2.5 Kommunikationsnetze und Datenkommunikation
Zur Einführung:
K. Löns: Kommunikationsnetze und Datenkommunikation: Buder et al.: Grundlagen der praktischen Information und Dokumentation, Bd. 2, 698-729.

6.3 Die Frage nach der Relevanz des Retrievalergebnisses

6.3.1 Systemorientierte und benutzerorientierte Bewertung

"Im Mittelpunkt des suchenden Fragens steht die Relevanz bzw. Nützlichkeit der Retrievalergebnisse. Es ist der Fragende selbst, der ursprünglich die Relevanzfrage stellt und beantwortet. Das Urteil des Nutzers ist aber, wie G. Salton mit Recht betont, für die Evaluierung des Informationssystems von entscheidender Bedeutung, wenn man davonausgeht, daß Informationssysteme keinen Selbstzweck erfüllen, sondern ein Mitteilungsmodus der Fachgemeinschaft sind (G. Salton, M.J. McGill: Introduction to Modern Information Retrieval, New York 1983, S. 161; Vgl. T. Saracevic: Relevance, In: M.J. Voigt, M.H. Harris Eds.: Advances in Librarianship, New York 1976, S. 79-138)

Von allen Paramatern, die bei der Bewertung eines Retrievalsystems eine Rolle spielen, ist die Frage nach der Relevanz der Ergebnisse die wohl entscheidenste. Obwohl hier von Retrievalergebnissen die Rede ist, liegen die im folgenden zu differenrenzierenden Ebenen dem Suchprozeß selbst zugrunde, besonders wenn dieser vom Fragenden selbst, d.h. vom tatsächlichen Nutzer, durchgeführt wird, und wenn er diesen Prozeß durch die Zwischenbewertung der Literaturhinweise bestimmt.

Die Suche nach "objektiven" Bewertungs- bzw. Relevanzkriterien und die Tatsache, daß öfter Literaturrecherchen von einem Vermittler durchgeführt werden, geben zunächst Anlaß, die Relevanzfrage ohne Rücksicht auf den Nutzer zu stellen. Man spricht von "systemorientierter Bewertung" oder von "objective view" (Salton), im Gegensatz zur "subjective view" bzw. "benutzerorientierten Bewertung".

Die systemorientierte Bewertung berücksichtigt das Verhältnis zwischen dem thematischen Horizont der Frage und dem der gefundenen Literaturhinweise. Der Fragende kann sich aber auch auf dieser Ebene bewegen und lediglich auf die "topische Relevanz" (Swanson) achten, ohne über die "problemspezifische" Relevanz zunächst zu entscheiden.

Zur systemorientierten Bewertung gehört auch der Vorgang des Vergleichs ("matching") z.B. zwischen der Suchformulierung und der betreffenden verobjektivierten Suchsprache. Man kann diese Ebene als eine Vorstufe betrachten und erst dann von Relevanz sprechen, wenn aufgrund der Ergebnisse des Vergleichsprozeses, der Fragende bzw. der Vermittler ein Urteil bezüglich der Zugehörigkeit der Literaturhinweise zur angesprochenen Thematik ausspricht. Wenn das System diese zweite Ebene als das entscheidende Relevanzkriterium ansieht und die tatsächliche Beurteilung des Nutzers ausklammert, kommt es zu der von Swanson, Harter, Möhr u.a. angesprochenen Verzerrung des Relevanzproblems. Die Relevanzebenen sind also wohl zu differenzieren, ohne sie aber gegeneinander auszuspielen.

Die benutzerorientierte Bewertung findet im Horizont eines erfolgreichen "matching" sowie einer bestimmten Thematik bzw. eines Fachgebeites statt. Das Verhältnis des Retrievalergebnisses zur spezifischen Einbettung der Frage ins Vorverständnis des Nutzers bildet die dritte Relevanzebene. Lancaster, Salto u.a. sprechen hier nicht von Relevanz, sondern von Pertinenz. Entscheidend ist dabei die Einsicht, daß die Pertinenz vom Horizont des Fragenden konstituiert wird. Von der Pertinenz aus gesehen ist die "Objektivität" der Relevanz lediglich eine Abstraktion. Da wiederum das Ergebnis des Retrieval-Prozesses Literaturhinweise sind, gewinnt das Pertinenzurteil erst seinen vollen Gehalt, wenn die Dokumente selbst in die Betrachtung einbezogen werden, und wenn eine Aussage über deren tatsächliche Verwertung gemacht wird bzw. gemacht werden kann.

6.3.2 Recall und precision

Zur Bewertung der Relevanz des Retrievalergebnisses verwendet man gewöhnlich zwei Parameter, nämlich die Rückgewinnungsquote oder "recall" und die Trefferquote oder "precision". Diese Parameter sollen jeweils folgende Verhältnisse zum Ausdruck bringen:

Recall = Zahl der relevanten ausgegebenen Dokumenten

Zahl der relevanten Dokumente im Speicher Precision = Zahl der relevanten ausgegebenen Dokumenten

Zahl der insgesamt ausgegebenen Dokumente
Diese Quoten sind in verschiedener Hinsicht problematisch. Zunächst muß hervorgehoben werden, daß der Relevanzbegriff in diesen Parametern meistens undifferenziert bleibt bzw. lediglich im Sinne der (topischen) Relevanz und nicht der Pertinenz gebraucht wird. Ferner könnten diese Parameter auch im Hinblick auf die Vorstufe des "Vergleichs" ("matching") angewandt werden. Der Referenzrahmen ist dann jeweils:

die Suchformulierung bzw. die Suchtaktik,

der thematische Horizont der Frage,

der konkrete Horizont des Fragenden.

Die Parameter werden ferner in ihrer Aussagekraft eingeschränkt, wenn lediglich die Literaturhinweise als Grundlage der Relevanz bzw. Pertinenzentscheidung zugrundegelegt werden. (...)

6.3.3 Pertinenz-Parameter

Daß der Begriff des "nicht-relevanten Dokumentes" ("Ballast", "fall-out") auch entsprechend relativiert werden muß, ist offensichtlich. Salton nennt drei charakteristische Pertinenz-Parameter:
1) Die Neuigkeitsquote, d.h. das Verhältnis der gefundenen und, aus der Sicht des Nutzers, relevanten Dokumente zu den ihm davon unbekannten ("novelty ratio").
2) Das Verhältnis aller für den Nutzer relevanten gefundenen Dokumente zu den ihm bereits bekannten und relevanten ("coverage ratio").
3) Das Verhältnis aller vom Nutzer analysierten relevanten Dokumente, zu der Gesamtzahl relevanter Dokumente, die er gern hätte analysieren wollen ("sought recall") (G. Salton, op.cit. S. 176 ff)

Das Neuigkeitsparameter, das auf den ersten Blick eindeutig erfaßbar erscheint, hat eine unterschiedliche Gewichtung, je nachdem in welchem Bedeutungszusammenhang das Neue gesehen wird. Auch im zweiten Fall mag es z.T. schwierig zu ermitteln und letztlich auch von geringer Bedeutung sein, wenn der Nutzer eine bestimmte Zahl der ihm bekannten und relevanten Dokumente nennen soll. Die letzte Quote hat scließlich einen bloßen hypothetischen und z.T. willkürlichen Charakter.

Daß Pertinenz sich schwer quantifizieren läßt, bedeutet nicht, sie wäre nicht faßbar. Untersuchungsmethoden, die die qualitativen Komponenten dieses Phänomens berücksichtigen, sind hier nötig. Die zu ermittelnden Mengen werden dabei nicht zu "Richtwerten" nivelliert, sondern jeweils im qualitativ-inhaltichen Bezug zum Nutzer, seinem Vorverständnis, seinem (wechselnden) Interessen- und Zielhorizont, zur jeweiligen Fachgemeinschaft und zum Fachgebiet usw. geprüft und beurteilt. Der Verzicht auf Pertinenz-Untersuchungen zugunsten lediglich der systemorientierten Bewertungsmethoden, würde vermutlich zu einer Verfestigugn der jetztigen Information-Retrieval-Systme führen, anstatt sie stets an ihrem eigentlichen Sinn zu messen, um daraus neue Anstöße für eine weitere Entwicklung in den unterschiedlichen Ebenen zu erhalten.

Die Erörterung der Relevanzfrage beim Information Retrieval kann als ein spezieller Fall einer allgemeinen Untersuchung des Grundphänomens der Relevanz im Sinne eines dauernden Vorganges, der in der Bildung und Infragestellung von individuellen und sozialen Vorverständnissen besteht. In diesem Zusammenhang sei auf die maßgeblichen phänomenologischen Analysen von Alfred Schütz hingewiesen (A. Schütz: Reflections on the Problem of Relevance, New Haven 1970).

Die von Schütz erörteten Relevanzarten, nämlich: "topische", "motivierte" und "interpretative" Relevanz, weisen jeweils auf den thematischen Horizont des Fragenden, auf seinen Erwartungshorizong sowie auf den Bewertungsprozeß hin, wordurch er die "Pertinenz" der Antworten thematisch und "zweckmäßig" analysiert und somit zur Bildung eines neuen Horizontes kommt." (Capurro 1986, 180-185)

Zur Vertiefung:

Vgl. den im Teil I, 3.4.5 zitierten Aufsatz von
Thomas Froehlich: "Relevance Reconsidered - Towards an Agenda for the 21st Century: Introduction to Special Topic Issue on Relevance Research" Journal of the ASIS 45 (3) 1994, 124-134 sowie den klassischen Aufsatz von Robert Fugmann: "The Empirical Approach in the Evaluation of Information Systems" (Knowledge Organization 26, 1999, No. 1, 3-9), der den positivistischen Ansatz der "Cranfield experiments" kritisiert und auf die Bedeutung der "hermeneutic phenomenology" für die Relevanzproblematik hinweist. Vgl. auch: R. Fugmann: The Five-Axiom Theory of Indexing and Information Supply. In: Journal of the ASIS 36(2) 1985, 116-129.



6.4 Mehrsprachiges Information Retrieval

6.4.1 Matching Strategies

- "Cognate matching: essentially automates the process by which readers might try to guess the meaning of an unfamiliar term based on similarities in spelling or pronunciation."
- "Query translation: is a more gneral strategy in which the query (or some internal representation of the query) is automatically converted into every supported language."
- "Document translation: is the opposite of query translation, automatically converting all of the documents (or their representations) into each supported language."
- "Interlingual techniques: conver to both the query and the documents into a unified language-independent representation. Controlled-vocabulary techniques based on multilingual thesauri are the most common examples of this approach."

6.4.2 Sources of Translation Knowledge

- "Ontologies: are structures that encode domain knowledge by specifying relationships between concepts. Thesauri are ontologies that are designed specifically to support information retrieval. At present, multilingual thesauri are the dominant sources of translation knowledge in operational CLIR systems." (CLIR=Cross-Language Information Retrieval Systems)
- "Bilingual dictionaries: have been widely used to support query translation strategies."
- "Machine translation lexicons: are becoming fairly widely available, although machine-readable dictionaries still cover a greater numer of language pairs."
- "Document-aligned corpora: are document collections in which useful relationships between sets of documents in different languages are known."
- "Sentence- and term-aligned corpora: Comparable corpora can be aligned only to the document level, but many individual sentences in prallel corpora can be aligned automatically using dynamic programming techniques."
- "Unaligned corpora: A representative monolingual document collection is, of course, available in any application of CLIR to retrospective retrieval.Such collections are often assembled for filtering applications as well because they provide useful collection frequency statistics. When representative documents in more than one language are present in (or can be added to) such a collection, the collection itself can be used in conjunction with a bilingual term list as an additional source of translation knowledge even if a priori document alignments are not known."
"The distinction between user-assisted and fully automatic query translation is rather sharply drawn at present, with users either beng offered the opportunity to help resolve translation ambiguity for every term or for no terms. More sophisticated strategies might retain much of the benefit of user-assisted translation while avoiding unnecessary allocation of user effort and screen space to that task."

Vgl. G. Thurmair, Chr. Womser-Hacker: Multilingualität im wissensbasierten Faktenretrieval. In: J. Krause, M. Herfurth, J. Marx Hrsg.: Herausforderungen an die Informationswirtschaft. Proceedigns des 5. Internationalen Symposiums für Informationswissenschaft (ISI '96), Konstanz 1996, 121-133.

6.5 Bild- und Ton-Retrieval

6.5.1 Bild-Retrieval

6.5.1.1 Projekt Suchbilder

Projekt Suchbilder

6.5.1.2 Die Problematik des Bild-Retrievals

Monika und Wolfgang Renz (FH Hamburg, Fachbereich Elektrotechnik und Informatik) fassen die Problematik des Bild-Retrievals folgendermaßen zusammen:

"Die in der Praxis üblichen Retrievalverfahren nutzen ausschließlich die sprachliche Achse zum Brückenschlag vom Dokument zum Benutzer. Die gängige Technik der Inhaltserschließung in Bilddatenbanken (ob Multimediadatenbank oder Referenzdatenbank) besteht darin, Dokumente mit Hilfe eines kontrollierten Vokabulars zu indexieren und ggf. weiteres bildbegleitendes Textmaterial (Bildlegenden etc.) in Textfeldern abzulegen, um es über eine Freitextrecherche verfügbar zu machen.

Wie können bildliche Inhalte unter Umgehung von Sprache überhaupt dargestellt werden? Im Gegensatz zur geschriebenen (nicht gesprochenen!) Sprache, deren Kodierung im Rechner bereits eine Strukturierung in Einheiten (Wortformen) beinhaltet, denen Bedeutung zugeordnet werden kann, stellt die digitale Repräsentation von Bildern in Pixeln keine Einheiten auf semantischer Ebene zur Verfügung. Die speicherintensive digitale Information eines Bildes kann für Retrievalzwecke nur genutzt werden, wenn sie reduziert und auf einer abstrakteren Ebene strukturiert werden kann. Elementar, aber dennoch perzeptiv relevant ist die Ebene 1 des Modells der Inhaltsanalyse. Farbe, Textur, geometrische Formen und ihr räumliches Verhältnis sind optische Attribute, die mit Methoden der Bildverarbeitung automatisch aus Bilddaten extrahiert und für eine Indexierung genutzt werden können. In einzelnen Anwendungen oder auf der Grundlage von Wissensbasen können auch Entitäten, die Ebene 2 zuzuordnen sind (konkrete Objekte, Personenindividuen), erkannt werden.

Die Funktionsfähigkeit der bildlichen Achse des Retrievalmodells setzt auf der Rechercheseite Schnittstellen zur Eingabe von bildlichen Suchanfragen voraus (Query by visual example) sowie geeignete Ähnlichkeitsmetriken zum Abgleich von indexierten Dokumenten und Anfragen, wie in Abschnit 4 erläutert. (...)

Die Schwierigkeit besteht nun darin, die Ähnlichkeit zweier Bilder auf Ebene 1, also von ihrem optischen Eindruck her, zu definieren. Es ist sofort klar, dass es sehr unterschiedliche Dimensionen von Bildähnlichkeit gibt: ähnliche Farbgebung, ähnliche Form der Objekte im Bild, ähnliche Anordnung der Objekte, ähnliche Muster und Strukturen usw. In der Summe müssen alle diese Unterschiede mit einem gewissen Gewicht zu einem effektiven Bildunterschied addiert werden. (...)
Rankings in Form einer eindimensionalen Liste haben das prinzipielle Problem, dass den unterschiedlichen Dimensionen der Ähnlichkeitsmetrik nur unzureichend Rechnung getragen wird." (S. 108-109)

Vgl. M. Renz, W. Renz: Neue Verfahren im Bildretrieval - Perspektiven für die Anwendung. In: R. Schmidt, Hrsg.: Wissen in Aktion. Wege des Knowledge Managements. 22. Online-Tagung der DGI, Frankfurt a.M. 2. bis 4. Mai 2000, S. 102-128.

6.5.1.3 Start-up-Unternehmen "Cobion"

Aus: Sandra Kegel: Auf der Suche nach den verlorenen Kindern. Ein Bild sagt mehr als tausend E-Mails: Drei Tüftler aus Kassel ordnen das Internet neu. FAZ, 20.2.2001, Nr. 43, S. 56:

"Jörg Lamprecht, Renée Seeber und Carsten Werner sind Bilderjäger. Ausgerüstet mit einer gewaltigen Computeranlage aus mehr als tausend Rechnern, die in Reih und Glied im Keller ihres Start-up-Unternehmens "Cobion" stehen und dort pausenlos rotieren, suchen sie nach allem, was das Netz an Visuellem bereithält. Was ihre Software leistet, galt bis vor kurzem noch als unvorstellbar: Während bekannte Suchmaschinen wie Yahoo oder Altavista das Internet nach Schlagworten wie "Oscar Wilde" oder "Claudia Schiffer" durchforsten, können die Cobio-Computer Gesichter, Graphiken und visuelle Zeichen lesen wie ein Mensch; sie imitieren die Leistung des Gehirns beim Sehen. Hierfür wird der Rechner mit einem Foto gefüttert, das er ein einem aufwendigen Verfahren in einen Zahlencode verwandelt. Aus fünftausend Vermessungspunkten der Gesichtsmerkmale, wie den Proportionen der Augen, dem Abstand der Nase zum Mund oder zu den Ohren, errechnet er einen mathematisch exakten Code, der so unverwechselbar ist wie ein Fingerabdruck. Die Suchmaske legt der Rechner über sämtliche Bilder, die er auf seinen Streifzügen durch die 2,1 Milliarden Websites im Internet findet. Fünfzig bis sechzig Millionen Bilder prüft er täglich. Kommt es zu einer Übereinstimmung, gibt er sie Fundstelle an und kopiert das Bild. (...)

Bislang wird die einzigartige Suchmaschine vor allem von großen Unternehmen wie Adidas, Bayer oder Daimler-Chrysler genutzt, die mit ihrer Hilfe das Internet nach Markenrechtsverletzungen durchforsten. Ungewöhnlicheren Besuch bekamen die Cobion-Leute indes vor einigen Wochen, als Politiker und das Landeskriminalamt sich in der bunt ausgemalten Eingangshalle einfanden. Denn mit dern Suche nach vermißten Kindern im Internet, die Cobion seit Anfang des Jahres auf eigene Kosten betreibt, ist den Bilderjägern mehr geglückt als nur eine geniale PR-Strategie. Für ein Jahr durchstöbern ihre Computer das Netz nicht nur nach illegal kopierten Firmenlogos, nach gefälschten Turnschuhen und Luxuskrokodilen, sie suchen auch nach Deborah, Angelica oder Tanja. Zusammen mit der "Fondation pour la Recherche d'Enfants Disparus par Internet", kurz Fredi, und der "Elterninitiative Vermißte Kindern" unternimmt Cobion den weltweit ersten Versuch, gezielt nach verschwundenen Kindern zu suchen und nicht, wie bisher üblich, lediglich Fahndnungsfotos ins Netz zu stellen. (...)

Wenn Pharmaunternehmen wie Bayer das Netz nach Produktfälschungen abtasten, hilft das nicht allein dem Konzern, dem Netzpiraten jährlich einen finanziellen Schaden in Milliardenhöhe zufügen, sondern allen, die sich vor gepanschten Arzneimitteln wappnen wollen."

Cobion

Hier ist eine Demo-Version: http://www.cobion.de/services/portal_demo.shtm

6.5.2 Ton-Retrieval

6.5.2.1 Suchmaschinen:

hifind.com

interprice.com

6.5.2.1 Voice-Portals:
Robert Poe: Now You're Talking, February 2001

6.6 WWW-Navigation

6.6.1 WWW-Navigation mit Suchmaschinen und Webkatalogen
6.6.1.1 Basisdienste des Internet
6.6.1.2 Suchmaschinen
6.6.1.3 Webkataloge
6.6.1.4 Meta-Suchmaschinen
6.6.1.5 Kindersichere Suchmaschinen
6.6.1.6 Webcheck
6.6.1.7 Hubs und Searchbroker
6.6.1.8 Sonstiges

6.6.2 Zur Evaluierung von IR-Systemen
6.6.2.1 Evaluierungen im Netz
6.6.2.2 Oppenheim/Morris/McKnight: The Evaluation of WWW Search Engines.
6.6.2.3 Kriterien zur Evaluation elektronischer Informationsmittel
6.6.2.4 Bibliothekskataloge und bibliographische Datenbanken

6.6.3 Wie zuverlässig sind elektronische Informationsassistenten?
6.6.3.1 Hilfe zur Lösung des Referenzproblems
6.6.3.2 Hilfe zur Lösung des Validitätsproblem

6.6.4 Personalisierungsdienste im WWW

Die häufig verwendete nautische Metapher des Navigierens oder Surfens für das Suchen von Informationen im Internet drückt eine positive Haltung gegenüber dem Zufall oder unvorhergesehenen Möglichkeiten aus, so wie der Steuermann sich plötzlich aufkommende Winde oder Strömungen zunutze machen kann - oder dabei zugrunde geht! Dies galt schon für die alte Tugend des Gutenberg-Zeitalters, nämlich in Bibliotheken nicht nur gezielt zu suchen, sondern auch, sofern sie im Form eines freien zugänglichen und systematisch geordneten Bestandes organisiert waren, zu browsen.

Gute Navigation zeichnet sich nach Frank Thissen (Screen Design Handbuch. Heidelberg 2000, S. 61) durch folgende Merkmale aus:

Die Navigation paßt zu den Zielen, Erwartungen und dem Verhalten der Nutzer.

Die Navigationselemente sind nicht dominant. Navigation funktioniert intuitiv, ohne daß sich der Nutzer mit ihr auseinandersetzen oder sie gar erlernen muß.

Die Navigationselemente sind sofort verstänlich begreifbar. Ihre Bedienung muß nicht gelernt werden. Sie sind dem Thema angepaßt.

Die Navigation ist konsistent, d.h., sie zieht sich einheitlich durch das Produkt.

Die Navigation bietet dem Benuzter alternative Wege, um zu einem Ziel zu kommen.

Als vorbildliche Einführung zum Gesamtgebiet der Suchmaschinen: "Die Suchfibel" von Stefan Karzauninkat

Die Suchfibel

6.6.1 WWW-Navigation mit Suchmaschinen und Webkatalogen (exemplarisch)
6.6.1.1 Basisdienste des Internet
E-Mail
News Groups, Listserver
FTP, telnet
Foren
Individuelle Dienste (Chat)

Vgl.: R. Kuhlen: Basis-, Mehrwert- und Metasuchdienste des Internet (Folien)

6.6.1.2 Suchmaschinen
Suchmaschinen richtig einsetzen: NoodleTools.com
a) Suchmaschinenkatalog:

Im Search Engine Colossus (www.searchenginecolossus.com) sind mehr als 1.300 Suchmaschinen nach Ländern eingetragen.

Die Suchfibel (www.suchfibel.de) ordnet ca. 1.600 Suchmaschinen nach verschiedenen Kriterien.

-> Führende Suchmaschinen:

:: Google
:: Yahoo!
:: Teoma
:: Wondir
:: Kartoo

Die folgenden wertenden Angaben über einige Suchmaschinen, Web-Kataloge und Meta-Suchmaschinen stammen aus: "Der große, exklusive TOMORROW-Text: Die beste Suchmaschine der Welt... und der beste Web-Katalog... und der beste Metasucher" (TOMORROW 5 (2000) S. 38-55) und insbes. aus: Stefan Karzauninkat: Die Testergebnisse im Detail: Suchmaschinen. In: TOMORROW 5 (2000), S. 55-57.

"Am besten geeignet für eine Detailsuche nach ganz speziellen Informationen. Durch ausgefeilte Verknüpfungsmöglichkeiten können Sie gezielt suchen. Die besten Suchmaschinen:
www.acoon.de
www.alltheweb.com
www.fireball.de
www.google.com
www.lycos.com

So funktioniert's: Die klassische Form des Suchdienstes. Eine Suchmaschine durchwühlt automatisch 24 Studen am Tag viele Websites des Internets und speichert deren Überschriften und Teile der dort abgelegten Texte Wort für Wort auf einem leistungsstarken Server ab. Wenn Sie von Ihrem heimischen Rechner aus auf die Suchmaschine zugreifen, durchforstet diese für Sie die gewaltigen Wortsammlungen, die auf dem Server hinterlegt wurden.

Die Suchstrategie: Hier sollten Sie den gesuchten Bereich möglichst genau formulieren, mehrere Begriffe miteinander verknüpfen und das Suchergebnis schirttweise eingrenzen. Seien Sie nicht frustriert, wenn die Suchmaschine zunächst viel zu viele Seiten anzeigt, sondern versuchen Sie, durch logische "und"- bzw. "oder-" Verbindungen den Heuhaufen klein zu machen, dann finden Sie auch die berüchtigte Nadel.

Vorteile:
Oft schelle und einfache Ergebnisse.
Vielfältige Möglichkeiten der Eingrenzung und Spezifizierung der Suchanfrage.
Relativ umfassender Datenbestand.
Nachteile:
Zu viele und unbrauchbare Treffer bei vielen (zu allgemeinen) Anfragen.
Sie müsen genau wissen, wie man Begrife verknüpft, um nicht in der Datenflut unterzugehen."

b) Einzelne Suchmaschinen (alphabetisch geordnet, z.T. von TOMORROW getestet):

Acoon: www.acoon.de
"Info: Die zuverlässige und extrem stabile Suchmaschine ist speziell auf deutsche Seiten zugeschnitten - und liefert selbst bei exotischen Anfragen verblüffend überzeugende Ergebnisse.
Service: News mit Unterstützung von ZDF-MSNBC, Rubrikensuche über Yahoo.de, Börsenkurse von Boersenmagazin.de.
Speed: Reaktionsgeschwindigkeit: 2,74 Sekunden
Verfügbarkeit: 99,30 Prozent
Stichprobe: 83,3 Prozent der Fragen mit dem ersten Treffer beantwortet.
Kunstwort: "Klompfastikumpi" nicht gefunden
Der Sieger überzeugt mit Top-Treffern und Spitzenleistung.
Note: 2"

Alltheweb: www.alltheweb.com
"Info: Die englischsprachige Suchmaschine bietet Ihnen seit Anfang dieses Jahres ihre Dienste an. Sie verfügt auch über eine spezielle Suchfunktion für MP3-Stücke, Bilder und Ton-Dateien.
Service: Großer WAP-Search-Index, MP3-,FTP, Sound- und Bildersuche
Speed: Reaktionsgeschwindigkeit: 3,55 Sekunden
Verfügbarkeit: 97,20 Prozent
Stichprobe: 50 Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort: "Klompfastikumpi" gefunden
Bietet MP3-Fans ausgezeichnete Suchmöglichkeiten
Note: 3"

Altavista: www.altavista.de
"Info: Die deutsche Dependance des US-Suchdienstes umfassst eine textbasierte Suche und ein Katalogverzeichnis. Wie bei vielen Suchmaschinen gibt's eine Profisuche zum detaillierten Eingrenzen des Suchgebietes.
Service: Shopping Channel, Free-e-Mail, Rechtschreibreform-Hilfe, Net-Lexikon und ein Telefontarif-Service.
Speed: Reaktionsgeschwindigkeit: 1,80 Sekunden
Verfügbarkeit: 99,30 Prozent
Stichprobe: 16,6 Prozent der Fragen mit dem erten Treffer beantwortet.
Kunstwort: "Klompfastikumpi" gefunden
Sehr schnell, aber enttäuschende Trefferergebnisse.
Note: 3"

Altavista: www.altavista.com
"Info: Seit 1995 durchsucht die US-Suchmaschine Altavista für Sie das Netz. Neben der Suchfunktion gibt's die Plattformen "Shopping" und "Live". Zusatz: ein redaktionelles Verzeichnis empfohlener Links.
Service: Free-e-Mail, e-Mail-Suchprogramm "People Finder" und "Babel Fish", ein Universalübersetzer.
Speed: Reaktionsgeschwindigkeit: 5,16 Sekunden
Verfügbarkeit: 94,41 Prozent
Stichprobe: 16,6 Prozent der Fragen mit dem erten Treffer beantwortet.
Kunstwort: "Klompfastikumpi" gefunden
Guter Service, aber langsamer als die deutsche Tochter.
Note: 3"

Aol: www.aol.com

Directhit: www.directhit.com

Excite: www.excite.com
"Info: Excite ist einer der verdienten Veteranen unter den Suchmaschinen. Seit 1995 wühlt der vielsprachige Suchdienst im Web. Neben der Textsuche gibt's ein Katalogverzeichnis mit empfohlenen Links.
Service: Voicemail, Free-e-Mail, Termin-Erinnerung, Adressbuch, Auktionen, Shopping-Hilfe, Grußkarten
Speed: Reaktionsgeschwindigkeit: 8,04 Sekunden
Verfügbarkeit: 91,61 Prozent
Stichprobe: 33,3 Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort: "Klompfastikumpi" nicht gefunden
Schlechte Reaktionszeit und Verfügbarkeit
Note: 3"

Fireball: www.fireball.de
"Info: Fireball offeriert seit 1999 die textbasierte Suche im deutschen Web. Auch eine Rubrikensuche ist möglich. Interessant: unter "Live Suche" sehen Sie, was Fireball-Nutzer gerade suchen.
Service: News, Auktionen, Shopping-Hilfe, Free-e-Mail, Grußkarten, Zietungsartikel-Suche
Speed: Reaktionsgeschwindgikeit: 3,75 Sekunden.
Verfügbarkeit: 99,30 Prozent.
Stichprobe: 33,3 Prozent der Fragen mit dem ersten Treffer beantwortet.
Kunstwort: "Klompfastikumpi" gefunden
Ergebnisse nicht immer befriedigend, dafür guter Service.
Note: 3"

Google: www.google.com
"Info: Die englischsprachige Google-Maschine sucht das Web in hierarchischer Reihenfolge ab. Seiten, die viele Links enthalten, sind wichtiger und stehen ganz oben. Hinweise zum Suchen gibt's bei "Search Tips".
Service: Der praktische "Feeling Lucky"-Button bringt Sie ohne weiteres Klicken zur besten gefundenen Website.
Speed: Reaktionsgeschwindigkeit: 3,87 Sekunden
Verfügbarkeit: 97,20 Prozent
Stichprobe: 33,3 Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort: "Klompfastikumpi" gefunden
Geheimtipp mit guten Ergebnissen bei Mainstrean-Themen.
Note: 3"

Hotbot: www.hotbot.com
"Info: Der Suchdienst Hotbot wurde von der amerikanischen Zeitschrift "Wired" ins Leben gerufen. Leider beherrscht der übersichtlich aufgemachte Dienst kein Deutsch. Service: News, Gelbe Seiten, Aktienkurse, Fre-e-Mail und Free Homepages, Shopping-Tipps
Speed: Reaktionsgeschwindigkeit: 6,65 Sekunden
Verfügbarkeit: 96,50 Prozent
Stichprobe: 33,3 Prozent der Fragen mit dem erten Treffer beantwortet.
Kunstwort: "Klompfastikumpi" gefunden
Unbefriedigende Treffer und durchschnittliche Leistung
Note: 4"

Infoseek: www.infoseek.de

Infospace: www.infospace.com

Looksmart: www.looksmart.com

Lycos: www.lycos.de
"Info: Lycos umfasst eine textbasierte Suche und ein Katalogverzeichnis. Die Suchmaschine überzeugt durch ihre Internationalität: Sie können in Französisch, Deutsch, Englisch und vielen anderen Sprachen surfen.
Service: Spiele, Aktienkurse, Termin-Erinnerung, Free-e-Mail, Shopping-Hilfe, Gelbe Seiten, People Finder
Speed: Reaktionsgeschwindigkeit: 4,84 Sekunden
Verfügbarkeit: 98,60 Prozent
Stichprobe: 66,6 Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort: "Klompfastikumpi" nicht gefunden
Solides Mittelfeld, Reaktionszeit ein wenig zu lang.
Note: 3"

Magellan: magellan.excite.com

msn: search.msn.com

Netscape: search.netscape.com

Northernlight: www.northernlight.com
"Info: Der englischsprachige Suchdienst teilt sich auf in: normale Suchfunktion, Profisuche, Business Search und einen Nachrichtensuchdienst.
Service: Aktieninfos, Nachrichten
Speed: Reaktionsgeschwindigkeit: 10,08 Sekunden
Verfügbarkeit: 91,61 Prozent
Stichprobe: 33,3 Prozent der Fragen mit dem erten Treffer beantwortet.
Kunstwort: "Klompfastikumpi" gefunden
Mittelmäßige Treffer und mangelhafte Leistung
Note: 4"

Snap: www.snap.com

Speed: www.speedfind.de
"Info: Dieser Dienst, der sich früher Intersearch nannte, durchsucht zwölf Millionen deutschsprachige Websites. Auf Wunsch durchwühlt er für Sie das Netz auch nach e-Mail-Adressen.
Service: Als Zusatz gibt es eine WAP-Handy-Suchfunktion.
Speed: Reaktionsgeschwindigkeit: 5,03 Sekunden
Verfügbarkeit: 100 Prozent
Stichprobe: 33,3 Prozent der Fragen mit dem erten Treffer beantwortet.
Kunstwort: "Klompfastikumpi" gefunden
Ständig verfügbar, ansonsten durchschnittliche Leistung.
Note: 3"

Spider: www.spider.de
"Info: Der deutsche Web-Sucher mit dem Spinnen-Logo durchforstet weltweit Te4xte auf Webseiten. Ein kleiner Katalog bietet ausgewählte Adressen zu den verschiedensten Themenbereichen an.
Service: Telekonferenz, Free-e-Mail, Wetternews, Shopping-Hilfe, Spiele, Chats, Kurznachrichten.
Speed: Reaktionsgeschwindigkeit: 3,82 Sekunden
Verfügbarkeit: 93,53 Prozent
Stichprobe: 16,6 Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort: "Klompfastikumpi" nicht gefunden
Alle Kategorien verbesserungswürdig - außer dem Service.
Note: 5"

Webcrawler: www.webcrawler.com

6.6.1.3 Webkataloge

"Am besten geeignet für Surfer, die nicht wissen, wie sie eine genaue Suchanfrage starten oder sich allgemein über ein Thema informieren wollen."

Die besten Web-Kataloge:

Allesklar.de: www.allesklar.de
"Info: Seit 1996 kümmert sich dieser Web-Katalog darum, dass Sie im Netz nicht allein gelassen werden. Per Übersichtsliste können Sie sich immer näher an die gesuchte Website heranpirschen.
Service: Free-e-Mail, HTML-Trainer, Jobsuche, Telefontarife, Mitfahrzentrale, Shopping-Hilfe, Wettervorhersage
Speed: Reaktionsgeschwindigkeit: 4,54 Sekunden
Verfügbarkeit: 97,90 Prozent
Stichprobe: 33,3 Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort: "Klompfastikumpi" gefunden
Nur mittelmäßige Ergebnisse bei den Suchtreffern
Note: 3"

Looksmart.com: www.looksmart.com
"Info: Auch dieser US-Suchdienst mit Ablegern in England und Australien ermöglicht Ihnen das Browen in seinen redaktionellen Katalogen.
Service: Shopping-Hilfe, Kurznachrichten, Kalender, Aktienkurse, Wetervorhersagen, Horoskope, Spiele
Speed: Reaktionsgeschwindigkeit: 4,77 Sekunden
Verfügbarkeit: 94,41 Prozent
Stichprobe: 16,6 Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort: "Klompfastikumpi" nicht gefunden
Untersdurchschnittliche Werte in allen Rubriken
Note: 5"

Dino-online.de: www.dino-online.de
"Info: Der deutsche Katalog mit dem Dinosaurier-Logo bietet eine übersichtliche Startseite. Sie ist aufgeteilt in regionale Links, weltweite Links und eine deutsche Branchensuche.
Service: News-Ticker, aktuelle Börsenkurse, der Dino-Chat, Formel 1."

Yahoo.de: www.yahoo.de
"Info: Der deutsche Ableger des Web-Katalog-Klassikers Yahoo.com durchsucht zuerst das redaktionell erstellte Verzeichnis.Danach können Sie aber auch eine Suche im ganzen Web starten.
Service: Schlagzeilen,Grußkarten, Free-e-Mail, Chat, Yahoo-Messenger, Adressbuch, Shopping-Hilfe, Auktionen
Speed: Reaktionsgeschwindigkeit: 1,23 Sekunden
Verfügbarkeit: 99,28 Prozent
Stichprobe: 66,6 Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort: "Klompfastikumpi" gefunden
Abräumer bei den Katalogen - der schnellste im Test
Note: 1"

Yahoo.com: www.yahoo.com
"Info: Auch hier können Sie nach Suche im vom Yahoo-Team erstellten Schlagwortkatalog eine Webabfrage starten. Der vielsprachige Suchdienst ist übrigens immer noch einer unserer Top-Favoriten.
Service: Messenger, Grußkarten, Auktionen, Eventfinder, People Finder, Spiele, Chat, Free-e-Mail, Kalender.
Speed: Reaktionsgeschwindigkeit: 3,17 Sekunden
Verfügbarkeit: 99,28 Prozent
Stichprobe: 33,3 Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort: "Klompfastikumpi" gefunden
Nicht so stark wie der deutsche Ableger, trotzdem Top-Dienst
Note: 2"

Web.de: www.web.de
"Info: Der deutsche Web-Katalog Web-de bietet die Suche per Stichwort oder Browsen in den redaktionellen Katalogen an. Sie können auch die Nachrichten, Chats und News-groups durchsuchen.
Service: Free-e-Mail, Newsgroups, Gruß-karten, Shopping-Hilfe, Wettervorhersagen, Telefontarife, WAP-Suche
Speed: Reaktionsgeschwindigkeit: 6,04 Sekunden
Verfügbarkeit: 97,12 Prozent
Stichprobe: 33,3 Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort: "Klompfastikumpi" gefunden
Super-Serviceangebot, Defizite in der Geschwindigkeit
Note: 3"

"So funktioniert's: Während bei Suchmaschinen so genannte Searchbots das Netz automatisch nach Material durchackern, sitzen bei einem Web-Katalog Menschen. Diese klicken sich durch Webseiten und indizieren sie, das heißt sie ordnen den Seiten Schlagwörter zu. Wenn Sie sich zu einem Web-Katalog klicken und eine Suche starten, werden dort die hierarchisch vorsortierten Schlagwortkataloge durchforstet

Die Suchstrategie: Ein Web-Katalog bietet auf seiner Startseite bereits eine Rubrizierung an. Schritt für Schritt können Sie im Katalog diesen Rubriken folgen - oder Schlagwörter eingeben und in den gefundenen Unterrubriken weitersuchen. Dort gibt es dann alle Links zum Thema.

Vorteile:
Fast jeder Treffer ist auch relevant, unpassende Ergebnisse gibt es selten.
Sie erhalten ein differenziereres Bild und ersparen sich Blindgänger.
Nachteile: Links nicht immer aktuell.
Qualität der Einträge variiert je nach Redakteur.
Die Suche nach sehr speziellen Wörtern ist nur eingeschränkt sinnvoll, da diese oft nicht verschlagwortet sind."

6.6.1.4 Meta-Suchmaschinen

websitez.com: zehn Meta-Search Engines auf einmal!

"Am besten geeignet für Menschen, denen die Ergebnisse einer einzelnen Suchmaschine nicht ausreichen. Meta-Suchersuchen suchen riesige Bereiche ab. Die besten Meta-Suchmaschinen:

Metager.de: www.metager.de
"Info: "Die Suchmaschine über deutsche Suchmaschinen" durchforstet deutschsprachige Suchmaschinen - gleichzeitig und nicht hintereinander wie andere Metasucher.
Service: Die Funktion "Teste Treffer auf Existenz und sortiere nach Änderungsdatum" ist extrem hilfreich.
Speed: Reaktionsgeschwindigkeit: 12,62 Sekunden
Verfügbarkeit: 100 Prozent
Stichprobe: 83,3 Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort: "Klompfastikumpi" gefunden
Ständig verfügbarer Top-Dienst bei den Meta-Maschinen
Note: 2"

Metaspinner.de: www.metaspinner.de
"Info: Der deutsche Metaspinner durchsucht eine große Zahl heimischer und internationaler Suchdienste. Doubletten werden ausgefiltert. Möglich ist auch die Suche in bestimmten Themenfeldern wie MP3.
Service: Telefon- und Stromtarife, Jobsuche, Auktionen, Kids Corner, Nachrichten mit Unterstützung von ZDF-MSNBC
Speed: Reaktionsgeschwindigkeit: 14,6 Sekunden
Verfügbarkeit: 98,03 Prozent
Stichprobe: 16,6 Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort: "Klompfastikumpi" gefunden
Langsame Reaktion und dürftige Treffer kosten Punkte
Note: 4"

Metacrawler.de: www.metacrawler.de

Profusion: www.profusion.com
"Info: Bei Komfort und Konfigurationsmöglichkeiten enttäuscht diese Metasuchmaschine keinen. Ein "Linkchecker" überprüft, ob die gefundenen Websites überhaupt noch existieren.
Service: Shopping-Hilfe, MP3-Links, Sport-Nachrichten.Speed: Reaktionsgeschwindigkeit: 11,44 Sekunden
Verfügbarkeit: 94,41 Prozent
Stichprobe: Keine der Fragen mit dem ersten Treffer beantwortet
Kunstwort: "Klompfastikumpi" gefunden
Ergebnisse sucht man bei diesem Meta-Sucher vergeblich
Note: 5"

Savysearch.de: www.savysearch.de
"Info: Savysearch sucht in etwa 100 Suchmaschinen. Unter "Customize" können Sie sich aus diesen Diensten ein eigenes Suchprofil zusammenstellen - und auch noch abspeichern.
Service: Shopping-Hilfe, Surf-Guide
Speed: Reaktionsgeschwindigkeit: 5,79 Sekunden
Verfügbarkeit: 96,40 Prozent
Stichprobe: 33,3 Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort: "Klompfastikumpi" gefunden
Service und Verfügbarkeit lassen zu wünschen übrig
Note: 4"

So funktioniert's: Meta-Suchmaschinen führen keinen eigenen Datenbestand, sondern durchsuchen mehrere Volltextsuchmaschinen, aber auch Web-Kataloge und andere Datenbanken gleichzeitig. Während des Suchvorgangs können Sie die Ergebnisse bereits auf Ihrem Bildschirm verfolgen: Dort wird dann etwa aufgelistet: "Yahoo: 5 Treffer, Altavista: 10 Treffer.." Am Ende zeigen die Netzsammler alle gefundenen Websites.

Die Suchstrategie: Durch den Aufbau der Meta-Sucher - viele andere Suchmaschinen werden abgecheckt - können Sie am Ende mit einer Unzahl von Ergebnissen dastehen. Deshalb sollten Sie von Anfang an differenziert vorgehen. Das bedeutet: viele präzise Begriffe eingeben und diese entsprechend verknüpfen. Eventuell müssen Sie die Ergebnisliste enorm eingrenzen. Wenn das nicht hiflt: Wechseln Sie zu einer der abgefragten Suchdienste.

Vorteile: Ein riesiger Datenbestand kann zeitsparend durchsucht werden.
Nachteile: Die Ergebnisse hängen von der Qualität der abgefragten Suchmaschinen ab.
Bei unspezifischen Anfragen liefern die Meta-Suchmaschinen oft zu viele oder unbrauchbare Treffer."

6.6.1.5 Kindersichere Suchmaschinen

Blindekuh.de: www.blindekuh.de
Salukisearch.com: www.salukisearch.com
Kindercampus: www.kindercampus.de

6.6.1.6 Webcheck

Webtop.com: www.webtop.com

6.6.1.7 Hubs und Searchbroker

Im oben erwähnten Suchmaschinen-Test schreibt TOMORROW:

"Wer etwas ganz genau wissen will, der fragt einen Spezialisten. (...) Für diese Spezialdienste werden natürlich wiederum neue Suchmaschinen benötigt. Diese so genannten Multiplikatoren" oder "Hubs" (www.suchfibel.de) katalogisieren die themenspezifischen Spezialisten und bieten so den idealen Dienst für jede Anfrage.
Wem das alles zu aufwendig ist, der sollte einen Agenten beauftragen. Diese Suchprofis wie www.entdeckt.de und www.searchbroker.de lassen es sich allerdings teuer bezahlen, die unendlichen Weiten des Internets für Sie abzugrasen - liefern dafür aber die gewünschten Resultate stressfrei per e-Mail."

6.6.1.8 Sonstiges
Internet Encyclopedia: clever.net/cam/encyclopedia.html
Global Online Directory: www.god.co.uk
Librarian's Index to the Internet: www.lii.org
Internet Public Library: www.ipl.org/col
Britannica Internet Guide: www.britannica.com

6.6.2 Zur Evaluierung von IR-Systemen
S.P. Harter, C. A. Hert: Evaluation of Information Retrieval Systems: Approaches, Issues, and Methods. In: Williams, Martha E. (ed.): Annual Review of Information Science and Technology (ARIST), published on behalf of the ASIS (American Society for Information Science), Information Today Inc., Medford, N.J., Vol. 32 (1997), 3-94.
Das Fazit des oben erwähnten TOMORROW Suchmaschinen-Test lautet: "Die beste Suchmaschine bleibt nach wie vor der User selbst. Er allein trifft die Entscheidung, welcher Dienst für welche Aufgabe am besten geeignet ist."

6.6.2.1 Evaluierungen im Netz
Searchenginewatch.com (von Danny Sullivan)
Searchengineshowdown.com

6.6.2.2 C. Oppenheim, A. Morris, C. McKnight: The Evaluation of WWW Search Engines.

In: Journal of Documentation, vol. 56, no. 2, March 2000, pp. 190-21.
Types of search engines:

1. Robot-driven search engines: "'Crawler' or 'worm' programs generate databases by means of web robots. These robots are programs that reside on a host computer and retrieve information from sites on the web using standard protocols. In effect, they automatically travel the Internet following links from documents and collecting information acording to the HTML structure of the document (such as URL, document title, keywords in the text) about the resources they come accross."
2. Directory-based search engines: "These engines are also known as subject collections or as 'subject gateways' and are collections of links to relevant URLs created and maintained by subject experts, or by means of some automated indexing process. Some of these services also include a robot driven search engine facility, but this is not their primary purpose. They rely mainly on people to identify and group resource."
3. Meta-search engines: "These search engines utilise databases maintained by other engines. A meta-search engine acepts a single query from the user and sends it to multiple search engines in parallel."

A typology of evaluation methods:
1. Evaluations using a very tightly defined topic
2. Cranfield type evaluations on larger topics
3. Cranfield type studies involving statistical estimates of the size of the web
4. Evaluations that avoid recall

Evaluation Criteria:
1. Number of web pages covered and coverage
2. Freshness/broken links
3. Relevance
4. Search syntax
5. Subject areas/choice of query
6. The changing nature of the web
7. Response time
8. Different system features
9. Search options
10. Human factors and interface issues
11. Quality of abstracts

Vgl. auch: Randolph Hock: Web Search Engines. CyberAge Books, New Jersey 2000
-: The Extreme Searcher's Guide to Web Search Engines: A Handbook for the Serious Searcher. Medford, NJ, 1999
Alfred and Emily Glossbrenner: Search Engines for the World Wiede Web. 2nd. Ed. Berkeley 1999 www.peachpit.com.

6.6.2.3 Kriterien zur Evaluation elektronischer Informationsmittel

W. Gödert, A. Oßwald, H. Rösch, P. Sleegers (Evit@. Evaluation elektronischer Informationsmittel. In: Bibliothek 24 (2000) Nr. 1, 63-87) schlagen folgende Kriterien vor:

1. Benutzungsoberfläche: optische Konzeption, interne Konsistenz, externe Konsistenz, transparente und selbsterklärende Konzeption, Fehlermanagement, Benutzungsunterstützung (Hilfen)

2. Retrieval/Suche/Navigation: Suchfeatures- und typen, Operatoren/ Trunkierungen/Verknüpfungen, Indizes/Register,Suchfeedback und -performanz, Hyperlinks

3. Datenaustausch: Bildschirmanzeige, Druckausgabe, Datenspeicherung und -weiterverarbeitung, sonstige Datenausgabe, Dateneingang

4. Allgemeine Handhabung: Installation/Setup, Bedienung/Steuerbarkeit, Verständlichkeit/Einfachheit, Stabilität/Fehlertoleranz

5. Multimedia: Multimediafunktionalität, Fotografien, Zeichnungen und grafische Darstellungen, Karten, 3-D-Darstellungen, Animationen, Videosequenzen, Ton

6. Inhalt: Daten, Umfang/Abdeckung/Vollständigkeit, Inhalt/Aufbau/Layout der Datensätze.

6.6.2.4. Bibliothekskataloge und bibliographische Datenbanken

Rainer Kuhlen hat die Mehrwerte von Bibliothekskatalogen und bibliographischen Datenbanken in der folgenden Matrix zusammengefaßt und miteinander verglichen:

Nutzerkriterien Kataloge Bibliographische Datenbank

Schnelligkeit schnell bei einfachen
Suchen, langsam bei komplizierten hohe Schnelligkeit bei allen Suchformen

Kosten niedrig in der Nutzung relativ hoch bei der Nutzung

Wartungsfreund-
lichkeit, Update in der Regel hohe
Verzögerungen, Aufwand eher leicht zu bewerkstelligen,
zuweilen Realzeitänderungen

Umfang der Information pro Einheit begrenzt auf das Format des Papiermediums im Prinzip ungeschränkt;
festgelegt im Record-Format

Vollständigkeit/Umfang der Datenbestände abgeschlossen durch Referenz auf Bestände offen durch Referenzierbarkeit anderer Datenbanken

Benutzeroberfläche einfach komplex

Selektivität begrenzt wegen starker Präkkoordination bzw. Linearität hoch wegen Prinzip der Postkoordination

Hantierbarkeit, Benutzbarkeit unproblematisch, direkt über formale Sprache, braucht Einweisung und spezifische Erfahrung

Weiterverarbeitbarkeit Medienbrüche integrierbar in Arbeitsumgebung

(Kuhlen 1996, 92)
Sein Fazit lautet:
"Man kann an diesem Beispiel sehr deutlich sehen, daß es in den seltensten Fälle absolute Mehrwerte gibt. Ein systembezogener Mehrwert kann für manche Benutzer durchaus einen informationellen Mehrwert darstellen, wenn der Nutzer z.B. nicht willens oder in der Lage ist, sich eine formale Kommandosprache zur Durchführung von Recherchen anzueignen. Im gewählten Beispiel kann das schon beim Übergang von einem Katalog in papierform auf einen katalog in Microfiche-Form auftrefen. Dieser Minderwert wird heute z.B. dann ersichtlich, wenn computerunkundige Personen gezwungen werden, anstelle des gewohnten Zettelkataloges Bildschirmterminals zu benutzen. Bleiben diese Benutzer dann aus, so war die Umstellung auf einen elektronischen Katalog weder für die öffentliche Bibliothek als Anbieter noch für die Nutzer ein Mehrwert. Weder Tauschwert noch Gebrauchswert haben sich erhöht. Im Gegenteil. Dieses Beispiel zeigt die Bedeutung des pragmatischen Designs von Informationssystemen. Ohne Berücksichtigung der Wirkung auf die potentiellen Nutzer können keine Systeme mit Mehrwerteigenschaften entstehen. Diese haben aber keine informationellen Mehrwerte für Nutzer. Jede Endnutzer muß die Kriterien subjektiv gewichten, wenn auch im gewählten Beispiel die Nutzungsmehrwerte der Datenbanken eindeutig zu überwiegen scheinen. Sind aber z.B. Kosten für einen Nutzer das ausschlaggebende Kriterium dann spielen die systembezogenen Mehrwerteigenschaften für ihn keine weitere Rolle mehr." (Kuhlen 1996, 92-93)

Zur inhaltlichen Evaluierung von Datenbanken vgl. P. Jacsó: Content Evaluation of Databases. In: Williams, Martha E. (ed.): Annual Review of Information Science and Technology (ARIST), published on behalf of the ASIS (American Society for Information Science), Information Today Inc., Medford, N.J., Vol. 32 (1997), 231-268.

6.6.3 Wie zuverlässig sind elektronische Informationsassistenten?

Das Programm der gegenwärtigen Informationswirtschaft besteht darin, wie Kuhlen mit Recht betont, "Vertrauen bei den Nutzern elektronischer Dienste zu gewinnen", denn "ohne Vertrauen, kein Geschäft" (Kuhlen 1999, 13-14). Ein entscheidender Mechanismus sind dabei die elektronischen Informationsassistenten, die immer mehr die personalen Assistenten ersetzen. Dabei delegiert der Nutzer immer mehr seine Urteilskraft und mit seine informationelle Autonomie an elektronische Assistenten. Dieser Verlust informationeller Urteilskraft stellt für Kuhlen die fundamentale Frage der Informationsethik dar (Kuhlen 1999, 16). Sie besteht, mit anderen Worten, darin, uns selbst und anderen aufzuklären, wann und wie, angesichts des Informationsdilemmas, ein gesundes Mißtrauen zur Bildung von Informationsautonomie angebracht ist. Das Informationsdilemma besteht, nach Kuhlen darin,

"daß die Informationsräume der komplexen Informationsmärkte, dafür konzipiert, informationelle Unsicherheit zu beseitigen, diese eher erhöhen. Aus diesem allgemeinen Dilemma werden viele weitere folgen, z.B. daß das Überangebot an Information kaum mehr als unterstützend angesehen wird, ja eher als Belästigung, als Data smog (Shenk 1997) empfunden und häufig eher zurückgewiesen als nach seinem Nutzen untersucht wird." (Kuhlen 1999, 23)

Welche Probleme sollen uns aber technische bzw. elektronische Informationsassistenten lösen helfen? Nach Kuhlen handelt es sich zum einen um das Referenzproblem, d.h. um die Frage nach der Suche nach verfügbaren aber ungekannten Informationsressourcen, und zum anderen um das Validitätsproblem, d.h. um die Frage nach der Bewertung der gefundenen Information bzw. nach deren vorherigen Filtrierung.

6.6.3.1 Hilfe zur Lösung des Referenzproblems:

Suchassistenten: "Wenn wir hier von Suche mit Suchmaschinen sprechen, dann sind die Leistungen von Assistenten in den offenen Informationsräumen gemeint, nicht die Suche in lokalen Beständen von WWW-Servern, die anfangs im WWW als einzige Suchform vorgesehen waren." (Kuhlen 1999, 236)

Systematisch geordnete Katalogsysteme: wie z.B. die WWW Virtual Library."Der Vorteil einer systematischen Anordnung, wie z.B. auch von wohlgeordneten Bibliotheken gewohnt, liegt auf der Hand: Man findet sehr gut einen Überblick gebenden Einstieg in ein neues Sachgebiet, ohne schon genau nach einer bestimmten Information suchen zu müssen (oder zu können). Kataloge, sozusagen das Erbe des Klassifikationsansatzes der Bibliothekswelt, waren lange Zeit (sofern man im Umfeld von WWW von lange sprechen kann) die beste globale Orientierungs- und Suchmöglichkeit, und sie werden auch heute noch als attraktive Möglichkeit eingeschätzt, eine Suche zu beginnen." (Kuhlen 1999, 237-38)

Suchmaschinen: Sie stehen in der Tradition des Matching-Paradigma des Information Retrieval und basieren auf der Indexierung von Web-Seiten. Die Indexierung zeichnet sich durch das Prinzip der Postkoordination aus, gegenüber dem Klassifikationsansatz, wo die Sachgebiete in einem vorgegebenen (oder 'präkoordinierten') System angeordnet sind. Dabei verfolgen die Such-Roboter (auch Spider, Wanderer oder Worms genannt) rekursiv (in unterschiedlicher Tiefe) die Links der WWW-Dokumente und verwenden lexikalische Methoden, um bestimmte Terme aus den Dokumente (URL, Titel, Überschriften, Link etc.) auszuwählen. Hier spielen die META-Tags, d.h. jene Zusatzinformationen, die der Autor eines Dokuments selbst vergeben kann, eine besondere Rolle. Die identifizierten Elemente werden invertiert, d.h. in einer alphabetisch geordnete Liste umgewandelt, aus der bestimmte nicht-sinntragenden Wörter sowie Flexionen usw. eliminiert werden.

Metasuchmaschinen: Womit mehrere Suchmaschinen über eine Schnittstelle abgefragt werden.

Zu den vielfältigen Problemen von Suchmaschinen zählen die, welche auch bei klassischen Online-Diensten auftreten, nämlich Recall (oder die Anzahl aller zutreffenden Dokumente aus dem Speicher) und Precision (oder die Anzahl der zutreffenden gefundenen Dokumente) sowie die Zuverlässigkeit (Reliability) der gefundenen Informationen.

Browsing-Assistenten, Surfmaschinen: Die Suche im World Wide Web kann aber nicht nur nach klassifikatorischen oder durch Indexierungs-Techniken, sondern auch durch Navigieren, wozu auch entsprechende Browsing-Assistenten Hilfe versprechen, wie z.B. bei der Internet-Software Alexa: www.alexa.com.

Orientierungs-/Navigationsassistenten: wie zum Beispiel Back-Buttons oder Bookmarks, befinden sind noch in der Entwicklungsphasen, wenn man z.B. an die Möglichkeit der Visualisierung von Strukturinformationen, des retrospektiven oder prospektiven Überblicks usw.

6.6.3.2. Hilfe zur Lösung des Validitätsproblems

Filterassistenten: Zwischen vier Filtertypen (soziales, kognitives, ökonomisches und kollaboratives Filtern), kommen im WWW vor allem kognitives (die Informationsselektion entsprechend dem Inhalt der Objekte) und kollaboratives Filtern (Information wird ausgefiltert entsprechend dem Verhalten anderer Benutzer, etwa ihrem Kaufverhalten) zum Einsatz vor allem bei E-Mail und Newsgroups.

Assistenten für Push-Technologie-Leistungen: d.h. wenn auf der Basis eines Auftrags aber ohne spezielle Anfrage des Benutzers ein Assistent selbständig agiert, eine Technik die in der Dokumentation seit vielen Jahren als Selective Dissemination of Information (SDI) bzw. als Standard- oder individuelle Profildienste bekannt ist.

Quality-/Rating-/Blocking-Assistenten: Diese Abblock-Technik sollten wor allem vor potentiellen Gefahren schützen. Sie wird z.B. beim Schutz der Internet-Nutzung durch Kinder eingesetzt (www.safesurf.com).

Transaktionsassistenten: Sie suchen die Märkte und kommen im Bereich des E-Commerce zum Einsatz, zum Beispiel im Computerbereich: www.pricewatch.com

Kommunikationsassistenten: in Zusammenhang mit Foren oder Newsgroups.

Kuhlens Fazit lautet:
"Unter Akzeptanzgesichtspunkten ist es also wichtig, inwieweit der Benutzer das Vertrauen haben kann, daß der Agent:
a) einen Vollständigkeitsgrad der einschlägigen Informationen erreichen kann
b) den Wahrheitswert der mit Hilfe anderer Agenten oder anderer Dienste zu ermittelden Informationen einschätzen kann
c) beurteilen kann, ob diese Informationen für den Auftraggeber auch wirklich relevant sind
d) willens und in der Lage sind, mit den ihm anvertrauten Daten vertraulich umzugehen." (Kuhlen 1999, 279)

Kuhlen, R.: Informationsmarkt. Chancen und Risiken der Kommerzialisierung von Wissen. Konstanz 1996. 2. Aufl.
-: Die Konsequenzen von Informationsassistenten. Frankfurt a.M. 1999.

6.6.3.3 Zukunft des IR

Nicholas J. Belkin (Rutgers University, School of Communication, Information and Library Studies): Prospects for Information "Selection" (Folien)
-: Intelligent Information Retrieval: Whose Intelligence? In: J. Krause, M. Herfurth, J. Marx Hrsg.: Herausforderungen an die Informationswirtschaft. Proceedigns des 5. Internationalen Symposiums für Informationswissenschaft (ISI '96), Konstanz 1996, 25-32.
W. Bruce Croft (Center for Intelligent Information Retrieval, Computer Science Department, University of Massachusetts, Amherst: What Do People Want from Information Retrieval? (The Top 10 Research Issues for Companies that Use and Sell IR Systems) (1995)

6.6.4 Personalisierungsdienste im WWW

Portale, wie z.B. Yahoo, und Nachrichtendienste, wie z.B. CNN, bieten die Möglichkeit, Ihre Informationsdienstleistungen zu personalisieren. Genau betrachtet stellt sich dieser Prozess als relativ komplex und nicht immer benutzerfreundlich dar.

Nach der ISO-Norm 9241 (Ergonomic requirements for office work with visual display terminals (VDTs), Part 11: Guidance on usability) sollten folgende Faktoren bei der Nutzung von VDTs berücksichtigg werden:

Usability measures: "the extend to which a product can be used by users in a particular context to achieve particular goals effectively, efficiently, and satisfactory."

effectiveness: "he accuracy and completeness with which users achieve a particular goal."

efficiency: "the effort spent in relation to accuracy and completeness with which users achieve a particular goal."

satisfaction: "freedom form impairment and positive attitudes towards the usage of the product."

Description of the intended goals

Description of the context of use

description of users

description of tasks

description of equiment

description of environments

usability measures

Andreas Selter (Usability Requirements for the User Interface of Personalized Information ervices on the World Wide Web. Diplomarbeit, FH Stuttgart, November 2000) stellt die Eigenschaften von personalisierten Informationsdiensten anhand von vier Modellen dar:
1. Das Portal-Modell: am Beispiel von MyYahoo!
2. Das Greif-Modell (Grabber Model): am Beispiel von Octopus
3. Das Kanal-Modell: am Beispiel von CNN
4. Das Zeitungsmodell: am Beispiel von Los Angeles Times.
Fragen der Privatheit sowie des Vertrauens spielen dabei eine wichtige Rolle.
Die Personalisierung von Interessengebieten findet sowohl durch Schlagworte (semantic approach) als auch durch Kategorien (catalog approach) statt.
Selter (p. 62-63) faßt die (positiven) Eigenschaften von personalisierten Informationsdiensten folgendermaßen zusammen:

They are inviting

They convey credibility and trustworthiness

They are easy to set up

They are accessible via different media

They are media-adequate

They are efficient in use

They are appealing and pleasing

6.7 Informetrie und Bibliometrie

6.7.1 Informationsgesetze
W. Stock: Informationswissenschaft (Kap. 9):

6.7.1.1 Konzentrationsgesetze
- Zipfsches Gesetz: Verteilung von Worthäufigkeiten in Texten
- Lotkas Gesetz: Verteilung von Publikationen eines Fachgebiets auf Autoren
- Bradfordsches Gesetz: Verteilung von Artikeln eines Fachgebiets auf Zeitschriften
- Garfieldsches Gesetz: Verteilung von Zitationen wissenschaftlicher Zeitschriften.

6.7.1.2 Gesetz der zeitlichen Verteilung
- Halbwertzeit: Zeit, nach der die Hälfte einer Literaturmenge nicht mehr benutzt wird.

6.7.1.3 Moore's Law, Parkinson's Law
Website der RWTH Aachen:
Moore's Law: "The observation that the logic density of silicon integrated circuits has closely followed the curve (bits per square inch) = 2 ˆ ((t - 1962)) where t is time in years; that is, the ammount of information storable on a give amount of silicon has roughly doubled every year since the technology was invented.

Parkinson's Law of Data: "Data expands to fill the space available for storage".; buying more memory encourages the use of more memory-intensive techniques. It has been observed over the last 10 years that the memory usage of evolving systems tends to double roughly once every 18 months. Fortunately, memory density available for constant dollars also tends to double about once evey 12 months (see Moore's Law); unfortunately, the laws of physics guarantee that the latter cannot continue indefinitely."

6.7.2 Cyber-Geography Research

The analysis of the networked society is basic for ethical reflection, for instance on the question of distribution and access to information and knowledge. The Centre for Advanced Spatial Analysis, University College London (an initiative by Martin Dodge) has explored the geographies of the Internet, the Web and other emerging Cyberspaces.

6.7.3 Zur Vetiefung

R. Williams, B. Molyneux: Measuring the Internet
C. Wilson, W. Hood: Bibliometrics and Informatics
In: Williams, Martha E. (ed.): Annual Review of Information Science and Technology (ARIST), published on behalf of the ASIS (American Society for Information Science), Information Today Inc., Medford, N.J., Vol. 34 (1999)

6.8 IR in Zur Vertiefung

1. Ch. Tomer: Retrieving Information (Online-Kurs der School of Information Sciences, University of Pittsburg, Sommer 1999)
2. R. Kuhlen : Basis-, Mehrwert- und Metasuchdienste des Internet (Folien)
3. Stock, W.: Checkliste für Retrievalsysteme. Qualitätskriterien von Suchmaschinen, Password Nr. 5 (2000), 22-31.
4. W. Gödert, A. Oßwald, H. Rösch, P. Sleegers: Evit@. Evaluation elektronischer Informationsmittel. In: Bibliothek 24 (2000) Nr. 1, 63-87.

6.9 Für Fortgeschrittene

1. Individual Differences in Virtual Environments. Guest Editors: Ch. Chen, M. Czerwinski, R. Macredi. Special Topic Issue, Journal of the ASIS, Vol. 51, No. 6, 2000.
2. Fuhr, N., Rittberger, M., Womser-Hacker, Ch. (Hrsg.) (1999), Information Retrieval. Materialien zur Herbstschule. CD-ROM, Konstanz.

Übungen

1. Erläutern Sie die Grundbefehle der Retrieval-Sprache Messenger
2. Was bedeuten recall und precision?
3. Vergleichen Sie Google und Yahoo!
4. Worin besteht das Referenzproblem bei Suchmaschinen und welche Lösungen gibt es dafür?
5. Was sind Filterassistenten?
6. Was versteht man unter Personalisierungsdienste im WWW?
7. Erläutern Sie zwei informetrische Gesetze
8. Was versteht man unter Cyber-Geography?
9. Wie wird sich das Information Retrieval nach Nicholas Belkin in Zukunft entwickeln?

Gesamtübersicht

Kapitel 1: Lehre und Forschung
Kapitel 2: Historische Aspekte
Kapitel 3: Grundbegriffe
Kapitel 4: Der elektronische Informationsmarkt
Kapitel 5: Wissenserschließung und -darstellung
Kapitel 7: Wissensschaffung
Kapitel 8: Soziale, rechtliche, politische und ethische Aspekte
Literatur

Copyright © 2003 by Rafael Capurro, all rights reserved. This text may be used and shared in accordance with the fair-use provisions of U.S. and international copyright law, and it may be archived and redistributed in electronic form, provided that the author is notified and no fee is charged for access. Archiving, redistribution, or republication of this text on other terms, in any medium, requires the consent of the author.
.

Zurück zur digitalen Bibliothek

Homepage	Forschung	Veranstaltungen
Veröffentlichungen	Lehre	Interviews

EINFÜHRUNG IN DIE INFORMATIONSWISSENSCHAFT

Kapitel 6: Information Retrieval und WWW-Navigation

INHALT

6.1 Einführung

6.1.1 Zur Einstimmung

6.1.2 Literatur

6.1.3 Historischer Exkurs

6.2 Der Online-Dialog

6.2.1 Der Online-Dialog als Interpretationsprozeß

6.2.2 Retrievalsprachen und -strategien

6.2.3 Retrievalsprachen von DB-Anbietern (exemplarisch)

6.2.4 Kosten und Marketing

6.2.5 Kommunikationsnetze und Datenkommunikation

6.3 Die Frage nach der Relevanz des Retrievalergebnisses

6.3.1 Systemorientierte und benutzerorientierte Bewertung

6.3.2 Recall und precision

6.3.3 Pertinenz-Parameter

6.4 Mehrsprachiges Information Retrieval

6.4.1 Matching Strategies

6.4.2 Sources of Translation Knowledge

6.5 Bild- und Ton-Retrieval

6.5.1 Bild-Retrieval

6.5.1.1 Projekt Suchbilder

6.5.1.2 Die Problematik des Bild-Retrievals

6.5.1.3 Start-up-Unternehmen "Cobion"

6.5.2 Ton-Retrieval

6.5.2.1 Suchmaschinen:

6.5.2.1 Voice-Portals:

6.6 WWW-Navigation

6.6.1 WWW-Navigation mit Suchmaschinen und Webkatalogen (exemplarisch)

6.6.1.2 Suchmaschinen

6.6.1.4 Meta-Suchmaschinen

6.6.1.5 Kindersichere Suchmaschinen

6.6.1.7 Hubs und Searchbroker

6.6.1.8 Sonstiges

6.6.2 Zur Evaluierung von IR-Systemen

6.6.2.1 Evaluierungen im Netz

6.6.2.2 C. Oppenheim, A. Morris, C. McKnight: The Evaluation of WWW Search Engines.

6.6.2.3 Kriterien zur Evaluation elektronischer Informationsmittel

6.6.2.4. Bibliothekskataloge und bibliographische Datenbanken

6.6.3 Wie zuverlässig sind elektronische Informationsassistenten?

6.6.3.1 Hilfe zur Lösung des Referenzproblems:

6.6.3.2. Hilfe zur Lösung des Validitätsproblems

6.6.3.3 Zukunft des IR

6.6.4 Personalisierungsdienste im WWW

6.7 Informetrie und Bibliometrie

6.7.1 Informationsgesetze

6.7.1.1 Konzentrationsgesetze

6.7.1.2 Gesetz der zeitlichen Verteilung

6.7.1.3 Moore's Law, Parkinson's Law

6.7.2 Cyber-Geography Research

6.7.3 Zur Vetiefung

6.8 IR in Zur Vertiefung

6.9 Für Fortgeschrittene

Übungen