6.1
Einführung
6.1.1
Zur Einstimmung
6.1.2
Literatur
Praktisch-orienterte
Einführungen:
J.
Bachmann: Der Information Broker. Informationen suchen, sichten,
präsentieren.
München 2000.
E. Poetzsch:
Information
Retrieval. Einführung in Grundlagen und Methoden. Potsdam 2001.
Stock, W:
Anwendungsbeispiele
Online-gestützter Betriebswirtschaft. In: W. Pepels, Hg.:
E-Business-Anwendungen
in der Betriebswirtschaft. Herne/Berlin: Verlag Neue Wirtschafts-Briefe
2002, S. 198-315.
Grundlegend
aus informationswissenschaftlicher Sicht:
K. Sparck
Jones,
P. Willet,
Eds.: Readings in Information Retrieval (Morgan Kaufmann Series in
Multimedia
Information and Systems) 1997.
und
aus Informatik-Sicht:
R.
Baeza-Yates, B. Ribeiro Neto: Modern Information Retrieval. Addison
Wiley
1999.
Empfohlene
Lehrmaterialien:
Klaus
Lepsky
(FH Köln): Methoden
und Verfahren des Information Retrieval (pdf)
Bernhard
Debatin
(Ohio Univ.
USA): information
gathering
6.1.3
Historischer Exkurs
"So
wie
der Aufbau einer Datenbasis ein schöpferischer Prozeß, d.h.
eine "ars" ist, so ist es ebenfalls der Prozeß der
Wiedergewinnung
von im Computer gespeicherten und für die Suche aufbereiteten
(bibliographischen)
Fachinformationen, das Information Retrieval.
Wenn
wir in diesem Zusammenhang von "ars quaerendi", d.h. der Kunst
des
fragenden Suchens (und Findens) sprechen, dann im Hinblick auf eine
andere
traditionsreiche und mit unserer Kunst verwandte Methode, nämlich
die der "ars inveniendi". Vermutlich war Cicero (106-43
v.Chr.)
der erste, der von "ars inveniendi" als der Kunst des Findens
von
rhetorischen Argumenten sprach, während die "ars judicandi" sich
mit
der Evaluierung und Strukturierung der Argumente in der Rede
befaßte.
Cicero beruft sich auf Aristoteles, der im Zusammenhang mit der
dialektischen
Kunst eine "Topik" bzw. eine "Heuristik" entwickelte (Vgl. Cicero:
Topica
II.6).
Es
war aber vor allem Gottfried Wilhelm Leibniz (1646-1716), der
die
Begriffe "ars inveniendi", d.h. ein algebraisches Verfahren zur
Auffindung neuer Wahrheiten (innerhalb einer Wissenschaft) und "ars
iudicandi", d.h. ein algebraisches Verfahren zur Entscheidung
über
die Wahrheit eines Satzes, prägte (G.W. Leibniz: Dissertatio De
Arte
Combinatoria, Berlin 1971). Beide Verfahren betreffen also den
Findungsprozeß
noch nicht bekannter Wahrheiten. Sie sollen der Wahrheitsfindung
dienen.
Demgegenüber, bemekrt Leibniz an anderer Stelle (G.W. Leibniz:
Discours
touchant la méthode de la certitude et l'art d'inventer, Kap.
LIV,
Aalen 1959), steht der gesamte Bereich der schon bekannten und
"nützlichen"
Wahrheiten ("verités utiles", "connnoissances solides et
utiles").
Diese sind zum Teil schriftlich fixiert, befinden sich aber in
großer
Unordnung ("desordre"), zum Teil sind sie nicht geschrieben, besonders
die, welche die Berufspraxis betreffen ("gens de profession"). Um sie
zu
ordnen und auffindbar zu machen, müsste man sie sammeln bzw. erst
niederschreiben, Kataloge erstellen, genaue Register ("indices") mit
Verweisen
aller Art wären nötig usw. Leibniz erwähnt in diesem
Zusammenhang
auch die Frage nach dem Suchen von bereits bekannten, gesammelten und
geordneten
Erkenntnissen, wodurch wir erst in unserem Wissen und Tun fortschreiten
können.
In
Anschluß an Leibniz wollen wir von "ars quaerendi" - der
entsprechende
griechische Ausdruck könnte, im Unterschied zu "Heuristik" etwa "Heuretik"
heißen - sprechen. Eine ähnliche begriffliche und
terminologische
Unterscheidung wird im Bereich der
"künstliche-Intelligenz-Forschung"
zwischen "heuristics" (Technik zur Verbesserung der Effizienz
eines
Suchprozesses) und "heuretics" (das Wissen um die Suchkunst
selbst)
gemacht (vgl. E. Rich: Artificial Intelligence, New York 1983, S. 35
ff).
Es
geht um die Kunst des Suchens und Findens von Erkenntnissen, sofern
diese
bereits (schriftlich fixiert) vorliegen. Im Unterschied zur "ars
inveniendi"
und "iudicandi" geht es nicht um einen Prozeß der
Wahrheitsfindung,
sondern im Mittelpunkt des suchenden Fragens steht die Relevanz
bzw. die Nützlichkeit ("vérités utiles"!)
des
Gefundenen. Die Wahrheitsfrage stellt sich also sowohl bei "Referenz-"
als auch bei "Quellen-Datenbasen" vor der Eingabe (z.B. bei der
Evaluierung
von numerischen Daten und, selbstverständlich, beim Aufbau von
bibliographischen
Datenbasen) bzw. nach der Suche. Der Erkenntnisfortschritt (auch
Leibniz'
Auffindung neuer Wahrheiten durch die "ars inveniendi" bzw.
Klärung
des noch unvollkommenen Erkannten durch die "méthode de la
certitude")
und die Möglichkeit, Erkenntnis in die (berufliche) Praxis
umzusetzen,
gründen nicht zuletzt in der "Kunst", das bereits Gewußte zu
suchen und zu finden.
Inwiefern
die sogenannten Expertensysteme auch eine "ars inveniendi",
oder
zumindest eine unmittelbare Unterstützung dafür, darstellen
können
und sollen, bleibe offen. Die "ars quaerendi" bezieht sich hier auf den
Prozeß des Fragens im Hinblick auf die Auffindung
(möglicherweise) relevanter Fachinformationen." (Capurro
1986, 165-167)
6.2
Der Online-Dialog
6.2.1
Der Online-Dialog als
Interpretationsprozeß
6.2.2 Retrievalsprachen und -strategien
6.2.3 Retrievalsprachen von DB-Anbietern
6.2.4 Kosten und Marketing
6.2.5 Kommunikationsnetze und Datenkommunikation
6.2.1
Der Online-Dialog als Interpretationsprozeß
"Obwohl
der Ausdruck "Online-Dialog" längst in der Praxis des Information
Retrieval eingebürgert ist, könnte der Einwand erhoben
werden,
daß der ursprüngliche Ort des Begriffs "Dialog" wohl
das zwischenmenschliche Verhältnis ist. Für die Hermeneutik
besteht
aber eine leitende Gemeinsamkeit zwischen dem Textverständnis und
der Verständigung im Gespräch. Dieses besteht darin,
daß
es in beiden Fällen um ein Verständnis über eine Sache
geht und daß dieses Verständnis, wie wir oben gezeigt haben,
sich als Frage im Medium der Sprache vollzieht (Vgl.
H.G.
Gadamer: Wahrheit und Methode, op.cit. S. 344 ff; vgl. II.2.c)
Wir
können diese leitende Gemeinsamkeit im Hinblick auf den
Zusammenhang
zwischen dem Fragenden und der im Computer gespeicherten Datenbasis
ausweiten,
indem hier eine eigene Dynamik nicht nur von Seiten des Fragenden,
sondern
auch von der des Textes zustande kommt, die sich dadurch von der
Erfahrung
des Verständnisses eines gedruckten Textes unterscheidet. Diese
Dynamik
ist der des zwischenmenschlichen Dialogs vergleichbar, indem hier das
System
eine dem verobjektivierten Vorverständnis gemäße
"Antwort"
gibt.
Diese
Gemeinsamkeit sollte aber nicht als eine Anthropomorphisierung dieses
Vorganges
gedeutet werden, denn, wie Oeser mit Recht bemerkt, "der
informationsverarbeitende
Automat ist in Analogie zum Menschen gebaut und nicht umgekehrt." (E.
Oeser:
Wissenschaft und Information, op.cit. S. 68). Die hermeneutische
Situation
gegenüber Texten unterscheidet sich von der des
zwischenmenschlichen
Gesprächs u.a. dadurch, daß der Text stets des Interpreten
bedarf,
um "zu Worte zu kommen" (H.G. Gadamer: Wahrheit und Methode, op.cit. S.
365). Auch Datenbasen bedürfen des Interpreten und bei ihrer
Befragung
findet jene Verbindung aufgrund der gemeinsamen Sache statt, die auch
das
wirkliche Gespräch charakterisiert. So wie im Falle des Textes von
einem "hermeneutischen Gespräch" die Rede ist, so scheint es auch
hier berechtigt, von einem "Online-Dialog" zu sprechen. Die dem
Online-Dialog eigene Dynamik wird aber dadurch möglich,
daß
hier bestimmte
Vorverständnisse fixiert werden, die den Rahmen und die
Grenzen
des "antwortenden" Systems bilden. Indem der Fragende die Datenbasis
befragt,
bringt er sein Vorverständnis der thematisierten Sachverhalte, das
er mit der jeweiligen Fachgemeinschaft mit-teilt, ins Spiel. Erst im
Licht
dieses "Profils", werden die gespeicherten Daten zu Fachinformation,
indem sie in einen bestimmten Mitteilungsprozeß einbezogen und
von
diesem "geformt" werden
Vgl.
E. Garfield: What Are Facts (Data) and What is Information? In: ders.:
Essays of an Information Scientist, Philadelphia 1977, Vol. II, S.
47ff,
der in diesem Zusammenhang auf den etymologischen Ursprung des
Informationsbegriffs
hinweist. Vgl. v.Vf.: Information,
München 1978.
Die
Zusammenkunft zwischen einem Fragenden und einem (Informations-)System
ist als ein hermeneutischer Prozeß zu deuten, in dessen Verlauf
der
offene Horizont des Fragenden und der fixierte Horizont des Systems
sich
vorläufig "verschmelzen", d.h. das verobjektivierte
Vorverständnis
erscheint jeweils als (mögliche) Antwort auf eine Frage und wird
somit
verstehend im Online-Dialog wiedergewonnen. Bei dieser
Horizontverschmelzung
(matching) zeigt sich zugleich die Identität und die
Differenz
der sich auf- und abhebenden Horizonte.
offene
Vorverständnisse:
-
Fachgemeinschaft
-
Sachverhalte im Netz
ihrer
Bedeutungen und
Verweisungen
-
Weltoffenheit
|
verobjektivierte
Vorverständnisse:
-
Klassifikationen
-
Thesauri
-
Kurzfassungen
-
bibliogr. Angaben
|
Horizontverschmelzung
(matching)
("hermeneutischer
Zirkel")
|
Auf
der
einen Seite haben wir den offenen Horizont des Fragenden, eignebettet
ins
Vorverständnis der Fachgemeinschaft. Aus der Auseinandersetzung
mit
den Sachverhalten in ihren vielfältigen Bedeutungs- und
Verweisungszusammenhängen
entspringen die jeweiligen Fragen bzw. Probleme unterschiedlicher Art.
Wir sahen, daß Belkin den Begriff des "anomalous state of
knowledge"
(ASK-Zustand) als Bezeichnung für den Zustand eines
Noch-nicht-verstehens
vor dem Hintergrund eines bereits gewonnenen Vorverständnisses
prägte.
Ein solcher Zustand ist immer schon, wie Belkin mit Recht betont (N.J.
Belkin, R.N. Oddy, H.M. Brooks.: ASK for Information Retrieval.
In:Journal
of Documentation 38 (1982) 2, S. 61ff), durch die Interaktion mit
unseren
Mitmenschen sowie mit der Welt, die wir gemeinsam mit-teilen,
vermittelt.
Auf
der anderen Seite steht der fixierte Horizont des Systems. Dieser ist
zwar
ausbau- (bzw. "lern-")fähig, d.h. er kann und wird ständig
erweitert
und aktualisiert, bleibt aber stets auf die ihm aus dessen Umgebung
zufließenden
und bereits in ihrer Bedeutung als potentielle Fachinformation
vorverstandenen
Daten angewiesen. Das gilt sowohl für die "Zielinformationen"
selbst, also in unserem Fall für die Literaturhinweise, als auch
für
die unterschiedlichen Suchmittel (Thesaurus, Klassifikation
usw.).
Beim
Online-Dialog vollzieht sich eine mehrfache Horizontverschmelzung auf
unterschiedlichen
Ebenen: so z.B. auf einer "kontextfreien" Ebene, in der die
Fachbegrifflichkeit
des Fragenden, die eine offene und "diachronische" ist, mit den
fixierten
"synchronischen" Thesaurusbegriffen zusammenkommt. Die Deskriptoren
werden
zwar "kontextfrei" aber nicht "horizontfrei" angeboten, wenn wir den
Thesaurus
als Ganzes als einen (fixierten) Sinnhorizont auffassen. Da sie aber
wiederum
auf die entsprechenden Texte verweisen bzw. den Zugang zu ihnen
ermöglichen,
sind sie auch nicht völlig "kontextfrei" und erlauben deshalb eine
weitere Stufe der "Horizontverschmelzung" z.B. mit dem Titel der
Dokumente
oder mit den Kurzfassungen.
Im
Falle eines auf der "natürlichen Sprache" basierenden
Retrieval-Systems
bilden zum einen das jeweilige Fachgebiet und zum anderen das
tatsächlich
gespeicherte und "invertierte" Textmaterial einen Horizont, der sich
dem
Fragenden unter Umständen nur allmählich als Gegenstand einer
möglichen "Verschmelzung" anbietet, so daß wir am Anfang vor
einem Grenzfall dieses Phänomens stehen und deshalb nur bedingt
von
"Horizontverschmelzung" sprechen können.
Die
Grenzen einer Horizontveschmelzung sind außerdem im Falle von
bibliographischen
Datenbasen offensichtlich: Literaturhinweise sind ein zu dürftiger
Anhaltspunkt, als daß sie dem reichhaltigen Horizont des
Fragenden
entsprechen könnten. Sie können aber zugleich auf die
Möglichkeit
einer solchen Entsprechung aufmerksam machen und somit den dynmaischen
Vorgang der Horizontbildung unterstützen, beschleunigen,
vereinfachen
usw.
Das
Gelingen der unterschiedlichen Horizontverschmelzungen hängt
natürlich
im beträchtlichen Maße davon ab, ob der Fragende selbst den
Online-Dialog durchführt oder ob ein anderer für ihn sucht
bzw.
fragt. Ein erfahrener "Searcher" aber, der das System und die
jeweilige
Datenbasis kennt, kann u.U. eine notwendige vermittelnde Rolle
einnehmen
und tritt dabei als zusätzliche Interpretationsinstanz zwischen
dem
System und dem Fragenden ein. Der stattfindende Verstehensprozeß
zwischen dem Fragenden und dem "Searcher" ist dann Gegenstand der
allgemeinen
Hermeneutik. Die hier beschriebene "ideale" Situation ist die des sich
mit dem System auskennenden Fragenden, der selbst den Online-Dialog
durchführt
("end user"). In der Praxis ist man heute häufig auf eine
vermittelnde
Instanz ("intermediary") angewiesen." (Capuro 1986, 167-172)
"Der
Online-Dialog ist ein Suchprozeß, den ursprünglich der
Fragende
selbst durchführt und der somit stets auf seinen Fragehorizont
bezogen
bleibt. Das Fragen ist aber wiederum weder als "innerpsychischer
Zustand"
eines "Subjektes", noch als ein anonym auf ein "für sich
bestehendes
Fach" bezogen, zu deuten. Im ersten Fall lösen wir den Fragenden
von
der Fachgemeinschaft bzw. vom Miteinandersein ab, im zweiten
hypostasieren
wir Fachgebiete bzw. den Horizont einer Fachgemeinschaft.
Mit
Recht kritisiert D.R. Swanson (D.R. Swanson: Information Retrieval as a
Trial-and-Errof-Process. In: Information Storage & Retrieval 6,
1970,
S. 351-361) die Vorstellung des Retrieval-Prozesses als eine bloß
auf den Horizont eines Fachgebietes ("topic") bezogene Suche. Er
vergleicht
in diesem Zusammenhang das Information Retrieval mit dem (Popperschen)
Modell der wissenschaftlichen Forschung als einen Prozeß von
"Versuch-und-Irrtum"
("trial-and-error"). Kreative wissenschaftliche Forschung, erklärt
Swanson, geht nicht von einem "Fachgebiet", sondern von einem "Problem"
aus, d.h. es wird eine Vermutung (bzw. eine "Theorie") aufgestellt und
auf ihren Wahrheitsgrad geprüft. Es handelt sich dabei um einen interaktiven
bzw. rekursiven Prozeß.
Wir
bemerkten schon, daß "Fachgebiet" und "Problem"
nicht
antagonistisch aufzufassen sind. Es wäre ebenso einseitig, sich
"Probleme
an sich", d.h. losgelöst von einem mit-geteilten "Fachgebiet" (im
oben angedeuteten Sinne) vorzustellen. Swanson meint aber offenbar
einen
solchen Antagonismus nicht, sondern hebt den Bezug auf den Horizont des
Fragenden hervor. Die Analogie zwischen der "trial-and-error"-Methode
und
dem Information Retrieval gründet darin, daß in beiden
Fällen
ein Fragender von einer von ihm bestimmten Frage (bzw. "Vermutung")
ausgeht
und die gefundenen Antworten bzw. "Lösungen" nicht
"absolut",
sondern als Quelle neuen Fragens versteht.
Damit
ist der beiden Prozessen gemeinsame hermeneutische Charakter
des
Fragens angesprochen. Die Analogie kommt aber in verschiedener Hinsich
im Retrieval-Prozeß zu kurz. Wir sagten oben, daß das Ziel
dieses Prozesses nicht die Prüfung der Wahrheit einer
Aussage
bzw. Theorie, sondern die Suche nach relevanten bzw.
"nützlichen"
Erkenntnissen ist. Der Fragende sucht mögliche im Hinblick auf
seine
Fragestellung relevante Erkenntnisse, wobei er nur Hinweise auf
diese am Bildschirm unmittelbar zu sehen bekommt. Aber auch wenn er
zugleich
den Originaltext oder, im Falle von Faktendatenbasen, die gesuchte
Angabe
finden würde, wäre ein solcher Prozeß nicht dem einer
automatisierten
"ars inveniendi" gleich zu setzen. Im Falle der wissenschaftlichen
Forschung
geht es um "Wahrheit" und "Irrtum", freilich als ein offener
Prozeß,
ohne "absolute" Kriterien. In diesem engen Sinne von "Irrtum" bzw.
"Fehler"
kann aber beim Information Retrieval nicht gesprochen werden, da die
Suche
nach Literaturhinweisen nicht dazu führt (und sie ist auch nicht
notwendigerweise
im Hinblick darauf erfolgt) den Wahrheitsgehalt der Frage (oder den der
Frageformulierung) zu bestätigen oder zu widerlegen.
Außerdem
stellt dieses Modell ein Ziel, nämlich das einer
bestimmten
Form wissenschaftlicher Forschung, in den Vordergrund, während es
in Wahrheit,wenn wir z.B. an die berufliche Praxis denken, eine
Vielfalt
von Zielen für einen solche Suche geben kann. In diesem Sinne
schränkt
z.B. S.P. Harter dieses Modell als analogen der Online-Suche ein (S. P.
Harter: Scientific Inquiry: A Model for Online Searching. In: Journal
of
the American Soc. for Inf. Science 35, 1984, 2, S. 110-117). Gefundene
aber nicht relevante Literaturhinweise sind somit schwerlich als
"Fehler"
zu kennzeichnen und eine entsprechende Modifizierung der Frage
(vielleicht
zunächst und zumeist nur der Frageformulierung) bedeutet nicht,
daß
man ihren Wahrheitsgehalt testet. Der Begriff "Fehler" ist hier relativ
zum Zweck und im Rahmen von Relevanz zu sehen. Wir werden im
nächsten
Abschnitt auf den Relevanzbegriff eingehen.
Der
offene Charakter des Retrieval-Prozesses sowie sein Bezug auf den
Horizont
des Fragenden, der sein Vorverständnis ins Spiel bringt und dabei
unterschiedliche Zwecke verfolgen kann, läßt sich demnach
allgemein
als ein hermeneutischer Prozeß deuten und dessen
wiederkehrender
und "stimulierender" Charakter als eine besondere Ausformung des
"hermeneutischen
Zirkels" erkennen. Da es sich hier um einen allgemeinen, d.h. in bezug
auf verschiedene Motivationen offenen Prozeß des Suchens und
Findens
(von Hinweisen auf Erkenntnisse) handelt, soll nicht, wenn schon nach
einer
"Formel" gesucht wird, von "trial-and-error", sondern von
"search-and-find"
die Rede sein. Damit hat aber "das Gefundene" nicht die Funktion, den
Suchprozeß
abzuschließen, genausowenig wie im Falle von "trial-and-error"
die
"Fehler" einen bloß negativen Charakter haben. Durch die
gefundenen
Hinweise sowie auch durch den Suchprozeß selbst, kann das
Vorverständnis
des Fragenden in vieler Hinsich erweitert, bereichert, verändert
werden
und stellt sich somit als neue Grundlage für das weitere Suchen
dar.
Wir lernen nicht nur aus unseren "Fehlern", sondern auch aus unseren
"Erfolgen"."
(Capurro 1986, 173-175)
6.2.2
Retrievalsprachen und -strategien
Grundfunktionen
einer Retrievalsprache:
-
Auswahl einer oder mehrerer Datenbanken
-
Anzeige der möglichen Suchbegriffe (Basic Index, Autorenindex,
usw.)
-
Suche nach Einzelbegriffen und Verknüpfung derselben (Trunkierung,
Kontextsuche, Verknüpfung)
-
Ausgabefunktionen für die gefundenen Dokumente
-
Speicherfunktionen zum Sichern der Suchprofile
Suchstrategien:
-
Blockbildung (= Komponentenzerlegung) (building blocks)
-
Spezifische-Wörter-Priorität (most specific first):
man
gibt den prägnantesten Begriff sofort ein
-
Niedrigste-Treffer-Priorität (lowest posting first): falls
sehr divergierende Trefferzahlen, wählt man diejenigen mit der
niedrigsten
Frequenz aus.
-
Zitatbasierte Erweiterungsstrategie (citation pearl growing):
man
tastet sich aufgrund der gefundenen Zitate an das Thema heran.
-
Schrittweise Verfeinerung (successive fractions approach): es
werden
solange Teilmengen gebildet, bis man die gewünschte Ergebnismenge
gewonnen hat.
6.2.3
Retrievalsprachen von DB-Anbietern (exemplarisch)
FIZ
Karlsruhe / STN International
DIMDI
FIZ
Technik
GBI
DIALOG
6.2.4
Kosten und Marketing
Zur
Einführung:
S.
Grudowski: Marketing für die Informationsvermitlung. In: Buder et
al.: Grundlagen der praktischen Information und Dokumentation, Bd. 2,
823-843.
W.
Schwuchow: Informationsökonomie. In: Buder et al.: Grundlagen der
praktischen Information und Dokumentation, Bd. 2, 751-778.
S.
A. E. Webber: Pricing and marketing Online Information Services. In:
Williams,
Martha E. (ed.): Annual
Review of Information Science and Technology (ARIST), published on
behalf of the ASIS (American Society for Information Science),
Information
Today Inc., Medford, N.J., Vol. 33 (1998), 39-83.
6.2.5
Kommunikationsnetze und Datenkommunikation
Zur Einführung:
K.
Löns: Kommunikationsnetze und Datenkommunikation: Buder et al.:
Grundlagen
der praktischen Information und Dokumentation, Bd. 2, 698-729.
6.3
Die Frage nach der Relevanz des Retrievalergebnisses
6.3.1
Systemorientierte und benutzerorientierte Bewertung
"Im
Mittelpunkt
des suchenden Fragens steht die Relevanz bzw. Nützlichkeit der
Retrievalergebnisse.
Es ist der Fragende selbst, der ursprünglich die Relevanzfrage
stellt
und beantwortet. Das Urteil des Nutzers ist aber, wie G. Salton mit
Recht
betont, für die Evaluierung des Informationssystems von
entscheidender
Bedeutung, wenn man davonausgeht, daß Informationssysteme keinen
Selbstzweck erfüllen, sondern ein Mitteilungsmodus der
Fachgemeinschaft
sind (G. Salton, M.J. McGill: Introduction to Modern Information
Retrieval,
New York 1983, S. 161; Vgl. T. Saracevic: Relevance, In:
M.J.
Voigt, M.H. Harris Eds.: Advances in Librarianship, New York 1976, S.
79-138)
Von
allen Paramatern, die bei der Bewertung eines Retrievalsystems eine
Rolle
spielen, ist die Frage nach der Relevanz der Ergebnisse die wohl
entscheidenste.
Obwohl hier von Retrievalergebnissen die Rede ist, liegen die im
folgenden zu differenrenzierenden Ebenen dem Suchprozeß
selbst
zugrunde, besonders wenn dieser vom Fragenden selbst, d.h. vom
tatsächlichen
Nutzer, durchgeführt wird, und wenn er diesen Prozeß durch
die
Zwischenbewertung der Literaturhinweise bestimmt.
Die
Suche nach "objektiven" Bewertungs- bzw. Relevanzkriterien und die
Tatsache,
daß öfter Literaturrecherchen von einem Vermittler
durchgeführt
werden, geben zunächst Anlaß, die Relevanzfrage ohne
Rücksicht
auf den Nutzer zu stellen. Man spricht von "systemorientierter
Bewertung"
oder von "objective view" (Salton), im Gegensatz zur "subjective view"
bzw. "benutzerorientierten Bewertung".
Die
systemorientierte Bewertung berücksichtigt das Verhältnis
zwischen
dem thematischen Horizont der Frage und dem der gefundenen
Literaturhinweise.
Der Fragende kann sich aber auch auf dieser Ebene bewegen und lediglich
auf die "topische Relevanz" (Swanson) achten, ohne über die
"problemspezifische"
Relevanz zunächst zu entscheiden.
Zur
systemorientierten Bewertung gehört auch der Vorgang des
Vergleichs
("matching") z.B. zwischen der Suchformulierung und der
betreffenden
verobjektivierten Suchsprache. Man kann diese Ebene als eine Vorstufe
betrachten
und erst dann von Relevanz sprechen, wenn aufgrund der
Ergebnisse
des Vergleichsprozeses, der Fragende bzw. der Vermittler ein Urteil
bezüglich
der Zugehörigkeit der Literaturhinweise zur angesprochenen
Thematik
ausspricht. Wenn das System diese zweite Ebene als das entscheidende
Relevanzkriterium
ansieht und die tatsächliche Beurteilung des Nutzers ausklammert,
kommt es zu der von Swanson, Harter, Möhr u.a. angesprochenen
Verzerrung
des Relevanzproblems. Die Relevanzebenen sind also wohl zu
differenzieren,
ohne sie aber gegeneinander auszuspielen.
Die
benutzerorientierte Bewertung findet im Horizont eines erfolgreichen
"matching"
sowie einer bestimmten Thematik bzw. eines Fachgebeites statt. Das
Verhältnis
des Retrievalergebnisses zur spezifischen Einbettung der Frage ins
Vorverständnis
des Nutzers bildet die dritte Relevanzebene. Lancaster, Salto u.a.
sprechen
hier nicht von Relevanz, sondern von Pertinenz. Entscheidend ist dabei
die Einsicht, daß die Pertinenz vom Horizont des Fragenden
konstituiert
wird. Von der Pertinenz aus gesehen ist die "Objektivität" der
Relevanz
lediglich eine Abstraktion. Da wiederum das Ergebnis des
Retrieval-Prozesses
Literaturhinweise sind, gewinnt das Pertinenzurteil erst seinen vollen
Gehalt, wenn die Dokumente selbst in die Betrachtung einbezogen werden,
und wenn eine Aussage über deren tatsächliche Verwertung
gemacht
wird bzw. gemacht werden kann.
6.3.2
Recall und precision
Zur
Bewertung
der Relevanz des Retrievalergebnisses verwendet man gewöhnlich
zwei
Parameter, nämlich die Rückgewinnungsquote oder "recall" und
die Trefferquote oder "precision". Diese Parameter sollen jeweils
folgende
Verhältnisse zum Ausdruck bringen:
Recall
=
Zahl
der relevanten ausgegebenen Dokumenten
Zahl
der relevanten Dokumente im Speicher
Precision
=
Zahl
der relevanten ausgegebenen Dokumenten
Zahl
der insgesamt ausgegebenen Dokumente
Diese
Quoten sind in verschiedener Hinsicht problematisch. Zunächst
muß
hervorgehoben werden, daß der Relevanzbegriff in diesen
Parametern
meistens undifferenziert bleibt bzw. lediglich im Sinne der (topischen)
Relevanz und nicht der Pertinenz gebraucht wird. Ferner könnten
diese
Parameter auch im Hinblick auf die Vorstufe des "Vergleichs"
("matching")
angewandt werden. Der Referenzrahmen ist dann jeweils:
die
Suchformulierung bzw. die Suchtaktik,
der
thematische Horizont der Frage,
der
konkrete Horizont des Fragenden.
Die Parameter
werden ferner in ihrer Aussagekraft eingeschränkt, wenn lediglich
die Literaturhinweise als Grundlage der Relevanz bzw.
Pertinenzentscheidung
zugrundegelegt werden. (...)
6.3.3
Pertinenz-Parameter
Daß
der Begriff des "nicht-relevanten Dokumentes" ("Ballast", "fall-out")
auch
entsprechend relativiert werden muß, ist offensichtlich. Salton
nennt
drei charakteristische Pertinenz-Parameter:
1)
Die Neuigkeitsquote, d.h. das Verhältnis der gefundenen und, aus
der
Sicht des Nutzers, relevanten Dokumente zu den ihm davon unbekannten ("novelty
ratio").
2)
Das Verhältnis aller für den Nutzer relevanten gefundenen
Dokumente
zu den ihm bereits bekannten und relevanten ("coverage ratio").
3)
Das Verhältnis aller vom Nutzer analysierten relevanten Dokumente,
zu der Gesamtzahl relevanter Dokumente, die er gern hätte
analysieren
wollen ("sought recall") (G. Salton, op.cit. S. 176 ff)
Das
Neuigkeitsparameter, das auf den ersten Blick eindeutig erfaßbar
erscheint, hat eine unterschiedliche Gewichtung, je nachdem in welchem
Bedeutungszusammenhang das Neue gesehen wird. Auch im zweiten Fall mag
es z.T. schwierig zu ermitteln und letztlich auch von geringer
Bedeutung
sein, wenn der Nutzer eine bestimmte Zahl der ihm bekannten und
relevanten
Dokumente nennen soll. Die letzte Quote hat scließlich
einen
bloßen hypothetischen und z.T. willkürlichen Charakter.
Daß
Pertinenz sich schwer quantifizieren läßt, bedeutet nicht,
sie
wäre nicht faßbar. Untersuchungsmethoden, die die
qualitativen
Komponenten dieses Phänomens berücksichtigen, sind hier
nötig.
Die zu ermittelnden Mengen werden dabei nicht zu "Richtwerten"
nivelliert,
sondern jeweils im qualitativ-inhaltichen Bezug zum Nutzer, seinem
Vorverständnis,
seinem (wechselnden) Interessen- und Zielhorizont, zur jeweiligen
Fachgemeinschaft
und zum Fachgebiet usw. geprüft und beurteilt. Der Verzicht auf
Pertinenz-Untersuchungen
zugunsten lediglich der systemorientierten Bewertungsmethoden,
würde
vermutlich zu einer Verfestigugn der jetztigen
Information-Retrieval-Systme
führen, anstatt sie stets an ihrem eigentlichen Sinn zu messen, um
daraus neue Anstöße für eine weitere Entwicklung in den
unterschiedlichen Ebenen zu erhalten.
Die
Erörterung der Relevanzfrage beim Information Retrieval kann
als ein spezieller Fall einer allgemeinen Untersuchung des
Grundphänomens
der Relevanz im Sinne eines dauernden Vorganges, der in der Bildung und
Infragestellung von individuellen und sozialen Vorverständnissen
besteht.
In diesem Zusammenhang sei auf die maßgeblichen
phänomenologischen
Analysen von Alfred Schütz hingewiesen (A. Schütz:
Reflections
on the Problem of Relevance, New Haven 1970).
Die
von Schütz erörteten Relevanzarten, nämlich: "topische",
"motivierte" und "interpretative" Relevanz, weisen jeweils auf den
thematischen
Horizont des Fragenden, auf seinen Erwartungshorizong sowie auf den
Bewertungsprozeß
hin, wordurch er die "Pertinenz" der Antworten thematisch und
"zweckmäßig"
analysiert und somit zur Bildung eines neuen Horizontes kommt."
(Capurro
1986, 180-185)
Zur
Vertiefung:
Vgl. den
im Teil
I, 3.4.5 zitierten Aufsatz von
Thomas
Froehlich:
"Relevance Reconsidered - Towards an Agenda for the 21st Century:
Introduction
to Special Topic Issue on Relevance Research" Journal of the ASIS 45
(3)
1994, 124-134 sowie
den klassischen Aufsatz von Robert Fugmann: "The Empirical
Approach
in the Evaluation of Information Systems" (Knowledge Organization 26,
1999,
No. 1, 3-9), der den positivistischen Ansatz der "Cranfield
experiments"
kritisiert und auf die Bedeutung der "hermeneutic phenomenology"
für
die Relevanzproblematik hinweist. Vgl.
auch: R. Fugmann: The Five-Axiom Theory of Indexing and Information
Supply.
In: Journal of the ASIS 36(2) 1985, 116-129.
6.4
Mehrsprachiges Information Retrieval
6.4.1
Matching Strategies
-
"Cognate matching: essentially automates the process by which readers
might
try to guess the meaning of an unfamiliar term based on similarities in
spelling or pronunciation."
-
"Query translation: is a more gneral strategy in which the query (or
some
internal representation of the query) is automatically converted into
every
supported language."
-
"Document translation: is the opposite of query translation,
automatically
converting all of the documents (or their representations) into each
supported
language."
-
"Interlingual techniques: conver to both the query and the documents
into
a unified language-independent representation. Controlled-vocabulary
techniques
based on multilingual thesauri are the most common examples of this
approach."
6.4.2
Sources of Translation Knowledge
-
"Ontologies: are structures that encode domain knowledge by specifying
relationships between concepts. Thesauri are ontologies that are
designed
specifically to support information retrieval. At present, multilingual
thesauri are the dominant sources of translation knowledge in
operational
CLIR systems." (CLIR=Cross-Language Information Retrieval Systems)
-
"Bilingual dictionaries: have been widely used to support query
translation
strategies."
-
"Machine translation lexicons: are becoming fairly widely available,
although
machine-readable dictionaries still cover a greater numer of language
pairs."
-
"Document-aligned corpora: are document collections in which useful
relationships
between sets of documents in different languages are known."
-
"Sentence- and term-aligned corpora: Comparable corpora can be aligned
only to the document level, but many individual sentences in prallel
corpora
can be aligned automatically using dynamic programming techniques."
-
"Unaligned corpora: A representative monolingual document collection
is,
of course, available in any application of CLIR to retrospective
retrieval.Such
collections are often assembled for filtering applications as well
because
they provide useful collection frequency statistics. When
representative
documents in more than one language are present in (or can be added to)
such a collection, the collection itself can be used in conjunction
with
a bilingual term list as an additional source of translation knowledge
even if a priori document alignments are not known."
"The
distinction between user-assisted and fully automatic query translation
is rather sharply drawn at present, with users either beng offered the
opportunity to help resolve translation ambiguity for every term or for
no terms. More sophisticated strategies might retain much of the
benefit
of user-assisted translation while avoiding unnecessary allocation of
user
effort and screen space to that task."
Vgl. G.
Thurmair, Chr. Womser-Hacker: Multilingualität im wissensbasierten
Faktenretrieval. In: J. Krause, M. Herfurth, J. Marx Hrsg.:
Herausforderungen
an die Informationswirtschaft. Proceedigns des 5. Internationalen
Symposiums
für Informationswissenschaft (ISI '96), Konstanz 1996, 121-133.
6.5 Bild-
und Ton-Retrieval
6.5.1
Bild-Retrieval
6.5.1.1
Projekt
Suchbilder
6.5.1.2 Die
Problematik des
Bild-Retrievals
Monika und
Wolfgang Renz (FH
Hamburg, Fachbereich Elektrotechnik und Informatik) fassen die
Problematik
des Bild-Retrievals folgendermaßen zusammen:
"Die
in der Praxis
üblichen Retrievalverfahren nutzen ausschließlich die sprachliche
Achse zum Brückenschlag vom Dokument zum Benutzer. Die
gängige
Technik der Inhaltserschließung in Bilddatenbanken (ob
Multimediadatenbank
oder Referenzdatenbank) besteht darin, Dokumente mit Hilfe eines kontrollierten
Vokabulars zu indexieren und ggf. weiteres bildbegleitendes
Textmaterial
(Bildlegenden etc.) in Textfeldern abzulegen, um es über eine
Freitextrecherche
verfügbar zu machen.
Wie
können bildliche
Inhalte unter Umgehung von Sprache überhaupt dargestellt werden?
Im
Gegensatz zur geschriebenen (nicht gesprochenen!) Sprache, deren
Kodierung
im Rechner bereits eine Strukturierung in Einheiten (Wortformen)
beinhaltet,
denen Bedeutung zugeordnet werden kann, stellt die digitale
Repräsentation
von Bildern in Pixeln keine Einheiten auf semantischer Ebene
zur
Verfügung. Die speicherintensive digitale Information eines Bildes
kann für Retrievalzwecke nur genutzt werden, wenn sie reduziert
und
auf einer abstrakteren Ebene strukturiert werden kann. Elementar, aber
dennoch perzeptiv relevant ist die Ebene 1 des Modells der
Inhaltsanalyse. Farbe, Textur, geometrische Formen und ihr
räumliches Verhältnis
sind optische Attribute, die mit Methoden der Bildverarbeitung
automatisch
aus Bilddaten extrahiert und für eine Indexierung genutzt werden
können.
In einzelnen Anwendungen oder auf der Grundlage von Wissensbasen
können
auch Entitäten, die Ebene 2 zuzuordnen sind (konkrete
Objekte,
Personenindividuen), erkannt werden.
Die
Funktionsfähigkeit
der bildlichen Achse des Retrievalmodells setzt auf der Rechercheseite
Schnittstellen zur Eingabe von bildlichen Suchanfragen voraus
(Query
by visual example) sowie geeignete Ähnlichkeitsmetriken zum
Abgleich
von indexierten Dokumenten und Anfragen, wie in Abschnit 4
erläutert.
(...)
Die
Schwierigkeit besteht
nun darin, die Ähnlichkeit zweier Bilder auf Ebene 1, also von
ihrem
optischen Eindruck her, zu definieren. Es ist sofort klar, dass es
sehr unterschiedliche Dimensionen von Bildähnlichkeit gibt:
ähnliche
Farbgebung, ähnliche Form der Objekte im Bild, ähnliche
Anordnung
der Objekte, ähnliche Muster und Strukturen usw. In der Summe
müssen
alle diese Unterschiede mit einem gewissen Gewicht zu einem effektiven
Bildunterschied addiert werden. (...)
Rankings in Form
einer eindimensionalen
Liste haben das prinzipielle Problem, dass den unterschiedlichen
Dimensionen
der Ähnlichkeitsmetrik nur unzureichend Rechnung getragen wird."
(S.
108-109)
Vgl. M.
Renz, W.
Renz: Neue
Verfahren im Bildretrieval - Perspektiven für die Anwendung. In:
R.
Schmidt, Hrsg.: Wissen in Aktion. Wege des Knowledge Managements. 22.
Online-Tagung
der DGI, Frankfurt a.M. 2. bis 4. Mai 2000, S. 102-128.
6.5.1.3
Start-up-Unternehmen
"Cobion"
Aus: Sandra Kegel:
Auf der Suche
nach den verlorenen Kindern. Ein Bild sagt mehr als tausend E-Mails:
Drei
Tüftler aus Kassel ordnen das Internet neu. FAZ, 20.2.2001, Nr.
43,
S. 56:
"Jörg
Lamprecht,
Renée Seeber und Carsten Werner sind Bilderjäger.
Ausgerüstet
mit einer gewaltigen Computeranlage aus mehr als tausend Rechnern, die
in Reih und Glied im Keller ihres Start-up-Unternehmens "Cobion" stehen
und dort pausenlos rotieren, suchen sie nach allem, was das Netz an
Visuellem
bereithält. Was ihre Software leistet, galt bis vor kurzem noch
als
unvorstellbar: Während bekannte Suchmaschinen wie Yahoo oder
Altavista
das Internet nach Schlagworten wie "Oscar Wilde" oder "Claudia
Schiffer"
durchforsten, können die Cobio-Computer Gesichter, Graphiken und
visuelle
Zeichen lesen wie ein Mensch; sie imitieren die Leistung des Gehirns
beim
Sehen. Hierfür wird der Rechner mit einem Foto gefüttert, das
er ein einem aufwendigen Verfahren in einen Zahlencode verwandelt. Aus fünftausend
Vermessungspunkten der
Gesichtsmerkmale,
wie den Proportionen der Augen, dem Abstand der Nase zum Mund oder zu
den
Ohren, errechnet er einen mathematisch exakten Code, der so
unverwechselbar
ist wie ein Fingerabdruck. Die Suchmaske legt der Rechner über
sämtliche
Bilder, die er auf seinen Streifzügen durch die 2,1 Milliarden
Websites
im Internet findet. Fünfzig bis sechzig Millionen Bilder
prüft
er täglich. Kommt es zu einer Übereinstimmung, gibt er sie
Fundstelle
an und kopiert das Bild. (...)
Bislang
wird die
einzigartige Suchmaschine vor allem von großen Unternehmen wie
Adidas,
Bayer oder Daimler-Chrysler genutzt, die mit ihrer Hilfe das Internet
nach Markenrechtsverletzungen durchforsten.
Ungewöhnlicheren Besuch
bekamen die Cobion-Leute indes vor einigen Wochen, als Politiker und
das
Landeskriminalamt sich in der bunt ausgemalten Eingangshalle einfanden.
Denn mit dern Suche nach vermißten Kindern im Internet,
die
Cobion seit Anfang des Jahres auf eigene Kosten betreibt, ist den
Bilderjägern
mehr geglückt als nur eine geniale PR-Strategie. Für ein Jahr
durchstöbern ihre Computer das Netz nicht nur nach illegal
kopierten
Firmenlogos, nach gefälschten Turnschuhen und Luxuskrokodilen, sie
suchen auch nach Deborah, Angelica oder Tanja. Zusammen mit der "Fondation
pour la Recherche d'Enfants Disparus par Internet", kurz Fredi,
und der "Elterninitiative Vermißte Kindern" unternimmt
Cobion
den weltweit ersten Versuch, gezielt nach verschwundenen Kindern zu
suchen
und nicht, wie bisher üblich, lediglich Fahndnungsfotos ins Netz
zu
stellen. (...)
Wenn
Pharmaunternehmen
wie Bayer das Netz nach Produktfälschungen abtasten, hilft
das nicht allein dem Konzern, dem Netzpiraten jährlich einen
finanziellen
Schaden in Milliardenhöhe zufügen, sondern allen, die sich
vor
gepanschten Arzneimitteln wappnen wollen."
Hier ist eine
Demo-Version: http://www.cobion.de/services/portal_demo.shtm
6.5.2
Ton-Retrieval
6.5.2.1
Suchmaschinen:
6.5.2.1
Voice-Portals:
Robert Poe: Now
You're Talking, February 2001
6.6
WWW-Navigation
6.6.1
WWW-Navigation mit Suchmaschinen und
Webkatalogen
6.6.1.1
Basisdienste des Internet
6.6.1.2
Suchmaschinen
6.6.1.3
Webkataloge
6.6.1.4
Meta-Suchmaschinen
6.6.1.5
Kindersichere Suchmaschinen
6.6.1.6
Webcheck
6.6.1.7 Hubs
und
Searchbroker
6.6.1.8
Sonstiges
6.6.2
Zur Evaluierung von IR-Systemen
6.6.2.1
Evaluierungen im Netz
6.6.2.2
Oppenheim/Morris/McKnight:
The Evaluation of WWW Search Engines.
6.6.2.3
Kriterien zur Evaluation elektronischer Informationsmittel
6.6.2.4
Bibliothekskataloge
und bibliographische Datenbanken
6.6.3 Wie
zuverlässig sind elektronische Informationsassistenten?
6.6.3.1 Hilfe
zur
Lösung
des Referenzproblems
6.6.3.2
Hilfe zur Lösung des Validitätsproblem
6.6.4
Personalisierungsdienste im WWW
Die
häufig verwendete nautische Metapher des Navigierens oder Surfens
für das Suchen von Informationen im Internet drückt eine
positive
Haltung gegenüber dem Zufall oder unvorhergesehenen
Möglichkeiten
aus, so wie der Steuermann sich plötzlich aufkommende Winde oder
Strömungen
zunutze machen kann - oder dabei zugrunde geht! Dies galt schon
für
die alte Tugend des Gutenberg-Zeitalters, nämlich in Bibliotheken
nicht nur gezielt zu suchen, sondern auch, sofern sie im Form eines
freien
zugänglichen und systematisch geordneten Bestandes organisiert
waren,
zu browsen.
Gute
Navigation zeichnet
sich nach Frank Thissen (Screen Design Handbuch. Heidelberg
2000,
S. 61) durch folgende Merkmale aus:
- Die
Navigation
paßt zu
den Zielen, Erwartungen und dem Verhalten der Nutzer.
- Die
Navigationselemente sind
nicht dominant. Navigation funktioniert intuitiv, ohne daß sich
der
Nutzer mit ihr auseinandersetzen oder sie gar erlernen muß.
- Die
Navigationselemente sind
sofort verstänlich begreifbar. Ihre Bedienung muß nicht
gelernt
werden. Sie sind dem Thema angepaßt.
- Die
Navigation
ist konsistent,
d.h., sie zieht sich einheitlich durch das Produkt.
- Die
Navigation
bietet dem Benuzter
alternative Wege, um zu einem Ziel zu kommen.
Als vorbildliche
Einführung
zum Gesamtgebiet der Suchmaschinen: "Die Suchfibel" von Stefan
Karzauninkat
6.6.1
WWW-Navigation
mit Suchmaschinen und Webkatalogen (exemplarisch)
6.6.1.1
Basisdienste des
Internet
E-Mail
News Groups,
Listserver
FTP, telnet
Foren
Individuelle
Dienste (Chat)
Vgl.: R.
Kuhlen: Basis-,
Mehrwert- und Metasuchdienste des Internet (Folien)
6.6.1.2
Suchmaschinen
Suchmaschinen
richtig einsetzen: NoodleTools.com
a)
Suchmaschinenkatalog:
Im Search
Engine Colossus
(www.searchenginecolossus.com)
sind mehr als 1.300 Suchmaschinen nach Ländern eingetragen.
Die Suchfibel
(www.suchfibel.de)
ordnet ca. 1.600 Suchmaschinen nach verschiedenen Kriterien.
-> Führende
Suchmaschinen:
:: Google
:: Yahoo!
:: Teoma
:: Wondir
:: Kartoo
Die folgenden wertenden
Angaben über einige Suchmaschinen, Web-Kataloge und
Meta-Suchmaschinen
stammen aus: "Der große, exklusive TOMORROW-Text: Die beste
Suchmaschine
der Welt... und der beste Web-Katalog... und der beste Metasucher"
(TOMORROW
5 (2000) S. 38-55) und insbes. aus: Stefan Karzauninkat: Die
Testergebnisse
im Detail: Suchmaschinen. In: TOMORROW 5 (2000), S. 55-57.
"Am besten
geeignet für
eine Detailsuche nach ganz speziellen Informationen. Durch ausgefeilte
Verknüpfungsmöglichkeiten können Sie gezielt suchen. Die
besten Suchmaschinen:
www.acoon.de
www.alltheweb.com
www.fireball.de
www.google.com
www.lycos.com
So
funktioniert's:
Die klassische Form des Suchdienstes. Eine Suchmaschine durchwühlt
automatisch 24 Studen am Tag viele Websites des Internets und speichert
deren Überschriften und Teile der dort abgelegten Texte Wort
für
Wort auf einem leistungsstarken Server ab. Wenn Sie von Ihrem
heimischen
Rechner aus auf die Suchmaschine zugreifen, durchforstet diese für
Sie die gewaltigen Wortsammlungen, die auf dem Server hinterlegt
wurden.
Die
Suchstrategie:
Hier sollten Sie den gesuchten Bereich möglichst genau
formulieren,
mehrere Begriffe miteinander verknüpfen und das Suchergebnis
schirttweise
eingrenzen. Seien Sie nicht frustriert, wenn die Suchmaschine
zunächst
viel zu viele Seiten anzeigt, sondern versuchen Sie, durch logische
"und"-
bzw. "oder-" Verbindungen den Heuhaufen klein zu machen, dann finden
Sie
auch die berüchtigte Nadel.
Vorteile:
Oft schelle
und
einfache
Ergebnisse.
Vielfältige
Möglichkeiten
der Eingrenzung und Spezifizierung der Suchanfrage.
Relativ
umfassender Datenbestand.
Nachteile:
Zu viele und
unbrauchbare
Treffer bei vielen (zu allgemeinen) Anfragen.
Sie
müsen
genau wissen,
wie man Begrife verknüpft, um nicht in der Datenflut unterzugehen."
b) Einzelne
Suchmaschinen
(alphabetisch geordnet, z.T. von TOMORROW getestet):
Acoon:
www.acoon.de
"Info:
Die zuverlässige
und extrem stabile Suchmaschine ist speziell auf deutsche Seiten
zugeschnitten
- und liefert selbst bei exotischen Anfragen verblüffend
überzeugende
Ergebnisse.
Service:
News mit
Unterstützung von ZDF-MSNBC,
Rubrikensuche über Yahoo.de, Börsenkurse von Boersenmagazin.de.
Speed:
Reaktionsgeschwindigkeit:
2,74 Sekunden
Verfügbarkeit:
99,30 Prozent
Stichprobe:
83,3
Prozent der Fragen mit dem ersten Treffer beantwortet.
Kunstwort:
"Klompfastikumpi"
nicht gefunden
Der Sieger
überzeugt
mit Top-Treffern und Spitzenleistung.
Note: 2"
Alltheweb:
www.alltheweb.com
"Info:
Die
englischsprachige
Suchmaschine bietet Ihnen seit Anfang dieses Jahres ihre Dienste an.
Sie
verfügt auch über eine spezielle Suchfunktion für
MP3-Stücke,
Bilder und Ton-Dateien.
Service:
Großer
WAP-Search-Index, MP3-,FTP, Sound- und Bildersuche
Speed:
Reaktionsgeschwindigkeit:
3,55 Sekunden
Verfügbarkeit:
97,20 Prozent
Stichprobe:
50 Prozent
der Fragen mit dem ersten Treffer beantwortet
Kunstwort:
"Klompfastikumpi"
gefunden
Bietet
MP3-Fans
ausgezeichnete
Suchmöglichkeiten
Note: 3"
Altavista:
www.altavista.de
"Info:
Die
deutsche
Dependance des US-Suchdienstes umfassst eine textbasierte Suche und ein
Katalogverzeichnis. Wie bei vielen Suchmaschinen gibt's eine Profisuche
zum detaillierten Eingrenzen des Suchgebietes.
Service:
Shopping
Channel, Free-e-Mail, Rechtschreibreform-Hilfe, Net-Lexikon und ein
Telefontarif-Service.
Speed:
Reaktionsgeschwindigkeit:
1,80 Sekunden
Verfügbarkeit:
99,30
Prozent
Stichprobe:
16,6
Prozent der Fragen mit dem erten Treffer beantwortet.
Kunstwort:
"Klompfastikumpi"
gefunden
Sehr schnell,
aber
enttäuschende
Trefferergebnisse.
Note: 3"
Altavista:
www.altavista.com
"Info:
Seit
1995
durchsucht die US-Suchmaschine Altavista für Sie das Netz. Neben
der
Suchfunktion gibt's die Plattformen "Shopping" und "Live".
Zusatz:
ein redaktionelles Verzeichnis empfohlener Links.
Service:
Free-e-Mail,
e-Mail-Suchprogramm "People Finder" und "Babel Fish", ein
Universalübersetzer.
Speed:
Reaktionsgeschwindigkeit:
5,16 Sekunden
Verfügbarkeit:
94,41
Prozent
Stichprobe:
16,6
Prozent der Fragen mit dem erten Treffer beantwortet.
Kunstwort:
"Klompfastikumpi"
gefunden
Guter
Service,
aber langsamer
als die deutsche Tochter.
Note: 3"
Aol:
www.aol.com
Directhit:
www.directhit.com
Excite:
www.excite.com
"Info:
Excite ist
einer der verdienten Veteranen unter den Suchmaschinen. Seit 1995
wühlt
der vielsprachige Suchdienst im Web. Neben der Textsuche gibt's
ein Katalogverzeichnis mit empfohlenen Links.
Service:
Voicemail,
Free-e-Mail, Termin-Erinnerung, Adressbuch, Auktionen, Shopping-Hilfe,
Grußkarten
Speed:
Reaktionsgeschwindigkeit:
8,04 Sekunden
Verfügbarkeit:
91,61 Prozent
Stichprobe:
33,3
Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort:
"Klompfastikumpi"
nicht gefunden
Schlechte
Reaktionszeit
und Verfügbarkeit
Note: 3"
Fireball:
www.fireball.de
"Info:
Fireball offeriert
seit 1999 die textbasierte Suche im deutschen Web. Auch eine
Rubrikensuche
ist möglich. Interessant: unter "Live Suche" sehen Sie,
was
Fireball-Nutzer gerade suchen.
Service:
News, Auktionen,
Shopping-Hilfe, Free-e-Mail, Grußkarten, Zietungsartikel-Suche
Speed:
Reaktionsgeschwindgikeit:
3,75 Sekunden.
Verfügbarkeit:
99,30 Prozent.
Stichprobe:
33,3
Prozent der Fragen mit dem ersten Treffer beantwortet.
Kunstwort:
"Klompfastikumpi"
gefunden
Ergebnisse
nicht
immer befriedigend,
dafür guter Service.
Note: 3"
Google:
www.google.com
"Info:
Die
englischsprachige
Google-Maschine sucht das Web in hierarchischer Reihenfolge ab.
Seiten, die viele Links enthalten, sind wichtiger und stehen ganz oben.
Hinweise zum Suchen gibt's bei "Search Tips".
Service:
Der praktische
"Feeling Lucky"-Button bringt Sie ohne weiteres Klicken zur besten
gefundenen
Website.
Speed:
Reaktionsgeschwindigkeit:
3,87 Sekunden
Verfügbarkeit:
97,20 Prozent
Stichprobe:
33,3
Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort:
"Klompfastikumpi"
gefunden
Geheimtipp
mit
guten Ergebnissen
bei Mainstrean-Themen.
Note: 3"
Hotbot:
www.hotbot.com
"Info:
Der
Suchdienst
Hotbot wurde von der amerikanischen Zeitschrift "Wired" ins
Leben
gerufen. Leider beherrscht der übersichtlich aufgemachte Dienst
kein
Deutsch. Service: News, Gelbe Seiten, Aktienkurse, Fre-e-Mail
und
Free Homepages, Shopping-Tipps
Speed:
Reaktionsgeschwindigkeit:
6,65 Sekunden
Verfügbarkeit:
96,50
Prozent
Stichprobe:
33,3
Prozent der Fragen mit dem erten Treffer beantwortet.
Kunstwort:
"Klompfastikumpi"
gefunden
Unbefriedigende
Treffer
und durchschnittliche Leistung
Note: 4"
Infoseek:
www.infoseek.de
Infospace:
www.infospace.com
Looksmart:
www.looksmart.com
Lycos:
www.lycos.de
"Info:
Lycos umfasst
eine textbasierte Suche und ein Katalogverzeichnis. Die Suchmaschine
überzeugt
durch ihre Internationalität: Sie können in
Französisch,
Deutsch, Englisch und vielen anderen Sprachen surfen.
Service:
Spiele,
Aktienkurse, Termin-Erinnerung, Free-e-Mail, Shopping-Hilfe, Gelbe
Seiten,
People Finder
Speed:
Reaktionsgeschwindigkeit:
4,84 Sekunden
Verfügbarkeit:
98,60 Prozent
Stichprobe:
66,6
Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort:
"Klompfastikumpi"
nicht gefunden
Solides
Mittelfeld, Reaktionszeit
ein wenig zu lang.
Note: 3"
Magellan:
magellan.excite.com
msn:
search.msn.com
Netscape:
search.netscape.com
Northernlight:
www.northernlight.com
"Info:
Der
englischsprachige
Suchdienst teilt sich auf in: normale Suchfunktion, Profisuche,
Business
Search und einen Nachrichtensuchdienst.
Service:
Aktieninfos,
Nachrichten
Speed:
Reaktionsgeschwindigkeit:
10,08 Sekunden
Verfügbarkeit:
91,61
Prozent
Stichprobe:
33,3
Prozent der Fragen mit dem erten Treffer beantwortet.
Kunstwort:
"Klompfastikumpi"
gefunden
Mittelmäßige
Treffer und mangelhafte Leistung
Note: 4"
Snap:
www.snap.com
Speed:
www.speedfind.de
"Info:
Dieser Dienst,
der sich früher Intersearch nannte, durchsucht zwölf
Millionen
deutschsprachige Websites. Auf Wunsch durchwühlt er für Sie
das
Netz auch nach e-Mail-Adressen.
Service:
Als Zusatz
gibt es eine WAP-Handy-Suchfunktion.
Speed:
Reaktionsgeschwindigkeit:
5,03 Sekunden
Verfügbarkeit:
100
Prozent
Stichprobe:
33,3
Prozent der Fragen mit dem erten Treffer beantwortet.
Kunstwort:
"Klompfastikumpi"
gefunden
Ständig
verfügbar,
ansonsten durchschnittliche Leistung.
Note: 3"
Spider:
www.spider.de
"Info:
Der
deutsche
Web-Sucher mit dem Spinnen-Logo durchforstet weltweit Te4xte auf
Webseiten.
Ein kleiner Katalog bietet ausgewählte Adressen zu den
verschiedensten
Themenbereichen an.
Service:
Telekonferenz,
Free-e-Mail, Wetternews, Shopping-Hilfe, Spiele, Chats, Kurznachrichten.
Speed:
Reaktionsgeschwindigkeit:
3,82 Sekunden
Verfügbarkeit:
93,53 Prozent
Stichprobe:
16,6
Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort:
"Klompfastikumpi"
nicht gefunden
Alle
Kategorien
verbesserungswürdig
- außer dem Service.
Note: 5"
6.6.1.3
Webkataloge
"Am besten
geeignet für
Surfer, die nicht wissen, wie sie eine genaue Suchanfrage starten oder
sich allgemein über ein Thema informieren wollen."
Die besten
Web-Kataloge:
Allesklar.de:
www.allesklar.de
"Info:
Seit
1996
kümmert sich dieser Web-Katalog darum, dass Sie im Netz nicht
allein
gelassen werden. Per Übersichtsliste können Sie sich
immer
näher an die gesuchte Website heranpirschen.
Service:
Free-e-Mail,
HTML-Trainer, Jobsuche, Telefontarife, Mitfahrzentrale, Shopping-Hilfe,
Wettervorhersage
Speed:
Reaktionsgeschwindigkeit:
4,54 Sekunden
Verfügbarkeit:
97,90 Prozent
Stichprobe:
33,3
Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort:
"Klompfastikumpi"
gefunden
Nur
mittelmäßige
Ergebnisse bei den Suchtreffern
Note: 3"
Looksmart.com:
www.looksmart.com
"Info:
Auch
dieser
US-Suchdienst mit Ablegern in England und Australien
ermöglicht
Ihnen das Browen in seinen redaktionellen Katalogen.
Service:
Shopping-Hilfe,
Kurznachrichten, Kalender, Aktienkurse, Wetervorhersagen, Horoskope,
Spiele
Speed:
Reaktionsgeschwindigkeit:
4,77 Sekunden
Verfügbarkeit:
94,41 Prozent
Stichprobe:
16,6
Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort:
"Klompfastikumpi"
nicht gefunden
Untersdurchschnittliche
Werte in allen Rubriken
Note: 5"
Dino-online.de:
www.dino-online.de
"Info:
Der
deutsche
Katalog mit dem Dinosaurier-Logo bietet eine übersichtliche
Startseite.
Sie ist aufgeteilt in regionale Links, weltweite Links und eine
deutsche Branchensuche.
Service:
News-Ticker,
aktuelle Börsenkurse, der Dino-Chat, Formel 1."
Yahoo.de:
www.yahoo.de
"Info:
Der
deutsche
Ableger des Web-Katalog-Klassikers Yahoo.com durchsucht zuerst das redaktionell
erstellte Verzeichnis.Danach können Sie aber auch eine Suche
im
ganzen Web starten.
Service:
Schlagzeilen,Grußkarten,
Free-e-Mail, Chat, Yahoo-Messenger, Adressbuch, Shopping-Hilfe,
Auktionen
Speed:
Reaktionsgeschwindigkeit:
1,23 Sekunden
Verfügbarkeit:
99,28 Prozent
Stichprobe:
66,6
Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort:
"Klompfastikumpi"
gefunden
Abräumer
bei
den Katalogen
- der schnellste im Test
Note: 1"
Yahoo.com:
www.yahoo.com
"Info:
Auch
hier
können Sie nach Suche im vom Yahoo-Team erstellten
Schlagwortkatalog
eine Webabfrage starten. Der vielsprachige Suchdienst ist
übrigens
immer noch einer unserer Top-Favoriten.
Service:
Messenger,
Grußkarten, Auktionen, Eventfinder, People Finder, Spiele, Chat,
Free-e-Mail, Kalender.
Speed:
Reaktionsgeschwindigkeit:
3,17 Sekunden
Verfügbarkeit:
99,28 Prozent
Stichprobe:
33,3
Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort:
"Klompfastikumpi"
gefunden
Nicht so
stark wie
der deutsche
Ableger, trotzdem Top-Dienst
Note: 2"
Web.de:
www.web.de
"Info:
Der
deutsche
Web-Katalog Web-de bietet die Suche per Stichwort oder Browsen in den
redaktionellen
Katalogen an. Sie können auch die Nachrichten, Chats und
News-groups
durchsuchen.
Service:
Free-e-Mail,
Newsgroups, Gruß-karten, Shopping-Hilfe, Wettervorhersagen,
Telefontarife,
WAP-Suche
Speed:
Reaktionsgeschwindigkeit:
6,04 Sekunden
Verfügbarkeit:
97,12 Prozent
Stichprobe:
33,3
Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort:
"Klompfastikumpi"
gefunden
Super-Serviceangebot,
Defizite
in der Geschwindigkeit
Note: 3"
"So
funktioniert's:
Während bei Suchmaschinen so genannte Searchbots das Netz
automatisch
nach Material durchackern, sitzen bei einem Web-Katalog Menschen. Diese
klicken sich durch Webseiten und indizieren sie, das heißt sie
ordnen
den Seiten Schlagwörter zu. Wenn Sie sich zu einem Web-Katalog
klicken
und eine Suche starten, werden dort die hierarchisch vorsortierten
Schlagwortkataloge
durchforstet
Die
Suchstrategie:
Ein Web-Katalog bietet auf seiner Startseite bereits eine Rubrizierung
an. Schritt für Schritt können Sie im Katalog diesen Rubriken
folgen - oder Schlagwörter eingeben und in den gefundenen
Unterrubriken
weitersuchen. Dort gibt es dann alle Links zum Thema.
Vorteile:
Fast jeder
Treffer
ist auch
relevant, unpassende Ergebnisse gibt es selten.
Sie erhalten
ein
differenziereres
Bild und ersparen sich Blindgänger.
Nachteile:
Links
nicht immer aktuell.
Qualität
der
Einträge
variiert je nach Redakteur.
Die Suche
nach
sehr speziellen
Wörtern ist nur eingeschränkt sinnvoll, da diese oft nicht
verschlagwortet
sind."
6.6.1.4
Meta-Suchmaschinen
"Am besten
geeignet für
Menschen, denen die Ergebnisse einer einzelnen Suchmaschine nicht
ausreichen.
Meta-Suchersuchen suchen riesige Bereiche ab. Die besten
Meta-Suchmaschinen:
Metager.de:
www.metager.de
"Info:
"Die
Suchmaschine
über deutsche Suchmaschinen" durchforstet deutschsprachige
Suchmaschinen
- gleichzeitig und nicht hintereinander wie andere Metasucher.
Service:
Die Funktion
"Teste Treffer auf Existenz und sortiere nach Änderungsdatum" ist
extrem hilfreich.
Speed:
Reaktionsgeschwindigkeit:
12,62 Sekunden
Verfügbarkeit:
100 Prozent
Stichprobe:
83,3
Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort:
"Klompfastikumpi"
gefunden
Ständig
verfügbarer
Top-Dienst bei den Meta-Maschinen
Note: 2"
Metaspinner.de:
www.metaspinner.de
"Info:
Der
deutsche
Metaspinner durchsucht eine große Zahl heimischer und
internationaler
Suchdienste. Doubletten werden ausgefiltert. Möglich ist
auch
die Suche in bestimmten Themenfeldern wie MP3.
Service:
Telefon-
und Stromtarife, Jobsuche, Auktionen, Kids Corner, Nachrichten mit
Unterstützung
von ZDF-MSNBC
Speed:
Reaktionsgeschwindigkeit:
14,6 Sekunden
Verfügbarkeit:
98,03 Prozent
Stichprobe:
16,6
Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort:
"Klompfastikumpi"
gefunden
Langsame
Reaktion
und dürftige
Treffer kosten Punkte
Note: 4"
Metacrawler.de:
www.metacrawler.de
Profusion:
www.profusion.com
"Info:
Bei Komfort
und Konfigurationsmöglichkeiten enttäuscht diese
Metasuchmaschine
keinen. Ein "Linkchecker" überprüft, ob die gefundenen
Websites
überhaupt noch existieren.
Service:
Shopping-Hilfe,
MP3-Links, Sport-Nachrichten.Speed: Reaktionsgeschwindigkeit:
11,44
Sekunden
Verfügbarkeit:
94,41 Prozent
Stichprobe:
Keine
der Fragen mit dem ersten Treffer beantwortet
Kunstwort:
"Klompfastikumpi"
gefunden
Ergebnisse
sucht
man bei
diesem Meta-Sucher vergeblich
Note: 5"
Savysearch.de:
www.savysearch.de
"Info:
Savysearch
sucht in etwa 100 Suchmaschinen. Unter "Customize" können Sie sich
aus diesen Diensten ein eigenes Suchprofil zusammenstellen -
und
auch noch abspeichern.
Service:
Shopping-Hilfe,
Surf-Guide
Speed:
Reaktionsgeschwindigkeit:
5,79 Sekunden
Verfügbarkeit:
96,40 Prozent
Stichprobe:
33,3
Prozent der Fragen mit dem ersten Treffer beantwortet
Kunstwort:
"Klompfastikumpi"
gefunden
Service und
Verfügbarkeit
lassen zu wünschen übrig
Note: 4"
So
funktioniert's:
Meta-Suchmaschinen führen keinen eigenen Datenbestand, sondern
durchsuchen
mehrere Volltextsuchmaschinen, aber auch Web-Kataloge und andere
Datenbanken
gleichzeitig. Während des Suchvorgangs können Sie die
Ergebnisse
bereits auf Ihrem Bildschirm verfolgen: Dort wird dann etwa
aufgelistet:
"Yahoo: 5 Treffer, Altavista: 10 Treffer.." Am Ende zeigen die
Netzsammler
alle gefundenen Websites.
Die
Suchstrategie:
Durch den Aufbau der Meta-Sucher - viele andere Suchmaschinen werden
abgecheckt
- können Sie am Ende mit einer Unzahl von Ergebnissen dastehen.
Deshalb
sollten Sie von Anfang an differenziert vorgehen. Das bedeutet: viele
präzise
Begriffe eingeben und diese entsprechend verknüpfen. Eventuell
müssen
Sie die Ergebnisliste enorm eingrenzen. Wenn das nicht hiflt: Wechseln
Sie zu einer der abgefragten Suchdienste.
Vorteile:
Ein riesiger
Datenbestand kann zeitsparend durchsucht werden.
Nachteile:
Die Ergebnisse
hängen von der Qualität der abgefragten Suchmaschinen
ab.
Bei
unspezifischen
Anfragen
liefern die Meta-Suchmaschinen oft zu viele oder unbrauchbare Treffer."
6.6.1.5
Kindersichere Suchmaschinen
6.6.1.6
Webcheck
Webtop.com:
www.webtop.com
6.6.1.7
Hubs und Searchbroker
Im oben
erwähnten Suchmaschinen-Test
schreibt TOMORROW:
"Wer etwas ganz
genau wissen
will, der fragt einen Spezialisten. (...) Für diese Spezialdienste
werden natürlich wiederum neue Suchmaschinen benötigt. Diese
so genannten Multiplikatoren" oder "Hubs" (www.suchfibel.de)
katalogisieren die themenspezifischen Spezialisten und bieten so den
idealen
Dienst für jede Anfrage.
Wem das alles
zu
aufwendig
ist, der sollte einen Agenten beauftragen. Diese Suchprofis wie www.entdeckt.de
und www.searchbroker.de
lassen
es sich allerdings teuer bezahlen, die unendlichen Weiten des Internets
für Sie abzugrasen - liefern dafür aber die gewünschten
Resultate stressfrei per e-Mail."
6.6.1.8
Sonstiges
Internet
Encyclopedia: clever.net/cam/encyclopedia.html
Global Online
Directory: www.god.co.uk
Librarian's Index
to the
Internet: www.lii.org
Internet Public
Library: www.ipl.org/col
Britannica
Internet Guide: www.britannica.com
6.6.2
Zur Evaluierung von IR-Systemen
S.P. Harter,
C. A. Hert: Evaluation of Information Retrieval Systems: Approaches,
Issues,
and Methods. In: Williams, Martha E. (ed.): Annual
Review of Information Science and Technology (ARIST), published on
behalf of the ASIS (American Society for Information Science),
Information
Today Inc., Medford, N.J., Vol. 32 (1997), 3-94.
Das Fazit des
oben erwähnten
TOMORROW Suchmaschinen-Test lautet: "Die
beste Suchmaschine bleibt nach wie vor der User selbst. Er allein
trifft
die Entscheidung, welcher Dienst für welche Aufgabe am besten
geeignet
ist."
6.6.2.1
Evaluierungen im Netz
Searchenginewatch.com
(von Danny Sullivan)
Searchengineshowdown.com
6.6.2.2 C.
Oppenheim, A.
Morris, C. McKnight: The Evaluation of WWW Search Engines.
In: Journal of
Documentation,
vol. 56, no. 2, March 2000, pp. 190-21.
Types of
search
engines:
1. Robot-driven
search
engines: "'Crawler' or 'worm' programs generate databases by means
of web robots. These robots are programs that reside on a host computer
and retrieve information from sites on the web using standard
protocols.
In effect, they automatically travel the Internet following links from
documents and collecting information acording to the HTML structure of
the document (such as URL, document title, keywords in the text) about
the resources they come accross."
2. Directory-based
search
engines: "These engines are also known as subject collections or as
'subject gateways' and are collections of links to relevant URLs
created
and maintained by subject experts, or by means of some automated
indexing
process. Some of these services also include a robot driven
search
engine facility, but this is not their primary purpose. They rely
mainly
on people to identify and group resource."
3. Meta-search
engines:
"These search engines utilise databases maintained by other engines. A
meta-search engine acepts a single query from the user and sends it to
multiple search engines in parallel."
A typology of
evaluation
methods:
1.
Evaluations
using a very
tightly defined topic
2. Cranfield
type
evaluations
on larger topics
3. Cranfield
type
studies
involving statistical estimates of the size of the web
4.
Evaluations
that avoid
recall
Evaluation
Criteria:
1. Number of
web
pages covered
and coverage
2.
Freshness/broken links
3. Relevance
4. Search
syntax
5. Subject
areas/choice
of query
6. The
changing
nature of
the web
7. Response
time
8. Different
system features
9. Search
options
10. Human
factors
and interface
issues
11. Quality
of
abstracts
Vgl. auch:
Randolph
Hock: Web
Search Engines.
CyberAge Books, New Jersey 2000
-: The
Extreme
Searcher's
Guide to Web Search Engines: A Handbook for the Serious Searcher.
Medford,
NJ, 1999
Alfred and
Emily
Glossbrenner:
Search Engines for the World Wiede Web. 2nd. Ed. Berkeley 1999 www.peachpit.com.
6.6.2.3
Kriterien zur Evaluation elektronischer Informationsmittel
W. Gödert, A.
Oßwald,
H. Rösch, P. Sleegers (Evit@. Evaluation elektronischer
Informationsmittel.
In: Bibliothek 24 (2000) Nr. 1, 63-87) schlagen folgende Kriterien vor:
1.
Benutzungsoberfläche: optische Konzeption, interne Konsistenz,
externe
Konsistenz, transparente und selbsterklärende Konzeption,
Fehlermanagement,
Benutzungsunterstützung (Hilfen)
2.
Retrieval/Suche/Navigation: Suchfeatures- und typen,
Operatoren/ Trunkierungen/Verknüpfungen,
Indizes/Register,Suchfeedback und -performanz, Hyperlinks
3.
Datenaustausch: Bildschirmanzeige, Druckausgabe, Datenspeicherung und
-weiterverarbeitung,
sonstige Datenausgabe, Dateneingang
4.
Allgemeine Handhabung: Installation/Setup, Bedienung/Steuerbarkeit,
Verständlichkeit/Einfachheit,
Stabilität/Fehlertoleranz
5.
Multimedia: Multimediafunktionalität, Fotografien, Zeichnungen und
grafische Darstellungen, Karten, 3-D-Darstellungen, Animationen,
Videosequenzen,
Ton
6.
Inhalt: Daten, Umfang/Abdeckung/Vollständigkeit,
Inhalt/Aufbau/Layout
der Datensätze.
6.6.2.4.
Bibliothekskataloge
und bibliographische Datenbanken
Rainer
Kuhlen hat die Mehrwerte von Bibliothekskatalogen und bibliographischen
Datenbanken in der folgenden Matrix zusammengefaßt und
miteinander
verglichen:
Nutzerkriterien |
Kataloge |
Bibliographische
Datenbank |
Schnelligkeit |
schnell
bei einfachen
Suchen,
langsam bei komplizierten |
hohe
Schnelligkeit bei allen
Suchformen |
Kosten |
niedrig
in der Nutzung |
relativ
hoch bei der Nutzung |
Wartungsfreund-
lichkeit,
Update |
in der
Regel hohe
Verzögerungen,
Aufwand |
eher
leicht zu bewerkstelligen,
zuweilen
Realzeitänderungen |
Umfang
der Information pro
Einheit |
begrenzt
auf das Format des
Papiermediums |
im
Prinzip ungeschränkt;
festgelegt
im Record-Format |
Vollständigkeit/Umfang
der Datenbestände |
abgeschlossen
durch Referenz
auf Bestände |
offen
durch Referenzierbarkeit
anderer Datenbanken |
Benutzeroberfläche |
einfach |
komplex |
Selektivität |
begrenzt
wegen starker Präkkoordination
bzw. Linearität |
hoch
wegen Prinzip der Postkoordination |
Hantierbarkeit,
Benutzbarkeit |
unproblematisch,
direkt |
über
formale Sprache,
braucht Einweisung und spezifische Erfahrung |
Weiterverarbeitbarkeit |
Medienbrüche |
integrierbar
in Arbeitsumgebung |
(Kuhlen 1996, 92)
Sein Fazit lautet:
"Man
kann an diesem
Beispiel sehr deutlich sehen, daß es in den seltensten Fälle
absolute Mehrwerte gibt. Ein systembezogener Mehrwert kann für
manche
Benutzer durchaus einen informationellen Mehrwert darstellen, wenn der
Nutzer z.B. nicht willens oder in der Lage ist, sich eine formale
Kommandosprache
zur Durchführung von Recherchen anzueignen. Im gewählten
Beispiel
kann das schon beim Übergang von einem Katalog in papierform auf
einen
katalog in Microfiche-Form auftrefen. Dieser Minderwert wird
heute
z.B. dann ersichtlich, wenn computerunkundige Personen gezwungen
werden,
anstelle des gewohnten Zettelkataloges Bildschirmterminals zu benutzen.
Bleiben diese Benutzer dann aus, so war die Umstellung auf einen
elektronischen
Katalog weder für die öffentliche Bibliothek als Anbieter
noch
für die Nutzer ein Mehrwert. Weder Tauschwert noch Gebrauchswert
haben
sich erhöht. Im Gegenteil. Dieses Beispiel zeigt die Bedeutung des
pragmatischen Designs von Informationssystemen. Ohne
Berücksichtigung
der Wirkung auf die potentiellen Nutzer können keine Systeme mit
Mehrwerteigenschaften
entstehen. Diese haben aber keine informationellen Mehrwerte für
Nutzer.
Jede Endnutzer muß die Kriterien subjektiv gewichten, wenn auch
im
gewählten Beispiel die Nutzungsmehrwerte der Datenbanken eindeutig
zu überwiegen scheinen. Sind aber z.B. Kosten für einen
Nutzer
das ausschlaggebende Kriterium dann spielen die systembezogenen
Mehrwerteigenschaften
für ihn keine weitere Rolle mehr." (Kuhlen 1996, 92-93)
Zur inhaltlichen
Evaluierung
von Datenbanken vgl. P. Jacsó: Content Evaluation of Databases. In: Williams, Martha E. (ed.): Annual
Review of Information Science and Technology (ARIST), published on
behalf of the ASIS (American Society for Information Science),
Information
Today Inc., Medford, N.J., Vol. 32 (1997), 231-268.
6.6.3 Wie
zuverlässig sind elektronische Informationsassistenten?
Das Programm der
gegenwärtigen
Informationswirtschaft besteht darin, wie Kuhlen mit Recht betont,
"Vertrauen
bei den Nutzern elektronischer Dienste zu gewinnen", denn "ohne
Vertrauen,
kein Geschäft" (Kuhlen 1999, 13-14). Ein entscheidender
Mechanismus
sind dabei die elektronischen Informationsassistenten, die immer mehr
die
personalen Assistenten ersetzen. Dabei delegiert der Nutzer immer mehr
seine Urteilskraft und mit seine informationelle Autonomie an
elektronische
Assistenten. Dieser Verlust informationeller Urteilskraft stellt
für
Kuhlen die fundamentale Frage der Informationsethik dar (Kuhlen 1999,
16).
Sie besteht, mit anderen Worten, darin, uns selbst und anderen
aufzuklären,
wann und wie, angesichts des Informationsdilemmas, ein gesundes
Mißtrauen
zur Bildung von Informationsautonomie angebracht ist. Das
Informationsdilemma
besteht, nach Kuhlen darin,
"daß
die Informationsräume
der komplexen Informationsmärkte, dafür konzipiert,
informationelle
Unsicherheit zu beseitigen, diese eher erhöhen. Aus diesem
allgemeinen
Dilemma werden viele weitere folgen, z.B. daß das
Überangebot
an Information kaum mehr als unterstützend angesehen wird, ja eher
als Belästigung, als Data smog (Shenk 1997) empfunden und
häufig
eher zurückgewiesen als nach seinem Nutzen untersucht wird."
(Kuhlen
1999, 23)
Welche Probleme
sollen uns aber
technische bzw. elektronische Informationsassistenten lösen
helfen?
Nach Kuhlen handelt es sich zum einen um das Referenzproblem, d.h. um
die
Frage nach der Suche nach verfügbaren aber ungekannten
Informationsressourcen,
und zum anderen um das Validitätsproblem, d.h. um die Frage nach
der
Bewertung der gefundenen Information bzw. nach deren vorherigen
Filtrierung.
6.6.3.1
Hilfe zur Lösung
des Referenzproblems:
Suchassistenten:
"Wenn
wir hier von Suche mit Suchmaschinen sprechen, dann sind die Leistungen
von Assistenten in den offenen Informationsräumen gemeint, nicht
die
Suche in lokalen Beständen von WWW-Servern, die anfangs im WWW als
einzige Suchform vorgesehen waren." (Kuhlen 1999, 236)
- Systematisch
geordnete Katalogsysteme:
wie z.B. die WWW
Virtual Library."Der Vorteil einer systematischen Anordnung, wie
z.B.
auch von wohlgeordneten Bibliotheken gewohnt, liegt auf der Hand: Man
findet
sehr gut einen Überblick gebenden Einstieg in ein neues
Sachgebiet,
ohne schon genau nach einer bestimmten Information suchen zu
müssen
(oder zu können). Kataloge, sozusagen das Erbe des
Klassifikationsansatzes
der Bibliothekswelt, waren lange Zeit (sofern man im Umfeld von WWW von
lange sprechen kann) die beste globale
Orientierungs- und Suchmöglichkeit,
und sie werden auch heute noch als attraktive Möglichkeit
eingeschätzt,
eine Suche zu beginnen." (Kuhlen 1999, 237-38)
- Suchmaschinen:
Sie stehen in
der Tradition des Matching-Paradigma des Information
Retrieval
und basieren auf der Indexierung von Web-Seiten. Die
Indexierung
zeichnet sich durch das Prinzip der Postkoordination aus,
gegenüber
dem Klassifikationsansatz, wo die Sachgebiete in einem vorgegebenen
(oder
'präkoordinierten') System angeordnet sind. Dabei verfolgen die
Such-Roboter
(auch Spider, Wanderer oder Worms genannt)
rekursiv
(in unterschiedlicher Tiefe) die Links der WWW-Dokumente und
verwenden
lexikalische Methoden, um bestimmte Terme aus den Dokumente (URL,
Titel,
Überschriften, Link etc.) auszuwählen. Hier spielen
die
META-Tags, d.h. jene Zusatzinformationen, die der Autor
eines
Dokuments selbst vergeben kann, eine besondere Rolle. Die
identifizierten
Elemente werden invertiert, d.h. in einer alphabetisch geordnete Liste
umgewandelt, aus der bestimmte nicht-sinntragenden Wörter sowie
Flexionen
usw. eliminiert werden.
- Metasuchmaschinen:
Womit mehrere
Suchmaschinen über eine Schnittstelle abgefragt werden.
Zu den
vielfältigen Problemen
von Suchmaschinen zählen die, welche auch bei klassischen Online-Diensten
auftreten, nämlich Recall (oder die Anzahl aller
zutreffenden
Dokumente aus dem Speicher) und Precision (oder die
Anzahl
der zutreffenden gefundenen Dokumente) sowie die Zuverlässigkeit (Reliability)
der gefundenen Informationen.
Browsing-Assistenten,
Surfmaschinen:
Die Suche im World Wide Web kann aber nicht nur nach
klassifikatorischen
oder durch Indexierungs-Techniken, sondern auch durch Navigieren, wozu
auch entsprechende Browsing-Assistenten Hilfe versprechen, wie
z.B.
bei der Internet-Software Alexa: www.alexa.com.
Orientierungs-/Navigationsassistenten:
wie zum Beispiel Back-Buttons oder Bookmarks, befinden sind noch in der
Entwicklungsphasen, wenn man z.B. an die Möglichkeit der
Visualisierung
von Strukturinformationen, des retrospektiven oder prospektiven
Überblicks
usw.
6.6.3.2.
Hilfe
zur Lösung
des Validitätsproblems
Filterassistenten:
Zwischen
vier Filtertypen (soziales, kognitives, ökonomisches und
kollaboratives
Filtern), kommen im WWW vor allem kognitives (die Informationsselektion
entsprechend dem Inhalt der Objekte) und kollaboratives Filtern
(Information
wird ausgefiltert entsprechend dem Verhalten anderer Benutzer, etwa
ihrem
Kaufverhalten) zum Einsatz vor allem bei E-Mail und Newsgroups.
Assistenten
für Push-Technologie-Leistungen:
d.h. wenn auf der Basis eines Auftrags aber ohne spezielle Anfrage des
Benutzers ein Assistent selbständig agiert, eine Technik die in
der
Dokumentation seit vielen Jahren als Selective Dissemination of
Information
(SDI) bzw. als Standard- oder individuelle Profildienste bekannt ist.
Quality-/Rating-/Blocking-Assistenten:
Diese Abblock-Technik sollten wor allem vor potentiellen Gefahren
schützen.
Sie wird z.B. beim Schutz der Internet-Nutzung durch Kinder eingesetzt
(www.safesurf.com).
Transaktionsassistenten:
Sie suchen die Märkte und kommen im Bereich des E-Commerce
zum Einsatz, zum Beispiel im Computerbereich: www.pricewatch.com
Kommunikationsassistenten:
in Zusammenhang mit Foren oder Newsgroups.
Kuhlens
Fazit lautet:
"Unter
Akzeptanzgesichtspunkten ist es also wichtig, inwieweit der Benutzer
das
Vertrauen haben kann, daß der Agent:
a)
einen Vollständigkeitsgrad der einschlägigen Informationen
erreichen
kann
b)
den Wahrheitswert der mit Hilfe anderer Agenten oder anderer Dienste zu
ermittelden Informationen einschätzen kann
c)
beurteilen kann, ob diese Informationen für den Auftraggeber auch
wirklich relevant sind
d)
willens und in der Lage sind, mit den ihm anvertrauten Daten
vertraulich
umzugehen." (Kuhlen 1999, 279)
Kuhlen,
R.: Informationsmarkt. Chancen und Risiken der Kommerzialisierung von
Wissen.
Konstanz 1996. 2. Aufl.
-:
Die Konsequenzen von Informationsassistenten. Frankfurt a.M. 1999.
6.6.3.3
Zukunft des IR
Nicholas J.
Belkin (Rutgers
University, School of Communication, Information and Library Studies):
Prospects for Information "Selection" (Folien)
-:
Intelligent
Information
Retrieval: Whose Intelligence? In: J. Krause, M. Herfurth, J. Marx
Hrsg.:
Herausforderungen an die Informationswirtschaft. Proceedigns des 5.
Internationalen
Symposiums für Informationswissenschaft (ISI '96), Konstanz 1996,
25-32.
W. Bruce
Croft
(Center
for Intelligent Information Retrieval, Computer Science Department,
University
of Massachusetts, Amherst: What
Do People Want from Information Retrieval? (The Top 10 Research
Issues
for Companies that Use and Sell IR Systems) (1995)
6.6.4 Personalisierungsdienste
im WWW
Portale, wie z.B.
Yahoo, und
Nachrichtendienste, wie z.B. CNN, bieten die Möglichkeit, Ihre
Informationsdienstleistungen
zu personalisieren. Genau betrachtet stellt sich dieser Prozess als
relativ
komplex und nicht immer benutzerfreundlich dar.
Nach der
ISO-Norm 9241
(Ergonomic requirements for office work with visual display terminals
(VDTs),
Part 11: Guidance on usability) sollten folgende Faktoren bei der
Nutzung
von VDTs berücksichtigg werden:
- Usability
measures: "the extend
to which a product can be used by users in a particular context to
achieve
particular goals effectively, efficiently, and satisfactory."
- effectiveness:
"he accuracy
and completeness with which users achieve a particular goal."
- efficiency:
"the effort spent
in relation to accuracy and completeness with which users achieve a
particular
goal."
- satisfaction:
"freedom form
impairment and positive attitudes towards the usage of the product."
- Description
of
the intended
goals
- Description
of
the context of
use
- description
of users
- description
of tasks
- description
of equiment
- description
of environments
- usability
measures
Andreas Selter
(Usability
Requirements for the User Interface of Personalized Information ervices
on the World Wide Web. Diplomarbeit, FH Stuttgart, November 2000)
stellt
die Eigenschaften von personalisierten Informationsdiensten anhand von
vier Modellen dar:
1. Das
Portal-Modell: am
Beispiel von MyYahoo!
2. Das
Greif-Modell (Grabber
Model): am Beispiel von Octopus
3. Das
Kanal-Modell: am
Beispiel von CNN
4. Das
Zeitungsmodell: am
Beispiel von Los Angeles Times.
Fragen der
Privatheit sowie
des Vertrauens spielen dabei eine wichtige Rolle.
Die
Personalisierung von
Interessengebieten findet sowohl durch Schlagworte (semantic approach)
als auch durch Kategorien (catalog approach) statt.
Selter (p.
62-63)
faßt
die (positiven) Eigenschaften von personalisierten Informationsdiensten
folgendermaßen zusammen:
- They are
inviting
- They
convey
credibility and
trustworthiness
- They are
easy
to set up
- They are
accessible via different
media
- They are
media-adequate
- They are
efficient in use
- They are
appealing and pleasing
6.7
Informetrie und Bibliometrie
6.7.1
Informationsgesetze
W. Stock: Informationswissenschaft
(Kap. 9):
6.7.1.1
Konzentrationsgesetze
- Zipfsches
Gesetz: Verteilung von Worthäufigkeiten in Texten
-
Lotkas Gesetz: Verteilung von Publikationen eines Fachgebiets auf
Autoren
-
Bradfordsches Gesetz: Verteilung von Artikeln eines Fachgebiets auf
Zeitschriften
-
Garfieldsches Gesetz: Verteilung von Zitationen wissenschaftlicher
Zeitschriften.
6.7.1.2
Gesetz der zeitlichen Verteilung
- Halbwertzeit:
Zeit, nach der die Hälfte einer Literaturmenge nicht mehr benutzt
wird.
6.7.1.3
Moore's Law, Parkinson's Law
Website
der RWTH Aachen:
Moore's
Law: "The observation that the logic density of silicon integrated
circuits
has closely followed the curve (bits per square inch) = 2 ˆ ((t -
1962))
where t is time in years; that is, the ammount of information storable
on a give amount of silicon has roughly doubled every year since the
technology
was invented.
Parkinson's
Law of Data: "Data expands to fill the space available for storage".;
buying
more memory encourages the use of more memory-intensive techniques. It
has been observed over the last 10 years that the memory usage of
evolving
systems tends to double roughly once every 18 months. Fortunately,
memory
density available for constant dollars also tends to double about once
evey 12 months (see Moore's Law); unfortunately, the laws of physics
guarantee
that the latter cannot continue indefinitely."
The
analysis
of the networked society is basic for ethical reflection, for
instance
on the question of distribution and access to information and
knowledge.
The Centre for Advanced Spatial Analysis, University College London (an
initiative by Martin Dodge) has explored the geographies of the
Internet,
the Web and other emerging Cyberspaces.
6.7.3
Zur Vetiefung
R.
Williams,
B. Molyneux: Measuring the Internet
C.
Wilson, W. Hood: Bibliometrics and Informatics
In:
Williams, Martha E. (ed.): Annual
Review of Information Science and Technology (ARIST), published on
behalf of the ASIS (American Society for Information Science),
Information
Today Inc., Medford, N.J., Vol. 34 (1999)
6.8 IR in
Zur Vertiefung
1. Ch. Tomer: Retrieving
Information (Online-Kurs der School of Information Sciences,
University
of Pittsburg, Sommer 1999)
2. R. Kuhlen
:
Basis-, Mehrwert-
und Metasuchdienste des Internet (Folien)
3. Stock, W.:
Checkliste
für Retrievalsysteme. Qualitätskriterien von Suchmaschinen,
Password
Nr. 5 (2000), 22-31.
4. W.
Gödert,
A. Oßwald,
H. Rösch, P. Sleegers: Evit@. Evaluation elektronischer
Informationsmittel.
In: Bibliothek 24 (2000) Nr. 1, 63-87.
6.9 Für
Fortgeschrittene
1. Individual
Differences in
Virtual Environments. Guest Editors: Ch. Chen, M. Czerwinski, R.
Macredi.
Special Topic Issue, Journal of the ASIS, Vol. 51, No. 6,
2000.
2. Fuhr, N.,
Rittberger,
M., Womser-Hacker,
Ch. (Hrsg.) (1999), Information Retrieval. Materialien zur
Herbstschule.
CD-ROM, Konstanz.
Übungen
1. Erläutern
Sie die Grundbefehle
der Retrieval-Sprache Messenger
2.
Was bedeuten recall und precision?
3.
Vergleichen Sie Google und Yahoo!
4.
Worin besteht das Referenzproblem bei Suchmaschinen und welche
Lösungen
gibt es dafür?
5.
Was sind Filterassistenten?
6.
Was versteht man unter Personalisierungsdienste im WWW?
7.
Erläutern Sie zwei informetrische Gesetze
8.
Was versteht man unter Cyber-Geography?
9.
Wie wird sich das Information Retrieval nach Nicholas Belkin in Zukunft
entwickeln?