60 Millionen Dokumente aus 3000 Quellen im BASE-Index || BASE Weblog

In Kürze feiert unsere Suchmaschine BASE ihr 10-jähriges Bestehen. Was im Juni 2004 mit der Indexierung einiger Hunderttausend Dokumente aus einem Dutzend Quellen begann, ist inzwischen auf über 60 Millionen Dokumente aus über 3000 Quellen angewachsen. Die Metadaten (Autor, Titel, Erscheinungsjahr usw.) der Dokumente können weltweit frei durchsucht werden, die Volltexte sind in ca. 70% der Fälle frei zugänglich.

Mittlerweile sind Quellen aus 94 Ländern im BASE-Index zu finden, ein Zeichen für den weltweiten Erfolg "Open-Archives"-Initiative und des dazu gehörigen OAI-PMH-Protokolls. BASE indexiert vorwiegend Dokumente aus Quellen, die über ein solches Protokoll verfügen und ihre Metadaten in strukturierte Form über OAI-PMH zur Verfügung stellen.

Alleine aus Deutschland können 246 Quellen mit über 6 Millionen Dokumenten über BASE DE durchsucht werden. Damit ist BASE eine der weltweit größten Suchmaschinen für wissenschaftliche Dokumente, insbesondere im deutschsprachigen Bereich. Neben dem umfangreichen Index bietet BASE auch zahlreiche Möglichkeiten gezielt zu suchen und das Ergebnis auch gezielt einzuschränken. Hier ein Beispiel aus einer Trefferliste (klicken zum vergrößern):

Trefferliste aus BASE

Weitere Informationen über unsere Suchmaschine BASE finden Sie auch im öffentlichen Wiki der Universitätsbibliothek Bielefeld oder in unserer BASE-FAQ.

 


Persönliches Profil für BASE || BASE Weblog

Sie haben jetzt die Möglichkeit, ein persönliches Profil in BASE einzurichten, um sich z.B. einzelne Treffer als "Favorit" abzuspeichern oder Suchanfragen zur Suchhistorie hinzuzufügen. Favoriten und Suchhistorie stehen Ihnen über Ihr persönliches Login dauerhaft zur Verfügung.

Ein Konto richten Sie auf der BASE-Website durch Klick auf "Anmelden" und anschließend "Neues Konto anlegen" ein. Wenn Sie eingeloggt sind, erscheint Ihr Login-Name oben rechts.

Demonstration einiger Funktionen (zum Vergrößern das Bild anklicken):

Treffer zu den Favoriten hinzufügen

Ihre gespeicherten Favoriten

Suche speichern

Gespeicherte Suche

Ihre Login-Daten werden selbstverständlich nur für den jeweiligen Zweck verwendet und nicht an Dritte weitergegeben. Sobald Sie Ihr Profil löschen, werden alle damit in Zusammenhang stehenden Daten auch aus unserem System gelöscht.

Fehler in der Trefferliste, oder: wie indexiert BASE? || BASE Weblog

Von Nutzern und Repository-Betreibern werden wir hin und wieder auf scheinbar unvollständig indexierte Quellen oder fehlerhaft indexierte Dokumente aufmerksam gemacht.

Zu solchen Fehlern kommt es in aller Regel, wenn es Probleme mit der OAI-Schnittstelle des Repositories gibt. An der Weboberfläche des Repositories kann dabei durchaus alles korrekt sein, da wir aber nur die OAI-Metadaten indexieren ist die Anzeige der Weboberfläche für die Indexierung in BASE nicht relevant. Wir indexieren über OAI, da hier - anders als auf Webseiten - eine eindeutige und korrekte Indexierung von Metadaten (Autor, Titel, Abstract, Schlagwörter etc.) möglich ist. Die Indexierung geschieht zuerst mit einem Harvester, der sich um das Einsammeln (to harvest = ernten) der OAI-Daten kümmert. Die Daten werden anschließend mit unserer Suchmaschinensoftware indexiert und schließlich in einer Trefferliste angezeigt. Dazu ein Beispiel dem Dokumentenserver des BIB:

Anzeige im Dokumentenserver: http://ub.unibi.de/base04a
OAI-Datensatz: http://ub.unibi.de/base04b
Treffer in BASE: http://ub.unibi.de/base04c

Man sieht einen kleinen Unterschied zwischen der Anzeige im Dokumentenserver und der Anzeige in BASE; während nämlich die URL des Datensatzes http://www.opus-bayern.de/bib-info/frontdoor.php?source_opus=546 lautet, führt der Treffer in BASE auf die Zitat-URL http://www.opus-bayern.de/bib-info/volltexte/2008/546/. Dies liegt daran, dass im OAI-Datensatz im Feld <dc:identifier> diese Zitat-URL zu finden ist.

Die OAI-Metadaten können sich aber noch weitaus stärker von dem unterscheiden, was man an der Weboberfläche im Dokumentenserver sieht. Es kann auch sein, dass der Betreiber der Quelle im OAI-Datensatz einen Fehler behebt, diese Korrektur aber nicht ordnungsgemäß über die OAI-Schnittstelle mitteilt. So erfährt unser Harvester auch nicht, dass sich an dem Datensatz etwas geändert hat. Erst ein kompletter Neuabzug der Daten behebt dann den Fehler auch in den Metadaten, die bei uns angezeigt werden. Wegen der langen Ladezeiten können wir solche Komplettabzüge aber nur hin und wieder durchführen.

Neben unterschiedlichen Metadaten, kann es auch vorkommen, dass über OAI nur ein Teil der Daten geliefert werden, die im gesamten Dokumentenserver zu finden sind. Manchmal fehlt auch der "identifier" in den OAI-Metadaten. Dann wird der Datensatz nicht weiter verarbeitet, denn reine Zitatanagaben ohne einen Link zumindest auf eine Webseite mit den Metadaten nehmen wir (anders als z.B. Google Scholar) nicht in unseren Index auf.

Da es auch vorkommen kann, dass auf unserer Seite beim Harvesten oder Indexieren ein Fehler passiert, sind wir natürlich an Ihren Rückmeldungen interessiert. Wenn Ihnen also ein Fehler auffällt, schicken Sie einfach eine Nachricht über unser Kontaktformular.

Willkommen im BASE Weblog || BASE Weblog

Dies ist das Weblog der wissenschaftlichen Suchmaschine BASE (Bielefeld Academic Search Engine, http://www.base-search.net). BASE ist eine der weltweit größten Suchmaschinen speziell für frei im Sinne des Open Access zugängliche wissenschaftliche Dokumente im Internet. Betreiber der Suchmaschine BASE ist die Universitätsbibliothek Bielefeld. Hier erfahren Sie neues rund um die Suchmaschine.