Archivalia: Open-Access-Suchen: PDF-Aufsätze auf Schriftenservern im Deep Web

Open-Access-Suchen: PDF-Aufsätze auf Schriftenservern im Deep Web

Fortsetzung von: http://archiv.twoday.net/stories/5776766/

Mein PDF (mit unterlegtem Volltext)

http://www.freidok.uni-freiburg.de/volltexte/5729/pdf/Graf_Vener.pdf

wird offenkundig von Google nicht erfasst, sonst würde die Suche nach

axel nuber turmburg

diese Quelle finden. (Ebenso die Suche: utinkofen walter lorch.)

Weder Bing noch Yahoo haben den Volltext, und auch wenn man bei

http://www.metager.de

alle einschlägigen Suchen anklickt, wird nichts gefunden.

Das gleiche gilt für:

http://www.freidok.uni-freiburg.de/volltexte/5717/pdf/Graf_Debler.pdf

Suchen:
Conrad büschler jung
Philipp von Mossenheim

Auch die Suche bei der Metasuchmaschine

http://www.zuula.com/

nach philipp mossenheim buck ergibt bei den einzelnen Suchmaschinen keinen Treffer für das gesuchte PDF.

Dasselbe Bild bei

http://www.freidok.uni-freiburg.de/volltexte/5388/pdf/Graf_geschichtsschreibung.pdf

Keine Suchmaschine findet das PDF!

Wer der Ansicht ist, dass diese Negativbefunde ja wirklich kein Verlust sind (da Open-Access-Anhänger wie ich eh nur qualitativ Minderwertiges produzieren), wird sich auch dadurch nicht umstimmen lassen, dass der meines Erachtens durchaus wichtige Aufsatz zur Ordensreform ebenfalls fehlt:

http://www.freidok.uni-freiburg.de/volltexte/5242/pdf/Graf_ordensreform.pdf

(Suche nach armagnaken horbruck)

Google Scholar gibt kein zutreffendes Bild von den tatsächlichen Zitaten dieses Beitrags, eher schon:

http://books.google.de/books?lr=&q=graf+%22ordensreform+und+literatur%22&btnG=Nach+B%C3%BCchern+suchen

Natürlich gilt das nicht nur für mich. Während die Arbeiten von Dieter Mertens auf Freidok überwiegend als Faksimile vorliegen, weisen die Studien von Felix Heinzer ebenfalls E-Texte unter den PDFs auf. Das PDF

http://www.freidok.uni-freiburg.de/volltexte/4953/pdf/Heinzer_Die_Koelner_Membra_disiecta_der_Stuttgarter_Schachzabel_Handschrift.pdf

ist nicht im Google-Index. Auch bei den anderen Suchmaschinen wird man nach Ausweis von Metager und Zuula nicht fündig.

Zurück zu mir. Den Volltext meines Beitrags zu Prüfungsunterlagen (PDF) in der DB Thüringen hat von Google, Bing und Yahoo nur Yahoo. Metager findet ihn zusätzlich auch noch via HSS-Suche und Abacho.de.

Glaubt man dieser Suche, so ist von meinen PDFs auf Freidok nur ein einziges (Schwabensagen) im Index von Yahoo. Wenn ich mich nicht verzählt habe, finde ich bei Bing (kein mir bekannter PDF-Filter!) nur sieben PDFs von mir auf Freidok als Volltext (alle auch bei Google, das ja 28 meiner 38 Volltexte auf Freidok hat).

Daraus ergibt sich: Ein nicht zu vernachlässigender Teil der Volltexte auf den Schriftservern ist von keiner Suchmaschine erfasst, selbst nicht von Google, das am meisten PDFs erfasst.

KlausGraf - am Sonntag, 21. Juni 2009, 22:59 - Rubrik: Open Access

Kommentar verfassen

KlausGraf meinte am 2009/06/22 02:12:

Blick auf einen DSpace-Schriftenserver

DSpace hat eine eigene Volltextsuche für die Inhalte.

Das Brandeis-Repositorium findet zu adult und gender 39 Treffer:
http://dcoll.brandeis.edu/advanced-search

Google hat nur 20 Treffer:
http://www.google.de/search?q=site:dcoll.brandeis.edu+adult+gender+-browsing&hl=de&rlz=1B3GGGL_de___DE215&num=100&filter=0

JURN (Gast) meinte am 2009/06/22 06:43:

Try a Google search for:

"Klaus Graf" inurl:volltexte filetype:pdf

KlausGraf meinte am 2009/06/25 14:05:

Bielefeld

Aus INETBIB (Seb. Wolf):

"Von unserem Hochschulschriftenserver hat Google z.B. 769 Eingangsseiten
indexiert, aber nur 735 PDFs und Postscripts. Zu mind. 34 von Google
indexierten Eingangsseiten wurde also das dazugehörige PDF/PS nicht
indexiert. Da einige Dokumente über mehrere PDFs/PS-Dateien verfügen,
dürfte der Anteil sogar noch höher liegen."

KlausGraf antwortete am 2009/06/29 22:48:

Mehr zu Bielefeld aus INETBIB

On Mon, 29 Jun 2009 16:59:19 +0200
Sebastian Wolf wrote:
> Hallo liebe Liste,
>
> Karl Dietz schrieb:
>
> >> Sind auch zwei unterschiedliche Arten von Text im PDF.
> Das duerfte der
> >> Grund sein, Klaus.
>
> Nein, das wurde doch schon untersucht und zurecht
> ausgeschlossen. Es
> liegt einfach an Googles Unvollständigkeit. Das grafsche
> PDF ist ja
> nicht das einzige, dass Google nicht indexiert hat.
>
> Der Freidok-OAI-Server liefert als "completeListSize"
> 5866 (=
> Metadatensätze). PDF ist das einzige Format, was der
> Freidok-Server
> akzeptiert und zu jedem Dokument muss es mindestens 1 PDF
> geben, also
> mindestens 5866 PDFs.
>
> Von den 5866 Einstiegsseiten hat Google nach eigenen
> Angaben 5820 Seiten
> indexiert:
>
http://www.google.com/search?q=site%3Afreidok.uni-freiburg.de+"eingang+zum+volltext"&filter=0
>
> Und davon wiederum nur 5090 PDFs:
>
http://www.google.com/search?q=site%3Afreidok.uni-freiburg.de+filetype%3Apdf&filter=0
>
> Verifizieren lässt sich die Trefferzahl nicht, da Google
> nur max. 1000
> Treffer anzeigt. Wenn aber Googles eigene Angaben
> stimmen, hat Google zu
> knapp 800 indexierten Freidok-Einstiegsseiten nicht das
> dazugehörige PDF
> indexiert.
>
> Das stimmt übrigens ganz gut mit Tests für andere Server
> überein, die
> ich mal durchgeführt habe - Google hat oft nur ca. 80%
> der
> Einstiegsseiten indexiert. Lücken gibt es dabei in allen
> Jahren, nicht
> nur bei den neuesten Einträgen.
>
> Bing hat nach eigenen Angaben nur 4.770 PDFs vom
> Freidok-Server drin:
>
http://www.bing.com/search?q=site%3Afreidok.uni-freiburg.de+filetype%3Apdf&filter=0
>
> Es ist eben so: Google, Bing und alle anderen SuMas
> indexieren manche
> Dateien einfach nicht. Eine Regelmäßigkeit konnte ich da
> noch nie
> feststellen, warum eine Seite von Google indexiert wird
> und eine andere
> nicht. Das einzige, was der Betreiber machen kann, ist
> eine spezielle
> Sitemap für Suchmaschinen zu erstellen, um alle Seiten in
> den Index
> reinzukriegen. Eine Garantie ist das natürlich auch
> nicht, aber
> vielleicht kommen ja so am Ende 90% der PDFs rein.
>
> Viele Grüße
>
> Sebastian Wolf

Vielen Dank fuer diesen fundierten Beitrag, der meine
eigenen Feststellungen ergaenzt.

Aus der Sicht der Open-Access-Anhaenger muess es dringend
wuenschenswert sein, dass der VOLLTEXT aller Eprints (und
nicht nur 90 Prozent) fuer eine Suche zur Verfuegung steht.

OAI-Metadaten sind unzureichend!

Seit dem Scheitern des Hochschulschriften-Harvestings von
Metager kenne ich keinen von Google unabhaengigen Versuch,
OA-Volltexte IR-uebergreifend suchbar zu machen.

Soweit IRs eine eigene Volltextsuche anbieten wie DSpace,
waere eine Metasuche dieser Angebote ein Schritt in die
richtige Richtung - ergaenzend zu Google. Und OPUS muss
eine eigene Volltextsuche anbieten, die wiederum
serveruebergreifend als Metasuche ausgestaltet sein sollte.
Da die meisten deutschen IRs OPUS verwenden, waere das ein
wichtiger Schritt. Wenn (Meta-)Suchmaschinenprogrammierer
es lernen wuerden, bei Bedarf nur diejenigen Treffer
auszugeben, die NICHT bei Google sind, waere das ebenfalls
zielfuehrend.

Klaus Graf

Update dazu:

Danke für den Hinweis. Dieser Bedarf wird in der OPUS-Entwicklung ebenso gesehen. In der aktuellen Entwicklung hin zur neuen Version OPUS 4 wurde eine Volltextsuche auf Basis von Lucene in die Software integriert. Diese wird Out-of-the-Box einsetzbar sein und ab der ersten öffentlichen Version von OPUS 4 ausgeliefert.

Viele Grüße
Eike Kleiner
--
Bibliotheksservice-Zentrum Baden-Wuerttemberg