Warum ich den Google Desktop Search nicht einsetzen kann

Ich habe da eine kleine Zeitschriftendatenbank mit eingescannten Artikeln. Damit sie auch per Suchmaschine nutzbar sind, sind sie natürlich durch ein OCR-Programm gegangen und haben neben den Seiten als Grafikbild auch den Text gespeichert. Irgendwann vor Jahren habe ich für mich entschieden, als Dateityp hierfür PDF zu verwenden, weil es kaum alternative Formate hierfür gab und weil ich annahm, dass PDF nicht sofort wieder durch etwas anderes abgelöst wird. Immer wieder probiere ich Suchwerkzeuge aus, die mir meine Zeitschriftendatenbank analysieren und durchsuchen. Was sollte so ein Suchwerkzeug können? Es sollte so einfach wie Google sein :), die PDF-Dateien in einem Vorschau-Fenster anzeigen können und auch in der PDF-Datei direkt die Fundstellen hervorheben und bei mehrfachem Vorkommen, anspringen lassen. Und ... es sollte nichts kosten! Es gibt gar nicht sooo viele Werkzeuge, die dieser Anforderung genügen:

  • Copernic Desktop,
  • Microsoft Live Desktop,
  • Yahoo Desktop Search (= X1),
  • Filehand,
  • x-friend (ältere Versionen gibt es noch als Freeware),
  • Svizzer (gibts die Firma noch?),
  • Exalead,
  • Ask Jeeves,
  • A-Z Finder,
  • Omea Pro (mittlerweile auch Freeware)
  • diskMETA-Lite,
  • Suchwerk

Nicht alle können oder wollen auf Netzwerklaufwerke zugreifen, und keines mag einen Index anlegen, den mehrere PCs im Netzwerk benutzen können. Erst mit entsprechender Server-Software und Geld sind diese Leistungen zu haben. Das ist aber nicht die Lösung meines Problems: Es gibt da ja ein Netzwerk-Laufwerk (SC101) auf das mehrere PCs zugreifen und ich will weder einen weiteren Server, noch auf jedem PC einen Index, der gepflegt werden muss und damit auch Zeit kostet.

Es gibt auch nur ganz wenige Programme, die mit den aktuellen PDF-Versionen umgehen können bzw. die die integrierte Suchfunktion vom Acrobat Reader anstoßen. Warum das ein Problem ist, versteh ich eigentlich nicht - da es ja eine dokumentierte Schnittstelle hierfür gibt. Und auch alternative PDF-Anzeige-Funktionalität gibt es ja doch schon recht brauchbar.

Der Hammer ist die Google Desktop Search Software. Sie indiziert nur die ersten 10.000 Worte (nicht Zeichen - danke für den Hinweis, Stefan) einer PDF-Datei! Kann man hier nachlesen. Ist natürlich für eine Zeitschriftensammlung überhaupt nicht zu gebrauchen, denn eine durchschnittliche 100seitige Fachzeitschrift hat ja so zwischen 30.000 und 50.000 Worte.

P.S.: Ich hab nicht alle Suchwerkzeuge aufgezählt, die ich mittlerweile installiert und getestet habe ... auch kommerzielle ... Begeisterung wollte eigentlich nie richtig aufkommen. Die einzige doch recht schöne aber teuere Suche ist dtSearch für $999. Leider kann ich die mir nicht leisten und sie braucht halt auch einen Server :(

Nachtrag 14.2.2008

Mittlerweile habe ich mir auch OpenSource-Lösungen angesehen und eine Reihe davon ausprobiert. Allerdings muss man das ein oder andere noch zurechtbiegen, damit sie wirklich schön sind. Das hat mich auf den Gedanken gebracht, eine eigene Suche zu entwickeln. Mit pdf2text kann man ja den Text aus PDF-Files sehr schön extrahieren. Dann lässt man das Ganze gegen einen Filter (zu kleine Worte und Wortfragmente, Sonder- und Schmutzzeichen entfernen) und eine Stopwort-Liste laufen. Zuletzt wird das Bereinigte in eine mySQL-Datenbank mit Volltextindizierung eingelagert. Ich habe 2 Skripte in PHP geschrieben: eins zum Crawlen und Einpflegen der Dokumente in die Datenbank, eins zum Abfragen und Anzeigen. Läuft auf meinem lokalen Webserver und damit ist eine meiner Forderungen, das Vorhalten nur eines Index, gegeben. Nach ein wenig PHP/Apache und mySQL-Tuning sind die Suchzeiten akzeptabel: einfache Wortabfragen über alle Dokumente (mehr als 100GB PDF-File-Volumenen, mehr als 2,5GB Datenbanktabellen) dauern durchschnittlich 12 Sekunden. Allerdings sind dann auch schon die kompletten Texte der ersten 30 Zeitschriften im Browser-Cache und die Fundstellen markiert, so dass die bei anderen Suchprogrammen anstehenden Ladezeiten zum Anzeigen wegfallen. Da ich den Text in der Datenbank habe, kann ich in diesem herumschmöckern und entscheiden, ob ich mir die Fundstelle auch noch als PDF ansehen will. Wenn ja, klick drauf und schon ist die PDF-File nachgeladen und wird im Acrobat Reader angezeigt - natürlich mit Markierung der Fundstellen, was die anderen Suchprogramme eher selten tun :). Ach ja, Kategorisieren und Kommentieren der Fundstelle ist auch möglich.

4 Kommentare:

Stefan Musche schreibt:

Zur Zeit test ich Google Desktop und bin bis jetzt fast restlos begeistert. Alles was indiziert ist, wird superschnell gefunden, man kann den ganzen Schnickschnack (Sidebar etc.) wegblenden und findet neben Faxen, emails und Outlook-Kontakten auch sämtliche Dokumente auf den Netzlaufwerken.

Übrigens: Google Desktopsuche indiziert die ersten 10.000 Wörter (nicht Zeichen) einer pdf Datei.

Der einzige Schatten sind in .pdf eingebettete Scans, die leider nicht mit OCR-behandelt werden...

Wolfgang Kowalski schreibt:

Danke für den Hinweis bezüglich der Google Desktopsuche: stimmt natürlich mit den 10.000 Worten (!). Ja, ich war am Anfang auch recht begeistert von der Google Desktopsuche. Aber nachdem ich halt bemerkt habe, dass sie nur den Anfang meiner Zeitschriften durchsucht hatte, hab ich doch etwas gebraucht, um zu verstehen, warum das so ist. Aber wer das nicht braucht, für den lohnt sich das Ausprobieren. Für die Bild-PDF-Scans hab ich mir den Abbyy PDF Transformer Pro 2.0 zugelegt: solide, gute Erkennungsrate, recht schnell. Da ich ja für ein Archiv eine Lösung gesucht hatte, interessierte mich das Finden anderer Dokumente eher nicht.

a6000000 schreibt:

da haetten wir doch gerne einen download-link der eigenbau suchmaschine

zB. waere ein upload auf
http://share.gulli.com/
einfach und gut, weil man kein rapidshare account brauch

Wolfgang Kowalski schreibt:

Das mit dem Download wird noch ein paar Tage warten müssen, weil ich schon den Ehrgeiz habe, eine Anleitung zur Installation und Benutzung zu verfassen. Wenn es soweit ist, wird hier auf jeden Fall der Link stehen. Im Moment bevorzuge ich als Download-Server sourceforge.net und ich denke, dass werde ich auch so beibehalten.