Globus-Enterpsise-SearchInfotext-Enterpsise-SearchSucher-Enterpsise-Search
   

Report-Übersicht
Testbericht
Testumgebung
Technische Voraussetzungen
Bereitstellung
Installation
Konfiguration der Suchmaschine
Tuning der Suchmaschine
Ergebnisse optimieren / Auswertungen
Anpassungen an der Oberfläche
Indexierung
Sicherheit
Die Suche
Performance Test
Verhaltenstest

Indexierung

Man kann mehrere Webseiten anlegen, die gespidert werden sollen. Leider werden mehrere Sites nicht parallel abgearbeitet, sondern immer nur eine Site nach der anderen.

Leider ist es nicht möglich, die Indexiervorgänge zu planen. So ist es zum Beispiel durchaus angebracht, eine Suchmaschine während der Geschäftszeiten nicht Indexieren zu lassen, um Suchanfragen schneller beantworten zu können. Dies ist aber hier nicht mit Bordmitteln planbar.

Dokumente können auch gezielt in den Index geschoben und wieder entfernt werden. Dafür schickt man per HTTP-POST einen Request mit der gewünschten URL an den Indexer, der dieses Dokument dann je nach Request indexiert oder entfernt.

Weiterhin kann man lokale oder per Fileshare-URL erreichbare Filesysteme durchsuchen lassen. Diese werden zwar auch nur nacheinander abgearbeitet, aber trotzdem parallel zu den Webseiten.

Die konfigurierten Webseiten können nicht einzeln für eine Aktualisierung administriert werden. So kann zum Beispiel nur ein kompletter Recrawl angestoßen werden, auch wenn nur eine einzige Website zu aktualisieren wäre.

INFO: Das Feature, einzelne Webseiten neu Crawlen zu lassen, wird in einer der kommenden Versionen vorhanden sein.

Alle konfigurierten Webseiten und Filesysteme landen in einer Collection. Diese eine Collection ist eine Beschränkung der freien Version. Die Enterprise Version hat diese Beschränkung nicht.

Die Textextraction übernimmt ein Modul von "Stellent". Stellent wurde Ende 2006 von Oracle gekauft. Die Software von Stellent übernimmt in vielen Suchmaschinen die Extraction von Texten aus den unterschiedlichsten Dateiformaten. Ein weiterer großer Anbieter von Extractions-/Transformationssoftware ist KeyView, ehemals Verity nun Autonomy.

Achtung: Kleiner Bug im Indexer: Er berücksichtigt leider keinen <base href="..."> -Tag! Daher werden Webseiten, die mit diesem Tag arbeiten um die Links korrekt zu referenzieren, nicht korrekt abgearbeitet.
Ich habe den Bug im Forum gepostet. Kuze Zeit später erhilet ich die Antwort, dass er in der nächsten Version der OYE gefixt sein soll.

Werbung

© 2006-2013 by | Kontakt

Copyrightschutz im Internet | Reiseberichte Sandra & Joerg - Kambodscha, Sri Lanka, Neuseeland, China