Produkte >> T-REX >> Online-Hilfe Sprung zum Seitenende
Allgemeines Online-Hilfe Preisliste Download Lizenzkey
  << >>

Dialog zur Einstellung der erweiterten Parametern für die Indexerstellung


Dialog zur Einstellung der erweiterten Parametern für die Indexerstellung


"Die Worte im Index dürfen aus folgenden Zeichen bestehen"

Hier können Sie festlegen, welche Zeichen während der Analyse als zu einem Wort gehörend angesehen werden.
Alle Zeichen, die hier nicht aufgeführt sind, werden als Trennzeichen behandelt und erscheinen somit auch nicht im Index.
Die Einstellung hat großen Einfluss auf den Inhalt der Wortliste und somit auch auf die späteren Suchanfragen. Sie können grundsätzlich nur nach Zeichen suchen, die hier als Wortzeichen definiert sind.


"Stoppwortliste - Alle Worte in der ausgewählten Datei werden nicht in den Index aufgenommen"

Als Stoppwortliste kann grundsätzlich jede Datei verwendet werden. Ihr Inhalt wird analysiert und die enthaltenen Worte als Filter für die Wortliste verwendet.
Worte, die sich in der Stoppwortliste befinden, werden nicht in den Index aufgenommen. Dies verbessert zum einen die Übersichtlichkeit der Wortliste und führt in der Regel zu deutlich kleineren Indexdateien, zum anderen sollte man bedenken, dass nach den ausgeschlossenen Worten nicht gesucht werden kann.

Mit der Schaltfläche 'Datei auswählen...' erhalten Sie einen Dateiauswahldialog, in dem Sie eine Stoppwortdatei bestimmen können.

Mit der Schaltfläche 'Editieren...' können Sie die zuvor ausgewählte Datei mit dem Standardeditor des Betriebssystem zur Bearbeitung laden.

Um eine bereits ausgewählte Stoppwortdatei zu entfernen, verwenden Sie die Schaltfläche 'Feld löschen...'.


"Alarmwortliste - Alle Worte in der ausgewählten Datei werden rot markiert"

Die Alarmwortliste dient dazu, Worte mit einer besonderen Wichtigkeit bei der Anzeige farblich hervorzuheben.
Als Quelle für die Alarmworte kann grundsätzlich eine beliebige Datei angegeben werden. Der Inhalt der Alarmwortdatei wird analysiert und die enthaltenen Worte während der Anzeige farblich hervorgehoben.

Mit der Schaltfläche 'Datei auswählen...' erhalten Sie einen Dateiauswahldialog, in dem Sie eine Alarmwortdatei bestimmen können.

Mit der Schaltfläche 'Editieren...' können Sie die zuvor ausgewählte Datei mit dem Standardeditor des Betriebssystem zur Bearbeitung laden.

Um eine bereits ausgewählte Alarmwortdatei zu entfernen, verwenden Sie die Schaltfläche 'Feld löschen...'.


"Duplikaterkennung"

Wenn die Duplikaterkennung aktiviert ist, dann wird während der Analyse festgestellt, wenn zwei Dateien inhaltlich gleich sind. In der Dateiliste erscheint dann in der Spalte "Dateien mit gleichem Inhalt" der Name der ersten Datei, bei der der gleiche Inhalt festgestellt wurde. Wenn Sie nach dieser Spalte sortieren, dann erscheinen alle Dateien mit gleichem Inhalt hintereinander.


"Wortlänge"

Hier können Sie festlegen aus wievielen Zeichen ein Wort mindestens bestehen muss, bzw. aus wievielen Zeichen es maximal bestehen darf, damit es in die Wortliste aufgenommen wird.
Durch die Angabe einer Mindestwortlänge größer eins wird sowohl die Analysegeschwindigkeit erhöht, als auch die Indexgröße verringert. Allerdings stehen die dadurch ausgefilterten Worte für die Suche nicht zur Verfügung.

Die zu kurzen Worte werden später bei der Anzeige einer Datei grau dargestellt. Außerdem wird im Dateistatistikdialog angezeigt, wie viele zu kurze Worte sich in einer Datei befinden.


"Behandlung unbekannter Datenformate"

Mit der Einstellung "unbekannte Datenformate immer analysieren" können Sie festlegen, dass Dateien auch dann analysiert werden sollen, wenn das Dateiformat nicht erkannt werden kann und es sich auch nicht um ein reines Textformat handelt. Ohne diese Einstellung werden nur Dateien verarbeitet, deren Format sicher erkannt wurde.


"Hauptspeichernutzung"

 
Kurzbeschreibung:         Bis zu ca. ... % des physikalisch verfügbaren Hauptspeichers  
                          benutzen. 
                          Danach den aktuellen Index abschließen und einen neuen  
                          Teilindex anlegen. 
Vorbelegung:              75 
Minimalwert:              30 
Maximalwert:              200 
Einheit:                  Prozent 

Das Programm verwendet für die Indexerstellung nur maximal etwa soviel Hauptspeicher, wie mit dieser Option vorgegeben ist. Nach Erreichen des Limits wird der in Arbeit befindliche Index abgeschlossen und automatisch ein neuer Teilindex angelegt, wodurch zunächst wieder der komplette Hauptspeicher für die weitere Analyse zur Verfügung steht. Dieser Vorgang wiederholt sich solange, bis die kompletten Daten analysiert sind. Die Namen der Teilindexdateien erhalten den Zusatz '#<Laufende Nummer>' (Z.B.: Original-Indexname -> TEST.TIX, Name des ersten Teilindex -> TEST#1.TIX, Name des zweiten Teilindex -> TEST#2.TIX usw. Erfahrungsgemäß können auf einem Rechner mit 256 MB Hauptspeicher und einer Begrenzung auf 75% ca. 5 Gigabyte Rohdaten analysiert werden. Bei Werten deutlich unter 100% wird üblicherweise auch die Auslagerung von Hauptspeicherbereichen durch das Betriebssystem vermieden. Das ist sehr wichtig, da mit diesem sogenannten 'Swapping' eine extreme Laufzeiteinbuße verbunden ist.
Der Nachteil besteht darin, dass bei der späteren Suche, jeweils nur ein Teilindex zur Zeit durchsucht werden kann. Dieser Nachteil wird bei späteren T-REX-Versionen nicht mehr vorhanden sein, da diese in der Lage sein werden, mehrere Indexdateien gleichzeitig zu durchsuchen, bzw. nachträglich einen Sammelindex über mehrere Indexdateien zu erstellen.


Siehe auch:

Suchoptionendialog

Indexerstellung

Titelseite


  T-REX Hilfe
Version 0.00 (0000-000), erstellt am 15. Januar 2006
Textseite 16 von 59, Thema 8020 (DetailAnalyseoptionendialog)

  Struktur Themen A...Z Titel << >>
  Copyright © 2005 by TeraConnect Informationstechnologie GmbH Sprung zum Seitenanfang