So konfigurieren Sie den Crawler, um das Importieren von unerwünschten Web-Seiten in Ihr Portal zu vermeiden:
Standardmäßig befolgt der Crawler die Empfehlungen
des Web-Servers, welche Seiten für automatisierte Crawler nützlich sein
könnten. Wenn Sie diese Empfehlungen ignorieren möchten, deaktivieren
Sie das Kontrollkästchen Befolgen der
Auslassungsprotokolle des Roboters der Ziel-Site.
Im Allgemeinen sind diese Empfehlungen recht nützlich, um das Importieren
unerwünschten Contents in das Portal einzuschränken. Einige Websites bieten
jedoch nur sehr wenige Empfehlungen. Wenn Sie bemerken, dass Ihr Crawler
von einer Website überhaupt keinen Content importiert, deaktivieren Sie
diese Option.
Standardmäßig speichert der Crawler die URLs zu importierten Webseiten mit der gleichen Groß- und Kleinschreibung, wie sie in der ursprünglichen Website verwendet wird. Wenn Sie die URLs in Kleinbuchstaben umwandeln möchten, wählen Sie die Option Alle URLs in Kleinbuchstaben umwandeln.
So vermeiden Sie, dass bestimmte Seiten oder bestimmter Content aus bestimmten Bereichen einer Website importiert werden:
Um einen zu umgehenden Bereich anzugeben,
klicken Sie auf Ausschlussfilter
hinzufügen. Geben Sie dann in dem Textfeld den URL zu dem Bereich
der Website ein, der umgangen werden soll.
Sie können die Platzhalternotation (*) verwenden, um allgemeinere
Ausschlussbedingungen festzulegen. Beispiel: Damit die Umsatzinformationen
einer Site nicht durchsucht werden, könnten Sie http://mycompany.com*sales
eingeben. In diesem Fall würde dieser Crawler keine Seite aus mycompany.com
importieren, die den Begriff "sales" an einer beliebigen Stelle
in dem URL enthalten.
Hinweis: Platzhalterzeichen werden auf beiden Seiten des
Textes berücksichtigt. Beispiel: Wenn Sie sales
eingeben, importiert der Crawler
keine Seiten aus irgendeiner
Site, auf die mit dem Ziel-URL zugegriffen werden kann, die den Begriff
"sales" an irgendeiner Stelle in dem URL enthält.
Wichtig: Wenn Sie Exklusionen und
Inklusionen (wie in Schritt 5 beschrieben) aufführen, gelten die Exklusionen
nur für die enthaltenen Seiten.
Beispiel: Wenn Sie sales ausgeschlossen
und http://mycompany.comaufgenommen
haben, importiert der Crawler alle Seiten aus http://mycompany.com mit Ausnahme der Seiten, die "sales"
an irgendeiner Stelle in dem URL enthalten.
Wählen Sie zum Entfernen eines Ausschlusses,
den entsprechenden Ausschluss aus und klicken Sie auf .
Klicken Sie zum Aktivieren bzw. Deaktivieren aller Kontrollkästchen für die Ausschlüsse in das Kästchen links neben Ausschlüsse.
Standardmäßig werden von diesem Crawler keine Seiten importiert oder durchsucht, die in den Ausschlüssen angegeben wurden. Wenn Ihr Crawler von einem Link auf einer ausgeschlossenen Seite auf eine Seite geht, die nicht ausgeschlossen ist und importiert werden soll, wählen Sie Crawlen in ausgeschlossenen Seiten, aber kein Import.
So beschränken Sie den Crawl auf einen Website-Bereich oder auf bestimmte Seiten:
Um anzugeben, wo dieser Content-Crawler suchen
kann, klicken Sie auf Inklusionsfilter hinzufügen. Geben Sie dann in dem
Textfeld den URL zu dem Bereich der Website ein, auf den die Suche beschränkt
werden soll. Weil Websites Links zu anderen Sites enthalten können, können
Sie Inklusionen verwenden, damit der Content-Crawler nur auf einer bestimmten
Site sucht. Um das Crawling anderer Sites zu vermeiden, fügen Sie den
Basis-URL der Site, die durchsucht werden soll, der Inklusionsliste hinzu.
Beispiel: http://mycompany.com.
Sie können die Platzhalternotation (*) verwenden, um die Inklusion
genereller zu gestalten. Beispiel: Wenn Sie nur Informationen über Single
Sign-On (SSO) durchsuchen möchten, könnten Sie http://mycompany.com*sso
eingeben. In diesem Fall importiert dieser Content-Crawler nur Seiten
aus mycompany.com, die "sso" an irgendeiner Stelle in dem URL
enthalten.
Hinweis: Platzhalter werden auf beiden Seiten des Textes
berücksichtigt. Beispiel: Wenn Sie sso
eingeben, importiert der Content-Crawler
Seiten aus jeder Site, auf die
der Ziel-URL zugreifen kann, die "sso" an irgendeiner Stelle
in dem URL enthält.
Wichtig: Wenn Sie Inklusionen und
Exklusionen aufführen, gelten die Exklusionen nur für die aufgenommenen
Seiten. Beispiel: Wenn Sie http://mycompany.com
aufgenommen und sso ausgeschlossen
haben, würde der Content-Crawler alle Seiten aus http://mycompany.com
importieren, mit Ausnahme der
Seiten, die "sso" an irgendeiner Stelle in dem URL enthalten.
Wählen Sie zum Entfernen einer Aufnahme, die
entsprechende Aufnahme aus und klicken Sie auf .
Klicken Sie zum Aktivieren bzw. Deaktivieren aller Kontrollkästchen für die Aufnahmen in das Kästchen links neben Aufnahmen.
So zeigen Sie die Seite an, auf die sich dieses Hilfethema bezieht: