crawler

MetaJobBot - Der METAJob Crawler

MetaJobBot ist der automatisiert arbeitende Crawler von METAJob und durchsucht Webseiten nach Jobs. Er wird von folgenden Grundsätzen geleitet:
  1. MetaJobBot erfüllt den Robots Exclusion Standard. Sie können als Webmaster das Besuchen von Seiten Ihrer Domain durch Crawler/Bots generell verhindern, indem Sie eine Datei robots.txt im Root-Verzeichis mit folgendem beispielhaften Inhalt erstellen:
    User-agent: *
    Disallow: /
    
    Um den Zugriff durch MetaJobBot auf Seiten unter /cgi-bin/ zu verhindern, ist folgendes robots.txt notwendig:
    User-agent: metajobbot
    Disallow: /cgi-bin/
    
  2. MetaJobBot respektiert die robots-Meta-Tags index/noindex bzw. follow/nofollow. noindex verhindert die Indexierung einer Seite, während nofollow das Weiterverfolgen von Links auf dieser Seite verhindert. Meta-Tags werden innerhalb des head-Elements einer Html-Seite angeführt. Folgende Zeile in der Head-Section einer Html-Seite verhindert z.B. das Indexieren dieser Seite, erlaubt aber die Weiterverfolgung von Links auf dieser Seite:
    <meta name="robots" content="noindex, follow">
    
  3. MetaJobBot folgt folgenden "Politeness"-Kriterien:
    • Zwischen 2 aufeinanderfolgenden Zugriffen von Seiten der selben Domain liegen mindestens 5 Sekunden
    • Zwischen 2 Zugriffen liegt mindestens das 7-fache der zuletzt beobachteten Antwortzeiten
  4. MetaJobBot ist ein sog. "Focused" oder auch "Topical" Crawler. Er ist nur am Auffinden von Jobs interessiert. Sollte er eine Website besuchen, trifft er aufgrund von wenigen Seiten eine Entscheidung, ob weitere Seiten besucht werden.
Sollten Sie als Webmaster eine Verletzung der obigen Kriterien feststellen oder sonstige Fragen haben, kontaktieren Sie uns bitte.