zurück zur Glossar-Übersicht
Webdesign Glossar: Crawling

Veröffentlicht von: Alexander Gildernstern
Kurz und knapp: Was ist Crawling?
Crawling ist das automatische Abrufen von Webseiten durch Suchmaschinen-Crawler (Webcrawler). Nur was gefunden und geladen wird, kann später geprüft und ggf. indexiert werden (Indexierung). Gutes Webdesign mit klaren Links und schneller Technik erleichtert das Crawling.
Wie entdecken Suchmaschinen beim Crawling neue URLs?
Beim Crawling entdeckt ein Crawler (Bot) neue URLs meist über Links: Von einer bekannten Seite folgt er internen Verweisen und legt gefundene Ziele in Warteschlangen (Crawl-Queue). Zusätzlich kannst du eine Sitemap (XML-Sitemap) einreichen, um wichtige URLs zu melden – das ist aber nur ein Hinweis, keine Garantie. Wie oft und wie viele Seiten abgerufen werden, steuert die Suchmaschine algorithmisch; sie versucht dabei, den Server nicht zu überlasten (Crawl-Rate-Limit). Häufen sich Serverfehler wie HTTP 500, kann der Bot langsamer werden oder weniger abrufen. Inhalte hinter Logins oder durch Sperren sind oft nicht erreichbar. Moderne Webseiten werden außerdem gerendert (Rendering), damit auch JavaScript-Inhalte sichtbar werden. Für Webdesign heißt das: stabile Navigation, klare interne Verlinkung und zuverlässige Serverantworten sind die Basis, damit Crawling stattfinden kann. Prüfe deshalb regelmäßig, ob wichtige Seiten ohne tiefe Klickpfade erreichbar sind.

Kostenloses
Webdesign Beratungsgespräch
Wir gestalten deine Webseite so, wie du sie dir schon lange wünschst.
100 % Transparenz
Alle Leistungen und Preise sind von Anfang an transparent für dich einsehbar.
Langfristig an deiner Seite
Auf Wunsch übernehmen wir die fortlaufende Betreuung deiner Website und reagieren schnell auf Änderungen oder technische Fehler.

Google Bewertungen
Basierend auf 5 Bewertungen
Welche Webdesign-Entscheidungen machen Seiten crawlbar?
Für Crawling zählt, was ein Bot im HTML tatsächlich findet. Links sollten als Anchor-Elemente (a-Element) mit href vorhanden sein, weil Crawler URLs aus dem href-Attribut auslesen; reine Klick-Handler (onclick) oder Buttons sind unsicher. Bei Single-Page-Apps (SPA) ist außerdem wichtig, dass Routing echte, aufrufbare URLs erzeugt (History-API) statt nur Fragmente (#/…). Sonst kann der Bot Inhalte schlecht entdecken. Auch bei „Load more“ oder Infinite Scroll lohnt sich eine paginierte Variante (Pagination): Jede Ergebnisseite bekommt eine eigene URL, damit einzelne Produkte oder Artikel crawlbar bleiben. Das ist nicht nur SEO, sondern auch gutes Webdesign, weil Nutzer Lesezeichen setzen und Seiten teilen können. Wenn du Links per JavaScript erzeugst, sollten sie nach dem Rendern weiterhin als echte Links im DOM stehen (Document Object Model). Kurz: klare Informationsarchitektur, saubere interne Verlinkung und crawlbare URLs (Crawlability) machen Crawling planbar.
Wie steuerst du Crawling mit robots.txt, Meta-Robots und X-Robots-Tag?
Wenn Crawling gezielt gesteuert werden soll, unterscheide drei Ebenen:
1) robots.txt regelt, welche Pfade Bots abrufen dürfen (Robots Exclusion Protocol). Das dient vor allem dazu, den Server zu entlasten – nicht, um Inhalte „geheim“ zu machen. Eine gesperrte URL kann trotzdem in Suchergebnissen auftauchen, wenn sie verlinkt ist.
2) Das robots-Meta-Tag im Head-Bereich und
3) der X-Robots-Tag im HTTP-Header steuern vor allem Indexierung und Darstellung (z.B. noindex, nosnippet). Wichtig: Solche Regeln wirken nur, wenn der Bot die Seite bzw. Ressource auch abrufen kann; blockierst du sie in robots.txt, kann er das Meta-Tag nicht lesen.
Bei robots.txt sind Kern-Direktiven wie user-agent, allow, disallow und sitemap üblich. Im Webdesign solltest du Sperren sparsam setzen, damit CSS/JavaScript nicht versehentlich blockiert werden und das Rendering (Darstellung) der Seite leidet. So vermeidest du widersprüchliche Signale und unnötiges Crawling.
| Mechanismus | Wo setzen? | Einfluss | Passend für Webseiten |
|---|---|---|---|
| robots.txt | Datei im Root (z.B. /robots.txt) | Steuert Crawling (Abruf) per Pfad; dient Traffic-/Laststeuerung, nicht als Geheimschutz | Unwichtige/ähnliche Bereiche begrenzen; Sitemap-URL per „sitemap“-Direktive angeben |
| Robots-Meta-Tag | Im Head-Bereich der HTML-Seite | Steuert Indexierung/Serving (z.B. noindex, nosnippet); Bot muss die Seite abrufen können | Seiten gezielt aus dem Index halten (z.B. interne Suche, Filter, Testbereiche) |
| X-Robots-Tag | HTTP-Antwort-Header | Wie Meta-Tag, aber auch für Non-HTML-Ressourcen (z.B. PDF) | Dateien oder ganze Verzeichnisse serverseitig steuern |
Wie optimierst du Crawling über Crawl Budget und Sitemaps?
Unter Crawl Budget (Crawl-Budget) versteht man grob, wie viele URLs eine Suchmaschine in einem Zeitraum abrufen kann und will. Es setzt sich aus technischer Kapazität (wie schnell der Server antwortet) und Nachfrage (wie wichtig/aktuell die URLs erscheinen) zusammen. Für große Websites entsteht hier echter Druck: Wenn Bots zu viele Varianten, Filter-URLs oder Weiterleitungen besuchen, bleiben wichtige Seiten länger ungecrawlt. Webdesign und Informationsarchitektur helfen, das Budget zu lenken: klare Kategorien statt endloser Parameter, konsistente interne Links auf die bevorzugte URL (kanonisch/canonical), und eine Sitemap mit genau diesen Ziel-URLs. Technisch zählt außerdem: stabile 200-Antworten, wenige Fehlerseiten und kein unnötig schweres JavaScript, weil Rendering Rechenzeit kostet. Nutze in Webmaster-Tools Sitemaps-Reports und Logfiles (Server-Logs), um zu sehen, welche Bereiche wirklich gecrawlt werden und wo Bots hängen bleiben. Pro Sitemap gelten Limits (50.000 URLs/50MB).
| Sitemap-Format | Vorteil fürs Crawling | Typischer Nachteil | Webdesign-Praxis |
|---|---|---|---|
| XML-Sitemap | Sehr flexibel; kann Zusatzinfos über Erweiterungen liefern (z.B. Bilder/Video/News, Sprachversionen) | Kann in Pflege/Mapping aufwändig werden | Standard für CMS-Websites und größere Projekte |
| RSS/Atom | Oft automatisch vom CMS erzeugt; gut für neue/aktualisierte Inhalte | Zusatzinfos sind im Vergleich begrenzt (z.B. eher für Video-Hinweise) | Blog/News ergänzend zur XML-Sitemap |
| Text-Sitemap | Sehr simpel: reine URL-Liste | Nur für HTML und andere indexierbare Text-Inhalte | Fallback für sehr große, einfache URL-Listen |
Fazit: Was ist Crawling?
Sauberes Crawling beginnt nicht bei Tools, sondern bei der Website: crawlbare Links, eindeutige URLs und eine Navigation, die Bots wie Nutzer verstehen. Mit robots.txt, Meta-Robots und Sitemap leitest du Crawler gezielt, ohne Inhalte aus Versehen zu blockieren. So wird Webdesign messbar sichtbarer – im Alltag.
zurück zur Glossar-Übersicht
Weitere Glossar-Artikel
Gildenstern Webdesign & Online Marketing
Sichere Dir jetzt Dein kostenloses Erstgespräch
Warte nicht wieder Wochen, bis dich deine Webseite erneut stört. Du weißt längst, dass sie nicht mehr zu dir passt – also warum es nicht jetzt angehen?
Du musst nichts buchen, keine Entscheidung treffen. Lass uns einfach ins Gespräch kommen und gemeinsam herausfinden, ob unsere Arbeit zu dir und deinem Vorhaben passt.
