Technisches SEO – Verstehen, wie die Suchmaschine arbeitet

4

Wer effektiv SEO betreiben möchte, der muss vor allem verstehen, wie Suchmaschinen überhaupt funktionieren. Überall ist stets die Rede von Titles und Descriptions optimieren, Meta-Tags, Robots.txt, indexieren, Crawlern, Snippets und anderen Fachbegriffen. Alle optimieren, verändern, lesen und bearbeiten, doch bleibt oft das “weshalb mache ich das?” auf der Strecke. Aus diesem Grund entstand dieser Artikel. In diesem Artikel geht es um das technische SEO und welchen Hintergrund es hat Inhalte zu optimieren.

Die Suchmaschine verstehen
Möchte man mit seiner Seite im Internet gefunden werden, dann liest man in sehr vielen Blogs und Fachartikeln, dass Titles und Descriptions angepasst werden müssen, auf Keywords geachtet werden soll und dass man doppelte Inhalte (Duplicate Content) vermeiden soll. Doch wieso sollte man das tun? Stellt man einigen SEOs und Einsteigern die Frage, dann kann diese oft nur unzureichend beantwortet werden. Die SEO Maßnahmen sind korrekt und Titles und Descriptions sind in der Tat sehr wichtig, aber mindestens genau so wichtig ist zu verstehen, wieso man diese Maßnahmen umsetzen soll und was diese bewirken. Möchtest du diese mit einem Tool intensiv prüfen lassen, dann sind die XOVI SEO Tools sehr zu empfehlen. Hierbei geht es vorwiegend um die Suchmaschine Google, aus diesem Grund werden auch die Optimierungsmaßnahmen auf die Suchmaschine Google zugeschnitten sein.

Dieser Artikel ist folgendermaßen strukturiert:

1.) Wie funktioniert die Suchmaschine?

2.) So unterstützt du die Suchmaschine bei der Arbeit

Anzeige

3.) Häufige Fehler, die du vermeiden solltest

1.)  Wie funktioniert die Suchmaschine?
Da das Thema sehr komplex ist, versuche ich mich auf die wichtigsten Bereiche zu beschränken. Insgesamt gibt es ungefähr sechs wichtige Bereiche, die man sich genauer anschauen sollte. Hierbei handelt es sich um eine sehr vereinfachte Darstellung einer Suchmaschine

  • Crawler
  • Url-Server
  • Store-Server
  • Scheduler
  • Parser
  • Index

Man kann sich den Crawler wie eine Spinne vorstellen, die Links von einer Seite zur anderen folgt. Das eigentliche Ziel eines Crawlers ist die Erstellung eines Index. Crawler arbeiten systematisch Links ab, daher sollte man stets auf die interne Verlinkung achten, sodass der Crawler auch alle relevanten Seiten besuchen kann. Crawler erhalten vom URL-Server URL-Listen, die abgearbeitet werden sollen. Diese Listen beinhalten URLs, die noch nicht in den Index aufgenommen wurden. Crawler erhalten von dem URL-Server diese Listen und arbeiten diese systematisch ab. Dabei speichern sie die Informationen in einer Datenbank (dem Repository). Seo concept,vectorDamit der Crawler weiß, welche URLs er als nächstes abrufen soll, erhält er Informationen vom Scheduler. Dieser Scheduler zieht aus dem URL-Index Urls heraus, die der Crawler als nächstes bearbeiten soll. Nach dieser Abarbeitung gibt der Crawler die Informationen weiter an den Parser. Ein Parser ist ein sogenannter Zerteiler, was bedeutet, dass er die Inhalte so aufbereitet, dass diese später optimal weiterverarbeitet werden können. Der Parser zieht relevante Informationen heraus und übermittelt diese an den Store-Server. Der Store Server muss nun diese Informationen, die er von dem Parser erhalten hat, (die Informationen kann man sich vorstellen wie eine sehr einfaches Grundgerüst der Website) extrahieren. Hierbei wird vor allem auf auch auf Veränderungen geachtet. Die Links, die noch nicht bekannt sind, werden wieder an den URL-Server übergeben. Die gefundenen Informationen werden in den Index übernommen. Dafür ist am Ende der Indexer zuständig. Er speichert die Informationen, die er erhalten hat, sehr detailliert ab, sodass eine spätere Durchsuchung der Dokumente stark vereinfacht wird. Am Ende steht dann noch der Searcher. Bei dem Searcher handelt es sich um das FrontEnd der Seite, also das, was der Nutzer sehen kann (das Suchfeld). Wenn nun der User eine Suchanfrage stellt, dann wird diese Suchanfrage mit den Inhalten des Index abgeglichen.

Der Index besteht aus drei Bereichen:

  • Lexikon (Hashtabelle aller im Web gefundenen Begriffe) Jeder Begriff erhält einen Verweis auf die sogenannte Hit-List
  • Hit-Lists (enthalten Verweise auf das Repository)
  • Repository (Datenbank, die Informationen erhält, die der Crawler sammelte)

2.) So unterstützt du die Suchmaschine bei der Arbeit
Vorab: Da es in diesem Artikel vorwiegend um Google geht, sollten wir uns zuerst anschauen, welche Google-Crawler es überhaupt gibt:

  • Crawler
  • Googlebot für die Google Websuche
  • Googlebot-News für die Nachrichten
  • Googlebot-Images für die Bilder
  • Googlebot-Video für die Videos
  • Googlebot-Mobile für die mobilen Inhalte
  • Google Mobile AdSense für Adsense mobile
  • Google Adsense für Adsense
  • Google AdsBot für die Zielseiten-Qualitätsprüfung

Es gibt mehrere Möglichkeiten den Suchmaschinencrawlern Hinweise zu geben, deren Arbeit zu erleichtern und diese zu steuern:

Die interne Verlinkung
Möchtest du dem Google-Crawler die Arbeit erleichtern, dann nutze die interne Verlinkung. Seiten, die in sehr tiefen Ebenen zu finden sind, können vom Crawler teilweise gar nicht mehr erreicht werden. Aus diesem Grund nutze die interne Verlinkung, damit der Crawler auch Seiten erreichen kann, die in tieferen Ebenen zu finden sind und er diese Inhalte auch entsprechend interpretieren kann.

Sehr interessanter Artikel – diese Informationen möchte ich kurz twittern
Meta-Tags
noindex: noindex bedeutet, dass der Crawler diese Inhalte nicht indexieren soll
nofollow: nofollow ist die Angabe, dass der Crawler dem Link nicht folgen soll

Die Sitemap
Möchtest du dem Crawler die Arbeit erleichtern, dann erstelle eine Sitemap, die der Crawler als Übersicht nutzen kann. Achte vor allem darauf, dass in der Sitemap die wichtigen Seiten vorhanden sind, die auf jeden Fall gecrawlt und bewertet werden sollen. Es gibt nicht nur Sitemaps für Artikel, sondern auch:

  • Sitemaps für Videos
  • Sitemaps für Bilder
  • Sitemaps für Google News

Die Robots.txt
Vielleicht hast du schon von der robots.txt gehört, wusstest jedoch nie so richtig, welche Funktion diese hat. Die robots.txt ist ein Werkzeug mit dem man Crawlern steuern kann. Besucht der Google-Crawler deine Website, dann schaut er zuerst nach der robots.txt um zu wissen, wie er sich verhalten soll. Es ist wichtig, dass sich die robots.txt im root-Verzeichnis befindet und dass dieser Dateiname komplett klein geschrieben wird. Beispiel: deinedomain.de/robots.txt

Anzeige

Für die Robots.txt gibt es einige Befehle. Hier werden ein paar aufgeführt und erläutert:

User-agent: Googlebot
Disallow:

User-agent wird dazu genutzt um einem entsprechenden Crawler „anzusprechen“. In diesem Fall wird der Google Bot angesprochen. Der Befehl Disallow: bedeutet, dass alle Inhalte indexiert werden dürfen. Das erscheint seltsam, vor allem, weil der Begriff Disallow eigentlich aus dem Englischen etwas ganz anderes bedeutet? Das ist korrekt, aber damit Inhalte vom Googlebot nicht indexiert werden, müsste der Befehl folgendermaßen lauten:

User-agent: Googlebot
Disallow: /

Der / nach Disallow: teilt dem Crawler mit, dass diese Inhalte nicht indexiert werden dürfen. Mit der robots.txt kann man den Crawlern sehr detailliert aufzeigen, was diese „dürfen“ und was nicht. Da es mittlerweile sehr viele Crawler gibt wäre es zu mühsam alle Crawler in der robots.txt zu erwähnen, aus diesem Grund kann ein * genutzt werden. Dieses Zeichen sagt aus, dass alle Crawler angesprochen werden sollen. Über die robots.txt können auch einzelne Dateieindungen, oder auch Verzeichnisse vom Crawling ausgenommen werden.

Hier mal ein besonderes Beispiel, welches wir uns nun genauer anschauen werden:

User-agent: *
Disallow: /*.pdf$
Disallow: /crawl-mich-nicht/
Disallow: /ich-bin-ein-beispielartikel.html
Disallow: /archiv*/

Fangen wir wieder im oberen Bereich an:
User-agent: * bedeutet, wie bereits oben beschrieben, dass alle Robots angesprochen werden sollen. Die unteren Befehle gelten also für alle Robots. Da wir nicht möchten, dass Crawler die .pdf-Dateien crawlen, schließen wir mit dem Befehl: /*.pdf$ alle .pdf-Dateien aus. Hier kann natürlich auch flexibel agiert werden und statt.pdf beispielsweise .png genutzt werden.
Disallow: /crawl-mich-nicht/ bedeutet, dass dieses Verzeichnis nicht gecrawlt werden soll. Wenn wir schon dabei sind zu erwähnen, was alles nicht gecrawlt werden soll, dann soll auch ein bestimmter Artikel nicht gecrawlt werden (genau: /ich-bin-ein-beispielartikel.html).

Vielleicht ist dir aufgefallen, dass bei archiv* ein * hinter dem Verzeichnis Archiv steht. Dieses * bedeutet, dass mehrere Archive nicht indexiert werden sollen (zum Bespiel archiv-1 und archiv-2). Des Weiteren kann in der robots.txt angegeben werden, wo sich die Sitemap auf der Seite befindet. Da die Crawler gleich zu Beginn die robots.txt abrufen, können diese gleich die Sitemap finden und auf diese zugreifen. In den Google Webmaster Tools gibt es seit Neuestem die Möglichkeit die robots.txt zu testen. Hier gehst du auf den Bereich „Crawling“ und wählst „robots.txt-Tester“. Hier hast du im unteren Bereich die Möglichkeit deine robots.txt testen zu lassen und zwar von einem Google Crawler deiner Wahl. Du kannst aus folgenden Crawlern auswählen:

  • Googlebot
  • Googlebot-News
  • Googlebot-Images
  • Googlebot Videos
  • Google-Bot Mobile
  • Mediapartners-Google
  • Adsbot Google

Das sieht dann folgendermaßen aus:

Technik SEO 6

Wenn eh gerade die Google Webmaster Tools betrachtet werden, dann findest du im oberen Bereich noch weitere relevante Informationen zum Thema „Crawling“.

  • Crawling Fehler
  • Crawling Statistiken
  • Abruf wie durch Google
  • robots.txt-Tester
  • Sitemaps

Im Bereich Crawling Fehler erhältst du wichtige Hinweise, ob der Google Crawler deine Inhalte auch korrekt verarbeiten kann, oder ob Fehler auftraten. Wenn Fehelr auftreten, dann hast du die Möglichkeit dir diese anzeigen zu lassen und diese zu beheben. Du kannst so direkt mit der Suchmaschine agieren und zusammen arbeiten. In den Crawling Statistiken kannst du sehen, wie Google deine Seite crawlt und welche Daten dafür aufgewendet worden sind. Hier kannst du sehen, wie aktiv der Googlebot auf deiner Seite in den letzten Tagen war.

Technik SEO 4
Abruf wie durch Google ist eine sehr interessante Option, die du dir auf jeden Fall genauer anschauen solltest. Hier kannst du eine URL angeben (beispielweise die eines neuen Artikels, der sich noch nicht im Index befindet) und kannst diesen an den Index senden. Aus technischer Sicht wird diese URL dann an den URL-Server weitergegeben, der daraufhin dem Crawler wieder die Information in der URL-Liste mitgibt, sodass der Crawler daraufhin diese Seite abarbeitet.

Technik SEO 3

Es kann Sinn ergeben, dass einige unwichtige Bereiche nicht gecrawlt werden sollen. Da jede Domain ein eigenes Crawling-Budget besitzt, gilt es die Ressourcen des Google-Crawler optimal zu nutzen. Aus diesem Grund kann es sinnvoll sein nur Bereiche crawlen zu lassen, über die man sich einen wesentlichen SEO Impact erhofft. Auch hier gilt es wieder, wie bereits in anderen Artikel erwähnt: Prioritäten setzen! Die Webmaster Tools bieten jedoch noch wesentlich mehr Informationen. Nicht nur das Thema Crawling ist sehr relevant, sondern auch das Thema „Indexierung“. Daher findet man in den Webmaster Tools auch noch relevante Informationen zu dem Thema Indexiert. In der Navigation unter „Google-Index“ findest du den Menüpunkt: „Indexierungsstatus“. Hier erhältst du eine Statistik, wie deine Inhalte indexiert wurden.

Technik SEO 5


3.) Häufige Fehler, die du vermeiden solltest
Es gibt einige Fehler, die dafür sorgen können, dass man in den Suchmaschinen nicht optimal gefunden wird. Das kann einzig und allein daran liegen, dass man keinen Überblick über die eigenen Inhalte hat, oder aber dass sich nicht ausreichend mit dem Thema SEO beschäftigt wurde. Wenn du über die organische Suche Traffic erhalten möchtest, dann solltest du folgende Fehler vermeiden:

Du kennst deine Inhalte nicht
Wenn du keinen Überblick mehr hast, welche Inhalte du besitzt und wie diese indexiert wurden, dann solltest du dich intensiver mit dem Thema „Index“ auseinander setzen. Nutze dazu die Site-Abfrage: „site:deinedomain.de“ in der Google-Suche um zu schauen, welche Inhalte in den Google Index aufgenommen wurden. Wenn du feststellst, dass sich im Index Inhalte befinden, die keinen Mehrwert bieten, dann lass diese ggf. wieder deindexieren. Du solltest deine Inhalte kennen und auch wissen, welche sich im Index befinden.

Du nutzt nicht die Google Webmaster Tools
Wie im oberen Bereich bereits geschrieben findest du in den Google Webmaster Tools wichtige Hinweise zum Thema Crawling, Sitemaps, robots.txt und Indexierung. Hier bekommst du nicht nur Hinweise und Tipps, sondern du kannst auch Fehler und Probleme erkennen und auf diese reagieren. Zudem kannst du Seiten einreichen, die gecrawlt werden sollen, deine Sitemaps einreichen und deine robots.txt testen lassen. Diese Tools solltest du nutzen um der Suchmaschine wesentliche Hinweise zu geben und mit dieser zu interagieren.

Du nutzt Meta-Tags falsch oder gar nicht
Meta-Tags sind eigentlich nicht kompliziert. Zudem sind sie ein sehr hilfreiches Mittel, wenn es darum geht Crawlern Hinweise zu geben. Aus diesem Grund solltest du diese nutzen und dich genauer mit den Meta-Tags beschäftigen.

Du machst Fehler in der robots.txt
Wenn du dich noch nicht so gut mit der robots.txt auskennst, dann solltest du dich diesbezüglich weiter einlesen. Die robots.txt ist ein wichtiges Werkzeug, wenn es um die Steuerung von Crawlern geht. Machst du allerdings Fehler, dann kann es sein, dass die Inhalte deiner Seite nicht mehr indexiert werden, oder dass essentielle Bereiche nicht mehr gecrawlt werden. Hier kann bereits ein / dafür sorgen, dass deine Seite nicht mehr gefunden wird. Aus diesem Grund solltest du, wenn du die robots.txt nutzen möchtest, dich intensiver mit dem Thema befassen.

Deine Inhalte sind intern schlecht verlinkt
Wenn du möchtest, dass der Crawler auch Inhalte deiner Seite findet, die sich in sehr tiefen Ebenen befinden, dann solltest du die interne Verlinkung nutzen um diese zugänglich zu machen. Crawler nutzen Links um neue Seiten zu erkennen, daher solltest du diese Links nutzen um dem Crawler die Arbeit zu erleichtern.

Du verschwendest Crawling-Budget
Jede Domain verfügt über ein bestimmtes Crawling Budget, was bedeutet, dass der Google Crawler nur eine bestimmte Zeit für deine Domain investiert. Diese Zeit solltest du effizient nutzen. Doppelte Inhalte, oder sehr unwichtige Inhalte verschwenden Crawling-Budget, welches für wichtige Seiten hätte aufgewendet werden können. Aus diesem Grund achte darauf, dass du dein Crawling-Budget effizient und sinnvoll einsetzt.

Unwichtige URLs in der Sitemap
Angenommen du hast eine Sitemap erstellt, diese in den Webmaster Tools eingereicht und sogar noch in der robots.txt angegeben, dann hast du schon einiges richtig gemacht. Du solltest allerdings darauf achten, dass sich in der Sitemap nur URLs befinden, die auch wirklich relevant sind. Hast du in dieser auch URLs angegeben, die eigentlich „unwichtig“ sind, dann hast du dem Crawler unnötige Informationen gegeben, die er allerdings trotzdem verarbeiten muss. Achte deshalb darauf, dass die Informationen in der Sitemap auch alle relevant und wichtig sind.

Ich hoffe, dass dir der Umgang mit Suchmaschinen ein bisschen verständlicher geworden ist und dass du ein paar Infos und Tipps mitnehmen konntest. Viel Erfolg!

Kevin Jackowski

Kevin Jackowski

Kevin Jackowski ist Online Marketing Experte und Gründer des Portals OnlineMarketingEinstieg.de. Er ist Fachautor, Mitglied im XOVI Expertenrat, Speaker und hält eigene SEO Seminare.
Technisches SEO – Verstehen, wie die Suchmaschine arbeitet
4.36 (87.27%) 33 votes

Anzeige