Jak działają roboty indeksujące Google, czyli czy Googlebot ma wpływ na SEO?

Jak działają roboty indeksujące Google, czyli czy Googlebot ma wpływ na SEO?
Spis treści

    Jeśli ludzie mieliby odpowiadać za indeksowanie stron, to któż to wie, może wszyscy pracowalibyśmy teraz w Google. Na szczęście, lub nieszczęście, odpowiadają za to roboty – dokładniej Googleboty. Automatycznie odkrywają, skanują i indeksują miliardy stron internetowych w celu udostępnienia ich użytkownikom w wynikach wyszukiwania. Sam Googlebot, czyli główny robot indeksujący, jest niczym badacz, który wykorzystuje zaawansowane algorytmy do analizy treści, struktury i jakości stron.

    Najważniejsze informacje

    • Googlebot to uogólniająca nazwa na zbiór zautomatyzowanych robotów wykorzystywanych przez firmę z Mountain View do odkrywania, skanowania i indeksowania stron internetowych.
    • Google do indeksacji wykorzystuje głównie bota symulującego użytkownika smartfona.
    • Można zarządzać dostępem Googlebota do pojedynczych podstron lub całej sieci za pomocą pliku robots.txt lub tagu noindex.
    • Strona, która ma pojawić się w wynikach wyszukiwania, musi przejść przez proces składający się ze skanowania, indeksacji oraz oceny i wyświetlenia w rankingu.

    Googlebot od podstaw – charakterystyka i rodzaje robotów indeksujących Google

    Googlebot, określany równie często mianem crawlera czy pająka, stanowi jeden z najważniejszych elementów wyszukiwarkowego ekosystemu. Wykorzystuje różne typy klientów – Googlebot to nie monolityczna, pojedyncza jednostka – to raczej armia pomniejszych robotów odpowiedzialnych poniekąd za pozycjonowanie stron internetowych. Wśród nich znajdują się dwa najważniejsze:

    • Googlebot desktop – udający internautę korzystającego z komputera stacjonarnego.
    • Googlebot smartphone – „podszywający się” pod typowego użytkownika telefonu komórkowego.

    Oba typy crawlerów przestrzegają tego samego tokenu produktu w pliku robots.txt, co oznacza, że nie można selektywnie targetować Googlebota Smartphone lub Googlebota Desktop za pomocą robots.txt.

    Google oferuje jednak znacznie więcej usług i aby użytkownicy byli z nich zadowoleni, firma z Krzemowej Doliny trzyma za pazuchą także dodatkowe roboty specjalizujące się w odmiennych zadaniach. Poniższy spis rozjaśni nieco sprawę:

    Typ GooglebotaCelOpis
    Googlebot na smartfonySymulowanie użytkownika przebywającego na urządzeniach mobilnychPodstawa indeksowania (Mobile-First Indexing); kluczowy dla widoczności mobilnej
    Googlebot komputerowySymulowanie użytkownika komputera stacjonarnegoUzupełniające skanowanie wersji desktopowej
    Googlebot ImagesZbieranie obrazówIndeksowanie grafik do wyszukiwarki obrazów
    Googlebot VideoZbieranie filmówIndeksowanie treści wideo
    Googlebot NewsZbieranie treści informacyjnychIndeksowanie artykułów do Wiadomości Google
    Inne (np. dla CSS/JS)PomocPobieranie plików niezbędnych do renderowania strony

    W większości przypadków Google przede wszystkim indeksuje mobilną wersję treści, dlatego większość żądań skanowania będzie realizowana przy użyciu mobilnego crawlera, a mniejszość przy użyciu desktopowego. Wynika to bowiem z polityki Mobile-First Indexing wdrożonej w pełni na przełomie 2023 i 2024 roku.

    zrzut ekranu z google search console, na którym widać ostatnią datę skanowania oraz bota, który skanował adres

    Jak działają roboty Google? Optymalizacja rankingu dzięki indeksacji

    Aby strona internetowa mogła pojawić się w SERP, musi przejść przez złożony, trzystopniowy proces, który jest, po części, realizowany właśnie przez Googlebota. Te etapy to skanowanie (crawling), indeksacja (indexing) i wyświetlanie wyników wyszukiwania (ranking).

    Na pierwszym z nich roboty przeszukują sieć w poszukiwaniu nowych i zaktualizowanych stron. Odkrywają adresy URL przede wszystkim poprzez analizę linków napotkanych na już znanych witrynach. Po zidentyfikowaniu nowego ciągu znaków, Googlebot rozpoczyna proces indeksacji. Pierwszym krokiem jest sprawdzenie pliku robots.txt witryny, który zawiera dyrektywy dotyczące tego, do jakich adresów algorytm może mieć dostęp (o samym pliku zresztą za chwilę). Google stara się emulować stronę w taki sposób, aby możliwie najbardziej przypominać typową wizytę użytkownika. W trakcie samego renderingu roboty analizują treść tekstową, słowa kluczowe, znaczniki title oraz atrybuty alt, aby określić tematykę i kontekst strony. Googlebot więc niejako „podszywa się” pod użytkownika mobilnego lub stacjonarnego, by zebrać wszystkie potrzebne informacje.

    Algorytmy rozbudowują swoje mapy o dodatkowe klastry, do których wchodzą strony najbardziej reprezentatywne dla danej, wybranej frazy kluczowej. Należy jednak pamiętać, że działania robotów to dla Google cenne zasoby – istnieje więc pewien limit danych, jakie komputer może przetworzyć. Maksymalna wielkość pliku HTML lub innego obsługiwanego pliku tekstowego wynosi 15 MB. Co później? Robot przechodzi dalej, nawet jeśli pozostało jeszcze wiele danych do przetworzenia.

    Ostatnim etapem jest wyświetlanie wyników wyszukiwania. Gdy użytkownik wpisuje zapytanie, Google przeszukuje swój indeks w poszukiwaniu odpowiadających stron i prezentuje te, które uznaje za najbardziej trafne. Powstawanie wyników SERP to zresztą bardzo szeroki temat, na zupełnie inny czas.

    Zarządzanie dostępem dla robotów, czyli algorytm a indeksowanie

    Na szczęście nie jesteśmy całkowicie bezbronni względem robotycznych pracowników. Do naszej dyspozycji pozostaje przede wszystkim plik robots.txt, który stanowi podstawowe narzędzie zarządzania dostępem botów do strony internetowej. Istnieją dwa główne typy poleceń, które możemy wpisać – allow i disallow. 

    User-agent: *

    Allow:

    Oznacza to, że robot odwiedzający domenę może skanować wszystkie podstrony. Co prawda, reguła ta nie jest obligatoryjna – strony domyślnie dopuszczają wszystkie boty do wejścia.

    User-agent: Googlebot

    Disallow: /kategoria

    Instrukcja ta oznacza, że robot skanujący nie będzie brał pod uwagę stron znajdujących się w drzewku /kategoria. Pozostawienie pustego miejsca po znaczniku / skutkuje wstrzymaniem dostępu dla botów do całej witryny.

    Alternatywną metodą blokowania indeksowania konkretnych stron jest wykorzystanie meta tagu noindex w sekcji <head> strony. Informuje on wyszukiwarkę, aby nie indeksowała danej witryny, a co za tym idzie, by nie pojawiała się w wynikach wyszukiwania.

    Problemy z blokowaniem w robots.txt

    Nawet jeśli zablokujemy stronę przez plik robots.txt, nadal może zostać ona zaindeksowana. W jaki sposób? Google co prawda zwykle stosuje się do dyrektyw zawartych w konfiguracji, jednak blokada ta przestaje być skuteczna, w momencie, w którym inna osoba utworzy link prowadzący do zablokowanej podstrony. Bot nie wykona żądania skanowania, ale ma możliwość jej zindeksowania. Bazuje on wtedy na informacjach pochodzących z innych źródeł, na których znajduje się owy odsyłacz prowadzący do ww. adresu. Można próbować z tym walczyć – atrybut nofollow, umieszczany w tagu <a> linku, sugeruje robotom, aby nie śledziły danego odsyłacza. To jednak dla nich jedynie wskazówka – zrobią one bowiem to, co uważają za słuszne. 

    Co więc należałoby zapamiętać? W zupełnym skrócie – funkcja Disallow (w pliku robots.txt) przydatna jest w przypadku, gdy chcemy zabronić robotom wejścia na stronę. Dobrze sprawdza się np. przy blokowaniu panelu administratora. Co ważne, tak jak wspominaliśmy, nie daje to gwarancji, że adres nie pojawi się w wynikach wyszukiwania (mógł zostać wcześniej zindeksowany). Atrybut noindex zaś (stosowany w sekcji <head>) przydaje się w przypadku kiedy nie chcemy, by dana podstrona pojawiła się w SERP, ale za to zależy nam na przetworzeniu jej zawartości przez roboty – może być to na przykład polityka prywatności czy strona z podziękowaniem.

    Jak wpływać i analizować działania robotów?

    Jak w wielu różnych przypadkach, tak także tutaj, największą pomocą służy Google Search Console. Stanowi on podstawowe narzędzie do monitorowania działania robotów Google na stronie internetowej. W centrum diagnostycznym wystarczy wpisać pełny URL, by system przygotował dla nas raport o stanie indeksacji.

    diagnostyka URL przy pomocy Google Search Console

    Webmasterzy potrafią także weryfikować to, czy żądania pochodzą faktycznie od Googlebota. Porównują oni adresy IP z logów serwera z publiczną listą adresów IP dostarczoną przez Google.

    To jednak nie jedyna opcja. Firma z Mountain View oferuje także podpięcie się pod Indexing API – narzędzie programistyczne, które umożliwia właścicielom stron powiadamianie Google o dodaniu lub usunięciu dowolnej podstrony. To oprogramowanie przydatne szczególnie w przypadkach, kiedy na witrynie zmiany wprowadzane są stosunkowo często.

    Nie uraź robota, bo inaczej nici z SEO

    Indeksowanie stron internetowych wpływa na pozycjonowanie – temu nie da się zaprzeczyć. Niestety, bądź stety, robot, który zbiera informacje i spaceruje po mapie witryny, jest po części odpowiedzialny za to, gdzie w SERP zostanie ulokowany link do naszego serwisu. Należy dołożyć więc wszelkich starań, by crawler przychodzący w gości miał jak najłatwiejsze zadanie i zapewnił nam dobrą widoczność w wynikach wyszukiwania. Specjaliści SEO nie bez powodu dbają o ich dobrostan za pomocą pliku robots.txt i odpowiedniej konfiguracji sitemap.xml – roboty wyszukiwarki to posłannicy samego Google, którzy sprawdzają czy domena w ogóle warta jest uwagi.

    FAQ

    Ocena artykułu: 5

    Ilość ocen: 1

    #TeamPIKSEO we współpracy z różnymi działami naszej agencji tworzy treści z szeroko rozumianego marketingu sieciowego. Zależy nam na odczarowywaniu trudnych pojęć i przedstawianiu ich w przystępny dla każdego sposób.

    W naszych artykułach prezentujemy zarówno aktualne informacje ze świata SEO i SEM, jak również przydatne poradniki czy nowinki ze świata AI.

    Najnowsze wpisy

    Zapytaj o ofertę już teraz

    Pomożemy Ci zbudować pozytywny wizerunek marki, zwiększyć zaangażowanie odbiorców oraz wzmocnić Twoją pozycję w sieci – skontaktuj się z nami!