Crawl budget w procesie indeksacji

Od czasu powstania wyszukiwarki Google w 1996 roku liczba znajdujących się w niej stron internetowych rośnie z dnia na dzień. Aby ocenić je i odpowiednio sklasyfikować w jasny, szybki i zgodny z określonymi normami sposób stworzono algorytmy. Bazują one na maszynowym uczeniu z zakresu sztucznej inteligencji, dzięki czemu potrafią ustalić wartość strony na podstawie szeregu czynników rankingowych. 

Czym jest crawl budget? 

Crawl budget, czyli budżet indeksowania to czas i częstotliwość, z jakimi roboty wyszukiwarek mogą indeksować witrynę, a także całkowita liczba adresów URL, do których uzyskują dostęp podczas jednego skanowania. Google wskazuje na dwa podstawowe elementy indeksowania, które wpływają na dokładność działania Googlebota i częstotliwość jego wizyt: limit szybkości indeksowania i żądanie indeksowania. 

Czym jest limit szybkości indeksowania i jak go sprawdzić?

crawl budgetLimit szybkości indeksowania to liczba jednoczesnych połączeń, które Googlebot może nawiązać podczas indeksowania witryny. Ponieważ Google nie chce szkodzić doświadczeniom użytkowników, ogranicza liczbę połączeń, aby utrzymać płynną wydajność witryny/serwera. Krótko mówiąc, im wolniejsza strona, tym mniejszy limit szybkości indeksowania. Limit indeksowania zależy również od ogólnej kondycji SEO serwisu — jeśli powoduje ona wiele przekierowań, błędy 404/410 lub gdy serwer często zwraca błąd 500, limit ten również się zmniejszy. Można analizować dane o szybkości indeksowania, korzystając z informacji dostępnych w Google Search Console w raporcie Statystyki indeksowania.

Podczas gdy limit szybkości indeksowania wymaga dopracowania szczegółów technicznych witryny, zapotrzebowanie na indeksowanie nagradza ją za popularność. Im większy ruch i zainteresowanie wokół niej, tym większe jest jej zapotrzebowanie na indeksowanie. W tym przypadku Google podkreśla dwa aspekty:

  • ogólna popularność – Google chętniej przeprowadza częste indeksowania adresów URL, które są ogólnie popularne w Internecie;

  • aktualność danych indeksowych – Google stara się prezentować głównie najnowsze informacje.

Jak Google działa i zbiera dane?

Poruszając temat crawl budget, warto krótko przypomnieć, jak wyszukiwarka zbiera, indeksuje i porządkuje informacje. Można te działania streścić w trzech głównych etapach:

Krok 1: Crawling

Przeszukiwanie zasobów internetowych w celu odnajdywania i poruszania się po wszystkich istniejących łączach, plikach i danych. Google zaczyna od najpopularniejszych miejsc w sieci, a następnie przechodzi do skanowania innych, mniej popularnych zasobów.

Krok 2: Indeksowanie

Google stara się ustalić, jaką tematyką zajmuje się strona i czy analizowana treść stanowi materiał unikalny, czy duplikat. Na tym etapie grupuje treść i ustala kolejność ważności. 

Krok 3: Pozycjonowanie w wynikach wyszukiwania

Po podzieleniu na segmenty i zindeksowaniu dane są wyświetlane w odpowiedzi na zapytania użytkowników. Aby były jak najlepiej dopasowane do oczekiwań internautów, Google odpowiednio sortuje dane, biorąc pod uwagę różne czynniki.

Jak zoptymalizować budżet indeksowania?

Optymalizacja budżetu indeksowania sprowadza się do upewnienia się, że żadna wizyta robota Google nie zostanie zmarnowana. Aby zwiększyć efektywność skanowania, należy postępować według określonych wskazówek: 

  • zarządzanie adresami URL – istnieją sposoby na poinformowanie algorytmów Google, które strony powinny być skanowane, a które pominięte. Warto zablokować skanowanie stron, jakich nie chce się indeksować, np. w pliku robots.txt; 

  • optymalizacja czasu ładowania strony – należy upewnić się, że czas wczytywania się witryny jest odpowiednio krótki – obecnie przyjmuje się, że powinien wynosić 3 sekundy lub mniej. Strony z wysokim czasem wczytywania mają negatywny wpływ na budżet indeksowania;

  • odpowiednia struktura linkowania wewnętrznego – kiedy na stronie linki wewnętrzne nie są odpowiednio skonfigurowane, wyszukiwarki mogą nie zwracać wystarczającej uwagi na niektóre strony;

  • eliminacja zduplikowanej treści – nieoryginalne teksty znacząco obniżają skuteczność indeksowania;

  • unikanie thin content – tym pojęciem określa się sytuację, w której strona ma bardzo niski stosunek tekstu do HTML. W rezultacie Google może zidentyfikować stronę jako tzw. soft 404 i ograniczyć indeksację jej treści;

  • naprawa błędów w witrynie – im większa liczba przekierowań 301 i błędów 404/410 na stronie, tym gorsze wyniki indeksowania.

Chcesz skorzystać z pomocy doświadczonej firmy?