Czytając wpis blogowy MOZA z 2015 roku natrafiłem na fragment mówiący o tym, że logi serwera są wciąż rzadko omawiane w kręgach SEO. Czy w 2020 roku podchodzimy do tematu poważniej? Obserwuję poprawę zainteresowania, jednak wciąż większość specjalistów SEO traktuje badanie logów jako dodatek do działań. Analizę wykonujemy po skończeniu abecadła SEO – ustawieniu odpowiedniego title, nasyceniu witryny contentem czy wdrożeniu linkowania wewnętrznego. Lub nie przeprowadzamy jej wcale.
Analiza logów serwera pozwala poznać zasoby, jakie zużywają w witrynie roboty Google. Ich poprawne badanie umożliwia dokonanie zmian, które poprawią techniczną warstwę serwisu. Dokonamy tego m.in. dzięki oszczędności budżetu indeksowania oraz przeniesieniu mocy z adresów URL (często archiwalnych), których moc SEO (tzw. link juice) jest często marnowany lub niewykorzystany.
Zachęcam do zapoznania się z artykułem w formie Q&A, gdzie poruszam kwestie związane z logami serwera i ich wpływem na działania SEO.
Zobacz również: analityka internetowa.
Co to są logi serwera?
Log jest to chronologiczny zapis zawierający informację o zdarzeniach i działaniach. W opisywanym temacie chodzi o aktywności botów (m.in. Google) względem naszej domeny.
Skąd wziąć logi serwera?
To zależy od tego, gdzie mamy umieszczoną naszą stronę internetową. Na części hostingów pliki znajdziemy w panelach zarządzania kontem lub dedykowanym folderze umiejscowionym obok plików domeny na serwerze (np. /log/).
Jeżeli strona stoi na serwerze dedykowanym i obsługujemy ją jedynie przez wysyłanie zaleceń klientowi jesteśmy zdani na łaskę deweloperów. Logi najczęściej są przechowywane w „paczkach”.
Jakich narzędzi użyć do analizy logów?
Rekomendowanym przeze mnie rozwiązaniem jest wykorzystanie narzędzia File Log Analyser (od firmy Screaming Frog). Analizę małych serwisów (do 1000 wydarzeń) wykonamy na darmowej wersji. Roczny koszt wersji płatnej (powyżej 1000 wydarzeń) to 99 £.
Inne możliwości to m.in:
- https://en.ryte.com/product/botlogs/
- https://www.semrush.com/log-file-analyzer/
- https://www.deepcrawl.com
- https://www.oncrawl.com/seo-log-analyzer/
- https://www.weblogexpert.com/
- http://www.gamutsoftware.com/index.php/download
- https://www.splunk.com/
Okres analizy logów
Aby analiza logów serwera badanej domeny była najbardziej miarodajna, zalecam obserwację logów z jak najdłuższego możliwego okresu.
Pamiętajmy, aby posługiwać się aktualnymi plikami.
Co zyskamy dzięki analizie logów?
Przede wszystkim, poprawimy techniczną warstwę witryny. Opisując zagadnienie dokładniej, usprawnimy crawl budget witryny oraz wykorzystamy moc, tzw „link juice” adresów URL, po których przemieszczają się roboty Google.
Dodatkowym atutem jest poznanie częstotliwości odwiedzania przez roboty Google poszczególnych podstron serwisu.
Co to jest crawl budget?
Przy omawianiu tematów logów nie sposób nie wytłumaczyć budżetu indeksowania. Google przypisuje odpowiedni budżet do poszczególnych witryn według przyjętych przez siebie wskaźników. Aby mieć większą pewność, że roboty odwiedzą dodany przez Ciebie artykuł blogowy czy będą przeindeksowywać podstronę produktową znajdującą się np. na 35 stronie paginacji, należy wykluczyć sekcje witryny, które nie wnoszą nic do wartości pozycjonowania (czyli marnują crawl budget).
Zobacz też: audyt SEO.
W jaki sposób dokonywać korekt w analizie logów?
Dodając odpowiednie dyrektywy w pliku robots.txt oraz wdrażając przekierowania 301.
Jakie są częste przypadki występujące w serwisach, które marnują crawl budget?
Każdy serwis jest inny, lecz zauważalne są analogiczne przypadki odwiedzania przez roboty Google:
- filtrów w podstronach listingu serwisów e-commerce (nie wnoszących nic do wartości pozycjonowania),
- atrybutów w podstronach listingu serwisów e-commerce (nie wnoszących nic do wartości pozycjonowania),
- podstron wyszukiwarki wewnętrznej w obrębie strony,
- customowych podstron charakterystycznych dla popularnych CMSów jak WordPress, Magneto czy Presta,
- podstron zainstalowanego szablonu,
- historycznych adresów URL,
- zduplikowanych adresów, np. trailing slash,
- podstrony thin content,
- podstron generujących kod odpowiedzi 200, lecz nie wnoszących nic do wartości pozycjonowania.
Czy badać podstrony zwracające kod odpowiedzi 200?
Zdecydowanie tak. Podstrony w serwisach generują odpowiedzi 200 również na duplikatach stron czy podstronach thin content. Nie zapomnijmy również o podstronach polityki prywatności czy RODO, które z punktu widzenia SEO i budżetu indeksowania są zbędne.
Czy kod odpowiedzi 301 jest prawidłowy?
To zależy. 301 może prowadzić do stron 404 (co jest częstym zjawiskiem). W witrynach występują również pętle przekierowań, których ostatecznym adresem jest strona z błędem.
Analizując logi serwera generujące odpowiedź 301, przejdźmy przez całą ścieżkę przekierowań, aby ostateczny adres generował kod odpowiedzi 200. Dodatkowo, zalecam pozbyć się pętli przekierowań.
Co zrobić w przypadku, gdy logi wskazują przekierowania 302?
Przekierowanie 302 jest tymczasowe i nie przekazuje mocy SEO. Jedynym i słusznym zaleceniem odnośnie 302 jest zmiana na 301. Oczywiście, jeżeli przekierowanie 302 jest ustawione celowo nie uznaje się to za błąd.
Jak naprawić kod odpowiedzi adresów z błędami 4xx i 5xx?
Strony z błędami należy przekierować na najbliższe podstrony serwisu (pod względem tematyczności). Analogicznie – archiwalne podstrony produktowe na kategorie, do których należały; podkategorie do kategorii wyższego rzędu itd.
Na co zwracać szczególną uwagę podczas analizy logów?
Na podstrony produktowe / kategorii. Dlaczego?
W sklepach internetowych częstą praktyką jest tymczasowe usuwanie danych adresów URL ze względu na wykupienie produktu lub sprzedaż wszystkich towarów z określonej kategorii. Jeżeli zaimplementujemy przekierowanie zgodnie z dobrymi praktykami, wówczas po przywróceniu produktów podstrony nie będą dostępne. Takie działanie powoduje błędy w funkcjonowaniu witryny oraz potencjalnie mniejszy przychód.
Opisane powyżej rekomendacje odnośnie podstron listingów czy atrybutów również nie w każdej sytuacji się sprawdzi. Podstrony te mogą generować widoczność przez dodanie do frazy określonego atrybutu. Wytłumaczę to na przykładzie – posiadając podstronę kategorii „buty do biegania” możemy wytwarzać dodatkowy ruch na utworzonej z atrybutu podstronie „białe buty do biegania”. Takie działanie wymaga jednak odpowiedniej budowy witryny i przemyślanych działań.
Zalecam uważać również na plik robots.txt. Jego edycją powinien zająć się specjalista SEO, ponieważ możemy doprowadzić do wielu szkód w witrynie, blokując dostęp do ważnych zasobów.
Badanie rezultatów
Przed pierwotną analizą logów serwera, zachowaj stan wyjściowy witryny przed rozpoczęciem działań. Po wprowadzeniu poprawek, odczekaj czas potrzebny na uzyskanie nowych logów i zbadaj osiągnięte rezultaty. Czynności powtarzaj, dopóki nie osiągniesz stanu, który zadowoli Ciebie jak i (przede wszystkim) wyszukiwarkę Google.
Podsumowanie
Specjaliści SEO mają różne podejście do części składniowych oraz umiejscowienia ich w czasie podczas działań optymalizacyjnych. SEO techniczne ma coraz większe znaczenie, więc nie zapominajmy o analizie logów.
Pozostaje jeszcze jedna kwestia warta rozważenia – kiedy najlepiej się nimi zająć? Na początku czy na końcu działań? Rekomenduje przeprowadzić analizę na początku, ponieważ dobrze zoptymalizowana witryna pod kątem technicznym jest odpowiednią podstawą do działań contentowych.
Przy analizie logów można wyłapać wiele rzeczy, które łatwo przeoczyć. Niektóre CSM generują właśnie niechciane podstrony – więc jak nie jesteś zaznajomiony z CMS, możesz o tym nawet nie wiedzieć. A w logach nie ukryje się nic 🙂