Plik robots.txt – co to jest i jak tego używać?

Robots.txt to niepozorny plik o ogromnym znaczeniu w kontekście działań SEO. Dzięki niemu możesz kontrolować, w jakie zakamarki Twojego serwisu wpuścisz roboty wyszukiwarek. To ważne, bo niektóre elementy strony powinny pozostać w ukryciu. Dowiedz się, czym jest plik robots.txt i jak za jego pomocą zarządzać indeksacją stron z korzyścią dla witryny internetowej.

 

Plik robots.txt – co to i na co Ci to potrzebne?

Plik robots.txt to prosty dokument tekstowy, który znajduje się w głównym katalogu Twojej witryny internetowej. Informuje on roboty wyszukiwarek, które części Twojego serwisu mogą być indeksowane, a które powinny zostać pominięte. Każda witryna może mieć tylko jeden plik robots.txt.

Indeksacja to proces, w którym roboty wyszukiwarek skanują i analizują zawartość Twojej witryny, aby dodać ją do swojej bazy danych. Dzięki temu treści Twojej strony mogą być widoczne w wynikach wyszukiwania dla wszystkich użytkowników.

Zasada działania tego narzędzia opiera się na prostych dyrektywach: Allow i Disallow. Pierwsza pozwala na dostęp do określonych adresów katalogu, druga natomiast go ogranicza. Dzięki temu masz pełną kontrolę nad tym, co dokładnie zostanie zindeksowane przez roboty Google i innych wyszukiwarek.

 

Obrazek wizualizuje zastosowanie pliku robots.txt – dla każdego katalogu można zdecydować, czy dany bot wyszukiwarki ma dostęp lub nie

 

Jak wygląda plik robots.txt?

Komunikacja z robotami odbywa się poprzez zestaw reguł zapisanych w pliku tekstowym. Każdy wpis zaczyna się od wskazania typu użytkownika (np. User-agent: *) oraz odpowiednich dyrektyw dotyczących dostępu do konkretnych zasobów witryny.

User-agent: *
Disallow: /private/
Disallow: /tmp/
User-agent: Googlebot
Allow: /public/

W tym przykładzie wszystkie roboty są proszone o nieindeksowanie katalogów /private/ i /tmp/, ale zezwala się Googlebotowi na dostęp do folderu /public/. Instrukcje możesz dostosować więc do własnych potrzeb i plików, które przechowujesz na serwerze. Możesz też określić, które konkretnie boty mają dostęp do wybranych zasobów.

 

Do jakich elementów możesz zezwalać na dostęp lub go blokować?

  • Strona internetowa
  • Pliki graficzne, wideo, dźwiękowe
  • Pliki PDF i inne formaty tekstowe obsługiwane przez wyszukiwarkę
  • Skrypt
  • Styl

 

Dlaczego plik robots.txt jest taki przydatny?

  1. Kontrola nad indeksacją stron i innych plików znajdujących się w serwisie, np. grafik, wideo.
  2. Optymalizacja crawl budget – przekierowując roboty wyszukiwarek do najważniejszych części witryny, zmniejszysz liczbę niepotrzebnych wizyt botów w nieistotnych miejscach.
  3. Dbałość o bezpieczeństwo i prywatność – niektóre strony muszą pozostać ukryte przed ciekawskimi oczami ze względu na przechowywane tam dane. 
  4. Zapobieganie indeksacji duplikatów treści.

 

Błędy w konfiguracji pliku robots.txt

Na pierwszy rzut oka instrukcje nie wydają się skomplikowane, jednak tworzenie pliku robots.txt wymaga skupienia i precyzji. Niektóre błędy mogą bowiem prowadzić do poważnych problemów z indeksowaniem strony internetowej przez roboty wyszukiwarek.

Oto kilka najczęściej popełnianych pomyłek:

  • Zastosowanie dyrektywy Disallow dla całej witryny – czyli potencjalne wykluczenie jej z wyników wyszukiwania Google i innych wyszukiwarek.
  • Brak dyrektywy Disallow dla katalogu zawierającego dane osobowe lub inne poufne informacje.
  • Brak aktualizacji pliku robots.txt, co często prowadzi do dezaktualizacji reguł względem rzeczywistej struktury witryny.
  • Umieszczanie logo lub innych zasobów multimedialnych pod Disallow, co uniemożliwia ich wyświetlanie w wynikach wyszukiwania.
  • Nieprawidłowa lokalizacja i nazewnictwo pliku robots.txt – ma on się znajdować w głównym katalogu strony (www.example.pl/robots.txt) i po prostu nazywać się robots.txt.
  • Udostępnienie wersji deweloperskiej strony i stron testowych.
  • Wykorzystywanie polecenia Disallow na równi z tagiem lub nagłówkiem "noindex".
  • Brak robots.txt dla subdomeny.
  • Pominięcie wielkości liter – strona.html i Strona.html to dwa różne adresy.
  • Zbyt duży rozmiar pliku – Google akceptuje tylko pierwsze 500 kB, pozostałe ignoruje.

 

Jak poprawnie skonfigurować plik robots.txt?

Oto kilka zasad dotyczących prawidłowej konfiguracji:

  • Upewnij się, że najważniejsze sekcje Twojej strony są dostępne dla robotów; to pomoże im skuteczniej indeksować treść.
  • Stosuj Disallow jedynie tam, gdzie naprawdę chcesz ograniczyć dostęp; unikaj blokowania całych katalogów bez potrzeby.
  • Używaj reguły Allow dla kluczowych elementów wizualnych Twojej strony internetowej, np. User-agent: * Allow: /images/logo.png.
  • Pamiętaj o testowaniu zmian przy użyciu narzędzi analitycznych, takich jak Google Search Console czy Bing Webmaster Tools.
  • Monitoruj zachowanie ruchu sieciowego po każdej modyfikacji reguł.

Dobrze zaplanowany plik robots.txt pozwala na optymalizację procesu indeksowania poprzez eliminację zbędnych zasobów z analizy przez boty. Dzięki niemu zwiększysz efektywność działania witryny oraz zabezpieczysz poufność danych przechowywanych online. 

 

Przykłady wykorzystania pliku robots.txt w praktyce

 

Blokowanie dostępu w sklepie internetowym

Dzięki prostej dyrektywie unikniesz indeksowania koszyków zakupowych lub formularzy logowania użytkowników:

User-agent: *
Disallow: /cart/
Disallow: /login/

Dzięki temu boty nie będą miały dostępu do tych obszarów Twojej witryny, co poprawi efektywność jej indeksowania oraz ochroni dane klientów.

 

Disallow dla archiwalnych treści

Uważasz, że starsze wpisy wpływają negatywnie na pozycjonowanie nowych treści ze względu na przestarzałe informacje lub duplikację tematów? Możesz zdecydować się na blokadę ich indeksacji:

User-agent: *
Disallow: /archive/2010

W ten sposób skupisz uwagę robotów na aktualnych publikacjach i zwiększasz szansę na lepszą widoczność w wyszukiwarkach.

Sprawdź najpierw, czy nie lepiej poprawić tekst lub ustawić mu odpowiednie przekierowanie. Zobacz nasze wskazówki na temat aktualizacji treści na stronie www z korzyścią dla SEO.

 

Ograniczenie dostępu botom w aplikacjach webowych

W wielu przypadkach konieczne jest ograniczenie dostępu botom do ścieżek API celem uniknięcia nadmiernego obciążenia serwera oraz zabezpieczenia danych przesyłanych między systemami:

User-agent: *
Disallow: /api/private

Takie podejście ochroni zasoby i pozwoli botom skupić się tylko na najistotniejszych częściach aplikacji przeznaczonych dla użytkowników końcowych.

 

Narzędzia przydatne w pracy z plikiem robots.txt

Przede wszystkim masz do wyboru wiele różnych generatorów pliku robots.txt. Będą one przydatne, jeśli nie masz zbyt dużej wiedzy technicznej. Dzięki nim szybko stworzysz podstawowy dokument, który następnie możesz dostosować do swoich potrzeb. 

Jednym z najpopularniejszych narzędzi, które pokaże Ci, jak boty interpretują plik robots.txt, jest Google Search Console. Możesz tam przetestować różne ustawienia dyrektyw Allow i Disallow, aby upewnić się, że reguły działają zgodnie z zamierzeniami. Dzięki temu unikniesz przypadkowego blokowania ważnych części strony w wyszukiwarce Google.

Dla bardziej zaawansowanych użytkowników dostępne są też specjalistyczne programy, np. Screaming Frog SEO Spider czy DeepCrawl. Te aplikacje oferują możliwość dogłębnej analizy całej struktury adresów URL na stronie oraz wykrywają ewentualne błędy konfiguracji związane z nieprawidłowym zastosowaniem dyrektyw Disallow.

 

Plik robots.txt ma też swoje ograniczenia

Plik robots.txt to – co najważniejsze – informacja dla botów wyszukiwarek o dozwolonym lub niedozwolonym dostępie do katalogów strony www, a tym samym podstawowe narzędzie w zarządziu widocznością. Dzięki niemu decydujesz, które zasoby będą indeksowane przez roboty wyszukiwarek, a które pozostaną poza ich zasięgiem. 

Instrukcje umieszczone w dokumencie nie powinny być jednak jedynym środkiem ochrony prywatności danych. Niestety, ale niektóre boty mogą zignorować polecenia (np. niektóre z nich mogą inaczej interpretować składnie reguł). Poza tym strona zablokowana w pliku robots.txt nadal może zostać zindeksowana, jeśli boty znajdą gdzieś w internecie prowadzący do niej link. 

Dlatego też poza samym plikiem robots.txt wykorzystuj inne metody zapewniające bezpieczeństwo danych, np. ogranicz hasłem dostęp do plików na serwerze, skonfiguruj plik .htaccess oraz protokoły szyfrowania transmisji danych (SSL).

Zadbaj o poprawną konfigurację pliku i sprawdzaj na bieżąco w narzędziach analitycznych, czy w międzyczasie nie powstały problemy z indeksowaniem treści przez boty wyszukiwarek. Regularny monitoring pozwala na szybkie wykrycie i naprawienie ewentualnych błędów w konfiguracji.

Autor

Katarzyna Żołna's picture

Katarzyna Żołna

Zajmuje się tworzeniem treści w SEMSTORM. Swoje doświadczenie związane z content marketingiem zdobywała podczas pracy jako specjalista, a następnie koordynator zespołu e-commerce w jednym ze sklepów z branży wyposażenia wnętrz.

Przeczytaj także

Komentarze