Każda strona internetowa, o ile posiada ten plik, przechowuje go pod dokładnie takim samym adresem. Aby sprawdzić zawartość swojego pliku, wystarczy w oknie przeglądarki wpisać adres URL swojej witryny i dopisać do niego końcówkę /robots.txt (na przykład: https://www.twojadomena.pl/robots.txt). Plik ten jest w pełni publiczny, co oznacza, że każdy użytkownik oraz każdy robot w sieci może bez przeszkód wyświetlić jego zawartość.
To jeden z najczęstszych błędów w technicznym SEO. Zablokowanie podstrony w pliku robots.txt oznacza jedynie zakaz wchodzenia na nią przez roboty – algorytmy nie będą jej skanować, ale podstrona wciąż może krążyć w wynikach wyszukiwania. Jeśli Twoim celem jest całkowite usunięcie konkretnego adresu URL z Google, nie używasz robots.txt. Do tego służy specjalny znacznik meta tag o nazwie noindex, wklejany bezpośrednio w kodzie HTML danej podstrony.
Roboty wyszukiwarek ślepo słuchają komend zapisanych w pliku robots.txt. Jeśli przez przypadek (na przykład podczas prac programistycznych) wpiszesz regułę blokującą dostęp do całej zawartości domeny, roboty Google natychmiast opuszczą Twoją stronę. Przestaną ją odwiedzać, co po pewnym czasie doprowadzi do całkowitego wykasowania wszystkich artykułów i produktów z wyników wyszukiwania Google. Taki błąd oznacza natychmiastową utratę całego ruchu organicznego.
Struktura pliku robots.txt opiera się na prostych, uniwersalnych komendach. Nie potrzebujesz umiejętności programistycznych, aby zrozumieć, jak działają poszczególne linijki kodu.
Konfiguracja pliku opiera się na trzech głównych poleceniach, które zawsze występują w określonej sekwencji:
User-agent: *) oznacza, że reguły dotyczą wszystkich robotów w internecie. Wpisanie User-agent: Googlebot kieruje zasady wyłącznie do wyszukiwarki Google.Wyszukiwarka Google nie powinna tracić czasu na indeksowanie podstron, które nie wnoszą żadnej wartości dla zwykłego użytkownika szukającego wiedzy czy produktów. Blokowanie takich zasobów wygląda następująco:
| Cel blokady | Zapis reguły w robots.txt | Efekt działania |
| Panel administratora | Disallow: /wp-admin/ |
Robot nie marnuje czasu na próby skanowania plików logowania systemu CMS. |
| Koszyk i proces zakupu | Disallow: /koszyk/ |
Prywatne podstrony zakupowe klientów pozostają poza zasięgiem robotów. |
| Wyniki wewnętrznej wyszukiwarki | Disallow: /*?s= |
Blokuje powstawanie tysięcy pustych podstron generowanych przez filtry sklepu. |
Oprócz zakazów, plik robots.txt służy do przekazywania robotom mapy Twojej witryny. Na samym końcu pliku należy umieścić bezpośrednią ścieżkę do mapy strony za pomocą komendy: Sitemap: https://www.twojadomena.pl/sitemap.xml. Jest to ogromne ułatwienie dla algorytmów, które od razu po wejściu na stronę otrzymują gotową listę wszystkich aktualnych adresów URL do zaindeksowania.
Dla dużych portali oraz rozbudowanych sklepów internetowych (e-commerce), plik robots.txt jest podstawowym narzędziem do zarządzania wydajnością pozycjonowania.
Google nie spędza na Twojej stronie nieskończonej ilości czasu – posiada limit zasobów na jej zeskanowanie, nazywany crawl budget. Jeśli masz sklep z tysiącami ubrań, a robot zacznie krążyć po stronach z filtrami (np. sortowanie według ceny, koloru, rozmiaru), zużyje cały budżet, zanim dotrze do nowych, ważnych produktów. Zablokowanie parametrów filtracji w robots.txt sprawia, że Google od razu przechodzi do indeksowania kluczowych stron ofertowych.
To jedna z najbardziej zaskakujących pułapek. Jeśli zablokujesz podstronę w robots.txt, ale na innej, zewnętrznej witrynie pojawi się link prowadzący do tego zablokowanego adresu, Google dowie się o jego istnieniu. Wyszukiwarka może wtedy umieścić tę podstronę w wynikach wyszukiwania na podstawie samego tekstu linku zewnętrznego, mimo że robot nigdy nie wszedł do środka i nie przeczytał zawartości. Jedynym skutecznym ratunkiem w takiej sytuacji jest usunięcie blokady w robots.txt i zastosowanie wspomnianego wcześniej znacznika noindex.
Standardowy protokół kontroli robotów (REP) posiada specyficzne mechanizmy, których nieznajomość prowadzi do konfliktów w indeksowaniu. Algorytmy wyszukiwarek interpretują zapisy w pliku robots.txt według ściśle określonej hierarchii ważności, a nie według kolejności linijek tekstu.
W pliku robots.txt kluczową rolę odgrywają dwa znaki specjalne, które pozwalają na tworzenie zaawansowanych reguł dla setek podstron jednocześnie:
*): Oznacza dowolny ciąg znaków. Zapis Disallow: /pliki/*/.pdf zablokuje dostęp do każdego pliku PDF, który znajduje się w jakimkolwiek podfolderze wewnątrz katalogu „pliki”.$): Oznacza bezwzględny koniec adresu URL. To niezwykle ważne narzędzie. Zapis Disallow: /oferta$ zablokuje wyłącznie jedną, konkretną podstronę o adresie „/oferta”. Pozwoli natomiast robotom bez przeszkód indeksować wszystkie podstrony leżące głębiej, np. „/oferta/buty” czy „/oferta/koszulki”.W przypadku konfliktu reguł, gdy jedna komenda pozwala na dostęp do danej podstrony, a druga go zabrania, Google stosuje zasadę specyficzności (długości ścieżki). Wygrywa ta komenda, której reguła zawiera więcej znaków w adresie URL. Jeśli długości dopasowań są identyczne, Google wybierze komendę Allow jako nadrzędną. Warto jednak pamiętać, że inne wyszukiwarki (np. Yandex czy Bing) mogą interpretować ten konflikt inaczej, dlatego najlepszą praktyką jest unikanie tworzenia sprzecznych instrukcji dla tego samego adresu.
Zanim zmodyfikowany plik trafi na serwer produkcyjny, musi zostać poddany technicznej weryfikacji. Ręczne sprawdzanie kodu bardzo często kończy się przeoczeniem drobnej literówki, która może zablokować kluczowe sekcje sklepu lub portalu.
Podstawowym krokiem przed wdrożeniem zmian jest użycie oficjalnego testera pliku robots.txt wbudowanego w narzędzie Google Search Console. Tester pozwala wkleić nową treść pliku i zasymulować, jak zareaguje na nią Googlebot. Można tam wpisać konkretne adresy URL (np. strony z koszykiem czy najważniejsze produkty) i natychmiast otrzymać informację zwrotną, czy planowana reguła przypadkowo nie blokuje dostępu do kluczowych zasobów witryny.
Współczesne roboty Google nie tylko czytają tekst, ale próbują renderować stronę dokładnie tak, jak widzi ją człowiek. Zablokowanie w pliku robots.txt dostępu do folderów zawierających pliki stylów (CSS) lub skrypty (JavaScript) uniemożliwia Googlebotowi prawidłowe odczytanie układu strony. Jeśli robot nie będzie mógł pobrać tych plików, uzna stronę za niefunkcjonalną lub nieprzystosowaną do telefonów komórkowych, co drastycznie obniży pozycje witryny w wynikach wyszukiwania. Podobna zasada dotyczy zdjęć – zablokowanie folderu z grafikami uniemożliwi ich pozycjonowanie w zakładce Google Grafika.
Plik robots.txt służy wyłącznie do zarządzania ruchem robotów internetowych i wskazywania im, których technicznych zakamarków strony mają nie odwiedzać. Nie jest on jednak narzędziem do trwałego usuwania podstron z wyników wyszukiwania, ponieważ zablokowany adres wciąż może wyświetlić się w Google, jeśli prowadzą do niego linki zewnętrzne. Podczas jego edycji należy zachować absolutną ostrożność, ponieważ jeden drobny błąd w komendzie potrafi natychmiast odciąć roboty Google od całej witryny i wymazać ją z indeksu.
Dzięki naszemu zespołowi specjalistów z 10-letnim stażem w branży, gwarantujemy wysokiej jakości usługi SEO oraz skuteczne strategie pozycjonowania.
Dzięki naszemu zespołowi specjalistów z 10-letnim stażem w branży, gwarantujemy wysokiej jakości usługi SEO oraz skuteczne strategie pozycjonowania.
Krajowy Instytut
Pozycjonowania i Technologii
Jana Henryka Dąbrowskiego 77A
60-529 Poznań
NIP 7812047544
REGON 524498566
KRS 0001020398