raatools/

Generator Robots.txt

Zbuduj plik robots.txt wizualnym edytorem.

Allow
Disallow
robots.txt
# robots.txt generated by raatools.net

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /private/
Disallow: /api/

Sitemap: https://example.com/sitemap.xml

Czym jest plik robots.txt?

Robots.txt to plik tekstowy umieszczony w katalogu głównym strony (example.com/robots.txt), który mówi robotom wyszukiwarek, które strony lub sekcje mogą lub nie mogą przeszukiwać. Jest częścią Robots Exclusion Protocol — dobrowolnego standardu, którego dobrze zachowujące się roboty (jak Googlebot i Bingbot) przestrzegają, szanując preferencje właścicieli stron.

Plik robots.txt składa się z reguł określających User-agent (który robot dotyczy reguły) oraz dyrektyw Disallow lub Allow (które ścieżki blokować lub zezwalać). Możesz też podać lokalizację swojej mapy witryny XML. Chociaż robots.txt nie może uniemożliwić zdeterminowanym skraperom dostępu do treści, wszystkie główne wyszukiwarki go respektują.

Składnia robots.txt

  • User-agent: * — dotyczy wszystkich robotów. Użyj konkretnych nazw, takich jak Googlebot, dla ukierunkowanych reguł.
  • Disallow: /admin/ — blokuje indeksowanie katalogu /admin/ i wszystkiego w nim.
  • Allow: /admin/public/ — zastępuje szerszy Disallow, aby zezwolić na konkretne ścieżki.
  • Sitemap: https://example.com/sitemap.xml — mówi robotom, gdzie znaleźć mapę witryny.

Jak korzystać z tego narzędzia

Wybierz żądane ustawienia — które roboty atakować, które katalogi blokować i czy dołączyć odwołanie do mapy witryny. Narzędzie generuje prawidłowy plik robots.txt, który możesz pobrać lub skopiować. Waliduje też istniejące pliki robots.txt pod kątem błędów składni i sprzecznych reguł.

Typowe przypadki użycia

Blokuj panele administracyjne i strony logowania przed indeksowaniem. Zapobiegaj indeksowaniu zduplikowanych treści lub cienkich stron. Blokuj konkretne roboty (np. roboty trenujące AI). Zapobiegaj indeksowaniu witryn testowych lub deweloperskich. Ukrywaj prywatne katalogi, które nie powinny pojawiać się w wynikach wyszukiwania. Ogranicz agresywne roboty za pomocą dyrektyw Crawl-delay.

Często zadawane pytania

Czy plik robots.txt chroni prywatne treści?

Nie. Robots.txt to sugestia, nie środek bezpieczeństwa. Każda osoba lub robot może odczytać plik robots.txt i celowo go zignorować. W rzeczywistości złośliwe roboty często sprawdzają robots.txt, aby znaleźć interesujące katalogi do ataku. Dla naprawdę prywatnych treści używaj uwierzytelniania (hasła), kontroli dostępu po stronie serwera lub meta tagu noindex.

Co się dzieje, gdy nie mam pliku robots.txt?

Bez pliku robots.txt roboty zakładają, że mają dostęp do wszystkiego na Twojej stronie. Jest to odpowiednie dla większości witryn. Jeśli robot zażąda robots.txt i otrzyma 404 (nie znaleziono), traktuje to jako pozwolenie na indeksowanie wszystkiego. Twórz plik robots.txt tylko wtedy, gdy potrzebujesz ograniczyć indeksowanie konkretnych sekcji.