Інструменти

Robots.txt Tester — перевірка правил сканування

Безкоштовний онлайн-тестер robots.txt: перевіряє дозвіл на сканування URL для 16 пошукових і AI-ботів (Googlebot, Bingbot, GPTBot, ClaudeBot), показує правило і рядок.

Robots.txt Tester
Перевірка дозволу сканування URL за правилами robots.txt

Шлях або повний URL

Правило:
Група:
Рядок:
Sitemap

Що таке robots.txt і як він працює

robots.txt — текстовий файл у корені сайту (https://example.com/robots.txt), який повідомляє пошуковим ботам, які частини сайту можна сканувати, а які — ні. Частина Robots Exclusion Protocol, який зʼявився у 1994 році і у 2022 стандартизований як RFC 9309.

Перш ніж сканувати будь-який URL вашого сайту, бот (Googlebot, Bingbot, GPTBot і десятки інших) робить один запит — за /robots.txt. Якщо файл існує, бот парсить його і знаходить правила для свого User-agent. Якщо ні — сканує все за замовчуванням.

Важливо: robots.txt — рекомендація, не закон. Чесні боти (Google, Bing, більшість AI) поважають правила. Скрейпери і спам-боти можуть ігнорувати. Для справжнього захисту — використовуйте firewall, HTTP auth, rate limiting.

Анатомія robots.txt: 5 директив

User-agent — кому адресовано правило

Ім’я бота, до якого застосовуються наступні правила. Приклади:

  • User-agent: * — всі боти
  • User-agent: Googlebot — тільки Googlebot
  • User-agent: Googlebot-Image — тільки краулер картинок Google
  • User-agent: GPTBot — тільки OpenAI для навчання моделей

Бот читає файл згори вниз, шукаючи групу з найбільш специфічним збігом. Якщо у robots.txt є і User-agent: *, і User-agent: Googlebot — Googlebot буде виконувати тільки свою групу, ігноруючи *.

Disallow — що не можна

Шлях, який бот не має сканувати. Приклади:

  • Disallow: /admin/ — усе в /admin/ заблоковано
  • Disallow: / — увесь сайт заблоковано (рідко використовується)
  • Disallow: (порожнє значення) — нічого не заблоковано, бот може сканувати все

Allow — винятки з Disallow

Перекриває Disallow для конкретного піддиректорія:

Disallow: /admin/
Allow: /admin/public/

Це заблокує /admin/*, крім /admin/public/*. Алгоритм — longest match wins: для URL /admin/public/page виграє довший паттерн Allow: /admin/public/ (14 символів) над коротшим Disallow: /admin/ (7 символів).

Sitemap — посилання на карту сайту

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml

Глобальна директива, не привʼязана до User-agent. Допомагає ботам швидше знайти sitemap без очікування реєстрації у Search Console. Можна вказати кілька.

Crawl-delay — швидкість сканування

Crawl-delay: 10

Інтервал у секундах між запитами. Підтримується Bing, Yandex, DuckDuckBot. Google ігнорує — для Google швидкість керується через Search Console.

Wildcards: * і $

Google, Bing, Yandex підтримують два спецсимволи для паттернів:

  • * — будь-яка послідовність символів
  • $ — кінець URL

Приклади:

Disallow: /*.pdf$       # всі PDF-файли на сайті
Disallow: /*?*          # всі URL із query string (ОБЕРЕЖНО)
Disallow: /private*/    # будь-який шлях, що починається з /private
Disallow: /search/*/results  # reviews в будь-якій категорії
Allow: /*.css$          # всі CSS файли (для Googlebot важливо)
Allow: /*.js$           # всі JS файли

Обережно з Disallow: /*?* — заблокує UTM-посилання, пагінацію, фільтри. Часто це не потрібно, краще використовувати rel="canonical".

Critical: не блокуйте CSS і JS

З 2014 року Google рендерить сторінки як Chrome, виконуючи JS і завантажуючи CSS. Якщо ви заблокуєте /css/ чи /js/, Google побачить голий HTML без стилів — і вирішить, що сайт зламаний (mobile-friendly тест не пройде, Core Web Vitals впадуть).

Стандартний шаблон для сучасного сайту:

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /search?
Disallow: /*?sort=
Disallow: /*?filter=
Allow: /

User-agent: Googlebot
Allow: /*.css$
Allow: /*.js$

Sitemap: https://example.com/sitemap.xml

AI-боти 2026: GPTBot, ClaudeBot, PerplexityBot

З 2023 року великі AI-компанії запустили власні краулери для навчання моделей і real-time RAG. Основні:

БотКого представляєЩо робить
GPTBotOpenAIНавчання GPT-моделей
ChatGPT-UserOpenAIReal-time пошук у ChatGPT для відповіді
ClaudeBotAnthropicНавчання Claude
Claude-WebAnthropicReal-time пошук у Claude
PerplexityBotPerplexityНавчання + real-time у Perplexity
Google-ExtendedGoogleНавчання Gemini / AI Overviews
Applebot-ExtendedAppleНавчання Apple Intelligence

Стратегії:

  1. Дозволити все — контент потрапляє у AI-відповіді, отримуєте AI-трафік (але без контролю над атрибуцією)
  2. Заблокувати навчання, дозволити RAGDisallow: / для GPTBot, ClaudeBot, Google-Extended, Applebot-Extended; залишити ChatGPT-User, Claude-Web, PerplexityBot
  3. Заблокувати все AIDisallow: / для всіх AI-ботів. Ризик: ваш сайт не потрапить у AI-відповіді

Вибір залежить від бізнесу: медіа і контент-сайти часто блокують навчання, але дозволяють RAG; e-commerce — дозволяє все для більшого трафіку.

Типові помилки

  1. Disallow без слешу в кінці. Disallow: /admin блокує /admin, /admin/page, але також /administrator/. Додайте /: Disallow: /admin/.
  2. Блокування CSS/JS. Категорично не можна. Google накаже зниженням у SERP.
  3. Disallow замість noindex. Блокування в robots.txt НЕ видаляє сторінку з індексу, тільки забороняє сканування. Google може тримати заблоковану URL у SERP місяцями.
  4. Чутливість до регістру. Disallow: /Admin/ і Disallow: /admin/ — різні правила. Google чутливий до регістру у шляхах.
  5. Коментарі з помилкою. # comment валідний, // comment — ні. Використовуйте тільки #.
  6. Абсолютні URL у Disallow. Неправильно: Disallow: https://example.com/admin/. Правильно: Disallow: /admin/ (відносний шлях).

Перевірка і моніторинг

Наш тестер перевіряє правила локально у браузері — миттєво і без обмежень. Для production-моніторингу:

  1. Google Search Console → Налаштування → robots.txt — показує статус, помилки, останні зчитування
  2. Bing Webmaster Tools → robots.txt Tester — те саме для Bing
  3. Screaming Frog SEO Spider → robots.txt configuration — тест у контексті повного crawl
  4. GitLab / GitHub Action + playwright — CI/CD перевірка після кожного деплою

Поширені питання (FAQ)

Як robots.txt впливає на індексацію?

robots.txt керує скануванням, не індексацією. Заблокована сторінка може залишатися в індексі, якщо на неї є зовнішні посилання. Для повного виключення — noindex на сторінці.

Googlebot vs Google — різниця?

Googlebot — основний краулер. Google має 15+ спеціалізованих (Googlebot-Image, Googlebot-News, AdsBot-Google тощо) з різними правилами.

Що робить wildcard (*) у patterns?

«Будь-яка послідовність символів». Disallow: /*.pdf$ блокує всі PDF. Підтримується Google, Bing, Yandex.

Яке правило виграє: Allow чи Disallow?

Longest match wins — найдовший паттерн виграє. Стандартизовано у RFC 9309.

Чи обовʼязковий robots.txt?

Ні. Відсутність = все дозволено. Потрібен для блокування службових сторінок, дублів, вказівки Sitemap.

GPTBot, ClaudeBot — блокувати?

Залежить від стратегії. Блокування навчання (GPTBot, Google-Extended) + дозвіл RAG (ChatGPT-User, PerplexityBot) — розумний компроміс.

Як вказати Sitemap?

Sitemap: https://example.com/sitemap.xml окремим рядком. Можна кілька.

Regex у robots.txt?

Ні. Тільки * і $. Повний regex не підтримується.

Crawl-delay — що це?

Інтервал між запитами для Bing/Yandex. Google ігнорує.

Закрити проіндексований сайт — як?

Спочатку noindex на сторінках, чекати 2-4 тижні, потім Disallow у robots.txt. Не навпаки.

Пов'язані терміни