Robots.txt Tester — перевірка правил сканування
Безкоштовний онлайн-тестер robots.txt: перевіряє дозвіл на сканування URL для 16 пошукових і AI-ботів (Googlebot, Bingbot, GPTBot, ClaudeBot), показує правило і рядок.
Що таке robots.txt і як він працює
robots.txt — текстовий файл у корені сайту (https://example.com/robots.txt), який повідомляє пошуковим ботам, які частини сайту можна сканувати, а які — ні. Частина Robots Exclusion Protocol, який зʼявився у 1994 році і у 2022 стандартизований як RFC 9309.
Перш ніж сканувати будь-який URL вашого сайту, бот (Googlebot, Bingbot, GPTBot і десятки інших) робить один запит — за /robots.txt. Якщо файл існує, бот парсить його і знаходить правила для свого User-agent. Якщо ні — сканує все за замовчуванням.
Важливо: robots.txt — рекомендація, не закон. Чесні боти (Google, Bing, більшість AI) поважають правила. Скрейпери і спам-боти можуть ігнорувати. Для справжнього захисту — використовуйте firewall, HTTP auth, rate limiting.
Анатомія robots.txt: 5 директив
User-agent — кому адресовано правило
Ім’я бота, до якого застосовуються наступні правила. Приклади:
User-agent: *— всі ботиUser-agent: Googlebot— тільки GooglebotUser-agent: Googlebot-Image— тільки краулер картинок GoogleUser-agent: GPTBot— тільки OpenAI для навчання моделей
Бот читає файл згори вниз, шукаючи групу з найбільш специфічним збігом. Якщо у robots.txt є і User-agent: *, і User-agent: Googlebot — Googlebot буде виконувати тільки свою групу, ігноруючи *.
Disallow — що не можна
Шлях, який бот не має сканувати. Приклади:
Disallow: /admin/— усе в /admin/ заблокованоDisallow: /— увесь сайт заблоковано (рідко використовується)Disallow:(порожнє значення) — нічого не заблоковано, бот може сканувати все
Allow — винятки з Disallow
Перекриває Disallow для конкретного піддиректорія:
Disallow: /admin/
Allow: /admin/public/
Це заблокує /admin/*, крім /admin/public/*. Алгоритм — longest match wins: для URL /admin/public/page виграє довший паттерн Allow: /admin/public/ (14 символів) над коротшим Disallow: /admin/ (7 символів).
Sitemap — посилання на карту сайту
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml
Глобальна директива, не привʼязана до User-agent. Допомагає ботам швидше знайти sitemap без очікування реєстрації у Search Console. Можна вказати кілька.
Crawl-delay — швидкість сканування
Crawl-delay: 10
Інтервал у секундах між запитами. Підтримується Bing, Yandex, DuckDuckBot. Google ігнорує — для Google швидкість керується через Search Console.
Wildcards: * і $
Google, Bing, Yandex підтримують два спецсимволи для паттернів:
*— будь-яка послідовність символів$— кінець URL
Приклади:
Disallow: /*.pdf$ # всі PDF-файли на сайті
Disallow: /*?* # всі URL із query string (ОБЕРЕЖНО)
Disallow: /private*/ # будь-який шлях, що починається з /private
Disallow: /search/*/results # reviews в будь-якій категорії
Allow: /*.css$ # всі CSS файли (для Googlebot важливо)
Allow: /*.js$ # всі JS файли
Обережно з Disallow: /*?* — заблокує UTM-посилання, пагінацію, фільтри. Часто це не потрібно, краще використовувати rel="canonical".
Critical: не блокуйте CSS і JS
З 2014 року Google рендерить сторінки як Chrome, виконуючи JS і завантажуючи CSS. Якщо ви заблокуєте /css/ чи /js/, Google побачить голий HTML без стилів — і вирішить, що сайт зламаний (mobile-friendly тест не пройде, Core Web Vitals впадуть).
Стандартний шаблон для сучасного сайту:
User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /search?
Disallow: /*?sort=
Disallow: /*?filter=
Allow: /
User-agent: Googlebot
Allow: /*.css$
Allow: /*.js$
Sitemap: https://example.com/sitemap.xml
AI-боти 2026: GPTBot, ClaudeBot, PerplexityBot
З 2023 року великі AI-компанії запустили власні краулери для навчання моделей і real-time RAG. Основні:
| Бот | Кого представляє | Що робить |
|---|---|---|
GPTBot | OpenAI | Навчання GPT-моделей |
ChatGPT-User | OpenAI | Real-time пошук у ChatGPT для відповіді |
ClaudeBot | Anthropic | Навчання Claude |
Claude-Web | Anthropic | Real-time пошук у Claude |
PerplexityBot | Perplexity | Навчання + real-time у Perplexity |
Google-Extended | Навчання Gemini / AI Overviews | |
Applebot-Extended | Apple | Навчання Apple Intelligence |
Стратегії:
- Дозволити все — контент потрапляє у AI-відповіді, отримуєте AI-трафік (але без контролю над атрибуцією)
- Заблокувати навчання, дозволити RAG —
Disallow: /для GPTBot, ClaudeBot,Google-Extended,Applebot-Extended; залишитиChatGPT-User,Claude-Web,PerplexityBot - Заблокувати все AI —
Disallow: /для всіх AI-ботів. Ризик: ваш сайт не потрапить у AI-відповіді
Вибір залежить від бізнесу: медіа і контент-сайти часто блокують навчання, але дозволяють RAG; e-commerce — дозволяє все для більшого трафіку.
Типові помилки
- Disallow без слешу в кінці.
Disallow: /adminблокує/admin,/admin/page, але також/administrator/. Додайте/:Disallow: /admin/. - Блокування CSS/JS. Категорично не можна. Google накаже зниженням у SERP.
- Disallow замість noindex. Блокування в robots.txt НЕ видаляє сторінку з індексу, тільки забороняє сканування. Google може тримати заблоковану URL у SERP місяцями.
- Чутливість до регістру.
Disallow: /Admin/іDisallow: /admin/— різні правила. Google чутливий до регістру у шляхах. - Коментарі з помилкою.
# commentвалідний,// comment— ні. Використовуйте тільки#. - Абсолютні URL у Disallow. Неправильно:
Disallow: https://example.com/admin/. Правильно:Disallow: /admin/(відносний шлях).
Перевірка і моніторинг
Наш тестер перевіряє правила локально у браузері — миттєво і без обмежень. Для production-моніторингу:
- Google Search Console → Налаштування → robots.txt — показує статус, помилки, останні зчитування
- Bing Webmaster Tools → robots.txt Tester — те саме для Bing
- Screaming Frog SEO Spider → robots.txt configuration — тест у контексті повного crawl
- GitLab / GitHub Action + playwright — CI/CD перевірка після кожного деплою
Поширені питання (FAQ)
Як robots.txt впливає на індексацію?
robots.txt керує скануванням, не індексацією. Заблокована сторінка може залишатися в індексі, якщо на неї є зовнішні посилання. Для повного виключення — noindex на сторінці.
Googlebot vs Google — різниця?
Googlebot — основний краулер. Google має 15+ спеціалізованих (Googlebot-Image, Googlebot-News, AdsBot-Google тощо) з різними правилами.
Що робить wildcard (*) у patterns?
«Будь-яка послідовність символів». Disallow: /*.pdf$ блокує всі PDF. Підтримується Google, Bing, Yandex.
Яке правило виграє: Allow чи Disallow?
Longest match wins — найдовший паттерн виграє. Стандартизовано у RFC 9309.
Чи обовʼязковий robots.txt?
Ні. Відсутність = все дозволено. Потрібен для блокування службових сторінок, дублів, вказівки Sitemap.
GPTBot, ClaudeBot — блокувати?
Залежить від стратегії. Блокування навчання (GPTBot, Google-Extended) + дозвіл RAG (ChatGPT-User, PerplexityBot) — розумний компроміс.
Як вказати Sitemap?
Sitemap: https://example.com/sitemap.xml окремим рядком. Можна кілька.
Regex у robots.txt?
Ні. Тільки * і $. Повний regex не підтримується.
Crawl-delay — що це?
Інтервал між запитами для Bing/Yandex. Google ігнорує.
Закрити проіндексований сайт — як?
Спочатку noindex на сторінках, чекати 2-4 тижні, потім Disallow у robots.txt. Не навпаки.
Пов'язані терміни
Інші інструменти
UTM Decoder — розшифровка та аудит UTM-міток онлайн
Безкоштовний UTM-decoder: розпарсіть будь-яке посилання — побачте utm_source, utm_medium, utm_campaign, gclid, fbclid та помилки атрибуції GA4.
Перевірка мета-тегів онлайн — Title, Description, OG | Безкоштовно
Безкоштовний онлайн-інструмент для перевірки title, description та Open Graph. Прев'ю в Google desktop і mobile, підрахунок символів і пікселів.
UTM Builder — генератор UTM-міток для Google Analytics | Безкоштовно
Безкоштовний UTM-генератор: створіть коректне посилання з utm_source, utm_medium, utm_campaign. Прев'ю в GA4 та типові значення для Google, Facebook, email.