Robots.txt Tester — проверка правил сканирования
Бесплатный онлайн-тестер robots.txt: проверяет разрешение на сканирование URL для 16 поисковых и AI-ботов (Googlebot, Bingbot, GPTBot, ClaudeBot), показывает правило и строку.
Что такое robots.txt и как он работает
robots.txt — текстовый файл в корне сайта (https://example.com/robots.txt), который сообщает поисковым ботам, какие части сайта можно сканировать, а какие — нет. Часть Robots Exclusion Protocol, появившегося в 1994 году и стандартизированного в 2022 как RFC 9309.
Прежде чем сканировать любой URL вашего сайта, бот (Googlebot, Bingbot, GPTBot и десятки других) делает один запрос — за /robots.txt. Если файл существует, бот парсит его и находит правила для своего User-agent. Если нет — сканирует всё по умолчанию.
Важно: robots.txt — рекомендация, не закон. Честные боты (Google, Bing, большинство AI) уважают правила. Скрейперы и спам-боты могут игнорировать. Для настоящей защиты — используйте firewall, HTTP auth, rate limiting.
Анатомия robots.txt: 5 директив
User-agent — кому адресовано правило
Имя бота, к которому применяются следующие правила. Примеры:
User-agent: *— все ботыUser-agent: Googlebot— только GooglebotUser-agent: Googlebot-Image— только краулер картинок GoogleUser-agent: GPTBot— только OpenAI для обучения моделей
Бот читает файл сверху вниз, ища группу с наиболее специфическим совпадением. Если в robots.txt есть и User-agent: *, и User-agent: Googlebot — Googlebot будет выполнять только свою группу, игнорируя *.
Disallow — что нельзя
Путь, который бот не должен сканировать. Примеры:
Disallow: /admin/— всё в /admin/ заблокированоDisallow: /— весь сайт заблокирован (редко используется)Disallow:(пустое значение) — ничего не заблокировано, бот может сканировать всё
Allow — исключения из Disallow
Перекрывает Disallow для конкретного поддиректория:
Disallow: /admin/
Allow: /admin/public/
Это заблокирует /admin/*, кроме /admin/public/*. Алгоритм — longest match wins: для URL /admin/public/page побеждает более длинный паттерн Allow: /admin/public/ (14 символов) над коротким Disallow: /admin/ (7 символов).
Sitemap — ссылка на карту сайта
Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml
Глобальная директива, не привязанная к User-agent. Помогает ботам быстрее найти sitemap без ожидания регистрации в Search Console. Можно указать несколько.
Crawl-delay — скорость сканирования
Crawl-delay: 10
Интервал в секундах между запросами. Поддерживается Bing, Yandex, DuckDuckBot. Google игнорирует — для Google скорость управляется через Search Console.
Wildcards: * и $
Google, Bing, Yandex поддерживают два спецсимвола для паттернов:
*— любая последовательность символов$— конец URL
Примеры:
Disallow: /*.pdf$ # все PDF-файлы на сайте
Disallow: /*?* # все URL с query string (ОСТОРОЖНО)
Disallow: /private*/ # любой путь, начинающийся с /private
Disallow: /search/*/results # reviews в любой категории
Allow: /*.css$ # все CSS файлы (для Googlebot важно)
Allow: /*.js$ # все JS файлы
Осторожно с Disallow: /*?* — заблокирует UTM-ссылки, пагинацию, фильтры. Часто это не нужно, лучше использовать rel="canonical".
Critical: не блокируйте CSS и JS
С 2014 года Google рендерит страницы как Chrome, выполняя JS и загружая CSS. Если вы заблокируете /css/ или /js/, Google увидит голый HTML без стилей — и решит, что сайт сломан (mobile-friendly тест не пройдёт, Core Web Vitals упадут).
Стандартный шаблон для современного сайта:
User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /search?
Disallow: /*?sort=
Disallow: /*?filter=
Allow: /
User-agent: Googlebot
Allow: /*.css$
Allow: /*.js$
Sitemap: https://example.com/sitemap.xml
AI-боты 2026: GPTBot, ClaudeBot, PerplexityBot
С 2023 года крупные AI-компании запустили собственные краулеры для обучения моделей и real-time RAG. Основные:
| Бот | Кого представляет | Что делает |
|---|---|---|
GPTBot | OpenAI | Обучение GPT-моделей |
ChatGPT-User | OpenAI | Real-time поиск в ChatGPT для ответа |
ClaudeBot | Anthropic | Обучение Claude |
Claude-Web | Anthropic | Real-time поиск в Claude |
PerplexityBot | Perplexity | Обучение + real-time в Perplexity |
Google-Extended | Обучение Gemini / AI Overviews | |
Applebot-Extended | Apple | Обучение Apple Intelligence |
Стратегии:
- Разрешить всё — контент попадает в AI-ответы, получаете AI-трафик (но без контроля над атрибуцией)
- Заблокировать обучение, разрешить RAG —
Disallow: /для GPTBot, ClaudeBot,Google-Extended,Applebot-Extended; оставитьChatGPT-User,Claude-Web,PerplexityBot - Заблокировать всех AI —
Disallow: /для всех AI-ботов. Риск: ваш сайт не попадёт в AI-ответы
Выбор зависит от бизнеса: медиа и контент-сайты часто блокируют обучение, но разрешают RAG; e-commerce — разрешает всё для большего трафика.
Типичные ошибки
- Disallow без слеша в конце.
Disallow: /adminблокирует/admin,/admin/page, но также/administrator/. Добавьте/:Disallow: /admin/. - Блокировка CSS/JS. Категорически нельзя. Google накажет снижением в SERP.
- Disallow вместо noindex. Блокировка в robots.txt НЕ удаляет страницу из индекса, только запрещает сканирование. Google может держать заблокированный URL в SERP месяцами.
- Чувствительность к регистру.
Disallow: /Admin/иDisallow: /admin/— разные правила. Google чувствителен к регистру в путях. - Комментарии с ошибкой.
# commentвалидный,// comment— нет. Используйте только#. - Абсолютные URL в Disallow. Неправильно:
Disallow: https://example.com/admin/. Правильно:Disallow: /admin/(относительный путь).
Проверка и мониторинг
Наш тестер проверяет правила локально в браузере — мгновенно и без ограничений. Для production-мониторинга:
- Google Search Console → Настройки → robots.txt — показывает статус, ошибки, последние считывания
- Bing Webmaster Tools → robots.txt Tester — то же для Bing
- Screaming Frog SEO Spider → robots.txt configuration — тест в контексте полного crawl
- GitLab / GitHub Action + playwright — CI/CD проверка после каждого деплоя
Частые вопросы (FAQ)
Как robots.txt влияет на индексацию?
robots.txt управляет сканированием, не индексацией. Заблокированная страница может оставаться в индексе, если на неё есть внешние ссылки. Для полного исключения — noindex на странице.
Googlebot vs Google — разница?
Googlebot — основной краулер. Google имеет 15+ специализированных (Googlebot-Image, Googlebot-News, AdsBot-Google и другие) с разными правилами.
Что делает wildcard (*) в patterns?
«Любая последовательность символов». Disallow: /*.pdf$ блокирует все PDF. Поддерживается Google, Bing, Yandex.
Какое правило побеждает: Allow или Disallow?
Longest match wins — самый длинный паттерн побеждает. Стандартизовано в RFC 9309.
Обязателен ли robots.txt?
Нет. Отсутствие = всё разрешено. Нужен для блокировки служебных страниц, дублей, указания Sitemap.
GPTBot, ClaudeBot — блокировать?
Зависит от стратегии. Блокировка обучения (GPTBot, Google-Extended) + разрешение RAG (ChatGPT-User, PerplexityBot) — разумный компромисс.
Как указать Sitemap?
Sitemap: https://example.com/sitemap.xml отдельной строкой. Можно несколько.
Regex в robots.txt?
Нет. Только * и $. Полный regex не поддерживается.
Crawl-delay — что это?
Интервал между запросами для Bing/Yandex. Google игнорирует.
Закрыть проиндексированный сайт — как?
Сначала noindex на страницах, ждать 2-4 недели, потом Disallow в robots.txt. Не наоборот.
Связанные термины
Другие инструменты
UTM Decoder — расшифровка и аудит UTM-меток онлайн
Бесплатный UTM-decoder: распарсите любую ссылку — увидите utm_source, utm_medium, utm_campaign, gclid, fbclid и ошибки атрибуции GA4.
Проверка мета-тегов онлайн — Title, Description, OG | Бесплатно
Бесплатный онлайн-инструмент проверки title, description и Open Graph. Превью в Google desktop и mobile, подсчёт символов и пикселей.
UTM Builder — генератор UTM-меток для Google Analytics | Бесплатно
Бесплатный UTM-генератор: создайте корректную ссылку с utm_source, utm_medium, utm_campaign. Превью в GA4 и типовые значения для Google, Facebook, email.