Инструменты

Robots.txt Tester — проверка правил сканирования

Бесплатный онлайн-тестер robots.txt: проверяет разрешение на сканирование URL для 16 поисковых и AI-ботов (Googlebot, Bingbot, GPTBot, ClaudeBot), показывает правило и строку.

Robots.txt Tester
Проверка разрешения сканирования URL по правилам robots.txt

Путь или полный URL

Правило:
Группа:
Строка:
Sitemap

Что такое robots.txt и как он работает

robots.txt — текстовый файл в корне сайта (https://example.com/robots.txt), который сообщает поисковым ботам, какие части сайта можно сканировать, а какие — нет. Часть Robots Exclusion Protocol, появившегося в 1994 году и стандартизированного в 2022 как RFC 9309.

Прежде чем сканировать любой URL вашего сайта, бот (Googlebot, Bingbot, GPTBot и десятки других) делает один запрос — за /robots.txt. Если файл существует, бот парсит его и находит правила для своего User-agent. Если нет — сканирует всё по умолчанию.

Важно: robots.txt — рекомендация, не закон. Честные боты (Google, Bing, большинство AI) уважают правила. Скрейперы и спам-боты могут игнорировать. Для настоящей защиты — используйте firewall, HTTP auth, rate limiting.

Анатомия robots.txt: 5 директив

User-agent — кому адресовано правило

Имя бота, к которому применяются следующие правила. Примеры:

  • User-agent: * — все боты
  • User-agent: Googlebot — только Googlebot
  • User-agent: Googlebot-Image — только краулер картинок Google
  • User-agent: GPTBot — только OpenAI для обучения моделей

Бот читает файл сверху вниз, ища группу с наиболее специфическим совпадением. Если в robots.txt есть и User-agent: *, и User-agent: Googlebot — Googlebot будет выполнять только свою группу, игнорируя *.

Disallow — что нельзя

Путь, который бот не должен сканировать. Примеры:

  • Disallow: /admin/ — всё в /admin/ заблокировано
  • Disallow: / — весь сайт заблокирован (редко используется)
  • Disallow: (пустое значение) — ничего не заблокировано, бот может сканировать всё

Allow — исключения из Disallow

Перекрывает Disallow для конкретного поддиректория:

Disallow: /admin/
Allow: /admin/public/

Это заблокирует /admin/*, кроме /admin/public/*. Алгоритм — longest match wins: для URL /admin/public/page побеждает более длинный паттерн Allow: /admin/public/ (14 символов) над коротким Disallow: /admin/ (7 символов).

Sitemap — ссылка на карту сайта

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/sitemap-images.xml

Глобальная директива, не привязанная к User-agent. Помогает ботам быстрее найти sitemap без ожидания регистрации в Search Console. Можно указать несколько.

Crawl-delay — скорость сканирования

Crawl-delay: 10

Интервал в секундах между запросами. Поддерживается Bing, Yandex, DuckDuckBot. Google игнорирует — для Google скорость управляется через Search Console.

Wildcards: * и $

Google, Bing, Yandex поддерживают два спецсимвола для паттернов:

  • * — любая последовательность символов
  • $ — конец URL

Примеры:

Disallow: /*.pdf$       # все PDF-файлы на сайте
Disallow: /*?*          # все URL с query string (ОСТОРОЖНО)
Disallow: /private*/    # любой путь, начинающийся с /private
Disallow: /search/*/results  # reviews в любой категории
Allow: /*.css$          # все CSS файлы (для Googlebot важно)
Allow: /*.js$           # все JS файлы

Осторожно с Disallow: /*?* — заблокирует UTM-ссылки, пагинацию, фильтры. Часто это не нужно, лучше использовать rel="canonical".

Critical: не блокируйте CSS и JS

С 2014 года Google рендерит страницы как Chrome, выполняя JS и загружая CSS. Если вы заблокируете /css/ или /js/, Google увидит голый HTML без стилей — и решит, что сайт сломан (mobile-friendly тест не пройдёт, Core Web Vitals упадут).

Стандартный шаблон для современного сайта:

User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /search?
Disallow: /*?sort=
Disallow: /*?filter=
Allow: /

User-agent: Googlebot
Allow: /*.css$
Allow: /*.js$

Sitemap: https://example.com/sitemap.xml

AI-боты 2026: GPTBot, ClaudeBot, PerplexityBot

С 2023 года крупные AI-компании запустили собственные краулеры для обучения моделей и real-time RAG. Основные:

БотКого представляетЧто делает
GPTBotOpenAIОбучение GPT-моделей
ChatGPT-UserOpenAIReal-time поиск в ChatGPT для ответа
ClaudeBotAnthropicОбучение Claude
Claude-WebAnthropicReal-time поиск в Claude
PerplexityBotPerplexityОбучение + real-time в Perplexity
Google-ExtendedGoogleОбучение Gemini / AI Overviews
Applebot-ExtendedAppleОбучение Apple Intelligence

Стратегии:

  1. Разрешить всё — контент попадает в AI-ответы, получаете AI-трафик (но без контроля над атрибуцией)
  2. Заблокировать обучение, разрешить RAGDisallow: / для GPTBot, ClaudeBot, Google-Extended, Applebot-Extended; оставить ChatGPT-User, Claude-Web, PerplexityBot
  3. Заблокировать всех AIDisallow: / для всех AI-ботов. Риск: ваш сайт не попадёт в AI-ответы

Выбор зависит от бизнеса: медиа и контент-сайты часто блокируют обучение, но разрешают RAG; e-commerce — разрешает всё для большего трафика.

Типичные ошибки

  1. Disallow без слеша в конце. Disallow: /admin блокирует /admin, /admin/page, но также /administrator/. Добавьте /: Disallow: /admin/.
  2. Блокировка CSS/JS. Категорически нельзя. Google накажет снижением в SERP.
  3. Disallow вместо noindex. Блокировка в robots.txt НЕ удаляет страницу из индекса, только запрещает сканирование. Google может держать заблокированный URL в SERP месяцами.
  4. Чувствительность к регистру. Disallow: /Admin/ и Disallow: /admin/ — разные правила. Google чувствителен к регистру в путях.
  5. Комментарии с ошибкой. # comment валидный, // comment — нет. Используйте только #.
  6. Абсолютные URL в Disallow. Неправильно: Disallow: https://example.com/admin/. Правильно: Disallow: /admin/ (относительный путь).

Проверка и мониторинг

Наш тестер проверяет правила локально в браузере — мгновенно и без ограничений. Для production-мониторинга:

  1. Google Search Console → Настройки → robots.txt — показывает статус, ошибки, последние считывания
  2. Bing Webmaster Tools → robots.txt Tester — то же для Bing
  3. Screaming Frog SEO Spider → robots.txt configuration — тест в контексте полного crawl
  4. GitLab / GitHub Action + playwright — CI/CD проверка после каждого деплоя

Частые вопросы (FAQ)

Как robots.txt влияет на индексацию?

robots.txt управляет сканированием, не индексацией. Заблокированная страница может оставаться в индексе, если на неё есть внешние ссылки. Для полного исключения — noindex на странице.

Googlebot vs Google — разница?

Googlebot — основной краулер. Google имеет 15+ специализированных (Googlebot-Image, Googlebot-News, AdsBot-Google и другие) с разными правилами.

Что делает wildcard (*) в patterns?

«Любая последовательность символов». Disallow: /*.pdf$ блокирует все PDF. Поддерживается Google, Bing, Yandex.

Какое правило побеждает: Allow или Disallow?

Longest match wins — самый длинный паттерн побеждает. Стандартизовано в RFC 9309.

Обязателен ли robots.txt?

Нет. Отсутствие = всё разрешено. Нужен для блокировки служебных страниц, дублей, указания Sitemap.

GPTBot, ClaudeBot — блокировать?

Зависит от стратегии. Блокировка обучения (GPTBot, Google-Extended) + разрешение RAG (ChatGPT-User, PerplexityBot) — разумный компромисс.

Как указать Sitemap?

Sitemap: https://example.com/sitemap.xml отдельной строкой. Можно несколько.

Regex в robots.txt?

Нет. Только * и $. Полный regex не поддерживается.

Crawl-delay — что это?

Интервал между запросами для Bing/Yandex. Google игнорирует.

Закрыть проиндексированный сайт — как?

Сначала noindex на страницах, ждать 2-4 недели, потом Disallow в robots.txt. Не наоборот.

Связанные термины