Question 1

Как robots.txt влияет на индексацию страницы?

Accepted Answer

Косвенно. robots.txt управляет **сканированием** (может ли бот скачать страницу), а не **индексацией** (появится ли она в выдаче). Парадокс: если вы заблокировали страницу в robots.txt, но на неё ссылаются с других сайтов, Google может проиндексировать её без сканирования — просто по анкор-тексту. В SERP тогда появятся строки «страница заблокирована robots.txt». Для полного исключения из индекса — `<meta name="robots" content="noindex">` НА самой странице (и чтобы бот мог её просканировать).

Question 2

Googlebot vs Google — разница есть?

Accepted Answer

Есть. Googlebot — основной краулер для веб-поиска. Но Google имеет 15+ специализированных ботов: Googlebot-Image (картинки), Googlebot-Video (видео), Googlebot-News (News), AdsBot-Google (проверка лендингов Ads), Googlebot-Mobile (мобайл), APIs-Google (тестирование API). Каждый имеет собственную группу правил: `User-agent: Googlebot-Image
Disallow: /private-images/` заблокирует только картинки, но не текстовый поиск. В нашем тестере вы можете переключать ботов и видеть разницу.

Question 3

Что делает wildcard (*) в patterns?

Accepted Answer

Wildcard `*` означает «любая последовательность символов». Примеры: `Disallow: /*.pdf$` заблокирует все PDF-файлы независимо от пути (`$` в конце — конец URL). `Disallow: /*?utm_source=*` заблокирует все URL с UTM-меткой. `Disallow: /product/*/reviews` заблокирует reviews внутри любого товара. Это стандарт Google (не оригинальный REP 1994 года) — поддерживается Google, Bing, Yandex; не поддерживается некоторыми нишевыми ботами.

Question 4

Какое правило побеждает: Allow или Disallow?

Accepted Answer

Правило **longest match wins** (самый длинный паттерн побеждает). Пример: `Disallow: /admin/` и `Allow: /admin/public/`. Для URL `/admin/public/page`: Disallow (6 символов) vs Allow (14 символов) → Allow побеждает, страница разрешена. Этот алгоритм стандартизирован Google в RFC 9309 (2022). Google Search Console Tester и наш тестер реализуют именно его.

Question 5

Обязателен ли robots.txt для каждого сайта?

Accepted Answer

Нет. Если robots.txt отсутствует (404), боты считают, что всё разрешено — сайт сканируется полностью. Это нормально для маленьких сайтов, где нечего блокировать. Нужен robots.txt становится в четырёх случаях: (1) блокировка служебных страниц (`/admin/`, `/wp-login.php`, `/cart/`), (2) закрытие дублей (`/*?sort=`, `/*?page=`), (3) указание Sitemap для ускоренной индексации, (4) блокировка AI-ботов (GPTBot, ClaudeBot) для защиты контента.

Question 6

GPTBot, ClaudeBot, Perplexity — надо ли их блокировать?

Accepted Answer

Это вопрос стратегии. AI-компании используют ваш контент для обучения LLM и в real-time RAG для ответов (без ссылки на ваш сайт). Плюсы блокировки: защита интеллектуальной собственности, меньше неконтролируемого копирования. Минусы: если заблокируете Perplexity/ChatGPT Search — ваш сайт не попадёт в AI-ответы, потеряете AI-трафик (до 8% для некоторых ниш в 2026). Компромисс: блокировать GPTBot (обучение моделей), оставлять ChatGPT-User и PerplexityBot (real-time поиск с атрибуцией).

Question 7

Как указать Sitemap в robots.txt?

Accepted Answer

Отдельной строкой `Sitemap: https://example.com/sitemap.xml`. Можно несколько раз для разных sitemaps (основной, images, videos). Директива работает глобально — не связана с конкретным User-agent блоком. Это самый быстрый способ сообщить боту о sitemap, не дожидаясь регистрации в Search Console. В 2026 году 70% сайтов используют эту директиву.

Question 8

Можно использовать Regex в robots.txt?

Accepted Answer

Нет, это не полный regex. Только два спецсимвола: `*` (любая последовательность) и `$` (конец URL). Никаких `[0-9]`, `+`, `?`, альтернатив через `|`. Если нужна более сложная логика — блокируйте через meta robots на самих страницах или через HTTP 403 на уровне сервера. Наш тестер корректно реализует стандарт Google без расширений.

Question 9

Crawl-delay в robots.txt — что это?

Accepted Answer

Директива для замедления краулера: `Crawl-delay: 10` — бот должен ждать 10 секунд между запросами. Поддерживается Bing, Yandex, DuckDuckBot. **Google игнорирует эту директиву** — для него скорость сканирования управляется через Search Console → Настройки сайта → Скорость сканирования. В нашем тестере Crawl-delay принимается без ошибок, но не влияет на Googlebot-результат.

Question 10

Что делать, если сайт уже проиндексирован, а нужно закрыть?

Accepted Answer

НЕ закрывайте через robots.txt сразу — Google не сможет просканировать страницу и не увидит `noindex`. Правильная последовательность: (1) добавьте `<meta name="robots" content="noindex">` на страницу, (2) ждите 2-4 недели, пока Google просканирует и удалит из индекса, (3) тогда можно добавлять `Disallow` в robots.txt. Альтернатива для быстрого удаления: Search Console → Удаление URL (действует 6 месяцев).

Бот	Кого представляет	Что делает
`GPTBot`	OpenAI	Обучение GPT-моделей
`ChatGPT-User`	OpenAI	Real-time поиск в ChatGPT для ответа
`ClaudeBot`	Anthropic	Обучение Claude
`Claude-Web`	Anthropic	Real-time поиск в Claude
`PerplexityBot`	Perplexity	Обучение + real-time в Perplexity
`Google-Extended`	Google	Обучение Gemini / AI Overviews
`Applebot-Extended`	Apple	Обучение Apple Intelligence

Robots.txt Tester — проверка правил сканирования

Что такое robots.txt и как он работает

Анатомия robots.txt: 5 директив

User-agent — кому адресовано правило

Disallow — что нельзя

Allow — исключения из Disallow

Sitemap — ссылка на карту сайта

Crawl-delay — скорость сканирования

Wildcards: * и $

Critical: не блокируйте CSS и JS

AI-боты 2026: GPTBot, ClaudeBot, PerplexityBot

Типичные ошибки

Проверка и мониторинг

Частые вопросы (FAQ)

Как robots.txt влияет на индексацию?

Googlebot vs Google — разница?

Что делает wildcard (*) в patterns?

Какое правило побеждает: Allow или Disallow?

Обязателен ли robots.txt?

GPTBot, ClaudeBot — блокировать?

Как указать Sitemap?

Regex в robots.txt?

Crawl-delay — что это?

Закрыть проиндексированный сайт — как?

Связанные термины

Другие инструменты

UTM Decoder — расшифровка и аудит UTM-меток онлайн

Проверка мета-тегов онлайн — Title, Description, OG | Бесплатно

UTM Builder — генератор UTM-меток для Google Analytics | Бесплатно