Question 1

Як robots.txt впливає на індексацію сторінки?

Accepted Answer

Опосередковано. robots.txt керує **скануванням** (чи може бот скачати сторінку), а не **індексацією** (чи зʼявиться вона у видачі). Парадокс: якщо ви заблокували сторінку в robots.txt, але на неї посилаються з інших сайтів, Google може проіндексувати її без сканування — просто з анкор-тексту. У SERP тоді з'являться рядки «сторінка заблокована robots.txt». Для повного виключення з індексу — `<meta name="robots" content="noindex">` НА самій сторінці (і щоб бот міг її просканувати).

Question 2

Googlebot чи Google — різниця є?

Accepted Answer

Є. Googlebot — основний краулер для веб-пошуку. Але Google має 15+ спеціалізованих ботів: Googlebot-Image (картинки), Googlebot-Video (відео), Googlebot-News (News), AdsBot-Google (перевірка лендингів Ads), Googlebot-Mobile (мобайл), APIs-Google (тестування API). Кожен має власну групу правил: `User-agent: Googlebot-Image
Disallow: /private-images/` заблокує лише картинки, але не текстовий пошук. У нашому тестері ви можете перемикати ботів і бачити різницю.

Question 3

Що робить wildcard (*) у patterns?

Accepted Answer

Wildcard `*` означає «будь-яка послідовність символів». Приклади: `Disallow: /*.pdf$` заблокує всі PDF-файли незалежно від шляху (`$` у кінці — кінець URL). `Disallow: /*?utm_source=*` заблокує всі URL із UTM-міткою. `Disallow: /product/*/reviews` заблокує reviews усередині будь-якого товару. Це стандарт Google (не оригінальний REP 1994 року) — підтримується Google, Bing, Yandex; не підтримується деякими нішевими ботами.

Question 4

Яке правило виграє: Allow чи Disallow?

Accepted Answer

Правило **longest match wins** (найдовший паттерн виграє). Приклад: `Disallow: /admin/` і `Allow: /admin/public/`. Для URL `/admin/public/page`: Disallow (6 символів) vs Allow (14 символів) → Allow виграє, сторінка дозволена. Цей алгоритм стандартизований Google у RFC 9309 (2022). Google Search Console Tester і наш тестер реалізують саме його.

Question 5

Чи обовʼязковий robots.txt для кожного сайту?

Accepted Answer

Ні. Якщо robots.txt відсутній (404), боти вважають, що все дозволено — сайт сканується повністю. Це нормально для маленьких сайтів, де нема чого блокувати. Потрібен robots.txt стає у чотирьох випадках: (1) блокування службових сторінок (`/admin/`, `/wp-login.php`, `/cart/`), (2) закриття дублів (`/*?sort=`, `/*?page=`), (3) вказівка Sitemap для пришвидшеної індексації, (4) блокування AI-ботів (GPTBot, ClaudeBot) для захисту контенту.

Question 6

GPTBot, ClaudeBot, Perplexity — чи треба їх блокувати?

Accepted Answer

Це питання стратегії. AI-компанії використовують ваш контент для навчання LLM і у real-time RAG для відповідей (без посилання на ваш сайт). Плюси блокування: захист інтелектуальної власності, менше неконтрольованого копіювання. Мінуси: якщо заблокуєте Perplexity/ChatGPT Search — ваш сайт не потрапить у AI-відповіді, втратите AI-трафік (до 8% для деяких ніш у 2026). Компроміс: блокувати GPTBot (навчання моделей), залишати ChatGPT-User і PerplexityBot (real-time пошук з атрибуцією).

Question 7

Як вказати Sitemap у robots.txt?

Accepted Answer

Окремим рядком `Sitemap: https://example.com/sitemap.xml`. Можна кілька разів для різних sitemaps (основний, images, videos). Директива працює глобально — не повʼязана з конкретним User-agent блоком. Це найшвидший спосіб повідомити бота про sitemap, не чекаючи на реєстрацію у Search Console. У 2026 році 70% сайтів використовують цю директиву.

Question 8

Можна використовувати Regex у robots.txt?

Accepted Answer

Ні, це не повний regex. Тільки два спецсимволи: `*` (будь-яка послідовність) і `$` (кінець URL). Жодних `[0-9]`, `+`, `?`, альтернатив через `|`. Якщо потрібна складніша логіка — блокуйте через meta robots на самих сторінках або через HTTP 403 на рівні сервера. Наш тестер коректно реалізує стандарт Google без розширень.

Question 9

Crawl-delay у robots.txt — що це?

Accepted Answer

Директива для уповільнення краулера: `Crawl-delay: 10` — бот має чекати 10 секунд між запитами. Підтримується Bing, Yandex, DuckDuckBot. **Google ігнорує цю директиву** — для нього швидкість сканування керується через Search Console → Налаштування сайту → Швидкість сканування. У нашому тестері Crawl-delay приймається без помилок, але не впливає на Googlebot-результат.

Question 10

Що робити, якщо сайт уже проіндексований, а потрібно закрити?

Accepted Answer

НЕ закривайте через robots.txt одразу — Google не зможе просканувати сторінку і не побачить `noindex`. Правильна послідовність: (1) додайте `<meta name="robots" content="noindex">` на сторінку, (2) чекайте 2-4 тижні, доки Google просканує і видалить з індексу, (3) тоді можна додавати `Disallow` у robots.txt. Альтернатива для швидкого видалення: Search Console → Видалення URL (діє 6 місяців).

Бот	Кого представляє	Що робить
`GPTBot`	OpenAI	Навчання GPT-моделей
`ChatGPT-User`	OpenAI	Real-time пошук у ChatGPT для відповіді
`ClaudeBot`	Anthropic	Навчання Claude
`Claude-Web`	Anthropic	Real-time пошук у Claude
`PerplexityBot`	Perplexity	Навчання + real-time у Perplexity
`Google-Extended`	Google	Навчання Gemini / AI Overviews
`Applebot-Extended`	Apple	Навчання Apple Intelligence

Robots.txt Tester — перевірка правил сканування

Що таке robots.txt і як він працює

Анатомія robots.txt: 5 директив

User-agent — кому адресовано правило

Disallow — що не можна

Allow — винятки з Disallow

Sitemap — посилання на карту сайту

Crawl-delay — швидкість сканування

Wildcards: * і $

Critical: не блокуйте CSS і JS

AI-боти 2026: GPTBot, ClaudeBot, PerplexityBot

Типові помилки

Перевірка і моніторинг

Поширені питання (FAQ)

Як robots.txt впливає на індексацію?

Googlebot vs Google — різниця?

Що робить wildcard (*) у patterns?

Яке правило виграє: Allow чи Disallow?

Чи обовʼязковий robots.txt?

GPTBot, ClaudeBot — блокувати?

Як вказати Sitemap?

Regex у robots.txt?

Crawl-delay — що це?

Закрити проіндексований сайт — як?

Пов'язані терміни

Інші інструменти

UTM Decoder — розшифровка та аудит UTM-міток онлайн

Перевірка мета-тегів онлайн — Title, Description, OG | Безкоштовно

UTM Builder — генератор UTM-міток для Google Analytics | Безкоштовно