
- Как настроить индексацию сайта через robots.txt?
- Создание и расположение robots.txt
- Основные директивы robots.txt
- User-agent: Кому отдаём команды?
- Disallow: Что запрещаем к индексации?
- Allow: Исключение из запрета
- Sitemap: Где искать карту сайта?
- Crawl-delay: Пауза между запросами (для Яндекса)
- Пример универсального robots.txt
- Проверка и лучшие практики
- Заключение
Как настроить индексацию сайта через robots.txt?
Файл robots.txt — это текстовый файл в корневом каталоге вашего домена, который инструктирует поисковых роботов (например, Яндекс и Google), какие страницы сайта можно сканировать и индексировать, а какие нет. Это не инструмент безопасности, а скорее рекомендация. Правильная настройка robots.txt помогает эффективно управлять индексацией, экономить краулинговый бюджет и фокусировать роботов на важном контенте вашего сайта.
Создание и расположение robots.txt
Файл robots.txt всегда должен находиться по адресу https://вашсайт.ru/robots.txt. Если его нет, создайте текстовый файл с таким именем и загрузите в корневую директорию вашего домена через FTP или файловый менеджер хостинга. Файл должен быть в кодировке UTF-8 без BOM.
Основные директивы robots.txt
Каждое правило в robots.txt начинается с User-agent и содержит инструкции для конкретных роботов.
User-agent: Кому отдаём команды?
Определяет, для каких роботов предназначены следующие за ней директивы:
User-agent: *— для всех роботов (Яндекс, Google и др.).User-agent: Yandex— только для робота Яндекса.User-agent: Googlebot— только для робота Google.
Disallow: Что запрещаем к индексации?
Запрещает сканирование и индексацию указанного URL, файла или каталога. Используйте с большой осторожностью, чтобы случайно не закрыть важные страницы!
Disallow: /— запрещает индексацию всего сайта. (Крайне редко используется, обычно для временного закрытия сайта).Disallow: /admin/— запрещает индексацию папки/admin/и всего ее содержимого.Disallow: /private.html— запрещает конкретный файлprivate.html.Disallow: /*.pdf$— запрещает все файлы с расширением .pdf ($означает конец строки).
Allow: Исключение из запрета
Разрешает индексацию конкретного файла или каталога, даже если он находится внутри запрещенного раздела. Полезно для «выборочной» индексации.
User-agent: *
Disallow: /folder/
Allow: /folder/important-page.html
В этом примере /folder/ запрещен, но important-page.html будет разрешен.
Sitemap: Где искать карту сайта?
Указывает поисковым системам путь к XML-карте вашего сайта, что помогает им быстрее находить и индексировать все важные страницы.
Sitemap: https://вашсайт.ru/sitemap.xml- Можно указать несколько карт сайта.
Crawl-delay: Пауза между запросами (для Яндекса)
Устанавливает минимальную задержку в секундах между запросами робота Яндекса к вашему сайту. Помогает снизить нагрузку на сервер. Google эту директиву практически игнорирует.
User-agent: Yandex
Crawl-delay: 2
Внимание: Слишком большая задержка может замедлить индексацию вашего сайта.
Пример универсального robots.txt
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /admin/
Disallow: /search/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /*?s= # Запрет индексации страниц поиска
User-agent: Yandex
Crawl-delay: 1.5
Sitemap: https://вашсайт.ru/sitemap.xml
Этот пример запрещает индексацию общих служебных разделов, страниц поиска, добавляет задержку для Яндекса и указывает путь к карте сайта.
Проверка и лучшие практики
- Тестирование: После изменений всегда используйте «Инструмент проверки robots.txt» в Google Search Console и «Анализ robots.txt» в Яндекс.Вебмастере, чтобы убедиться в правильности настроек.
- Обновление: Регулярно пересматривайте и обновляйте robots.txt, если меняется структура сайта.
- Безопасность: robots.txt не является инструментом для защиты конфиденциальных данных. Для этого используйте другие средства, например, пароли.
Заключение
Правильная настройка файла robots.txt — это ключевой элемент для успешного продвижения и эффективной работы вашего сайта в поисковых системах. Уделите ему должное внимание, и ваш ресурс будет более качественно индексироваться и ранжироваться в Яндексе и Google.








