Как настроить индексацию сайта через robots.txt?

Файл robots.txt — это текстовый файл в корневом каталоге вашего домена, который инструктирует поисковых роботов (например, Яндекс и Google), какие страницы сайта можно сканировать и индексировать, а какие нет. Это не инструмент безопасности, а скорее рекомендация. Правильная настройка robots.txt помогает эффективно управлять индексацией, экономить краулинговый бюджет и фокусировать роботов на важном контенте вашего сайта.

Создание и расположение robots.txt

Файл robots.txt всегда должен находиться по адресу https://вашсайт.ru/robots.txt. Если его нет, создайте текстовый файл с таким именем и загрузите в корневую директорию вашего домена через FTP или файловый менеджер хостинга. Файл должен быть в кодировке UTF-8 без BOM.

Основные директивы robots.txt

Каждое правило в robots.txt начинается с User-agent и содержит инструкции для конкретных роботов.

User-agent: Кому отдаём команды?

Определяет, для каких роботов предназначены следующие за ней директивы:

User-agent: * — для всех роботов (Яндекс, Google и др.).
User-agent: Yandex — только для робота Яндекса.
User-agent: Googlebot — только для робота Google.

Disallow: Что запрещаем к индексации?

Запрещает сканирование и индексацию указанного URL, файла или каталога. Используйте с большой осторожностью, чтобы случайно не закрыть важные страницы!

Disallow: / — запрещает индексацию всего сайта. (Крайне редко используется, обычно для временного закрытия сайта).
Disallow: /admin/ — запрещает индексацию папки /admin/ и всего ее содержимого.
Disallow: /private.html — запрещает конкретный файл private.html.
Disallow: /*.pdf$ — запрещает все файлы с расширением .pdf ($ означает конец строки).

Allow: Исключение из запрета

Разрешает индексацию конкретного файла или каталога, даже если он находится внутри запрещенного раздела. Полезно для «выборочной» индексации.

User-agent: *
Disallow: /folder/
Allow: /folder/important-page.html

В этом примере /folder/ запрещен, но important-page.html будет разрешен.

Sitemap: Где искать карту сайта?

Указывает поисковым системам путь к XML-карте вашего сайта, что помогает им быстрее находить и индексировать все важные страницы.

Sitemap: https://вашсайт.ru/sitemap.xml
Можно указать несколько карт сайта.

Crawl-delay: Пауза между запросами (для Яндекса)

Устанавливает минимальную задержку в секундах между запросами робота Яндекса к вашему сайту. Помогает снизить нагрузку на сервер. Google эту директиву практически игнорирует.

User-agent: Yandex
Crawl-delay: 2

Внимание: Слишком большая задержка может замедлить индексацию вашего сайта.

Пример универсального robots.txt

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /admin/
Disallow: /search/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /*?s= # Запрет индексации страниц поиска

User-agent: Yandex
Crawl-delay: 1.5

Sitemap: https://вашсайт.ru/sitemap.xml

Этот пример запрещает индексацию общих служебных разделов, страниц поиска, добавляет задержку для Яндекса и указывает путь к карте сайта.

Проверка и лучшие практики

Тестирование: После изменений всегда используйте «Инструмент проверки robots.txt» в Google Search Console и «Анализ robots.txt» в Яндекс.Вебмастере, чтобы убедиться в правильности настроек.
Обновление: Регулярно пересматривайте и обновляйте robots.txt, если меняется структура сайта.
Безопасность: robots.txt не является инструментом для защиты конфиденциальных данных. Для этого используйте другие средства, например, пароли.

Заключение

Правильная настройка файла robots.txt — это ключевой элемент для успешного продвижения и эффективной работы вашего сайта в поисковых системах. Уделите ему должное внимание, и ваш ресурс будет более качественно индексироваться и ранжироваться в Яндексе и Google.