Файл robots.txt

Для информирования поисковых систем о запретах и разрешениях индексации, чаще всего используют файл robots.txt, который должен находиться в корневой папке сайта. Пример: https://bzmnn.site/robots.txt

Если у сайта нет данного файла — его необходимо создать, предварительно изучив структуру сайта и выделив те страницы, которые не должны быть проиндексированы. Как правило это технические разделы или те страницы, которые не представляют интереса для пользователей, но по каким-либо причинам от них нельзя избавиться.

Файл robots.txt должен содержать минимум один сгруппированный набор правил (директив). Сами группы могут содержать множество правил, но каждое их них должно быть написано с новой строки.

Всего существует 5 видов правил:

Каждая группа начинается с правила User-agent, указывающего на поискового робота, для которого написана группа правил. Бот Google называется "Googlebot", а у Яндекс — "Yandex". Не обязательно создавать группу для каждого поискового робота, можно создать одну общую, указав в качестве параметра символ астериск:

User-agent: *

Для закрытия страниц от индексации используют директиву disallow. Боты могут сканировать любые страницы, доступ к которым не заблокирован правилом disallow. Обратное правило для открытия — allow, используется, если в закрытом от индексации разделе есть дочерние страницы, которые нужно открыть.

Директива Clean-param служит для закрытия от индексации дублей страниц с get-параметрами. Не является обязательной, вместо неё можно использовать disallow. Подробнее можно прочитать в справке Яндекса. Обратите внимание, что Google не обрабатывает директивы Clean-param.

Правило sitemap используется для указания пути к карте сайта. Не является обязательным.

Хорошей практикой является добавление к директивам комментариев, которые пишутся после символа “#” и действуют до конца строки.

Важно помнить: файл robots.txt чувствителен к регистру и не обрабатывает кириллические адреса.

Проверка файла robots на ошибки

При наличии файла robots.txt , его стоит проверить на корректность директив: запрещена ли индексация для страниц не предназначенных для попадания в индекс и не закрыты ли для индексации важные страницы.

Для проверки файла на ошибки существуют специальные инструменты, интегрированные в сервисы Яндекс Вебмастер и Google Search Console.

Подробнее о файле robots.txt можно почитать в справке:
Google
Яндекс