Файл robots.txt
Для информирования поисковых систем о запретах и разрешениях индексации, чаще всего используют файл robots.txt, который должен находиться в корневой папке сайта. Пример: https://bzmnn.site/robots.txt
Если у сайта нет данного файла — его необходимо создать, предварительно изучив структуру сайта и выделив те страницы, которые не должны быть проиндексированы. Как правило это технические разделы или те страницы, которые не представляют интереса для пользователей, но по каким-либо причинам от них нельзя избавиться.
Файл robots.txt должен содержать минимум один сгруппированный набор правил (директив). Сами группы могут содержать множество правил, но каждое их них должно быть написано с новой строки.
Всего существует 5 видов правил:
- User-agent
- Disallow
- Allow
- Clean-param
- Sitemap
Каждая группа начинается с правила User-agent, указывающего на поискового робота, для которого написана группа правил. Бот Google называется "Googlebot", а у Яндекс — "Yandex". Не обязательно создавать группу для каждого поискового робота, можно создать одну общую, указав в качестве параметра символ астериск:
User-agent: * Для закрытия страниц от индексации используют директиву disallow. Боты могут сканировать любые страницы, доступ к которым не заблокирован правилом disallow. Обратное правило для открытия — allow, используется, если в закрытом от индексации разделе есть дочерние страницы, которые нужно открыть.
Директива Clean-param служит для закрытия от индексации дублей страниц с get-параметрами. Не является обязательной, вместо неё можно использовать disallow. Подробнее можно прочитать в справке Яндекса. Обратите внимание, что Google не обрабатывает директивы Clean-param.
Правило sitemap используется для указания пути к карте сайта. Не является обязательным.
Хорошей практикой является добавление к директивам комментариев, которые пишутся после символа “#” и действуют до конца строки.
Важно помнить: файл robots.txt чувствителен к регистру и не обрабатывает кириллические адреса.
Проверка файла robots на ошибки
При наличии файла robots.txt , его стоит проверить на корректность директив: запрещена ли индексация для страниц не предназначенных для попадания в индекс и не закрыты ли для индексации важные страницы.
Для проверки файла на ошибки существуют специальные инструменты, интегрированные в сервисы Яндекс Вебмастер и Google Search Console.
Подробнее о файле robots.txt можно почитать в справке:
Google
Яндекс