Индексация
Страницы сайта не попадают в выдачу поисковых систем сами по себе. У каждой поисковой системы есть поисковые роботы, они же поисковые боты, они же краулеры. Это программы, которые "гуляют" по сети и собирают информацию о сайтах в базу данных.
Обычно, вместо термина "база данных" используют слово "индекс". Если поисковый робот посетил страницы сайта и счёл их достаточно качественными, то они попадают в индекс поисковой системы. Таким образом, проиндексированные страницы могут отображаться в поисковой выдаче.
Поисковые системы могут индексировать не только web-страницы, но и файлы разных форматов. Ознакомиться с полным списком форматов можно по ссылкам ниже:
Яндекс
Google
Не все страницы или файлы предназначены для пользователей. Технические разделы или страницы с непубличным контентом необходимо закрывать от индексации.
Настройка индексации
Для управления индексацией существует много инструментов:
- карта сайта;
- файл robots.txt;
- мета-тег robots;
- заголовок X-Robots-Tag;
- Google Indexing API;
- заголовок Last Modified;
- протокол IndexNow:
- протокол HTTP/2.
Только первые два инструмента считаются обязательными для использования, но комплексное применение их всех даст больше шансов на корректную индексацию страниц. Однако, важно следить за тем, что бы эти методы не конфликтовали друг с другом и не вызывали противоречий.
Карта сайта
Это файл, содержащий список страниц сайта, которые должны быть в индексе поисковых систем. Имеет название sitemap.xml и обычно находится в корневой папке сайта.
Запреты и разрешения индексации
Для настройки индексации страниц поисковыми системами чаще всего используют файл robots.txt. Но важно понимать: директивы в данном файле воспринимаются поисковиками как рекомендации. Т.е. поисковые роботы могут просканировать страницу, не смотря на запрет её индексации в robots.txt.
Для полного запрета индексации страниц существуют другие способы, например мета-тег robots, размещающийся в коде страницы. Так, строка кода <meta name="robots" content="noindex, nofollow"> запрещает индексацию и переход по ссылкам.
Ещё один способ запрета индексации, это HTTP-заголовки. Например, X-Robots-Tag: noindex выполняет ту же функцию, что и мета-тег noindex.
Google Indexing API
Это инструмент, который позволяет веб-сайтам напрямую уведомлять Google об изменениях на страницах, таких как добавление, обновление или удаление контента. Это помогает Google быстрее сканировать и индексировать эти страницы, что может улучшить индексация сайта.
Подробнее можно прочитать в справке.
Заголовки Last Modified
Это заголовки ответа, которые указывают на время последнего изменения запрашиваемого ресурса (например, веб-страницы) по мнению сервера. Они используются для того, чтобы клиент поисковый робот мог заранее определить, нужно ли загружать обновленную версию ресурса или можно использовать кэшированную (старую) версию. Подробнее тут.
Протокол IndexNow
Это протокол, принцип работы которого схож с Google Indexing API и Last Modified. Проще говоря он позволяет автоматически сообщать поисковым системам об изменениях на сайте. Используется только Яндексом. Подробнее тут.
Протокол HTTP/2
У протокола передачи гипертекста (HTTP) существует три версии. Первая версия уже устарела и сильно проигрывает в скорости работы второй, а вторая, соответственно проигрывает третьей. Но если третью версию разработали относительно недавно и она не широко распространена, то HTTP/2 существует с 2015 года и его использование можно считать обязательным. Вторую версию протокола поддерживает и Яндекс и Google.
Все эти методы можно использовать комплексно, вместе со стандартным применением robots.txt, но важно следить за тем, что бы эти методы не конфликтовали друг с другом и не вызывали противоречий.
Перед проверкой индексации необходимо узнать какие страницы запрещены к индексации.
Если таковые имеются и индексируются, то существуют способы убрать их из индекса, через Яндекс Вебмастер и Google Search Console.
Проверка индексации
Цель проверки индексации — убедиться, что важные страницы сайта индексируются поисковыми системами, а все прочие не попадают в индекс.
Оценив структуру сайта при помощи парсинга и карты сайта, поняв какие страницы запрещены к индексации, можно наконец приступать к самой проверке индексации. Для этого существует множество платных онлайн-сервисов и программ, позволяющих проводить массовые проверки, но можно проверить индексацию вручную, через сервисы Яндекс Вебмастер и Google Search Console, или при помощи поисковых операторов site и url.
Если какие-то из качественных страниц сайта не индексируются, необходимо подробно проверить их на наличие проблем и разработать план постраничной оптимизации.
Подробнее об индексации можно прочитать в справке:
Google
Яндекс
Важные страницы, отсутствующие в индексе можно принудительно отправить на индексацию, через Яндекс Вебмастер и Google Search Console.