Специалисты Google объяснили, почему не все URL из Sitemap индексируются

Наличие файла Sitemap не является гарантией того, что поисковая система проиндексирует все URL, находящиеся в нем. Объяснения по этому поводу были обнародованы в издании Search Engine Roundtable, пригласившем представителя Google Гэри Илльеса (Gary Illyes) прокомментировать вопросы вебмастеров по этому поводу.

Илльес взял в качестве примера вопрос отраслевого специалиста, заданный на специализированном форуме в Группах Google. Суть вопроса примерно такова:

Вебмастер создал файл Sitemap, но только незначительная часть внесенных в него URL-ов страниц была проиндексирована. В общей сложности в файле около 40 тысяч страниц, а поисковик проиндексировал лишь 100. Решив, что это случилось в результате какого-то сбоя, вебмастер повторно сообщил Google о наличии файла Sitemap, однако никаких изменений не последовало. Поскольку файл Sitemap создан корректно, у специалиста возникло недоумение, чем вызван «отказ» добавлять указанные страницы в индекс. Свой вопрос он опубликовал на странице.

В ответной публикации Гэри Илльес рассказал, что корректность составления файла Sitemap не является гарантией того, что все указанные в нем страницы попадут в индекс Google. Пользователи должны расценивать файл Sitemap, как вспомогательное средство, наличие которого позволяет ускорить обнаружение контента на сайте. Страницы будут проиндексированы и без файла Sitemap он необходим лишь для того, чтобы ускорить работу краулеров.

Другими словами, Sitemap лишь уменьшает время на индексирование алгоритмами сканирования Googlebot, но не задает им указание, какие URL-ы индексировать. Гэри Илльес подчеркнул, что алгоритмы поисковика могут «отсеять» некоторые страницы, внесенные в  файл Sitemap. Специалист Google не предоставил подробного объяснения, по какому принципу отбраковываются адреса, но указал, что обычно исключаются страницы, содержащие малозначительный контент.

К этому можно добавить, что специалисты поисковой службы Яндекс также выступили с подобным заявлением. В нем утверждается, что Яндекс использует примерно такой же подход, как в Google. Яндекс учитывает файл Sitemap, но его наличие не гарантирует добавление в индекс поисковика всех адресов, указанных в нем.

К этому стоит добавить, что с апреля 2013 года Яндекс предоставил для веб-мастеров сервис для работы с файлами Sitemap, а также возможность просматривать историю индексирования сайтов. Для ознакомления с этой услугой можно перейти на страницу API Яндекс.Вебмастера, расположенную по адресу.

Благодарственные письма