Краулинговый бюджет — это метрика тщеславия. Ваша цель должна заключаться в том, чтобы помочь роботу Googlebot быстро сканировать важные URL-адреса сразу же после их публикации или обновления.
Нет никаких гарантий, что Googlebot просканирует каждый доступный ему URL-адрес на вашем сайте. Наоборот, на подавляющем большинстве сайтов отсутствует значительная часть страниц.
На самом деле, у Google нет ресурсов для сканирования каждой найденной в сети страницы. Все URL-адреса, обнаруженные, но еще не просканированные Googlebot, а также URL-адреса, которые он намерен повторно обойти, имеют приоритет в очереди сканирования.
Это означает, что Googlebot сканирует только те страницы, которым присвоен высокий приоритет. А поскольку очередь сканирования является динамической, она постоянно меняется по мере обработки новых URL-адресов. И не все URL-адреса занимают места в конце очереди.
Вопрос: как убедиться, что URL-адреса вашего сайта имеют высокий приоритет в сканировании, и избежать ожидания в очереди?
Сканирование – критически важный фактор для SEO
Чтобы контент стал видимым в поисковой выдаче, Googlebot должен его просканировать.
Однако преимущества заключаются в более тонких нюансах, поскольку страница сканируется быстрее, когда она:
- Создана, тогда новый контент быстрее появится в Google. Это особенно важно для стратегий с ограниченным во времени контентом или уникальным контентом, публикующимся впервые.
- Обновлена, тогда обновленный контент может быстрее начать влиять на рейтинг. Это особенно важно как для стратегии повторной публикации контента, так и для технических SEO-тактик.
Таким образом, сканирование необходимо прежде всего для органического трафика. Однако многие считают, что краулинговая оптимизация полезна только для крупных сайтов.
Мы считаем, оптимизация сканирования полезна для каждого сайта, и дело вовсе не в его размере, частоте обновления контента или наличии таких исключений в Google Search Console, как «Найдено — в настоящее время не проиндексировано». Неправильное представление о ценности такой оптимизации, на наш взгляд, вызвано бессмысленными измерениями метрик, особенно когда речь идет о краулинговом бюджете.
Краулинговый бюджет не имеет значения
Достаточно часто оценка краулинга производится на основе краулингового бюджета. Это количество URL-адресов, которые Googlebot просканирует за определенное время на определенном сайте.
Google заявляет, что это зависит от 2-х факторов:
- Ограничение скорости сканирования (или то, что может сканировать Googlebot): скорость, с которой Googlebot может извлекать ресурсы веб-сайта, не влияя на его производительность. По сути, наличие сверхчувствительного сервера приводит к более высокой скорости сканирования.
- Потребность в сканировании (или то, что Googlebot хочет сканировать): количество URL-адресов, которые Googlebot посещает за одно сканирование, исходя из потребности в индексации (первичной / повторной). На наличие потребности влияет как популярность сайта, так и устаревший контент, размещенный на нем.
Как только Googlebot «израсходует» свой краулинговый бюджет, он перестанет сканировать сайт.
Google никогда не предоставляет данные о краулинговом бюджете. Максимум на что можно рассчитывать - это отображение общего количества запросов на сканирование в отчете о статистике обходов Google Search Console.
Так много SEO-специалистов, в том числе и мы, приложили огромные усилия, чтобы попытаться вывести формулу краулингового бюджета.
Специалисты часто говорят о следующих шагах:
- Определите, сколько сканируемых страниц на вашем сайте: мы часто рекомендуем просмотреть количество URL-адресов в карте сайта XML или запустить безлимитный сканер.
- Рассчитайте среднее количество сканирований в день, экспортировав отчет Google Search Console «Статистика сканирования» (также это можно сделать на основе запросов Googlebot в лог-файлах).
- Разделите количество страниц на среднее число обходов в день. Часто говорят, что если полученный результат выше 10, краулинговый бюджет нуждается в оптимизации.
Однако этот процесс достаточно сложен и проблематичен.
Не только потому, что, как нам кажется, каждый URL-адрес сканируется один раз: на самом деле некоторые из них сканируются несколько раз, а другие — ни разу. Не только потому, что, как мы предполагаем, один обход равен одной странице. Бывает так, что одной странице может потребоваться несколько обходов URL-адресов для получения ресурсов (JS, CSS и т. д.), необходимых для ее загрузки.
Самая важная причина в том, что сводя бюджет к расчетному показателю, такому как среднее количество обходов в день, он становится ничем иным, как метрикой тщеславия. Любая тактика, направленная на «оптимизацию краулингового бюджета» (т. е. постоянное увеличение общего объема краулинга) — пустая затея.
Почему вы должны заботиться об увеличении общего числа обходов, если данный показатель используется, в том числе, для URL-адресов, не имеющих значения или не изменившихся с момента последнего сканирования? Такие обходы никак не влияют на увеличение эффективности SEO-стратегии.
Кроме того, любой, кто когда-либо просматривал статистику обходов, знает, что она колеблется, часто довольно сильно, изо дня в день в зависимости от множества факторов. Эти колебания могут как соотноситься, так и быть никак не связанными с быстрой (пере-) индексацией релевантных для SEO страниц.
Увеличение или уменьшение количества просканированных URL-адресов по своей сути не является ни хорошим, ни плохим показателем.
Эффективность сканирования — это SEO-KPI
В отношении страницы, которую вы хотите проиндексировать, внимание должно быть сосредоточено не на том, была ли она просканирована, а на том, как быстро она была просканирована после публикации или внесения серьезных изменений.
По сути, цель состоит в том, чтобы свести к минимуму время между созданием или обновлением релевантной для SEO страницы и последующим её сканированием Googlebot. Я называю эту временную задержку эффективностью сканирования.
Идеальный способ измерить эффективность сканирования — вычислить разницу между датой и временем создания или обновления базы данных и последующим сканированием URL-адреса роботом по данным файлов журнала сервера.
Если получить доступ к этим точкам данных сложно, вы также можете использовать в качестве прокси-сервера дату последнего изменения XML-карты сайта и URL-адреса запроса в Google Search Console URL Inspection API по его последнему статусу сканирования (до 2000 запросов в день).
Кроме того, с помощью URL Inspection API вы можете отслеживать изменения в статусе индексации для расчета её эффективности по вновь созданным URL-адресам, которая представляет собой разницу между публикацией и успешным индексированием.
Краулинг без влияния на статус индексации или обработки обновления страницы контента — это пустая трата времени.
Эффективность сканирования — важный показатель с точки зрения SEO, потому что по мере его снижения ваша аудитория может увидеть больше важного контента в Google. Вы также можете использовать его для диагностики SEO-проблем. Анализируйте шаблоны URL-адресов, чтобы понять, насколько быстро сканируется контент, размещенный в различных разделах вашего сайта, и оказывает ли это влияние на органические результаты.
Если вы понимаете, что боту Google потребуется несколько часов, дней или недель, чтобы просканировать и проиндексировать недавно созданный или обновленный контент на вашем сайте, что вы можете с этим сделать?
7 шагов для оптимизации сканирования
Краулинговая оптимизация заключается в том, чтобы помочь поисковому роботу быстро сканировать важные URL-адреса, когда они публикуются. Ниже мы расскажем об основных шагах, способствующих такой оптимизации.
Обеспечение быстрого и исправного отклика сервера
Высокопроизводительный сервер имеет решающее значение. Googlebot замедлит процесс или перестанет сканировать вовсе, в следующих случаях:
- Сканирование сайта влияет на его производительность. Например, чем больше Google сканирует, тем медленнее время ответа сервера.
- Сервер отвечает со значительным количеством ошибок или тайм-аутов соединения.
С другой стороны, повышение скорости загрузки сайта, позволяющее обслуживать большее количество страниц, повлияет на то, что Googlebot просканирует больше URL-адресов. Это дополнительное преимущество, помимо скорости страницы, является важным фактором воздействия на пользовательский опыт и ранжирование сайта.
Если вы еще этого не сделали, используйте возможность поддержки HTTP/2, так как это позволяет запрашивать большее количество URL-адресов с прежней нагрузкой на серверы.
Однако корреляция между производительностью и объемом сканирования невелика. Как только вы преодолеете этот порог, любое дополнительное повышение производительности сервера вряд ли будет коррелировать с увеличением скорости сканирования.
Как проверить состояние сервера
Отчет статистики сканирования Google Search Console:
- Статус хоста: везде стоят зеленые галочки.
- Ошибки 5xx: составляют менее 1%.
- График времени ответа сервера: в пределах 300 миллисекунд.
2. Очистка малоценного контента
Если значительный объем контента на вашем сайте устарел, дублируется или имеет низкое качество, есть шанс, что вы проиграете конкуренцию за активность сканирования. В этом случае будут происходить задержки в индексации нового и повторной индексации обновленного контента. О новых рекомендациях YMYL и фактах о E-A-T для получения качественного контента мы писали ранее.
Плюс ко всему, регулярная очистка малоценного контента уменьшает раздувание индекса и каннибализацию ключевых слов: это полезно для пользователей и, одновременно, не составляет большого труда для SEO.
Если на вашем сайте есть страница, которую можно рассматривать как замену в части эквивалентного содержания, объединяйте контент с использованием перенаправления 301; такой шаг будет стоить вдвое дороже в части сканирования, однако это достойная жертва ради получения ссылочного веса.
Если эквивалентного контента на сайте нет, использование 301 приведет только к возникновению ошибки 404. Удалите такой контент, используя код статуса 410 (наилучший вариант) или 404 (запасной вариант), чтобы отправить в Google сильный сигнал и предотвратить сканирование ненужных URL-адресов в будущем.
Как проверить наличие малоценного контента
Количество URL-адресов в отчетах Google Search Console сообщает об исключениях «Просканировано — в настоящее время не проиндексировано». Если этот показатель высок, проанализируйте предоставленные шаблоны каталогов или других показателей.
3. Проверка элементов управления индексацией
Канонические ссылки (Rel=canonical) — это отличный способ избежать проблем с индексацией. Однако, если на них чрезмерно полагаться, в конечном итоге возникают проблемы со сканированием, поскольку каждый канонический URL-адрес требует проведения как минимум двух обходов поисковым ботом.
Точно так же директивы noindex полезны для уменьшения раздувания индекса, однако их большое количество может негативно сказаться на сканировании, поэтому используйте их только при необходимости.
В любом случае, спрашивайте себя:
- Являются ли директивы индексации оптимальным способом решения существующей SEO-проблемы?
- Можно ли объединить, удалить или заблокировать некоторые адреса URL в файле robots.txt?
Если вы используете какие-либо из элементов управления, подумайте об AMP как долгосрочном техническом решении.
Благодаря обновлению интерфейса страницы, ориентированному на основные веб-показатели, и включению страниц без AMP во все процессы Google, вы можете проверить, соответствует ли ваш сайт требованиям к скорости, и оценить, стоит ли AMP проведения двойного сканирования.
Как проверить наличие зависимости от элементов управления индексацией
Количество URL-адресов в отчете о покрытии Google Search Console, попавших в категорию исключений без явной причины:
- Альтернативная страница с соответствующим каноническим тегом.
- Исключено тегом noindex.
- Дублирование, Google выбрал иной канонический индекс, чем пользователь.
- Дублирование, созданный URL не выбран в качестве канонического.
4. Подсказка для поисковых роботов: что сканировать и когда
Важным инструментом, помогающим поисковому роботу определять приоритеты важных URL-адресов сайтов и сообщать об обновлении страниц, является карта сайта в формате XML.
Для эффективного управления процессом сканирования убедитесь, что:
- добавлены только индексируемые и SEO-ценные URL-адреса (код статуса 200, канонические страницы с оригинальным контентом с тегом robots «index,follow»);
- в отдельные URL-адреса и карту сайта добавлены точные временные метки <lastmod>, установленные как можно ближе к реальному времени.
Каждый раз при сканировании Google не проверяет карту сайта. Поэтому всякий раз, когда вы вносите в неё обновления, сообщайте об этом Google. Для этого отправьте запрос GET в браузере или в командной строке:
Дополнительно укажите пути к карте сайта в файле robots.txt и отправьте его в Google Search Console с помощью специального отчета (sitemaps report).
Как правило, Google сканирует URL-адреса, прописанные в картах сайта, чаще, чем другие. Но помните: даже если небольшой процент URL-адресов в вашей карте сайта имеет низкое качество, Googlebot может отказаться использовать их в процессе сканирования.
XML-карты сайта и ссылки добавляют URL-адреса в обычную очередь сканирования. Существует также приоритетная очередь, и чтобы туда попасть, можно воспользоваться двумя проверенными способами.
Во-первых, вы можете отправить URL-адреса в Google Indexing API в случае, если у вас есть объявления о вакансиях или живые видео. Для привлечения внимания Microsoft Bing или Яндекс вы можете использовать API IndexNow, который подходит для любого URL-адреса. Однако в моем собственном тестировании такой подход оказал ограниченное влияние на сканирование URL-адресов.
Во-вторых, вы можете вручную запросить индексацию после проверки URL-адреса в Search Console. Помните: существует суточный лимит на обход страниц (10 URL-адресов), и сканирование может занять несколько часов. Лучше всего рассматривать такой способ как временный, пока вы разбираетесь и ищете корень вашей проблемы со сканированием.
Как проверить выполнение обхода поисковым роботом
В Google Search Console XML-карта сайта была недавно прочитана, статус изменен на «Успешно».
5. Подсказка для поисковых роботов: что не нужно сканировать
Некоторые страницы могут быть важны для пользователей или функциональности сайта, но вы не хотите, чтобы они отображались в результатах поиска. Не позволяйте таким URL-маршрутам отвлекать поисковых роботов с помощью размещения запрета на сканирование в файле robots.txt. Такой запрет может включать:
- API и CDN. Например, если вы являетесь клиентом Cloudflare, необходимо запретить сканирование папки /cdn-cgi/, добавленной на ваш сайт.
- Маловажные изображения, скрипты или файлы стилей, если страницы, загруженные без этих элементов, незначительно пострадали от потери.
- Функциональные страницы, например, корзина покупок.
- Множественные пробелы, созданные, например, страницами календаря.
- Страницы параметров из фасетной навигации. Особенно те, которые фильтруют (например, ?price-range=20-50), переупорядочивают (например, ?sort=) или выполняют поиск (например, ?q=), поскольку каждая отдельная комбинация принимается сканерами за отдельную страницу.
Будьте внимательны, чтобы полностью не заблокировать параметр пагинации. Сканируемая разбивка на страницы до определенного момента необходима поисковому роботу в целях обнаружения контента и обработки внутренних ссылок.
Приступая к отслеживанию, вместо использования тегов UTM, основанных на параметрах (также известных как «?»), используйте якоря (также известные как «#»). Он предлагает те же преимущества по отчетности в Google Analytics, но не подлежит сканированию.
Как убедиться, что поисковый робот не сканировал страницы
Для этого необходимо проанализировать URL-адреса, имеющие статус «Проиндексировано - не отправлено в карту сайта» в Google Search Console. Отбросив первые несколько страниц пагинации, какие еще адреса вы сможете обнаружить? Должны ли они быть включены в карту сайта XML? Заблокированы или разрешены для сканирования?
Кроме того, проанализируйте список адресов со статусом «Обнаружено — в настоящее время не проиндексировано» — блокировка в robots.txt любых URL-адресов, не представляющих ценности для Google. Чтобы выйти на новый уровень, проведите анализ всех обходов Googlebot, указанных в файлах журнала сервера, на предмет наличия бесполезных адресов.
6. Выбор релевантных ссылок
Обратные ссылки очень важны для многих SEO-аспектов, и краулинг при этом не является исключением. Однако получение внешних ссылок для определенных типов страниц может стать непростой задачей: мы говорим о внутренних страницах, таких как продукты, категории нижних уровней архитектуры сайта или статьи.
С другой стороны, релевантные внутренние ссылки имеют следующие характеристики:
- технически масштабируемы;
- являются мощными сигналами для Googlebot в определении приоритетных страниц для сканирования;
- особенно эффективны для глубокого сканирования страниц.
Навигационные цепочки, блоки связанного контента, быстрые фильтры и использование хорошо подобранных тегов — все это значительно повышает эффективность сканирования. Поскольку все это составляет контент, критически важный для SEO, убедитесь, что такие внутренние ссылки не зависят от JavaScript, и используйте стандартную ссылку <a> для сканирования.
Помните, что такие внутренние ссылки должны иметь реальную ценность, в том числе и для пользователя.
Как проверить наличие релевантных ссылок
Запустите сканирование сайта вручную с помощью инструмента Screaming Frog SEO Spider (SEO-краулер), чтобы найти:
- Список потерянных URL-адресов;
- Внутренние ссылки, заблокированные файлом robots.txt;
- Внутренние ссылки с любым кодом статуса, отличным от 200;
- Процент неиндексируемых URL-адресов с внутренними ссылками.
7. Аудит оставшихся проблем со сканированием
Если все вышеперечисленные мероприятия завершены, а эффективность сканирования все еще остается недостаточной, необходимо провести тщательный аудит.
Начните с анализа любых оставшихся исключений Google Search Console, это поможет выявить дополнительные проблемы со сканированием. Как только они будут решены, используйте инструмент ручного сканирования, чтобы обойти все страницы в структуре сайта, как это сделал бы поисковый робот. Сопоставьте полученные данные с файлами журналов, сузив их до IP-адресов Googlebot, чтобы понять, какие из этих страниц сканируются, а какие нет.
Наконец, запустите анализ файлов журнала. Настройте фильтры, используя IP-адреса поискового робота Googlebot и временной период, включающий данные за последние 4 недели (или больше).
Если вы ранее не работали с лог-файлами и не знаете, как ими пользоваться, воспользуйтесь специальным инструментом – анализатором журналов. В конечном счете, это лучший источник информации для понимания того, как Google сканирует ваш сайт.
Когда аудит завершен и есть список выявленных проблем со сканированием, ранжируйте каждую из них по ожидаемому объему необходимых работ и степени влияния на производительность сайта.
Примечание. Многие SEO-эксперты, говоря о поисковой оптимизации, отмечают, что клики из поисковой выдачи увеличивают сканирование URL-адреса целевой страницы. Тем не менее, мы пока не смогли подтвердить такое предположение на практике.
Установите приоритет эффективности сканирования над краулинговым бюджетом
Целью сканирования является вовсе не максимальное количество обходов и не многократное сканирование каждой страницы сайта. Основная задача - побуждение к сканированию максимально релевантного контента для нужд SEO, выполняемому как можно ближе к моменту создания или обновления страницы.