Google раскрыл детали работы Googlebot: краулинг, фетчинг и байтовые лимиты
Ключевые факты
- 1 Googlebot — это не один бот, а централизованная краулинговая платформа.
- 2 Googlebot загружает максимум 2 МБ HTML с любого URL, включая заголовки.
- 3 Внешние ресурсы (CSS, JS) фетчатся отдельно и не учитываются в лимите 2 МБ HTML.
- 4 Критические SEO-элементы (meta, title, canonical, structured data) должны быть расположены как можно выше в HTML.
- 5 Мониторинг серверных логов важен, так как медленный сервер снижает частоту краулинга.
Google опубликовал новый блог-пост "Inside Googlebot" и 105-й эпизод подкаста Search Off the Record, где Гэри Иллис объяснил нюансы работы Googlebot. Главное заблуждение, которое развеяли, заключается в том, что Googlebot — это не один бот, а название для централизованной краулинговой платформы Google. То, что пользователи видят в логах, относится к Google Search, а не к отдельному роботу. Ключевым открытием стал лимит на размер HTML-документа. Googlebot загружает максимум 2 МБ с любого URL, включая заголовки. Если HTML превышает этот размер, бот останавливается на отметке 2 МБ и передает только собранную часть для индексации и обработки WRS (Web Rendering Service). Все, что находится за пределами этого лимита, игнорируется. Исключение составляют PDF-файлы, для которых лимит составляет 64 МБ. Важно отметить, что внешние ресурсы, такие как CSS, JavaScript и другие файлы, на которые ссылается HTML, фетчатся отдельно и имеют свои собственные лимиты. Они не учитываются в 2 МБ основного HTML-документа. Эти детали имеют прямое влияние на SEO, указывая на необходимость выносить CSS и JS во внешние файлы, размещать критические элементы (meta, title, canonical, structured data) как можно выше в HTML и избегать инлайнинга больших изображений или скриптов непосредственно в HTML.