Недавнее обновление документации Google вызвало волну обсуждений: поисковик официально зафиксировал жесткие лимиты на размер индексируемых файлов. На фоне эпохи «вайбкодинга» и тяжелых конструкторов это звучит как тревожный сигнал, но давайте разберем факты без паники.
В чем суть изменений?
Googlebot теперь официально индексирует только первые 2 МБ данных для большинства типов файлов (HTML, JS, CSS, JSON). Как только лимит исчерпан, бот прекращает скачивание и отправляет на обработку только полученный фрагмент. Все, что находится в коде выше этой отметки, становится невидимым для Google.
Главные цифры:
- 2 МБ — лимит для HTML и сопутствующих ресурсов.
- 64 МБ — исключение для PDF-файлов.
- Любой ресурс (CSS, JS, JSON), на который ссылается ваш HTML, имеет свой собственный лимит в те же 2 МБ.
Почему это происходит сейчас?
Хотя представители Google (включая Джона Мюллера) утверждают, что эти ограничения существовали давно и их просто «внесли в мануалы», момент выбран неслучайно. Огромные вычислительные затраты на ИИ-поиск (AI Overviews) заставляют компанию экономить на базовом сканировании. Это прямая борьба с раздутым кодом и неэффективной архитектурой сайтов.
Разделяем понятия вес страницы и файла
Здесь важно не попасть в ловушку терминологии.
- Общий вес страницы может быть хоть 20 МБ (за счет видео и тяжелой графики) — если сам HTML-файл при этом весит 300 КБ, Гугл проиндексирует его полностью.
- Лимит 2 МБ применяется к каждому файлу по отдельности. Если ваш основной HTML чистый, но вы подключаете внешний JS-файл весом в 3 МБ, Google обработает только его часть, что может «сломать» рендеринг страницы.
Практические последствия
Хотя средний сайт весит немного, существуют категории ресурсов, для которых лимит в 2 МБ станет реальной головной болью:
- Сайты на визуальных конструкторах: некоторые билдеры генерируют избыточную разметку. Если страница перегружена сложными анимациями и встроенными стилями, риск превысить порог реален.
- Листинги с бесконечной подгрузкой (без пагинации): если вы пытаетесь выдать 1000 товаров на одной странице в одном HTML-файле, Google увидит только первую треть вашего ассортимента.
- Enterprise-решения с огромным JSON-LD: крупные магазины иногда вшивают в код гигантские массивы микроразметки. Если этот блок стоит в начале кода, он может «съесть» лимит, не оставив места для основного текста.
В завершение
Мы проанализировали данные обходов (crawling) реальных клиентов: самая «тяжелая» страница с бесконечным скроллом, которую удалось найти, весила всего 1 МБ. Учитывая, что средний размер HTML составляет около 30 КБ, запас прочности у нас десятикратный.
Главный вывод. Это изменение — не апокалипсис, а официальное подтверждение того, что Google оптимизирует свои расходы. В эпоху, когда ресурсы уходят на обучение и работу нейросетей, Гугл не хочет тратить бюджет на сканирование «раздутых» файлов. Для тех, кто следит за гигиеной кода и не злоупотребляет плохим «вайбкодингом», ничего не изменится. Для остальных это повод наконец-то заняться оптимизацией и вынести всё лишнее во внешние ресурсы.
