Гуглоид Гэри Ийеш опубликовал в блоге Google Search Central статью, в которой объясняет про ограничение в 2 МБ для Googlebot'а.
В общем, есть таки смысл поглядывать за тем, чтоб что-то нужное не оказалось ниже отсечки в 2 МБ.
"Что это означает для байтов, которые ваш сервер отправляет по сети?
1. Частичная загрузка: если ваш HTML-файл превышает 2 МБ, Googlebot не отклоняет страницу. Вместо этого он останавливает загрузку ровно на отметке в 2 МБ. Обратите внимание, что ограничение включает заголовки HTTP-запроса.
2. Обработка фрагмента: загруженная часть (первые 2 МБ байт) передается в наши системы индексирования и службу веб-рендеринга (WRS) как если бы это был полный файл.
3. Невидимые байты: любые байты, существующие после достижения порога в 2 МБ, полностью игнорируются. Они не загружаются, не отображаются и не индексируются.
4. Загрузка ресурсов: Каждый ресурс, на который ссылается HTML-код (за исключением медиафайлов, шрифтов и нескольких экзотических файлов), будет загружен WRS с помощью Googlebot так же, как и родительский HTML-код. У каждого ресурса свой отдельный счетчик байтов для каждого URL-адреса, и они не учитываются в размере родительской страницы.
Для подавляющего большинства веб-сайтов HTML-код размером 2 МБ — это огромный объём, и вы никогда не достигнете этого предела. Однако, если ваша страница содержит раздутые встроенные изображения в формате base64, огромные блоки встроенного CSS/JavaScript или начинается с мегабайтов меню, вы можете случайно превысить отметку в 2 МБ для фактического текстового контента или важных структурированных данных. Если эти важные байты не будут загружены, для Googlebot они просто не существуют.
...
Чтобы Googlebot мог эффективно получать и понимать ваш контент, помните о следующих рекомендациях по работе с данными на уровне байтов:
• Старайтесь максимально оптимизировать HTML-код: переносите ресурсоемкие CSS и JavaScript во внешние файлы. Хотя размер исходного HTML-документа ограничен 2 МБ, внешние скрипты и таблицы стилей загружаются отдельно (с учетом собственных ограничений).
• Порядок имеет значение: размещайте наиболее важные элементы — такие как метатеги, <title>элементы <link><head>, канонические ссылки и необходимые структурированные данные — выше в HTML-документе. Это гарантирует, что они вряд ли окажутся ниже линии отступа.
• Отслеживайте журналы сервера: следите за временем ответа сервера. Если ваш сервер испытывает трудности с обработкой данных, наши обработчики автоматически замедлят свою работу, чтобы избежать перегрузки вашей инфраструктуры, что приведет к снижению частоты сканирования."
В общем, есть таки смысл поглядывать за тем, чтоб что-то нужное не оказалось ниже отсечки в 2 МБ.
Google for Developers
Inside Googlebot: demystifying crawling, fetching, and the bytes we process | Google Search Central Blog | Google for Developers
Гуглоид Гэри Ийеш также опубликовал в блоге Google Search Central сообщение о том, что JSON-файлы со списком диапазонов IP-адресов Google перемещаются в раздел справки "Crawling infrastructure"
"Мы уже обновили нашу документацию, указав на новое местоположение. На данный момент файлы будут по-прежнему доступны по старому /search/ пути, чтобы дать всем время обновить свои системы. Однако мы рекомендуем вам как можно скорее перейти на новый /crawling/ipranges/ путь. В конечном итоге мы постепенно отключим старые местоположения и перенаправим пользователей на новые в течение 6 месяцев."
Google for Developers
New Location for the Google Crawlers' IP Range Files | Google Search Central Blog | Google for Developers
Очень интересные новости из под капота Google Discover от Сильвена Доре и Дэмиена Анделла из сервиса 1492.vision:
"Мы проанализировали 42 миллиона карт Discover, собранных с сотен устройств в течение нескольких месяцев (декабрь 2025 г. – февраль 2026 г.). Для каждой карты мы отследили процесс ее отбора. Результат: более 20 процессов, организованных в шесть функциональных уровней , плюс седьмой, созданный исключительно с помощью ИИ, уровень, уникальный для английского языка."
Substack
Google Discover is not a single algorithm
It’s more than 20 pipelines
Очередная база от амбассадора Яндекса Михаила Сливинского:
Forwarded from Сливинский в поиске
Если запретить много дублей страниц через метатег noindex, может ли это повлиять негативно на скорость индексации сайта?
Робот формирует очередь на обход и скачивание таким образом, чтобы наполнить поисковую базу полезными и востребованными страницами. Поэтому закрытие дублей или технических страниц от индексирования - точно не признак проблемы сайта, не переживайте. Обратите внимание на способ:
— noindex даёт максимальную гибкость, поскольку применяется на конкретных страницах, но требует переобхода, поэтому часть потока обращений робот будет тратить на перепрокачку уже закрытых страниц (директива rel=canonical также требует перепрокачки, но, в отличие от noindex, не является строгой директивой, это рекомендация)
— запрет через disallow в robots, clean-param или раздел "настройка GET-параметров" в Вебмастере применимы только для масок страниц, зато сработают сразу же, без необходимости перепрокачивать страницы.
SЕalytics (SEO-аналитика от Сергея Людкевича)
Гуглоиды представили Ask Maps — "новый интерактивный сервис, который отвечает на сложные вопросы из реальной жизни, на которые карты раньше не могли ответить. Теперь вы можете спросить, например: «У меня разряжается телефон — где я могу его зарядить, не…
Гуглоиды объявили, что Ask Maps доступен везде в США и Индии.
Индусы, как обычно, главные тестировщики новых фич.
Индусы, как обычно, главные тестировщики новых фич.
X (formerly Twitter)
Google Maps (@googlemaps) on X
Ask Maps is now available to everyone in the U.S. and India.
Here are six prompts to get you started. 🧵
Here are six prompts to get you started. 🧵
SERP Screenshot HD - расширение для Chome, делающее скриншот как видимой на экране части, так и всей страницы поисковой выдачи Google.
Google
SERP Screenshot HD - Chrome Web Store
Capture crystal-clear, full-page SERP screenshots with automatic data-rich naming for effortless SEO audits.
❤4
Результаты исследования Peec AI 30 миллионов источников на платформах ChatGPT, Google AI Mode, Gemini, Perplexity и AI Overviews:
Человеческий user-generated пока рулит.
"Ниже представлены десять наиболее цитируемых доменов в поиске по теме ИИ, ранжированные по количеству прямых упоминаний на пяти основных платформах ИИ: ChatGPT, Google AI Mode, Gemini, Perplexity и AI Overviews.
1 Reddit.com
2 YouTube.com
3 LinkedIn.com
4 Wikipedia.org
5 Forbes.com
6 G2.com
7 Yelp.com
8 Facebook.com
9 Medium.com
10 Techradar.com"
Человеческий user-generated пока рулит.
peec.ai
Top domains cited by AI search: Analysis based on 30M sources - Peec AI
Top 10 most-cited domains in LLMs Read more on the Peec AI blog.
❤2
Удивительно, как некоторые ухари пытаются продать дырку от бублика. Сервис Yoast SEO заявляет:
Скромно умалчивая, что никто из ИИ в учете рекомендаций файла llms.txt не замечен. 😀
"Представляем llms.txt для Shopify: дайте ИИ карту ваших лучших товаров."
Скромно умалчивая, что никто из ИИ в учете рекомендаций файла llms.txt не замечен. 😀
Yoast
Introducing llms.txt to Shopify: Give AI a map to your best products
Enhance your Shopify store's AI accuracy with llms.txt Yoast SEO, creating a clear guide for better product representation.
👍2
Буржуйский сеошник Броди Кларк сигнализирует, что гуглоиды начали выдавливать рекламными объявлениями органическую секцию "All Stores" из блока товарной сетки по коммерческим запросам.
Всё идет по плану...
Всё идет по плану...
Буржуйский сеошник Касра Дэш предостерегает от перехода на движок Loveable:
"Я только что проанализировал более 6000 сайтов, созданных с помощью Lovable, и обнаружил одну общую черту. Я сэкономлю вам тысячи долларов и бесконечную головную боль. 1. Ни один из них не занимает высокие позиции в поисковой выдаче.
2. У всех них есть СЕРЬЕЗНЫЕ проблемы с индексацией из-за особенностей их структуры.
3. У всех них есть фундаментальные недостатки SEO (неправильная схема, некорректно отображающиеся заголовки страниц, множество тегов H1).
Конечно, сайт выглядит красиво. Но какой смысл в красивом магазине на 15-м этаже склада? Я бы предпочел некрасивый магазин на оживленной главной улице."
X (formerly Twitter)
Kasra Dash 💰 (@Kasra_Dash) on X
I've just finished analysing over 6,000 Lovable websites and I found one thing in common.
I'll save you thousands of dollars and an endless headache.
1. None of them rank.
2. They all have MAJOR indexing issues because of how they are built.
3. All of…
I'll save you thousands of dollars and an endless headache.
1. None of them rank.
2. They all have MAJOR indexing issues because of how they are built.
3. All of…
👍2
Baidu резко прибавил в американской выдаче Google. А всего-то надо было перевести свою Вики на английский.
❤2
Буржуйский сеошник Гленн Гейб наглядно демонстрирует корреляцию видимости в поиске Google с цитируемостью системами ИИ на примере Grokipedia:
Без SEO нет GEO 😜
"На первом скриншоте показана видимость в поиске, на втором — цитирования в AIO, на третьем — цитирования в ChatGPT, и, наконец, цитирования в режиме ИИ."
Без SEO нет GEO 😜
❤2
Буржуйский сеошник Дэн Петрович анализирует новый классификатор товаров в Chrome:
"• Новая функция, добавленная в Chrome.
• Определяет, является ли веб-страница страницей для покупок или нет.
• Каждая посещенная вами страница оценивается.
• Результат сохраняется в базе данных истории Chrome.
• Используется для персонализации пользовательского опыта и рекомендаций.
• Модель разбивает вашу страницу на 10 фрагментов примерно по 100 слов каждый и обрезает каждый фрагмент до 64 токенов.
• Примерно половина слов так и не доходит до модели.
...
Если Chrome не может идентифицировать вашу страницу как страницу интернет-магазина по первым ~450 словам видимого контента, ваши пользователи не увидят такие функции электронной коммерции, как отслеживание цен и аналитика покупок. Навигационные меню, баннеры с уведомлениями о файлах cookie и шаблонный текст, появляющиеся в начале DOM, расходуют ваш бюджет токенов до того, как модель доберется до информации о товаре. Сайты электронной коммерции, которые скрывают сигналы о товаре под тяжелыми блоками навигации и рекламы, рискуют остаться полностью невидимыми для классификатора."
dejan.ai
Chrome’s New Shopping Classifier
One of our AI SEO hall-of-famers, Olivier de Segonzac from RESONEO has managed to gain access to Google’s shopping classifier model. We’ve examined the model, reverse engineered its inference pipeline and this article is what we found. Model Demo Below is…
🔥3
SЕalytics (SEO-аналитика от Сергея Людкевича)
Photo
Буржуйский сеошник Гаган Готра делится кейсом:
Quod licet Iovi non licet bovi. Похоже, такие финты разрешены только Reddit'у и Google Переводчику. Посмотрим, как пойдут дела у Вики от Baidu.
"Масштабирование одних и тех же англоязычных страниц на 5 разных языков. Несмотря на то, что внутренняя SEO-команда выполнила все необходимые технические настройки, Google ответил: «Нет!»"
Quod licet Iovi non licet bovi. Похоже, такие финты разрешены только Reddit'у и Google Переводчику. Посмотрим, как пойдут дела у Вики от Baidu.
О как. Уж не пресловутый ли "эффект крокодила" обуславливался этой ошибкой?