JetOctopus
951 subscribers
34 photos
72 links
Канал об техническом SEO в его самом занудном проявлении, только цифры и факты. Никаких ссылок.

Автор канала: Сергей Безбородов
CTO SaaS краулера https://jetoctopus.com/
@sergebezborodov
Download Telegram
to view and join the conversation
привет всем,
вам знакома ситуация, когда хотели дома поменять розетку, а через пол года по факту получился ремонт в квартире.
Так же случилось и у нас, хотели немного левое меню подфайтюнить, а в итоге сделали новый UI в октопусе.

Хочется надеяться, что стало понятнее (развесили кучу подсказок и пояснялок в системе), улучшили восприятие данных (даже не представляете сколько времени ушло на подбор цветов в графиках). В общем пол года крови и пота не прошли даром.

Будем рады вашим комментариями и замечаниям.
Скоро будут новые фичи, а именно долгожданный JS краул, полноценный near-duplication и интеграция с GA.
Полезный пост для любителей meta robots=noindex
Forwarded from Sitechecker
Как Google обрабатывает noindex в robots теге

Google подтвердил наблюдения, о которых я писал ранее.

Источник - https://www.searchenginejournal.com/google-noindex-meta-tag-proper-use/385538/

Один из веб-мастеров обратился к Джону Мюллеру с таким вопросом. В своем интернет-магазине он ставил директиву noindex в мета-теге robots для товаров, которых нет на складе. А когда они появлялись в наличии он менял значение тега обратно, на index. Но товары уже не появлялись в выдаче, Google их даже не сканировал.

Мюллер объяснил, что если на странице долго стоит noindex, то бот Google обрабатывает такую страницу по логике похожей на обработку 404 страницы - начинает её гораздо реже сканировать.

Но то, что Мюллер называет "гораздо реже", у меня выливалось в никогда. Например, у нас на сайте внедрена мультиязычность, и создание любой новой страницы сопровождается созданием аналогичных страниц на других языках.

Как правило, контент не готов сразу для всех языков, а дописывается постепенно. Чтобы не дать попасть в выдачу мусорным страницам без контента приходилось ставить их в noindex.

Но это приводило к тому, что описано выше - Google не сканировал такие страницы, даже если добавляли их через Inspect URL в Search Console. Единственное, что спасало - изменение URL страницы. Для бота Google это уже новый адрес, без негативноо шлейфа из прошлого.

Итого, если вы знаете, что страница в будущем точно должна индексироватся, не ставьте ей noindex. Найдите другие способы не дасть попасть ей в выдачу: уберите внутренние ссылки на нее и удалите из sitemap.xml.

Если же она уже попала в индекс, добавьте на нее пока контент, который требует минимум усилиий.
Привет всем,

на прошлом Назапад был хороший доклад, про взлом сайтов. Увы сайты всегда ломали и будут ломать, особенно в "высококонкурентных нишах" (обожаю это выражение).

Цели взлома бывают разные, но одни из распространенных - это проставить ссылки с сайта. Самая большая проблема в том, что такое может делаться весьма "тихо" и вы это заметите далеко не сразу.

По просьбе нашего клиента, мы запилили функционал который показывает домены всех ваших внешних ссылок в виде удобной таблицы.
С ее помощью удобно периодически просматривать глазами ссылки на предмет сюрпризов.
привет всем,
шок тема

Появились сообщения, что можно успешно парсить сайты, которые жестко закрыты от скрейпинга. Делается это с помощью Google Mobile Friendly Testing tool и Rich Results Test. Особенностью их работы является то, что они запросы идут как с обычного Googlebot.
На вопрос как быть с этой ситуаций Мюллер ответил в стиле "Ну а шо вы хотите?".

Также появились сообщения-предположения, что гугловские тулы используют другие IP чем обычный googlebot.
Но это не так:
Мы сделали несколько тестовых страниц и прошлись по ним инструментами и получили несколько IP. Если бы IP для тулов были отдельные - то они бы не встречались в логах в больших количествах, верно?
Пробив их по логам, мы получили миллионы запросов, что говорит о том, что эти IP используются и обычным googlebot.

Но между ними все таки есть разница.
Отличие состоит в заголовке HTTP_ACCEPT,
обычный googlebot передает строку 'text/html,application/xhtml+xml,application/signed-exchange;v=b3,application/xml;q=0.9,*/*;q=0.8'
testing tool: '*/*,application/signed-exchange;v=b3'
Как заблокировать тест тулы уже вопрос техники.

Как воспроизвести самому эксперимент:
у себя на сайте размещаете файл googlebot.php с содержимым
<?php
$headers = print_r($_SERVER, true);
file_put_contents('googlebot-headers.txt', $headers."\n\n",FILE_APPEND);
?>
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Googlebot testing tool</title>
</head>
<body>
<h1>This page simply does nothing (almost)</h1>
<?if($_SERVER['HTTP_ACCEPT'] == '*/*,application/signed-exchange;v=b3') echo '<p>Hi testing tool</p>'?>
</body>
</html>


ставите на него ссылку с главной и наблюдаете за файлом googlebot-headers.txt,
и также чекаете с testing tool, удобно добавлять к урлу метку https://site.com/googlebot.php?rich-test, https://site.com/googlebot.php?mobile-test и т.п.

Dislaimer: стоит учесть, что нет гарантий, что завтра заголовки будут такие же. Если для вас актуальна тема блокировки, нужно трекать каждый день заголовки и изменения в них, чтобы случаем не заблочить все.

PS. за наводку спасибо Анатолию Б.
привет всем,
любителям блокировать ботов посвящается:

Fake bots, scrapers - что это и что с этим нужно делать?

Fake bots - это боты которые используют user-agent Googlebot или других search bots, при этом не проходят проверку по reverse DNS запросу, как описано в мануале https://developers.google.com/search/docs/advanced/crawling/verifying-googlebot

Scrapers (парсеры) - это боты со своими user-agent, которые краулят ваш сайт, как и fake bots, для разных целей, как анализ страниц, цен, воровство контента и т.п.

Что делать с такими ботами? Все зависит от вашей ситуации - если запросов от таких ботов не много, то просто забейте и не блочьте ничего.
Часто такие боты дают существенную нагрузку, например в ecommerce мы видели ситуации, когда 50% трафика - это scrapers.
В таком случае можно блокировать их по IP/subnet. Из практики, нужно очень и очень внимательно это делать, и смотреть на whois по каждому IP.

Мы видели случаи, когда блокировка подсети вроде бы какого то хостинга отключила доступ к сайту для района города.
Также недавно клиент нам сообщил, что он заблокировал IP не связанные с google по whois, но при этом получил сообщения от GSC, что страницы сайта не доступны. Мы анализируем этот кейс и сообщим о результатах.

Помните, что все не заблокируешь и скрейперы все равно будут. Контролируйте нагрузку на сайт.
Сколько сайтов закрыто от Ahrefs и других инструментов?
Периодически мы сканируем весь интернет и собираем кучу интересной информации.
Один из самых главных вопросов глядя в тулзы на количество ссылок (особенно в "высококонкурентных" нишах) - а все ли я вижу?

Заблокировать сайт от сканирования тулзами элементарно - просто добавьте директивы в robots.txt, сторонников теорий про игнор ботами сразу расстрою, правила robots.txt реально соблюдаются. Если вы вдруг когда-нибудь захотите сделать свой краулер, узнаете почему их надо соблюдать.


Сухие цифры:
Всего доменов, которые отдают код 200 (т.е. рабочие сайты) по одной из версии http://, http://www, https://, https://www - примерно 150 млн
Январь 2020 - заблокировано от ахрефс 1.2 млн доменов, семраш 0.6 млн
Январь 2021 - заблокировано от ахрефс 1 млн доменов, семраш 0.8 млн
Отлично, можете подумать вы, не так уж и много - меньше одного процента!

Но есть еще один способ блокировки:
User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /


Январь 2020 - заблокировано 6 млн доменов
Январь 2021 - заблокировано 34 млн доменов

Таким образом, (34 + 1) / 150 = 23% доменов закрыты от ахрефса и чуть меньше от других инструментов.

У нас есть side проект, который показывает такие сайты, ссылки с морд, редиректы, соседей по IP (по всем сайтам) и кучу других занимательных вещей, кому интесен early access, пришлите запрос на serge@jetoctopus.com
привет всем,

Наконец-то запостил статью про анализ доменов в Интернете.
Статья сугубо техническая и скорее будет больше интересна вашим программистам.

https://habr.com/ru/post/564320/

Чуть позже будет материал про анализ с SEO уклоном, там редиректы, ссылочки, в общем все, что вы любите.
Stay tuned
Подтупливает вебсайт?
Возможно, что вас очень любят боты популярных инструментов для анализ внешних ссылок, контента.
В примере у клиента гуглбот занимает 12%, а эти боты 56% от всего бот трафика.
Понять сколько у вас их на сайте можно через серверные логи.

Легкий способ сделать своему серверу легче - заблочить их.
привет всем,
Наши хорошие друзья из ria.com запостили интересный кейс.

Как с помощью не сложной оптимизации перелинковки и удаления лишнего мусора можно увеличить свой краулинговый бюджет в разы даже на очень больших сайтах (миллионы страниц+).

https://vc.ru/seo/310187-keys-kak-my-udalili-kartu-sayta-i-uluchshili-poseshchaemost-poiskovym-robotom-googlebot-v-dva-raza

PS. за прошедшее время мы кучу всего сделали в jetoctopus.com, у кого есть твиттер велкам https://twitter.com/jetoctopus
привет всем,
как вы думаете, Googlebot делает скрол страницы при рендеринге? или не делает?

Gary Illyes говорил, что не скролит, а John Mueller говорил, что "GoogleBot can scroll a bit".
Для нас важнее то, что Googlebot рендерит страницы с очень большим по высоте viewport ("экраном" если можно так сказать).
Достоверное величины, как обычно, нет, но по экспериментам это около 10 тыс пикселей по высоте.

Как это касается вашего проекта?
Если у вас есть lazy load ссылок, контента внизу страницы, то перепроверьте лишний раз, видит ли гугл этот контент.
Банальным поиском в гугле:
"текст внизу страницы" site:https://my-best-website.com/page.html

Мы в JetOctopus добавили отдельную настройку для JS краулинга, с помощью которой можно менять размер viewport и проанализировать какой контент есть на странице, а какой не подгрузился.
привет всем,
как вы думаете, "здоровый" краулинговый бюджет - это прямая линия, синусоида или вообще кардиограмма?

Мы собрали данные по логам за год, больше 50 млрд визитов, и если смотреть на график, то мне он больше напоминает кардиограмму.
Резкие всплески и падения: причин этому много - есть влияние апов гугла, обновление версии chrome внутри бота и конечно же баги на сайтах.

Какая конкретно причина всплеска у вас, проблема это или нет, сказать без логов будет проблематично.
Самое лучшее решение - начните писать логи сейчас, чтобы вам не говорили админы/программисты и прочие технари, как это сложно и ресурсоемко (читаем: очень впадлу делать).
Стоимость Amazon S3 Glacier просто копеечная, настроить туда дамп логов - это пару часов работы с перерывом на кофе. Но когда в следующий случится большой всплеск или падение, у вас уже будут исторические логи, которые очень и очень упростят анализ.