Зарубежные коллеги выкатили отличную статью с разбором утечки кода Яндекса. Спасибо Алаичу за наводку. Если вам лень читать все полностью, то вот мое саммари по статье. Возможно кому то будет полезно.
Основные тезисы, часть 1:
• Яндекс в настоящее время использует двух краулеров для индексации. Основной краулер и “Orange crawler” который работает в режиме реального времени. (В Гугле при этом используется деление индекса на три краулера - в режиме реального времени, регулярного и редкого).
• У Яндекса нет рендеринга JavaScript. Несмотря на то, что возможность имеется, они ограничиваются краулингом текста.
• Существует два варианта отдачи пользователю результатов поисковой выдачи. Первая - поиск результатов в “Метапоиске” (“Метапоиск” - кэш популярных запросов). Если результат не найден в данном слое, то запрос отправляется на обработку в базовый поиск, откуда переходит в Матрикснет для формирования выдачи.
• Изучив файлы более подробно, было обнаружено, что в общей сложности существует 17 854 фактора ранжирования.
• Дополнительно есть серия записей из 2000 факторов не входящих в основной код и предположительно являющихся тестовыми.
• В документации сказано что у Яндекса есть три основные три класса факторов ранжирования:
- Статические - TG_STATIC (например, относящиеся к странице - количество ссылок на страницу, в момент совершения поиска);
- Динамические - TG_DYNAMIC (относящиеся и к запросу и к странице: слова, соответствующие поисковому запросу, их количество и местоположение на странице);
- Запросные/Особые - TG_QUERY_ONLY, TG_QUERY, TG_USER_SEARCH и TG_USER_SEARCH_ONLY. (характерные только для поисковых запросов, например геолокация).
• Главная особенность MatrixNet - возможность настройки формулы ранжирования для определенного класса поисковых запросов.
• Несмотря на количество доступных факторов, в слитом коде присутствует много файлов, ссылки на которые отсутствуют в архиве.
• В файле nav_linear.h в каталоге /search/relevance/ находятся начальные коэффициенты (или веса), связанные с факторами ранжирования. Этот раздел кода выделяет 257 из 17 000+ факторов ранжирования.
• Учитывая, что коэффициенты в файлах имеют статические значение, высказывается гипотеза о том, что это не единственное место, где происходит ранжирование. Скорее всего данная функция служит для первоначальной оценки релевантности, после чего данные передаются в MatrixNet.
• Что известно о MatrixNet?
- Матрикснет применяется ко всем факторам;
- Существует несколько уровней ранжирования (L1, L2, L3);
- На каждом уровне есть ассортимент моделей ранжирования;
• Файл select_rankings_model.cpp предполагает различные модели ранжирования для каждого уровня. Это пример того, как функционируют нейронные сети. Каждый слой - это компонент, который выполняет операции, а объединенные результаты этих операций создают ранжированный список документов, который затем представляется в виде поисковой выдачи.
Основные тезисы, часть 1:
• Яндекс в настоящее время использует двух краулеров для индексации. Основной краулер и “Orange crawler” который работает в режиме реального времени. (В Гугле при этом используется деление индекса на три краулера - в режиме реального времени, регулярного и редкого).
• У Яндекса нет рендеринга JavaScript. Несмотря на то, что возможность имеется, они ограничиваются краулингом текста.
• Существует два варианта отдачи пользователю результатов поисковой выдачи. Первая - поиск результатов в “Метапоиске” (“Метапоиск” - кэш популярных запросов). Если результат не найден в данном слое, то запрос отправляется на обработку в базовый поиск, откуда переходит в Матрикснет для формирования выдачи.
• Изучив файлы более подробно, было обнаружено, что в общей сложности существует 17 854 фактора ранжирования.
• Дополнительно есть серия записей из 2000 факторов не входящих в основной код и предположительно являющихся тестовыми.
• В документации сказано что у Яндекса есть три основные три класса факторов ранжирования:
- Статические - TG_STATIC (например, относящиеся к странице - количество ссылок на страницу, в момент совершения поиска);
- Динамические - TG_DYNAMIC (относящиеся и к запросу и к странице: слова, соответствующие поисковому запросу, их количество и местоположение на странице);
- Запросные/Особые - TG_QUERY_ONLY, TG_QUERY, TG_USER_SEARCH и TG_USER_SEARCH_ONLY. (характерные только для поисковых запросов, например геолокация).
• Главная особенность MatrixNet - возможность настройки формулы ранжирования для определенного класса поисковых запросов.
• Несмотря на количество доступных факторов, в слитом коде присутствует много файлов, ссылки на которые отсутствуют в архиве.
• В файле nav_linear.h в каталоге /search/relevance/ находятся начальные коэффициенты (или веса), связанные с факторами ранжирования. Этот раздел кода выделяет 257 из 17 000+ факторов ранжирования.
• Учитывая, что коэффициенты в файлах имеют статические значение, высказывается гипотеза о том, что это не единственное место, где происходит ранжирование. Скорее всего данная функция служит для первоначальной оценки релевантности, после чего данные передаются в MatrixNet.
• Что известно о MatrixNet?
- Матрикснет применяется ко всем факторам;
- Существует несколько уровней ранжирования (L1, L2, L3);
- На каждом уровне есть ассортимент моделей ранжирования;
• Файл select_rankings_model.cpp предполагает различные модели ранжирования для каждого уровня. Это пример того, как функционируют нейронные сети. Каждый слой - это компонент, который выполняет операции, а объединенные результаты этих операций создают ранжированный список документов, который затем представляется в виде поисковой выдачи.
Основные тезисы, часть 2:
• 5 самых негативных факторов:
- Реклама на странице.
- Разницу между текущей датой и датой документа. (Рекомендуется обновлять контент, а не создавать новые страницы)
- Фактор основанный на количестве показов URL по отношению к запросу. (Предположение о понижении в позициях URL, который появляется во многих поисковых запросах, для повышения разнообразие результатов выдачи)
- Доля коммерческих ссылок. Процент входящих ссылок с коммерческими анкорами. Коэффициент возвращается к 0.1, если доля таких ссылок более 50%, в противном случае он устанавливается равным 0.
- Географическое совпадение документа и страны, из которой пользователь осуществлял поиск.
• 5 самых позитивных факторов:
- Покрытие домена трехбуквиями из запроса. (Челябинская лотерея - chelloto. Переводим запрос в транслит, находим трехбуквия которые покрываются (che, hel, lot, olo), смотрим какую долю от всех трехбуквиев покрыли;
- Комбинация FRC и псевдо-CTR". Нет никаких указаний на то, что такое FRC;
- Кликабельность самого важного слова в домене. Например, по всем запросам, в которых есть слово "википедия", кликают на страницы википедии;
- Наиболее характерное слово запроса, соответствующее сайту, согласно Яндекс бару". Автор предполагает, что это означает ключевое слово, которое чаще всего ищут на панели инструментов Яндекса, связанной с сайтом;
- Домен в зоне .com
• Неожиданные факторы:
- PageRank является 17-м по значимости фактором ранжирования Яндекса;
- Спам-карма основана на информации Whois и основана на вероятности того, что хост является спамом;
- Отношение ссылок, анкорным текстом которых является URL (а не текст), к общему количеству ссылок.
- Процентное соотношение количества слов, являющихся 200 наиболее частотными словами языка, от количества всех слов текста.
- Среднее время пребывания на сайте по данным ЯндексБара.
• Яндекс парсит Google, Bing, YouTube и TikTok, а также множество других сайтов и сервисов.
• Есть код, указывающий на то, что Яндекс использует некоторые данные Google в рамках собственных расчетов. Плюс 83 фактора ранжирования имеющих в названии GGL или GOOGLE.
• У Яндекса есть пороговые значения для 315 факторов ранжирования, превышение которых указывает на чрезмерную SEO оптимизацию. 39 из них являются изначально взвешенными факторами, которые могут предотвратить включение страницы в список первоначальных размещений.
• У Яндекса есть система “бустов”, которые могут улучшить ранжирование определенных документов.
• Калькулятор ссылочного спама Яндекса учитывает 89 факторов.
• 5 самых негативных факторов:
- Реклама на странице.
- Разницу между текущей датой и датой документа. (Рекомендуется обновлять контент, а не создавать новые страницы)
- Фактор основанный на количестве показов URL по отношению к запросу. (Предположение о понижении в позициях URL, который появляется во многих поисковых запросах, для повышения разнообразие результатов выдачи)
- Доля коммерческих ссылок. Процент входящих ссылок с коммерческими анкорами. Коэффициент возвращается к 0.1, если доля таких ссылок более 50%, в противном случае он устанавливается равным 0.
- Географическое совпадение документа и страны, из которой пользователь осуществлял поиск.
• 5 самых позитивных факторов:
- Покрытие домена трехбуквиями из запроса. (Челябинская лотерея - chelloto. Переводим запрос в транслит, находим трехбуквия которые покрываются (che, hel, lot, olo), смотрим какую долю от всех трехбуквиев покрыли;
- Комбинация FRC и псевдо-CTR". Нет никаких указаний на то, что такое FRC;
- Кликабельность самого важного слова в домене. Например, по всем запросам, в которых есть слово "википедия", кликают на страницы википедии;
- Наиболее характерное слово запроса, соответствующее сайту, согласно Яндекс бару". Автор предполагает, что это означает ключевое слово, которое чаще всего ищут на панели инструментов Яндекса, связанной с сайтом;
- Домен в зоне .com
• Неожиданные факторы:
- PageRank является 17-м по значимости фактором ранжирования Яндекса;
- Спам-карма основана на информации Whois и основана на вероятности того, что хост является спамом;
- Отношение ссылок, анкорным текстом которых является URL (а не текст), к общему количеству ссылок.
- Процентное соотношение количества слов, являющихся 200 наиболее частотными словами языка, от количества всех слов текста.
- Среднее время пребывания на сайте по данным ЯндексБара.
• Яндекс парсит Google, Bing, YouTube и TikTok, а также множество других сайтов и сервисов.
• Есть код, указывающий на то, что Яндекс использует некоторые данные Google в рамках собственных расчетов. Плюс 83 фактора ранжирования имеющих в названии GGL или GOOGLE.
• У Яндекса есть пороговые значения для 315 факторов ранжирования, превышение которых указывает на чрезмерную SEO оптимизацию. 39 из них являются изначально взвешенными факторами, которые могут предотвратить включение страницы в список первоначальных размещений.
• У Яндекса есть система “бустов”, которые могут улучшить ранжирование определенных документов.
• Калькулятор ссылочного спама Яндекса учитывает 89 факторов.
Ощущение, что у Яндекса что-то сломалось, так как в выдачу стали возвращаться сайты забаненные РКН.
Вчера наткнулся в выдаче на забаненный онлайн кинотеатр, сейчас решил посмотреть выдачу по гэмбле - и да, в выдаче стоят офф сайты казино давным давно забаненные РКН.
Вчера наткнулся в выдаче на забаненный онлайн кинотеатр, сейчас решил посмотреть выдачу по гэмбле - и да, в выдаче стоят офф сайты казино давным давно забаненные РКН.
Судя по рабочему файлику - поднял сегодня свой тысячный дроп. Немного наблюдений за время работы:
1) Собственно, как обычно, всем советую вести записи со статистикой по всем дропам. Причем не только выкупленным, но и по проигранным аукционам и просто интересным доменам за которые вы по тем или иным причинам не стали бороться.
Жаль, что я системно учитывать все это начал гораздо позже. Было бы интересно посмотреть и сравнить то, что выкупалось в 2015, с текущим состоянием дел на аукционах.
2) Навскидку - стоимость дропов одного уровня несколько лет назад и сейчас, различается в 3-10 раз в зависимости от его пузомерок. То что раньше выкупалось за 10$ - сейчас не всегда выкупишь за 100$, то что раньше выкупалось за 1-2к$, сейчас стоит 3-10$к. Выше я не лезу и не лез, не те задачи, но на дистанции это очень сильно снижает ROI.
3) О задачах. Есть ощущение, что большая частью людей до сих пор не сильно понимает для чего они покупают дропы: странные подклейки, использование очень дорогих дропов для ПБН или наоборот, дешевых для поднятия на нем основного сайта, хотя там бы лучше зашел EMD.
4) Даже после 1000 поднятых дропов, я не могу сказать со 100% точностью, почему один дроп стреляет, а другой нет. Возможно я просто тупой (но продуктивный), но основной «скилл» я наработал на первой паре сотен дропов. Все что дальше - не сильно дало мне прибавки к пониманию.
5) Из пункта выше следует, что если вы тоже тупой (но продуктивный), то не следует упарываться в аналитику больше чем следует.
Когда следует это делать? Когда вы умный и работаете с бюджетами выше 5к$ на дроп. Там несколько ошибок подряд может больно ударить по бюджету (если вы дошли до этих цифр, вы и без меня это знаете).
6) Лучший способ научиться работать с дропами - практика с НК ключами в ВК нише в НК гео. В этом случае, возможно, вы сразу даже начнете работать в плюс.
7) Худший способ научиться работать с дропами - покупать курсы и проходить обучения полагаясь только на теорию. Поэтому если вы решили обучиться у кого то работе с дроп доменами - сразу закладывайте N денег на практику, во время обучения поднимайте дропы и обсуждайте их со своим «ментором». Это будет макимальная win-win ситуация для вас обоих. Если человек не хочет разбирать ваши дропы - лучше откажитесь от такого обучения.
1) Собственно, как обычно, всем советую вести записи со статистикой по всем дропам. Причем не только выкупленным, но и по проигранным аукционам и просто интересным доменам за которые вы по тем или иным причинам не стали бороться.
Жаль, что я системно учитывать все это начал гораздо позже. Было бы интересно посмотреть и сравнить то, что выкупалось в 2015, с текущим состоянием дел на аукционах.
2) Навскидку - стоимость дропов одного уровня несколько лет назад и сейчас, различается в 3-10 раз в зависимости от его пузомерок. То что раньше выкупалось за 10$ - сейчас не всегда выкупишь за 100$, то что раньше выкупалось за 1-2к$, сейчас стоит 3-10$к. Выше я не лезу и не лез, не те задачи, но на дистанции это очень сильно снижает ROI.
3) О задачах. Есть ощущение, что большая частью людей до сих пор не сильно понимает для чего они покупают дропы: странные подклейки, использование очень дорогих дропов для ПБН или наоборот, дешевых для поднятия на нем основного сайта, хотя там бы лучше зашел EMD.
4) Даже после 1000 поднятых дропов, я не могу сказать со 100% точностью, почему один дроп стреляет, а другой нет. Возможно я просто тупой (но продуктивный), но основной «скилл» я наработал на первой паре сотен дропов. Все что дальше - не сильно дало мне прибавки к пониманию.
5) Из пункта выше следует, что если вы тоже тупой (но продуктивный), то не следует упарываться в аналитику больше чем следует.
Когда следует это делать? Когда вы умный и работаете с бюджетами выше 5к$ на дроп. Там несколько ошибок подряд может больно ударить по бюджету (если вы дошли до этих цифр, вы и без меня это знаете).
6) Лучший способ научиться работать с дропами - практика с НК ключами в ВК нише в НК гео. В этом случае, возможно, вы сразу даже начнете работать в плюс.
7) Худший способ научиться работать с дропами - покупать курсы и проходить обучения полагаясь только на теорию. Поэтому если вы решили обучиться у кого то работе с дроп доменами - сразу закладывайте N денег на практику, во время обучения поднимайте дропы и обсуждайте их со своим «ментором». Это будет макимальная win-win ситуация для вас обоих. Если человек не хочет разбирать ваши дропы - лучше откажитесь от такого обучения.
К слову о пункте 6 в посте выше.
Тестирую дропы в одном из очень специфичных языков. Чем специфичнее язык, тем менее мы можем заморачиваться с качеством текстов в нем. В моем случае это просто прогон через DeepL хорошего копирайта на английском.
Естественно взлетело не 5 из 5, но результат гораздо выше, чем в популярных ГЕО.
Тестирую дропы в одном из очень специфичных языков. Чем специфичнее язык, тем менее мы можем заморачиваться с качеством текстов в нем. В моем случае это просто прогон через DeepL хорошего копирайта на английском.
Естественно взлетело не 5 из 5, но результат гораздо выше, чем в популярных ГЕО.
На Google I/O 2023 разобрали пример нового поиска с AI от Гугл в рамках поисковой сессии с запросом: “Что лучше для семьи с детьми младше 3х лет и собакой: Брайс-каньон или Арчес”
Вопросы такого вида почти не задавались юзерами в старом поиске, так как не давали внятного ответа. Теперь же, сразу под поисковой строкой будет появляться сгенерированный AI ответ на конкретный вопрос.
В данном случае, в первом же предложении, AI выдал ответ “И тот и другой подходят для семейного отдыха. В обоих собакам запрещено ходить по грунтовым тропам, но в Брайс-Каньоне для прогулки с собакой доступны две асфальтированные дорожки.”
Справа от текста выданного AI, будут находиться 3 ссылки раскрывающие тематику запроса, откуда была получена данная информация. Перейдя по ним, можно будет более подробно изучить всю информацию по теме.
“Данный инструмент основан на алгоритмах ранжирования и безопасности поиска Гугла, которые оттачивались годами”.
Классическая выдача в поиске сохранится и будет расположена под блоком AI.
Вопросы такого вида почти не задавались юзерами в старом поиске, так как не давали внятного ответа. Теперь же, сразу под поисковой строкой будет появляться сгенерированный AI ответ на конкретный вопрос.
В данном случае, в первом же предложении, AI выдал ответ “И тот и другой подходят для семейного отдыха. В обоих собакам запрещено ходить по грунтовым тропам, но в Брайс-Каньоне для прогулки с собакой доступны две асфальтированные дорожки.”
Справа от текста выданного AI, будут находиться 3 ссылки раскрывающие тематику запроса, откуда была получена данная информация. Перейдя по ним, можно будет более подробно изучить всю информацию по теме.
“Данный инструмент основан на алгоритмах ранжирования и безопасности поиска Гугла, которые оттачивались годами”.
Классическая выдача в поиске сохранится и будет расположена под блоком AI.
Выдача с коммерческим и около коммерческим интентом
Например по запросу: “хороший велосипед для 5 километровой поездки по холмам” будет содержать в себе:
- Блок Google Merchant;
- Полезные советы от AI;
- Коммерческий блок с товарами которые подходят под заданные требования, их ценой, фото, отзывами и описаниями. Коммерческий блок будет основан на информации от Google Shopping Graph;
- Блок сопутствующих вопросов, при клике на который пользователь проваливается в новое взаимодействие с поиском;
- Классические результаты поиска.
Остальные возможности поиска с AI от Гугл похожи на короткие взаимодействия с уже знакомым всем ChatGPT.
“Новые возможности сделают поисковую систему умнее, а поиск - проще” (c) Cathy Edwards (Google VP Engineer)
Например по запросу: “хороший велосипед для 5 километровой поездки по холмам” будет содержать в себе:
- Блок Google Merchant;
- Полезные советы от AI;
- Коммерческий блок с товарами которые подходят под заданные требования, их ценой, фото, отзывами и описаниями. Коммерческий блок будет основан на информации от Google Shopping Graph;
- Блок сопутствующих вопросов, при клике на который пользователь проваливается в новое взаимодействие с поиском;
- Классические результаты поиска.
Остальные возможности поиска с AI от Гугл похожи на короткие взаимодействия с уже знакомым всем ChatGPT.
“Новые возможности сделают поисковую систему умнее, а поиск - проще” (c) Cathy Edwards (Google VP Engineer)
Внезапно обнаружил, что некоторые не в курсе о бесплатных инструментах Ахрефса.
Точно подойдет новичкам, для быстрой проверки небольших сайтов/кеев.
+ после перехода на Семраш - периодически использую их для сравнения сервисов.
Точно подойдет новичкам, для быстрой проверки небольших сайтов/кеев.
+ после перехода на Семраш - периодически использую их для сравнения сервисов.
Подробная карта компетенций SEO специалиста от ребят из Ant Team.
Можно сразу пробежаться по колонке E и порадоваться или погрустить.
Можно сразу пробежаться по колонке E и порадоваться или погрустить.