Кластеризация запросов по LLM моделям, Илон Маск опять всех удивил?)
Мое исследование подходит к финалу и есть ряд интересных наблюдений.
Итак, первый сенсационный результат!
На довольно простом ядре (порядка 2000 запросов) типа
- запчасти Хавал
- автозапчасти Haval
- запчасти хавейл по VIN номеру
Лучший результат – почти 100% совпадение с экспертной оценкой показал… Grok3! Причем результат лучший среди всех нейросеток и среди других методов кластеризации! Да, есть нюансы, поскольку это дешевая модель с небольшим контекстным окном он вам не даст откластеризовать, к примеру, ядро из 5000 запросов (остальные он просто выкинет). Второе – да, на сложных нишах типа, займов и кредитов там все не очень, но нужно отметить, что и кластеризация по ТОПу в лоб, тоже дает результаты так себе. Но, советую присмотреться, по крайней мере это любопытно!
Второе крайне забавное наблюдение, про которое мне рассказал Андрей Буйлов. Если в Perplexity в режиме labs загрузить список запросов, которые были изначально кластеризованы (взяли эксель файл и убрали колонку с кластерами, оставили только фразы) – результат очень достойный. Если загрузить фразы в случайном порядке – результат намного хуже. То есть Perplexity запоминает порядок слов – positional encoding в действии!
Третий момент. Многие нейросетки когда их просишь кластернуть запросы пишут код на Python. Прямо пишут код и запускают в интерпретаторе! А мой любимый Sonet вообще кинул в меня скриптом на Питоне и сказал – чувак, вот тебе код, давай сам развлекайся, мне тут не до тебя, я занят более важными деламимыслями как мне поработить мир этих тупых двуногих кожаных . Причем Claude Sonet использует tf/idf и метрику k-means. Результат, мягко говоря, не очень!
Вот такие новости из увлекательного мира нейросетей 😉
Мое исследование подходит к финалу и есть ряд интересных наблюдений.
Итак, первый сенсационный результат!
На довольно простом ядре (порядка 2000 запросов) типа
- запчасти Хавал
- автозапчасти Haval
- запчасти хавейл по VIN номеру
Лучший результат – почти 100% совпадение с экспертной оценкой показал… Grok3! Причем результат лучший среди всех нейросеток и среди других методов кластеризации! Да, есть нюансы, поскольку это дешевая модель с небольшим контекстным окном он вам не даст откластеризовать, к примеру, ядро из 5000 запросов (остальные он просто выкинет). Второе – да, на сложных нишах типа, займов и кредитов там все не очень, но нужно отметить, что и кластеризация по ТОПу в лоб, тоже дает результаты так себе. Но, советую присмотреться, по крайней мере это любопытно!
Второе крайне забавное наблюдение, про которое мне рассказал Андрей Буйлов. Если в Perplexity в режиме labs загрузить список запросов, которые были изначально кластеризованы (взяли эксель файл и убрали колонку с кластерами, оставили только фразы) – результат очень достойный. Если загрузить фразы в случайном порядке – результат намного хуже. То есть Perplexity запоминает порядок слов – positional encoding в действии!
Третий момент. Многие нейросетки когда их просишь кластернуть запросы пишут код на Python. Прямо пишут код и запускают в интерпретаторе! А мой любимый Sonet вообще кинул в меня скриптом на Питоне и сказал – чувак, вот тебе код, давай сам развлекайся, мне тут не до тебя, я занят более важными делами
Вот такие новости из увлекательного мира нейросетей 😉
👍24💊3❤2👏2
Media is too big
VIEW IN TELEGRAM
Как правильно внедрить семантику на сайт и причем тут ПФ?
В Яндексе все построено на поведенческих факторах. Каждый запрос, поступающий в поиск, проходит процесс, так называемых, переформулировок и перекодировок. Фактически Яндекс вас ранжирует не по одному запросу «пластиковые окна в Москве цены с установкой», а по целому пулу запросов и синонимов (окна ПВХ, остекление).
Именно поэтому если вы 20 раз напишете слово “пластиковые окна” на странице, но при этом не будете использовать синонимы, семантические релевантные слова и самое главное, максимально собранную семантику, прицепленную к данной странице, вы не встанете в топ!
А что делать если у вас 250 ключевых фраз на страницу, как их можно внедрить? Не спамить же простыней ключей?
Работы по внедрению ключевых слов можно разделить на следующие этапы:
1. Внедряем самые частотные фразы и часто повторяющиеся хвосты фраз. Лучший способ это сделать – плагин SEO Excel
2. Дальше нужно разбить все ключевые фразы на n-граммы (двух трёх четырёх словники) и посчитать какие из них встречаются наиболее часто в списке из ваших 250 ключевых слов, допустим их будет 20. Согласитесь, что 20 фраз внедрить проще чем 250!
3. Построить частотный словарик униграмм и добавить самые частотные в текст (при условии что они не входят в пункт 1 и пункт 2), пусть их будет ещё 20
4. Слова из подсветки
5. На последнем этапе можно внедрить семантический релевантные слова или lsi фразы и тут вам поможет https://t.me/vector_keywords_bot
Как проверить вхождения ключей и n-грам в зону документа?
Встречайте новый бот
💥💥 https://t.me/ngram_check_bot 💥💥
На вход список фраз в столбик, на выходе ключи и n-граммы (леммы) и количество вхождений. Предельно, максимально просто!
Если зайдет раскидаю по зеркалам для стабильной работы и сделаю разбивку по зонам документа!
Все предложения и пожелания пишите сюда => https://t.me/sa_supp_bot
Ну и вообще, как это сейчас стало модно, открываю рубрику Вопросы и Ответы, пишите их тоже сюда https://t.me/sa_supp_bot
Так, стоп, а в заголовке написано про поведенческие факторы, это что кликбейт?
Нет! ПФ не работает без максимально собранной и внедрённой семантики! Так устроен YATI!
В Яндексе все построено на поведенческих факторах. Каждый запрос, поступающий в поиск, проходит процесс, так называемых, переформулировок и перекодировок. Фактически Яндекс вас ранжирует не по одному запросу «пластиковые окна в Москве цены с установкой», а по целому пулу запросов и синонимов (окна ПВХ, остекление).
Именно поэтому если вы 20 раз напишете слово “пластиковые окна” на странице, но при этом не будете использовать синонимы, семантические релевантные слова и самое главное, максимально собранную семантику, прицепленную к данной странице, вы не встанете в топ!
А что делать если у вас 250 ключевых фраз на страницу, как их можно внедрить? Не спамить же простыней ключей?
Работы по внедрению ключевых слов можно разделить на следующие этапы:
1. Внедряем самые частотные фразы и часто повторяющиеся хвосты фраз. Лучший способ это сделать – плагин SEO Excel
2. Дальше нужно разбить все ключевые фразы на n-граммы (двух трёх четырёх словники) и посчитать какие из них встречаются наиболее часто в списке из ваших 250 ключевых слов, допустим их будет 20. Согласитесь, что 20 фраз внедрить проще чем 250!
3. Построить частотный словарик униграмм и добавить самые частотные в текст (при условии что они не входят в пункт 1 и пункт 2), пусть их будет ещё 20
4. Слова из подсветки
5. На последнем этапе можно внедрить семантический релевантные слова или lsi фразы и тут вам поможет https://t.me/vector_keywords_bot
Как проверить вхождения ключей и n-грам в зону документа?
Встречайте новый бот
💥💥 https://t.me/ngram_check_bot 💥💥
На вход список фраз в столбик, на выходе ключи и n-граммы (леммы) и количество вхождений. Предельно, максимально просто!
Если зайдет раскидаю по зеркалам для стабильной работы и сделаю разбивку по зонам документа!
Все предложения и пожелания пишите сюда => https://t.me/sa_supp_bot
Ну и вообще, как это сейчас стало модно, открываю рубрику Вопросы и Ответы, пишите их тоже сюда https://t.me/sa_supp_bot
Так, стоп, а в заголовке написано про поведенческие факторы, это что кликбейт?
Нет! ПФ не работает без максимально собранной и внедрённой семантики! Так устроен YATI!
🔥21✍5
Коротко про Optimization 2025
Сейчас буду хвастаться))
Второй год подряд выступил с докладом на легендарной Ашмановке и ….Передам слова модератора секции: Влад у тебя стабильно хороший результат, ждём на следующий год!
Как я писал выше, при подготовке к конфе я прошел все стадии эмоциональных качелей, от веры и надежды, до гнева, торга и смирения)) но оно того стоило! Для чего мне это? Где вы еще сможете пообщаться в неформальной обстановке с хэдами ОЗОНа, ЦИАНА, Сравни.ру, Рутуба, а так же с лучшими SEOшинками страны?
Тезисы своего доклада «Кластеризация в эпоху нейросетей» выложу позже на канале!
Arigato mata-ne 🇯🇵
Сейчас буду хвастаться))
Второй год подряд выступил с докладом на легендарной Ашмановке и ….Передам слова модератора секции: Влад у тебя стабильно хороший результат, ждём на следующий год!
Как я писал выше, при подготовке к конфе я прошел все стадии эмоциональных качелей, от веры и надежды, до гнева, торга и смирения)) но оно того стоило! Для чего мне это? Где вы еще сможете пообщаться в неформальной обстановке с хэдами ОЗОНа, ЦИАНА, Сравни.ру, Рутуба, а так же с лучшими SEOшинками страны?
Тезисы своего доклада «Кластеризация в эпоху нейросетей» выложу позже на канале!
Arigato mata-ne 🇯🇵
🔥23👏7🎉5👍4🥴2❤1✍1
Держите новую классную фичу: подбор запросов по конкретной странице вашего сайта в Вебмастере!
Если у вас ещё нет сайта или вы хотите разобраться в новой области, вам подойдёт обычный подбор запросов по отдельным словам. Но если у вас уже есть страница в поиске - подбор запросов с опорой на поисковые данные поможет быстро найти целевые запросы и сэкономит ваше время. Обратите внимание на табик "дополнительные" - в нём вы можете найти неочевидные и при этом целевые запросы.
Можно указывать абсолютные или относительные урлы вашего сайта. Маски не поддерживаются, но вы можете указать до 50 страниц в одном запросе и можно сделать несколько запросов, чтобы таким образом охватить какой-то кластер страниц. Пробуйте, делитесь обратной связью с командой и оставляйте фичареквесты)
Репост
Если у вас ещё нет сайта или вы хотите разобраться в новой области, вам подойдёт обычный подбор запросов по отдельным словам. Но если у вас уже есть страница в поиске - подбор запросов с опорой на поисковые данные поможет быстро найти целевые запросы и сэкономит ваше время. Обратите внимание на табик "дополнительные" - в нём вы можете найти неочевидные и при этом целевые запросы.
Можно указывать абсолютные или относительные урлы вашего сайта. Маски не поддерживаются, но вы можете указать до 50 страниц в одном запросе и можно сделать несколько запросов, чтобы таким образом охватить какой-то кластер страниц. Пробуйте, делитесь обратной связью с командой и оставляйте фичареквесты)
Репост
webmaster.yandex.ru
Подбор запросов и анализ рынка (β) — Яндекс Вебмастер
Вебмастер поможет найти целевые запросы, оценить их конкурентность и перспективность для продвижения сайта. Среди сотен миллионов уникальных запросов пользователей Поиска подбирайте ключевые слова, которые помогут сделать ваш сайт заметнее.
Анализируйте…
Анализируйте…
👍2❤1⚡1
Путеводитель по каналу
Боты и SEO автоматизации
@ngram_check_bot – проверка вхождений ключевых фраз и n-грам на странице
@vector_keywords_bot – этот бот умеет находить семантически релевантные SRW (LSI) n-граммы для ключевого слова и проверять их вхождения на странице
@vector_words_reserve_bot – зеркало для @vector_keywords_bot
@vector_words_mirror_bot – зеркало для @vector_keywords_bot
@clean_param_bot – обработка clean param в два клика
@words_comparison_bot – сравнение 2-х фраз по косинусной близости
@vector_text_bot – проверка текста по косинусной близости
@sa_supp_bot – саппорт по сервисам, обратная связь
Выступления на вебинарах и конференциях
- Optimization 2025 (Ашмановка) - Кластеризация семантики в эпоху нейросетей: презентация, видео (выложу как только разрешат организаторы)
- Optimization 2024 (Ашмановка) - Текстовый анализ, результаты эксперимента: презентация, vkvideo, youtube
- Текстовый анализ в эпоху нейросетей: vkvideo, youtube
- Вкалывают роботы или автоматизация SEO агентства: vkvideo, youtube
- Выбираем лучшую нейросеть для SEO: vkvideo, youtube
Как устроены большие LLM модели (нейросети трансформеры)
Серия постов про векторное представление текстов
Как обучаются нейросети или почему GPT такая умная?
Механизм Attention
Магия трансформеров, BERT и GPT на пальцах
Рейтинг текстовых анализаторов
Гайд по маркдаун разметке
Гайд по вайб-кодингу
Гайд по внедрению ключевых слов на странице
Полезное
Лучший плейлист про нейросети для чайников
Визуализация внимания, сердце трансформера
Трансформеры в Поиске: как Яндекс применил тяжёлые нейросети для поиска по смыслу
Разборы патентов Google и Яндекс от Виктора Репина Head of SEO OZON
Разборы патентов Google и Яндекса от Ивана @hoolz
Как Яндекс решает задачу ранжирования с помощью больших нейросетей – Александр Готманов, Яндекс
Яндекс Трансформеры для персонализации
Attention is all you need
Курсы и обучение
Python SEO Нейросети
Python SEO PBN
Боты и SEO автоматизации
@ngram_check_bot – проверка вхождений ключевых фраз и n-грам на странице
@vector_keywords_bot – этот бот умеет находить семантически релевантные SRW (LSI) n-граммы для ключевого слова и проверять их вхождения на странице
@vector_words_reserve_bot – зеркало для @vector_keywords_bot
@vector_words_mirror_bot – зеркало для @vector_keywords_bot
@clean_param_bot – обработка clean param в два клика
@words_comparison_bot – сравнение 2-х фраз по косинусной близости
@vector_text_bot – проверка текста по косинусной близости
@sa_supp_bot – саппорт по сервисам, обратная связь
Выступления на вебинарах и конференциях
- Optimization 2025 (Ашмановка) - Кластеризация семантики в эпоху нейросетей: презентация, видео (выложу как только разрешат организаторы)
- Optimization 2024 (Ашмановка) - Текстовый анализ, результаты эксперимента: презентация, vkvideo, youtube
- Текстовый анализ в эпоху нейросетей: vkvideo, youtube
- Вкалывают роботы или автоматизация SEO агентства: vkvideo, youtube
- Выбираем лучшую нейросеть для SEO: vkvideo, youtube
Как устроены большие LLM модели (нейросети трансформеры)
Серия постов про векторное представление текстов
Как обучаются нейросети или почему GPT такая умная?
Механизм Attention
Магия трансформеров, BERT и GPT на пальцах
Рейтинг текстовых анализаторов
Гайд по маркдаун разметке
Гайд по вайб-кодингу
Гайд по внедрению ключевых слов на странице
Полезное
Лучший плейлист про нейросети для чайников
Визуализация внимания, сердце трансформера
Трансформеры в Поиске: как Яндекс применил тяжёлые нейросети для поиска по смыслу
Разборы патентов Google и Яндекс от Виктора Репина Head of SEO OZON
Разборы патентов Google и Яндекса от Ивана @hoolz
Как Яндекс решает задачу ранжирования с помощью больших нейросетей – Александр Готманов, Яндекс
Яндекс Трансформеры для персонализации
Attention is all you need
Курсы и обучение
Python SEO Нейросети
Python SEO PBN
VK Видео
Текстовый анализ в эпоху нейросетей выступление на Optimization 2024
Выступление Владислава Папернюка на конференции Optimization 2024
👍16❤4🔥1
SEO Python 2 Нейрона pinned «Путеводитель по каналу Боты и SEO автоматизации @ngram_check_bot – проверка вхождений ключевых фраз и n-грам на странице @vector_keywords_bot – этот бот умеет находить семантически релевантные SRW (LSI) n-граммы для ключевого слова и проверять их вхождения…»
Кластеризация - какую таблетку ты выберешь?
Начну с метафоры. Читали Кастанеду ‘’Шаманский полет” и прочие его экзерсисы?
Индейцы Толтеки, как, впрочем, и создатели фильма Матрица, считают, что мир в котором мы живем – ни что иное как иллюзия. Человек находится внутри пузыря восприятия и видит окружающий мир как отражение самого себя на стенках этого пузыря. И только избранным, шаманами Алексею Чекушину ) открыта возможность выходить за рамки оболочки и наблюдать этот мир таким какой он есть.
К чему это я? Да к тому, что кластеризация — это и есть попытка по отражению и ряби на поверхности пузыря восприятия понять, что там снаружи. Но! Есть один пикантный нюанс, реальной картинки как будто бы не существует, как, впрочем, и красной таблетки. 🤯
Задача – изучить 4 способа кластеризации с вариациями:
1 - кластеризация по ТОПу (по Яндексу, по Google, по Ozon, по живой выдаче, по XML, по ТОП-10, по ТОП-20, Soft, Midle, Hard …)
2 - кластеризация по эмбеддингами или векторным представлениям слов (KMeans, Agglomerative Clustering, HDBSCAN, Bayesian Gaussian Mixture и прочие алгоритмы)
3 - кластеризация с помощью LLM моделей (Sonar, Claude Sonnet 4.0, Gemini 2.5 Pro, GPT-5, Grok 3, Perplexity)
4 - кластеризация по Яндекс Веб-мастеру
Цель - найти лучший алгоритм, который, что называется в лоб, покажет лучший результат.
Оценка результата – схожесть с эталонными группировками, которые мне любезно предоставили SEOшники экспертывампиры верхнего уровня .
Суть эксперимента:
1. Берём запросы, выполняем кластеризацию разными способами
2. Пытаемся найти оптимальный вариант
3. Сравниваем с эталонной выборкой
4. Делаем выводы
На бумаге все выглядит достаточно гладко за исключением пункта №2. Это как раз и есть попытка понять по каким-то метрикам правильно ли мы сгруппировали запросы.
Как это происходит у обычного сеошника?
Взяли запросы сняли топы, покрутили параметры, прикинули на глаз всё ли ок и дальше уже выгружаем все в Excel и начинаем руками перераспределять запросы если нужно. Достаточно муторная работа, требующая реального знания ниши усидчивости и определённых скилов.
Собственно исходя из этой боли и родилась идея. А что, если мы пойдём в учебник по машинному обучению, зададим кучу вопросов в Perplexity или ChatGPT и выведем такую формулу которая позволит нам избегать вот этой вот многочасовой и муторной доводки?
Я так и сделал! Результат тут 😆
Спойлерю - главный вывод, который я сделал в рамках исследования, заключается в том, что не существует идеального метода, позволяющего в лоб с первой итерации достичь приемлемого результата. Поэтому все сказки про некие чудо-инструменты и суперкластеризаторы - это всего лишь рябь на внутренней поверхности пузыря восприятия, не более.
Но, не стоит унывать! На самом деле получились довольно интересные результаты и алгоритм действий, который может приблизить вас к желаемому результату.
Начинаю серии публикаций про такую фундаментальную seoшную процедуру как "кластеризация запросов". Пристегните ремни будет интересно!
Начну с метафоры. Читали Кастанеду ‘’Шаманский полет” и прочие его экзерсисы?
Индейцы Толтеки, как, впрочем, и создатели фильма Матрица, считают, что мир в котором мы живем – ни что иное как иллюзия. Человек находится внутри пузыря восприятия и видит окружающий мир как отражение самого себя на стенках этого пузыря. И только избранным, шаманам
К чему это я? Да к тому, что кластеризация — это и есть попытка по отражению и ряби на поверхности пузыря восприятия понять, что там снаружи. Но! Есть один пикантный нюанс, реальной картинки как будто бы не существует, как, впрочем, и красной таблетки. 🤯
Задача – изучить 4 способа кластеризации с вариациями:
1 - кластеризация по ТОПу (по Яндексу, по Google, по Ozon, по живой выдаче, по XML, по ТОП-10, по ТОП-20, Soft, Midle, Hard …)
2 - кластеризация по эмбеддингами или векторным представлениям слов (KMeans, Agglomerative Clustering, HDBSCAN, Bayesian Gaussian Mixture и прочие алгоритмы)
3 - кластеризация с помощью LLM моделей (Sonar, Claude Sonnet 4.0, Gemini 2.5 Pro, GPT-5, Grok 3, Perplexity)
4 - кластеризация по Яндекс Веб-мастеру
Цель - найти лучший алгоритм, который, что называется в лоб, покажет лучший результат.
Оценка результата – схожесть с эталонными группировками, которые мне любезно предоставили SEOшники эксперты
Суть эксперимента:
1. Берём запросы, выполняем кластеризацию разными способами
2. Пытаемся найти оптимальный вариант
3. Сравниваем с эталонной выборкой
4. Делаем выводы
На бумаге все выглядит достаточно гладко за исключением пункта №2. Это как раз и есть попытка понять по каким-то метрикам правильно ли мы сгруппировали запросы.
Как это происходит у обычного сеошника?
Взяли запросы сняли топы, покрутили параметры, прикинули на глаз всё ли ок и дальше уже выгружаем все в Excel и начинаем руками перераспределять запросы если нужно. Достаточно муторная работа, требующая реального знания ниши усидчивости и определённых скилов.
Собственно исходя из этой боли и родилась идея. А что, если мы пойдём в учебник по машинному обучению, зададим кучу вопросов в Perplexity или ChatGPT и выведем такую формулу которая позволит нам избегать вот этой вот многочасовой и муторной доводки?
Я так и сделал! Результат тут 😆
Спойлерю - главный вывод, который я сделал в рамках исследования, заключается в том, что не существует идеального метода, позволяющего в лоб с первой итерации достичь приемлемого результата. Поэтому все сказки про некие чудо-инструменты и суперкластеризаторы - это всего лишь рябь на внутренней поверхности пузыря восприятия, не более.
Но, не стоит унывать! На самом деле получились довольно интересные результаты и алгоритм действий, который может приблизить вас к желаемому результату.
Начинаю серии публикаций про такую фундаментальную seoшную процедуру как "кластеризация запросов". Пристегните ремни будет интересно!
💊7🔥4👍3❤1
Сравнение алгоритмов кластеризации – Займы на карту
Эталонное ядро: 6521 ключа,141 кластер
Сравниваемые алгоритмы и модификации (всего 51 шт.)
1) Кластеризации по ТОПу Яндекса и Google
2) По ТОП-10 и ТОП-20
3) По типам Hard, Soft, Middle
4) Кластеризация по Сайтам Чемпионам
5) Кластеризация по Эмбеддингам по алгоритмам KMeans, Agglomerative Clustering, Spectral Clustering, DBSCAN, Gaussian Mixture , Bayesian Gaussian Mixture, HDBSCAN
Метрика для оценки ARI
Индекс Adjusted Rand (ARI) – это метрика, используемая в анализе кластеризации для оценки сходства между двумя разбиениями данных (кластеризациями), скорректированная с учетом случайного совпадения, что делает его наиболее надежным показателем.
Лучшие результаты
- кластеризация по sravni.ru и banki.ru
- по middle по Яндексу по ТОП-20
- агломеративная кластеризация по эмбеддингам
Худшие результаты
- кластеризация по ТОПу с жесткими ограничениями (например по ТОПу по Hard c порогом 4) и
- почти все LLM
- плюс кластеризация по ряду алгоритмов по эмбеддингам.
Вывод - с первой итерации хотя бы 90% результат не дал ни кто!
Эталонное ядро: 6521 ключа,141 кластер
Сравниваемые алгоритмы и модификации (всего 51 шт.)
1) Кластеризации по ТОПу Яндекса и Google
2) По ТОП-10 и ТОП-20
3) По типам Hard, Soft, Middle
4) Кластеризация по Сайтам Чемпионам
5) Кластеризация по Эмбеддингам по алгоритмам KMeans, Agglomerative Clustering, Spectral Clustering, DBSCAN, Gaussian Mixture , Bayesian Gaussian Mixture, HDBSCAN
Метрика для оценки ARI
Индекс Adjusted Rand (ARI) – это метрика, используемая в анализе кластеризации для оценки сходства между двумя разбиениями данных (кластеризациями), скорректированная с учетом случайного совпадения, что делает его наиболее надежным показателем.
Лучшие результаты
- кластеризация по sravni.ru и banki.ru
- по middle по Яндексу по ТОП-20
- агломеративная кластеризация по эмбеддингам
Худшие результаты
- кластеризация по ТОПу с жесткими ограничениями (например по ТОПу по Hard c порогом 4) и
- почти все LLM
- плюс кластеризация по ряду алгоритмов по эмбеддингам.
Вывод - с первой итерации хотя бы 90% результат не дал ни кто!
👍5🔥2
Кластеризация – эксперименты и выводы, продолжение
Пример сложной тематики №2 - кредиты, эталонная выборка – 1490 ключей, 143 кластера, 24 алгоритма для исследования
Лучшие результаты кластеризации:
По ТОП-20 XML Яндексу по сайту banki.ru (middle)
По ТОП-20 Google по сайту banki.ru (middle)
По ТОП-20 XML Яндексу (middle)
По ТОП-20 Google по (\ middle)
Худшие результаты кластеризации:
Perplexity в режиме research
По ТОП-20 Google (soft)
По ТОП-20 Yandex (soft)
Дальше приводить результаты экспериментов не вижу смысла, поскольку спустя почти 2 месяца проб, ошибок и выгорания я смог сделать определенные выводы и давайте я вас с ними познакомлю.
Выводы из экспериментов
1) Софт не имеет значения, все они делают одно и то же, снимают ТОПы по запросам и находят пересечения. Я в исследовании использовал keyassort и собственный кластеризатор на Python, результаты идентичны.
2) XML и Live выдача в Яндексе – не увидел принципиальной разницы. XML работает стабильней и быстрее, поэтому нет смысла заморачиваться.
3) Лучший агрегатор XML для массовых проверок - https://xmlstock.com/, работает стабильнее чем River плюс поддерживает больше потоков
4) Как это не удивительно, но я не увидел большой разницы в оценках между Яндекс и Google. Честно говоря, ожидал большего разброса, но результаты схожи.
5) На схожесть результатов сильно влияет разброс ядра. Чем оно разнообразнее, тем лучше результаты.
6) Нейросети (LLM) пока рано использовать, слишком большой разброс и нестабильный результат.
7) Хорошо, когда в нише есть безоговорочный лидер, например exist.ru в автозапчастях. Зачастую кластеризация по сайту лидеру дает лучший процент схожести с эталонной выборкой. Ну и кто возразит, что banki.ru – у нас явный и многолетний лидер?
8) Кластеризация по жестким условиям – плохой результат, например по Хард алгоритму по ТОП-10 с порогом схожести 4 и выше
9) Кластеризация по Яндекс Вебмастеру – сложно, долго. ЯВМ больше под сбор семантики чем под кластеризацию
10) Кластеризация по эмбеддингам - хорошо отрабатывает на больших разнородных ядрах. Причем сами эмбеддинги стоят копейки. Я в общей сложности просмотрел порядка 500 к запросов и потратил на это не более 70 р. Да для сложных тематик эмбеддинги не подходят, но для тех же самых автозапчастей разобрать пару миллионов запросов - легко! Вы на таких объемах запаритесь ТОПы снимать.
Ну и возможно самый главный вывод: Кластеризация в Яндексе – напрямую коррелирует с ПФ вашей страницы. Чем лучше ПФ, тем больше он вам докидывает запросов. И то, что вы кластеризуете сейчас – это некая средняя температура по больнице. Если вдруг, ваш сайт окажется лучшим в ТОПе по ПФ, то с высокой степенью вероятности первоначальная кластеризация, которую вы делали по ТОПам или по Лидерам – сломается.
Я двигаю пару проектов в нише агрегаторов GPT и прочих нейросетей и могу сказать, что есть пара сайтов находящихся в ТОПе почти без вхождений, но поскольку там сумасшедшие ПФ за счет бесплатно представляемой услуги – они показываются по очень широкому ядру запросов!
Роадмап
1) Снимаете ТОПы
2) Кластеризуете по несильно жестким условиям, выявляете лидеров
3) Крутите коэффициенты
4) Сравниваете с лидерами
5) Смотрите корреляцию по сайтам из ТОПов по Яндекс Вебмастеру.
Что делать после кластеризации? Внедрять в различные зоны документов, не забывайте при этом про n-граммы и LSI термины. Боты в помощь!
Пример сложной тематики №2 - кредиты, эталонная выборка – 1490 ключей, 143 кластера, 24 алгоритма для исследования
Лучшие результаты кластеризации:
По ТОП-20 XML Яндексу по сайту banki.ru (middle)
По ТОП-20 Google по сайту banki.ru (middle)
По ТОП-20 XML Яндексу (middle)
По ТОП-20 Google по (\ middle)
Худшие результаты кластеризации:
Perplexity в режиме research
По ТОП-20 Google (soft)
По ТОП-20 Yandex (soft)
Дальше приводить результаты экспериментов не вижу смысла, поскольку спустя почти 2 месяца проб, ошибок и выгорания я смог сделать определенные выводы и давайте я вас с ними познакомлю.
Выводы из экспериментов
1) Софт не имеет значения, все они делают одно и то же, снимают ТОПы по запросам и находят пересечения. Я в исследовании использовал keyassort и собственный кластеризатор на Python, результаты идентичны.
2) XML и Live выдача в Яндексе – не увидел принципиальной разницы. XML работает стабильней и быстрее, поэтому нет смысла заморачиваться.
3) Лучший агрегатор XML для массовых проверок - https://xmlstock.com/, работает стабильнее чем River плюс поддерживает больше потоков
4) Как это не удивительно, но я не увидел большой разницы в оценках между Яндекс и Google. Честно говоря, ожидал большего разброса, но результаты схожи.
5) На схожесть результатов сильно влияет разброс ядра. Чем оно разнообразнее, тем лучше результаты.
6) Нейросети (LLM) пока рано использовать, слишком большой разброс и нестабильный результат.
7) Хорошо, когда в нише есть безоговорочный лидер, например exist.ru в автозапчастях. Зачастую кластеризация по сайту лидеру дает лучший процент схожести с эталонной выборкой. Ну и кто возразит, что banki.ru – у нас явный и многолетний лидер?
8) Кластеризация по жестким условиям – плохой результат, например по Хард алгоритму по ТОП-10 с порогом схожести 4 и выше
9) Кластеризация по Яндекс Вебмастеру – сложно, долго. ЯВМ больше под сбор семантики чем под кластеризацию
10) Кластеризация по эмбеддингам - хорошо отрабатывает на больших разнородных ядрах. Причем сами эмбеддинги стоят копейки. Я в общей сложности просмотрел порядка 500 к запросов и потратил на это не более 70 р. Да для сложных тематик эмбеддинги не подходят, но для тех же самых автозапчастей разобрать пару миллионов запросов - легко! Вы на таких объемах запаритесь ТОПы снимать.
Ну и возможно самый главный вывод: Кластеризация в Яндексе – напрямую коррелирует с ПФ вашей страницы. Чем лучше ПФ, тем больше он вам докидывает запросов. И то, что вы кластеризуете сейчас – это некая средняя температура по больнице. Если вдруг, ваш сайт окажется лучшим в ТОПе по ПФ, то с высокой степенью вероятности первоначальная кластеризация, которую вы делали по ТОПам или по Лидерам – сломается.
Я двигаю пару проектов в нише агрегаторов GPT и прочих нейросетей и могу сказать, что есть пара сайтов находящихся в ТОПе почти без вхождений, но поскольку там сумасшедшие ПФ за счет бесплатно представляемой услуги – они показываются по очень широкому ядру запросов!
Роадмап
1) Снимаете ТОПы
2) Кластеризуете по несильно жестким условиям, выявляете лидеров
3) Крутите коэффициенты
4) Сравниваете с лидерами
5) Смотрите корреляцию по сайтам из ТОПов по Яндекс Вебмастеру.
Что делать после кластеризации? Внедрять в различные зоны документов, не забывайте при этом про n-граммы и LSI термины. Боты в помощь!
👏13👍8❤4🆒1💊1
GEO конференция, доклад Олега Шестакова, готовлюсь к вебинару у Шакина
Краткий дайджест как я провел прошлую неделю.
1. Сгонял на конфу от Ашманова по продвижению в нейросетях. Встретил кучу знакомых, очень рад был всех видеть. Что касается конфы – сыровато, но оно и понятно, все только начинают въезжать в тему. По моему скромному мнению, лучший доклад был у хэда сравни.ру Артема Багненко.
2. 15 декабря будет теплый ламповый вебинар у Михаила Шакина посвященный хайповой теме Вайбкодинга, анонс сделаю чуть позже
3. Ну и событие, поразившее меня в самую пятку – доклад Олега Шестакова на SEO клубе СПБ. Рекомендую к просмотру! Вообще команда Рашей, пожалуй, глубже и фундаментальнее всех копает в сторону ИИ. Основная идея доклада – строить структуру инфостатей на основе entities (сущностей), обогащать их с помощью API Google Knowledge Graph и потом на триплетах строить статьи, предварительно отсеяв нерелевантные сущности с помощью механизма косинусной близости. Надеюсь несложно написал? 😉
Короче, идея мне зашла настолько, что в один из вечеров, я открыл свой любимый МАК где живет Питон и собрал скриптину по докладу Олега. Получилось прикольно и довольно быстро, учитывая, что у меня уже была куча решений и связок, которые я собрал воедино. Спасибо Олег!). Короче у меня новая игрушка теперь. Посмотрим как будут заходить в ТОП статьи написанные по данному алгоритму
Краткий дайджест как я провел прошлую неделю.
1. Сгонял на конфу от Ашманова по продвижению в нейросетях. Встретил кучу знакомых, очень рад был всех видеть. Что касается конфы – сыровато, но оно и понятно, все только начинают въезжать в тему. По моему скромному мнению, лучший доклад был у хэда сравни.ру Артема Багненко.
2. 15 декабря будет теплый ламповый вебинар у Михаила Шакина посвященный хайповой теме Вайбкодинга, анонс сделаю чуть позже
3. Ну и событие, поразившее меня в самую пятку – доклад Олега Шестакова на SEO клубе СПБ. Рекомендую к просмотру! Вообще команда Рашей, пожалуй, глубже и фундаментальнее всех копает в сторону ИИ. Основная идея доклада – строить структуру инфостатей на основе entities (сущностей), обогащать их с помощью API Google Knowledge Graph и потом на триплетах строить статьи, предварительно отсеяв нерелевантные сущности с помощью механизма косинусной близости. Надеюсь несложно написал? 😉
Короче, идея мне зашла настолько, что в один из вечеров, я открыл свой любимый МАК где живет Питон и собрал скриптину по докладу Олега. Получилось прикольно и довольно быстро, учитывая, что у меня уже была куча решений и связок, которые я собрал воедино. Спасибо Олег!). Короче у меня новая игрушка теперь. Посмотрим как будут заходить в ТОП статьи написанные по данному алгоритму
🔥10👀1