Forwarded from Канал seo блоггера Евгения Молдовану
Python скрипт для получения ngram из топа выдачи Яндекса.
Реализовывал для личных нужд, но возможно кому то тоже будет интересно.
Зачем нужны N-граммы?
Они наравне с LSI используются для расчета текстовой релевантности. В большинстве случаев получить топ без них будет сложно.
Исходник на Гитхабе https://github.com/Devvver/ngram , там же и описание работы и нужные для запуска инструкции.
По любым вопросам, исправлениям пишите в личку.
Если вам не нужен питон и вы хотите использовать готовый сервис - рекомендую
https://dev.seocatapult.ru/query
Реализовывал для личных нужд, но возможно кому то тоже будет интересно.
Зачем нужны N-граммы?
Они наравне с LSI используются для расчета текстовой релевантности. В большинстве случаев получить топ без них будет сложно.
Исходник на Гитхабе https://github.com/Devvver/ngram , там же и описание работы и нужные для запуска инструкции.
По любым вопросам, исправлениям пишите в личку.
Если вам не нужен питон и вы хотите использовать готовый сервис - рекомендую
https://dev.seocatapult.ru/query
GitHub
GitHub - Devvver/ngram: Получение данных по xml API Яндекса (топ 10 юрл из выдачи), парсинг статей с топа и получение ngram
Получение данных по xml API Яндекса (топ 10 юрл из выдачи), парсинг статей с топа и получение ngram - Devvver/ngram
Сервис проверки ответа от url на 301, 404, 500 и другие ошибки c возможностью экспорта в csv https://github.com/Devvver/streamlite
Для запуска выполните pip install selenium в терминале IDE или Windows.
Скрипт не умеет авторизироваться самостоятельно, поэтому после открытия браузера найдите кнопку Авторизация и введите емейл и пароль. Скрипт берет список ссылок из файла site.txt и проверяет их в https://ru.megaindex.com/backlinks Парсит Trust DR RANK и тематику ссылок. Для парсинга использует Selenium, поэтому обновите свой chromedriver.exe в папке для вашей версии Chrome. Результат парсинга будет в Сайты.csv
https://github.com/Devvver/megaindex
#seo #python #парсинг #домены
Скрипт не умеет авторизироваться самостоятельно, поэтому после открытия браузера найдите кнопку Авторизация и введите емейл и пароль. Скрипт берет список ссылок из файла site.txt и проверяет их в https://ru.megaindex.com/backlinks Парсит Trust DR RANK и тематику ссылок. Для парсинга использует Selenium, поэтому обновите свой chromedriver.exe в папке для вашей версии Chrome. Результат парсинга будет в Сайты.csv
https://github.com/Devvver/megaindex
#seo #python #парсинг #домены
👍1
Channel name was changed to «ChatGPT,AI, Python для SEO - автоматизация»
Forwarded from Канал seo блоггера Евгения Молдовану
Наверное сталкивались с проблемой экспорта данных сгенерированных из ChatGPT или Gemini в ручном режиме. При попытке скопировать вставляет хлам вида data-sourcepos. Также вставляет спецсимволы, strong тег и другое в Wordpress редактор.
Скрипт в архиве решает эти проблемы, удаляя весь этот хлам. Только не запускайте в архиве, сначала распакуйте всю папку clear вместе с файлами. Файл html + js, можете допилить под свои нужны и сделать более дружественный интерфейс.
Скрипт в архиве решает эти проблемы, удаляя весь этот хлам. Только не запускайте в архиве, сначала распакуйте всю папку clear вместе с файлами. Файл html + js, можете допилить под свои нужны и сделать более дружественный интерфейс.
Forwarded from Mike Blazer (Mike Blazer)
Найдите статьи Википедии, нуждающиеся в цитировании!
Простое приложение для помощи в построении ссылок из Википедии, которое находит статьи, нуждающиеся в цитировании.
Вы можете использовать:
— Существующий контент
— Расширить существующий контент
— Создать новый контент для цитирования
Просто введите ключевое слово, чтобы увидеть все страницы, которые нуждаются в цитировании.
Удобная загрузка документа Word
Поделитесь с командой или сохраните результаты на потом!
Это приложение лучше всего подходит для устоявшихся веб-сайтов / компаний с ресурсами для написания хорошо изученных, качественных статей, которые могут быть процитированы.
Если все сделать правильно, то выиграют все.
Википедия получает высококачественное цитирование, а ваш сайт - обратную ссылку.
Расширение существующего контента - один из самых простых способов добиться цитирования, но если у вас нет ничего, что можно переработать, придется писать что-то новое.
Отсутствие цитирования может также указывать на нехватку контента, которую стоит изучить.
Посмотрите видео о том, как это работает, перейдя по этой ссылке.
Приложение: https://wikicite.streamlit.app/
Исходный код: https://github.com/searchsolved/search-solved-public-seo/tree/main/linking/wikipedia-citation-finder
Ссылки и инструкции: https://leefoot.co.uk/portfolio/free-streamlit-app-wikipedia-citation-needed-finder/
@MikeBlazerX
Простое приложение для помощи в построении ссылок из Википедии, которое находит статьи, нуждающиеся в цитировании.
Вы можете использовать:
— Существующий контент
— Расширить существующий контент
— Создать новый контент для цитирования
Просто введите ключевое слово, чтобы увидеть все страницы, которые нуждаются в цитировании.
Удобная загрузка документа Word
Поделитесь с командой или сохраните результаты на потом!
Это приложение лучше всего подходит для устоявшихся веб-сайтов / компаний с ресурсами для написания хорошо изученных, качественных статей, которые могут быть процитированы.
Если все сделать правильно, то выиграют все.
Википедия получает высококачественное цитирование, а ваш сайт - обратную ссылку.
Расширение существующего контента - один из самых простых способов добиться цитирования, но если у вас нет ничего, что можно переработать, придется писать что-то новое.
Отсутствие цитирования может также указывать на нехватку контента, которую стоит изучить.
Посмотрите видео о том, как это работает, перейдя по этой ссылке.
Приложение: https://wikicite.streamlit.app/
Исходный код: https://github.com/searchsolved/search-solved-public-seo/tree/main/linking/wikipedia-citation-finder
Ссылки и инструкции: https://leefoot.co.uk/portfolio/free-streamlit-app-wikipedia-citation-needed-finder/
@MikeBlazerX
Forwarded from Dart: Product SEO Engineer (Dárt 検索)
Бесплатный кластеризатор по топам
Для собственных нужд, я сделал кластеризатор по похожести SERP. Побудило на создание меня следующее:
- Программы чаще всего сделаны под Windows.
- Сервисы обычно предоставляют услугу как дополнительную.
- На больших объемах не выгодно.
- Виснут на 100к+ ключевых слов, мне нужны большие объемы.
- ChatGPT предлагает кластеризацию, которая не справляется с большими объемами.
- Мне нужна была поддержка любых языков.
- Не требовательно к ресурсам.
Я подумал, что для URL не обязательно нужна векторизация. По сути топ это множество, а для множеств можно использовать другие формулы, поэтому сделал кластеризатор на основе Коэффициента Жаккара. Я опробовал и другие, например, Dice или Overlap, но они оказались хуже.
За репост буду благодарен! 🙏
Инструкция:
Сохраните себе копию данного файла на Google Drive через File, чтобы не сталкиваться каждый раз с предупреждением от Google Colab.
Внимание! Этот код только кластеризует, он не собирает выдачу. Собрать выдачу можно с помощью других сервисов, например, выгрузить Ahrefs с галочкой на Include top 10 positions from SERP for each keyword.
Для запуска необходимо нажать на кнопку play (▷) внизу и следовать инструкции.
1. Choose files. Загружаем CSV файл с, как минимум, 2-мя колонками: Keywords и URL.
2. Column delimiter. Вводим разделитель колонок. По умолчанию это запятая.
3. Keywords column label. Вводим заголовок колонки для поисковых фраз (чувствителен к регистру).
4. URL column label. Вводим заголовок колонки для URL (чувствителен к регистру).
5. Similarity threshold. Вводим порог похожести, я рекомендую 0,6.
6. Жмем кнопку Run.
7. После окончания работы нажимаем Save, чтобы сохранить в папку Downloads.
Файл результатов
1. Каждая группа в колонке Group имеет номер, начинающийся с 0.
2. Ключевые фразы, которые объеденены в один кластер, будут иметь один номер группы.
3. Если фраза не имеет общих групп с другими фразами, то она выделяется в отдельную группу.
4. Если фразы не имеют собранных URL, то они все выделяются в группу -1.
Внимание! В браузере Safari работает некорректно, необходимо использовать Chrome.
https://colab.research.google.com/drive/1QGNNuY7OSBErn5am-dS1lnubHr-65kSF?usp=sharing
Для собственных нужд, я сделал кластеризатор по похожести SERP. Побудило на создание меня следующее:
- Программы чаще всего сделаны под Windows.
- Сервисы обычно предоставляют услугу как дополнительную.
- На больших объемах не выгодно.
- Виснут на 100к+ ключевых слов, мне нужны большие объемы.
- ChatGPT предлагает кластеризацию, которая не справляется с большими объемами.
- Мне нужна была поддержка любых языков.
- Не требовательно к ресурсам.
Я подумал, что для URL не обязательно нужна векторизация. По сути топ это множество, а для множеств можно использовать другие формулы, поэтому сделал кластеризатор на основе Коэффициента Жаккара. Я опробовал и другие, например, Dice или Overlap, но они оказались хуже.
За репост буду благодарен! 🙏
Инструкция:
Сохраните себе копию данного файла на Google Drive через File, чтобы не сталкиваться каждый раз с предупреждением от Google Colab.
Внимание! Этот код только кластеризует, он не собирает выдачу. Собрать выдачу можно с помощью других сервисов, например, выгрузить Ahrefs с галочкой на Include top 10 positions from SERP for each keyword.
Для запуска необходимо нажать на кнопку play (▷) внизу и следовать инструкции.
1. Choose files. Загружаем CSV файл с, как минимум, 2-мя колонками: Keywords и URL.
2. Column delimiter. Вводим разделитель колонок. По умолчанию это запятая.
3. Keywords column label. Вводим заголовок колонки для поисковых фраз (чувствителен к регистру).
4. URL column label. Вводим заголовок колонки для URL (чувствителен к регистру).
5. Similarity threshold. Вводим порог похожести, я рекомендую 0,6.
6. Жмем кнопку Run.
7. После окончания работы нажимаем Save, чтобы сохранить в папку Downloads.
Файл результатов
1. Каждая группа в колонке Group имеет номер, начинающийся с 0.
2. Ключевые фразы, которые объеденены в один кластер, будут иметь один номер группы.
3. Если фраза не имеет общих групп с другими фразами, то она выделяется в отдельную группу.
4. Если фразы не имеют собранных URL, то они все выделяются в группу -1.
Внимание! В браузере Safari работает некорректно, необходимо использовать Chrome.
https://colab.research.google.com/drive/1QGNNuY7OSBErn5am-dS1lnubHr-65kSF?usp=sharing
Google
SERP-Similarity-Keyword-Clustering-by-Dart.ipynb
Colab notebook
Forwarded from Dart: Product SEO Engineer (Dárt 検索)
Кластеризатор массивных семантических ядер по схожести выдачи
Для огромных семантических ядер скорость и масштабирумость группировки может быть более важна, чем ее точность, поэтому для таких случаев у меня был в запасе другой алгоритм. Он является продолжением идеи кластеризации через меру Жаккара описанной в предыдущих постах (1, 2). В комментариях к постам и в личных сообщениях возник интерес к решениям для массивных семантических ядер, поэтому я переписал предыдущий скрипт для них.
За репост буду благодарен! 🙏
В алгоритме используется техника MinHash и LSH. Этот метод, основанный на хэшировании и индексации множеств, позволяет быстро искать частичные дубликаты на больших данных. Он также, как кластеризатор из предыдущих постов, менее ресурсоемкий, чем векторное преобразование и операции над матрицами.
В чем разница между мерой Жаккара и этим решением?
Точность vs. Эффективность: Коэффициент Жаккара обеспечивает точное значение схожести, но неэффективен для больших данных. MinHash и LSH предоставляют приближенное значение, но значительно более эффективны для обработки больших объемов данных.
Например, японское семантическое ядро в 480 тысяч ключевых фраз было сгруппировано за 30 минут. Конечный результат вполне устроил, учитывая, что метод на основе Жаккара считал такой объем более суток. Отлично подойдет для дорвейщиков!
Скачать можно здесь:
https://drive.google.com/file/d/1b01TbXmWINe3w0haneMcHVy-opFZkwqH/view?usp=share_link
Проект на Github:
https://github.com/dartseoengineer/keyword-clustering-minhash
Инструкция
Внимание! Этот скрипт только кластеризует, для сбора выдачи используйте сторонние программы, например, A-Parser.
1. Предварительно установите библиотеки pandas и tqdm.
2. Инструкция по использованию скрипта в командной строке:
Обязательные аргументы
input_file: Путь к входному CSV файлу.
output_file: Путь для сохранения выходного файла с кластеризованными ключевыми словами.
Необязательные аргументы
-s, --separator: Разделитель во входном файле (по умолчанию: `,`).
-k, --keyword_col: Название столбца с ключевыми словами во входном файле (по умолчанию: `Keyword`).
-u, --url_col: Название столбца с URL во входном файле (по умолчанию: `URL`).
-t, --similarity_threshold: Порог схожести (по умолчанию: `0.6`).
Пример команды в терминале
Файл результатов
1. Каждая группа в колонке Group имеет номер, начинающийся с 0.
2. Ключевые фразы, которые объеденены в один кластер, будут иметь один номер группы.
3. Если фраза не имеет общих групп с другими фразами, то она выделяется в отдельную группу.
4. Если фразы не имеют собранных URL, то они все выделяются в группу -1.
Для огромных семантических ядер скорость и масштабирумость группировки может быть более важна, чем ее точность, поэтому для таких случаев у меня был в запасе другой алгоритм. Он является продолжением идеи кластеризации через меру Жаккара описанной в предыдущих постах (1, 2). В комментариях к постам и в личных сообщениях возник интерес к решениям для массивных семантических ядер, поэтому я переписал предыдущий скрипт для них.
За репост буду благодарен! 🙏
В алгоритме используется техника MinHash и LSH. Этот метод, основанный на хэшировании и индексации множеств, позволяет быстро искать частичные дубликаты на больших данных. Он также, как кластеризатор из предыдущих постов, менее ресурсоемкий, чем векторное преобразование и операции над матрицами.
В чем разница между мерой Жаккара и этим решением?
Точность vs. Эффективность: Коэффициент Жаккара обеспечивает точное значение схожести, но неэффективен для больших данных. MinHash и LSH предоставляют приближенное значение, но значительно более эффективны для обработки больших объемов данных.
Например, японское семантическое ядро в 480 тысяч ключевых фраз было сгруппировано за 30 минут. Конечный результат вполне устроил, учитывая, что метод на основе Жаккара считал такой объем более суток. Отлично подойдет для дорвейщиков!
Скачать можно здесь:
https://drive.google.com/file/d/1b01TbXmWINe3w0haneMcHVy-opFZkwqH/view?usp=share_link
Проект на Github:
https://github.com/dartseoengineer/keyword-clustering-minhash
Инструкция
Внимание! Этот скрипт только кластеризует, для сбора выдачи используйте сторонние программы, например, A-Parser.
1. Предварительно установите библиотеки pandas и tqdm.
pip install pandas
pip install tqdm
pip install datasketch
2. Инструкция по использованию скрипта в командной строке:
Обязательные аргументы
input_file: Путь к входному CSV файлу.
output_file: Путь для сохранения выходного файла с кластеризованными ключевыми словами.
Необязательные аргументы
-s, --separator: Разделитель во входном файле (по умолчанию: `,`).
-k, --keyword_col: Название столбца с ключевыми словами во входном файле (по умолчанию: `Keyword`).
-u, --url_col: Название столбца с URL во входном файле (по умолчанию: `URL`).
-t, --similarity_threshold: Порог схожести (по умолчанию: `0.6`).
Пример команды в терминале
python minhash-cluster-cli.py for-clustering.csv clustered_keywords.csv -s ';' -k 'keyword' -u 'url' -t 0.6
Файл результатов
1. Каждая группа в колонке Group имеет номер, начинающийся с 0.
2. Ключевые фразы, которые объеденены в один кластер, будут иметь один номер группы.
3. Если фраза не имеет общих групп с другими фразами, то она выделяется в отдельную группу.
4. Если фразы не имеют собранных URL, то они все выделяются в группу -1.
Telegram
Advanced SEO
Бесплатный кластеризатор по топам
Для собственных нужд, я сделал кластеризатор по похожести SERP. Побудило на создание меня следующее:
- Программы чаще всего сделаны под Windows.
- Сервисы обычно предоставляют услугу как дополнительную.
- На больших объемах…
Для собственных нужд, я сделал кластеризатор по похожести SERP. Побудило на создание меня следующее:
- Программы чаще всего сделаны под Windows.
- Сервисы обычно предоставляют услугу как дополнительную.
- На больших объемах…
👍1🔥1👌1
Forwarded from Канал seo блоггера Евгения Молдовану
Написал парсер для получения ответов от Gemini (аналог ChatGPT) с помощью их API.
Скрипт позволяет получить данные из csv и из заголовков написать условия с шаблонами для запросов к чатботу.
Что можно делать с его помощью? Примеры:
1) Массово генерировать статьи с условиями
2) Генерировать Title и дескрипшионы
3) Анализировать данные (как в Excel) после ответа чатбота.
4) Получать LSI или слова задающие тематику для ключевых фраз
5) И так далее. Весь функционал который есть у чатботов.
Ссылка на проект https://github.com/Devvver/gemini_csv_parser
Там же условия использования и запуска.
Буду благодарен репосту за opensource решение.
Скрипт позволяет получить данные из csv и из заголовков написать условия с шаблонами для запросов к чатботу.
Что можно делать с его помощью? Примеры:
1) Массово генерировать статьи с условиями
2) Генерировать Title и дескрипшионы
3) Анализировать данные (как в Excel) после ответа чатбота.
4) Получать LSI или слова задающие тематику для ключевых фраз
5) И так далее. Весь функционал который есть у чатботов.
Ссылка на проект https://github.com/Devvver/gemini_csv_parser
Там же условия использования и запуска.
Буду благодарен репосту за opensource решение.
👍2