Forwarded from Канал seo блоггера Евгения Молдовану
Python скрипт для получения ngram из топа выдачи Яндекса.
Реализовывал для личных нужд, но возможно кому то тоже будет интересно.
Зачем нужны N-граммы?
Они наравне с LSI используются для расчета текстовой релевантности. В большинстве случаев получить топ без них будет сложно.
Исходник на Гитхабе https://github.com/Devvver/ngram , там же и описание работы и нужные для запуска инструкции.
По любым вопросам, исправлениям пишите в личку.
Если вам не нужен питон и вы хотите использовать готовый сервис - рекомендую
https://dev.seocatapult.ru/query
Реализовывал для личных нужд, но возможно кому то тоже будет интересно.
Зачем нужны N-граммы?
Они наравне с LSI используются для расчета текстовой релевантности. В большинстве случаев получить топ без них будет сложно.
Исходник на Гитхабе https://github.com/Devvver/ngram , там же и описание работы и нужные для запуска инструкции.
По любым вопросам, исправлениям пишите в личку.
Если вам не нужен питон и вы хотите использовать готовый сервис - рекомендую
https://dev.seocatapult.ru/query
GitHub
GitHub - Devvver/ngram: Получение данных по xml API Яндекса (топ 10 юрл из выдачи), парсинг статей с топа и получение ngram
Получение данных по xml API Яндекса (топ 10 юрл из выдачи), парсинг статей с топа и получение ngram - Devvver/ngram
Сервис проверки ответа от url на 301, 404, 500 и другие ошибки c возможностью экспорта в csv https://github.com/Devvver/streamlite
Для запуска выполните pip install selenium в терминале IDE или Windows.
Скрипт не умеет авторизироваться самостоятельно, поэтому после открытия браузера найдите кнопку Авторизация и введите емейл и пароль. Скрипт берет список ссылок из файла site.txt и проверяет их в https://ru.megaindex.com/backlinks Парсит Trust DR RANK и тематику ссылок. Для парсинга использует Selenium, поэтому обновите свой chromedriver.exe в папке для вашей версии Chrome. Результат парсинга будет в Сайты.csv
https://github.com/Devvver/megaindex
#seo #python #парсинг #домены
Скрипт не умеет авторизироваться самостоятельно, поэтому после открытия браузера найдите кнопку Авторизация и введите емейл и пароль. Скрипт берет список ссылок из файла site.txt и проверяет их в https://ru.megaindex.com/backlinks Парсит Trust DR RANK и тематику ссылок. Для парсинга использует Selenium, поэтому обновите свой chromedriver.exe в папке для вашей версии Chrome. Результат парсинга будет в Сайты.csv
https://github.com/Devvver/megaindex
#seo #python #парсинг #домены
👍1
Channel name was changed to «ChatGPT,AI, Python для SEO - автоматизация»
Forwarded from Канал seo блоггера Евгения Молдовану
Наверное сталкивались с проблемой экспорта данных сгенерированных из ChatGPT или Gemini в ручном режиме. При попытке скопировать вставляет хлам вида data-sourcepos. Также вставляет спецсимволы, strong тег и другое в Wordpress редактор.
Скрипт в архиве решает эти проблемы, удаляя весь этот хлам. Только не запускайте в архиве, сначала распакуйте всю папку clear вместе с файлами. Файл html + js, можете допилить под свои нужны и сделать более дружественный интерфейс.
Скрипт в архиве решает эти проблемы, удаляя весь этот хлам. Только не запускайте в архиве, сначала распакуйте всю папку clear вместе с файлами. Файл html + js, можете допилить под свои нужны и сделать более дружественный интерфейс.
Forwarded from Mike Blazer (Mike Blazer)
Найдите статьи Википедии, нуждающиеся в цитировании!
Простое приложение для помощи в построении ссылок из Википедии, которое находит статьи, нуждающиеся в цитировании.
Вы можете использовать:
— Существующий контент
— Расширить существующий контент
— Создать новый контент для цитирования
Просто введите ключевое слово, чтобы увидеть все страницы, которые нуждаются в цитировании.
Удобная загрузка документа Word
Поделитесь с командой или сохраните результаты на потом!
Это приложение лучше всего подходит для устоявшихся веб-сайтов / компаний с ресурсами для написания хорошо изученных, качественных статей, которые могут быть процитированы.
Если все сделать правильно, то выиграют все.
Википедия получает высококачественное цитирование, а ваш сайт - обратную ссылку.
Расширение существующего контента - один из самых простых способов добиться цитирования, но если у вас нет ничего, что можно переработать, придется писать что-то новое.
Отсутствие цитирования может также указывать на нехватку контента, которую стоит изучить.
Посмотрите видео о том, как это работает, перейдя по этой ссылке.
Приложение: https://wikicite.streamlit.app/
Исходный код: https://github.com/searchsolved/search-solved-public-seo/tree/main/linking/wikipedia-citation-finder
Ссылки и инструкции: https://leefoot.co.uk/portfolio/free-streamlit-app-wikipedia-citation-needed-finder/
@MikeBlazerX
Простое приложение для помощи в построении ссылок из Википедии, которое находит статьи, нуждающиеся в цитировании.
Вы можете использовать:
— Существующий контент
— Расширить существующий контент
— Создать новый контент для цитирования
Просто введите ключевое слово, чтобы увидеть все страницы, которые нуждаются в цитировании.
Удобная загрузка документа Word
Поделитесь с командой или сохраните результаты на потом!
Это приложение лучше всего подходит для устоявшихся веб-сайтов / компаний с ресурсами для написания хорошо изученных, качественных статей, которые могут быть процитированы.
Если все сделать правильно, то выиграют все.
Википедия получает высококачественное цитирование, а ваш сайт - обратную ссылку.
Расширение существующего контента - один из самых простых способов добиться цитирования, но если у вас нет ничего, что можно переработать, придется писать что-то новое.
Отсутствие цитирования может также указывать на нехватку контента, которую стоит изучить.
Посмотрите видео о том, как это работает, перейдя по этой ссылке.
Приложение: https://wikicite.streamlit.app/
Исходный код: https://github.com/searchsolved/search-solved-public-seo/tree/main/linking/wikipedia-citation-finder
Ссылки и инструкции: https://leefoot.co.uk/portfolio/free-streamlit-app-wikipedia-citation-needed-finder/
@MikeBlazerX
Forwarded from Dart: Product SEO Engineer (Dárt 検索)
Бесплатный кластеризатор по топам
Для собственных нужд, я сделал кластеризатор по похожести SERP. Побудило на создание меня следующее:
- Программы чаще всего сделаны под Windows.
- Сервисы обычно предоставляют услугу как дополнительную.
- На больших объемах не выгодно.
- Виснут на 100к+ ключевых слов, мне нужны большие объемы.
- ChatGPT предлагает кластеризацию, которая не справляется с большими объемами.
- Мне нужна была поддержка любых языков.
- Не требовательно к ресурсам.
Я подумал, что для URL не обязательно нужна векторизация. По сути топ это множество, а для множеств можно использовать другие формулы, поэтому сделал кластеризатор на основе Коэффициента Жаккара. Я опробовал и другие, например, Dice или Overlap, но они оказались хуже.
За репост буду благодарен! 🙏
Инструкция:
Сохраните себе копию данного файла на Google Drive через File, чтобы не сталкиваться каждый раз с предупреждением от Google Colab.
Внимание! Этот код только кластеризует, он не собирает выдачу. Собрать выдачу можно с помощью других сервисов, например, выгрузить Ahrefs с галочкой на Include top 10 positions from SERP for each keyword.
Для запуска необходимо нажать на кнопку play (▷) внизу и следовать инструкции.
1. Choose files. Загружаем CSV файл с, как минимум, 2-мя колонками: Keywords и URL.
2. Column delimiter. Вводим разделитель колонок. По умолчанию это запятая.
3. Keywords column label. Вводим заголовок колонки для поисковых фраз (чувствителен к регистру).
4. URL column label. Вводим заголовок колонки для URL (чувствителен к регистру).
5. Similarity threshold. Вводим порог похожести, я рекомендую 0,6.
6. Жмем кнопку Run.
7. После окончания работы нажимаем Save, чтобы сохранить в папку Downloads.
Файл результатов
1. Каждая группа в колонке Group имеет номер, начинающийся с 0.
2. Ключевые фразы, которые объеденены в один кластер, будут иметь один номер группы.
3. Если фраза не имеет общих групп с другими фразами, то она выделяется в отдельную группу.
4. Если фразы не имеют собранных URL, то они все выделяются в группу -1.
Внимание! В браузере Safari работает некорректно, необходимо использовать Chrome.
https://colab.research.google.com/drive/1QGNNuY7OSBErn5am-dS1lnubHr-65kSF?usp=sharing
Для собственных нужд, я сделал кластеризатор по похожести SERP. Побудило на создание меня следующее:
- Программы чаще всего сделаны под Windows.
- Сервисы обычно предоставляют услугу как дополнительную.
- На больших объемах не выгодно.
- Виснут на 100к+ ключевых слов, мне нужны большие объемы.
- ChatGPT предлагает кластеризацию, которая не справляется с большими объемами.
- Мне нужна была поддержка любых языков.
- Не требовательно к ресурсам.
Я подумал, что для URL не обязательно нужна векторизация. По сути топ это множество, а для множеств можно использовать другие формулы, поэтому сделал кластеризатор на основе Коэффициента Жаккара. Я опробовал и другие, например, Dice или Overlap, но они оказались хуже.
За репост буду благодарен! 🙏
Инструкция:
Сохраните себе копию данного файла на Google Drive через File, чтобы не сталкиваться каждый раз с предупреждением от Google Colab.
Внимание! Этот код только кластеризует, он не собирает выдачу. Собрать выдачу можно с помощью других сервисов, например, выгрузить Ahrefs с галочкой на Include top 10 positions from SERP for each keyword.
Для запуска необходимо нажать на кнопку play (▷) внизу и следовать инструкции.
1. Choose files. Загружаем CSV файл с, как минимум, 2-мя колонками: Keywords и URL.
2. Column delimiter. Вводим разделитель колонок. По умолчанию это запятая.
3. Keywords column label. Вводим заголовок колонки для поисковых фраз (чувствителен к регистру).
4. URL column label. Вводим заголовок колонки для URL (чувствителен к регистру).
5. Similarity threshold. Вводим порог похожести, я рекомендую 0,6.
6. Жмем кнопку Run.
7. После окончания работы нажимаем Save, чтобы сохранить в папку Downloads.
Файл результатов
1. Каждая группа в колонке Group имеет номер, начинающийся с 0.
2. Ключевые фразы, которые объеденены в один кластер, будут иметь один номер группы.
3. Если фраза не имеет общих групп с другими фразами, то она выделяется в отдельную группу.
4. Если фразы не имеют собранных URL, то они все выделяются в группу -1.
Внимание! В браузере Safari работает некорректно, необходимо использовать Chrome.
https://colab.research.google.com/drive/1QGNNuY7OSBErn5am-dS1lnubHr-65kSF?usp=sharing
Google
SERP-Similarity-Keyword-Clustering-by-Dart.ipynb
Colab notebook
