ChatGPT, AI, Python для SEO - автоматизация
208 subscribers
23 photos
1 video
23 links
Автоматизация с помощью python работы в seo.
Скрипты которые решают большинство вопросов в seo c исходным кодом.

Контакт https://t.me/s/devvver
Download Telegram
Python скрипт для получения ngram из топа выдачи Яндекса.
Реализовывал для личных нужд, но возможно кому то тоже будет интересно.
Зачем нужны N-граммы?
Они наравне с LSI используются для расчета текстовой релевантности. В большинстве случаев получить топ без них будет сложно.
Исходник на Гитхабе https://github.com/Devvver/ngram , там же и описание работы и нужные для запуска инструкции.
По любым вопросам, исправлениям пишите в личку.
Если вам не нужен питон и вы хотите использовать готовый сервис - рекомендую
https://dev.seocatapult.ru/query
Сервис проверки ответа от url на 301, 404, 500 и другие ошибки c возможностью экспорта в csv https://github.com/Devvver/streamlite
Для запуска выполните pip install selenium в терминале IDE или Windows.
Скрипт не умеет авторизироваться самостоятельно, поэтому после открытия браузера найдите кнопку Авторизация и введите емейл и пароль. Скрипт берет список ссылок из файла site.txt и проверяет их в https://ru.megaindex.com/backlinks Парсит Trust DR RANK и тематику ссылок. Для парсинга использует Selenium, поэтому обновите свой chromedriver.exe в папке для вашей версии Chrome. Результат парсинга будет в Сайты.csv
https://github.com/Devvver/megaindex

#seo #python #парсинг #домены
👍1
Channel name was changed to «ChatGPT,AI, Python для SEO - автоматизация»
Наверное сталкивались с проблемой экспорта данных сгенерированных из ChatGPT или Gemini в ручном режиме. При попытке скопировать вставляет хлам вида data-sourcepos. Также вставляет спецсимволы, strong тег и другое в Wordpress редактор.
Скрипт в архиве решает эти проблемы, удаляя весь этот хлам. Только не запускайте в архиве, сначала распакуйте всю папку clear вместе с файлами. Файл html + js, можете допилить под свои нужны и сделать более дружественный интерфейс.
Forwarded from Mike Blazer (Mike Blazer)
Найдите статьи Википедии, нуждающиеся в цитировании!

Простое приложение для помощи в построении ссылок из Википедии, которое находит статьи, нуждающиеся в цитировании.

Вы можете использовать:

— Существующий контент
— Расширить существующий контент
— Создать новый контент для цитирования

Просто введите ключевое слово, чтобы увидеть все страницы, которые нуждаются в цитировании.

Удобная загрузка документа Word

Поделитесь с командой или сохраните результаты на потом!

Это приложение лучше всего подходит для устоявшихся веб-сайтов / компаний с ресурсами для написания хорошо изученных, качественных статей, которые могут быть процитированы.

Если все сделать правильно, то выиграют все.

Википедия получает высококачественное цитирование, а ваш сайт - обратную ссылку.

Расширение существующего контента - один из самых простых способов добиться цитирования, но если у вас нет ничего, что можно переработать, придется писать что-то новое.

Отсутствие цитирования может также указывать на нехватку контента, которую стоит изучить.

Посмотрите видео о том, как это работает, перейдя по этой ссылке.

Приложение: https://wikicite.streamlit.app/

Исходный код: https://github.com/searchsolved/search-solved-public-seo/tree/main/linking/wikipedia-citation-finder

Ссылки и инструкции: https://leefoot.co.uk/portfolio/free-streamlit-app-wikipedia-citation-needed-finder/

@MikeBlazerX
Forwarded from Dart: Product SEO Engineer (Dárt 検索)
Бесплатный кластеризатор по топам

Для собственных нужд, я сделал кластеризатор по похожести SERP. Побудило на создание меня следующее:

- Программы чаще всего сделаны под Windows.
- Сервисы обычно предоставляют услугу как дополнительную.
- На больших объемах не выгодно.
- Виснут на 100к+ ключевых слов, мне нужны большие объемы.
- ChatGPT предлагает кластеризацию, которая не справляется с большими объемами.
- Мне нужна была поддержка любых языков.
- Не требовательно к ресурсам.

Я подумал, что для URL не обязательно нужна векторизация. По сути топ это множество, а для множеств можно использовать другие формулы, поэтому сделал кластеризатор на основе Коэффициента Жаккара. Я опробовал и другие, например, Dice или Overlap, но они оказались хуже.

За репост буду благодарен! 🙏

Инструкция:

Сохраните себе копию данного файла на Google Drive через File, чтобы не сталкиваться каждый раз с предупреждением от Google Colab.

Внимание! Этот код только кластеризует, он не собирает выдачу. Собрать выдачу можно с помощью других сервисов, например, выгрузить Ahrefs с галочкой на Include top 10 positions from SERP for each keyword.

Для запуска необходимо нажать на кнопку play (▷) внизу и следовать инструкции.
1. Choose files. Загружаем CSV файл с, как минимум, 2-мя колонками: Keywords и URL.
2. Column delimiter. Вводим разделитель колонок. По умолчанию это запятая.
3. Keywords column label. Вводим заголовок колонки для поисковых фраз (чувствителен к регистру).
4. URL column label. Вводим заголовок колонки для URL (чувствителен к регистру).
5. Similarity threshold. Вводим порог похожести, я рекомендую 0,6.
6. Жмем кнопку Run.
7. После окончания работы нажимаем Save, чтобы сохранить в папку Downloads.

Файл результатов

1. Каждая группа в колонке Group имеет номер, начинающийся с 0.
2. Ключевые фразы, которые объеденены в один кластер, будут иметь один номер группы.
3. Если фраза не имеет общих групп с другими фразами, то она выделяется в отдельную группу.
4. Если фразы не имеют собранных URL, то они все выделяются в группу -1.

Внимание! В браузере Safari работает некорректно, необходимо использовать Chrome.

https://colab.research.google.com/drive/1QGNNuY7OSBErn5am-dS1lnubHr-65kSF?usp=sharing
Forwarded from Dart: Product SEO Engineer (Dárt 検索)
Кластеризатор массивных семантических ядер по схожести выдачи

Для огромных семантических ядер скорость и масштабирумость группировки может быть более важна, чем ее точность, поэтому для таких случаев у меня был в запасе другой алгоритм. Он является продолжением идеи кластеризации через меру Жаккара описанной в предыдущих постах (1, 2). В комментариях к постам и в личных сообщениях возник интерес к решениям для массивных семантических ядер, поэтому я переписал предыдущий скрипт для них.

За репост буду благодарен! 🙏

В алгоритме используется техника MinHash и LSH. Этот метод, основанный на хэшировании и индексации множеств, позволяет быстро искать частичные дубликаты на больших данных. Он также, как кластеризатор из предыдущих постов, менее ресурсоемкий, чем векторное преобразование и операции над матрицами.

В чем разница между мерой Жаккара и этим решением?

Точность vs. Эффективность: Коэффициент Жаккара обеспечивает точное значение схожести, но неэффективен для больших данных. MinHash и LSH предоставляют приближенное значение, но значительно более эффективны для обработки больших объемов данных.

Например, японское семантическое ядро в 480 тысяч ключевых фраз было сгруппировано за 30 минут. Конечный результат вполне устроил, учитывая, что метод на основе Жаккара считал такой объем более суток. Отлично подойдет для дорвейщиков!

Скачать можно здесь:
https://drive.google.com/file/d/1b01TbXmWINe3w0haneMcHVy-opFZkwqH/view?usp=share_link

Проект на Github:
https://github.com/dartseoengineer/keyword-clustering-minhash

Инструкция

Внимание! Этот скрипт только кластеризует, для сбора выдачи используйте сторонние программы, например, A-Parser.

1. Предварительно установите библиотеки pandas и tqdm.

pip install pandas
pip install tqdm
pip install datasketch


2. Инструкция по использованию скрипта в командной строке:

Обязательные аргументы

input_file: Путь к входному CSV файлу.
output_file: Путь для сохранения выходного файла с кластеризованными ключевыми словами.

Необязательные аргументы

-s, --separator: Разделитель во входном файле (по умолчанию: `,`).
-k, --keyword_col: Название столбца с ключевыми словами во входном файле (по умолчанию: `Keyword`).
-u, --url_col: Название столбца с URL во входном файле (по умолчанию: `URL`).
-t, --similarity_threshold: Порог схожести (по умолчанию: `0.6`).

Пример команды в терминале

python minhash-cluster-cli.py for-clustering.csv clustered_keywords.csv -s ';' -k 'keyword' -u 'url' -t 0.6


Файл результатов

1. Каждая группа в колонке Group имеет номер, начинающийся с 0.
2. Ключевые фразы, которые объеденены в один кластер, будут иметь один номер группы.
3. Если фраза не имеет общих групп с другими фразами, то она выделяется в отдельную группу.
4. Если фразы не имеют собранных URL, то они все выделяются в группу -1.
👍1🔥1👌1
Написал парсер для получения ответов от Gemini (аналог ChatGPT) с помощью их API.
Скрипт позволяет получить данные из csv и из заголовков написать условия с шаблонами для запросов к чатботу.

Что можно делать с его помощью? Примеры:
1) Массово генерировать статьи с условиями
2) Генерировать Title и дескрипшионы
3) Анализировать данные (как в Excel) после ответа чатбота.
4) Получать LSI или слова задающие тематику для ключевых фраз
5) И так далее. Весь функционал который есть у чатботов.

Ссылка на проект https://github.com/Devvver/gemini_csv_parser
Там же условия использования и запуска.

Буду благодарен репосту за opensource решение.
👍2
🚨 Решение проблемы с индексацией RSS лент комментариев в WordPress 🚨

Google упорно пытается индексировать страницы, даже если они заблокированы в robots.txt. Особенно это касается RSS лент комментариев, которые не всегда нужны и могут попасть в дополнительный индекс, ухудшая ранжирование сайта.

💡 Как я решил проблему: Создал плагин для WordPress, который блокирует индексацию RSS лент комментариев, но сохраняет основную ленту и Яндекс Турбо.

Плагин: ссылка на скачивание

Прописывает 301 редирект с комментариев на посты.
Позволяет сохранить нужные RSS ленты.

Полный пост с описанием на моем блоге.