Python для SEO
1.35K subscribers
3 links
Автоматизация рутинных задач SEO-специалиста с помощью языка Python

Если у вас есть наработки, которыми вы готовы поделиться, присылайте мне (@va_medvedev). Условия публикации – https://t.me/seo_python/20
Download Telegram
Техническое задание для копирайтеров: Семантическое ядро есть, статья не написана

Рассмотрим ситуацию, когда у специалиста есть собранное и кластеризованное семантическое ядро.

Что потребуется:
- Подписка serpstat с доступом к API.
- Подписка megaindex с пополненным балансом.

Плюсы подхода:
- Работаем уже с тщательно проработанным и кластеризованным семантическим ядром.

Минусы:
- Нужна подписка на сервисы.
- Данные, которые выдают сервисы, не всегда точны. Например, Megaindex не определяет длину текста меньше определённого количества знаков (около 200 символов). Поэтому показатели выборочно стоит перепроверить.

Скриптом поделился: @va_medvedev

#serpstat #megaindex #api
Анализ access-логов сервера

Анализ логов сайта при техническом seo-аудите.

Что потребуется:
- Лог-файлы сайта.
- Установленные Python-библиотеки.

Плюсы подхода:
- Бесплатное решение.
- Можно быстро проанализировать лог-файл в любом формате.
- Легко обрабатывает большие файлы на несколько миллионов записей.

Минусы:
- Хранение данных на своём устройстве (если работаете не на выделенном сервере).
- Чтобы проанализировать данные за новый период, необходимо заново считать данные, разобрать и записать их в анализируемый CSV-файл.
- В приведённом скрипте только базовые универсальные примеры анализа.

Скриптом поделился: @va_medvedev

#логи #apache_log_parser
Публикация скриптов на канале
Если у вас есть скрипты, которыми вы готовы поделиться присылайте их мне (@va_medvedev). Это могут быть как написанные вами скрипты, так и найденные в интернете.

Формат публикации следующий:

Заголовок – краткое описание

Полное описание с объяснением того, что делает скрипт. Указать для чего и в каких ситуациях он может понадобиться.

Что потребуется:
- элемент 1. Можно указывать доступы к api различных инструментов, библиотеки и тд.
- элемент N

Плюсы подхода:
- элемент 1.
- элемент N

Минусы:
- элемент1
- элемент N

Скриптом поделился: @name (ссылка на профиль или ресурс, с которого взят материал)

#хештеги_к_посту

Ссылка на скрипт - url (Ссылка на скрипт на github, ваш сайт и тд. Обязательное условие, чтобы скрипт был выложен в общедоступное место)
Поиск освобождающихся доменов

Проверяем возможность регистрации доменов по списку ссылок, полученному из отчета "All Outlinks" из Screaming Frog

Что потребуется:
- Отчет "All Outlinks" из Screaming Frog.
- Установленные Python-библиотеки.

Плюсы подхода:
- Ускоряет ручную проверку
- Предварительная фильтрация по параметрам PA и DA Moz API

Минусы:
- Ограничения бесплатного api на 500 проверок
- Информация собирается в один поток


#дропы #mozapi
Поиск освобождающихся доменов v.2

Проверяем возможность регистрации доменов по списку доменов. Функционал скрипта аналогичен предыдущему посту.

Отличия:
- парсинг в несколько потоков
- проверка большего количества доменов за счет добавления списка ключей с бесплатными лимитами

Что потребуется:
- Список доменов на проверку
- Ключи API whoisxmlapi
- Установленные Python-библиотеки.

Плюсы подхода:
- Выше скорость проверки, парсинг в несколько поток
- Проверка большего количество доменов

Минусы:
- При большом количество потоков сервис может перестать отвечать, результаты проверки будут искажены

Скриптом поделился: @va_medvedev

#дропы
Скрипт выгрузки статистики всех поисковых запросов ЯМ

Что потребуется:
- Список номеров счетчиков
- Токен API метрики

Плюсы подхода:
- Позволяет выгрузить большое количество ключей
- Обходит ограничение в 100.000 запросов.


#API #YandexMetrika
Оптимизация картинок под Google Page Speed

Оптимизация изображений с помощью программы jpegtran. В скрипте используется базовая команда для оптимизации:
-copy none убирает все метаданные из исходного файла;
-optimize оптимизирует изображение;
-progressive изменение формата на progressive jpeg)

Что потребуется:
- скачанная программа jpegtran


#PageSpeed #изображения
Python для SEO pinned «Публикация скриптов на канале Если у вас есть скрипты, которыми вы готовы поделиться присылайте их мне (@va_medvedev). Это могут быть как написанные вами скрипты, так и найденные в интернете. Формат публикации следующий: Заголовок – краткое описание Полное…»
NLP для SEO

Перевод и разбор доклада об обработке естественного языка для решения SEO задач.

#nlp
Работа с PostgreSQL

Шаблон для работы с базой данных PostgreSQL на Python

#PostgreSQL
Экспорт данных из API Google Analytics

Несколько гайдов по работе с API Google Analytics. В обоих используется gaapi4py.

#API_Google_Analytics
Автоматизация тестов PageSpeed ​​с помощью Python

Постраничная проверка с использованием API Google PSI. В предложенном коде проверка осуществляется без использования ключа. Если проверка будет выполняться с выполнением нескольких запросов в секунду, ключ нужно будет получить.

#PageSpeed
Проверка изменений на страницах сайта

Скрипт обходит указанный вами список страниц, сохраняет следующие данные:
• Ответ сервера;
• Тег title;
• Метатег description;
• Тег h1;
• Тег canonical;
• Метатег meta name robots;
• Заголовок ответа сервера x-robots-tag.

При повторном обходе сообщает в текстовом файле о наличии изменений, если они имеются.

Что потребуется:
- наличие установленных библиотек: requests, BeautifulSoup, json

Скриптом поделился: @biryukovartem

#мониторинг
Access-логи сайта для seo: автоматический анализ и отправка отчетов в Telegram

Описан пошаговый мануал по скачиванию логов с сервера, их объединении и парсинге с помощью Python, а также формирование необходимых отчетов с последующей отправкой в Telegram. Подробные комментарии приведены в коде соответствующих скриптов.

#access_log
Автоматизация Excel с помощью Python
Forwarded from data fm
Если вы вчера решили, что я ничего не выложу — вы были правы 😁
Я тоже так думала, ровно до 20.00, потому что я поняла, что день подходит к концу, а доверие тихонечко ускользает.

В общем, если вы решите, что материал бестолковый или скучный, я всё прощу) Но не перестану говорить, что продолжение будет. Учиться на ошибках тоже нужно.

А пока я нашла в себе силы побороть себя, расскажу о том, что мысль вести 100500 каналов — так себе мысль. Вы никогда не сможете успеть делать всё, только если у вас один контент-план на все площадки)

Так вот, эксель — это то с чего всё начиналось, это такая простая вещь, что кажется.. а что может быть проще? Там столько всего можно сделать, что даже грустно от мысли, что я решила даже его автоматизировать 😭

Но не смотря на такое грустное начало, выкладываю первую часть автоматизации и надеюсь, что больше я не буду так тянуть резину.

Читать, подписываться и хлопать на медиуме можно, нужно и очень жду, а еще пишите комментарии тут.
Работа с API Google Search Console

Данная статья перевод текста Get All Your Search traffic With Google Search Console API (With Code Sample) с дополнениями автора перевода. Из статьи вы узнаете, как извлечь более 25 000 ключевых слов и автоматически экспортировать данные в CSV-файл. С помощью этого скрипта мне удалось ежемесячно извлекать более 10 млн. строк данных из GSC API.
Скрипт для получения ngram из топа выдачи Яндекса

Получение данных по xml API Яндекса (топ 10 юрл из выдачи), парсинг статей с топа и получение ngram.
Блоком кода с получением текста статей и его токенизацией можно дополнить тз на копирайтинг

Что потребуется:
- Ключ Yandex XML
- Библиотеки pyyaxml, newspaper3k (библиотека для python3)

Дополнения:
- Библиотеку pyyaxml подключаем строкой "from pyyaxml.search import YaSearch"
- Получение данных для авторизации xml заменил строкой infa = [line.rstrip() for line in f]
- Ошибка с ssl решается переносом строки urlssl._create_default_https_context = ssl._create_unverified_context выше получения results
- Вместо работы с xml можно использовать список list_base_urls из скрипта тз

Скриптом поделился: @devvver

#Яндекс #ngram #XML
Всем привет. Давно не было публикаций и далее будет #промо пост, но с полезными плюшками для подписчиков канала!
Записал большую серию уроков по автоматизации с помощью Python для курса "SENIOR SEO-СПЕЦИАЛИСТ" от Rush Academy. Часть выложенных скриптов в канале попала в план уроков с подробным разбором и демонстрацией работы. Поэтому кто давно хотел применить скрипты в своей работе, но самостоятельно не смог разобраться, советую.

Помимо этого будет много дополнительного материала, который ранее нигде не публиковался. Для подписчиков канала выкладываю часть урока по работе с текстами Colab.
В уроке разберем:
- NLP подходы и популярные библиотеки для лемматизации и токенизации
- поработаем с предобученным BERTом на русском языке от DeepPavlov. Достанем NER сущности из текстов.
- рассчитаем векторное представление NER сущностей и найдем наиболее близкие к ним категории на основе расчета косинусного расстояния.

Ребята набирают последний поток и устраивают распродажу. По коду SEOvlad сделают скидку 10.000₽. Инфа про курс SENIOR SEO-СПЕЦИАЛИСТ.

@seo_python