👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮
696 subscribers
226 photos
7 videos
52 links
DA + DE = AE? @ little🇫🇮startup,
Ex Product Data Analyst @ SkyEng,
Ex Data Engineer @ Starship (delivery robots),
Ex Data Analyst @ EPAM,
Я НЕ РАЗМЕЩАЮ РЕКЛАМУ,
Личка открыта https://t.me/jarikor ,
(надо нормальное название каналу придумать)
Download Telegram
Например, из паблика в котором "около 10 тыс постов" скрипт парсит посты, обрабатывает их, добывает нужные данные и записывает в файл - меньше чем за минуту
Вот тут я отобразил время по кажому паблику, чтобы было наглядно видно, как от объёма меняется скорость выполнения.

В целом - время на огромные паблики (а последний паблик - это МДК) не критичное.
Срезы по значениям тоже работают исправно
Мало собрать данные по постам в паблике.
Надо понять, что с этими данными потом делать.

Например:
1) разбить посты по категориям, в зависимости от количества лайков. И пометить их в отдельном столбце.
Так можно будет посмотреть КАКОЕ СОДЕРЖИМОЕ собирает больше лайков в конкретном паблике.

2) построить график количества лайков от месяца, дня недели. Если у нас достаточно данных (за несколько лет), то можно будет узнать, есть ли коррелляция между месяцем (т.к. месяц определяет сезон, праздники, контекст поведения), днём недели (день недели тоже определяет контекст поведения) и собственно самим поведением подписчиков (лайки, комменты, репосты).
🔥Оооооо, какая красота получилась в аналитике!

Очень интересные наблюдения. Ща покажу.
Обзорная стата по годам и активностям
Паблик ведёт деятельность непрерывно и активно с 2017 года.

В паблике 148 843 подписчиков на данный момент, и около 7 тысяч постов.
🔥И что интересно — посмотрите на график лайков и репостов. Они совпадают. Логично, пост выложили, набежали, полайкали, и отрепостили сразу.

А вот комменты...

Смотрите, пик комментов не совпадает с пиками лайков и репостов.

Либо по вторникам публикуют посты, которые заточены под механику комментирования. Очень хочется подумать, что по вторникам народ пробивает на "по-болтать". Но причина скорее всего скучная и рациональная.

Можно разложить посты по дням и по годам, посмотреть, сохраняется ли такой же тренд каждый год, или это последние два года так повлияли (т.к. паблик за последние два года вырос с 50 тыс до 150 тыс подписчиков. На сотку. Или даже больше).
Новая модификация скрипта — теперь он может собирать любое количество пабликов, заданное в константе. Пока это просто короткий скрипт, в функцию не завёрнут, но уже работает исправно.

Также добавил сбор from_id, чтобы можно было сортировать посты на "опубликованные от имени паблика" и "опубликованные в паблике, но с указанием авторства", чтобы можно было собрать статистику по авторам контента.

И, например, определить самых активных, или самых залайканых (хороших) авторов.

Вообще, сегодня отдохнул немного, а то в прошлые дни плотно впахал, но сильно не расслаблялся. Практиковался в ф-строках, и компрехеншенах. Т.к. на курсах про них было сказано коротко, и без толкового разбора практического применения. А мне указали, что в коде можно часть кода переписать именно на дикт-компрехеншены.
Было - некоторые параметры сбора прописаны фиксированно, для сборка в любом случае, нет проверки на случай если они нам не нужны будут и т.д.

И вообще портянка.
Стало — теперь можно управлять запрашиваемыми данными через константу ARGUM_LIST (для наглядности скриншота внёс её в комментарии), получать именно то, что нам нужно и исключать то, что не нужно.

Да, исключения ещё не прописал, я их в следующей итерации улучшений пропишу.
Возможно стоит реализовать так (вариант через селектор сильно залайканый на SoF, но предлагается скорее как упрощение читабельности dict compr, а не "только так а не иначе")
НЕ ЗНАЮ как это получилось, но парсер вытащил то, что не должен был вытащить 😂

Я вытащил пост, который создан РАНЬШЕ самого раннего поста (на текущий момент) в паблике.

При этом настройка 'owner' стоит. Т.е. АПИ должен отдавать только опубликованные на стене в настоящий момент.

Магия блять. Переписал на компрехеншены блять.
Во. Он почему-то вернул мне пост, который лежит по параметру 'others'

Херрасе глюк.