👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮
696 subscribers
226 photos
7 videos
52 links
DA + DE = AE? @ little🇫🇮startup,
Ex Product Data Analyst @ SkyEng,
Ex Data Engineer @ Starship (delivery robots),
Ex Data Analyst @ EPAM,
Я НЕ РАЗМЕЩАЮ РЕКЛАМУ,
Личка открыта https://t.me/jarikor ,
(надо нормальное название каналу придумать)
Download Telegram
Меня снова сподвигнули писать тут обо всех обновлениях в навыках кодинга, будь-то про веб или про дата.

Из новостей — недавно сдох мак.
Пришлось собрать стационар и переехать на линукс.
Версию выбрал по советам опытных ребят из чата, но она оказалась задротной.
Manjaro (ArchLinux)

Другие опытные ребята теперь на каждый мой вопрос гонят меня не ебать мозга, а ставить Убунту. Пока опять мигрировать некогда, возможно к новому году возьму новый ссд и накачу туда бубунту, и посмотрю, лучше она будет чем манджара или нет (щас на хдд сижу, тк ссд занят данными из макбука, и я не соображу как их оттуда вытащить оперативно).
В личку написали предложения — сделать тут возможность комментирования, чтоб проще было подсказать что-то на ходу. И код вставлять не скриншотами, а кодом или линком на гитхаб.

Комменты добавил, код, если чо, так буду скидывать.
Замерил сколько времени занимает сбор постов с пабликов разного размера.

Пока всё пределах допустимого, но при работе с большими пабликами надо будет перепроверять всё по несколько раз, т.к. одна ошибка будет стоить дофига времени, чтоб повторить запрос после ошибки.
Стал собирать статистику с каждого поста в паблике. Циклом for i in items.

На 76 посту словил ошибку.
Посмотрел этот пост — а он старый, со времён, когда ещё не было статистики просмотров на постах.

Теперь надо делать либо проверку значения, либо обработку исключения. Хм.
Ошибку по наличию 'views' обработал, пришлос чуток подход к запросам по ключам изменить, но вышло хорошо, как по мне. Днём покажу.
Из интересного на сегодня — покажу, пожалуй, алогоритм.

Сначала я встрял на том, как правильно подступиться к запросам по ключам. Головой понимал КАК ЭТО ПРОВЕРНУТЬ, но не ясно представлял.

Сел, в итоге, и прописал алогоритм. Чтоб без схемы, прям текстом набросал.

И по алгоритму собрал пробную инструкцию. Потом цикл, а потом завернул и в функцию.

Что получилось — покажу днём, уже измотался, устал.

Короч, как говорит Сергей — если тупишь, остановись, выдохни, задай себе вопрос "что ты хочешь получить в итоге" и напиши понятный алгоритм.

А уж код на готовый нормальный алгоритм нацепить дело не хитрое.
Например, из паблика в котором "около 10 тыс постов" скрипт парсит посты, обрабатывает их, добывает нужные данные и записывает в файл - меньше чем за минуту
Вот тут я отобразил время по кажому паблику, чтобы было наглядно видно, как от объёма меняется скорость выполнения.

В целом - время на огромные паблики (а последний паблик - это МДК) не критичное.
Срезы по значениям тоже работают исправно
Мало собрать данные по постам в паблике.
Надо понять, что с этими данными потом делать.

Например:
1) разбить посты по категориям, в зависимости от количества лайков. И пометить их в отдельном столбце.
Так можно будет посмотреть КАКОЕ СОДЕРЖИМОЕ собирает больше лайков в конкретном паблике.

2) построить график количества лайков от месяца, дня недели. Если у нас достаточно данных (за несколько лет), то можно будет узнать, есть ли коррелляция между месяцем (т.к. месяц определяет сезон, праздники, контекст поведения), днём недели (день недели тоже определяет контекст поведения) и собственно самим поведением подписчиков (лайки, комменты, репосты).
🔥Оооооо, какая красота получилась в аналитике!

Очень интересные наблюдения. Ща покажу.