👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

О, у Яндекса появился курс по своему облаку. Бесплатный.
Больше не придётся тыкаться как слепой котёнок наугад и экспериментальным путём узнавать, что да как там настраивается, чтоб «грамотно».
https://practicum.yandex.ru/profile/ycloud/

626 viewsedited 11:41

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Без скрина как-то куцо смотрится пост.

546 views11:43

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

На курсе у Карпова дали доступ к ВКшному облаку и накинули туда баланса.

ШТОШ, пощупаем.

Интересно, кроме как ценой — как будут биться Яндекс.Облако и VK Cloud, будут ли явные разграничения в ЦА и функционале и т.п.

553 viewsedited 13:43

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Forwarded from БлоGнот

Австрийское ведомство по защите персональных данных вынесло решение, что австрийский сайт, используя Google Analytics, нарушал GDPR. По мнению регулятора, система аналитики передавала все данные о посетителях, включая IP и cookies, на серверы Google в США, где к ним могли иметь доступ американские правоохранительные органы.

Несмотря на то, что Google явно показывает, что данные о пользователях псевдонимизируются — то есть обезличиваются, — регулятор указал, что система при этом использует cookies и другие идентификаторы именно для того, чтобы различать посетителей, а, следовательно, пользователя становится возможным отследить.

Если это решение выдержит апелляцию хотя бы в рамках Австрии, то, боюсь, в интернете больше не будет систем аналитики ни в каком виде — понятно, что следом к праведной борьбе подключатся все страны ЕС.

@blognot

https://techcrunch.com/2022/01/12/austrian-dpa-schrems-ii/

TechCrunch

In bad news for US cloud services, Austrian website’s use of Google Analytics found to breach GDPR

A decision by Austria’s data protection watchdog upholding a complaint against a website related to its use of Google Analytics does not bode well for use of US cloud services in Europe.

616 views22:37

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Навеяно постом выше 👆🏻

1. Первое что мне сказали, когда я вошёл в команду аналитиков в ЕПАМе — «Все наши крупные клиенты (чаще всего это оказывались клиенты из ЕС), не используют, или в процессе отказа от ГА, потому что ГА не соответствует GDPR».

2. Не согласен с автором поста про «не будет систем аналитики» — ну камон, внешние отдельные системы аналитики и существуют уже, и опенсорсные решения уже есть, и развиваются дальше. Да, ГА4 это огонь, да связка с BigQuery и Data Studio, да «всё в одном и супер удобно». Ну а что теперь. Если нужно будет ЖДПРно сделать, придётся юзать иные сервисы. Собирать многорукого многонога.

В одном проекте мы юзали Amplitude (из которого в S3 AWS складывали данные) + Microsoft Clarity для хитмапы и PowerBI для визуализации всего этого дерьма, вместо того, чтобы развернуть GA4 + BQ + GDS.

Как говорится, ничто так не расширяет функционал аналитики, как своевременное и достаточное финансирование.

- - -

Сам пост подсмотрен в канале у Сергея Шмакова https://t.me/smmblog

661 views22:37

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Решил поднять свой сервак для пет-проектов и работы с данными.

Больше для практики (по мотивам курса Data Engineer от Карпова), т.к. работа локально меня устраивает (пока).

Но научиться бегло разворачивать воркплейс для аналитики на облаке — будет полезно.

Взял digitalocean, создал Дроплет, на нём Убунта, щас в неё docker-compose, а в нём разверну Apache Superset для визуализации, к нему подключу СУБД и уже можно начинать «работать» (визуализации, графики, EDA и т.п. по текущим базам)

В следующей итерации: развернуть на нём JupyterHub, Airflow.

Ну а затем всё остальное.
И заодно аппки свои по парсингу затащить на него с локалки. Вот будет красота.

643 views15:32

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Ох и попил он мне крови в настройке…

«не хватает модуля» → давай pip install МОДУЛЬ → хер, ошибка не хватает ещё другого модуля и вообще зависимости вышли покурить → окей вот тебе другой модуль, а какого хера зависимости не совпадают? → потому что слишком новые версии стоят, давай даунгрейд → бляяя, окей, вот тебе даунгрейд, вот модули ниже версиями, что тебе ещё собака надо? → рестарт → тьфу бляха, вот тебе рестарт…

674 views00:10

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Но в итоге и Postgres подцепился (после танцев с бубном, т.к. pip install psycopg2 так и не прокатил. Пришлось pip install psycopg2-binary ставить…)

И CSV загрузились нормально.

И реквесты отрабатываются (их нет на скрине).

Завтра построение дашбордов протестирую.

ЗБС, я теперь вроде даже могу сюда юзеров создавать клиентам, под дашборды по ним, с разграничением прав и доступов (завтра проверю).

769 views00:15

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Ахереть задачку конечно надо посчитать:

«What share of lifetime value is generated during the first month in the app?»
«Какую долю от LTV юзер сгенерировал за первый месяц использования приложения?»
Звучит просто, но подковырка, как обычно, подкралась незаметно.

Для решения задачи пришлось сделать две CTE на основе разных таблиц, сджойнить их, отдельно селект по CTE, и ещё дополнительный селект с подзапросом. Плюс условие с вычислением даты. А даты без ::timestamp не распознаются, собаки такие.

Так. Столбцы сформировал. Всё в целом готово, ещё столбец с вычислением этого «share of lifetime value» завтра уже задолбался.

Но очень рад, что и в подзапросах потренировался, и в СТЕ.
😅Хорошо, что оконную функцию натягивать не пришлсь, какое-нить плавающее среднее, растудыть его…

843 views01:20

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Не нравится мне, встроенная в Apache Superset дефолтная Pivot Table, она кривая и косая блин, в v2 с раскраской цветом.

Либо ровная и чёткая, но без цвета.

Ну, главное щас табличек заготовить и черновых графиков и схем. А завтра уже в презу переносить, там и нарисую красиво.

Будет порфтолио — как из сырых данных получить отчёт для стейкхолдеров, имея изначально только три CSV файла. Развернув самостоятельно под это дело БД и BI-инструмент на Облаке, не потратив ни рубля (с помощью промокодов).

Грубо говоря не имея ничего кроме 3 файлов от клиента — собрать инструмент и сделать результат.

И всё это за 4 дня.

946 viewsedited 01:29

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Ну, вот и дошли руки до ТелеграмБотов, а то всё ВК да ВК…

1.01K views20:36

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Интеграция аналитики, которую мы заслужили.
Реакция игроков (по ссылке есть видео) бесценна)))

https://dtf.ru/games/1186105-v-eve-online-poyavitsya-pryamaya-podderzhka-tablic-excel-s-etim-pomozhet-sama-microsoft?from=rss

DTF

В EVE Online появится прямая поддержка таблиц Excel — с этим поможет сама Microsoft — Игры на DTF

На презентации EVE Fanfest 2022 эту новость встретили овациями.

1.04K views21:06

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Хех. Тот момент, когда сам допёр до этого докручивая пет-проект прошлым летом, и думал, что «все так делают» или «ну это ж очевидно» и не стал ничего писать. А оказывается это умный ход, и вон даж в ВК применяют.

Как я до этого допёр (писать запросы в функции, а потом их импортировать) — хоть окончательную версию проекта я собирал на Django, но MVP версию (как отрабатывают функции сбора данных, как отрабатывают функции обработки данных, как отстраиваются графики и т.п.) делал на Jupyter Notebook.

И на определённом этапе набралось дофига функций, и меня бесило прыгать туда-сюда по листу, который превратился в длинную портянку из кода, комментариев, графиков, таблиц и т.п. И даже деление на пару листов не помогало, т.к. меня бесило между ними переключаться. Расширения Nbextensions для Notebook с помощью которых можно сделать СОДЕРЖАНИЕ листа (маркдауном размечать вот так) тоже не помогали в быстрой навигации между короткими функциями.

В итоге т.к. я знал, что буду реализовывать всё на Django, и всё равно придётся перекатывать «портянку» в отдельные функции, решил сразу окончательные и нормально отрабатывавшие версии отрефакторить в функции и модули.

В итоге без проблем и раздражения переключался между функциями которые редачил внутри окна IDE (PyCharm ван лав).
Более того, не нужно было постоянно листать портянку текста (т.к. функции были разбросаны по листу, какие-то раньше отрабатывали, какие-то позже), я просто открывал 2-3 нужных в окнах внутри IDE и без прерывания «рабочего фрейма» переключился между ними и подправлял. Плюс стало удобнее версионирование и редактура кода на разных устройствах (начинал я писать код на стационаре в Новгороде, потом уехал оформлять доки в Самару с ноутом, потом вернулся и продолжил на стационаре).

Ну и гитхаб и подтягивание только определённых кусков кода, вместо длинной портянки с графикой и таблицами, а также отсутствие необходимости каждый раз запускать ядро юпайтера через терминал или Анаконду (это тоже отдельное бесилово для меня) упростили работу ещё больше.

А потом написанные функции и модули бысло довольно легко перенести в Django приложуху. И задеплоить.

Вот так, заморочился разок, чтоб себе работу комфортнее сделать.
А оказывается, изобрёл велосипед.

Ну, зато лишний раз убедился, что не совсем дурак.
Такой вот пост самолюбования получился.

Хабр

Data-Science-процессы: Jupyter Notebook для продакшена

Jovian Blues by ShootingStarLogBook Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Команда VK Cloud Solutions перевела материал о том, как с помощью...

1.31K views21:17

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Рабочая задача с реального проекта. И реальный затык.

Есть функция, которая проходит по списку файлов. Каждый файл превращает в датафрейм, разбирает его, берёт нужные столбцы, обрабатывает их, и добавляет в финальный датафрейм.

Таким путём формируется окончательный единый большой датафрейм из стопки файлов. Этот датафрейм уходит дальше на функцию визуализации, но щас не о ней.

Так вот. Если получить список файлов через glob('директория'), то результирующий датафрейм выходит короче, чем если ЭТОТ ЖЕ список файлов передать в ручную (адреса можно сверить прям визуально или через ==, это один и тот же лист, я его прям скопировал из результата ячейки globа).

Чат аналитиков у Карпова я уже зафлудил этим вопросом, теперь спрошу тут.

Какие есть идеи? Куда гуглить решение? Что блин за чёрная магия происходит, Девид Блейн ты скукожил мой датафрейм???

- - -
✅Решение в комментариях. Оказалось простое. Как всегда, когда глаз замыливаешься, перестаёшь замечать простые моменты и очевидные решения в коде.
#рабочее

1.44K views20:52

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

1.11K views22:35

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Воу-воу-воу, афигеть сколько вас прибыло после поста у Дмитрия https://t.me/rockyourdata/3611.
Сначала, я подумал, что каналом ошибся, и попал в свой старый пост (он недалеко, кстати). А потом как понял…

Давайте знакомится.
Ярослав. 3 года как Data Analyst / Data Engineer. На текущий момент больше года гребу в российском ЕПАМе.
До этого 9 лет занимался онлайн маркеингом для e-commerce и e-learning (особенно).
Собственно, эти два направления отлично смешались в Web-analytics, CX analytics и всё что касается метрик в домене «маркетинг».

Живу в Финляндии, скоро уже год как. Учу язык (не всё ж вайти курсы гонять). Недавно вот небольшой экзамен успешно сдал на одном из курсов по финскому, от местного университета.

Собственно, вся пахота из поста и постоянная учёба в свободное от работы время, ради этого и были.
И продолжаю прокачиваться, ради дальнейших тут результатов.

В планах на 10 летнем интервале — «Агро ИТ. Сельхоз датасаенс». Арендовать\купить тут кусок земли с сараями. И сделать свои автоматизированные теплицы\грядки. Гидропон там всякий по науке, зелень в нём, овощи растить. И открытый грунт тоже. Чоб фрукты\ягоды. И всё в датчиках, с замерами влажности, температуры, кислотности\щёлочности и т.п. Жена там будет за растительность и процесс выращивания отвечать, а я за вычисления и автоматизацию.

Этот канал я создал по совету товарища. Он сказал «заведи канал, и пости в нём что изучаешь, какие проекты делаешь. Код. Наработки. Идеи. Конспекты с курсов\конференций. Вопросы. Обсуждения. Чтобы если тебя спросят «что ты умеешь в целом?», то ты мог дать ссылку на канал. И показать.»

Поэтому я его завёл исключительно с этой целью. Не канал для набора подписчиков. А как «хранилище» опыта, что ли.
И очень рад вас видеть тут.

Выше я выложил три закрепа, на посты, которые считаю интересными для вас.
Кстати, так и не дописал историю как вкатывался (первые посты). Ну да и хрен с ней, пока не до неё.

Т.к. вас теперь тут много, постараюсь постить чаще чем раз в полгода.
И что-то полезнее, чем мои размышления в слух.

~ Недавно меня попросили рассказать, как настроить Jupyter Notebook под себя. Да и вообще собрать свою рабочую среду на сервере. Со связкой из Jupyter Notebook, Apache Superset\Redash, БД туда подключить, и ваще всякого, чтоб вычислялось на сервере, а не десктопе. Окей, это будет не быстро, но инструкцию сделаю.

~Ещё загорелся идеей о механической ортогональной эргономичной сплит-клавиатуре. И вертикальной мышке. Звучит как вегетарианец вейпер на гироскутере с подворотами, ага. Но вас в эту секту не потащу.

Комменты открыты, будет желание — черкните пару строк о том, что хотелось бы увидеть на канале.

Дмитрию огромная благодарность и за мотивирующий душевный пост.
И за упоминание отдельно спасибо.
Кстати, вот пост с той фоткой https://t.me/datasauna/135

P.S. в 2015-ом году мне товарищ о постах в ВК сказал «…ты даже представить себе не можешь, КТО может читать твою "никому не нужную" стену, и как это может повернуться». Так вот. 2022 год, а цитата всё ещё не потеряла актуальность. Я даже вообразить себе не мог, что ко мне вот так зайдут на богом забытый канал, и не просто зайдут, а ПРОЛИСТАЮТ, ПРОЧИТАЮТ, и ещё и пост от этого получится.

Лан, чот разговорился я.
Добро пожаловать! Tervetuloa!
#личное

👍3

1.48K viewsedited 22:35

About

Blog

Apps

Platform