👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Итак. Парсер работает отлично (см. выше).
Данные спарсил, в таблицу выгрузил.
Но это ещё не все данные)))

Пока я парсил только то, что выдаётся на главной странице сайта. По 50 проституток на странице, всего страниц 104 было.

Сегодня буду обогащать собранные данные, парсингом каждой отдельной страницы проститутки. Оттуда надо достать перечень допуслуг, рейтинг и отзывы. А также имя)))

А, ещё надо разделить данные внутри двух столбцов, а то у меня «технические характеристики» слипшиеся по две характеристики в одной ячейке (издержки ранних версий функции парсинга, надо докручивать), в первую очередь этим займусь.

И ещё, надо проверить, почему собралось 4900 строк данных, а не 5300. Где-то явно ошибка, которую я не обработал.

Ну и потом буду лоск наводить, в виде дикт.компрехеншенов и прочего.

Будет рок-н-ролльная аналитика на этой неделе😏По московским проституткам🔥

436 viewsedited 09:51

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Долго не писал, но были уважительные причины — я переезжал из одного города в другой. Вместе со всеми вещами, компом и т.д. Уйма времени ушло на выгрузку вещей из шкафов, сортировку (что на выброс, что оставить у родителей, что взять с собой), упаковку этого всего, отправку транспортной компанией, и т.д.

В общем, переехал, рабочее место теперь выглядит так (пикча)

По парсингу (эксперименты до переезда):
Парсинг опять стопорится в районе 100-120 спарсенной страницы.

Парсил через подключение прокси, с заменой прокси на каждом запросе, и дополнительно заменой хедера запроса, тоже на каждом запросе новый хедер.

Список прокси для подмены менялся каждые 3 запроса на страницу (каждые 10 минут).

Но всё равно парсинг блокируется.
Уточнил у коллеги, мне сказали, что всё равно есть риск засветиться, что ты с одного источника парсишь, даже если через прокси и замену хедеров работаешь.

Пока вижу решение только в парсинге через ТОР, когда изначальное подключение тоже меняется каждые Х минут.

Завтра продолжу парсинг.

478 views10:06

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Forwarded from Вастрик

Штош, как обсуждали выше, сделали чатик публичным на всех. Теперь можно звать годных (но голодных без долора) ребят извне: https://t.me/indiehackers_club

455 views11:43

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

👆🏻По следам новости🔥Добавляйтесь, https://t.me/indiehackers_club сделали этот чат открытым для всех. Там мы запускаем пет-проджекты, обсуждаем идеи стартапов, делимся опытом и зарабатываем на собственных проектах (не все, 27% участников стартуют свои пет-проекты, остальные ищут идеи или тестируют ещё) и платим нологи.

Если не в курсе, чо за чат такой и вообще → наша секта → https://vas3k.club/, основатель → https://vas3k.ru. Внутри секты стопка чатов тематических. Вот это чатик про вайтишные и не очень проекты.

Админю я.

Дружно, не душно, короч збс.

536 views11:44

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

🎉Ура, блин! Счастья — ВАГОН.
С 24 мая официально в EPAM'е.

484 viewsedited 21:54

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Изобрели сегодня с коллегами новый антидепрессант.

546 views10:28

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

УРААА!!! НАКОНЕЦ-ТО!!!
В Python 3.10 завезли аналог «switch-case»!!!


def http_error(status): 
    match status:
        case 400:
            return "Bad Request"
        case 404:
            return "Not Found"
        case _: 
            return "Что-то не то"

572 views14:28

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Неистово рекомендую.
https://intuit.ru/studies/courses/599/455/info
«Проектирование хранилищ данных для приложений систем деловой осведомленности (Business Intelligence Systems)»

Да, академично, да, иногда воды больше чем в воде, т.к. см.выше «академично».

Но именно благодаря этой скучной и «водной» академичности, курс очень детально и фундаментально разбирает вопрос организации БД и ХД, в частности, для анализа данных.

Если будете изучать курс, от души прошу «купить» его официально, ибо стоит он 100 рублей.

793 views21:56

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

- - - - -
В догонку к предыдущему посту про проектирование хранилищ данных.

Откуда я этот курс нарыл, зачем, и вообще с чего.

Меня тут на проект новый подключили, а там внезапно надо быстро OLAP-кубы освоить, и работа будет на «скучной» MS SQL SMSS (вместо какой-нить модной ClickHouse) и IBM TM1 (вместо модного PowerBI).

Ну и так как данных будет ТАКОЙ ВАГОН АХРЕНИТЕЛЬНОГО РАЗМЕРА, то для хорошей масштабируемости, решено было применить OLAP-кубы (я пока не вижу связи, т.к. это для меня новое явление).

Пришлось экстренно искать материалы, по этой технологии, которую везде называют «устаревшей и моветоном». При этом, все 🤡 критики🖕🏻 почему-то в упор забывают, что обычные SQL базы не скейлятся бесконечно (если не оракл) и the rule of thumb — когда за миллиард строк выходишь — становится неприятно. Обычно используют map reduce базы, типа хадупа (Hadoop, из семи залуп).

В этом проекте, видимо, Оракл по деньгам не вариант. Или ещё почему-то, я не знаю, какой бог запретил. И почему Apache Hadoop не вариант — тоже не знаю. Поэтому расово-верным решением выбрали MS SQL завёрнутый в OLAP-cubes.

Пришлось гуглить, и искать по телеграм-каналам. У коллеги https://t.me/rockyourdata нашёл в древнем-древнем посте совет про этот курс. Глянул. И не пожалел. Вот делюсь с вами теперь курсом.

Наращиваю функционал Data Engineering в придачу к Data Analysis. А скоро ещё сертификация по Amazon Data Analytics - Specialty... И ещё курс Карпова (по аналитике) не кончился. Домашки не тронутой целая поляна.

И ещё одна новость, о котрой надеюсь уже скажу на следующей неделе, жду документ один, очень глобально важный.

Эх, успеть бы всё, и не порваться)))

Инжиниринг Данных

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

685 views22:06

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

О, у Яндекса появился курс по своему облаку. Бесплатный.
Больше не придётся тыкаться как слепой котёнок наугад и экспериментальным путём узнавать, что да как там настраивается, чтоб «грамотно».
https://practicum.yandex.ru/profile/ycloud/

626 viewsedited 11:41

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Без скрина как-то куцо смотрится пост.

546 views11:43

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

На курсе у Карпова дали доступ к ВКшному облаку и накинули туда баланса.

ШТОШ, пощупаем.

Интересно, кроме как ценой — как будут биться Яндекс.Облако и VK Cloud, будут ли явные разграничения в ЦА и функционале и т.п.

553 viewsedited 13:43

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Forwarded from БлоGнот

Австрийское ведомство по защите персональных данных вынесло решение, что австрийский сайт, используя Google Analytics, нарушал GDPR. По мнению регулятора, система аналитики передавала все данные о посетителях, включая IP и cookies, на серверы Google в США, где к ним могли иметь доступ американские правоохранительные органы.

Несмотря на то, что Google явно показывает, что данные о пользователях псевдонимизируются — то есть обезличиваются, — регулятор указал, что система при этом использует cookies и другие идентификаторы именно для того, чтобы различать посетителей, а, следовательно, пользователя становится возможным отследить.

Если это решение выдержит апелляцию хотя бы в рамках Австрии, то, боюсь, в интернете больше не будет систем аналитики ни в каком виде — понятно, что следом к праведной борьбе подключатся все страны ЕС.

@blognot

https://techcrunch.com/2022/01/12/austrian-dpa-schrems-ii/

TechCrunch

In bad news for US cloud services, Austrian website’s use of Google Analytics found to breach GDPR

A decision by Austria’s data protection watchdog upholding a complaint against a website related to its use of Google Analytics does not bode well for use of US cloud services in Europe.

616 views22:37

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Навеяно постом выше 👆🏻

1. Первое что мне сказали, когда я вошёл в команду аналитиков в ЕПАМе — «Все наши крупные клиенты (чаще всего это оказывались клиенты из ЕС), не используют, или в процессе отказа от ГА, потому что ГА не соответствует GDPR».

2. Не согласен с автором поста про «не будет систем аналитики» — ну камон, внешние отдельные системы аналитики и существуют уже, и опенсорсные решения уже есть, и развиваются дальше. Да, ГА4 это огонь, да связка с BigQuery и Data Studio, да «всё в одном и супер удобно». Ну а что теперь. Если нужно будет ЖДПРно сделать, придётся юзать иные сервисы. Собирать многорукого многонога.

В одном проекте мы юзали Amplitude (из которого в S3 AWS складывали данные) + Microsoft Clarity для хитмапы и PowerBI для визуализации всего этого дерьма, вместо того, чтобы развернуть GA4 + BQ + GDS.

Как говорится, ничто так не расширяет функционал аналитики, как своевременное и достаточное финансирование.

- - -

Сам пост подсмотрен в канале у Сергея Шмакова https://t.me/smmblog

661 views22:37

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Решил поднять свой сервак для пет-проектов и работы с данными.

Больше для практики (по мотивам курса Data Engineer от Карпова), т.к. работа локально меня устраивает (пока).

Но научиться бегло разворачивать воркплейс для аналитики на облаке — будет полезно.

Взял digitalocean, создал Дроплет, на нём Убунта, щас в неё docker-compose, а в нём разверну Apache Superset для визуализации, к нему подключу СУБД и уже можно начинать «работать» (визуализации, графики, EDA и т.п. по текущим базам)

В следующей итерации: развернуть на нём JupyterHub, Airflow.

Ну а затем всё остальное.
И заодно аппки свои по парсингу затащить на него с локалки. Вот будет красота.

643 views15:32

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Ох и попил он мне крови в настройке…

«не хватает модуля» → давай pip install МОДУЛЬ → хер, ошибка не хватает ещё другого модуля и вообще зависимости вышли покурить → окей вот тебе другой модуль, а какого хера зависимости не совпадают? → потому что слишком новые версии стоят, давай даунгрейд → бляяя, окей, вот тебе даунгрейд, вот модули ниже версиями, что тебе ещё собака надо? → рестарт → тьфу бляха, вот тебе рестарт…

674 views00:10

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Но в итоге и Postgres подцепился (после танцев с бубном, т.к. pip install psycopg2 так и не прокатил. Пришлось pip install psycopg2-binary ставить…)

И CSV загрузились нормально.

И реквесты отрабатываются (их нет на скрине).

Завтра построение дашбордов протестирую.

ЗБС, я теперь вроде даже могу сюда юзеров создавать клиентам, под дашборды по ним, с разграничением прав и доступов (завтра проверю).

769 views00:15

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Ахереть задачку конечно надо посчитать:

«What share of lifetime value is generated during the first month in the app?»
«Какую долю от LTV юзер сгенерировал за первый месяц использования приложения?»
Звучит просто, но подковырка, как обычно, подкралась незаметно.

Для решения задачи пришлось сделать две CTE на основе разных таблиц, сджойнить их, отдельно селект по CTE, и ещё дополнительный селект с подзапросом. Плюс условие с вычислением даты. А даты без ::timestamp не распознаются, собаки такие.

Так. Столбцы сформировал. Всё в целом готово, ещё столбец с вычислением этого «share of lifetime value» завтра уже задолбался.

Но очень рад, что и в подзапросах потренировался, и в СТЕ.
😅Хорошо, что оконную функцию натягивать не пришлсь, какое-нить плавающее среднее, растудыть его…

843 views01:20

👨🏼‍💻Перекладываю 📊 в 🌲🇫🇮

Не нравится мне, встроенная в Apache Superset дефолтная Pivot Table, она кривая и косая блин, в v2 с раскраской цветом.

Либо ровная и чёткая, но без цвета.

Ну, главное щас табличек заготовить и черновых графиков и схем. А завтра уже в презу переносить, там и нарисую красиво.

Будет порфтолио — как из сырых данных получить отчёт для стейкхолдеров, имея изначально только три CSV файла. Развернув самостоятельно под это дело БД и BI-инструмент на Облаке, не потратив ни рубля (с помощью промокодов).

Грубо говоря не имея ничего кроме 3 файлов от клиента — собрать инструмент и сделать результат.

И всё это за 4 дня.

946 viewsedited 01:29

About

Blog

Apps

Platform