Инжиниринг Данных
20.3K subscribers
1.52K photos
26 videos
175 files
2.81K links
Делюсь новостями из мира аналитики и вредными карьерными советами;)

8 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄‍♂️

Контакты и реклама: @dimoobraznii (сам не предлагаю купить рекламу или взаимопиар за деньги).
Download Telegram
Увлекательная история о том, как стать специалистом Data Science. Мария Косарева сейчас возглавляет Департамента анализа данных и моделирования в Газпромбанке. А в статье подробно рассказала, как выбрала профессию и построила карьеру в IT будучи женщиной.
VK Cloud Conf 2024 — большая облачная конференция VK Cloud

20 июня 2024 года, офлайн и онлайн, на VK Cloud Conf ведущие эксперты VK и крупнейших российских компаний расскажут про развитие облаков и поделятся опытом разработки продуктов. Вас ждут кейсы от экспертов из Битрикс24, Бургер Кинг и SimbirSoft, доклады архитекторов и руководителей групп VK Cloud, а также увлекательные дискуссии по информационной безопасности, трендам разработки и работе с данными.

На VK Cloud Conf расскажут:

• Как организовать высокий уровень доступности приложений и баз данных, обеспечить отказоустойчивость и масштабируемость.
• Как работать с данными: от корпоративных хранилищ до аналитических и рекомендательных систем.
• Как организовать виртуальные рабочие места в облаке.
• По каким критериям бизнес выбирает сервисы для коммуникаций.

Конференция VK Cloud Conf — прекрасная возможность узнать больше о проверенных облачных технологиях, обменяться мнениями с коллегами и найти ответы на актуальные вопросы.

Зарегистрироваться бесплатно
Привет! Замучился я ковырять helm charts, Kubernetes на GCP для Airbyte, Airflow. Мне нужно поменять настройки и посмотреть, что у меня не так, и как уже сделать правильно, уходит очень много времени и мало результата. Мне нужен эксперт, кто мне поможет поменять настройки и задеплоить этот адский open source.

Я могу заплатить через PayPal (Европа, США) или по Канаде перевод, через свою корпорацию. Пишите в личку, если вы супер эксперт по этим технологиям.

Если вы не в Европе/Северная Америка и у вас нет PayPal, то заплатить не получится.
Значит у нас 3 основных формата Lakehouse - Hudi, Iceberg, Delta.

Hudi совсем прохудился и пропал из информационного поля.

Традиционно Databricks пилит Delta (Delta Lake), а Iceberg был создан Tabular, и сейчас - Databricks Agrees to Acquire Tabular, the Company Founded by the Original Creators of Apache Iceberg

Так же Iceberg популярен как независимый lakehouse, например для Trino.

PS свежая книжка про Iceberg - Apache Iceberg: The Definitive Guide (вроде как Dremio приложили руку к написанию)

Вот еще новость от Snowflake - Introducing Polaris Catalog: An Open Source Catalog for Apache Iceberg
В этом году не получилось на конференцию по Snowflake:(

Не получится набрать стикеров, футболок, бутылок и другого хлама (за счет VC и инвестиций в data стартапы), но зато все самое интересное все будут постить, а я буду репостить! 👙
Please open Telegram to view this post
VIEW IN TELEGRAM
Канал для аналитиков уже в Telegram!

Его ведет Влад Князев, аналитик из финтеха, который ярко и с юмором пишет заметки и проводит эфиры о том, как выйти на новый уровень в карьере в IT.

Начинай прокачивать насмотренность системно уже сейчас👇

Подпишись на @godnolytika
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Коля Митин говорит (Nick Mitin)
Please open Telegram to view this post
VIEW IN TELEGRAM
Если у вас есть дети, могу посоветовать им настоящий журнал Юный натуралист https://unnaturalist.ru/anonce/show/anonceId/279/#top

И конечно в свежем номере есть рассказ про пеликанов - КАК ЛЕТАЮТ ПЕЛИКАНЫ

PS а для взрослых у нас про пеликанов тут - https://www.scifly.ai/
13 июня будет Trino Fest, у них есть онлайн сессия.

Trino - SQL движок, который умеет читать данные из других баз данных, файлов, NoSQL баз, sftp, и еще много чего. Полностью открытое ПО. Я знаю, что можно использовать sql движок от Clickhouse/Duckdb (без функции хранения данных в базу), но деталей не знаю.

Я даже специально зашел на любимый сайт своей молодости HH (headhunter ru) и поискал “trino”, и нашел довольно много вакансий Инженера Данных с Trino. Также trino используются в отечественном облаке.

Идеальный стек мог бы быть в облаке или on-premise:
- Trino - SQL Engine, строим Iceberg Data Lake
- Нужно найти где хранить данные, в зависимости от возможностей
- dbt - бизнес логика в SQL
- Airflow/Prefect - расписание
- Airbyte/Meltano - набор коннекторов к источникам данных
- Metabase - SQL доступ для пользователей + дашборды (возможно Superset)
- Kubernetes - хостинг всего этого дела
Про визуализацию Настеньку и ее графики📊

В телеграмме достаточно много канало про визуализацию и инфографику. Сегодня я поделюсь с интересным каналом, который я уже давно читаю. В нем прекрасно все и название и контент - настенька и графики.

Я посмотрел в истории своего канала, у меня было несколько упоминаний канала и самое первое было 4 сентября 2020 года.

В канале много примеров визуализаций, даже есть визуализация про про бары в Питере🥂

В целом в канале очень много информации про best practices и историю визуализации. Думаю подписчики канала не попадают в просак с pie chart. Еще у Насти афигенный Tableau Public Profile и даже есть курс по визуализации и разработки в Tableau на степике.

А кроме Насти еще еще много талантливых писателей, у кого одно из хобби писать что-нибудь в телеграмм, их собрали в папочку, на которую вы можете подписаться, там 15 каналов про Аналитику.
Please open Telegram to view this post
VIEW IN TELEGRAM
Действие - это применение некоторого инструмента к процессам для достижения поставленной цели. Главным критерием является не результативность действия, которая может быть и нулевой, и отрицательной. Всё это носит вероятностный характер. Делать что-либо, когда результат не гарантирован на 100% - с тактического масштаба достаточно глупо. Зачем тратить энергию на то, что либо принесёт результат или нет? Лучше зависнуть в экономном режиме и ждать стопудовых вариантов. Все это логично и рационально.

Чтобы таким образом живые существа не вымирали за миллионы лет естественного отбора в нас закрепилась одна молекула, молекула «ещё», то есть дофамин. Чем более случайный результат, тем больше азарта, тем больше дофамина в предвкушении возможного выигрыша. Эта молекула поощряет наши вероятностные действия.

Более того, без дофамина, как выяснили в ходе одного ужасного эксперимента по лечению зависимостей, мы вообще не можем двигаться. Лишенные чувствительности к дофамину пациенты превратились в парализованных, обездвиженных людей.

Предформой дофамина является норадреналин. Который, в свою очередь вырабатывается от стресса, когда нам что-либо угрожает. Все логично и рационально, если опасность застала врасплох, надо срочно сваливать либо атаковать, может и замереть контролируя свои мышцы, но в любом случае действовать. Поэтому если с утра в течение первого часа после подъема сделать силовые упражнения (десяток другой приседаний, отжиманий) и потом поставить и достичь цели, то дофаминовые цепочки заведутся на весь день. Цель может быть минимальной - прочесть 10 страниц книги, помыть посуду, сделать NBack, но обязательно ощущать добровольную завершенность задачи. Вот то самое удовлетворение от сделанного.

Именно добровольное, потому что если кто-то заставляет, то цепочка подачи дофамина в лобной доли блокируется. В армии заставляют отжиматься, но это не дает удовольствия.

Ещё дофамин выплескивается после обжигающе холодного душа идти ополаскивания, если здоровье позволяет. Обливание должно быть краткосрочным, это не для того, чтобы привыкать к холоду. В результате на четыре часа уровень дофамина растет в два раза. В отличие от множества других ю способов поднять дофамин, после которых дофамин резко падает.

Чем выше поднят дофамин, тем ниже он падает. Если одновременно смотреть интересный фильм, есть фастфуд и пить сладкую газировку, то дофамин зашкаливает. Но после этого резко и очень сильно падает. Лучше отдельно: кино, газировка и фастфуд, раз уж так сложилось.

Это краткое осмысление одного из подкастов Эндрю Хубермана - https://youtu.be/QmOF0crdyRU
Вот буквально на днях кол-во подписчиков перевалило за 20 000! Конечно активных только 5000, остальные 15т наверно “мертвые души”, но это уже совсем другая история.

Канал был создан в 6 ноября 2018 года. Тогда еще телеграмм не был таким популярным и вообще за пределами РФ не использовался. Так получилось, что Алексей меня пригласил на первый Матемаркетинг выступить с докладом от Амазон. Ему был интересен Амазон, как громкое имя, а не лично я. Я даже не помню как мы познакомились, но помню, что до Матемаркетинга я был летом в Москве, и мы встретились первый раз, я получил интересный инсайт - телеграмм канал приносит больше денег чем full time работа.

И вот в ноябре 2018 на конференции, я выступил с докладом, и использовал канал, чтобы расшарить лабы по Snowflake + Tableau. В 2018 году Snowflake еще был не публичной компаний и в Канаде о нем мало кто знал, а в Москве уже проходили воркшопы по нему! А доклад назывался - BI-системы и DWH - Архитектура и кейсы

Уже после конференции у меня было 600 подписчиков, и я начал бомбить историями про “залететь на работу без опыта”. Вообще думаю о том, что мой канал про “Инжиниринг карьеры и данных”.

И тут я подумал, как круто, можно летать на конференцию в Москву благодаря каналу. И действительно, скоро я выступал в Mail Ru офисе перед огромной аудиторий - Как технологии помогают Amazon быть самой клиентоориентированной компанией на Земле? И это было очень круто, я сам кайфанул как круто получилось. Секрет был прост:
- 2 предложения на слайд (желательно все выучить наизусть)
- много ярких и интересных слайдов
- несколько классных промо роликов от Amazon Alexa

Так же я писал статьи на Хабр, у которых было пот 40к-80к просмотров, что приводило новых пользователей.

Так же выступил онлайн на нескольких конференциях, включая Smart Data - главная конференция по инжинирингу данных:
- Два типа инженеров данных
- Инжиниринг данных в «Майкрософт»
- Все жду 3ю серию про архитектуру и решения

В какой-то момент ко мне пришли с запросом из курсов Skill Factory на создание курса по Инжинирингу Данных. Я сделал план курса, но мне предложили 120т рублей за разработку курса и попросили сделать за месяц. Дали доступ на курс по data science посмотреть пример, оказалось все очень печально, из чего я сделал вывод, что все эти курсы шляпа. Чтобы программа не пропадала, решил записать курс и Роман Пономарев очень помог с организаций и поддержкой (курс и сообщество дальше живет) - datalearn.ru . Сообщество очень помогло во время ковида, и я точно знаю, что очень многим помогло начать карьеру, найти работу и тп. Мне всегда хотелось делиться знаниями и у меня всегда была мысль сделать что-нибудь для своей Родины, ну и вообще верю в круговорот энергии, больше даешь, больше получаешь!

Здесь же зародился замечательный проект про мониторинг пеликанов, который теперь называется https://www.scifly.ai/ . Сегодня вот, например, обсуждал как бы классно было бы открыть ферму пеликанов в Подмосковье (ведь есть фермы/заповедники кенгуру). Вы знали, что пеликанам появились 40-50 млн лет?! И я не знал…

Из последнего в Сентябре/Октябре появился Surfalytics. Это как datalearn, но на английском и глобальный. Так же все бесплатно, но вход сообщество уже за номинальную плату, потому что совсем бесплатное не очень-то уж ценится.

Поэтому, мое вам большое спасибо, что продолжаете читать, благодаря каналу я познакомился с огромным кол-вом людей по всему миру! И я рад, что я могу тут быть самим собой и реализовывать потребность “поделиться” ссылочкой, побузить на менеджера или проект, пожаловаться на маленькую зарплату или негодовать на массовые увольнения!
В книге Джейсона Каланиса "Ангел-инвестор”, Джейсон приводит пример вопросов, на которые нужно ответить, перед тем как принять решения об инвестировании (seed investment в данном контексте).

Самое интересное, что эти вопросы хорошо подходят для вашей карьеры. Вообще особо не важно, что вы делаете на работе, но задать эти вопросы во время собеседования или общаться с фаундерами использую их же терминологию лишним не будет.

Какая проблема решается? – Понять, какую конкретную проблему решает стартап, и насколько она значима для целевой аудитории.

Почему сейчас? – Почему именно сейчас настало подходящее время для решения этой проблемы? Какие изменения в технологии, рынке или обществе делают этот момент подходящим?

Почему вы? – Почему именно эта команда способна успешно реализовать эту идею? Какой у них опыт, знания и мотивация?

Что уникального? – В чем уникальность продукта или услуги? Почему конкуренты не смогут легко повторить или превзойти это решение?

Как вы будете зарабатывать деньги? – Какова бизнес-модель стартапа? Как планируется генерировать доход и какова стратегия монетизации?

Какие метрики важны? – Какие ключевые показатели эффективности (KPI) будут использоваться для измерения успеха? Как будет измеряться рост и прогресс?

Какова ваша стратегия роста? – Как стартап планирует привлекать клиентов и масштабировать бизнес? Какие маркетинговые и продажные стратегии будут использоваться?

Какие риски? – Какие основные риски связаны с бизнесом и как команда планирует их минимизировать?

Какие у вас конкуренты? – Кто основные конкуренты на рынке? Чем они отличаются и как стартап планирует конкурировать с ними?

Как вы используете инвестиции? – Как стартап планирует использовать привлеченные средства? На какие основные области будут направлены инвестиции?


Да еще в случает офера в стартап, вы сможете оценить самостоятельно шансы на успех:


Какое у вас текущее количество наличных денег? – Это помогает понять текущий финансовый резерв стартапа.

Каков ваш месячный уровень сжигания наличных (burn rate)? – Этот показатель показывает, сколько денег стартап тратит каждый месяц.

Сколько месяцев у вас осталось на существующих наличных? – Этот вопрос помогает оценить, насколько долго стартап сможет продолжать операционную деятельность при текущем уровне расходов.

Какой ваш план по привлечению следующих раундов финансирования? – Важно понимать, как стартап планирует привлекать дополнительные инвестиции и какие шаги они предпринимают для этого.

У меня недавно был такой кейс, где я зарядил все эти вопросы фаундерам стартапа, и эффект был очень позитивный. Теперь помогаю им выстроить все систему аналитики с 0. Конечно в моем контексте главный уклон был на данные, метрики бизнеса, ценность данных для продукта и leadership команды.

Я всегда говорю, вы как специалист должны добавлять ценность компании, коллегам, инвесторам, фаундарам, руководству. По опыту surflalytics я вижу, что скиллы можно быстро получить, а вот behaviour вопросы, навыки продавать себя и рассказывать красиво про свой опыт это не просто, а тут уже не получился в тихушку задачки порешать на Leetcode, нужно выявить слабые места и переступить через свои страхи, начать делать, что вы раньше не делали- Public Speaking? Blog posting? Youtube channel? Митапы? Нетворкинг?

PS теперь Surfalytics это про engineering data career.
Самое время летом читать про Iceberg, все вендоры уже вдоль и поперек про него рассказали на своих конференциях.
Одна из сложностей для обучения, курсов и тренингов - оторванность от реального бизнеса.

Обычно выбор сводится к данным Airbnb в CSV файла, NY Taxi в Parquet и тп, затертых до дыр use cases.

У меня давно была идея как-нибудь решить эту проблему.

В мое случае, я хочу сделать реальный интернет магазин с реальным товаром, например футболки. Чтобы все это упростить, пусть это будет drop-shipping/print on-demand на Shopify, интеграция с Stripe, Google Ads, Facebook Ads, LinkedinAds. Можно даже на Amazon положить.

Сам объем продаж и профит мне не важны, мне важны реальные данные и реальные use cases.

Для начала я решил скрестить дорогие машины и прикольный спорт (серфинг, лыжи, горный/дорожный, велосипед, кайтинг), еще рыбалка и охота. Выбрал разные машины типа DeLorean time machine, Ford GT40, Lamborghini Countach LP500 S, FERRARI TESTAROSSA, и тп + 2 бонусом Volga GAZ 21, vaz-2108.

Попросил мою любимую дизайнерскую студию https://studiomuti.co.za/graphics придти с идеями дизайна и товарища предпринимателя изучить вопрос местного рынка футболок, кто интегрируется с shopify. (Товарищ до Канады продавал на Озоне успешно, так что можно будет потом и на озон закинуть ради эксперимента).

PS это я дизайнерам нарисовал гелик с серфом в качестве ТЗ:)

Кстати наш Data Surf bootcamp будет 20-25 Августа в Тофино.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Книжный куб (Alexander Polomodov)
dbt — ядро современной платформы данных - Евгений Ермаков - SmartData 2023 (Рубрика #Architecture)

Интересный доклад Евгения Ермакова про построение дата платформы в toloka.ai, которая, получив независимость от Yandex, вынуждена была переезжать на новые технологии. В итоге, выбор пал на databricks, dbt, airflow и tableau. Автор рассказывает о том, почему был сделан такой выбор и как в итоге это все работает.

Основные моменты следующие:
- Сама toloka - это система для краудсорсинга, куда заказчики приходят с задачками навроде разметить данные, а с другой стороны на платформе зарегестрированы люди, которые их выполняют
- Архитектура базируются на трех китах:
-- Data lakehouse
-- Процессы в соответствии с подходом data mesh
-- Современный технологический стек
- До переезда на новые технологии ребята использовали много своего, часть из которого уже есть в opensource: YTsaurus, datalens
- После переезда выбрали новые технологии и dbt стал ядром системы, закрывая функциональность: data quality, data catalog/ data observability, batch processing (вместе со spark), orchestration (вместе с airflow)
- Изначально dbt (data building tool) нужен был в качестве удобного инструмента для transformation шага в ETL/ELT
- Интересно, что в концепции компании dbt есть мнение и относительно ролей, где помимо стандартных data engineers и data analysts появляется еще analytics engineer. В итоге, data engineers - это те, кто делают так, чтобы data платформа работала эффективно, data analysts ищут инсайты в данных и помогают их эффективно использовать, а вот analytics engineers - это ребята, что-то среднее между другими двумя + хорошо укладывается в концепцию data mesh, где нет централизованной дата-команды, а есть дата-команды по доменам
- Основой dbt-проекта является dbt model. Модель состоит из файла с описанием логики (.sql или .py файл) и файла с описанием конфигурации. В .sql файле есть запрос на формирование объекта, другие модели используются через ref() или source() + используется jinja шаблонизация. В .py файле возвращаем dataframe с рассчитанными данными, есть доступ ко всем возможностям pyspark + другие модели тоже используются через ref() или source()
- Материализацию запроса dbt берет на себя и есть разные стратегии, из которых самая интересная incremental
- Настройки хранятся в dbt_project.yaml и profiles.yaml
- dbt поддерживает большое количество баз данных, например, postgres, mysql, clickhouse, ...
- dbt - это консольная утилита, например, при запуске dbt build происходит сборка всех зависимостей между моделями, а также компиляция python/sql запросов и запись в manifest.json
- Команда dbt run запускает скомпилированные запросы, где запуск можно настроить по разному, но интересно запускать по графу
- Кстати, dbt умеет генерировать документацию командой dbt docs generate и дальше можно посмотреть на lineage данных
- Также мы можем писать тесты в том же месте, где мы описываем модели, а дальше запускать их при помощи dbt tests. Например, можем проверять unique или not null на поле, а также если хотим relations между моделями
- У dbt есть еще много возможностей, но про них стоит почитать самостоятельно:)
- Дальше автор рассказывает как сделать data mesh на уровне dbt + airflow. Автор рассматривает варианты вида:
-- Монолитный - один dbt проект на всю компанию
-- Микросервисный - отдельные dbt проекты на каждый домен
-- Layered - отдельные dbt проекты по уровням
-- Смешанный - анархия, где проекты создаются кто как хочет
Выбрали монолитный подход и получили аля монорепо под data mesh, в котором живут все. Обусловлено это было тем, что при микросервисном подходе ломались все связки между моделями (до 1.6 не могли называть модели одинаково в разных проектах + была проблема с импортом друг друга, так как это приводило к циклическим зависимостям).
Из интересного еще сделали конвертор графа исполнения dbt в airflow формат, чтобы запускать DAG из airflow.

В итоге, ребята реализовали свой подход к data mesh при помощи open source инструмнетов и вся схема выглядит достаточно стройно.

#Data #Datamesh #DWH #Processes #Management
Устроиться аналитиком в Яндекс за выходные

6–9 июля проводим Weekend Offer Analytics. До 3 июля оставьте заявку на участие, 6–8 июля пройдите технические собеседования, а 9 июля познакомьтесь с командами и получите офер.

В мероприятии участвует 9 команд: Crowd, Карты, Поиск, Алиса, R&D, Автономный транспорт, Подразделение аналитики, Антифрод, Антиробот. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.

Нанимаем в офисы России и Республики Беларусь.

Узнать подробности и зарегистрироваться можно здесь.