Инжиниринг Данных
22.9K subscribers
1.75K photos
52 videos
181 files
3.04K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 9 лет в FAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Forwarded from Reveal the Data
Внутренняя аналитика как продукт
Завтра обсудим с Андреем из канала @productdo как использовать продуктовые подходы для внутренних продуктов, в том числе к аналитике и дашбордам. Это забавно, но аналитики не всегда анализируют результаты своей работы. Вот такой вот каламбур =)

Покажу какие метрики мы использовали в Яндекс Go для дашбордов. И очень интересно узнать про опыт Андрея — он менеджер внутренней платформы в Booking.

Трансляция
YouTube канал ребят — https://www.youtube.com/@ProductDo/streams

Когда
30 мая, четверг, 18:30 по Мск
#выступление
Всем привет, одна из подписчиц, кто давно читает мой канал, активно принимает участие в проекте с пеликанами scifly.ai попросила рассказать о своей близкой подруге и ее сборе на операцию для ребенка. Если есть возможность и есть желание, можете сделать доброе дело. Я сам тоже помогу, ведь не зря же рекламу за рубли продаю.
Увлекательная история о том, как стать специалистом Data Science. Мария Косарева сейчас возглавляет Департамента анализа данных и моделирования в Газпромбанке. А в статье подробно рассказала, как выбрала профессию и построила карьеру в IT будучи женщиной.
VK Cloud Conf 2024 — большая облачная конференция VK Cloud

20 июня 2024 года, офлайн и онлайн, на VK Cloud Conf ведущие эксперты VK и крупнейших российских компаний расскажут про развитие облаков и поделятся опытом разработки продуктов. Вас ждут кейсы от экспертов из Битрикс24, Бургер Кинг и SimbirSoft, доклады архитекторов и руководителей групп VK Cloud, а также увлекательные дискуссии по информационной безопасности, трендам разработки и работе с данными.

На VK Cloud Conf расскажут:

• Как организовать высокий уровень доступности приложений и баз данных, обеспечить отказоустойчивость и масштабируемость.
• Как работать с данными: от корпоративных хранилищ до аналитических и рекомендательных систем.
• Как организовать виртуальные рабочие места в облаке.
• По каким критериям бизнес выбирает сервисы для коммуникаций.

Конференция VK Cloud Conf — прекрасная возможность узнать больше о проверенных облачных технологиях, обменяться мнениями с коллегами и найти ответы на актуальные вопросы.

Зарегистрироваться бесплатно
Привет! Замучился я ковырять helm charts, Kubernetes на GCP для Airbyte, Airflow. Мне нужно поменять настройки и посмотреть, что у меня не так, и как уже сделать правильно, уходит очень много времени и мало результата. Мне нужен эксперт, кто мне поможет поменять настройки и задеплоить этот адский open source.

Я могу заплатить через PayPal (Европа, США) или по Канаде перевод, через свою корпорацию. Пишите в личку, если вы супер эксперт по этим технологиям.

Если вы не в Европе/Северная Америка и у вас нет PayPal, то заплатить не получится.
Значит у нас 3 основных формата Lakehouse - Hudi, Iceberg, Delta.

Hudi совсем прохудился и пропал из информационного поля.

Традиционно Databricks пилит Delta (Delta Lake), а Iceberg был создан Tabular, и сейчас - Databricks Agrees to Acquire Tabular, the Company Founded by the Original Creators of Apache Iceberg

Так же Iceberg популярен как независимый lakehouse, например для Trino.

PS свежая книжка про Iceberg - Apache Iceberg: The Definitive Guide (вроде как Dremio приложили руку к написанию)

Вот еще новость от Snowflake - Introducing Polaris Catalog: An Open Source Catalog for Apache Iceberg
В этом году не получилось на конференцию по Snowflake:(

Не получится набрать стикеров, футболок, бутылок и другого хлама (за счет VC и инвестиций в data стартапы), но зато все самое интересное все будут постить, а я буду репостить! 👙
Please open Telegram to view this post
VIEW IN TELEGRAM
Канал для аналитиков уже в Telegram!

Его ведет Влад Князев, аналитик из финтеха, который ярко и с юмором пишет заметки и проводит эфиры о том, как выйти на новый уровень в карьере в IT.

Начинай прокачивать насмотренность системно уже сейчас👇

Подпишись на @godnolytika
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Коля Митин говорит (Nick Mitin)
Please open Telegram to view this post
VIEW IN TELEGRAM
Если у вас есть дети, могу посоветовать им настоящий журнал Юный натуралист https://unnaturalist.ru/anonce/show/anonceId/279/#top

И конечно в свежем номере есть рассказ про пеликанов - КАК ЛЕТАЮТ ПЕЛИКАНЫ

PS а для взрослых у нас про пеликанов тут - https://www.scifly.ai/
13 июня будет Trino Fest, у них есть онлайн сессия.

Trino - SQL движок, который умеет читать данные из других баз данных, файлов, NoSQL баз, sftp, и еще много чего. Полностью открытое ПО. Я знаю, что можно использовать sql движок от Clickhouse/Duckdb (без функции хранения данных в базу), но деталей не знаю.

Я даже специально зашел на любимый сайт своей молодости HH (headhunter ru) и поискал “trino”, и нашел довольно много вакансий Инженера Данных с Trino. Также trino используются в отечественном облаке.

Идеальный стек мог бы быть в облаке или on-premise:
- Trino - SQL Engine, строим Iceberg Data Lake
- Нужно найти где хранить данные, в зависимости от возможностей
- dbt - бизнес логика в SQL
- Airflow/Prefect - расписание
- Airbyte/Meltano - набор коннекторов к источникам данных
- Metabase - SQL доступ для пользователей + дашборды (возможно Superset)
- Kubernetes - хостинг всего этого дела
Про визуализацию Настеньку и ее графики📊

В телеграмме достаточно много канало про визуализацию и инфографику. Сегодня я поделюсь с интересным каналом, который я уже давно читаю. В нем прекрасно все и название и контент - настенька и графики.

Я посмотрел в истории своего канала, у меня было несколько упоминаний канала и самое первое было 4 сентября 2020 года.

В канале много примеров визуализаций, даже есть визуализация про про бары в Питере🥂

В целом в канале очень много информации про best practices и историю визуализации. Думаю подписчики канала не попадают в просак с pie chart. Еще у Насти афигенный Tableau Public Profile и даже есть курс по визуализации и разработки в Tableau на степике.

А кроме Насти еще еще много талантливых писателей, у кого одно из хобби писать что-нибудь в телеграмм, их собрали в папочку, на которую вы можете подписаться, там 15 каналов про Аналитику.
Please open Telegram to view this post
VIEW IN TELEGRAM
Действие - это применение некоторого инструмента к процессам для достижения поставленной цели. Главным критерием является не результативность действия, которая может быть и нулевой, и отрицательной. Всё это носит вероятностный характер. Делать что-либо, когда результат не гарантирован на 100% - с тактического масштаба достаточно глупо. Зачем тратить энергию на то, что либо принесёт результат или нет? Лучше зависнуть в экономном режиме и ждать стопудовых вариантов. Все это логично и рационально.

Чтобы таким образом живые существа не вымирали за миллионы лет естественного отбора в нас закрепилась одна молекула, молекула «ещё», то есть дофамин. Чем более случайный результат, тем больше азарта, тем больше дофамина в предвкушении возможного выигрыша. Эта молекула поощряет наши вероятностные действия.

Более того, без дофамина, как выяснили в ходе одного ужасного эксперимента по лечению зависимостей, мы вообще не можем двигаться. Лишенные чувствительности к дофамину пациенты превратились в парализованных, обездвиженных людей.

Предформой дофамина является норадреналин. Который, в свою очередь вырабатывается от стресса, когда нам что-либо угрожает. Все логично и рационально, если опасность застала врасплох, надо срочно сваливать либо атаковать, может и замереть контролируя свои мышцы, но в любом случае действовать. Поэтому если с утра в течение первого часа после подъема сделать силовые упражнения (десяток другой приседаний, отжиманий) и потом поставить и достичь цели, то дофаминовые цепочки заведутся на весь день. Цель может быть минимальной - прочесть 10 страниц книги, помыть посуду, сделать NBack, но обязательно ощущать добровольную завершенность задачи. Вот то самое удовлетворение от сделанного.

Именно добровольное, потому что если кто-то заставляет, то цепочка подачи дофамина в лобной доли блокируется. В армии заставляют отжиматься, но это не дает удовольствия.

Ещё дофамин выплескивается после обжигающе холодного душа идти ополаскивания, если здоровье позволяет. Обливание должно быть краткосрочным, это не для того, чтобы привыкать к холоду. В результате на четыре часа уровень дофамина растет в два раза. В отличие от множества других ю способов поднять дофамин, после которых дофамин резко падает.

Чем выше поднят дофамин, тем ниже он падает. Если одновременно смотреть интересный фильм, есть фастфуд и пить сладкую газировку, то дофамин зашкаливает. Но после этого резко и очень сильно падает. Лучше отдельно: кино, газировка и фастфуд, раз уж так сложилось.

Это краткое осмысление одного из подкастов Эндрю Хубермана - https://youtu.be/QmOF0crdyRU
Вот буквально на днях кол-во подписчиков перевалило за 20 000! Конечно активных только 5000, остальные 15т наверно “мертвые души”, но это уже совсем другая история.

Канал был создан в 6 ноября 2018 года. Тогда еще телеграмм не был таким популярным и вообще за пределами РФ не использовался. Так получилось, что Алексей меня пригласил на первый Матемаркетинг выступить с докладом от Амазон. Ему был интересен Амазон, как громкое имя, а не лично я. Я даже не помню как мы познакомились, но помню, что до Матемаркетинга я был летом в Москве, и мы встретились первый раз, я получил интересный инсайт - телеграмм канал приносит больше денег чем full time работа.

И вот в ноябре 2018 на конференции, я выступил с докладом, и использовал канал, чтобы расшарить лабы по Snowflake + Tableau. В 2018 году Snowflake еще был не публичной компаний и в Канаде о нем мало кто знал, а в Москве уже проходили воркшопы по нему! А доклад назывался - BI-системы и DWH - Архитектура и кейсы

Уже после конференции у меня было 600 подписчиков, и я начал бомбить историями про “залететь на работу без опыта”. Вообще думаю о том, что мой канал про “Инжиниринг карьеры и данных”.

И тут я подумал, как круто, можно летать на конференцию в Москву благодаря каналу. И действительно, скоро я выступал в Mail Ru офисе перед огромной аудиторий - Как технологии помогают Amazon быть самой клиентоориентированной компанией на Земле? И это было очень круто, я сам кайфанул как круто получилось. Секрет был прост:
- 2 предложения на слайд (желательно все выучить наизусть)
- много ярких и интересных слайдов
- несколько классных промо роликов от Amazon Alexa

Так же я писал статьи на Хабр, у которых было пот 40к-80к просмотров, что приводило новых пользователей.

Так же выступил онлайн на нескольких конференциях, включая Smart Data - главная конференция по инжинирингу данных:
- Два типа инженеров данных
- Инжиниринг данных в «Майкрософт»
- Все жду 3ю серию про архитектуру и решения

В какой-то момент ко мне пришли с запросом из курсов Skill Factory на создание курса по Инжинирингу Данных. Я сделал план курса, но мне предложили 120т рублей за разработку курса и попросили сделать за месяц. Дали доступ на курс по data science посмотреть пример, оказалось все очень печально, из чего я сделал вывод, что все эти курсы шляпа. Чтобы программа не пропадала, решил записать курс и Роман Пономарев очень помог с организаций и поддержкой (курс и сообщество дальше живет) - datalearn.ru . Сообщество очень помогло во время ковида, и я точно знаю, что очень многим помогло начать карьеру, найти работу и тп. Мне всегда хотелось делиться знаниями и у меня всегда была мысль сделать что-нибудь для своей Родины, ну и вообще верю в круговорот энергии, больше даешь, больше получаешь!

Здесь же зародился замечательный проект про мониторинг пеликанов, который теперь называется https://www.scifly.ai/ . Сегодня вот, например, обсуждал как бы классно было бы открыть ферму пеликанов в Подмосковье (ведь есть фермы/заповедники кенгуру). Вы знали, что пеликанам появились 40-50 млн лет?! И я не знал…

Из последнего в Сентябре/Октябре появился Surfalytics. Это как datalearn, но на английском и глобальный. Так же все бесплатно, но вход сообщество уже за номинальную плату, потому что совсем бесплатное не очень-то уж ценится.

Поэтому, мое вам большое спасибо, что продолжаете читать, благодаря каналу я познакомился с огромным кол-вом людей по всему миру! И я рад, что я могу тут быть самим собой и реализовывать потребность “поделиться” ссылочкой, побузить на менеджера или проект, пожаловаться на маленькую зарплату или негодовать на массовые увольнения!
В книге Джейсона Каланиса "Ангел-инвестор”, Джейсон приводит пример вопросов, на которые нужно ответить, перед тем как принять решения об инвестировании (seed investment в данном контексте).

Самое интересное, что эти вопросы хорошо подходят для вашей карьеры. Вообще особо не важно, что вы делаете на работе, но задать эти вопросы во время собеседования или общаться с фаундерами использую их же терминологию лишним не будет.

Какая проблема решается? – Понять, какую конкретную проблему решает стартап, и насколько она значима для целевой аудитории.

Почему сейчас? – Почему именно сейчас настало подходящее время для решения этой проблемы? Какие изменения в технологии, рынке или обществе делают этот момент подходящим?

Почему вы? – Почему именно эта команда способна успешно реализовать эту идею? Какой у них опыт, знания и мотивация?

Что уникального? – В чем уникальность продукта или услуги? Почему конкуренты не смогут легко повторить или превзойти это решение?

Как вы будете зарабатывать деньги? – Какова бизнес-модель стартапа? Как планируется генерировать доход и какова стратегия монетизации?

Какие метрики важны? – Какие ключевые показатели эффективности (KPI) будут использоваться для измерения успеха? Как будет измеряться рост и прогресс?

Какова ваша стратегия роста? – Как стартап планирует привлекать клиентов и масштабировать бизнес? Какие маркетинговые и продажные стратегии будут использоваться?

Какие риски? – Какие основные риски связаны с бизнесом и как команда планирует их минимизировать?

Какие у вас конкуренты? – Кто основные конкуренты на рынке? Чем они отличаются и как стартап планирует конкурировать с ними?

Как вы используете инвестиции? – Как стартап планирует использовать привлеченные средства? На какие основные области будут направлены инвестиции?


Да еще в случает офера в стартап, вы сможете оценить самостоятельно шансы на успех:


Какое у вас текущее количество наличных денег? – Это помогает понять текущий финансовый резерв стартапа.

Каков ваш месячный уровень сжигания наличных (burn rate)? – Этот показатель показывает, сколько денег стартап тратит каждый месяц.

Сколько месяцев у вас осталось на существующих наличных? – Этот вопрос помогает оценить, насколько долго стартап сможет продолжать операционную деятельность при текущем уровне расходов.

Какой ваш план по привлечению следующих раундов финансирования? – Важно понимать, как стартап планирует привлекать дополнительные инвестиции и какие шаги они предпринимают для этого.

У меня недавно был такой кейс, где я зарядил все эти вопросы фаундерам стартапа, и эффект был очень позитивный. Теперь помогаю им выстроить все систему аналитики с 0. Конечно в моем контексте главный уклон был на данные, метрики бизнеса, ценность данных для продукта и leadership команды.

Я всегда говорю, вы как специалист должны добавлять ценность компании, коллегам, инвесторам, фаундарам, руководству. По опыту surflalytics я вижу, что скиллы можно быстро получить, а вот behaviour вопросы, навыки продавать себя и рассказывать красиво про свой опыт это не просто, а тут уже не получился в тихушку задачки порешать на Leetcode, нужно выявить слабые места и переступить через свои страхи, начать делать, что вы раньше не делали- Public Speaking? Blog posting? Youtube channel? Митапы? Нетворкинг?

PS теперь Surfalytics это про engineering data career.
Самое время летом читать про Iceberg, все вендоры уже вдоль и поперек про него рассказали на своих конференциях.