Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Если посмотреть на провал года, то это будет soft skills. Я слишком много времени уделяю техническим вещам и говорю коллегам как есть, часто не «политкорректно». Одно радует, что пока не сталкивался с проблемами diversity&inclusion. Например, в моем годовом performance review написано, что у меня нет “Grow Mindset”, и что я должен быть открыт ко всему новому и учиться с удовольствием. Звучит перебор для меня, так как я только и делаю что ежедневно учусь. Вопрос в том, что я учу и для кого. Все что я учу, я учу для себя и на перспективу. Я просто сказал менеджеру, что учить C# (жена подумала это это слово СУКА с но цензурно скрыто😭, хотя близко по смыслу) я не хочу и не буду, так как есть более перспективные вещи для моей карьеры дата инженера. Может оно и так, но нельзя так отвечать менеджеру. И таких примеров у меня много, и каждый пример — это как «палка в колесо» развития карьеры внутри компании. Возможно, стоит сменить фокус на софт с технических навыков.

Из других достижений я наконец нашел способ увеличить доход, но все это больше, как временная мера. Чтобы зарабатывать в 2 раза больше, нужно работать в 1,5 раза больше. На короткой перспективе можно заработать, но это так себе решение задачи в долгой перспективе.

Вообще уровень зарплат в Канаде печальный. Если средняя зарплата специалиста не из ИТ равна 60т CAD в год до налогов, то в ИТ это 120т CAD. А старший дата инженер может получать 150т CAD + Stock + Bonus (условно не больше 180т CAD). Доктор будет получать уже 400т+ CAD в год. И налоги здесь прогрессивные. В целом в нашей отрасли дела хорошо идут. Но давайте посмотрим 200км южней от Ванкувера, на родину Старбакс и Амазон, там инженер данных будет получать уже в среднем в год 250т-300т US$ и налог будет 30% вместо 40%. А при хорошем раскладе будет все 450т US$ в год. В целом такое распределение вознаграждений в одной и той же компании мне кажется не честным, но что есть, то есть.

Поэтому часто у меня возникает вопрос, почему я еще не там? И у меня нет ответа. Потому что я не знаю, что лучше. Получать больше в Штатах или получать меньше в Канаде, а может быть получать достаточно в Европе? Или работать удаленно в Мексике? Вот примерно такие вопросы я себе задаю, и надеюсь в 2022 году я смогу найти на них ответы. Того и вам желаю! Пусть у каждого будет цель, а лучше измеряемый OKR😉 и тогда будет вам счастье!
По тексту может показаться грустноватый год, но если верить инстаграмму жены - год улет! Она сделала очень классный reels про 12 месяцев 2021 года
Большая обзорная статья про рынок баз данных в 2021 году. Там и postgres, и clickhouse, и противостояние Snowflake vs Databricks.
Пока вы ищете data scientist к себе в команду за 120т рублей в регионах, чтобы начать строить первую ML платформу на базе регрессии, некоторые уже пилят вторую версию ML платформы, как Etsy например😋
dbt tool первыми показали миру как можно создать успешный продукт, продвигая, его в дата сообществах.

Изначально сам продукт использовался для задач консалтинг компании Fishtown Analytics, которая делала BI для стартапов.

Благодаря облачным вычислениям, любая компанию после 2012 года (год запуска Amazon Redshift) могла легко и дёшево создать инфраструктуру аналитики и потом прикрутить простенький BI инструмент, да или вовсе обходиться SQL и Python.

Позже (а может и сразу) ребята из рыбного города сделали продукт открытым ПО и потихоньку набирали популярность, изначально просто ради привлечения клиентов стартапов.

Время шло, сообщество росло и крепчало, вносило изменения в продукт и можно было легко понять, куда нужно развиваться, какие фичи добавлять.

А потом, все венчурные фонды прочюхали рынок даты, и стали туда вливать много много денег.

Жалко Kettle/Pentaho DI не дождался своего часа, а то бы и в них влили сотню млн долларов на развитие, но их прохерили хитачи, которые их купили. Вообще странная компания Hitachi, даже есть представительство консалтинга в Ванкувере, наверно у них там дата камикадзе работают😬

Так вот, стали появляться коммерческие версии опенсорсных продуктов для данных, для ETL, для BI. Да и не только открытое ПО взлетело. Коммерческие продукты для аналитики всех цветов и мастей тоже получили бабло, а кого-то даже купили за млрды!🔥

Так вот, дошла очередь до dbt, им дали денюшку на коммерческий продукт - dbt cloud. Вроде он хороший, но можно и без него обойтись. Ценность пока для меня не ясна, но попытка хорошая.

В целом dbt всем показал, как можно сделать open source решение, быстро нагнать народ в сообщество и потом этому же сообществу продать свой продукт. Отличный пример это Airbite. Его фаундеры про это не стеснялись, так и говорили. Думаю Great Expectations там же рядом. И ещё много желающих. Можно и другую стратегию выбрать, например Partner Connect от Snowflake. Продать душу йети, так сказать.

Я точно уверен, что развивать продукт через сообщество это круто, но мне кажется нереально пройти путь dbt 8-10 лет за 1-2 года другим компаниям, даже с хорошим инвестированием. Народ быстро поймет, что к чему.

PS вообще я хотел скинуть статью про обзор 3х дней конференции coalesce от dbt, которую написал какой-то workflow manager продукт. (опять же для привлечения клиентов) Но потом меня накрыл поток мыслей 🤪
👍1
Главный инженер Сбера написал статью для Сбера хабр про миграцию с Терадаты на Greenplum. По мне, автор вообще не раскрыл тему вопроса. Обо всем и не о чем-то😔. Про объем данных нет информации, про ETL инструменты тоже, про цену решения - нету. А так да, гринплан может заменить дорогую терадату😋

А сколько в Сбере платят-то?))🤑
👍1
Martin M. Broadwell defines four stages of competence in Teaching for Learning:
- unconscious incompetence (you are unable to perform a task correctly and are unaware of the gap)
- conscious incompetence (you are unable to perform a task correctly but are aware of the gap)
- conscious competence (you are capable of performing a task with effort)
- unconscious competence (you are capable of performing a task effortlessly)

Таким образом можно сказать, что

Джуниор - conscious incompetence
Мидл - conscious competence
Сеньер - unconscious competence

Конечно, но же с пересечением. Но достаточно понятная формулировка.

Если посмотреть на datalearn подход, то мы гарантируем всем conscious incompetence с возможностью получения conscious competence в нескольких базовых навыках, которые будут достаточны, чтобы найти первую работу.
Итоги 2021 года:
Данные взяты не за все время, а только за 2021 год
Общая статистика:
SQL - Анатолий Балакирев:
• 37 видео
• Всего просмотров: 26479
• Часов просмотра: 2699

Вебинары - ведущий Роман Пономарев:
• 28 видео
• Всего просмотров: 38697
• Часов просмотра: 7016

Курс DE 101 - Дмитрий Аношин:
• 23 видео
• Всего просмотров: 19535
• Часов просмотра: 2161

Курс Getting started with Machine Learning and Data Science - Анастасия Риццо:
• 10 видео
• Всего просмотров: 9722
• Часов просмотра: 827

Анастасия Дробышева:
• 6 видео
• Всего просмотров: 3108
• Часов просмотра: 164

women in data community - Яна Конн, Яна Одинцова:
• 5 видео
• Всего просмотров: 1831
• Часов просмотра: 145

Pentaho - Павел Новичков:
• 2 видео
• Всего просмотров: 3569
• Часов просмотра: 420

Гости-спикеры наших вебинаров 2021 года
(список писал с последовательности выступлений сначала года):
• Владимир Лагутинский
• Денис Волк
• Аноним
• Павел Новичков
• Николай Голов
• Артемий Козырь
• Misha Britan
• Александр Гончар
• Алена дробышевская
• Дмитрий Павлов
• Павел Дубин
• Ксения Певзнер
• Штанова Евгения
• Viktor Kessler
• Владимир Калмыков
• Андрей Менде
• Иван Трусов
• Евгения Ребрикова
• Роман Зыков
• Денис Соловьев
• Виктория Олейник
• Олег Агапов
• Роман Васильев
• Эмиль Богомолов
• Дмитрий Браженко
• Анна Абрамова
• Gor Hayrapetyan
• Дмитрий Павлов
• Ришат Мингазов

❤️ Мы выражаем благодарность каждому спикеру, кто внес свой вклад в образовательное сообщество DataLearn.
Хотел написать, что очень рад, что к нам пришли много спикеров из очень крупных в том числе международных компаний, но потом вспомнил, что в 2020 году было также, и планка на максимуме задана с самого старта :)
Также напоминаю, что если у вас есть, чем поделиться с миром, то пишите и будем ждать вас на вебинаре.❤️

Еще немного достижений:
🔱 Запустили женское сообщество: women-in-data-community
🔱 Запустили очень крутой курс по sql для начинающих
🔱 Запустили очень крутой курс по Machine Learning and Data Science
🔱 Также на данный момент у нас в слаке 4823 человека (за год выросли примерно в 2 раза). Слак разбит на множество тематических каналов, так что общайтесь, помогайте и делитесь знаниями.
Чтобы попасть в слак нужно зарегаться на курс на сайте datalearn.ru. Курс полностью бесплатный.
🔱 Также есть чат по инжинирингу данных в тг, там уже 500+.

Идея DataLearn изначально была как образовательное сообщество и для нас огромной мотивацией служит несколько вещей:
• Когда новички приходят, учатся и устраиваются на работу в течение нескольких месяцев, а таких случаев уже больше десятка.
• Когда своими знаниями хотят поделится опытные специалисты
• Когда люди помогают друг другу в обучении
• Когда новые ученики осознают, что у нас не просто курс, а комьюнити и после того как получили знания остаются на связи и проявляют активность
Что мы терпеть не может так это то что у нас бывают грамматические ошибки, иногда плохой звук и люди уже начинают кидать претензии. что картинка не кинематографическая)))) Мы об этом все знаем не переживайте, но делаем все настолько насколько хватает сил и средств и свободного времени))

Хотелось бы еще рассказать о планах на 2022 год, но о них мы поговорим в другом посте :)

Всех обнимаем, с Наступившим Новым Годом и больших успехов в новом году :)🥳🥳🥳🥳
🎉3👍2
Speak English Like An American.pdf
4.3 MB
Моя самая любимая книга для изучения английского языка, чтобы уж точно за своего сойти))
Мне нравится использовать новые технологии и подходы, так интересней и всегда есть аспект изучения новых вещей и решение новых проблем.

Сегодня увидел интересную мысль про преимущества использования старых проверенных технологий:

The problem with new technology is that it’s less mature. In his presentation “Choose Boring Technology,” Dan McKinley points out, “Failure modes of boring technology are well understood” (http://boringtechnology.club/). All technology is going to break, but old stuff breaks in predictable ways. New things break in surprising ways. Lack of maturity means smaller communities, less stability, less documentation, and less compatibility. New technologies have fewer Stack Overflow answers.
👍1
А другая интересная мысль про замещения старого - новым.

In book The Hard Thing About Hard Things (Harper Business, 2014), Ben Horowitz says:

The primary thing that any technology startup must do is build a product that’s at least ten times better at doing something than the current prevailing way of doing that thing. Two or three times better will not be good enough to get people to switch to the new thing fast enough or in large enough volume to matter.


То есть условно, если новое хранилище данных не будет в 10 раз эффективней старого (по разным параметрам), то может быть еще рано его заменять? Таким образом можно выбирать приоритеты.
👍1
Ребята под предыдущим постом, где были итоги года вы накидали хороших комментов, спасибо вам большое :)
Но сейчас не об этом...
Я подробней посмотрел на статистику вебинаров и увидел, что у Димы 5-й модуль про облачные вычисления не залетел, 4-й и 6-й его опередили. Может в русскоязычном сегменте еще не готовы к облаку, но радует, то что когда момент настанет у нас у одних из первых уже есть мега крутой материал. Кстати кто не знает, но по 5-му модулю даже есть лабораторные работы в облаке.

Это я все к чему:
Напишите пожалуйста в комментариях, сколько модулей прошли или может быть вы смотрите вебинары, то тоже напишите, что смотрите только вебинары, также если вы дошли до какого-то модуля, но затем прервались, напишите тоже пожалуйста, если вы на канале не давно и не в курсе о чем речь, пишите что без понятия о чем курс и о чем речь.

А ну и самое для нас интересное: если вы состоите в слаке datalearn напишите пожалуйста и как часто вы туда заходите? :)
Есть специальный сайт, на котором можно посмотреть рейтинг движков баз данных и узнать по каким критериям строится рейтинг. Я вот выбрал несколько. Самый быстрый рост среди аналитичиских БД у Clickhouse (самая нижняя зеленая линия) и Snowflake (голубая линия снизу). https://db-engines.com/en/ranking

Databricks, , Firebolt в списке нет.
🎉2
Интересная статья - The Great Immigrant Resignation: Fed Up Indian Tech Workers Ditch the American Dream, в которой рассказывают про иммигрантов, которые оставляют работу в Амазоне Сиэтле (как пример) и возвращаются обратно в Индию.

Все выглядит действительно так, когда работаешь в Амазоне и еще молодой, когда не болит голова про садики и школы:

They lived in an apartment in downtown Seattle with floor-to-ceiling windows that afforded a precious glimpse of an inlet that flowed out to the Pacific Ocean. On weekends, they went on hikes or gathered with friends on the rooftop deck of their high-rise, playing board games as they ate and drank on the ample terrace that was outfitted with large television screens and fireplaces that came alive at the touch of a button.

Мне очень нравилось в Сиэтле так чилить в допандемийные времени, когда получалось вырваться с отсрова на недельку с семьей. Даже рассматривали Сиэтл как место жизни, и почти переехали в 2020 с внутреннем траснфером в Амазоне, но был нюанс, зп при переведе не меняется, поэтому решили переехать в Ванкувер.

Возвращаемся обратно к статье. Сила Америки всегда была в наличие талантов, которые туда съежались со всего мира за лучшей жизнью и за хорошей зарплатой. Но сейчас, ребята из Индии уезжают обратно, так как у них очень сильные традиции и корни, да и Амазон, и другие компании открыли свои офисы в Индии.

This is the main threat to America now,” said Sarah Cone, founder of Social Impact Capital, which provides seed funding to startups and counts among its limited partners Peter Thiel, Marc Andreessen and Rob Hayes. “We certainly don’t make all the smartest people in the world but for a long time the smartest people ended up in America.” Losing technically competent people, she said, “is terrible for American competitiveness.”

В целом тренд на возвращение иммигрантов подрывает инновации Северной Америки.

Kidding aside, “the loss of foreigners—the loss of Indians in particular—is very damaging,” said Giovanni Peri, professor of economics at the University of California, Davis, who has studied the impact of immigration on economies. “There is overwhelming evidence that more high-skilled immigration corresponds to more innovation.”

Интересно, что доля индийцев очень высока:

H-1B visas allow companies like Amazon to temporarily employ foreign workers in certain areas and can pave the way to sponsoring green cards for immigrants. About 75% of all H-1B visas approved in fiscal year 2020 went to Indians, according to Statista.

Почему же они возвращаются домой? На самом деле в статье уклон идет на стартапы, и многие индийцы возвращаются обратно потому что они так же могут делать стартап у себя на родине:

“Now they are saying, ‘I can have access to the same capital; why don’t I go back home?’”

Но реально мир меняется, и если раньше была односторонняя иммиграция, то все больше случаев возвращения. Про русских такой статистики нет, но несколько наших знакомых вернулись обратно. Но мне кажется, что главная причина это проблемы с самореализацией, да и терять особо нечего. Из успешных мигрантов еще никого не знаю, кто вернулся обратно.
👍3
Недавно мне пришлось работать со средой, в которой есть много зависимостей, требования к версиям библиотек и зависимостей.

Обычный вариант, pip install библиотеку и погнал не работает. Даже больше скажу, каждый раз когда я так делал я уничтожал вообще всю python среду на ноутбуке, программы переставали запускаться и теряли $PATH.

Вся эта история с pyenv, virtualenv, poetry, setup.py, requariments.txt оказалось для меня архимедовой пятой. Я слишком долго игноривал наличие этих инструментов и предпочитал грузить терабайты данных доступными средствами.

Настало время совсем этим разобраться, благо есть подписка O'Reilly и там можно много найти. Вот кстати хорошие статьи по теме:
A non-magical introduction to Pip and Virtualenv for Python beginners
The Hitchhiker’s Guide to Packaging

Вообще ситуация забавная, все учат питон или учат других питону. Обычно все одинаково - типы данных, функции, классы. И как-то слабо рассказывают про настройку среды.

Поэтому у меня просьба к экспертам, давайте сделаем вебинар про эту тему, чтобы раз и навсегда закрыть этот вопрос с настройкой среды и использования этих мелких, но важных элементов экосистемы питона. Есть желающие?
👍6
😁1