Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
В ноябре получится выступить на игровой конференции и рассказать про аналитику для AAA игр https://devgamm.com/fall2021/
Недавно facebook запустил Metaverse и Microsoft тоже активно работает в этом направлении. На Microsoft Ignite 2021 они показали продукт Mesh для Team. Пока входной порог очень высокий так как устройство дорогое. И вообще интересно применение, это должно быть новое поколение людей для кого это будет нормой, я себя не вижу в таком девайсе, мне лучше по старинке с выключенной камерой сидеть на митинге и заниматься своими делами😇

А вы бы хотели тусить в metaverse?
В 6 модуле я рассказывал как современные аналитические платформы мериются ..... производительностью😜

Они используют TPC дата сеты, и даже в модуле 6 про Redshift ученики должны были нагенирить несколько гигабайтов данных с помощью утилитки и загрузить в Redshift.

А сегодня Databricks сказал, что уделал Snowflake в 12 раз! - Databricks Sets Official Data Warehousing Performance Record
используя TPC-DS датасет.

То есть, еслы вы хотите вписаться в топ лигу аналитических БД, вам просто нужно взять данных TPC-DS, примерно одинаковые типы нод и запустить тест. Ждем от clikchouse что-то похожее.

Вообще все напали на Snowflake - Azure SQL DW быстрей и дешевле, Firbolt быстрей и дешевле, и теперь еще и Databricks.

Тут стоит добавить, что Snowflake позиционирует себя Data Warehouse as a Service (SaaS), то есть при загрузке данных по умолчанию мы не оптимизируем индекса, распределение данных и ключи. Поэтому он работает хорошо, но явно может лучше, если мы будем тюнить каждую таблицу.

Вообще скорость и цена облачный решения это все очень относительно, но отлично работает для маркетинга и главное любой желающий может повторить эксперимент
Я слышал много раз про состояние потока “flow”, но не знал откуда это пошло и только узнал из новости Mihaly Csikszentmihalyi, the Father of ‘Flow,’ Dies at 87

Вот его книга - Flow: The Psychology of Optimal Experience

Неплохой отзыв про книгу:
One of the best books you will ever read, if you can pick only 5 books to read in your life this would be one of those! The author simply asked "What makes a life worth living?" It's clearly nothing that money can buy. The book is about how people find pleasure and lasting satisfaction in activities that bring them in a state the author calls "flow." Super interesting book, can't recommend it enough.
Forwarded from Data Ninja (Dmitriy)
Не люблю формальные определения и всю эту мишуру. Но тем не менее бывают достаточно полезные знания, которые позволяют яснее излагать свои мысли при описании требований к построению хранилищ данных. Одним из таких формальных определений является SCD (Slowly Changing Dimensions) - это такие данные которые могут меняться со временем, и на самом деле у нас есть целых 3 способа зафиксировать измнения.

Пример данных которые могут измениться

+--------+------------+-------------------+
| Имя | Дата рождения | Должность |
+--------+------------+-------------------+
| Иванов | 1990-01-01 | Младший сотрудник |
+--------+------------+-------------------+


SCD1 - честно выполняем UPDATE данных и теряем историю

+--------+------------+-------------------+
| Имя | Дата рождения | Должность
+--------+------------+-------------------+
| Иванов | 1990-01-01 | Специалист
+--------+------------+-------------------+


SCD2 - добавляем запись строкой, сохраняем историю и увеличиваем объем данных

+--------+------------+-------------------+-------------------+
| Имя | Дата рождения | Должность | Дата события
+--------+------------+-------------------+-------------------+
| Иванов | 1990-01-01 | Младший сотрудник | 2001-01-01
+--------+------------+-------------------+-------------------+
| Иванов | 1990-01-01 | Специалист | 2002-01-02
+--------+------------+-------------------+-------------------+


SCD3 - добавляем новое значение как колонку (редко используемое)

+--------+------------+-------------------+-------------------+
| Имя | Дата рождения | Пред. Должность | Новая Должность
+--------+------------+-------------------+-------------------+
| Иванов | 1990-01-01 | Младший сотрудник | Специалист
+--------+------------+-------------------+-------------------+


#собеседование
Издатель присылает теперь такие вот отчеты, по моим книгам. Хороший пример аналитики и клиентоориентированый подход. Это они в первый раз такое прислали, раньше надо было смотреть самому все.

Кстати книга по ADF была написано совместно с читателями канала, по Tableau exam (370 страниц а не 37) и Tableau 2019 вместе с коллегами из Амазон.

Если вы хотите написать книгу то есть моя презентация как это сделать

Единственный минус вы ничего не заработаете, все забирает издатель.
👍2
Прикольная футболка, подумал я, когда увидел в linkedin. А потом я вспомнил, что это значит. Мой сосед data scientist из LA, профессор математики и возможно выступит у нас на митапе однажды. Он отказался от работы в Netflix, Google и Facebook. Мы с ним ходим в бассей, смотрим ML конференции от Microsoft и он много рассказывает про политику в Америке. Как я понял Байдена очень не любят там. Мне он кажется вообще не живым по новостям.

Что значит фраза "Let's go Brandon"? Недавно на наскар ралли в штатах репортер давал интервью, но его было плохо слышно, потому что весь стадион кричал "F**k Joe Biden." Репортер не растерялся и сказал, люди скандируют победителю гонок и кричат "Let's go Brandon". И теперь это мем №1 в Штатах. И теперь вы знаете, что это значит. https://www.cnn.com/2021/11/01/politics/lets-go-brandon-joe-biden/index.html
Товарищ создал Sandbox проект себе, вот что он включил в него. Я знаю только dbt, preset, great expectations, airbyte, big query, google analytics. И слышал про activity schema.

Avo - Data sourcing planning
Google Analytics 4
elbwalker - tool for testing sourcing
RudderStack
Klaro - open source consent management
GTM
Airbyte
BigQuery
dbt Labs
Activity Schema
Datahub
Castor - automatic sources schemas and the magic automation
Soda - test-driven data modelling.
Great Expectations
Lightdash
Preset
Census
🫡1
А это чтобы английский практиковать - https://www.dataengineeringpodcast.com/episodes/

Возможно один из самых популярных подкастов, в последнем выпуске говорят про Activity Schema.
😱1🫡1
Статья о том, что Metaverse у Цукенберга всего лишь инструмент зарабатывания денег и новый уровень персонализации и рекламы.

But despite the changed name, Meta remains as Facebook-y as ever. Zuckerberg’s company pioneered the art of collecting data and using it to algorithmically capture our attention for profit regardless of the social cost. If the metaverse really is a thing and not just another bizarre Silicon Valley pipe dream, Meta seems intent on making this new reality just as shitty as the old one.
🙈1
Не пропустите бесплатный день обучения работе с ИИ от Microsoft!
9 ноября, 11.00–14.40 (по Москве), присоединяйтесь к бесплатному вебинару «Microsoft Azure Virtual Training Day: основы ИИ».

За несколько часов специалисты Microsoft расскажут об основных концепциях и областях применения ИИ.
👉Вы подробнее узнаете о разговорном ИИ, обработке естественного языка и компьютерном зрении в Microsoft Azure. Научитесь создавать прогнозные модели без написания программного кода с сервисом машинного обучения.

После вебинара вы сможете бесплатно сдать экзамен по основам Microsoft Azure AI и получить сертификат.

Регистрируйтесь уже сейчас!

PS Пост поддержал приют для собак Зоорассвет в Москве.
Мы все про технические навыки, но часто не хватает soft skills, вот Dale Carnegie нам поможет
В datalearn опросе есть вопрос: Ваш пол? (мы хотим знать сколько девушек в профессии). Пирожок показывает соотношение 5000т откликов опроса, где:
М - синее
Ж - красное

Но есть еще варианты, вам на заметку:

Чем аналитика для женщин отличае…
Военный вертолёт Apache
Я Ж, но идея странная. Смысл?
У них/нас разве другие мозги?
Боевой вертолет Ми-28Н
Я избегаю оценочных суждений
Я Ж, но идея странная, зачем?
Женский, но не вижу смысла раздел…
Мне кажется супер странной идеей
Мужчина
Пёс
М, но хотел бы активно помогать ра…
простите еще раз, эту запись нужно…
Пони
Prefer not to say
Женский, но сразу уточню, что не заинтересована в идее "Analytics for Women" и предпочла бы не иметь отношения к Women in data community.
test
чёрный атакующий вертолёт
Это не имеет значения. Я человек.
https://medium.com/@mrtrustworthy/from-data-driven-to-driving-data-the-dysfunctions-of-data-engineering-34c34496ed8e

Статью прям можно на цитаты разбирать)

Кто нибудь хочет перевести?
1
Стащил из Facebook, после общения с поддержкой в Timeweb хостинге можно и чаевые оставить🤑 Можно скоро брать чаевые за создание дашборда или фикс ETL