Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Delivery Club образовательный. Аналитики сервиса поделились опытом создания мониторинга и системы “near real-time” оповещений для компаний.

Приятный спойлер: супер пригодная фича не только для пользователей, но и для внутренних разрабов. Читаем материал ребят по ссылке и обсуждаем внизу в комментариях.

PS ребята также поддержали фонд.
Очень хорошая статья про Olap куб. Что это такое. Мне они никогда не нравились, так как я очень рано в своей карьере поработал с продуктами Microsoft SSAS, где нужно строить реальный куб поверх хранилища данных на SQL Server. У куба вместо SQL - MDX, и вообще это другой мир для BI разработчика.

Главный + для куба - прямой коннектор для Excel, и бизнес пользователи могут slice and dice данные и строить кросс таблички. Все работает как часы, да ещё практически бесплатно.

Зато если мы захотим подключить Tableau, тогда появляется куча ограничений и неудобств.

Но это лишь одна сторона слова OLAP. В модуле 6.2 я специально упомянул другие значения слов.

В общем автор круто расписал все значения и рассмотрел история вопроса.

По мне кубы (которые molap с MDX) - зло🤬
👍1
Я погугли, что за зверь такой Ментат - A Mentat is a fictional profession or discipline in Frank Herbert's Dune universe. Mentats are humans trained to mimic computers: human minds developed to staggering heights of cognitive and analytical ability.
Tableau (SalesForce купила Lintao). Я знаю Nicolas, так как он согласился выступать на моей Amazon Tableau User Group в 2018году. Он сделал хорошую презентацию про Dashboard best practices и рассказал про свой продукт - Lintao - это был набор шаблонов Табло для индустрий, с метриками и графикими. То есть нам просто надо подключить данные, и почти готовый дашборд. Я даже брал его шаблоны и вставлял в Proposal Rock Your Data. Кто бы мог подумать, что так у него все круто сложится.

В целом все community это очень круто. Всегда помогает расширять кругозор, знакомиться с новыми людьми, и нести пользу людям. Не знаю, почему так мало желающих выступать на datalearn?🙄Это же крутая возможность завявить индустрии о себе и получить опыт.

Кстати, сегодня провел первый Xbox DE Talk, на котором Zenimax (те кто делают Doom и Fallout) рассказывали про их опыт с Databricks и Spark. Из всех студий Xbox было 3 дата инженера + 10 инженеров Zenimax.😣 Пока слабый обмен опытом, это не Амазон с 4000+ человек.
The-Evolving-Role-of-the-Data-Engineer.pdf
1.8 MB
The Evolving Role of the Data Engineer Change and Continuity
in Data Practices

What’s a data engineer?
And how to be (or hire) a really good one
By some estimates, data engineering comprises 80% to 90% of the work organizations do with data. But the role of data engineer, and even the term itself, is pretty new and evolving rapidly. If you are (or want to be) a data engineer—or you’re responsible for building or managing data teams—this report will clearly explain the role and the skills and best practices you need to be a successful data engineer.

And the best part? It’s free, courtesy of O’Reilly.
Forwarded from Reveal the Data
Сегодня вечером собираемся с Димой Аношиным, Анастасией Котовой и Артуром Высоцким поболтать про реалии современного BI: обсудим инструменты и тренды. Митап пройдет в рамках технических дискуссий от проекта Техпора. Не знаю, что из этого получится, но думаю будет интересно услышать разные точки зрения. Если хотите задать вопросы — приходите в 20:30 в трансляцию на Youtube, там же останется и запись.

Описание и программа митапа.
#выстуление
Forwarded from Start Career in DS
Напоминаю про сегодняшний вебинар 🙂
Буду рад рассказать полезные штуки и поотвечать на вопросы онлайн!

Бонусом для пришедших будет инсайдерская информация по крутой образовательно-практической программе (в виде стажировки) в крупной российской компании 🙂
Вчера был очень насыщенный день по ивентам, сразу 2.
1. Как подготовиться в первым собесам в DS и найти вакансии? - идеальная информация для начинающего data scientist, полный FAQ по всем вопросам, очень качественно и по делу. Для парктикующих DS может быть полезным тоже.
2. Современный BI - для начинающих BI разработчиков идеально. Для практикующих можно на 2х и останавливаться на интересные моменты. (им не хватает крутых обложек, как Рома рисует для datalearn😜)
Приготовил презентация по редшифту, опять получился большей контент. Зато будет все и сразу по Редшифту и на русском. Из Википедии узнал что Redshift значит уход (shift) от Oracle (он же красный, red).

А я раньше думал, что это про космос. А так всё верно, сам делал проект rolling stone - миграция всего оракла DW на Redshift.
Свежая статья из 2х частей про ELT инструмент DBT (кто не знает, это тулза, чтобы делать трансформации на SQL и запускать по очереди трансформации и отслеживать зависимости). И он есть open source.

PS Если Сергею @erfolg5862 хватит время, он добавит лабу про ELT на DBT к другим лабам редшифт.

PS посмотрел сезон Локи с детьми, как-то не проникся☺️
Нужна подсказка зала. Как элегантней всего исользовать Window Function, чтобы получить резульятат как в зеленой колонке.

То есть, у меня есть 2 события action и move. Только у move есть координаты. А action, который следует за move (должен наследовать координаты с последнего move, то есть где находился игрок). Может быть сразу много actions вподряд. В иделе я сделаю на PySpark c withColumn, но можно и с SparkSQL или даже SQL начать.

Я использовал пока lag function и смотрел в прошлую строчку для action и брал значения. Но когда у меня много actions вподряд - это не работает. Можно потом еще чего-нибудь нагородить, чтобы закрыть нули, но межт есть более элегантное решение?

А кейс очень простой и популярны в game: нанести точки на карту, чтобы смотреть поведение игроков на карте - где погибают, где блуждают и тп, чтобы дизайнеры могли улучшить игру.
Forwarded from Data Coffee
Хей-хей, доброе утро, ребята! Надеюсь вы вчера перевернули календарь 🗓 и достаточно нагляделись на костры рябин🔥. Го слушать свежий эпизод подкаста Data Coffee!

У нас в гостях был Паша Финкельштейн из JB, поговорили о Spark, ноутбуках (и их проблемах), и немножко затронули другие data-инструменты.

#datacoffee #data #podcast #данные #подкаст

https://anchor.fm/data-coffee/episodes/15--Spark--Pandas--Scala--Zeppelin-e16r13v
Firebolt продолжает хайпить - как сказал SD "thank you for being me and not quite", с намеком, что можно самого себя похвалить, если выбрали Firebolt в качестве платформы.
Forwarded from Reveal the Data
🔉Внимание-внимание! Random Data Stream is Live

Я давно хотел затащить Егора Ларина (известного многим по чату Табло) к себе в подкаст. Мы долго обсуждали с ним как бы сделать это интересным и полезным, а не просто обычные поболтушки. Так родилась идея сделать что-то типа стрима с разработкой дашборда. Егор загорелся этой идей, но мы всё что-то тянули с ней. А вчера поиграли вместе онлайн в плойку и решили, что надо пробовать и не откладывать.

Итого сегодня в 20:00 по МСК стартуем стрим — будем делать рандомный дашборд или что получится, общаться и слушать музыку. Что из этого получиться 🤷‍♂️. Безумие и отвага! 🤘
#cтрим
⚠️⚠️⚠️На DataLearn Мы решили дать жару и на следующей недели будет 3 вебинара⚠️⚠️⚠️

🔥🔥🔥 1) RoadMap нейронных сетей
(7 сентября 2021 в 20:00 по мск)

📕Описание: Эмиль Богомолов инженер-исследователь научной группы Сколтеха, опытный разработчик машинного обучения. Работа Эмиля связана с компьютерным зрением и он является автором статей на международных конференциях, таких как WACV и CVPR.
В этом вебинаре базируясь на своём опыте расскажет о том, где применяются нейронные сети сегодня и как аналитику данных начать их изучение. Цель вебинара создать roadmap для интересующихся темой.
В конце лекции будет практика, на которой разберем на примере, как обучать нейронную сеть.

🔗 Ссылка: https://youtu.be/cq6dUisDeUU

🔥🔥🔥 2) DataVault / Anchor Modeling
(8 сентября 2021 в 20:00 по мск)
Спикер: Николай Голов

📕Описание: Николай у нас выступал с вебинаром про Snowflake, а теперь расскажет про Data Vault
Кто смотрел курс на Datalearn, тот мог заметить, что мы касались этой темы но не раскрыли ее

🔗Ссылка: https://youtu.be/-ZgzpQXsxi0

🔥🔥🔥 3) Angry Data Scientist - изучаем машинное обучение!
(9 сентября 2021 в 20:00 по мск)
Спикер: Роман Зыков.

📕Описание:
Достала реклама курсов, обещающих светлое будущее и полный кошелек. Давайте поговорим серьезно о изучении машинного обучения, чтобы выйти из хобби в реальную работу, которое приносит настоящую пользу.

Кто помнит Роман уже выступал у нас с вебинаром про data science и он также явлейтся автором бестселлера "Роман с DS", а теперь решил вести у нас рубрику "Злой Датасаинтист". Будет целая серия вебинаров
но как признается сам Роман, посмотрит на сколько его хватит.

🔗 Ссылка: https://youtu.be/DmqGfdQWP94

⚠️Мой коментарий такой: не планируйте на следующую неделю вообще никакие дела, а приходите и впитывайте информацию.
Уникальный контент от очень сильных людей в индустрии.

🔔 Да и подпишитесь на ютуб, чтобы не пропустить, если у вас горит красная кнопка "подписаться" на нашем канале это очень плохо, она должна быть серой :)
И про колоколчик не забываем :) 🔔
Мы начнем наше погружение в современный мир аналитических хранилищ данных с Amazon Redshift. Этот продукт появился в 2012 году и породил целую индустрию облачных продуктов и решений. Сам по себе Redshift прост и удобен, и если вы в облаке AWS, то скорей всего вы будете использовать Amazon Redshift. Я использовал его много раз на различных проектах в Амазоне и за пределами, и он никогда не подводил. С развитием другой облачной DW, в последние годы, Redshift получил много новых фич, такие как ML, разделение storage&compute, и многое другое.

https://youtu.be/K0TOh-Pl3q0

Из видео вы узнаете:
📌 В чем заключается роль Инженера Данных
📌 В чем заключается роль BI инженера
📌 История Amazon Redshift
📌 S curve в технологическом прогрессе
📌 Решение по аналитики мобильного приложения на Amazon Redshift
📌 Решения миграции с Oracle DW на Amazon Redshift в Амазоне
📌 Дизайн таблиц и оптимизация производительности в Amazon Redshift
📌 Способы загрузки данных в Amazon Redshift (COPY, Bulk Insert, Row Insert)
📌 Работа с ETL или ELT для Amazon Redshift
📌 Утилиты для адмиинстрирования и мониторинга Amazon Redshift
📌 Встроенный ML для Amazon Redshift
📌 Про главный недостаток Amazon Redshift - колличество одновременных сессий
📌 Про Хранилище данных Амазон Алекса и трудности масштабирования
📌 Несколько примеров архитектуры из индустрии

На лабораторной работе вам нужно будет
📌 Создать свой кластер Amazon Redshift
📌 Настроить сетевой доступ к нему и подключиться SQL Client - DBeaver
📌 Сгенерировать данные утилитой TPC, той самой, которую используют для benchmarking все вендоры баз данных
📌 Загрузить данные с использование COPY и манифеста
📌 Оптимизировать таблицы и запросы с использование функционала Redshift - Distribution, Sort, Compression и Encoding

Так же, вы легко можете запустить другую виртуальную мащину и установить на нее Tableau Server и/или ETL решение. Или вы можете подключить свои решения с локальной машины. Вы можете загрузить данные superstore и построить модель данных, как было в модуле 4. Возможности безграничны, все в ваших руках, и главное ничего нового!

PS Redshift spectrum, пока пропустил специально, чтобы не усложнять.

Ссылки и дополнительные материалы к лекции:
- Amazon Redshift Paper
- Статья про S кривую и начало развития индустрии - The Modern Data Stack: Past, Present, and Future
- Статья 2012 года! - Amazon Redshift: новое хранилище данных на петабайты
- Мое выступление про 5 лет в Амазон
- Мое выступление 2018 года - Роль BI-систем и DWH. Архитектура и кейсы
- Amazon Redshift Admin утилиты
-Мой пост про новое поколение Redshift - Meet a new generation of Redshift Data Platform — RA3
- AWS Online Tech Talks - Getting Started with Amazon Redshift - AWS Online Tech Talks
- AWS Redshift Architecture: Clusters & Nodes & Data Apps, oh my
- Гид по параллельному масштабированию Amazon Redshift и результаты тестирования
- Аналитический движок Amazon Redshift + преимущества Облака
- Мое выступление в КРОК - Pizza as a service: как Amazon на Redshift мигрировал
👍1