Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
А вот и вебинар на подходе (2 сентября 2021 в 20:00 по мск)

Кого, чего:
Как подготовиться в первым собесам в DS и найти вакансии?
Вебинар проведёт Васильев Роман, Senior Data Scientist в компании Магнит. Роман когда-то руководил наймом и развитием стажёров DS-ов в российской телеком-компании, а сейчас развивает уже полноценную команду в одной из крупнейших ритейл-компаний РФ.

Вы услышите ответы на вопросы:
1. Что нужно изучить чтобы идти на первые собеседования?
2. Где искать вакансии новичкам в DS?
3. Как грамотно подготовить резюме?
4. Как выстроить подготовку, что повторить?
5. Чего ждать на собеседовании?
Даже если не собираетесь в DS, приходите, так как инфа будет полезная :)

Канал спикера: https://t.me/start_ds

Ссылка на вебинар:
https://youtu.be/SKItc7yHnVY
Попалась статья 2020 про Zynga (social games), у них команда из 70 аналитиков и инженеров и они рассказывают как они мигрировали на python решения и какие иснтрументы используют. https://www.gamedeveloper.com/disciplines/the-zynga-analytics-platform-in-2020
Еще один интересный доклад из Game dev с конференции GDC (я про нее ранее писал) - Data-Driven or Data-Blinded? Uses and Abuses of Analytics in Games. Доклад больше про мобильные приложения, чем игры.

Но интересно рассказывают, как смотртят на графики и метрики с применением статистики и базовой математики. Спикер, она же CEO компании, рассказала, что по образованию она историк по теме Восточной Европы 18-19 Века, но ей всегда нравились данные, поэтому она овладела SQL, чтобы не зависить от ИТ, а потом закончила курсы матемитике и алгебры. В докладе она рассказывает как она анлизирует данные. Очень хороший пример, как должен работать BI разработчик или продуктовый аналитик.
Delivery Club образовательный. Аналитики сервиса поделились опытом создания мониторинга и системы “near real-time” оповещений для компаний.

Приятный спойлер: супер пригодная фича не только для пользователей, но и для внутренних разрабов. Читаем материал ребят по ссылке и обсуждаем внизу в комментариях.

PS ребята также поддержали фонд.
Очень хорошая статья про Olap куб. Что это такое. Мне они никогда не нравились, так как я очень рано в своей карьере поработал с продуктами Microsoft SSAS, где нужно строить реальный куб поверх хранилища данных на SQL Server. У куба вместо SQL - MDX, и вообще это другой мир для BI разработчика.

Главный + для куба - прямой коннектор для Excel, и бизнес пользователи могут slice and dice данные и строить кросс таблички. Все работает как часы, да ещё практически бесплатно.

Зато если мы захотим подключить Tableau, тогда появляется куча ограничений и неудобств.

Но это лишь одна сторона слова OLAP. В модуле 6.2 я специально упомянул другие значения слов.

В общем автор круто расписал все значения и рассмотрел история вопроса.

По мне кубы (которые molap с MDX) - зло🤬
👍1
Я погугли, что за зверь такой Ментат - A Mentat is a fictional profession or discipline in Frank Herbert's Dune universe. Mentats are humans trained to mimic computers: human minds developed to staggering heights of cognitive and analytical ability.
Tableau (SalesForce купила Lintao). Я знаю Nicolas, так как он согласился выступать на моей Amazon Tableau User Group в 2018году. Он сделал хорошую презентацию про Dashboard best practices и рассказал про свой продукт - Lintao - это был набор шаблонов Табло для индустрий, с метриками и графикими. То есть нам просто надо подключить данные, и почти готовый дашборд. Я даже брал его шаблоны и вставлял в Proposal Rock Your Data. Кто бы мог подумать, что так у него все круто сложится.

В целом все community это очень круто. Всегда помогает расширять кругозор, знакомиться с новыми людьми, и нести пользу людям. Не знаю, почему так мало желающих выступать на datalearn?🙄Это же крутая возможность завявить индустрии о себе и получить опыт.

Кстати, сегодня провел первый Xbox DE Talk, на котором Zenimax (те кто делают Doom и Fallout) рассказывали про их опыт с Databricks и Spark. Из всех студий Xbox было 3 дата инженера + 10 инженеров Zenimax.😣 Пока слабый обмен опытом, это не Амазон с 4000+ человек.
The-Evolving-Role-of-the-Data-Engineer.pdf
1.8 MB
The Evolving Role of the Data Engineer Change and Continuity
in Data Practices

What’s a data engineer?
And how to be (or hire) a really good one
By some estimates, data engineering comprises 80% to 90% of the work organizations do with data. But the role of data engineer, and even the term itself, is pretty new and evolving rapidly. If you are (or want to be) a data engineer—or you’re responsible for building or managing data teams—this report will clearly explain the role and the skills and best practices you need to be a successful data engineer.

And the best part? It’s free, courtesy of O’Reilly.
Forwarded from Reveal the Data
Сегодня вечером собираемся с Димой Аношиным, Анастасией Котовой и Артуром Высоцким поболтать про реалии современного BI: обсудим инструменты и тренды. Митап пройдет в рамках технических дискуссий от проекта Техпора. Не знаю, что из этого получится, но думаю будет интересно услышать разные точки зрения. Если хотите задать вопросы — приходите в 20:30 в трансляцию на Youtube, там же останется и запись.

Описание и программа митапа.
#выстуление
Forwarded from Start Career in DS
Напоминаю про сегодняшний вебинар 🙂
Буду рад рассказать полезные штуки и поотвечать на вопросы онлайн!

Бонусом для пришедших будет инсайдерская информация по крутой образовательно-практической программе (в виде стажировки) в крупной российской компании 🙂
Вчера был очень насыщенный день по ивентам, сразу 2.
1. Как подготовиться в первым собесам в DS и найти вакансии? - идеальная информация для начинающего data scientist, полный FAQ по всем вопросам, очень качественно и по делу. Для парктикующих DS может быть полезным тоже.
2. Современный BI - для начинающих BI разработчиков идеально. Для практикующих можно на 2х и останавливаться на интересные моменты. (им не хватает крутых обложек, как Рома рисует для datalearn😜)
Приготовил презентация по редшифту, опять получился большей контент. Зато будет все и сразу по Редшифту и на русском. Из Википедии узнал что Redshift значит уход (shift) от Oracle (он же красный, red).

А я раньше думал, что это про космос. А так всё верно, сам делал проект rolling stone - миграция всего оракла DW на Redshift.
Свежая статья из 2х частей про ELT инструмент DBT (кто не знает, это тулза, чтобы делать трансформации на SQL и запускать по очереди трансформации и отслеживать зависимости). И он есть open source.

PS Если Сергею @erfolg5862 хватит время, он добавит лабу про ELT на DBT к другим лабам редшифт.

PS посмотрел сезон Локи с детьми, как-то не проникся☺️
Нужна подсказка зала. Как элегантней всего исользовать Window Function, чтобы получить резульятат как в зеленой колонке.

То есть, у меня есть 2 события action и move. Только у move есть координаты. А action, который следует за move (должен наследовать координаты с последнего move, то есть где находился игрок). Может быть сразу много actions вподряд. В иделе я сделаю на PySpark c withColumn, но можно и с SparkSQL или даже SQL начать.

Я использовал пока lag function и смотрел в прошлую строчку для action и брал значения. Но когда у меня много actions вподряд - это не работает. Можно потом еще чего-нибудь нагородить, чтобы закрыть нули, но межт есть более элегантное решение?

А кейс очень простой и популярны в game: нанести точки на карту, чтобы смотреть поведение игроков на карте - где погибают, где блуждают и тп, чтобы дизайнеры могли улучшить игру.
Forwarded from Data Coffee
Хей-хей, доброе утро, ребята! Надеюсь вы вчера перевернули календарь 🗓 и достаточно нагляделись на костры рябин🔥. Го слушать свежий эпизод подкаста Data Coffee!

У нас в гостях был Паша Финкельштейн из JB, поговорили о Spark, ноутбуках (и их проблемах), и немножко затронули другие data-инструменты.

#datacoffee #data #podcast #данные #подкаст

https://anchor.fm/data-coffee/episodes/15--Spark--Pandas--Scala--Zeppelin-e16r13v
Firebolt продолжает хайпить - как сказал SD "thank you for being me and not quite", с намеком, что можно самого себя похвалить, если выбрали Firebolt в качестве платформы.
Forwarded from Reveal the Data
🔉Внимание-внимание! Random Data Stream is Live

Я давно хотел затащить Егора Ларина (известного многим по чату Табло) к себе в подкаст. Мы долго обсуждали с ним как бы сделать это интересным и полезным, а не просто обычные поболтушки. Так родилась идея сделать что-то типа стрима с разработкой дашборда. Егор загорелся этой идей, но мы всё что-то тянули с ней. А вчера поиграли вместе онлайн в плойку и решили, что надо пробовать и не откладывать.

Итого сегодня в 20:00 по МСК стартуем стрим — будем делать рандомный дашборд или что получится, общаться и слушать музыку. Что из этого получиться 🤷‍♂️. Безумие и отвага! 🤘
#cтрим
⚠️⚠️⚠️На DataLearn Мы решили дать жару и на следующей недели будет 3 вебинара⚠️⚠️⚠️

🔥🔥🔥 1) RoadMap нейронных сетей
(7 сентября 2021 в 20:00 по мск)

📕Описание: Эмиль Богомолов инженер-исследователь научной группы Сколтеха, опытный разработчик машинного обучения. Работа Эмиля связана с компьютерным зрением и он является автором статей на международных конференциях, таких как WACV и CVPR.
В этом вебинаре базируясь на своём опыте расскажет о том, где применяются нейронные сети сегодня и как аналитику данных начать их изучение. Цель вебинара создать roadmap для интересующихся темой.
В конце лекции будет практика, на которой разберем на примере, как обучать нейронную сеть.

🔗 Ссылка: https://youtu.be/cq6dUisDeUU

🔥🔥🔥 2) DataVault / Anchor Modeling
(8 сентября 2021 в 20:00 по мск)
Спикер: Николай Голов

📕Описание: Николай у нас выступал с вебинаром про Snowflake, а теперь расскажет про Data Vault
Кто смотрел курс на Datalearn, тот мог заметить, что мы касались этой темы но не раскрыли ее

🔗Ссылка: https://youtu.be/-ZgzpQXsxi0

🔥🔥🔥 3) Angry Data Scientist - изучаем машинное обучение!
(9 сентября 2021 в 20:00 по мск)
Спикер: Роман Зыков.

📕Описание:
Достала реклама курсов, обещающих светлое будущее и полный кошелек. Давайте поговорим серьезно о изучении машинного обучения, чтобы выйти из хобби в реальную работу, которое приносит настоящую пользу.

Кто помнит Роман уже выступал у нас с вебинаром про data science и он также явлейтся автором бестселлера "Роман с DS", а теперь решил вести у нас рубрику "Злой Датасаинтист". Будет целая серия вебинаров
но как признается сам Роман, посмотрит на сколько его хватит.

🔗 Ссылка: https://youtu.be/DmqGfdQWP94

⚠️Мой коментарий такой: не планируйте на следующую неделю вообще никакие дела, а приходите и впитывайте информацию.
Уникальный контент от очень сильных людей в индустрии.

🔔 Да и подпишитесь на ютуб, чтобы не пропустить, если у вас горит красная кнопка "подписаться" на нашем канале это очень плохо, она должна быть серой :)
И про колоколчик не забываем :) 🔔