Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Вчера был очень насыщенный день по ивентам, сразу 2.
1. Как подготовиться в первым собесам в DS и найти вакансии? - идеальная информация для начинающего data scientist, полный FAQ по всем вопросам, очень качественно и по делу. Для парктикующих DS может быть полезным тоже.
2. Современный BI - для начинающих BI разработчиков идеально. Для практикующих можно на 2х и останавливаться на интересные моменты. (им не хватает крутых обложек, как Рома рисует для datalearn😜)
Приготовил презентация по редшифту, опять получился большей контент. Зато будет все и сразу по Редшифту и на русском. Из Википедии узнал что Redshift значит уход (shift) от Oracle (он же красный, red).

А я раньше думал, что это про космос. А так всё верно, сам делал проект rolling stone - миграция всего оракла DW на Redshift.
Свежая статья из 2х частей про ELT инструмент DBT (кто не знает, это тулза, чтобы делать трансформации на SQL и запускать по очереди трансформации и отслеживать зависимости). И он есть open source.

PS Если Сергею @erfolg5862 хватит время, он добавит лабу про ELT на DBT к другим лабам редшифт.

PS посмотрел сезон Локи с детьми, как-то не проникся☺️
Нужна подсказка зала. Как элегантней всего исользовать Window Function, чтобы получить резульятат как в зеленой колонке.

То есть, у меня есть 2 события action и move. Только у move есть координаты. А action, который следует за move (должен наследовать координаты с последнего move, то есть где находился игрок). Может быть сразу много actions вподряд. В иделе я сделаю на PySpark c withColumn, но можно и с SparkSQL или даже SQL начать.

Я использовал пока lag function и смотрел в прошлую строчку для action и брал значения. Но когда у меня много actions вподряд - это не работает. Можно потом еще чего-нибудь нагородить, чтобы закрыть нули, но межт есть более элегантное решение?

А кейс очень простой и популярны в game: нанести точки на карту, чтобы смотреть поведение игроков на карте - где погибают, где блуждают и тп, чтобы дизайнеры могли улучшить игру.
Forwarded from Data Coffee
Хей-хей, доброе утро, ребята! Надеюсь вы вчера перевернули календарь 🗓 и достаточно нагляделись на костры рябин🔥. Го слушать свежий эпизод подкаста Data Coffee!

У нас в гостях был Паша Финкельштейн из JB, поговорили о Spark, ноутбуках (и их проблемах), и немножко затронули другие data-инструменты.

#datacoffee #data #podcast #данные #подкаст

https://anchor.fm/data-coffee/episodes/15--Spark--Pandas--Scala--Zeppelin-e16r13v
Firebolt продолжает хайпить - как сказал SD "thank you for being me and not quite", с намеком, что можно самого себя похвалить, если выбрали Firebolt в качестве платформы.
Forwarded from Reveal the Data
🔉Внимание-внимание! Random Data Stream is Live

Я давно хотел затащить Егора Ларина (известного многим по чату Табло) к себе в подкаст. Мы долго обсуждали с ним как бы сделать это интересным и полезным, а не просто обычные поболтушки. Так родилась идея сделать что-то типа стрима с разработкой дашборда. Егор загорелся этой идей, но мы всё что-то тянули с ней. А вчера поиграли вместе онлайн в плойку и решили, что надо пробовать и не откладывать.

Итого сегодня в 20:00 по МСК стартуем стрим — будем делать рандомный дашборд или что получится, общаться и слушать музыку. Что из этого получиться 🤷‍♂️. Безумие и отвага! 🤘
#cтрим
⚠️⚠️⚠️На DataLearn Мы решили дать жару и на следующей недели будет 3 вебинара⚠️⚠️⚠️

🔥🔥🔥 1) RoadMap нейронных сетей
(7 сентября 2021 в 20:00 по мск)

📕Описание: Эмиль Богомолов инженер-исследователь научной группы Сколтеха, опытный разработчик машинного обучения. Работа Эмиля связана с компьютерным зрением и он является автором статей на международных конференциях, таких как WACV и CVPR.
В этом вебинаре базируясь на своём опыте расскажет о том, где применяются нейронные сети сегодня и как аналитику данных начать их изучение. Цель вебинара создать roadmap для интересующихся темой.
В конце лекции будет практика, на которой разберем на примере, как обучать нейронную сеть.

🔗 Ссылка: https://youtu.be/cq6dUisDeUU

🔥🔥🔥 2) DataVault / Anchor Modeling
(8 сентября 2021 в 20:00 по мск)
Спикер: Николай Голов

📕Описание: Николай у нас выступал с вебинаром про Snowflake, а теперь расскажет про Data Vault
Кто смотрел курс на Datalearn, тот мог заметить, что мы касались этой темы но не раскрыли ее

🔗Ссылка: https://youtu.be/-ZgzpQXsxi0

🔥🔥🔥 3) Angry Data Scientist - изучаем машинное обучение!
(9 сентября 2021 в 20:00 по мск)
Спикер: Роман Зыков.

📕Описание:
Достала реклама курсов, обещающих светлое будущее и полный кошелек. Давайте поговорим серьезно о изучении машинного обучения, чтобы выйти из хобби в реальную работу, которое приносит настоящую пользу.

Кто помнит Роман уже выступал у нас с вебинаром про data science и он также явлейтся автором бестселлера "Роман с DS", а теперь решил вести у нас рубрику "Злой Датасаинтист". Будет целая серия вебинаров
но как признается сам Роман, посмотрит на сколько его хватит.

🔗 Ссылка: https://youtu.be/DmqGfdQWP94

⚠️Мой коментарий такой: не планируйте на следующую неделю вообще никакие дела, а приходите и впитывайте информацию.
Уникальный контент от очень сильных людей в индустрии.

🔔 Да и подпишитесь на ютуб, чтобы не пропустить, если у вас горит красная кнопка "подписаться" на нашем канале это очень плохо, она должна быть серой :)
И про колоколчик не забываем :) 🔔
Мы начнем наше погружение в современный мир аналитических хранилищ данных с Amazon Redshift. Этот продукт появился в 2012 году и породил целую индустрию облачных продуктов и решений. Сам по себе Redshift прост и удобен, и если вы в облаке AWS, то скорей всего вы будете использовать Amazon Redshift. Я использовал его много раз на различных проектах в Амазоне и за пределами, и он никогда не подводил. С развитием другой облачной DW, в последние годы, Redshift получил много новых фич, такие как ML, разделение storage&compute, и многое другое.

https://youtu.be/K0TOh-Pl3q0

Из видео вы узнаете:
📌 В чем заключается роль Инженера Данных
📌 В чем заключается роль BI инженера
📌 История Amazon Redshift
📌 S curve в технологическом прогрессе
📌 Решение по аналитики мобильного приложения на Amazon Redshift
📌 Решения миграции с Oracle DW на Amazon Redshift в Амазоне
📌 Дизайн таблиц и оптимизация производительности в Amazon Redshift
📌 Способы загрузки данных в Amazon Redshift (COPY, Bulk Insert, Row Insert)
📌 Работа с ETL или ELT для Amazon Redshift
📌 Утилиты для адмиинстрирования и мониторинга Amazon Redshift
📌 Встроенный ML для Amazon Redshift
📌 Про главный недостаток Amazon Redshift - колличество одновременных сессий
📌 Про Хранилище данных Амазон Алекса и трудности масштабирования
📌 Несколько примеров архитектуры из индустрии

На лабораторной работе вам нужно будет
📌 Создать свой кластер Amazon Redshift
📌 Настроить сетевой доступ к нему и подключиться SQL Client - DBeaver
📌 Сгенерировать данные утилитой TPC, той самой, которую используют для benchmarking все вендоры баз данных
📌 Загрузить данные с использование COPY и манифеста
📌 Оптимизировать таблицы и запросы с использование функционала Redshift - Distribution, Sort, Compression и Encoding

Так же, вы легко можете запустить другую виртуальную мащину и установить на нее Tableau Server и/или ETL решение. Или вы можете подключить свои решения с локальной машины. Вы можете загрузить данные superstore и построить модель данных, как было в модуле 4. Возможности безграничны, все в ваших руках, и главное ничего нового!

PS Redshift spectrum, пока пропустил специально, чтобы не усложнять.

Ссылки и дополнительные материалы к лекции:
- Amazon Redshift Paper
- Статья про S кривую и начало развития индустрии - The Modern Data Stack: Past, Present, and Future
- Статья 2012 года! - Amazon Redshift: новое хранилище данных на петабайты
- Мое выступление про 5 лет в Амазон
- Мое выступление 2018 года - Роль BI-систем и DWH. Архитектура и кейсы
- Amazon Redshift Admin утилиты
-Мой пост про новое поколение Redshift - Meet a new generation of Redshift Data Platform — RA3
- AWS Online Tech Talks - Getting Started with Amazon Redshift - AWS Online Tech Talks
- AWS Redshift Architecture: Clusters & Nodes & Data Apps, oh my
- Гид по параллельному масштабированию Amazon Redshift и результаты тестирования
- Аналитический движок Amazon Redshift + преимущества Облака
- Мое выступление в КРОК - Pizza as a service: как Amazon на Redshift мигрировал
👍1
Про сквозную аналитику и модели атрибуции я слышал много и часто, особенно от российских компаний. Решение от Databricks - Solution Accelerator: Multi-touch Attribution
Бесплатный тренинг по введению в AWS https://www.linkedin.com/events/awscloudpractitioneressentialsd6833148900984061952/
А что вы делали в 12 лет?!😎
У этой специализации очень высокий рейтинг на курсере, кто-нибудь пробовал? https://www.coursera.org/professional-certificates/google-it-automation#courses
Составил себе обязательный план, что нужно прочитать, прежде чем пушить повышение или использовать совет 4 из моей статьи про вредные советы:
1) Закончить книгу Game Analytics (а там 800 страниц)
2) Закончить книгу Learning Spark v2
3) Закончить Python Crash Course v2 книгу
4) Прочитать Designing Data Intense Applications
5) Прочитать Refactoring: Improving the Design of Existing Code
6) Прочитать Missing Readme (недавно обсуждали в канале)
7) Прочитать High Performance Spark
23 Августа Gartner опубликовал ежегодный отчет 2021 Emerging Technologies Hype Cycle.

https://www.gartner.com/smarterwithgartner/3-themes-surface-in-the-2021-hype-cycle-for-emerging-technologies/

Когда-то там была Big Data (аж в 2012 году, она поднималась на пик, а сейчас как excel, затерли до дыр). В это же время in-Memory аналитикс и Cloud Computing, уже скатились, а Predictive Analytics почти пропала с виду.
https://dzone.com/articles/big-data-trough

В 2013 году мы видим подъем Prescriptive Analytics - Prescriptive Analytics is a form of advanced analytics which examines data or content to answer the question “What should be done?” or “What can we do to make ___ happen?”, and is characterized by techniques such as graph analysis, simulation, complex event processing, neural networks, recommendation engines, heuristics, and machine learning.

В 2014 появилась Data Science, а в 2015 есть Machine Learning, который уже прошел пик и которого не было ранее.

В общем целый ребус, но довольно популярный!
Решил добавить определения из Gartner по нашей тематике. (Не наше там про data engineering).

Big data is high-volume, high-velocity and/or high-variety information assets that demand cost-effective, innovative forms of information processing that enable enhanced insight, decision making, and process automation.

Business analytics is comprised of solutions used to build analysis models and simulations to create scenarios, understand realities and predict future states. Business analytics includes data mining, predictive analytics, applied analytics and statistics, and is delivered as an application suitable for a business user.

Business intelligence (BI) platforms enable enterprises to build BI applications by providing capabilities in three categories: analysis, such as online analytical processing (OLAP); information delivery, such as reports and dashboards; and platform integration, such as BI metadata management and a development environment.

Business intelligence (BI) services are offerings to design, develop and deploy enterprise processes and to integrate, support and manage the related technology applications and platforms. These include business and infrastructure applications for BI platforms, analytics needs and data warehousing infrastructure.

Predictive analytics describes any approach to data mining with four attributes:
1. An emphasis on prediction (rather than description, classification or clustering)
2. Rapid analysis measured in hours or days (rather than the stereotypical months of traditional data mining)
3. An emphasis on the business relevance of the resulting insights (no ivory tower analyses)
4. (increasingly) An emphasis on ease of use, thus making the tools accessible to business users.


Prescriptive Analytics is a form of advanced analytics that examines data or content to answer the question “What should be done?” or “What can we do to make ___ happen?”, and is characterized by techniques such as graph analysis, simulation, complex event processing, neural networks, recommendation engines, heuristics, and machine learning.

A data lake is a concept consisting of a collection of storage instances of various data assets. These assets are stored in a near-exact, or even exact, copy of the source format and are in addition to the originating data stores.

Data literacy is the ability to read, write and communicate data in context, with an understanding of the data sources and constructs, analytical methods and techniques applied, and the ability to describe the use case application and resulting business value or outcome.

The discipline of data integration comprises the practices, architectural techniques and tools for achieving the consistent access and delivery of data across the spectrum of data subject areas and data structure types in the enterprise to meet the data consumption requirements of all applications and business processes.

A data warehouse is a storage architecture designed to hold data extracted from transaction systems, operational data stores and external sources. The warehouse then combines that data in an aggregate, summary form suitable for enterprisewide data analysis and reporting for predefined business needs.

Обычно все sales презентации у вендоров начинаются с цитат из gartner...