Вчера у нас был замечательный вводный вебинар/урок/демонстрация про Airflow от Дмитрия Браженко, вот запись.
Я бы очень хотел бы сделать такие же вебинары вводные про
- GreenplumDB
- Clickhouse
Еще бы посмотрели про Apache Superset.
Если у вас есть опыт с этими технологиями и хотите поделиться, welcome! Напишите Роману @rspon, сделает все в лучшем виде! Как раз сейчас модуль 6 про аналитические хранилища, а я могу только про западные рассказывать.
Я бы очень хотел бы сделать такие же вебинары вводные про
- GreenplumDB
- Clickhouse
Еще бы посмотрели про Apache Superset.
Если у вас есть опыт с этими технологиями и хотите поделиться, welcome! Напишите Роману @rspon, сделает все в лучшем виде! Как раз сейчас модуль 6 про аналитические хранилища, а я могу только про западные рассказывать.
YouTube
ВВЕДЕНИЕ В AIRFLOW / ПОНЯТИЕ DAG'а / НАСТРОЙКА DAG'а В AIRFLOW
Познакомимся с инструментом Airflow. Разберем что такое DAG и как его настраивать.
Ссылка на спикера: https://www.linkedin.com/in/dmitry-brazhenko/
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!
📕 Записывайтесь…
Ссылка на спикера: https://www.linkedin.com/in/dmitry-brazhenko/
🔔 Подписывайтесь на канал "Datalearn" чтобы не пропустить остальные части и ставьте лайки!
📕 Записывайтесь…
Ваша любимая база данных стала единорогом!https://www.forbes.ru/tekhnologii/444423-osnovannyj-andeksom-startap-clickhouse-stal-edinorogom
Forbes.ru
Основанный «Яндексом» стартап ClickHouse стал «единорогом»
Компания ClickHouse, созданная «Яндексом» в партнерстве с венчурными фондами, привлекла $250 млн инвестиций и стала «единорогом», получив оценку в ходе раунда в $2 млрд
Большие новости в tech Facebook rebrands to #Meta “A social technology company”. “We build technologies that help people connect with friends and family, find communities, and grow businesses.”
https://about.fb.com/news/2021/10/facebook-company-is-now-meta/
https://about.fb.com/news/2021/10/facebook-company-is-now-meta/
Meta Newsroom
The Facebook Company Is Now Meta | Meta
CEO Mark Zuckerberg announced Meta, a new company brand for Facebook apps and technologies.
Очень хороший ответ молодого специалиста, а за ним сразу бывалого. https://youtu.be/kfsAMZ7_DdI?t=39 (время выступления молодого бойца и за ним сразу идет профи)
YouTube
Сколько часов в день может работать программист?
Хотя программистов и называют технарями, а не гуманитариями, их работа —очень творческая. Сколько времени в день можно писать код? Сколько времени нужно, чтобы о нем подумать? Применим ли к программистам восьмичасовой рабочий день? На этот вопрос отвечают…
У нас в slack есть канал data_news_from_the_world. Я его подписал на RSS разных тематических компаний и вендоров. Там даже была новость clickhouse.
Netflix опубликовал интервью с Data Engineer. Вообще Netflix платит топовые зарплаты, но и спрос соответствующий. У них есть безлимитный отпуск, но никто им не пользуется (безлимитным).
У них есть целый раздел посвященный data engineering https://netflixtechblog.com/tagged/data-engineering
Есть ещё книга про компанию Netflix, там хорошо раскрыты подходы к найму лучших сотрудников и их удержание.
Netflix опубликовал интервью с Data Engineer. Вообще Netflix платит топовые зарплаты, но и спрос соответствующий. У них есть безлимитный отпуск, но никто им не пользуется (безлимитным).
У них есть целый раздел посвященный data engineering https://netflixtechblog.com/tagged/data-engineering
Есть ещё книга про компанию Netflix, там хорошо раскрыты подходы к найму лучших сотрудников и их удержание.
Medium
Data Engineers of Netflix — Interview with Pallavi Phadnis
As part of our “Data Engineers of Netflix” series, Pallavi Phadnis shares her journey to Data Engineering at Netflix.
👍1
🚀 Примите участие в онлайн-соревновании BCS Coding Days от «БКС Мир инвестиций» и Фонда «Сколково».
BCS Coding Days — это задачи для системных аналитиков, Android и Java-разработчиков с призовым фондом 1 500 000 рублей. Соревнование пройдёт с 4 по 5 декабря онлайн.
Трек для Системных аналитиков:
Вам будет предложено 4 реальных кейса:
- инструментарий для гибкой настройки портфеля;
- сервис «Обмен ПИФ»;
- подбор и анализ финансовых инструментов;
- онбординг новых пользователей.
Таймлайн BCS Coding Days:
- В преддверии соревнования посетите митапы с экспертами рынка;
- С 4 по 5 декабря решайте задачи, участвуйте в чек-поинтах и стрим-конференции с экспертами «БКС Мир инвестиций»;
- 7 декабря презентуйте свое решение и выиграйте главные призы.
Поборитесь за главный приз и возможность получить offer от «БКС Мир инвестиций».
👉 Успейте подать заявку до 3 декабря по ссылке: https://clck.ru/YWPaH
PS Пост поддержал приют для собак Зоорассвет в Москве
BCS Coding Days — это задачи для системных аналитиков, Android и Java-разработчиков с призовым фондом 1 500 000 рублей. Соревнование пройдёт с 4 по 5 декабря онлайн.
Трек для Системных аналитиков:
Вам будет предложено 4 реальных кейса:
- инструментарий для гибкой настройки портфеля;
- сервис «Обмен ПИФ»;
- подбор и анализ финансовых инструментов;
- онбординг новых пользователей.
Таймлайн BCS Coding Days:
- В преддверии соревнования посетите митапы с экспертами рынка;
- С 4 по 5 декабря решайте задачи, участвуйте в чек-поинтах и стрим-конференции с экспертами «БКС Мир инвестиций»;
- 7 декабря презентуйте свое решение и выиграйте главные призы.
Поборитесь за главный приз и возможность получить offer от «БКС Мир инвестиций».
👉 Успейте подать заявку до 3 декабря по ссылке: https://clck.ru/YWPaH
PS Пост поддержал приют для собак Зоорассвет в Москве
mds.pdf
16 MB
Красивая презентация про modern data stack
5ти часовой вводный курс - Algorithms and Data Structures Tutorial
YouTube
Algorithms and Data Structures Tutorial - Full Course for Beginners
In this course you will learn about algorithms and data structures, two of the fundamental topics in computer science. There are three main parts to this course: algorithms, data structures, and a deep dive into sorting and searching algorithms.
By the end…
By the end…
⚡1
Отличная презентация 2018 года - KISS (Keep it SQL, Stupid) про подход к созданию аналитических решений от создателей dbt tool. https://youtu.be/9VNh11qSfAo
YouTube
KISS: Keep it SQL, Stupid | Fishtown Analytics
This talk was given by Connor McArthur from Fishtown Analytics at DataEngConf SF '18 - Data Startups Track.
ABOUT DATA COUNCIL:
Data Council (https://www.datacouncil.ai/) is a community and conference series that provides data professionals with the learning…
ABOUT DATA COUNCIL:
Data Council (https://www.datacouncil.ai/) is a community and conference series that provides data professionals with the learning…
В октябре вышла новая книга с громким названием - Data Engineering with Spark, Delta Lake, and Lakehouse
Section 1: Modern Data Engineering And Tools
Chapter 1: The Story Of DE And Analytics
Chapter 2: Storage And Compute Data Lakes
Chapter 3: Data Engineering On Azure
Section 2: Data Pipelines And Stages Of DE
4: Understanding Data Pipelines
5: Data Collection Stage
6: Understanding Delta Lake
7: Data Curation Stage
8: Data Aggregation Stage
Section 3: DE Challenges And Effective Deployment Strategies
9: Deploying And Monitoring Pipelines
10: DEChallenges
11: Infrastructure Provisioning
12: Continuous Integration And Deployment (CI/CD)
Я просмотрел всю книгу, в книге есть end-to-end case про создание аналитического решения на Azure с использованием Databricks и Data Factory. В книге мы не найдем best practices или глубокой информации по созданию решений, но есть хорошие примеры, которые помогут начать работать с Azure Data Platform.
Section 1: Modern Data Engineering And Tools
Chapter 1: The Story Of DE And Analytics
Chapter 2: Storage And Compute Data Lakes
Chapter 3: Data Engineering On Azure
Section 2: Data Pipelines And Stages Of DE
4: Understanding Data Pipelines
5: Data Collection Stage
6: Understanding Delta Lake
7: Data Curation Stage
8: Data Aggregation Stage
Section 3: DE Challenges And Effective Deployment Strategies
9: Deploying And Monitoring Pipelines
10: DEChallenges
11: Infrastructure Provisioning
12: Continuous Integration And Deployment (CI/CD)
Я просмотрел всю книгу, в книге есть end-to-end case про создание аналитического решения на Azure с использованием Databricks и Data Factory. В книге мы не найдем best practices или глубокой информации по созданию решений, но есть хорошие примеры, которые помогут начать работать с Azure Data Platform.
👍2
В ноябре получится выступить на игровой конференции и рассказать про аналитику для AAA игр https://devgamm.com/fall2021/
Недавно facebook запустил Metaverse и Microsoft тоже активно работает в этом направлении. На Microsoft Ignite 2021 они показали продукт Mesh для Team. Пока входной порог очень высокий так как устройство дорогое. И вообще интересно применение, это должно быть новое поколение людей для кого это будет нормой, я себя не вижу в таком девайсе, мне лучше по старинке с выключенной камерой сидеть на митинге и заниматься своими делами😇
А вы бы хотели тусить в metaverse?
А вы бы хотели тусить в metaverse?
YouTube
Satya Nadella Ignite 2021: Mesh for Microsoft Teams
Microsoft chairman and CEO Satya Nadella talks about the metaverse and announces Mesh for Microsoft Teams at Ignite 2021.
Enjoy this video with audio descriptions: https://youtu.be/WCqz7TiVG5I
Subscribe to Microsoft on YouTube here: https://aka.ms/SubscribeToYouTube…
Enjoy this video with audio descriptions: https://youtu.be/WCqz7TiVG5I
Subscribe to Microsoft on YouTube here: https://aka.ms/SubscribeToYouTube…
Хоть у роботов повеслей https://youtu.be/XnZH4izf_rI
YouTube
“Spot Me Up” | The Rolling Stones & Boston Dynamics
‘Start Me Up’ taken from Tattoo You 2021: https://the-rolling-stones.lnk.to/TattooYou2021So
Video in collaboration with Mercury Studios, Polydor Records & The Rolling Stones
https://www.youtube.com/c/mercurystudios
https://www.polydor.co.uk/
https://rollingstones.com/…
Video in collaboration with Mercury Studios, Polydor Records & The Rolling Stones
https://www.youtube.com/c/mercurystudios
https://www.polydor.co.uk/
https://rollingstones.com/…
В 6 модуле я рассказывал как современные аналитические платформы мериются ..... производительностью😜
Они используют TPC дата сеты, и даже в модуле 6 про Redshift ученики должны были нагенирить несколько гигабайтов данных с помощью утилитки и загрузить в Redshift.
А сегодня Databricks сказал, что уделал Snowflake в 12 раз! - Databricks Sets Official Data Warehousing Performance Record
используя TPC-DS датасет.
То есть, еслы вы хотите вписаться в топ лигу аналитических БД, вам просто нужно взять данных TPC-DS, примерно одинаковые типы нод и запустить тест. Ждем от clikchouse что-то похожее.
Вообще все напали на Snowflake - Azure SQL DW быстрей и дешевле, Firbolt быстрей и дешевле, и теперь еще и Databricks.
Тут стоит добавить, что Snowflake позиционирует себя Data Warehouse as a Service (SaaS), то есть при загрузке данных по умолчанию мы не оптимизируем индекса, распределение данных и ключи. Поэтому он работает хорошо, но явно может лучше, если мы будем тюнить каждую таблицу.
Вообще скорость и цена облачный решения это все очень относительно, но отлично работает для маркетинга и главное любой желающий может повторить эксперимент
Они используют TPC дата сеты, и даже в модуле 6 про Redshift ученики должны были нагенирить несколько гигабайтов данных с помощью утилитки и загрузить в Redshift.
А сегодня Databricks сказал, что уделал Snowflake в 12 раз! - Databricks Sets Official Data Warehousing Performance Record
используя TPC-DS датасет.
То есть, еслы вы хотите вписаться в топ лигу аналитических БД, вам просто нужно взять данных TPC-DS, примерно одинаковые типы нод и запустить тест. Ждем от clikchouse что-то похожее.
Вообще все напали на Snowflake - Azure SQL DW быстрей и дешевле, Firbolt быстрей и дешевле, и теперь еще и Databricks.
Тут стоит добавить, что Snowflake позиционирует себя Data Warehouse as a Service (SaaS), то есть при загрузке данных по умолчанию мы не оптимизируем индекса, распределение данных и ключи. Поэтому он работает хорошо, но явно может лучше, если мы будем тюнить каждую таблицу.
Вообще скорость и цена облачный решения это все очень относительно, но отлично работает для маркетинга и главное любой желающий может повторить эксперимент
Databricks
Databricks Sets Official Data Warehousing Performance Record
Databricks SQL sets a new world record in 100TB TPC-DS, outperforming previous records by 2.2x with superior price performance.
Я слышал много раз про состояние потока “flow”, но не знал откуда это пошло и только узнал из новости Mihaly Csikszentmihalyi, the Father of ‘Flow,’ Dies at 87
Вот его книга - Flow: The Psychology of Optimal Experience
Неплохой отзыв про книгу:
One of the best books you will ever read, if you can pick only 5 books to read in your life this would be one of those! The author simply asked "What makes a life worth living?" It's clearly nothing that money can buy. The book is about how people find pleasure and lasting satisfaction in activities that bring them in a state the author calls "flow." Super interesting book, can't recommend it enough.
Вот его книга - Flow: The Psychology of Optimal Experience
Неплохой отзыв про книгу:
One of the best books you will ever read, if you can pick only 5 books to read in your life this would be one of those! The author simply asked "What makes a life worth living?" It's clearly nothing that money can buy. The book is about how people find pleasure and lasting satisfaction in activities that bring them in a state the author calls "flow." Super interesting book, can't recommend it enough.
NY Times
Mihaly Csikszentmihalyi, the Father of ‘Flow,’ Dies at 87 (Published 2021)
His work as a psychologist on the benefits of intense focus led to a global best seller, a term that became a cultural touchstone and new ideas about the path to happiness.
Forwarded from Data Ninja (Dmitriy)
Не люблю формальные определения и всю эту мишуру. Но тем не менее бывают достаточно полезные знания, которые позволяют яснее излагать свои мысли при описании требований к построению хранилищ данных. Одним из таких формальных определений является SCD (Slowly Changing Dimensions) - это такие данные которые могут меняться со временем, и на самом деле у нас есть целых 3 способа зафиксировать измнения.
Пример данных которые могут измениться
SCD1 - честно выполняем UPDATE данных и теряем историю
SCD2 - добавляем запись строкой, сохраняем историю и увеличиваем объем данных
SCD3 - добавляем новое значение как колонку (редко используемое)
#собеседование
Пример данных которые могут измениться
+--------+------------+-------------------+
| Имя | Дата рождения | Должность |
+--------+------------+-------------------+
| Иванов | 1990-01-01 | Младший сотрудник |
+--------+------------+-------------------+
SCD1 - честно выполняем UPDATE данных и теряем историю
+--------+------------+-------------------+
| Имя | Дата рождения | Должность
+--------+------------+-------------------+
| Иванов | 1990-01-01 | Специалист
+--------+------------+-------------------+
SCD2 - добавляем запись строкой, сохраняем историю и увеличиваем объем данных
+--------+------------+-------------------+-------------------+
| Имя | Дата рождения | Должность | Дата события
+--------+------------+-------------------+-------------------+
| Иванов | 1990-01-01 | Младший сотрудник | 2001-01-01
+--------+------------+-------------------+-------------------+
| Иванов | 1990-01-01 | Специалист | 2002-01-02
+--------+------------+-------------------+-------------------+
SCD3 - добавляем новое значение как колонку (редко используемое)
+--------+------------+-------------------+-------------------+
| Имя | Дата рождения | Пред. Должность | Новая Должность
+--------+------------+-------------------+-------------------+
| Иванов | 1990-01-01 | Младший сотрудник | Специалист
+--------+------------+-------------------+-------------------+
#собеседование
Amazon SageMaker теперь имеет RStudio.
Amazon
Announcing Fully Managed RStudio on Amazon SageMaker for Data Scientists | Amazon Web Services
Two years ago, we introduced Amazon SageMaker Studio, the industry’s first fully integrated development environment (IDE) for machine learning (ML). Amazon SageMaker Studio provides a single, web-based visual interface where you can perform all ML development…
Издатель присылает теперь такие вот отчеты, по моим книгам. Хороший пример аналитики и клиентоориентированый подход. Это они в первый раз такое прислали, раньше надо было смотреть самому все.
Кстати книга по ADF была написано совместно с читателями канала, по Tableau exam (370 страниц а не 37) и Tableau 2019 вместе с коллегами из Амазон.
Если вы хотите написать книгу то есть моя презентация как это сделать
Единственный минус вы ничего не заработаете, все забирает издатель.
Кстати книга по ADF была написано совместно с читателями канала, по Tableau exam (370 страниц а не 37) и Tableau 2019 вместе с коллегами из Амазон.
Если вы хотите написать книгу то есть моя презентация как это сделать
Единственный минус вы ничего не заработаете, все забирает издатель.
👍2
Прикольная футболка, подумал я, когда увидел в linkedin. А потом я вспомнил, что это значит. Мой сосед data scientist из LA, профессор математики и возможно выступит у нас на митапе однажды. Он отказался от работы в Netflix, Google и Facebook. Мы с ним ходим в бассей, смотрим ML конференции от Microsoft и он много рассказывает про политику в Америке. Как я понял Байдена очень не любят там. Мне он кажется вообще не живым по новостям.
Что значит фраза "Let's go Brandon"? Недавно на наскар ралли в штатах репортер давал интервью, но его было плохо слышно, потому что весь стадион кричал "F**k Joe Biden." Репортер не растерялся и сказал, люди скандируют победителю гонок и кричат "Let's go Brandon". И теперь это мем №1 в Штатах. И теперь вы знаете, что это значит. https://www.cnn.com/2021/11/01/politics/lets-go-brandon-joe-biden/index.html
Что значит фраза "Let's go Brandon"? Недавно на наскар ралли в штатах репортер давал интервью, но его было плохо слышно, потому что весь стадион кричал "F**k Joe Biden." Репортер не растерялся и сказал, люди скандируют победителю гонок и кричат "Let's go Brandon". И теперь это мем №1 в Штатах. И теперь вы знаете, что это значит. https://www.cnn.com/2021/11/01/politics/lets-go-brandon-joe-biden/index.html