Forwarded from Data Ninja (Dmitriy)
Не люблю формальные определения и всю эту мишуру. Но тем не менее бывают достаточно полезные знания, которые позволяют яснее излагать свои мысли при описании требований к построению хранилищ данных. Одним из таких формальных определений является SCD (Slowly Changing Dimensions) - это такие данные которые могут меняться со временем, и на самом деле у нас есть целых 3 способа зафиксировать измнения.
Пример данных которые могут измениться
SCD1 - честно выполняем UPDATE данных и теряем историю
SCD2 - добавляем запись строкой, сохраняем историю и увеличиваем объем данных
SCD3 - добавляем новое значение как колонку (редко используемое)
#собеседование
Пример данных которые могут измениться
+--------+------------+-------------------+
| Имя | Дата рождения | Должность |
+--------+------------+-------------------+
| Иванов | 1990-01-01 | Младший сотрудник |
+--------+------------+-------------------+
SCD1 - честно выполняем UPDATE данных и теряем историю
+--------+------------+-------------------+
| Имя | Дата рождения | Должность
+--------+------------+-------------------+
| Иванов | 1990-01-01 | Специалист
+--------+------------+-------------------+
SCD2 - добавляем запись строкой, сохраняем историю и увеличиваем объем данных
+--------+------------+-------------------+-------------------+
| Имя | Дата рождения | Должность | Дата события
+--------+------------+-------------------+-------------------+
| Иванов | 1990-01-01 | Младший сотрудник | 2001-01-01
+--------+------------+-------------------+-------------------+
| Иванов | 1990-01-01 | Специалист | 2002-01-02
+--------+------------+-------------------+-------------------+
SCD3 - добавляем новое значение как колонку (редко используемое)
+--------+------------+-------------------+-------------------+
| Имя | Дата рождения | Пред. Должность | Новая Должность
+--------+------------+-------------------+-------------------+
| Иванов | 1990-01-01 | Младший сотрудник | Специалист
+--------+------------+-------------------+-------------------+
#собеседование
Amazon SageMaker теперь имеет RStudio.
Amazon
Announcing Fully Managed RStudio on Amazon SageMaker for Data Scientists | Amazon Web Services
Two years ago, we introduced Amazon SageMaker Studio, the industry’s first fully integrated development environment (IDE) for machine learning (ML). Amazon SageMaker Studio provides a single, web-based visual interface where you can perform all ML development…
Издатель присылает теперь такие вот отчеты, по моим книгам. Хороший пример аналитики и клиентоориентированый подход. Это они в первый раз такое прислали, раньше надо было смотреть самому все.
Кстати книга по ADF была написано совместно с читателями канала, по Tableau exam (370 страниц а не 37) и Tableau 2019 вместе с коллегами из Амазон.
Если вы хотите написать книгу то есть моя презентация как это сделать
Единственный минус вы ничего не заработаете, все забирает издатель.
Кстати книга по ADF была написано совместно с читателями канала, по Tableau exam (370 страниц а не 37) и Tableau 2019 вместе с коллегами из Амазон.
Если вы хотите написать книгу то есть моя презентация как это сделать
Единственный минус вы ничего не заработаете, все забирает издатель.
👍2
Прикольная футболка, подумал я, когда увидел в linkedin. А потом я вспомнил, что это значит. Мой сосед data scientist из LA, профессор математики и возможно выступит у нас на митапе однажды. Он отказался от работы в Netflix, Google и Facebook. Мы с ним ходим в бассей, смотрим ML конференции от Microsoft и он много рассказывает про политику в Америке. Как я понял Байдена очень не любят там. Мне он кажется вообще не живым по новостям.
Что значит фраза "Let's go Brandon"? Недавно на наскар ралли в штатах репортер давал интервью, но его было плохо слышно, потому что весь стадион кричал "F**k Joe Biden." Репортер не растерялся и сказал, люди скандируют победителю гонок и кричат "Let's go Brandon". И теперь это мем №1 в Штатах. И теперь вы знаете, что это значит. https://www.cnn.com/2021/11/01/politics/lets-go-brandon-joe-biden/index.html
Что значит фраза "Let's go Brandon"? Недавно на наскар ралли в штатах репортер давал интервью, но его было плохо слышно, потому что весь стадион кричал "F**k Joe Biden." Репортер не растерялся и сказал, люди скандируют победителю гонок и кричат "Let's go Brandon". И теперь это мем №1 в Штатах. И теперь вы знаете, что это значит. https://www.cnn.com/2021/11/01/politics/lets-go-brandon-joe-biden/index.html
Netflix смог очень быстро запустить игры. Fast time to market. https://www.gamedeveloper.com/business/netflix-games-is-launching-on-november-3
Game Developer
Netflix Games is launching on November 3
The fledgling service will grant access to five titles at launch.
Товарищ создал Sandbox проект себе, вот что он включил в него. Я знаю только dbt, preset, great expectations, airbyte, big query, google analytics. И слышал про activity schema.
Avo - Data sourcing planning
Google Analytics 4
elbwalker - tool for testing sourcing
RudderStack
Klaro - open source consent management
GTM
Airbyte
BigQuery
dbt Labs
Activity Schema
Datahub
Castor - automatic sources schemas and the magic automation
Soda - test-driven data modelling.
Great Expectations
Lightdash
Preset
Census
Avo - Data sourcing planning
Google Analytics 4
elbwalker - tool for testing sourcing
RudderStack
Klaro - open source consent management
GTM
Airbyte
BigQuery
dbt Labs
Activity Schema
Datahub
Castor - automatic sources schemas and the magic automation
Soda - test-driven data modelling.
Great Expectations
Lightdash
Preset
Census
🫡1
А это чтобы английский практиковать - https://www.dataengineeringpodcast.com/episodes/
Возможно один из самых популярных подкастов, в последнем выпуске говорят про Activity Schema.
Возможно один из самых популярных подкастов, в последнем выпуске говорят про Activity Schema.
Dataengineeringpodcast
Data Engineering Podcast - Episodes Archive
Weekly deep dives on data management with the engineers and entrepreneurs who are shaping the industry
😱1🫡1
Статья о том, что Metaverse у Цукенберга всего лишь инструмент зарабатывания денег и новый уровень персонализации и рекламы.
But despite the changed name, Meta remains as Facebook-y as ever. Zuckerberg’s company pioneered the art of collecting data and using it to algorithmically capture our attention for profit regardless of the social cost. If the metaverse really is a thing and not just another bizarre Silicon Valley pipe dream, Meta seems intent on making this new reality just as shitty as the old one.
But despite the changed name, Meta remains as Facebook-y as ever. Zuckerberg’s company pioneered the art of collecting data and using it to algorithmically capture our attention for profit regardless of the social cost. If the metaverse really is a thing and not just another bizarre Silicon Valley pipe dream, Meta seems intent on making this new reality just as shitty as the old one.
Vice
Zuckerberg’s Meta Endgame Is Monetizing All Human Behavior
Exploiting data to manipulate human behavior has always been Facebook’s business model. The metaverse will be no different.
Не пропустите бесплатный день обучения работе с ИИ от Microsoft!
9 ноября, 11.00–14.40 (по Москве), присоединяйтесь к бесплатному вебинару «Microsoft Azure Virtual Training Day: основы ИИ».
За несколько часов специалисты Microsoft расскажут об основных концепциях и областях применения ИИ.
👉Вы подробнее узнаете о разговорном ИИ, обработке естественного языка и компьютерном зрении в Microsoft Azure. Научитесь создавать прогнозные модели без написания программного кода с сервисом машинного обучения.
После вебинара вы сможете бесплатно сдать экзамен по основам Microsoft Azure AI и получить сертификат.
Регистрируйтесь уже сейчас!
PS Пост поддержал приют для собак Зоорассвет в Москве.
9 ноября, 11.00–14.40 (по Москве), присоединяйтесь к бесплатному вебинару «Microsoft Azure Virtual Training Day: основы ИИ».
За несколько часов специалисты Microsoft расскажут об основных концепциях и областях применения ИИ.
👉Вы подробнее узнаете о разговорном ИИ, обработке естественного языка и компьютерном зрении в Microsoft Azure. Научитесь создавать прогнозные модели без написания программного кода с сервисом машинного обучения.
После вебинара вы сможете бесплатно сдать экзамен по основам Microsoft Azure AI и получить сертификат.
Регистрируйтесь уже сейчас!
PS Пост поддержал приют для собак Зоорассвет в Москве.
В datalearn опросе есть вопрос: Ваш пол? (мы хотим знать сколько девушек в профессии). Пирожок показывает соотношение 5000т откликов опроса, где:
М - синее
Ж - красное
Но есть еще варианты, вам на заметку:
Чем аналитика для женщин отличае…
Военный вертолёт Apache
Я Ж, но идея странная. Смысл?
У них/нас разве другие мозги?
Боевой вертолет Ми-28Н
Я избегаю оценочных суждений
Я Ж, но идея странная, зачем?
Женский, но не вижу смысла раздел…
Мне кажется супер странной идеей
Мужчина
Пёс
М, но хотел бы активно помогать ра…
простите еще раз, эту запись нужно…
Пони
Prefer not to say
Женский, но сразу уточню, что не заинтересована в идее "Analytics for Women" и предпочла бы не иметь отношения к Women in data community.
test
чёрный атакующий вертолёт
Это не имеет значения. Я человек.
М - синее
Ж - красное
Но есть еще варианты, вам на заметку:
Чем аналитика для женщин отличае…
Военный вертолёт Apache
Я Ж, но идея странная. Смысл?
У них/нас разве другие мозги?
Боевой вертолет Ми-28Н
Я избегаю оценочных суждений
Я Ж, но идея странная, зачем?
Женский, но не вижу смысла раздел…
Мне кажется супер странной идеей
Мужчина
Пёс
М, но хотел бы активно помогать ра…
простите еще раз, эту запись нужно…
Пони
Prefer not to say
Женский, но сразу уточню, что не заинтересована в идее "Analytics for Women" и предпочла бы не иметь отношения к Women in data community.
test
чёрный атакующий вертолёт
Это не имеет значения. Я человек.
https://medium.com/@mrtrustworthy/from-data-driven-to-driving-data-the-dysfunctions-of-data-engineering-34c34496ed8e
Статью прям можно на цитаты разбирать)
Кто нибудь хочет перевести?
Статью прям можно на цитаты разбирать)
Кто нибудь хочет перевести?
⚡1
На O'Reilly появилась первая книга по теме Data Quality. Рано радуемся, оффициально выйдет в сентябре 2022.
Do your product dashboards look funky? Are your quarterly reports stale? Is the dataset you're using broken or just plain wrong? These problems affect almost every team, yet they're usually addressed on an ad hoc basis and in a reactive manner. If you answered yes to any of the questions above, this book is for you.
Many data engineering teams today face the "good pipelines, bad data" problem. It doesn't matter how advanced your data infrastructure is if the data you're piping is bad. In this book, Barr Moses, Lior Gavish, and Molly Vorwerck from the data reliability company Monte Carlo explain how to tackle data quality and trust at scale by leveraging best practices and technologies used by some of the world's most innovative companies.
Есть ещё какие-нибудь известные ресурсы по этой теме?
Do your product dashboards look funky? Are your quarterly reports stale? Is the dataset you're using broken or just plain wrong? These problems affect almost every team, yet they're usually addressed on an ad hoc basis and in a reactive manner. If you answered yes to any of the questions above, this book is for you.
Many data engineering teams today face the "good pipelines, bad data" problem. It doesn't matter how advanced your data infrastructure is if the data you're piping is bad. In this book, Barr Moses, Lior Gavish, and Molly Vorwerck from the data reliability company Monte Carlo explain how to tackle data quality and trust at scale by leveraging best practices and technologies used by some of the world's most innovative companies.
Есть ещё какие-нибудь известные ресурсы по этой теме?
O’Reilly Online Learning
Data Quality Fundamentals
Do your product dashboards look funky? Are your quarterly reports stale? Is the data set you're using broken or just plain wrong? These problems affect almost every team, yet... - Selection from Data Quality Fundamentals [Book]
Когда очень много данных, в данном случае Pbты, то можно использовать ML, чтобы прогнозировать потребности в computing и запускать необходимые мощности, таким образом и пользователи не получат дискомфорт и ценник за использование будет оптимальный.
Twitter
Forecasting SQL query resource usage with machine learning
How we apply machine learning techniques at Twitter to forecast SQL query resource utilization during the development and maintenance of our large-scale SQL system.
Наше сообщество “Women In Data Analysis” выпустило новое интервью с главой отдела продаж и развития бизнеса компании SqlDbm - Анной Абрамовой.
Беседа об аналитике, женщинах в IT, необходимых компетенциях и многом другом. Сообщество курируют Яна Конн и Яна Одинцова.
Интервью провела куратор сообщества “Women In Data Analysis” Яна Одинцова. Если у вас остались вопросы, есть идеи или вы хотели бы узнать больше о сообществе, обращайтесь к Яне.
yana.odintsov@gmail.com
Так же у сообщества есть свой закрытый slack канал. Больше информации тут.
PS Знаете ли вы, что во 2м модуле нашего курса мы используем SqlDbm для создания физической модели схемы звезды для данных Super Store в качестве лабораторной работы. Интересно, Анна знала или нет))
Беседа об аналитике, женщинах в IT, необходимых компетенциях и многом другом. Сообщество курируют Яна Конн и Яна Одинцова.
Интервью провела куратор сообщества “Women In Data Analysis” Яна Одинцова. Если у вас остались вопросы, есть идеи или вы хотели бы узнать больше о сообществе, обращайтесь к Яне.
yana.odintsov@gmail.com
Так же у сообщества есть свой закрытый slack канал. Больше информации тут.
PS Знаете ли вы, что во 2м модуле нашего курса мы используем SqlDbm для создания физической модели схемы звезды для данных Super Store в качестве лабораторной работы. Интересно, Анна знала или нет))
YouTube
Women In Data Analytics | Интервью с главой отдела продаж и развития SqlDbm - Анной Абрамовой.
Интервью с главой отдела продаж и развития бизнеса компании SqlDbm - Анной Абрамовой каналу DataLearn.
Беседа об аналитике, женщинах в IT, необходимых компетенциях и многом другом.
Интервью провела куратор сообщества “Women In Data Analysis” Яна Одинцова.…
Беседа об аналитике, женщинах в IT, необходимых компетенциях и многом другом.
Интервью провела куратор сообщества “Women In Data Analysis” Яна Одинцова.…
В этом этом видео физик Richard Feynman учит нас научным методам.
In this short video taken from his lectures, Physicist Richard Feynman offers perhaps one of the greatest definitions of science and the scientific method that I’ve ever heard. And he does it in about a minute.
“Now I’m going to discuss how we would look for a new law. In general, we look for a new law by the following process. First, we guess it (audience laughter), no, don’t laugh, that’s the truth. Then we compute the consequences of the guess, to see what, if this is right, if this law we guess is right, to see what it would imply and then we compare the computation results to nature or we say compare to experiment or experience, compare it directly with observations to see if it works.
If it disagrees with experiment, it’s wrong. In that simple statement is the key to science. It doesn’t make any difference how beautiful your guess is, it doesn’t matter how smart you are who made the guess, or what his name is … If it disagrees with experiment, it’s wrong. That’s all there is to it.”
In this short video taken from his lectures, Physicist Richard Feynman offers perhaps one of the greatest definitions of science and the scientific method that I’ve ever heard. And he does it in about a minute.
“Now I’m going to discuss how we would look for a new law. In general, we look for a new law by the following process. First, we guess it (audience laughter), no, don’t laugh, that’s the truth. Then we compute the consequences of the guess, to see what, if this is right, if this law we guess is right, to see what it would imply and then we compare the computation results to nature or we say compare to experiment or experience, compare it directly with observations to see if it works.
If it disagrees with experiment, it’s wrong. In that simple statement is the key to science. It doesn’t make any difference how beautiful your guess is, it doesn’t matter how smart you are who made the guess, or what his name is … If it disagrees with experiment, it’s wrong. That’s all there is to it.”
YouTube
Feynman on Scientific Method.
Physicist Richard Feynman explains the scientific and unscientific methods of understanding nature.