На O'Reilly появилась первая книга по теме Data Quality. Рано радуемся, оффициально выйдет в сентябре 2022.
Do your product dashboards look funky? Are your quarterly reports stale? Is the dataset you're using broken or just plain wrong? These problems affect almost every team, yet they're usually addressed on an ad hoc basis and in a reactive manner. If you answered yes to any of the questions above, this book is for you.
Many data engineering teams today face the "good pipelines, bad data" problem. It doesn't matter how advanced your data infrastructure is if the data you're piping is bad. In this book, Barr Moses, Lior Gavish, and Molly Vorwerck from the data reliability company Monte Carlo explain how to tackle data quality and trust at scale by leveraging best practices and technologies used by some of the world's most innovative companies.
Есть ещё какие-нибудь известные ресурсы по этой теме?
Do your product dashboards look funky? Are your quarterly reports stale? Is the dataset you're using broken or just plain wrong? These problems affect almost every team, yet they're usually addressed on an ad hoc basis and in a reactive manner. If you answered yes to any of the questions above, this book is for you.
Many data engineering teams today face the "good pipelines, bad data" problem. It doesn't matter how advanced your data infrastructure is if the data you're piping is bad. In this book, Barr Moses, Lior Gavish, and Molly Vorwerck from the data reliability company Monte Carlo explain how to tackle data quality and trust at scale by leveraging best practices and technologies used by some of the world's most innovative companies.
Есть ещё какие-нибудь известные ресурсы по этой теме?
O’Reilly Online Learning
Data Quality Fundamentals
Do your product dashboards look funky? Are your quarterly reports stale? Is the data set you're using broken or just plain wrong? These problems affect almost every team, yet... - Selection from Data Quality Fundamentals [Book]
Когда очень много данных, в данном случае Pbты, то можно использовать ML, чтобы прогнозировать потребности в computing и запускать необходимые мощности, таким образом и пользователи не получат дискомфорт и ценник за использование будет оптимальный.
Twitter
Forecasting SQL query resource usage with machine learning
How we apply machine learning techniques at Twitter to forecast SQL query resource utilization during the development and maintenance of our large-scale SQL system.
Наше сообщество “Women In Data Analysis” выпустило новое интервью с главой отдела продаж и развития бизнеса компании SqlDbm - Анной Абрамовой.
Беседа об аналитике, женщинах в IT, необходимых компетенциях и многом другом. Сообщество курируют Яна Конн и Яна Одинцова.
Интервью провела куратор сообщества “Women In Data Analysis” Яна Одинцова. Если у вас остались вопросы, есть идеи или вы хотели бы узнать больше о сообществе, обращайтесь к Яне.
yana.odintsov@gmail.com
Так же у сообщества есть свой закрытый slack канал. Больше информации тут.
PS Знаете ли вы, что во 2м модуле нашего курса мы используем SqlDbm для создания физической модели схемы звезды для данных Super Store в качестве лабораторной работы. Интересно, Анна знала или нет))
Беседа об аналитике, женщинах в IT, необходимых компетенциях и многом другом. Сообщество курируют Яна Конн и Яна Одинцова.
Интервью провела куратор сообщества “Women In Data Analysis” Яна Одинцова. Если у вас остались вопросы, есть идеи или вы хотели бы узнать больше о сообществе, обращайтесь к Яне.
yana.odintsov@gmail.com
Так же у сообщества есть свой закрытый slack канал. Больше информации тут.
PS Знаете ли вы, что во 2м модуле нашего курса мы используем SqlDbm для создания физической модели схемы звезды для данных Super Store в качестве лабораторной работы. Интересно, Анна знала или нет))
YouTube
Women In Data Analytics | Интервью с главой отдела продаж и развития SqlDbm - Анной Абрамовой.
Интервью с главой отдела продаж и развития бизнеса компании SqlDbm - Анной Абрамовой каналу DataLearn.
Беседа об аналитике, женщинах в IT, необходимых компетенциях и многом другом.
Интервью провела куратор сообщества “Women In Data Analysis” Яна Одинцова.…
Беседа об аналитике, женщинах в IT, необходимых компетенциях и многом другом.
Интервью провела куратор сообщества “Women In Data Analysis” Яна Одинцова.…
В этом этом видео физик Richard Feynman учит нас научным методам.
In this short video taken from his lectures, Physicist Richard Feynman offers perhaps one of the greatest definitions of science and the scientific method that I’ve ever heard. And he does it in about a minute.
“Now I’m going to discuss how we would look for a new law. In general, we look for a new law by the following process. First, we guess it (audience laughter), no, don’t laugh, that’s the truth. Then we compute the consequences of the guess, to see what, if this is right, if this law we guess is right, to see what it would imply and then we compare the computation results to nature or we say compare to experiment or experience, compare it directly with observations to see if it works.
If it disagrees with experiment, it’s wrong. In that simple statement is the key to science. It doesn’t make any difference how beautiful your guess is, it doesn’t matter how smart you are who made the guess, or what his name is … If it disagrees with experiment, it’s wrong. That’s all there is to it.”
In this short video taken from his lectures, Physicist Richard Feynman offers perhaps one of the greatest definitions of science and the scientific method that I’ve ever heard. And he does it in about a minute.
“Now I’m going to discuss how we would look for a new law. In general, we look for a new law by the following process. First, we guess it (audience laughter), no, don’t laugh, that’s the truth. Then we compute the consequences of the guess, to see what, if this is right, if this law we guess is right, to see what it would imply and then we compare the computation results to nature or we say compare to experiment or experience, compare it directly with observations to see if it works.
If it disagrees with experiment, it’s wrong. In that simple statement is the key to science. It doesn’t make any difference how beautiful your guess is, it doesn’t matter how smart you are who made the guess, or what his name is … If it disagrees with experiment, it’s wrong. That’s all there is to it.”
YouTube
Feynman on Scientific Method.
Physicist Richard Feynman explains the scientific and unscientific methods of understanding nature.
Looker ( облачный BI инструмент, который был куплен Гуглом за очень дорого) каждый год проводит конференцию JOIN, вот и сейчас проходит JOIN2021 где можно увидеть видение и стратегию BI от лукера, да и в целом понять, что нового в индустрии назревает. В этом посте опубликованы некоторые тезисы.
Google Cloud Blog
Looker’s product vision at JOIN 2021 | Google Cloud Blog
JOIN is Looker’s annual user conference, and this blog welcomes everyone to the event and gives a sneak peak into the product capabilities and features we will be announcing during the product keynote.
Очень интересная статья про benchmarking от Databricks. Век живи, век учись прям. Оказывается нельзя просто так провести свои тесты и опубликовать результаты, которые покажут слабые стороны вендора. А все потому что некто профессор DeWitt давным давно написал статью какой Оракл плохой, и опубликовал ее. Ларри Элисон конечно расстроился и после этого у всех коммерческих решений по сей день было условие DeWitt, что значит нельзя публиковать самому такие бенчмарки. А вот теперь Датабрикс бросает вызов конкурентам и теперь любой желающий можешь оффициально погонять Датабрикс и опубликовать результаты. Как я понимаю это действительно круто👏
Самое время написать про курсы даталерн если они помогли, ну или про другие курсы которые не помогли или помогли.
Forwarded from LEFT JOIN
Мы собрали уже 250 ответов на опрос 🔥🔥🔥
Большое спасибо всем, кто уже принял участие, вы большие молодцы! Огромная просьба к тем, кто еще планирует пройти — отвечать про один конкретный курс, про который вы хотите рассказать.
Мне бы очень хотелось собрать как минимум 500 ответов (а лучше 1000), чтобы выборка респондентов была полноценной, поэтому большая просьба принять участие, если вы обучались на каком-либо платном курсе по аналитике / data science / data engineering и поделиться своими впечатлениями.
По планам на результаты: скорее всего, на выходе будет дашборд с ответами в Tableau Public + презентация с выводами, которую можно прочитать.
Помимо этого, мы хотим сделать некоторый выпуск, где голосом обсудим самые интересные случаи как успешного, так и разочаровавшего образования онлайн.
➡️ Поэтому прошу всех пройти опрос про онлайн-курсы и рассказать про свой опыт 📢📢📢
А коллег-авторов телеграм-каналов снова прошу о репосте, чтобы получить побольше охвата и отзывов о курсах.
Большое спасибо всем, кто уже принял участие, вы большие молодцы! Огромная просьба к тем, кто еще планирует пройти — отвечать про один конкретный курс, про который вы хотите рассказать.
Мне бы очень хотелось собрать как минимум 500 ответов (а лучше 1000), чтобы выборка респондентов была полноценной, поэтому большая просьба принять участие, если вы обучались на каком-либо платном курсе по аналитике / data science / data engineering и поделиться своими впечатлениями.
По планам на результаты: скорее всего, на выходе будет дашборд с ответами в Tableau Public + презентация с выводами, которую можно прочитать.
Помимо этого, мы хотим сделать некоторый выпуск, где голосом обсудим самые интересные случаи как успешного, так и разочаровавшего образования онлайн.
➡️ Поэтому прошу всех пройти опрос про онлайн-курсы и рассказать про свой опыт 📢📢📢
А коллег-авторов телеграм-каналов снова прошу о репосте, чтобы получить побольше охвата и отзывов о курсах.
Forwarded from George Vinogradov 🍀
Дима привет,
Уже по сложившейся традиции просьба закинуть вакансию в чат😉
В команду Data Management в Novartis 🧬 ищу аналитика данных и дата/ETL инженера.
⚒Уровень: middle-senior
💸Зарплатная вилка: 170-270к gross
🇬🇧Требуется знание английского языка на уровне комфортного ежедневного общения и написания документации
❇️С какими тулами мы работаем: sql, alteryx, qliksense, python, AWS, databrics, snowflake
❇️Чем именно предстоит заниматься:
Data Engineer:
- Участвовать в проекте по разработке datalake (AWS S3 - Databricks - Snowflake)
- Создавать и поддерживать ETL процедуры
- Разрабатывать витрины данных для аналитиков
Подробое описание вакансии
Data Analyst:
- Проводить интервью с пользователями, выявлять их потребности и много cusdev`ить
- Придумывать и разрабатывать новые метрики.
- Создавать очень много аналитической отчетности (Alteryx, Qlik Sense)
Подробое описание вакансии
❗️Вопросы и CV отправляйте в ЛС
Уже по сложившейся традиции просьба закинуть вакансию в чат😉
В команду Data Management в Novartis 🧬 ищу аналитика данных и дата/ETL инженера.
⚒Уровень: middle-senior
💸Зарплатная вилка: 170-270к gross
🇬🇧Требуется знание английского языка на уровне комфортного ежедневного общения и написания документации
❇️С какими тулами мы работаем: sql, alteryx, qliksense, python, AWS, databrics, snowflake
❇️Чем именно предстоит заниматься:
Data Engineer:
- Участвовать в проекте по разработке datalake (AWS S3 - Databricks - Snowflake)
- Создавать и поддерживать ETL процедуры
- Разрабатывать витрины данных для аналитиков
Подробое описание вакансии
Data Analyst:
- Проводить интервью с пользователями, выявлять их потребности и много cusdev`ить
- Придумывать и разрабатывать новые метрики.
- Создавать очень много аналитической отчетности (Alteryx, Qlik Sense)
Подробое описание вакансии
❗️Вопросы и CV отправляйте в ЛС
Всем привет! Возникла острая необходимость въехать в dbt поглулбже, накидайте пожалуйста в комменты материалов.
dbt Labs
Deliver trusted data with dbt | dbt Labs
dbt Labs empowers data teams to build reliable, governed data pipelines—accelerating analytics and AI initiatives with speed and confidence.
У нас новый перевод от Ольги Расторгуевой - Почему каждому Дата-сайентисту нужен Инженер данных? Очень актуальная тема!
Про Олю:
Меня зовут Ольга. Я в аналитике уже 10 лет. Начинала с «классического» экономиста-аналитика (бюджетирование, прогнозирование, финансы). А сейчас я аналитик данных в компании Макси (это крупный продуктовый ритейлер Северо-Запада). Поэтому активно углубляю свои знания в сфере DA. Плюс интересуюсь DE и DS, но больше для общего развития - так сказать, хочется видеть картину целиком))
Лайки и комменты плиз! 🥺
Про Олю:
Меня зовут Ольга. Я в аналитике уже 10 лет. Начинала с «классического» экономиста-аналитика (бюджетирование, прогнозирование, финансы). А сейчас я аналитик данных в компании Макси (это крупный продуктовый ритейлер Северо-Запада). Поэтому активно углубляю свои знания в сфере DA. Плюс интересуюсь DE и DS, но больше для общего развития - так сказать, хочется видеть картину целиком))
Лайки и комменты плиз! 🥺
Хабр
Почему каждому Дата-сайентисту нужен Инженер данных?
В этом посте хочу поделиться своим переводом одной любопытной статьи на Medium на тему "кто есть кто в IT, и как бизнесу получить максимальную пользу от каждого специалиста". Перевод...
This media is not supported in your browser
VIEW IN TELEGRAM
10 ноября день милиции и мой день рождения🎉😜
Мы тут недавно обсуждали зарплату от Новартис для middle-senior до 270т. Вопрос было это мало или много? Как я писал в комментариях стек технологий и перспективы тоже важная переменная в уравнении. Вот например мне скинули чатик вакансий @datajobschannel (не реклама), в котором была вакансия на Senior Data Engineer с зп 400 000т🤑 в компанию ACHA и требованием опыта от 3х лет🧐. И как-то я видел вакансию на hh - 450 000🤑 за старшего инженера данных.
Вопрос, 400т это много или достаточно? На самом деле все относительно, если кто-то работает за US$ из РФ или Украины, то у них уже зарплата 6т-8т+$, и возможно они купили патент для ИП с фикс прайсом за налоги (была хорошая дискуссия на эту тему в нашем чатике, про патент, его цену и назначение). А может быть у вас проект в UK со ставкой 100 фунтов в час. Поэтому все очень относительно.
Но факт остается фактом, сейчас за дату готовы платить, поэтому можно учится и пробовать свои силы в data engineering, data science, business intelligence.
А ниже я скину свежий отчет по рынку из US - Tech Salary Guide 2022 (спасибо Даше из Ванкувера за документ, она кстати ботает Data Science программу по 10-12 часов в день без выходных, и вроде есть результат, правда 3ое детей маму потеряли)
ЗП какие-то смешные там от 60т$ до 100т$ в год🥱, прям смешные какие-то, где цифры в 250т$, 350т$ в год?))
Вопрос, 400т это много или достаточно? На самом деле все относительно, если кто-то работает за US$ из РФ или Украины, то у них уже зарплата 6т-8т+$, и возможно они купили патент для ИП с фикс прайсом за налоги (была хорошая дискуссия на эту тему в нашем чатике, про патент, его цену и назначение). А может быть у вас проект в UK со ставкой 100 фунтов в час. Поэтому все очень относительно.
Но факт остается фактом, сейчас за дату готовы платить, поэтому можно учится и пробовать свои силы в data engineering, data science, business intelligence.
А ниже я скину свежий отчет по рынку из US - Tech Salary Guide 2022 (спасибо Даше из Ванкувера за документ, она кстати ботает Data Science программу по 10-12 часов в день без выходных, и вроде есть результат, правда 3ое детей маму потеряли)
ЗП какие-то смешные там от 60т$ до 100т$ в год🥱, прям смешные какие-то, где цифры в 250т$, 350т$ в год?))
🚀 Мы приглашаем специалистов по системному анализу уровня Middle/Senior/Lead с опытом работы от 2 лет стать частью команды EPAM Anywhere.
Пройди техническое интервью и в течение 48 часов получи оффер от EPAM Anywhere, а также бонус до 300 000 руб. после присоединения к нашей команде!
🔸 Бонус для специалиста уровня Middle - 150 000 руб.
🔸 Бонус для специалиста уровня Senior - 225 000 руб.
🔸 Бонус для специалиста уровня Lead - 300 000 руб.
Сумма бонуса фиксирована независимо от оклада.
Хочешь узнать больше?
Заполни регистрационную форму и узнай о платформе EPAM Anywhere и Systems Analysis Hiring Sprint!
🎯 Зарегистрироваться -> https://epa.ms/dcMIs
PS Пост поддержал приют для собак в Ногинске instagram.com/priut_noginsk_help/
Пройди техническое интервью и в течение 48 часов получи оффер от EPAM Anywhere, а также бонус до 300 000 руб. после присоединения к нашей команде!
🔸 Бонус для специалиста уровня Middle - 150 000 руб.
🔸 Бонус для специалиста уровня Senior - 225 000 руб.
🔸 Бонус для специалиста уровня Lead - 300 000 руб.
Сумма бонуса фиксирована независимо от оклада.
Хочешь узнать больше?
Заполни регистрационную форму и узнай о платформе EPAM Anywhere и Systems Analysis Hiring Sprint!
🎯 Зарегистрироваться -> https://epa.ms/dcMIs
PS Пост поддержал приют для собак в Ногинске instagram.com/priut_noginsk_help/
Из всех датаблогеров этот товарищ мой любимый. Умеет он просто и понятно рассказать. В этом видео про databricks он рассказал про новую feature, которая позволяет нам очень просто создавать Python библиотеки, вместо того, чтобы запускать другой ноутбук, в котором у нас стандартные функции.
Но он хорошо показал, как выглядит стандартный процесс вне databricks, с использование Setup Tools и Wheel. Я про это даже и не знал и никогда не использовал (первая половина видео, очень понятно и полезно).
Но он хорошо показал, как выглядит стандартный процесс вне databricks, с использование Setup Tools и Wheel. Я про это даже и не знал и никогда не использовал (первая половина видео, очень понятно и полезно).
YouTube
Advancing Spark - Developing Python Libraries with Databricks Repos
The addition of Databricks Repos changed a lot of our working processes around maintaining notebooks, but the process for building out our own python libraries hasn't changed much over the years. With "Files for Databricks Repos", we suddenly see a massive…
👍1
Ну что есть среди подписчиков модники и геймеры? Вот для вас предложение!
Twitter
Wario64
Xbox Series X (Gucci) available on Nov 17th for $10,000 (100 units available) at select locations. Xbox Game Pass Ultimate included bit.ly/3Fe2ClJ
Все курсы AWS бесплатно online. Интересно как там с досутпом к AWS и кредитами на обучение. https://www.amazon.com/s?rh=p_27%3AAWS+Training+%26+Certification&page=2&qid=1636712113&ref=sr_pg_2
Мы все про ссылаемся на степик, когда говорим про курсы, а пусть у вас будет диплом (сертификат) Harvard!🪀 https://www.edx.org/course/cs50s-introduction-to-programming-with-python