State of the art - замечательный Landing Page, судя по-всему сделан Airbyte. Не знаю насколько можно ему верить, но зарплата в 600к в наши дни для "честных" инженеров, мне кажется, редкость, даже в долине. Хотя после массовых увольнений акции Meta, Microsoft, Amazon пошли вверх. В Канаде, по моим подсчетам, можно за год заработать 600к+ канадских, но как было сказано в видео выше, про стоимость жизни в Канаде, очень обидно отдавать 50% на налоги, при этом содержать бомжей и дармоедов и на дом мечты, да и просто на дом, все равно не хватит. Не будем о грустном, лучше про опрос.
В нем поучаствовало 886 человек. Я думаю, что это определенная аудитория, которая использует популярные решения, то есть высокая вероятность bias.
Сразу видно вывод - Insight 1: Airbyte and Fivetran are clear leaders for Data Ingestion layer. Ну, понятно же, за счёт счет банкет. Fivetran использую, работает Окей.
Как же без dbt - Insight 2: dbt has most positive sentiment for Data Transformation, but pandas is actually most used. Вообще сравнивать dbt и pandas, ну такое. Наверно где-то потерялся Excel, тем более dbt for Excel существует.
Insight 3: Snowflake and BigQuery clearly at the top for Data Warehouses; Azure Synapse lagging behind badly - я даже больше сажу, Snowflake явно лидирует. А Synapse уже заменили на Fabric. И Microsoft не будет тягаться в категории хранилищ, у них платформа, у других даже шансов нет. Обычно сравнивают Databricks vs Snowflake, ну тут решили не палить конкурента.
Insight 4: For Data Orchestration, most people are still using self hosted Airflow, but Dagster is coming up the ranks - действительно Airflow очень популярен. Про dagster не знаю, а вотPrefect используем. Да и с Airflow open source очень много проблем, никакой стабильности.
Insight 5: For Business Intelligence, the giants Looker and Tableau are still ruling the roost, but there is also significant churn from Tableau to the newer set of solutions - Power BI явно не популярен среди тех, кто использует dbt, snowflake, aiflow. Оно и понятно, это совсем другая аудитория.
Insight 6: For Data Quality, Great Expectations and Monte Carlo are leading the pack, but more people have not yet tried or explored the tools than have - мне тоже очень нравится MonteCarlo. Не раз уже спасал своими алертами. Там свои алгоритмы, которые собирают различную статистику по использованию, загрузки таблиц. Действительно полезная вещь. Но можно тоже самое и бесплатно сделать.
Insight 7: For Reverse ETL, Hightouch and Census are neck and neck, but the vast majority of the market is still up for grabs. Использую только Hightouch. До сих пор не очень понял ценность этих игрушек дорогих, все можно сделать через API, но время сокращает.
Insight 8: For Data Catalogs, DataHub, Atlan and Amundsen are leading for now, but the vast majority of the market is also up for grabs - Я сейчас работаю с Alation. И в другом месте добавляем DataHub. Все каталоги бесполезные без кураторства.
Еще из интересного список podcasts&youtube channels&data communities.
Чего не хватает:
- Решений по стримингу и возможно use cases по стримингу
- предпочтения по языку для работы с данными, не у всех же Python
- соотношения code vs SQL для работы с данными
- вообще кто-то среди них использует облачный hadoop?
- DevOps для аналитики (terraform bicep, cloud formation), git, CI/CD
В нем поучаствовало 886 человек. Я думаю, что это определенная аудитория, которая использует популярные решения, то есть высокая вероятность bias.
Сразу видно вывод - Insight 1: Airbyte and Fivetran are clear leaders for Data Ingestion layer. Ну, понятно же, за счёт счет банкет. Fivetran использую, работает Окей.
Как же без dbt - Insight 2: dbt has most positive sentiment for Data Transformation, but pandas is actually most used. Вообще сравнивать dbt и pandas, ну такое. Наверно где-то потерялся Excel, тем более dbt for Excel существует.
Insight 3: Snowflake and BigQuery clearly at the top for Data Warehouses; Azure Synapse lagging behind badly - я даже больше сажу, Snowflake явно лидирует. А Synapse уже заменили на Fabric. И Microsoft не будет тягаться в категории хранилищ, у них платформа, у других даже шансов нет. Обычно сравнивают Databricks vs Snowflake, ну тут решили не палить конкурента.
Insight 4: For Data Orchestration, most people are still using self hosted Airflow, but Dagster is coming up the ranks - действительно Airflow очень популярен. Про dagster не знаю, а вотPrefect используем. Да и с Airflow open source очень много проблем, никакой стабильности.
Insight 5: For Business Intelligence, the giants Looker and Tableau are still ruling the roost, but there is also significant churn from Tableau to the newer set of solutions - Power BI явно не популярен среди тех, кто использует dbt, snowflake, aiflow. Оно и понятно, это совсем другая аудитория.
Insight 6: For Data Quality, Great Expectations and Monte Carlo are leading the pack, but more people have not yet tried or explored the tools than have - мне тоже очень нравится MonteCarlo. Не раз уже спасал своими алертами. Там свои алгоритмы, которые собирают различную статистику по использованию, загрузки таблиц. Действительно полезная вещь. Но можно тоже самое и бесплатно сделать.
Insight 7: For Reverse ETL, Hightouch and Census are neck and neck, but the vast majority of the market is still up for grabs. Использую только Hightouch. До сих пор не очень понял ценность этих игрушек дорогих, все можно сделать через API, но время сокращает.
Insight 8: For Data Catalogs, DataHub, Atlan and Amundsen are leading for now, but the vast majority of the market is also up for grabs - Я сейчас работаю с Alation. И в другом месте добавляем DataHub. Все каталоги бесполезные без кураторства.
Еще из интересного список podcasts&youtube channels&data communities.
Чего не хватает:
- Решений по стримингу и возможно use cases по стримингу
- предпочтения по языку для работы с данными, не у всех же Python
- соотношения code vs SQL для работы с данными
- вообще кто-то среди них использует облачный hadoop?
- DevOps для аналитики (terraform bicep, cloud formation), git, CI/CD
State of data 2023
❤🔥26🗿3
Интересная графика, сколько в среднем инженер работает 2 года на одном месте, потому что, если вы останетесь, то вы будете получать на 50% меньше, чем могли бы.
Все смены работы, обычно на повышают зарплату на 40%. А когда я сидела в Амазоне 5 лет, и отстал на 80% от рынка.
Сидеть хорошо, если у вас есть другие интересы или источники дохода. А иначе, ни денег, ни знаний.
Все смены работы, обычно на повышают зарплату на 40%. А когда я сидела в Амазоне 5 лет, и отстал на 80% от рынка.
Сидеть хорошо, если у вас есть другие интересы или источники дохода. А иначе, ни денег, ни знаний.
🗿53❤🔥8🐳7👨💻4🙈3🦄3
The State of Data Engineering 2023 - еще один landing page, но уже от LakeFS. Я не использовал LakeFS, по-моему это решения для версионности озера данных и работает с различными платформами - Athena, Spark, Kafka, Presto. Если кто использует, расскажите на пальцах, что за штука и зачем? Век живи, век учись! А лучше вебинарчик! Я вообще за любой вебинарчик!🥹
В отчете следующие категории:
- Ingest - решения для стриминга и batch, ETL/ELT, low-code/no-code/code. Многие решения выглядят знакомыми и популярными. Действительно, все они могут грузить данные из источника в таргет.
- Data Lake - решения, которые хранят файлы - Hadoop, S3, Azure Storage и тд. Тоже, все выглядит логично.
- Metadata - состоит из: Metastroe пример Hive каталога, AWS Glue, Open Table formats (Lakehouse): Hudi, Delta, Iceberg, Data Version Control Infra.
- Compute Engines - есть Distributed Compute (имеется ввиду только вычислительные мощности как Spark) и Analytics Engines (привычные хранилища данных, тоже кстати distributed)
- Pipelines - категория Orchestrations (scheduler/cron для выполнения ETL jobs в заданной последовательности aka Direct Acyclic Graph) и Data Observation - для мониторинга качества данных
- Practitioners Apps - WTF? Тут и MLOps и data centric AI/ML и ML observability и даже есть dbt в Analytics Workflow категории. А вот BI нету, как так?
- Governance - решения для дата каталогов.
Вообще life-hack для вендоров:
1. Покупаете классный домен
2. Делаете сайт визитку с красивыми графиками/опросами/выводами
3. ChatGPT пишет вам отчет, что ваш тул лучший среди лучших
Хотя, наверно, все и так это делают😅
В отчете следующие категории:
- Ingest - решения для стриминга и batch, ETL/ELT, low-code/no-code/code. Многие решения выглядят знакомыми и популярными. Действительно, все они могут грузить данные из источника в таргет.
- Data Lake - решения, которые хранят файлы - Hadoop, S3, Azure Storage и тд. Тоже, все выглядит логично.
- Metadata - состоит из: Metastroe пример Hive каталога, AWS Glue, Open Table formats (Lakehouse): Hudi, Delta, Iceberg, Data Version Control Infra.
- Compute Engines - есть Distributed Compute (имеется ввиду только вычислительные мощности как Spark) и Analytics Engines (привычные хранилища данных, тоже кстати distributed)
- Pipelines - категория Orchestrations (scheduler/cron для выполнения ETL jobs в заданной последовательности aka Direct Acyclic Graph) и Data Observation - для мониторинга качества данных
- Practitioners Apps - WTF? Тут и MLOps и data centric AI/ML и ML observability и даже есть dbt в Analytics Workflow категории. А вот BI нету, как так?
- Governance - решения для дата каталогов.
Вообще life-hack для вендоров:
1. Покупаете классный домен
2. Делаете сайт визитку с красивыми графиками/опросами/выводами
3. ChatGPT пишет вам отчет, что ваш тул лучший среди лучших
Хотя, наверно, все и так это делают😅
lakeFS
The State of Data Engineering 2023
Explore the leading tools and trends that shaped data engineering in 2023. Read the detailed report on data version control at scale.
❤🔥7🐳4🌭2🎄2
VK Cloud Conf: как перенести лучшие практики разработки ИТ-компаний в классический бизнес
⏰Когда: 8 июня, 12:00
📍 Где: Москва
⚡️ Last call: успевайте зарегистрироваться на конференцию для руководителей компаний и ИТ-специалистов разных направлений. Регистрация закрывается 7 июня в 12:00
В программе:
🔹 Как повысить эффективность разработки ИТ-решений с помощью облачных сервисов.
🔹Подходы к работе с данными: примеры масштабных дата-решений, особенности и результаты проектов.
🔹 Тренды и примеры миграции на российские базы данных.
🔹 Лучшие практики облачной безопасности.
У вас будет возможность задать вопросы экспертам и узнать мнение коллег из других компаний. Не упустите возможность получить новую информацию, сделать свой бизнес эффективнее и повысить безопасность работы в облачной среде.
👉 Зарегистрироваться
#реклама
⏰Когда: 8 июня, 12:00
📍 Где: Москва
⚡️ Last call: успевайте зарегистрироваться на конференцию для руководителей компаний и ИТ-специалистов разных направлений. Регистрация закрывается 7 июня в 12:00
В программе:
🔹 Как повысить эффективность разработки ИТ-решений с помощью облачных сервисов.
🔹Подходы к работе с данными: примеры масштабных дата-решений, особенности и результаты проектов.
🔹 Тренды и примеры миграции на российские базы данных.
🔹 Лучшие практики облачной безопасности.
У вас будет возможность задать вопросы экспертам и узнать мнение коллег из других компаний. Не упустите возможность получить новую информацию, сделать свой бизнес эффективнее и повысить безопасность работы в облачной среде.
👉 Зарегистрироваться
#реклама
🌭5🍌4❤🔥1🙈1
4 часа и вы в теме! Бесплатные курсы от Deeplearning:
- ChatGPT Prompt Engineering for Developers
- LangChain for LLM Application Development
- How Diffusion Models Work
- Building Systems with the ChatGPT API
Не уверен, что вам это поможет, но трендово же?!
- ChatGPT Prompt Engineering for Developers
- LangChain for LLM Application Development
- How Diffusion Models Work
- Building Systems with the ChatGPT API
Не уверен, что вам это поможет, но трендово же?!
www.deeplearning.ai
Courses - DeepLearning.AI
Discover the best courses to build a career in AI | Whether you're a beginner or an experienced practitioner, our world-class curriculum and unique teaching methodology will guide you through every stage of your Al journey.
🌚8🍌6❤🔥3🍾3
Forwarded from Книжный куб (Alexander Polomodov)
Путь аналитика. Практическое руководство IT-специалиста
Лет шесть назад я прочитал эту книгу Веры Ивановой и Андрея Перерва и она показалась мне достаточно неплохой. Плюс книги в том, что авторы довольно структурировано описывает карьерную лестницу аналитика, приводя список требований к каждой из ступенек, а также указывая способы перехода на новую ступеньку. Также в книге есть много указаний на материалы, которые реально стоит изучить. А минусы в том, что ряд моментов, указанных автором, относится к дискуссионным и с моей точки зрения не нужны:) Если говорить про содержание книги, то она состоит из 7 глав, среди которых есть вводная часть, шаги карьерной лестницы аналитика и заключение, а также много примеров и шаблонов в дополнительных материалах
1. Общие понятия
2. Профиль и квалификация аналитиков
3. Младший аналитик
4. Аналитик
5. Старший/ведущий аналитик
6. Начальник отдела анализа
7. Итак
Итого, книга показалась мне полезной для прочтения любому, кто идет или планирует идти по этому пути аналитика.
#SoftwareDevelopment #Software #Analyst
Лет шесть назад я прочитал эту книгу Веры Ивановой и Андрея Перерва и она показалась мне достаточно неплохой. Плюс книги в том, что авторы довольно структурировано описывает карьерную лестницу аналитика, приводя список требований к каждой из ступенек, а также указывая способы перехода на новую ступеньку. Также в книге есть много указаний на материалы, которые реально стоит изучить. А минусы в том, что ряд моментов, указанных автором, относится к дискуссионным и с моей точки зрения не нужны:) Если говорить про содержание книги, то она состоит из 7 глав, среди которых есть вводная часть, шаги карьерной лестницы аналитика и заключение, а также много примеров и шаблонов в дополнительных материалах
1. Общие понятия
2. Профиль и квалификация аналитиков
3. Младший аналитик
4. Аналитик
5. Старший/ведущий аналитик
6. Начальник отдела анализа
7. Итак
Итого, книга показалась мне полезной для прочтения любому, кто идет или планирует идти по этому пути аналитика.
#SoftwareDevelopment #Software #Analyst
🐳19❤🔥7🌚5
Титаны инжиниринга данных обсуждают How Data Engineers Manage Data At A Hyperscale At FAANGs - The Vs of Big Data
YouTube
How Data Engineers Manage Data At A Hyperscale At FAANGs - The Vs of Big Data - Ft. @EcZachly_
A few months back I put together a conference that has been seen by well over 10,000 unique viewers!
One of the popular talks was Zach Wilson's who talked on his experience being a data engineer at companies like Facebook, Netflix and Airbnb.
If you'd like…
One of the popular talks was Zach Wilson's who talked on his experience being a data engineer at companies like Facebook, Netflix and Airbnb.
If you'd like…
❤🔥13🐳1
7 июня пройдёт Alfa Analyze IT Meetup — встреча для системных аналитиков. Основные темы и спикеры:
🎯 Как аналитику проще погрузиться в архитектуру?
Борис Пишванов и Михаил Салахов, Solution-архитекторы из Альфы, расскажут, почему может твориться «дичь» на проекте и как из неё приготовить «шашлык»
🎯 Как вести фронтовую документацию рядом с кодом
Игорь Савинов, System Analyst, поделится тем, как ведется документация в Альфа-Банке, какие проблемы приходится решать
🎯 Метрики эффективности процессов системного анализа
С Сергеем Воробьевым, Head of Efficiency Development в Альфе, разберёмся в процессах погружения в компетенции
🎯 Куда расти системному аналитику?
Юлия Лебедева, Competency Lead в Сбере, Анатолий Олейнер, Software Architect в СИБУР диджитал и Иван Стефу, Product Owner в Альфа-Банке обсудят пути развития для аналитиков
Когда: 7 июня в 18:30
Где: Москва, пр-т Андропова, 18, к. 3 или подключайтесь онлайн
Регистрируйтесь, чтобы не пропустить! Количество мест ограничено.
#реклама
🎯 Как аналитику проще погрузиться в архитектуру?
Борис Пишванов и Михаил Салахов, Solution-архитекторы из Альфы, расскажут, почему может твориться «дичь» на проекте и как из неё приготовить «шашлык»
🎯 Как вести фронтовую документацию рядом с кодом
Игорь Савинов, System Analyst, поделится тем, как ведется документация в Альфа-Банке, какие проблемы приходится решать
🎯 Метрики эффективности процессов системного анализа
С Сергеем Воробьевым, Head of Efficiency Development в Альфе, разберёмся в процессах погружения в компетенции
🎯 Куда расти системному аналитику?
Юлия Лебедева, Competency Lead в Сбере, Анатолий Олейнер, Software Architect в СИБУР диджитал и Иван Стефу, Product Owner в Альфа-Банке обсудят пути развития для аналитиков
Когда: 7 июня в 18:30
Где: Москва, пр-т Андропова, 18, к. 3 или подключайтесь онлайн
Регистрируйтесь, чтобы не пропустить! Количество мест ограничено.
#реклама
🌭6❤🔥3🌚1
Аналитика данных - это не только о числах и создании дашбордов. Это о понимании бизнес-контекста, задавании правильных вопросов и интерпретации данных в бизнес рекомендации и решения.
Эффективные аналитики и инженеры обладают сочетанием технической экспертизы, бизнес проницательности и критического мышления, позволяющих преобразовывать сырые данные в пользу для бизнеса.
Эффективные аналитики и инженеры обладают сочетанием технической экспертизы, бизнес проницательности и критического мышления, позволяющих преобразовывать сырые данные в пользу для бизнеса.
❤🔥58🌚6🗿6🤷♂1🌭1
Офигенный пост про то, как давать talks, то есть делать презентации. Я уже давно на своем опыте понял, что презентация должны быть веселыми, с шутками, картинками и мемами, чем проще, тем лучше. Люди хотя отдохнуть, развлечься или отвлечься. Поэтому грузить их нудятиной - ну такое... Но 95% выступлений именно такие 😬 бесполезные, скучные, waste of time. Поэтому, если есть возможность выступать перед аудиторий, постарайтесь не грузить людей, доставьте им удовольствие.
Мое собственное самое любимое выступление было в Москве, в Mailru - Как технологии помогают Amazon быть самой клиентоориентированной компанией на Земле? Я очень действительно потратил много времени на подготовку, и на контент, и усилия оправдали себя.
Мое собственное самое любимое выступление было в Москве, в Mailru - Как технологии помогают Amazon быть самой клиентоориентированной компанией на Земле? Я очень действительно потратил много времени на подготовку, и на контент, и усилия оправдали себя.
benn.substack
A gambler's guide to giving talks
A bewildered audience is better than a bored one.
❤🔥26💘1
The Position of Fuck You - очень удобная позиция, stress free, так сказать.
YouTube
The Position of Fuck You (John Goodman in The Gambler)
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
❤🔥7🦄2
Вот и у Apple вышел AR. Посмотрим скоро, можно ли реально работать в нем или нет, или снова немножко buzz words.
Microsoft HoloLens AR- фигня
Oculus Quest VR - фигня
Valve headset VR - фигня
Apple AR - ?
Тут вообще важно правильные термины использовать.
VR - мы смотрим в маленький телевизор (экран), а вот AR - мы смотрим сквозь. Я как то пытался записать видос для Data Learn в HoloLens, но так все тормозило и было криво, что забил.
Говорят, в VR взрослый контент хорошо заходит, но не пробовал еще, интересно в AR там как с этим?!
Microsoft HoloLens AR- фигня
Oculus Quest VR - фигня
Valve headset VR - фигня
Apple AR - ?
Тут вообще важно правильные термины использовать.
VR - мы смотрим в маленький телевизор (экран), а вот AR - мы смотрим сквозь. Я как то пытался записать видос для Data Learn в HoloLens, но так все тормозило и было криво, что забил.
Говорят, в VR взрослый контент хорошо заходит, но не пробовал еще, интересно в AR там как с этим?!
🌭19🍾4🌚3❤🔥1🗿1
⚡️ CockroachDB vs YDB vs YugabyteDB
Нашли ультимативный гайд по базам данных на английском языке.
В статье 🇬🇧
• исследование БД на основе популярного бенчмарк-теста YCSB;
• «сравнение яблок и апельсинов» или небольшая ретроспектива в историю исследований баз данных SQL;
• проверка производительности БД на разных сценариях.
Есть ли одна лучшая СУБД SQL, узнайте по ссылке 😉
#реклама
Нашли ультимативный гайд по базам данных на английском языке.
В статье 🇬🇧
• исследование БД на основе популярного бенчмарк-теста YCSB;
• «сравнение яблок и апельсинов» или небольшая ретроспектива в историю исследований баз данных SQL;
• проверка производительности БД на разных сценариях.
Есть ли одна лучшая СУБД SQL, узнайте по ссылке 😉
#реклама
🗿8👾4❤🔥2🌚2🐳1🍾1
Хорошая статья на обзор продуктов для сбора событий внутри продукта - Amplitude, Mixpanel, Heap - Leaving product analytics - an analysis of the current state of product analytics and beyond
What is product analytics (in a nutshell) -
an approach to understanding how users or accounts use a digital product? With a focus on feature usage, cohort analysis, and based on retention. Product analytics is based on event data that is sent when users or systems perform a specific action. (ok, that is really short). But it has the important ingredients that we need in the next steps.
Лично для меня продуктовая аналитика - это самый интересный аспект работы. Общение в основном происходит с продукт менеджерами, как правило, они все очень проактивные и result oriented. Всегда есть понимание задачи, фичи, и как это дело измерять. Как правило задачи очень схожи вне зависимости от продукта.
А если вы еще прочитаете книги - Escaping the Build Trap: How Effective Product Management Creates Real Value и Lean Analytics то будет совсем замечательно.
Но есть одно НО, даже в этой статье. Прослеживается желание использовать продукт для продуктовой аналитики как главный источников для всех данных и insights. Даже в статье автор пишет, что хочет BI и Data Warehouse встроенные в продукт, наивный.
What is product analytics (in a nutshell) -
an approach to understanding how users or accounts use a digital product? With a focus on feature usage, cohort analysis, and based on retention. Product analytics is based on event data that is sent when users or systems perform a specific action. (ok, that is really short). But it has the important ingredients that we need in the next steps.
Лично для меня продуктовая аналитика - это самый интересный аспект работы. Общение в основном происходит с продукт менеджерами, как правило, они все очень проактивные и result oriented. Всегда есть понимание задачи, фичи, и как это дело измерять. Как правило задачи очень схожи вне зависимости от продукта.
А если вы еще прочитаете книги - Escaping the Build Trap: How Effective Product Management Creates Real Value и Lean Analytics то будет совсем замечательно.
Но есть одно НО, даже в этой статье. Прослеживается желание использовать продукт для продуктовой аналитики как главный источников для всех данных и insights. Даже в статье автор пишет, что хочет BI и Data Warehouse встроенные в продукт, наивный.
Timo Dechau
Leaving product analytics
an analysis of the current state of product analytics and beyond
❤🔥13
Замечательно!
Чтобы бизнесу быть успешным, нужно понять кому и как много нужно врать. И ответка - когда мы ищем работу, тоже надо решить - кому и как много врать.
На честности далеко не уехать, точнее много не заработать.
А хотите быть хорошим(ей), тогда можно собак бездомных покормить, или помочь какой-нибудь no-profit организации.
Я вот в школу к детям хожу, coding преподаю, видео курсы записываю. Там я могу быть честным🦥
Чтобы бизнесу быть успешным, нужно понять кому и как много нужно врать. И ответка - когда мы ищем работу, тоже надо решить - кому и как много врать.
На честности далеко не уехать, точнее много не заработать.
А хотите быть хорошим(ей), тогда можно собак бездомных покормить, или помочь какой-нибудь no-profit организации.
Я вот в школу к детям хожу, coding преподаю, видео курсы записываю. Там я могу быть честным🦥
❤🔥45😈13🐳6🙉5🌚3
26 Июня в Лас Вегасе - Snowflake конференция. Путевку мне купили и я записался на следующие треки:
27 June
WN211A: What's New: Apache Iceberg in the Data Cloud
DE206: Fast Ingest with Snowflake
WN201A: What's New: Snowflake Compute Infrastructure
MD206: Architecture Patterns with Snowflake
DE208A: Data Engineering with Python in Snowflake
OS207A: Best Practices for Snowflake's Native Cost Optimization Capabilities
DE200A: Hands-On Lab: Data Engineering Pipelines with Snowpark Python
28 June
AA111: Bringing Trust in Data to the Center of the Room with dbt and Druva
ML106: Hands-On Lab: Getting Started with Snowpark for Machine Learning on SageMaker
MD221: Build an Intelligent Data Mesh with Snowflake and Ascend
AD306: Managing Change: DevOps in Snowflake
DE305: Near Real-Time Ingestion and Transformation on Snowflake
WN207B: What's New: Machine Learning with Snowflake (Repeat)
29 June
WN208B: What's New: Streaming with Snowflake (Repeat)
MA208: Snowflake on Snowflake: Supercharge Marketing Analytics with Snowflake and Streamlit
DE209: Building Pipelines with Dynamic Tables
DE218B: Hands-On Lab: Using dbt to for Analytics and ML-Ready Pipelines w/ SQL & Python
DE308: Orchestrating Data Pipelines with Snowpark dbt Python Models and Airflow Technical Deep Dive
Последний раз был на такой party в 2017 году, тогда после Night Data Party хотел за кеш купить лицензию Табло.🥴
27 June
WN211A: What's New: Apache Iceberg in the Data Cloud
DE206: Fast Ingest with Snowflake
WN201A: What's New: Snowflake Compute Infrastructure
MD206: Architecture Patterns with Snowflake
DE208A: Data Engineering with Python in Snowflake
OS207A: Best Practices for Snowflake's Native Cost Optimization Capabilities
DE200A: Hands-On Lab: Data Engineering Pipelines with Snowpark Python
28 June
AA111: Bringing Trust in Data to the Center of the Room with dbt and Druva
ML106: Hands-On Lab: Getting Started with Snowpark for Machine Learning on SageMaker
MD221: Build an Intelligent Data Mesh with Snowflake and Ascend
AD306: Managing Change: DevOps in Snowflake
DE305: Near Real-Time Ingestion and Transformation on Snowflake
WN207B: What's New: Machine Learning with Snowflake (Repeat)
29 June
WN208B: What's New: Streaming with Snowflake (Repeat)
MA208: Snowflake on Snowflake: Supercharge Marketing Analytics with Snowflake and Streamlit
DE209: Building Pipelines with Dynamic Tables
DE218B: Hands-On Lab: Using dbt to for Analytics and ML-Ready Pipelines w/ SQL & Python
DE308: Orchestrating Data Pipelines with Snowpark dbt Python Models and Airflow Technical Deep Dive
Последний раз был на такой party в 2017 году, тогда после Night Data Party хотел за кеш купить лицензию Табло.🥴
Snowflake
Summit
Explore the future of data, AI, and applications at Snowflake Summit 2025. Join experts, attend workshops, and get SnowPro certified while learning new data trends.
❤🔥25🐳3👨💻1
Я почти целый года работал с Microsoft Synapse (Dedicated Pool and Serverless), Azure Data Explorer (real time analytics) и занимался подготовкой к релизу Microsoft Fabric.
Я все время скучал по Databricks. И вот я снова работаю с Databricks вместо Synapse. Кстати узнал, что Synapse Spark Pool прям совсем не пошел, походу только S&P500 мучаются с ним из под палки. Сейчас снова изучаю тренинги как "класть кирпичи"👌
Я все время скучал по Databricks. И вот я снова работаю с Databricks вместо Synapse. Кстати узнал, что Synapse Spark Pool прям совсем не пошел, походу только S&P500 мучаются с ним из под палки. Сейчас снова изучаю тренинги как "класть кирпичи"👌
👨💻11❤🔥8🗿5
Отличная библиотека генерить фейковые данные для вашего демо решения, можно как Streaming, так и Batch. Вот вам и pet project с dbt, airflow, clickhouse, ну или платные альтернативы.
🍾36❤🔥18🐳4🌭3👨💻1
#weeklydatanewsdump
Начну с приятного - Xbox покажет Starfield Direct. Игру делала студия, которая делает Fallout, Skyrim и Doom. Кстати аналитику всю делают для этих игр на AWS Databricks + Scala.
Ну а дальше обычные data news.
Uber опубликовал статья - Spark Analysers: Catching Anti-Patterns In Spark Apps - важный аспект, если у вас тысячи пользователей и вы пытаетесь держать руку на пульсе и бороться с "кривыми руками" пользователей. Убер большой и может себе такое позволить.
Snowflake очень, я бы даже сказал очень-очень, активно продвигает Snowpark, стирая границы между традиционным хранилищем данных и big data решениям с Hadoop, Spark, Hive и тд - Snowpark: Designing for Secure and Performant Processing for Python, Java, and More. Да и по конференции снежинки можно заметить, что очень много тем завязано на Snowpark.
У Microsoft Fabric есть своя страница, где публикуются все новости. После недавнего релиза, я вижу, что количество проблем измеряется 1000 к одному, где на 1000 вопросов\проблем по Power BI (главный интерфейс fabric) приходится один про Data Factory, Synapse DW, Data Explorer). Я именно такого и ожидал, пользователям Power BI еще долго будет не понятно, че за на 😵 Мне кажется не готов мир еще к такому чудо продукту.
Пост про data modelling - The Data Modeling Divide. Тема с 80х и циклично появляется и пропадает.
Вышла книга - Data Modeling with Snowflake от SQLDbm (облачный продукт для моделирования хранилищ данных, у которого дела пошли в гору после партенерства со Snowflake). Ребята классно проводят время в San Diego и очень прикольно за ними наблюдать. Хочу отметить, что это один из немногих стартапов, который не искал внешних инвестиции, seeds, rounds и тп. Так как понимали, что за этим кроется, и у них все классно и без внешних вливаний. Обязательно с ними встречусь вживую на конференции, до этого только переписывались. Я про них еще писал в 2018 году в книжке jumpstart snowflake.
Еще одна замечательная вещь про Snowflake - вы можете детально смотреть на стоимость запросов и искать узкие места, все данные для этого есть - Calculating cost per query in Snowflake
Компания Checkout рассказывает как используют dbt+snowflake - Building dbt CI/CD at scale
Если вы используете Clickhouse - то вот отличное видео Tips and tricks every ClickHouse user should know
Ну и как не сообщить о релизе SQL:2023
Начну с приятного - Xbox покажет Starfield Direct. Игру делала студия, которая делает Fallout, Skyrim и Doom. Кстати аналитику всю делают для этих игр на AWS Databricks + Scala.
Ну а дальше обычные data news.
Uber опубликовал статья - Spark Analysers: Catching Anti-Patterns In Spark Apps - важный аспект, если у вас тысячи пользователей и вы пытаетесь держать руку на пульсе и бороться с "кривыми руками" пользователей. Убер большой и может себе такое позволить.
Snowflake очень, я бы даже сказал очень-очень, активно продвигает Snowpark, стирая границы между традиционным хранилищем данных и big data решениям с Hadoop, Spark, Hive и тд - Snowpark: Designing for Secure and Performant Processing for Python, Java, and More. Да и по конференции снежинки можно заметить, что очень много тем завязано на Snowpark.
У Microsoft Fabric есть своя страница, где публикуются все новости. После недавнего релиза, я вижу, что количество проблем измеряется 1000 к одному, где на 1000 вопросов\проблем по Power BI (главный интерфейс fabric) приходится один про Data Factory, Synapse DW, Data Explorer). Я именно такого и ожидал, пользователям Power BI еще долго будет не понятно, че за на 😵 Мне кажется не готов мир еще к такому чудо продукту.
Пост про data modelling - The Data Modeling Divide. Тема с 80х и циклично появляется и пропадает.
Вышла книга - Data Modeling with Snowflake от SQLDbm (облачный продукт для моделирования хранилищ данных, у которого дела пошли в гору после партенерства со Snowflake). Ребята классно проводят время в San Diego и очень прикольно за ними наблюдать. Хочу отметить, что это один из немногих стартапов, который не искал внешних инвестиции, seeds, rounds и тп. Так как понимали, что за этим кроется, и у них все классно и без внешних вливаний. Обязательно с ними встречусь вживую на конференции, до этого только переписывались. Я про них еще писал в 2018 году в книжке jumpstart snowflake.
Еще одна замечательная вещь про Snowflake - вы можете детально смотреть на стоимость запросов и искать узкие места, все данные для этого есть - Calculating cost per query in Snowflake
Компания Checkout рассказывает как используют dbt+snowflake - Building dbt CI/CD at scale
Если вы используете Clickhouse - то вот отличное видео Tips and tricks every ClickHouse user should know
Ну и как не сообщить о релизе SQL:2023
💘24🦄9🐳6❤🔥3
📢 Привет, друзья!
⏰Завтра (12 июня) в 20:00 по мск вебинар.
🎯 [Тема вебинара]: Game Changer: Переход из BI в мир игр
🔎 Спикер раскроет перед вами свою новую главу жизни, когда она решила покинуть мир BI и основать свою собственную студию настольных игр. Вы услышите о ее вдохновении, столкновениях с трудностями и экономической стороне ведения бизнеса. И самое интересное, вы узнаете, как ее знания и опыт в аналитике помогли ей успешно применить их в новой и увлекательной сфере.
📌 Ссылка на вебинар: https://youtube.com/live/7byO0N-aIJY?feature=share
До встречи на вебинаре! 💪💼
#вебинар #datalearn
⏰Завтра (12 июня) в 20:00 по мск вебинар.
🎯 [Тема вебинара]: Game Changer: Переход из BI в мир игр
🔎 Спикер раскроет перед вами свою новую главу жизни, когда она решила покинуть мир BI и основать свою собственную студию настольных игр. Вы услышите о ее вдохновении, столкновениях с трудностями и экономической стороне ведения бизнеса. И самое интересное, вы узнаете, как ее знания и опыт в аналитике помогли ей успешно применить их в новой и увлекательной сфере.
📌 Ссылка на вебинар: https://youtube.com/live/7byO0N-aIJY?feature=share
До встречи на вебинаре! 💪💼
#вебинар #datalearn
YouTube
Game Changer: Переход из BI в мир игр / Екатерина Стушкова
Переживая карьерный путь от математического образования до BI-аналитики, спикер делится своим опытом и советами по развитию, включая отказ от работы в консалтинге, приобретения новых навыков и видение будущих перспектив.
Покинув мир BI, сосредоточившись…
Покинув мир BI, сосредоточившись…
❤🔥30🐳5🍾3👾2