dbt lab получили следующий раунд инвестиций.
dbt Labs
The next layer of the modern data stack | dbt Labs
dbt Labs raised another round of funding– $222m at $4.2b valuation. Existing investor Altimeter led the round, with participation from Databricks, GV, Salesforce Ventures, and Snowflake. The raise will fuel our investment in building the next layer in the…
👍6🔥3
Нашел 2 хороших видео про Feature Store:
1) Introduction to Featurestores - общая теория.
2) Databricks Feature Store - непосредственно сам процесс создания и хранения фич в Databricks.
1) Introduction to Featurestores - общая теория.
2) Databricks Feature Store - непосредственно сам процесс создания и хранения фич в Databricks.
🔥6
Я всегда максимально стремлюсь помогать всем кому могу, неся знания и опыт в массы и искренне хочу для всех мира и процветания.
Я не буду делится со своими эмоциями, выводами и точками зрения. Я старался максимально оградить канал от "политики", но это уже не политика, это наши с вами жизни и судьбы, которые изменятся навсегда. Никто не был готов к такому раскладу.
Теперь по делу. Цель сообщества "инжиниринг данных" всегда была помогать людям, учиться новому, искать работу или просто обмениваться знаниями. Я внимательно слежу за объявлениями моего работодателя и при первой информации о возможности получения рабочей визы, релокации, я сразу дам знать. Если вы уже попали в Канаду или Европу и получили документы на работу, то datalearn это лучший ресурс для быстрого обучения и подготовки для поиска работы во всем мире. Если вы в Канаде, и вам нужна какая либо информация и помощь обращайтесь.
🕊
Я не буду делится со своими эмоциями, выводами и точками зрения. Я старался максимально оградить канал от "политики", но это уже не политика, это наши с вами жизни и судьбы, которые изменятся навсегда. Никто не был готов к такому раскладу.
Теперь по делу. Цель сообщества "инжиниринг данных" всегда была помогать людям, учиться новому, искать работу или просто обмениваться знаниями. Я внимательно слежу за объявлениями моего работодателя и при первой информации о возможности получения рабочей визы, релокации, я сразу дам знать. Если вы уже попали в Канаду или Европу и получили документы на работу, то datalearn это лучший ресурс для быстрого обучения и подготовки для поиска работы во всем мире. Если вы в Канаде, и вам нужна какая либо информация и помощь обращайтесь.
🕊
❤496👍96😢37👎11
Попался бесплатный курс подготовки к IELTS на Edx - IELTS Academic Test Preparation.
Prepare for the IELTS Academic tests in this comprehensive, self-paced course covering listening, speaking, reading and writing.
Обычно Academic нужен для поступление в университет. Но его разница от General в более сложных текстах для Reading и эссе для Writing.
Prepare for the IELTS Academic tests in this comprehensive, self-paced course covering listening, speaking, reading and writing.
Обычно Academic нужен для поступление в университет. Но его разница от General в более сложных текстах для Reading и эссе для Writing.
По необходимости приходится изучать ETL инструмент dbt . Это такой SQL friendly open source. Очень гибкий и приятный в работе.
Его основная задача это трансформация данных. Поддерживает все популярные базы данных. Можно развернуть в контейнере или виртуальной машине.
Если зайти со стороны datalearn, то это про 4й модуль. Если вы сделали задание по ETL для Pentaho DI + Postgres, то можно попробовать сделать то же самое, но с dbt.
У них на сайте есть обучающие ресурсы, этого хватит с головой.
Так как dbt отвечает только за трансформацию данных, та самая T в ETL/ELT, то необходимо использовать еще одно решение для загрузки данных в БД, популярные open source - Airbyte и Meltano (я работаю с Meltano).
Ну и для полноты картины, нужен инструмент для оркестрации (workflow manager). Можно, конечно, cron, но все чаще и чаще вижу, что используют Prefect, вместо Airflow.
Его основная задача это трансформация данных. Поддерживает все популярные базы данных. Можно развернуть в контейнере или виртуальной машине.
Если зайти со стороны datalearn, то это про 4й модуль. Если вы сделали задание по ETL для Pentaho DI + Postgres, то можно попробовать сделать то же самое, но с dbt.
У них на сайте есть обучающие ресурсы, этого хватит с головой.
Так как dbt отвечает только за трансформацию данных, та самая T в ETL/ELT, то необходимо использовать еще одно решение для загрузки данных в БД, популярные open source - Airbyte и Meltano (я работаю с Meltano).
Ну и для полноты картины, нужен инструмент для оркестрации (workflow manager). Можно, конечно, cron, но все чаще и чаще вижу, что используют Prefect, вместо Airflow.
👍6
Есть docker, а есть docker compose. Так в чем же разница?
Stack Overflow
What's the difference between Docker Compose vs. Dockerfile
I have been reading up and learning about Docker, and am trying to correctly choose the Django setup to use. So far there is either:
Docker Compose or Dockerfile
I understand that Dockerfiles are u...
Docker Compose or Dockerfile
I understand that Dockerfiles are u...
🤔2👍1
На собеседованиях вас часто могу спросить про real world case. То есть вам нужно рассказать красивую историю, как вы использовали данные, чтобы приносить ценность бизнесу.
Shopify опубликовал хороший обзор про измерение продукта - A Data Scientist’s Guide To Measuring Product Success
Несмотря на то, что здесь упоминается DS, без помощи Data Engineering тут никак не обойтись.
Если вы собеседуетесь, то вам должно быть полезно понять, как лучше рассказывать истории о ваших use cases.
Shopify опубликовал хороший обзор про измерение продукта - A Data Scientist’s Guide To Measuring Product Success
Несмотря на то, что здесь упоминается DS, без помощи Data Engineering тут никак не обойтись.
Если вы собеседуетесь, то вам должно быть полезно понять, как лучше рассказывать истории о ваших use cases.
Shopify
A Data Scientist’s Guide To Measuring Product Success - Shopify
If you’re a data scientist on a product team, much of your work involves getting a product ready for release. You may conduct exploratory data analyses to understand your product’s market, or build the data models and pipelines needed to power a new product…
👍2🔥2
У нас давно был запланирован вебинар на тему "Основы венчура + как выйти на рынок Северной Америки". Я просил своего знакомого рассказать про "кухню" венчура, визы для предпринимателей и стартап культуру. Хотелои бы вы такой вебинар или нет?
Anonymous Poll
26%
Было бы интересно посмотреть вебинар в режиме трансляции и задать вопросы спикеру.
54%
Было бы интересно посмотреть сразу запись без трансляции.
8%
Мне не до вебинаров и дата новостей, отписка.
12%
Свой вариант (пока можно оставить при себе).
👍1
Небольшой конспект по python decorators. Я их еще не использую, но планирую применять для логирования трансформация в PySpark. Условно у меня есть функция, которая умеет делать spark.read и другая функция, которая умеет делать spark.write.
Моя задача собирать дополнительную информацию о работе функции - logging. Я хочу знать сколько времени функция работала (timestamp start, timestamp end), сколько строчек я прочитал и сколько строчек записал.
Для этого мне нужно выполнить одни и те же команды перед началом функции и после функции. То есть, как бы обернуть каждую функцию (wrap) в дополнительные команды. Именно это и делает декоратор, и если в коде вы видите @ символ перед функцией, значит кто-то использует декоратор.
Вот материалы по python decorator:
Python Decorators in 15 Minutes - прям офигенно.
Python Next Steps: Functions, Parameters, Closures, & Decorators - O'Reilly workshop, возможно можно найти запись.
Primer on Python Decorators - примеры, чтобы воспроизвести
Python Decorators - еще примеры
Видео на русском.
А вот реальные кейсы использования и примеры:
5 reasons you need to learn to write Python decorators - статья от O'Reilly
What are some common uses for Python decorators? - наш любимый stackoverflow
Мой PDF ниже
👇👇👇
Моя задача собирать дополнительную информацию о работе функции - logging. Я хочу знать сколько времени функция работала (timestamp start, timestamp end), сколько строчек я прочитал и сколько строчек записал.
Для этого мне нужно выполнить одни и те же команды перед началом функции и после функции. То есть, как бы обернуть каждую функцию (wrap) в дополнительные команды. Именно это и делает декоратор, и если в коде вы видите @ символ перед функцией, значит кто-то использует декоратор.
Вот материалы по python decorator:
Python Decorators in 15 Minutes - прям офигенно.
Python Next Steps: Functions, Parameters, Closures, & Decorators - O'Reilly workshop, возможно можно найти запись.
Primer on Python Decorators - примеры, чтобы воспроизвести
Python Decorators - еще примеры
Видео на русском.
А вот реальные кейсы использования и примеры:
5 reasons you need to learn to write Python decorators - статья от O'Reilly
What are some common uses for Python decorators? - наш любимый stackoverflow
Мой PDF ниже
👇👇👇
👍3
Аналитическое решение уже давно превратилось в Дата Продукт. Команды которые относятся к своему решению как к продукту, добавляют в него новые фичи, изучают гипотезы и применяют новый опыт достигают бОльших успехов. Уже не солидно иметь в команде Project Manager, нужно, чтобы был Product Manager, и зарплата у человека соответствующая.
Статья про продуктовый подход в решениях аналитики - The Data-Informed Product Cycle
Most teams jump from high level strategy/goals straight to feature ideas (w/ "success metrics") The most successful teams
1. Have a strategy
2. Translate that into models
3. Add minimally viable measurement
4. Identify leverage points
5. Explore options
6. Run experiments
Статья про продуктовый подход в решениях аналитики - The Data-Informed Product Cycle
Most teams jump from high level strategy/goals straight to feature ideas (w/ "success metrics") The most successful teams
1. Have a strategy
2. Translate that into models
3. Add minimally viable measurement
4. Identify leverage points
5. Explore options
6. Run experiments
Substack
TBM 8/52: The Data-Informed Product Cycle
I recently shared this Tweet:
Сейчас самый актуальный вопрос это какие аналоги использовать для аналитических решений - open source или отечественные. И тут каждый решает для себя сам, точнее за вас решат в компании в 99% случаев.
Возможно это отличная возможность для отечественных компаний получить необходимые инвестиции и улучшить их продукт. Одно понятно, что любимчики Tableau, Snowflake, Databricks и другие, теперь будет сложней заполучить. (или невозможно)
Возможно это отличная возможность разобраться в дебрях аналитических решений и закодить все на open source.
Если в начале карьеры вам платят за знание инструмента, например вы можете знать Power Query но не понимать, что такое BI, ETL, DW, BigData. Условно вы знаете функционал продукта и можете из пункта А добраться в пункт Б. То со временем, для вас становится более важные не сам инструмент, а фундаментальные подходы для построения решений. Например, если вы знаете Tabelau и понимаете, что такое BI и какие преимущества может получить бизнес от аналитики, то вы можете уже показывать результат и без Tableau. Из минусов это ваш персональный experience работы с BI инструментом.
Вместо Tabelau можно рассмотреть любой другой инструмент аналитического стека. В независимости от санкций данные никуда не пропадут, возможно поменяются источники или структура, но данные будут и кто-то их должен анализировать, собирать и хранить.
Зато теперь не надо ломать голову, что учить Power BI или Tableau, AWS или Azure, Redshift или Snowflake, Databricks или Dremio. Но не стоит пренебрегать этими решениями, так как подходы и best practices для построения решений всегда хорошо подсмотреть у вендоров.
SQL будет так же ценен, как и раньше. И даже еще более ценен.
Если раньше Python был необходим для более продвинутых задач, то теперь он может стать очень важным элементов аналитического решения. На нем можно делать что угодно и как угодно.
PS ну или начинать учить китайские решения для аналитики🏮
Возможно это отличная возможность для отечественных компаний получить необходимые инвестиции и улучшить их продукт. Одно понятно, что любимчики Tableau, Snowflake, Databricks и другие, теперь будет сложней заполучить. (или невозможно)
Возможно это отличная возможность разобраться в дебрях аналитических решений и закодить все на open source.
Если в начале карьеры вам платят за знание инструмента, например вы можете знать Power Query но не понимать, что такое BI, ETL, DW, BigData. Условно вы знаете функционал продукта и можете из пункта А добраться в пункт Б. То со временем, для вас становится более важные не сам инструмент, а фундаментальные подходы для построения решений. Например, если вы знаете Tabelau и понимаете, что такое BI и какие преимущества может получить бизнес от аналитики, то вы можете уже показывать результат и без Tableau. Из минусов это ваш персональный experience работы с BI инструментом.
Вместо Tabelau можно рассмотреть любой другой инструмент аналитического стека. В независимости от санкций данные никуда не пропадут, возможно поменяются источники или структура, но данные будут и кто-то их должен анализировать, собирать и хранить.
Зато теперь не надо ломать голову, что учить Power BI или Tableau, AWS или Azure, Redshift или Snowflake, Databricks или Dremio. Но не стоит пренебрегать этими решениями, так как подходы и best practices для построения решений всегда хорошо подсмотреть у вендоров.
SQL будет так же ценен, как и раньше. И даже еще более ценен.
Если раньше Python был необходим для более продвинутых задач, то теперь он может стать очень важным элементов аналитического решения. На нем можно делать что угодно и как угодно.
PS ну или начинать учить китайские решения для аналитики🏮
👍10
Python_Next_Steps_Functions_Parameters_Closures_and_Decorators.pdf
33.2 MB
Прошел 4х часовой семинар от O'Reilly - Python Next Steps: Functions, Parameters, Closures, & Decorators.
Немного даже заснул😴 Поэтому вы можете время не тратить, а сразу посмотреть слайды.
Немного даже заснул😴 Поэтому вы можете время не тратить, а сразу посмотреть слайды.
👍7🥰3👎1
У python огромное количество библиотек, которые упрощают нашу жизнь. А вот у SQL совсем нет. В статье - Why SQL Needs Software Libraries, авторы как раз и обсуждают вопрос экосистемы вокруг SQL.
Future
Why SQL Needs Software Libraries
Fivetran CEO George Fraser discusses the lack of software libraries for SQL, and how their emergence could change the nature of data analysis.
👍22🔥5
Недавно был idea day, на котором я сделал прототип решения для сбора логов о работе data pipelines. Тут стоит сказать, что я это делал для Databricks на Azure, но это можно сделать на любом решении.
Идея простая - у меня есть pipeline, который читает данные, трансформирует и пишет. По умолчанию, если pipeline упадет я получу Email. Но у меня нет информации о работе кода - сколько времени грузил таблицу, сколько строк, сколько файлов в партиции и тп. А это важная информация для мониторинга. Вообще есть термин - data observability.
На одном из проектов, уже в AWS, я как раз использую продукт Datadog и у них на сайте есть информация о 3х столпах observability:
Monitor metrics, traces, and logs in one unified place.
- Collect and visualize metrics and set up alerts for potential issues for insights into the performance and health of your systems
- Optimize your application performance with end-to-end visibility into real requests and code with distributed tracing
- Cost-efficiently debug, audit, and analyze logs from all your services, applications, and platforms at scale
Track the three pillars of observability across your stack
В целом data dog это тот же Splunk, ElasticSearch или Azure Data Explorer (про который мы даже делали вебинар).
Возвращаюсь к Azure. Я хотел начать собирать дополнительные метрики о работе моих data pipelines, и было целых 3 варианта:
1) самый просто - после отработки операции я могу делать INSERT INTO audit_table все метрики прям в delta lake. Это такой простой вариант, которые подойдет вообще для всего.
2) так как мы используем Azure Data Factory, то я могу использовать ADF и после отработки activity передать значения в следующую activity, которая сделает INSERT INTO Azure SQL базу данных тех же метрик.
3) Использовать LOGGER и через него писать все в Log Analytics (Azure Data Explorer) и потом уже визуализировать и добавлять Alert.
Я выбрал именно вариант 3 по 2м причинам:
1) Это наше стандартное решение для операционной аналитики (ADX)
2) С точки зрения engineering excellence это топчик
Мне очень помогло вот это видео - Azure Databricks Monitoring with Log Analytics, в котором как раз показывает как сгенерить jars и закинуть их в Spark Cluster. А еще мне помог Леша из Северного Ванкувера, с которым мы пили сидр и генерили jars в docker, так что Леше привет🍻Осталось CI/CD добить в Devops и Gitlab;)
И чтобы знания о python decorators (о которых я писал ранее) не пропали, я добавил wrapper для функции write, которые и пишет в Log Analytics.
Идея простая - у меня есть pipeline, который читает данные, трансформирует и пишет. По умолчанию, если pipeline упадет я получу Email. Но у меня нет информации о работе кода - сколько времени грузил таблицу, сколько строк, сколько файлов в партиции и тп. А это важная информация для мониторинга. Вообще есть термин - data observability.
На одном из проектов, уже в AWS, я как раз использую продукт Datadog и у них на сайте есть информация о 3х столпах observability:
Monitor metrics, traces, and logs in one unified place.
- Collect and visualize metrics and set up alerts for potential issues for insights into the performance and health of your systems
- Optimize your application performance with end-to-end visibility into real requests and code with distributed tracing
- Cost-efficiently debug, audit, and analyze logs from all your services, applications, and platforms at scale
Track the three pillars of observability across your stack
В целом data dog это тот же Splunk, ElasticSearch или Azure Data Explorer (про который мы даже делали вебинар).
Возвращаюсь к Azure. Я хотел начать собирать дополнительные метрики о работе моих data pipelines, и было целых 3 варианта:
1) самый просто - после отработки операции я могу делать INSERT INTO audit_table все метрики прям в delta lake. Это такой простой вариант, которые подойдет вообще для всего.
2) так как мы используем Azure Data Factory, то я могу использовать ADF и после отработки activity передать значения в следующую activity, которая сделает INSERT INTO Azure SQL базу данных тех же метрик.
3) Использовать LOGGER и через него писать все в Log Analytics (Azure Data Explorer) и потом уже визуализировать и добавлять Alert.
Я выбрал именно вариант 3 по 2м причинам:
1) Это наше стандартное решение для операционной аналитики (ADX)
2) С точки зрения engineering excellence это топчик
Мне очень помогло вот это видео - Azure Databricks Monitoring with Log Analytics, в котором как раз показывает как сгенерить jars и закинуть их в Spark Cluster. А еще мне помог Леша из Северного Ванкувера, с которым мы пили сидр и генерили jars в docker, так что Леше привет🍻Осталось CI/CD добить в Devops и Gitlab;)
И чтобы знания о python decorators (о которых я писал ранее) не пропали, я добавил wrapper для функции write, которые и пишет в Log Analytics.
YouTube
Azure Databricks Monitoring with Log Analytics
* Updated video is available for Databricks Runtime 11.3 and above - https://www.youtube.com/watch?v=CVzGWWSGWGg
Log Analytics provides a way to easily query logs and setup alerts in Azure. This provides a huge help when monitoring Apache Spark. In this…
Log Analytics provides a way to easily query logs and setup alerts in Azure. This provides a huge help when monitoring Apache Spark. In this…
👍35🔥5👏1
Дата Менеджер из Амазона рассказывает чем он занимается в роли менеджера https://insightextractor.com/2022/04/08/analytics/
Insight Extractor - Blog
What does Analytics People Manager spend their time on? - Insight Extractor - Blog
Few folks recently asked me on where do I allocate my team as a people manager of a double-digit (10+) analytics (data engineers, BI engineers, data science) team at Amazon. There are 5 buckets and the allocation varies week to week depending on priorities:…
👍11👏1