2 картинки. На 1й кофундер Airbyte (open source EL продукт), публикует обычный маркетинговый продающий пост.
Airbyte хотели (хотят) повторить успех Airflow/dbt в плане создания community, но что-то пошло не по плану и даже VC деньги не помогли. Поэтому им задали очень хороший вопрос на 2й картинке.
Мне лично Airbyte показался перегруженным, и я использую meltano.
Сам пост.
Airbyte хотели (хотят) повторить успех Airflow/dbt в плане создания community, но что-то пошло не по плану и даже VC деньги не помогли. Поэтому им задали очень хороший вопрос на 2й картинке.
Мне лично Airbyte показался перегруженным, и я использую meltano.
Сам пост.
👍5
Товарищ поднял интересную тему - мы часто слышим в компании, что “мы семья” и бла бла бла, а по факту это как рост цены акций или криптовалюты, все классно, пока везде и у всех все хорошо, а чуть, что не так, так сразу “давай, досвидания”.
Поэтому возникает вопрос, почем сотрудниками дают испытательный срок, это сотрудники должны давать испытательный срок компании.
у вас как на работе - “мы семья?”, кофе с печеньками и корпаративчики?
Еще было много постов на тему крутецких пати в западных компаниях с модным мерчем, где-нибудь на Гаваях, а потом давай, досвидания”, так как нечем платить зарплату. Но до уровня Xsolla и их успешного применения анализа Big Data еще даже Tesla не дошла🌚
Поэтому возникает вопрос, почем сотрудниками дают испытательный срок, это сотрудники должны давать испытательный срок компании.
у вас как на работе - “мы семья?”, кофе с печеньками и корпаративчики?
Еще было много постов на тему крутецких пати в западных компаниях с модным мерчем, где-нибудь на Гаваях, а потом давай, досвидания”, так как нечем платить зарплату. Но до уровня Xsolla и их успешного применения анализа Big Data еще даже Tesla не дошла🌚
👍44👏3❤1
Я писал давно про свой неуспешный опыт создания аналитического консалтинга. Всегда интересно читать, как похожая идея у кого-то получилась. Ребята из Монтреаля выросли за 2 года с 4х до 32 консультантов продавая услуги Looker, Snowflake, Dbt, Fivetran с годовым revenue 3mln+, молодцы! Уверен что это было не просто, но они справились, да и сайт у них креативный.
PS А это про неудачный опыт похожей идеи (статья на хабре). Так же был партнером Snowflake, Looker, Matillion, Tableau, но слишком был размыт фокус, пытался объять необъятное.
PS А это про неудачный опыт похожей идеи (статья на хабре). Так же был партнером Snowflake, Looker, Matillion, Tableau, но слишком был размыт фокус, пытался объять необъятное.
Medium
Montreal Analytics, Year 2
Scaling from a Local Team to a Distributed Company
👍43
МОДУЛЬ 7-2 ЧТО ТАКОЕ APACHE SPARK
Apache Spark является самым популярным инструментом среди инженеров данных, аналитиков и инженеров машинного обучения. Его главная задача это обработка данных. С помощью Spark можно подключаться к любому источнику данных, читать большие данные и обрабатывать их в оперативной памяти с использованием распределенного вычисления (distributed computing).
В этом видео:
📌 Узнаем история Apache Spark
📌 Посмотрим примеры архитектур с использованием Spark
📌 Разберемся когда его можно использовать
📌 Узнаем про основные компоненты
📌 Узнаем, обозначает термин Unified Analytics
Apache Spark является самым популярным инструментом среди инженеров данных, аналитиков и инженеров машинного обучения. Его главная задача это обработка данных. С помощью Spark можно подключаться к любому источнику данных, читать большие данные и обрабатывать их в оперативной памяти с использованием распределенного вычисления (distributed computing).
В этом видео:
📌 Узнаем история Apache Spark
📌 Посмотрим примеры архитектур с использованием Spark
📌 Разберемся когда его можно использовать
📌 Узнаем про основные компоненты
📌 Узнаем, обозначает термин Unified Analytics
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 7-2 ЧТО ТАКОЕ APACHE SPARK
Apache Spark является самый популярным инструментом среди инженеров данных, аналитиков и инженеров машинного обучения. Его главная задача это обработка данных. С помощью Spark можно подключаться к любому источнику данных, читать большие данные и обрабатывать…
🔥82👍28❤3👏1🤩1
МОДУЛЬ 7-2-1 САМЫЙ МИНИМУМ PYTHON ДЛЯ SPARK (JUST ENOUGH PYTHON FOR SPARK)
Вдруг вы плохо знаете Python? Тогда для вас есть express course:)
Прежде, чем начать работать с Apache Spark, мы должны иметь необходимый минимум работы хотя бы одного из поддерживаемых языков программирования. Один из самых популярных языков - Python. Поэтому в этом уроке мы посмотрим, какие команды нам необходимо знать на примере Databricks notebooks. У вас будет замечательная возможность попрактиковаться, и если вдруг вы мало используете Python, то самое время попробовать его, так как дальше нам очень понадобится.
В этом видео:
📌 Что такое Databricks
📌 Как запустить Community Edition Databricks и какие есть еще варианты для бесплатного Spark
📌 Переменные и типы данных в Python
📌 Условия и циклы
📌 Методы, функции и библиотеки
📌 Коллекции и классы
Вдруг вы плохо знаете Python? Тогда для вас есть express course:)
Прежде, чем начать работать с Apache Spark, мы должны иметь необходимый минимум работы хотя бы одного из поддерживаемых языков программирования. Один из самых популярных языков - Python. Поэтому в этом уроке мы посмотрим, какие команды нам необходимо знать на примере Databricks notebooks. У вас будет замечательная возможность попрактиковаться, и если вдруг вы мало используете Python, то самое время попробовать его, так как дальше нам очень понадобится.
В этом видео:
📌 Что такое Databricks
📌 Как запустить Community Edition Databricks и какие есть еще варианты для бесплатного Spark
📌 Переменные и типы данных в Python
📌 Условия и циклы
📌 Методы, функции и библиотеки
📌 Коллекции и классы
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 7-2-1 САМЫЙ МИНИМУМ PYTHON ДЛЯ SPARK (JUST ENOUGH PYTHON FOR SPARK)
Прежде, чем начать работать с Apache Spark, мы должны иметь необходимый минимум работы хотя бы одного из поддерживаемых языков программирования. Один из самых популярных языков - Python. Поэтому в этом уроке мы посмотрим, какие команды нам необходимо знать…
👍54🔥30❤3👏1
В видео я упоминал papers про big data:
(я их добавил в git учебник)
Papers
- The Google File System
- MapReduce: Simplified Data Processing on Large Clusters
- Bigtable: A Distributed Storage System for Structured Data
- The Hadoop Distributed File System
- Spark: Cluster Computing with Working Sets
(я их добавил в git учебник)
Papers
- The Google File System
- MapReduce: Simplified Data Processing on Large Clusters
- Bigtable: A Distributed Storage System for Structured Data
- The Hadoop Distributed File System
- Spark: Cluster Computing with Working Sets
👍19👏3
Новая книга с интересным названием - AI-Powered Business Intelligence
Use business intelligence to power corporate growth, increase efficiency, and improve corporate decision making. With this practical book with hands-on examples in Power BI, you'll explore the most relevant AI use cases for BI, including improved forecasting, automated classification, and AI-powered recommendations. And you'll learn how to draw insights from unstructured data sources like text, document, images files.
- Learn how AI can generate business impact in BI environments
- Use AutoML for automated classification and improved forecasting
- Implement recommendation services to support decision-making
- Draw insights from text data at scale with NLP services
- Extract information from documents and images with computer vision services
- Build interactive user frontends for AI-powered dashboard prototypes
- Implement an end-to-end case study for building an AI-powered customer analytics dashboard
Update: Книга вроде как 💩
Use business intelligence to power corporate growth, increase efficiency, and improve corporate decision making. With this practical book with hands-on examples in Power BI, you'll explore the most relevant AI use cases for BI, including improved forecasting, automated classification, and AI-powered recommendations. And you'll learn how to draw insights from unstructured data sources like text, document, images files.
- Learn how AI can generate business impact in BI environments
- Use AutoML for automated classification and improved forecasting
- Implement recommendation services to support decision-making
- Draw insights from text data at scale with NLP services
- Extract information from documents and images with computer vision services
- Build interactive user frontends for AI-powered dashboard prototypes
- Implement an end-to-end case study for building an AI-powered customer analytics dashboard
Update: Книга вроде как 💩
👍9😁4
Иногда вам могут выслать домашнее задание, в котором попросят вас что-нибудь сделать. У вас есть 2 варианта:
1) сделать как есть, кратко и по делу
2) расписать все достаточно подробно и сделать больше чем требуется
Я обычно всегда за 2ой вариант. В целом я не люблю тратить время на такие вещи, потому что они ничего не гарантируют. Но иногда бывает вдохновение и я решил подойти творчески к решению задачи.
Нужно было для epic games:
1) Придумать архитектуру для конкретного кейса - Software Version Tracking
2) Написать код аля leetcode.
Я сделал целый репозиторий в котором написал большой трактат про аналитические решения, архитектуру и пример delta lake подходы с pyspark для ответа на 1й вопрос. Это почти как White paper для игровой индустрии на Spark.
Для 2го я использовал GitHub actions и pytest - то есть идея CI/CD pipeline, когда мы используем аналитическое решение и пишем код.
С epic не срослось, но зато остались "артефакты" - https://github.com/dimoobraznii1986/AssignmentExample
1) сделать как есть, кратко и по делу
2) расписать все достаточно подробно и сделать больше чем требуется
Я обычно всегда за 2ой вариант. В целом я не люблю тратить время на такие вещи, потому что они ничего не гарантируют. Но иногда бывает вдохновение и я решил подойти творчески к решению задачи.
Нужно было для epic games:
1) Придумать архитектуру для конкретного кейса - Software Version Tracking
2) Написать код аля leetcode.
Я сделал целый репозиторий в котором написал большой трактат про аналитические решения, архитектуру и пример delta lake подходы с pyspark для ответа на 1й вопрос. Это почти как White paper для игровой индустрии на Spark.
Для 2го я использовал GitHub actions и pytest - то есть идея CI/CD pipeline, когда мы используем аналитическое решение и пишем код.
С epic не срослось, но зато остались "артефакты" - https://github.com/dimoobraznii1986/AssignmentExample
GitHub
GitHub - dimoobraznii1986/Assignments
Contribute to dimoobraznii1986/Assignments development by creating an account on GitHub.
👍29🔥16❤1🤔1
Вот мы говорим - язык программирования это сложно. Хотя обычно там все слова на английском.
Но вы не знаете, что такое сложно - Creating an Arabic Programming Language.
С таким же умным видом можно рассказывать иностранцам про язык 1С наверное🥸
Но вы не знаете, что такое сложно - Creating an Arabic Programming Language.
С таким же умным видом можно рассказывать иностранцам про язык 1С наверное🥸
😁30👍8🤔8❤1
Про модели данных...
Хорошая статья про Slowly Change Dimensions.
Николай Голов написал продолжение статьи про Data Modelling @ManyChat - Data modeling in the world of the Modern Data Stack 2.0
Так же Николай попросил рассказать о сообществе, в котором обсуждают тему по аналитики и решения, вот свежая запись - Designing Data-Intensive Applications. Глава 12 The Future of Data Systems (хорошая идея вместе читать и потом обсуждать).
У меня эта книга лежит на столе уже больше года, обязательно прочитаю ее!
Хорошая статья про Slowly Change Dimensions.
Николай Голов написал продолжение статьи про Data Modelling @ManyChat - Data modeling in the world of the Modern Data Stack 2.0
Так же Николай попросил рассказать о сообществе, в котором обсуждают тему по аналитики и решения, вот свежая запись - Designing Data-Intensive Applications. Глава 12 The Future of Data Systems (хорошая идея вместе читать и потом обсуждать).
У меня эта книга лежит на столе уже больше года, обязательно прочитаю ее!
🔥19👍1
data-engineers-guide-apache-spark-delta-lake-v3.pdf
6.2 MB
"Нежное" введение в Spark и Delta Lake.
PS накидайте хороших материалов по Spark. Кроме datalearn модуль 7.2)))
PS накидайте хороших материалов по Spark. Кроме datalearn модуль 7.2)))
👍32😁7👏4
Если вкратце, то это беспредел. На примере Coinbase, кучу народа уволили, им выдали акции по 300 баксов (стоки), а теперь они не знают как продать по 50, да и вообще, они не знали, что они могли продать из по 300. Зато топы знали и продавали.
В целом сейчас отличное время посмотреть всю подноготную успешного ИТ сектора, стартаповсиликоновой кремниевой долины и инновационных технологий 🍿
В целом сейчас отличное время посмотреть всю подноготную успешного ИТ сектора, стартапов
🤬28👍12😢4😁2
Потихоньку dbt сообщество развивается. Запись недавнего митапа.
YouTube
Dbt Meetup 2022-06-14
Митап для специалистов, использующих инструмент dbt для решения своих задач.
Таймкоды:
00:00 Приветствие
1:53–32:35 Артемий Козырь, Analytics engineer at Wheely — Зрелость DBT-проекта. Есть, куда расти?
36:05–59:45 Никита Баканчев, Senior data engineer…
Таймкоды:
00:00 Приветствие
1:53–32:35 Артемий Козырь, Analytics engineer at Wheely — Зрелость DBT-проекта. Есть, куда расти?
36:05–59:45 Никита Баканчев, Senior data engineer…
🔥12👍3
Forwarded from Reveal the Data
Мокапы дашбордов
Сделал удобный набор графиков для макетирования дашбордов. Он сильно ускоряет разработку макетов. Я давно пользуюсь схожим набором, и часто прямо на встречах с заказчиками собираю макет вместе с ними. Это быстро и наглядно.
Версии
— В виде PPTX презентации: самый быстрый вариант, можно копировать элементы просто перенося их с зажатым Ctrl/Cmd и гибко настраивать картинки.
— В виде книги в Табло: можно тонко настроить графики, они лучше заполняют пространство и картинка получается приближенная к финальному результату.
— На доске в Miro: удобно шерить и обсуждать, добавлять идеи и замечания, но не очень удобно работать с картинками.
Графики сделаны в нейтральном стиле, чтобы не отвлекать от бизнес задачи и подчеркнуть, что это мокап. Удобно поверх картинок писать ярким цветом идеи, реальные названия метрик и т.п. Если у вас есть свой стайлгайд или другая BI, сделайте такие же инструменты на своих графиках, просто наскринив и нарезав существующие дашборды.
@revealthedata
Сделал удобный набор графиков для макетирования дашбордов. Он сильно ускоряет разработку макетов. Я давно пользуюсь схожим набором, и часто прямо на встречах с заказчиками собираю макет вместе с ними. Это быстро и наглядно.
Версии
— В виде PPTX презентации: самый быстрый вариант, можно копировать элементы просто перенося их с зажатым Ctrl/Cmd и гибко настраивать картинки.
— В виде книги в Табло: можно тонко настроить графики, они лучше заполняют пространство и картинка получается приближенная к финальному результату.
— На доске в Miro: удобно шерить и обсуждать, добавлять идеи и замечания, но не очень удобно работать с картинками.
Графики сделаны в нейтральном стиле, чтобы не отвлекать от бизнес задачи и подчеркнуть, что это мокап. Удобно поверх картинок писать ярким цветом идеи, реальные названия метрик и т.п. Если у вас есть свой стайлгайд или другая BI, сделайте такие же инструменты на своих графиках, просто наскринив и нарезав существующие дашборды.
@revealthedata
👍78❤6🔥1