Новая книга с интересным названием - AI-Powered Business Intelligence
Use business intelligence to power corporate growth, increase efficiency, and improve corporate decision making. With this practical book with hands-on examples in Power BI, you'll explore the most relevant AI use cases for BI, including improved forecasting, automated classification, and AI-powered recommendations. And you'll learn how to draw insights from unstructured data sources like text, document, images files.
- Learn how AI can generate business impact in BI environments
- Use AutoML for automated classification and improved forecasting
- Implement recommendation services to support decision-making
- Draw insights from text data at scale with NLP services
- Extract information from documents and images with computer vision services
- Build interactive user frontends for AI-powered dashboard prototypes
- Implement an end-to-end case study for building an AI-powered customer analytics dashboard
Update: Книга вроде как 💩
Use business intelligence to power corporate growth, increase efficiency, and improve corporate decision making. With this practical book with hands-on examples in Power BI, you'll explore the most relevant AI use cases for BI, including improved forecasting, automated classification, and AI-powered recommendations. And you'll learn how to draw insights from unstructured data sources like text, document, images files.
- Learn how AI can generate business impact in BI environments
- Use AutoML for automated classification and improved forecasting
- Implement recommendation services to support decision-making
- Draw insights from text data at scale with NLP services
- Extract information from documents and images with computer vision services
- Build interactive user frontends for AI-powered dashboard prototypes
- Implement an end-to-end case study for building an AI-powered customer analytics dashboard
Update: Книга вроде как 💩
👍9😁4
Иногда вам могут выслать домашнее задание, в котором попросят вас что-нибудь сделать. У вас есть 2 варианта:
1) сделать как есть, кратко и по делу
2) расписать все достаточно подробно и сделать больше чем требуется
Я обычно всегда за 2ой вариант. В целом я не люблю тратить время на такие вещи, потому что они ничего не гарантируют. Но иногда бывает вдохновение и я решил подойти творчески к решению задачи.
Нужно было для epic games:
1) Придумать архитектуру для конкретного кейса - Software Version Tracking
2) Написать код аля leetcode.
Я сделал целый репозиторий в котором написал большой трактат про аналитические решения, архитектуру и пример delta lake подходы с pyspark для ответа на 1й вопрос. Это почти как White paper для игровой индустрии на Spark.
Для 2го я использовал GitHub actions и pytest - то есть идея CI/CD pipeline, когда мы используем аналитическое решение и пишем код.
С epic не срослось, но зато остались "артефакты" - https://github.com/dimoobraznii1986/AssignmentExample
1) сделать как есть, кратко и по делу
2) расписать все достаточно подробно и сделать больше чем требуется
Я обычно всегда за 2ой вариант. В целом я не люблю тратить время на такие вещи, потому что они ничего не гарантируют. Но иногда бывает вдохновение и я решил подойти творчески к решению задачи.
Нужно было для epic games:
1) Придумать архитектуру для конкретного кейса - Software Version Tracking
2) Написать код аля leetcode.
Я сделал целый репозиторий в котором написал большой трактат про аналитические решения, архитектуру и пример delta lake подходы с pyspark для ответа на 1й вопрос. Это почти как White paper для игровой индустрии на Spark.
Для 2го я использовал GitHub actions и pytest - то есть идея CI/CD pipeline, когда мы используем аналитическое решение и пишем код.
С epic не срослось, но зато остались "артефакты" - https://github.com/dimoobraznii1986/AssignmentExample
GitHub
GitHub - dimoobraznii1986/Assignments
Contribute to dimoobraznii1986/Assignments development by creating an account on GitHub.
👍29🔥16❤1🤔1
Вот мы говорим - язык программирования это сложно. Хотя обычно там все слова на английском.
Но вы не знаете, что такое сложно - Creating an Arabic Programming Language.
С таким же умным видом можно рассказывать иностранцам про язык 1С наверное🥸
Но вы не знаете, что такое сложно - Creating an Arabic Programming Language.
С таким же умным видом можно рассказывать иностранцам про язык 1С наверное🥸
😁30👍8🤔8❤1
Про модели данных...
Хорошая статья про Slowly Change Dimensions.
Николай Голов написал продолжение статьи про Data Modelling @ManyChat - Data modeling in the world of the Modern Data Stack 2.0
Так же Николай попросил рассказать о сообществе, в котором обсуждают тему по аналитики и решения, вот свежая запись - Designing Data-Intensive Applications. Глава 12 The Future of Data Systems (хорошая идея вместе читать и потом обсуждать).
У меня эта книга лежит на столе уже больше года, обязательно прочитаю ее!
Хорошая статья про Slowly Change Dimensions.
Николай Голов написал продолжение статьи про Data Modelling @ManyChat - Data modeling in the world of the Modern Data Stack 2.0
Так же Николай попросил рассказать о сообществе, в котором обсуждают тему по аналитики и решения, вот свежая запись - Designing Data-Intensive Applications. Глава 12 The Future of Data Systems (хорошая идея вместе читать и потом обсуждать).
У меня эта книга лежит на столе уже больше года, обязательно прочитаю ее!
🔥19👍1
data-engineers-guide-apache-spark-delta-lake-v3.pdf
6.2 MB
"Нежное" введение в Spark и Delta Lake.
PS накидайте хороших материалов по Spark. Кроме datalearn модуль 7.2)))
PS накидайте хороших материалов по Spark. Кроме datalearn модуль 7.2)))
👍32😁7👏4
Если вкратце, то это беспредел. На примере Coinbase, кучу народа уволили, им выдали акции по 300 баксов (стоки), а теперь они не знают как продать по 50, да и вообще, они не знали, что они могли продать из по 300. Зато топы знали и продавали.
В целом сейчас отличное время посмотреть всю подноготную успешного ИТ сектора, стартаповсиликоновой кремниевой долины и инновационных технологий 🍿
В целом сейчас отличное время посмотреть всю подноготную успешного ИТ сектора, стартапов
🤬28👍12😢4😁2
Потихоньку dbt сообщество развивается. Запись недавнего митапа.
YouTube
Dbt Meetup 2022-06-14
Митап для специалистов, использующих инструмент dbt для решения своих задач.
Таймкоды:
00:00 Приветствие
1:53–32:35 Артемий Козырь, Analytics engineer at Wheely — Зрелость DBT-проекта. Есть, куда расти?
36:05–59:45 Никита Баканчев, Senior data engineer…
Таймкоды:
00:00 Приветствие
1:53–32:35 Артемий Козырь, Analytics engineer at Wheely — Зрелость DBT-проекта. Есть, куда расти?
36:05–59:45 Никита Баканчев, Senior data engineer…
🔥12👍3
Forwarded from Reveal the Data
Мокапы дашбордов
Сделал удобный набор графиков для макетирования дашбордов. Он сильно ускоряет разработку макетов. Я давно пользуюсь схожим набором, и часто прямо на встречах с заказчиками собираю макет вместе с ними. Это быстро и наглядно.
Версии
— В виде PPTX презентации: самый быстрый вариант, можно копировать элементы просто перенося их с зажатым Ctrl/Cmd и гибко настраивать картинки.
— В виде книги в Табло: можно тонко настроить графики, они лучше заполняют пространство и картинка получается приближенная к финальному результату.
— На доске в Miro: удобно шерить и обсуждать, добавлять идеи и замечания, но не очень удобно работать с картинками.
Графики сделаны в нейтральном стиле, чтобы не отвлекать от бизнес задачи и подчеркнуть, что это мокап. Удобно поверх картинок писать ярким цветом идеи, реальные названия метрик и т.п. Если у вас есть свой стайлгайд или другая BI, сделайте такие же инструменты на своих графиках, просто наскринив и нарезав существующие дашборды.
@revealthedata
Сделал удобный набор графиков для макетирования дашбордов. Он сильно ускоряет разработку макетов. Я давно пользуюсь схожим набором, и часто прямо на встречах с заказчиками собираю макет вместе с ними. Это быстро и наглядно.
Версии
— В виде PPTX презентации: самый быстрый вариант, можно копировать элементы просто перенося их с зажатым Ctrl/Cmd и гибко настраивать картинки.
— В виде книги в Табло: можно тонко настроить графики, они лучше заполняют пространство и картинка получается приближенная к финальному результату.
— На доске в Miro: удобно шерить и обсуждать, добавлять идеи и замечания, но не очень удобно работать с картинками.
Графики сделаны в нейтральном стиле, чтобы не отвлекать от бизнес задачи и подчеркнуть, что это мокап. Удобно поверх картинок писать ярким цветом идеи, реальные названия метрик и т.п. Если у вас есть свой стайлгайд или другая BI, сделайте такие же инструменты на своих графиках, просто наскринив и нарезав существующие дашборды.
@revealthedata
👍78❤6🔥1
Запись выступления про решения для игровой индустрии игр ААА. https://youtu.be/tcTIQoo0I7Y
YouTube
Современные аналитические решения для игровой индустрии / Дмитрий Аношин (Microsoft, The Coalition)
Примите участие в нашем следующем ивенте – DevGAMM Vilnius 2022!
https://devgamm.com/vilnius2022/
Дмитрий Аношин, Senior Data Engineer в The Coalition (Microsoft Gaming), рассказывает о том, как развивался дизайн платформ данных и как его внедряли в аналитику…
https://devgamm.com/vilnius2022/
Дмитрий Аношин, Senior Data Engineer в The Coalition (Microsoft Gaming), рассказывает о том, как развивался дизайн платформ данных и как его внедряли в аналитику…
👍27🔥9❤2
Бодренькое видео Introduction to Data Roles and Infrastructure - авто рассказывает, что такое Data Pipeline и какие основные дата роли существуют (на английском). Если вы хотели посмотреть на дата терминологию на английском, то это отличный старт.
🔥31👍7
⚡️ Аналитика данных - блог ведущего Дата саентиста, работающего с данными в Uber, одного из авторов легендарного🔥 Machine Learning. Материал канала поможет реально вырасти до профессионала по работе с данными и получить самую высокооплачиваемую ИТ-профессию.
1 канал вместо тысячи учебников и курсов, подписывайтесь: 👇👇👇
@data_analysis_ml
1 канал вместо тысячи учебников и курсов, подписывайтесь: 👇👇👇
@data_analysis_ml
👍15🤔5
Последние пару недель нужно было погрузиться в AWS Glue. Что такое Glue? Это набор сервисов (managed services, SaaS) на базе open source технологий Spark, Hive и скорей всего других.
Если вы в AWS зайдете в AWS Glue, то там просто глаза разбегутся, сколько всего там есть. Я могу выделить несколько сервисов:
1) Glue Crawler - это такой помощник, который может сканировать данные в S3, и создавать таблицы для SQL, например, чтобы писать запросы в Athena (SQL сервис на базе Presto). Если по простому, то glue crawler создаст таблицу в hive metastore поверх данных в S3. И там куча всяких ништяков, чтобы запросы работали быстрей, партиции сами появлялись и тп.
2) Glue ETL - это и есть managed Spark, почти такой же как Databricks. Я бы сказал бы даже, как Databricks лет 5-10 назад. Можно писать PySpark job с традиционными RDD, Dataframes и spark.read и spark.write (что я и делаю). Есть ноутбуки, кривоватые, но работают.
Процесс выглядит примерно так:
1) Есть данные в S3 и в ноутбуки я пишу черновик PySpark кода который делает все, что мне нужно.
2) Я беру этот код (glue_job.py) и создаю glue job, где указываю тип кластера (всего 3 типа) и кол-во workers. И запускаю.
3) Если нужно, то ставлю это все на расписание. Вроде работает.
Чтобы создать job или запустить его можно использовать AWS CLI или Terraform, у нас 2ой вариант. Terraform даже таблицы создает в Athena.
Это мы рассмотрели традиционный подход. Но есть еще один - glue dynamic dataframes - это уже поделки от AWS, возможно они более оптимизированы и даже позволяют использовать UI (glue studio), чтобы за вас писать код, но мне больше нравится использовать просто PySpark.
3) Glue Data Brew - это уже для Data Science, Data Analyst, инструмент который может делать профайлинг данных, готовить их к моделям, изучать и вообще делать Feature Exploration. Правда у меня так и не смогу он переварить 20GB данных, чтобы выдать профиль датасета.
В целом, мой опыт положительный, не смотря на отсталый интерфейс и функциональность, overload документацию (по сравнению с databricks). Я использую Glue вместе стандартного решения AWS EMR (hadoop) + Spark, и все работает. Дальше через Athena таблицы используются в Looker.
Осталось обучить команду использовать Spark, поэтому мой модуль 7 очень кстати, я как раз на английском им расскажу сегодня про урок 7.2 и на след неделе про урок 7.3.
Материалы по Glue:
1) Лаба AWS - AWS Glue Immersion day - тут есть прям все, что нужно знать с примерами и кодом.
2) Develop and test AWS Glue version 3.0 jobs locally using a Docker container - как то был вопрос про локальную разработку Glue - оказывается можно. Есть готовый docker, в котором уже есть glue spark и можно использовать для CI/CD и локальной разработки.
Если вы в AWS зайдете в AWS Glue, то там просто глаза разбегутся, сколько всего там есть. Я могу выделить несколько сервисов:
1) Glue Crawler - это такой помощник, который может сканировать данные в S3, и создавать таблицы для SQL, например, чтобы писать запросы в Athena (SQL сервис на базе Presto). Если по простому, то glue crawler создаст таблицу в hive metastore поверх данных в S3. И там куча всяких ништяков, чтобы запросы работали быстрей, партиции сами появлялись и тп.
2) Glue ETL - это и есть managed Spark, почти такой же как Databricks. Я бы сказал бы даже, как Databricks лет 5-10 назад. Можно писать PySpark job с традиционными RDD, Dataframes и spark.read и spark.write (что я и делаю). Есть ноутбуки, кривоватые, но работают.
Процесс выглядит примерно так:
1) Есть данные в S3 и в ноутбуки я пишу черновик PySpark кода который делает все, что мне нужно.
2) Я беру этот код (glue_job.py) и создаю glue job, где указываю тип кластера (всего 3 типа) и кол-во workers. И запускаю.
3) Если нужно, то ставлю это все на расписание. Вроде работает.
Чтобы создать job или запустить его можно использовать AWS CLI или Terraform, у нас 2ой вариант. Terraform даже таблицы создает в Athena.
Это мы рассмотрели традиционный подход. Но есть еще один - glue dynamic dataframes - это уже поделки от AWS, возможно они более оптимизированы и даже позволяют использовать UI (glue studio), чтобы за вас писать код, но мне больше нравится использовать просто PySpark.
3) Glue Data Brew - это уже для Data Science, Data Analyst, инструмент который может делать профайлинг данных, готовить их к моделям, изучать и вообще делать Feature Exploration. Правда у меня так и не смогу он переварить 20GB данных, чтобы выдать профиль датасета.
В целом, мой опыт положительный, не смотря на отсталый интерфейс и функциональность, overload документацию (по сравнению с databricks). Я использую Glue вместе стандартного решения AWS EMR (hadoop) + Spark, и все работает. Дальше через Athena таблицы используются в Looker.
Осталось обучить команду использовать Spark, поэтому мой модуль 7 очень кстати, я как раз на английском им расскажу сегодня про урок 7.2 и на след неделе про урок 7.3.
Материалы по Glue:
1) Лаба AWS - AWS Glue Immersion day - тут есть прям все, что нужно знать с примерами и кодом.
2) Develop and test AWS Glue version 3.0 jobs locally using a Docker container - как то был вопрос про локальную разработку Glue - оказывается можно. Есть готовый docker, в котором уже есть glue spark и можно использовать для CI/CD и локальной разработки.
catalog.us-east-1.prod.workshops.aws
Workshop Studio
Discover and participate in AWS workshops and GameDays
1👍29🔥9❤1
После очередного заваленного собеседования приходит на ум вот такой анекдот:
Однажды к поручику подошел корнет со своим вечным вопросом.
- Поручик! У вас такой успех у женщин, а вот на меня они никакого внимания не обращают. Как это вы так?
- Все очень просто, корнет. Подходишь к даме и говоришь : "Мадемуазель! (или там мадам) Нельзя ли вам впердолить?"
- Но, поручик, так ведь можно и пощечину получить!
- Гм.. Можно! А можно и впердолить!😁100👍14