Вебинары про Power BI + Snowflake. Я понимаю, что врят ли кто-то использует snowflake. Но давайте посмотрим на это с другой стороны. Есть BI инструмент, который подключается к хранилищу данных с большим объемом данным. Большой объем данных может быть даже 4 Гб, если вы подключаетесь с ноутбука и клиента BI к хранилищу данных. Как лучше поступить? Вебинары такого плана полезны для общего понимания взаимодействия BI и DW. И заодно узнать какой функционал у есть у Power BI (best practices) для работы с промышленным хранилищем данных.
Google проводит бесплатный вебинар/тренинг по аналитике.
Withgoogle
Google Cloud Webinars
Cloud OnAir offers a curriculum of webinars and digital events to help you get the most out of Google Cloud products and solutions. Whether you are a thought leader, an IT decision maker or a developer, our Google Cloud experts and partners are here to share…
AWS тоже не спит и будет стримить через Twitch:
- ML training
- Введение в cloud (Cloud Practitioner).
- ML training
- Введение в cloud (Cloud Practitioner).
Amazon
Introducing new machine learning training series on Twitch: save the date | Amazon Web Services
Do you want to build an application with artificial intelligence (AI) but don’t know how to get started with Machine Learning (ML)? Join AWS expert hosts Jon Dion and Kirsten Dupart for a new Twitch show called AWS Power Hour: Machine Learning from AWS Training…
Tableau тоже нас порадовало! Запустили бесплатный тренинг про грамотности данных (Data Literacy).
Что входит в программу?
-Введение в понятие “Грамотность данных”
-Обзор структур данных и понимание какая структура самая оптимальная для аналитики (плоская таблица)
-Обзор объектов BI (измерения, показатели, переменные и тп)
-Знакомство с агрегацией и гранулярность данных
-Знакомство со статистическими понятиям: распределение данных, вариации, корреляции и тп.
То есть этот курс подойдет всем людям, кто работает с данными и “читает отчеты”. А кто посмотрел Datalearn.ru модули 1 и 3 уже должен быть знаком с этими понятиями😜
Что входит в программу?
-Введение в понятие “Грамотность данных”
-Обзор структур данных и понимание какая структура самая оптимальная для аналитики (плоская таблица)
-Обзор объектов BI (измерения, показатели, переменные и тп)
-Знакомство с агрегацией и гранулярность данных
-Знакомство со статистическими понятиям: распределение данных, вариации, корреляции и тп.
То есть этот курс подойдет всем людям, кто работает с данными и “читает отчеты”. А кто посмотрел Datalearn.ru модули 1 и 3 уже должен быть знаком с этими понятиями😜
Tableau
Data Literacy for All: Free data skills training for individuals and organizations
How Tableau’s Data Literacy for All program can help you develop foundational data skillsets.
Современные приложения (телеграм, youtube, datalearn😜, и тп) очень хорошо собирают данные и согласно данным практически все читатели канала (85%) и студенты курса data learn из России. Поэтому ивент с data monsters в UA (пусть и онлайн) будет очень кстати. Возможно получится сделать стрим в youtube. @rspon и @gyromonotron 😎
Forwarded from Data Monsters
Встречайте, наш второй спикер на Data Monsters United, Dmitry Anoshin.
Дмитрий почти 5 лет работает Data Engineer в Amazon в Канаде и США. И сейчас он создает аналитические решения для Amazon Marketplace (да, именно для главной страницы amazon.com) в департаменте Customer Behaviour Analytics в Сиэтле.
В своем докладе «Чему можно научиться за 5 лет в Амазоне?» Дмитрий расскажет про свои проекты и решения, которые использовал, а также поднимет такую важную тему, как взаимодействие с Product Managers, Science teams и SDE (разработчики ПО). Если вам интересно, какие решения используются в Amazon, что востребовано на западном рынке и куда развиваться, то не пропустите доклад.
Регистрация на вебинар по ссылке https://is.gd/H7tcRm
Ждем вас на Data Monsters United!
Дмитрий почти 5 лет работает Data Engineer в Amazon в Канаде и США. И сейчас он создает аналитические решения для Amazon Marketplace (да, именно для главной страницы amazon.com) в департаменте Customer Behaviour Analytics в Сиэтле.
В своем докладе «Чему можно научиться за 5 лет в Амазоне?» Дмитрий расскажет про свои проекты и решения, которые использовал, а также поднимет такую важную тему, как взаимодействие с Product Managers, Science teams и SDE (разработчики ПО). Если вам интересно, какие решения используются в Amazon, что востребовано на западном рынке и куда развиваться, то не пропустите доклад.
Регистрация на вебинар по ссылке https://is.gd/H7tcRm
Ждем вас на Data Monsters United!
Если вам всегда было интересно сравнить Power BI и Tableau, то вот в Австралии будет вебинар от InterWorks, отличная возможность узнать!
PS я просто обожаю сравнивать технологии - AWS Glue vs Azure Data factory, SAP Business Objects vs Microstrategy vs Oracle BI, Redshift vs BigQuery vs Snowflake, Teradata vs Oracle vs Netezza and so on. Суть у всех одна и та же, сравнение помогает лучше понять суть.
PS я просто обожаю сравнивать технологии - AWS Glue vs Azure Data factory, SAP Business Objects vs Microstrategy vs Oracle BI, Redshift vs BigQuery vs Snowflake, Teradata vs Oracle vs Netezza and so on. Суть у всех одна и та же, сравнение помогает лучше понять суть.
Eventbrite
Tableau vs. Power BI
Join InterWorks for a lunch and learn.
Слышали про Keboola? Это такой ETL/ELT инструмент, конкурент Matillion, Fivetran, я давно его знаю, у них есть офис в Ванкувере, а сами они из Чехии. Я их часто вижу вместе с looker/snowflake и другими решениями обычно в облаке. Они изменили политику, и теперь вы можете использовать его 300минут в месяц для вашего проекта бесплатно. Отличная альтернатива. Кто-то пробовал?
Хотите увидеть реально крутой пример использования технологий для ecommerce? Товары из категории мебели могут быть отображены на фотографии комнаты в реальном размере. Это называется Visual Shopping Experience.
Во 2модуле #datalearn мы я рассказывал про модели данных и мы даже делали простенькую через sqldbm (кстати ее founders русские ребята в Сан Диего). Так же несколько раз меня спрашивали как сделать модель данных для собеседования или тестового заданиями, sqldbm всегда их выручал. Поэтому ивент Building a Cloud Data Warehouse in Snowflake: 10 Best Practices
будет полезный тем, кто хочет больше узнать про модели данных.
будет полезный тем, кто хочет больше узнать про модели данных.
Все современные платформы развивают свои marketplace, создают множество приложений и привлекают сторонних разработчиков. Примеров много - AWS, Azure, GCP marketplaces, salesforce marketplace, Tableau plugins/apps и тп. Интересная презентация про рынок marketplace. Ждем marketplace от Яндекс и меил облаков, это отличная возможность создание экосистемы и развития продуктов и стартапов.
SlideShare
Sapphire Ventures: The Startup's Guide to Cloud Marketplaces
Sapphire Ventures: The Startup's Guide to Cloud Marketplaces - Download as a PDF or view online for free
#buildingdatateams chapter1 - Data Teams
Автор рассказывает про сложность BigData и важность Data Teams. Прежде всего дает определение BigData.
Для него все big data, что плохо работает или совсем не работает, например:
- данные грузятся очень долго
-запрос положит базу данных
-задача имеет много шагов
-данные разбросаны по организации и очень сложно собрать их вместе, чтобы решить задачу
Потом он говорит про важность Big data для менеджеров. Потому что они часто недооценивают важность и сложность проектов и как результат - failed.
Главное сложность big data - distributed systems (то есть кластера). Такие системы разбивают задачу на более мелкие шаги и обрабатываю на нескольких машинах.
Дальше он говорит о Data Pipelines и Data Products. Для него data pipeline это процесс, который делает данные доступные для бизнеса. И в процессе данные трансформируются. Data Product используют данные, которые приходят с pipeline и преобразуются таким образом, чтобы было удобно потреблять их пользователям.
Затем он проходится по "непониманиям". Говорит, что часто BI путают с data science и этого нельзя делать. Другая идея, что инженеринг данных это тоже самое, что хранилище данных. Разница в том, что для автора инженеры данных работают с distributed systems, а вот ETL разработчики (DW) с такими системами не работают.
За свою карьеру, он видел много failed проектов. Серкет успеха это правильный набор команд. По мнению автора их должно быть 3:
1) Команды Data Science:
-знаю математику
-понимают важность данных
-есть понимание инструментов big data
-умеют немного программировать
A data scientist is someone who has augmented their math and statistics background with programming to analyze data and create applied mathematical models.
2) Команда Data Engineering:
- у них software engineering background
- у них специализация в big data
- они круто программят
- есть базовые знания data science
A data engineer is someone who has specialized their skills in creating software solutions around big data.
3) Команда Operations:
- отвечают за работу систем и приложений созданных data science & data engineering teams
- оптимизируют и поддерживают сеть (для передачи данных)
- решают проблемы с железом
- установка и обновление ПО
- установка и конфиг операционной системы
An operations engineer is someone with an operational or systems engineering background who has specialized their skills in big data operations, understands data, and has learned some programming.
Дальше он говорит, что для маленьких организаций сложно иметь все 3 команды, и нужен один человек швейцарский нож, которого не найти просто так.
Ну и конечно, если этими команды плохо руководить, вы получите - failed project.
====
🤔 я лично не со всем соглашусь. Мне показалось, что у мужика супер крутой опыт внедрения решения Apache (Hadoop и тп) on premise, включая закупку железа и его конфигурации. Он не работал с BI/DW командами, и наверное, только сейчас начинает работать с облаками. Так как все крупные корпорации еще сидят он premise и у них реальные задачи с огромным объемом данных. Он все разделил на "черное" и "белое", например, если у вас нет background в разработке ПО, то вы плохой инженер. Или есть, вы работает с хранилищем данных, то вы тоже не инженер. Мне видеться картина не в черно белом цвете, а более яркой, когда у нас кто угодно может быть кем угодно, да и еще понятие BigData/DW уже теряет границу и современные платформы данных это микс озера данных и хранилища данных.
Я уже прочитал половину книги, и буду дальше скидывать конспекты автора.
Автор рассказывает про сложность BigData и важность Data Teams. Прежде всего дает определение BigData.
Для него все big data, что плохо работает или совсем не работает, например:
- данные грузятся очень долго
-запрос положит базу данных
-задача имеет много шагов
-данные разбросаны по организации и очень сложно собрать их вместе, чтобы решить задачу
Потом он говорит про важность Big data для менеджеров. Потому что они часто недооценивают важность и сложность проектов и как результат - failed.
Главное сложность big data - distributed systems (то есть кластера). Такие системы разбивают задачу на более мелкие шаги и обрабатываю на нескольких машинах.
Дальше он говорит о Data Pipelines и Data Products. Для него data pipeline это процесс, который делает данные доступные для бизнеса. И в процессе данные трансформируются. Data Product используют данные, которые приходят с pipeline и преобразуются таким образом, чтобы было удобно потреблять их пользователям.
Затем он проходится по "непониманиям". Говорит, что часто BI путают с data science и этого нельзя делать. Другая идея, что инженеринг данных это тоже самое, что хранилище данных. Разница в том, что для автора инженеры данных работают с distributed systems, а вот ETL разработчики (DW) с такими системами не работают.
За свою карьеру, он видел много failed проектов. Серкет успеха это правильный набор команд. По мнению автора их должно быть 3:
1) Команды Data Science:
-знаю математику
-понимают важность данных
-есть понимание инструментов big data
-умеют немного программировать
A data scientist is someone who has augmented their math and statistics background with programming to analyze data and create applied mathematical models.
2) Команда Data Engineering:
- у них software engineering background
- у них специализация в big data
- они круто программят
- есть базовые знания data science
A data engineer is someone who has specialized their skills in creating software solutions around big data.
3) Команда Operations:
- отвечают за работу систем и приложений созданных data science & data engineering teams
- оптимизируют и поддерживают сеть (для передачи данных)
- решают проблемы с железом
- установка и обновление ПО
- установка и конфиг операционной системы
An operations engineer is someone with an operational or systems engineering background who has specialized their skills in big data operations, understands data, and has learned some programming.
Дальше он говорит, что для маленьких организаций сложно иметь все 3 команды, и нужен один человек швейцарский нож, которого не найти просто так.
Ну и конечно, если этими команды плохо руководить, вы получите - failed project.
====
🤔 я лично не со всем соглашусь. Мне показалось, что у мужика супер крутой опыт внедрения решения Apache (Hadoop и тп) on premise, включая закупку железа и его конфигурации. Он не работал с BI/DW командами, и наверное, только сейчас начинает работать с облаками. Так как все крупные корпорации еще сидят он premise и у них реальные задачи с огромным объемом данных. Он все разделил на "черное" и "белое", например, если у вас нет background в разработке ПО, то вы плохой инженер. Или есть, вы работает с хранилищем данных, то вы тоже не инженер. Мне видеться картина не в черно белом цвете, а более яркой, когда у нас кто угодно может быть кем угодно, да и еще понятие BigData/DW уже теряет границу и современные платформы данных это микс озера данных и хранилища данных.
Я уже прочитал половину книги, и буду дальше скидывать конспекты автора.
Мы практически закончили модуль 3 #datalearn. Роман Бунин подготовил для студентов крутое задание - визуализировать данные по Airbnb London:
Представьте, что вы занимаетесь профессиональной сдачей жилья — берете в долгосрочную аренду объекты, а потом сдаете их в краткосрочную субаренду через Airbnb. У вас есть две задачи, которые вы хотели бы решить с помощью дашборда в Табло. Придумайте и реализуйте любой из них и опубликуйте на Табло Паблик и пришлите ссылку с результатом и ваши пояснения к решаемой задачи в канал de-module03-final-project в слаке. Идеально, если пояснения к задаче будут оформлены в виде заполненного Dashboard Canvas (недостающую информацию придумайте сами). По результатам выполнения проектов будет проведен вебинар, на котором рассмотрим сделанные проекты и будут даны рекомендации по улучшениям.
Задачи на выбор:
1. Создать аналитический инструмент
Для того, чтобы снять новый объект нужно выбрать наиболее привлекательный район, а также сравнить конкретные объекты. Районы сравниваются по количеству объектов, средней стоимости сдачи и средней загрузки объектов в течение года. Также интересна аналитика в разрезе типа комнаты (room_type), количества спален и площади помещений. Аналитический инструмент должен давать ответ на вопрос в каком районе стоит снять помещение в первую очередь и проанализировать топовые предложения в районе, чтобы искать похожие объекты в аренду.
Задача со звездочкой: При выезде на осмотр конкретного объекта вам хотелось бы иметь мобильную версию с основной информацией по этому району, чтобы проводить торги на месте.
2. Сделать операционный дашборд
Вы уже сдаёте 20 объектов в субаренду (выберите случайным образом). Для операционного управления объектами вам необходим дашборд чтобы видеть общую картину, что происходит с вашим портфелем недвижимости (средняя загрузка объекта, средняя длительность аренды, средний чек, общая прибыль за период, средняя оценка), какие объекты сданы или нет на последний день, а также информацию выполнения плана по каждому из объектов. Идеально было бы видеть сравнение метрик со средним по району. Также важно видеть детальные отзывы по каждому из объектов и оперативно реагировать на негативные. Загрузку объекта считаем как кол-во недоступных дней (считаем, что это значит, что объект сдан) делённых на 366 дней. План по загрузки объектов — 75%.
Задача со звездочкой: Долгосрочная аренда на 40% дешевле, чем подневная аренда объекта за весь год. Амортизация и ремонт на каждом объекте составляет 1500$ в год. Посчитайте какие из ваших объектов рентабельны и сколько вы заработали на сдаче объектов.
Больше информации в Git.
Информация про Рому:
https://revealthedata.com/blog/all/about/
Блог: revealthedata.com
Телеграм: https://t.me/revealthedata
Представьте, что вы занимаетесь профессиональной сдачей жилья — берете в долгосрочную аренду объекты, а потом сдаете их в краткосрочную субаренду через Airbnb. У вас есть две задачи, которые вы хотели бы решить с помощью дашборда в Табло. Придумайте и реализуйте любой из них и опубликуйте на Табло Паблик и пришлите ссылку с результатом и ваши пояснения к решаемой задачи в канал de-module03-final-project в слаке. Идеально, если пояснения к задаче будут оформлены в виде заполненного Dashboard Canvas (недостающую информацию придумайте сами). По результатам выполнения проектов будет проведен вебинар, на котором рассмотрим сделанные проекты и будут даны рекомендации по улучшениям.
Задачи на выбор:
1. Создать аналитический инструмент
Для того, чтобы снять новый объект нужно выбрать наиболее привлекательный район, а также сравнить конкретные объекты. Районы сравниваются по количеству объектов, средней стоимости сдачи и средней загрузки объектов в течение года. Также интересна аналитика в разрезе типа комнаты (room_type), количества спален и площади помещений. Аналитический инструмент должен давать ответ на вопрос в каком районе стоит снять помещение в первую очередь и проанализировать топовые предложения в районе, чтобы искать похожие объекты в аренду.
Задача со звездочкой: При выезде на осмотр конкретного объекта вам хотелось бы иметь мобильную версию с основной информацией по этому району, чтобы проводить торги на месте.
2. Сделать операционный дашборд
Вы уже сдаёте 20 объектов в субаренду (выберите случайным образом). Для операционного управления объектами вам необходим дашборд чтобы видеть общую картину, что происходит с вашим портфелем недвижимости (средняя загрузка объекта, средняя длительность аренды, средний чек, общая прибыль за период, средняя оценка), какие объекты сданы или нет на последний день, а также информацию выполнения плана по каждому из объектов. Идеально было бы видеть сравнение метрик со средним по району. Также важно видеть детальные отзывы по каждому из объектов и оперативно реагировать на негативные. Загрузку объекта считаем как кол-во недоступных дней (считаем, что это значит, что объект сдан) делённых на 366 дней. План по загрузки объектов — 75%.
Задача со звездочкой: Долгосрочная аренда на 40% дешевле, чем подневная аренда объекта за весь год. Амортизация и ремонт на каждом объекте составляет 1500$ в год. Посчитайте какие из ваших объектов рентабельны и сколько вы заработали на сдаче объектов.
Больше информации в Git.
Информация про Рому:
https://revealthedata.com/blog/all/about/
Блог: revealthedata.com
Телеграм: https://t.me/revealthedata
Хорошо ли иметь свой блог, канал, git профайл, примеры своих работ? (можно выбрать несколько)
Anonymous Poll
35%
Это помогает помогает при поиске работы и прохождения собеседования.
48%
Это помогает развиваться, изучать новый материал и закреплять его.
2%
Это бесполезное занятие, такие ресурсы не интересуют работадателей.
1%
Это бесполезное занятие, потому что я не хочу тратить время на никому не нужный контент
29%
Это помогает делать нетворкинг и знакомиться с интерсными людьми
27%
Это хорошо для кармы (например делиться знаниями)
28%
Это важный актив для резюме (на русском для поиска работы у нас, на английском для заграницы)
35%
Незнаю, но интересно посмотреть вариант отета.
Кто-нибудь проходил курс по облакам? В 5 модуле #datalearn будет как раз введение в облачные вычисления и меня была идея добавить курс на степик, там рассказать в общем про облака и показать на примере AWS/Azure. Но может быть этот курс покрывает достаточно уже, поэтому интерсно узнать. Тогда сделаю по старинке youtube+git.
Stepik: online education
Promoting efficient learning by developing innovative educational technologies. Create an interactive lesson and employ automated grading software.