Еще один интересный доклад из Game dev с конференции GDC (я про нее ранее писал) - Data-Driven or Data-Blinded? Uses and Abuses of Analytics in Games. Доклад больше про мобильные приложения, чем игры.
Но интересно рассказывают, как смотртят на графики и метрики с применением статистики и базовой математики. Спикер, она же CEO компании, рассказала, что по образованию она историк по теме Восточной Европы 18-19 Века, но ей всегда нравились данные, поэтому она овладела SQL, чтобы не зависить от ИТ, а потом закончила курсы матемитике и алгебры. В докладе она рассказывает как она анлизирует данные. Очень хороший пример, как должен работать BI разработчик или продуктовый аналитик.
Но интересно рассказывают, как смотртят на графики и метрики с применением статистики и базовой математики. Спикер, она же CEO компании, рассказала, что по образованию она историк по теме Восточной Европы 18-19 Века, но ей всегда нравились данные, поэтому она овладела SQL, чтобы не зависить от ИТ, а потом закончила курсы матемитике и алгебры. В докладе она рассказывает как она анлизирует данные. Очень хороший пример, как должен работать BI разработчик или продуктовый аналитик.
YouTube
Data-Driven or Data-Blinded? Uses and Abuses of Analytics in Games
In this 2018 GDC session, Kongregate's Emily Greer exposes common mistakes and pitfalls in data analysis to provide practical guidance on how to improve the rigorousness of your tests and the quality of your data.
Join the GDC mailing list: http://www.g…
Join the GDC mailing list: http://www.g…
Может кто знает ответ https://stackoverflow.com/questions/69007922/process-single-data-set-with-different-json-schema-rows-using-pyspark #pyspark #json #spark
Stack Overflow
Process single data set with different JSON schema rows using Pyspark
I am using PySpark and I need to process the log files that are appended into a single data frame. Most of the columns are look normal, but one of the columns has JSON string in {}. Basically, each...
Delivery Club образовательный. Аналитики сервиса поделились опытом создания мониторинга и системы “near real-time” оповещений для компаний.
Приятный спойлер: супер пригодная фича не только для пользователей, но и для внутренних разрабов. Читаем материал ребят по ссылке и обсуждаем внизу в комментариях.
PS ребята также поддержали фонд.
Приятный спойлер: супер пригодная фича не только для пользователей, но и для внутренних разрабов. Читаем материал ребят по ссылке и обсуждаем внизу в комментариях.
PS ребята также поддержали фонд.
Хабр
Единая система мониторинга и оповещений BI: правда или вымысел?
Привет, Хабр! Мы, Юлия Лузганова HiJulia и Наталия Прудникова balzaant , аналитики в команде Business Intelligence Delivery Club. Наш департамент аналитики стремительно вырос за последние полтора...
Очень хорошая статья про Olap куб. Что это такое. Мне они никогда не нравились, так как я очень рано в своей карьере поработал с продуктами Microsoft SSAS, где нужно строить реальный куб поверх хранилища данных на SQL Server. У куба вместо SQL - MDX, и вообще это другой мир для BI разработчика.
Главный + для куба - прямой коннектор для Excel, и бизнес пользователи могут slice and dice данные и строить кросс таблички. Все работает как часы, да ещё практически бесплатно.
Зато если мы захотим подключить Tableau, тогда появляется куча ограничений и неудобств.
Но это лишь одна сторона слова OLAP. В модуле 6.2 я специально упомянул другие значения слов.
В общем автор круто расписал все значения и рассмотрел история вопроса.
По мне кубы (которые molap с MDX) - зло🤬
Главный + для куба - прямой коннектор для Excel, и бизнес пользователи могут slice and dice данные и строить кросс таблички. Все работает как часы, да ещё практически бесплатно.
Зато если мы захотим подключить Tableau, тогда появляется куча ограничений и неудобств.
Но это лишь одна сторона слова OLAP. В модуле 6.2 я специально упомянул другие значения слов.
В общем автор круто расписал все значения и рассмотрел история вопроса.
По мне кубы (которые molap с MDX) - зло🤬
The Holistics Blog
What is an OLAP Cube? An Exhaustive Explainer
The definitive explainer for OLAP cubes, where we cover every single possible definition for the phrase.
👍1
Tableau (SalesForce купила Lintao). Я знаю Nicolas, так как он согласился выступать на моей Amazon Tableau User Group в 2018году. Он сделал хорошую презентацию про Dashboard best practices и рассказал про свой продукт - Lintao - это был набор шаблонов Табло для индустрий, с метриками и графикими. То есть нам просто надо подключить данные, и почти готовый дашборд. Я даже брал его шаблоны и вставлял в Proposal Rock Your Data. Кто бы мог подумать, что так у него все круто сложится.
В целом все community это очень круто. Всегда помогает расширять кругозор, знакомиться с новыми людьми, и нести пользу людям. Не знаю, почему так мало желающих выступать на datalearn?🙄Это же крутая возможность завявить индустрии о себе и получить опыт.
Кстати, сегодня провел первый Xbox DE Talk, на котором Zenimax (те кто делают Doom и Fallout) рассказывали про их опыт с Databricks и Spark. Из всех студий Xbox было 3 дата инженера + 10 инженеров Zenimax.😣 Пока слабый обмен опытом, это не Амазон с 4000+ человек.
В целом все community это очень круто. Всегда помогает расширять кругозор, знакомиться с новыми людьми, и нести пользу людям. Не знаю, почему так мало желающих выступать на datalearn?🙄Это же крутая возможность завявить индустрии о себе и получить опыт.
Кстати, сегодня провел первый Xbox DE Talk, на котором Zenimax (те кто делают Doom и Fallout) рассказывали про их опыт с Databricks и Spark. Из всех студий Xbox было 3 дата инженера + 10 инженеров Zenimax.😣 Пока слабый обмен опытом, это не Амазон с 4000+ человек.
The-Evolving-Role-of-the-Data-Engineer.pdf
1.8 MB
The Evolving Role of the Data Engineer Change and Continuity
in Data Practices
What’s a data engineer?
And how to be (or hire) a really good one
By some estimates, data engineering comprises 80% to 90% of the work organizations do with data. But the role of data engineer, and even the term itself, is pretty new and evolving rapidly. If you are (or want to be) a data engineer—or you’re responsible for building or managing data teams—this report will clearly explain the role and the skills and best practices you need to be a successful data engineer.
And the best part? It’s free, courtesy of O’Reilly.
in Data Practices
What’s a data engineer?
And how to be (or hire) a really good one
By some estimates, data engineering comprises 80% to 90% of the work organizations do with data. But the role of data engineer, and even the term itself, is pretty new and evolving rapidly. If you are (or want to be) a data engineer—or you’re responsible for building or managing data teams—this report will clearly explain the role and the skills and best practices you need to be a successful data engineer.
And the best part? It’s free, courtesy of O’Reilly.
Forwarded from Reveal the Data
Сегодня вечером собираемся с Димой Аношиным, Анастасией Котовой и Артуром Высоцким поболтать про реалии современного BI: обсудим инструменты и тренды. Митап пройдет в рамках технических дискуссий от проекта Техпора. Не знаю, что из этого получится, но думаю будет интересно услышать разные точки зрения. Если хотите задать вопросы — приходите в 20:30 в трансляцию на Youtube, там же останется и запись.
Описание и программа митапа.
#выстуление
Описание и программа митапа.
#выстуление
Forwarded from Start Career in DS
Напоминаю про сегодняшний вебинар 🙂
Буду рад рассказать полезные штуки и поотвечать на вопросы онлайн!
Бонусом для пришедших будет инсайдерская информация по крутой образовательно-практической программе (в виде стажировки) в крупной российской компании 🙂
Буду рад рассказать полезные штуки и поотвечать на вопросы онлайн!
Бонусом для пришедших будет инсайдерская информация по крутой образовательно-практической программе (в виде стажировки) в крупной российской компании 🙂
Вчера был очень насыщенный день по ивентам, сразу 2.
1. Как подготовиться в первым собесам в DS и найти вакансии? - идеальная информация для начинающего data scientist, полный FAQ по всем вопросам, очень качественно и по делу. Для парктикующих DS может быть полезным тоже.
2. Современный BI - для начинающих BI разработчиков идеально. Для практикующих можно на 2х и останавливаться на интересные моменты. (им не хватает крутых обложек, как Рома рисует для datalearn😜)
1. Как подготовиться в первым собесам в DS и найти вакансии? - идеальная информация для начинающего data scientist, полный FAQ по всем вопросам, очень качественно и по делу. Для парктикующих DS может быть полезным тоже.
2. Современный BI - для начинающих BI разработчиков идеально. Для практикующих можно на 2х и останавливаться на интересные моменты. (им не хватает крутых обложек, как Рома рисует для datalearn😜)
Приготовил презентация по редшифту, опять получился большей контент. Зато будет все и сразу по Редшифту и на русском. Из Википедии узнал что Redshift значит уход (shift) от Oracle (он же красный, red).
А я раньше думал, что это про космос. А так всё верно, сам делал проект rolling stone - миграция всего оракла DW на Redshift.
А я раньше думал, что это про космос. А так всё верно, сам делал проект rolling stone - миграция всего оракла DW на Redshift.
Свежая статья из 2х частей про ELT инструмент DBT (кто не знает, это тулза, чтобы делать трансформации на SQL и запускать по очереди трансформации и отслеживать зависимости). И он есть open source.
PS Если Сергею @erfolg5862 хватит время, он добавит лабу про ELT на DBT к другим лабам редшифт.
PS посмотрел сезон Локи с детьми, как-то не проникся☺️
PS Если Сергею @erfolg5862 хватит время, он добавит лабу про ELT на DBT к другим лабам редшифт.
PS посмотрел сезон Локи с детьми, как-то не проникся☺️
Medium
Building ELT pipelines with dbt. (Part 1)
Data transformation (the ‘T’ in ELT) is often regarded as the easy part, but doing so while ensuring data quality — accurate and updated…
Нужна подсказка зала. Как элегантней всего исользовать Window Function, чтобы получить резульятат как в зеленой колонке.
То есть, у меня есть 2 события action и move. Только у move есть координаты. А action, который следует за move (должен наследовать координаты с последнего move, то есть где находился игрок). Может быть сразу много actions вподряд. В иделе я сделаю на PySpark c withColumn, но можно и с SparkSQL или даже SQL начать.
Я использовал пока lag function и смотрел в прошлую строчку для action и брал значения. Но когда у меня много actions вподряд - это не работает. Можно потом еще чего-нибудь нагородить, чтобы закрыть нули, но межт есть более элегантное решение?
А кейс очень простой и популярны в game: нанести точки на карту, чтобы смотреть поведение игроков на карте - где погибают, где блуждают и тп, чтобы дизайнеры могли улучшить игру.
То есть, у меня есть 2 события action и move. Только у move есть координаты. А action, который следует за move (должен наследовать координаты с последнего move, то есть где находился игрок). Может быть сразу много actions вподряд. В иделе я сделаю на PySpark c withColumn, но можно и с SparkSQL или даже SQL начать.
Я использовал пока lag function и смотрел в прошлую строчку для action и брал значения. Но когда у меня много actions вподряд - это не работает. Можно потом еще чего-нибудь нагородить, чтобы закрыть нули, но межт есть более элегантное решение?
А кейс очень простой и популярны в game: нанести точки на карту, чтобы смотреть поведение игроков на карте - где погибают, где блуждают и тп, чтобы дизайнеры могли улучшить игру.
Forwarded from Data Coffee
Хей-хей, доброе утро, ребята! Надеюсь вы вчера перевернули календарь 🗓 и достаточно нагляделись на костры рябин🔥. Го слушать свежий эпизод подкаста Data Coffee!
У нас в гостях был Паша Финкельштейн из JB, поговорили о Spark, ноутбуках (и их проблемах), и немножко затронули другие data-инструменты.
#datacoffee #data #podcast #данные #подкаст
https://anchor.fm/data-coffee/episodes/15--Spark--Pandas--Scala--Zeppelin-e16r13v
У нас в гостях был Паша Финкельштейн из JB, поговорили о Spark, ноутбуках (и их проблемах), и немножко затронули другие data-инструменты.
#datacoffee #data #podcast #данные #подкаст
https://anchor.fm/data-coffee/episodes/15--Spark--Pandas--Scala--Zeppelin-e16r13v
Spotify for Creators
15. Spark, Pandas, Scala и Zeppelin (гостевой) by Data Coffee
Тема выпуска “Spark, Pandas, Scala и Zeppelin”
В гостях у подкаста `Data Coffee` developer advocate из JetBrains - Паша Финкельштейн (Twitter, LinkedIn, Telegram)
Подкаст `Data Coffee` — информационный партнёр конференции SmartData 2021. SmartData — это большая…
В гостях у подкаста `Data Coffee` developer advocate из JetBrains - Паша Финкельштейн (Twitter, LinkedIn, Telegram)
Подкаст `Data Coffee` — информационный партнёр конференции SmartData 2021. SmartData — это большая…
Forwarded from Reveal the Data
🔉Внимание-внимание! Random Data Stream is Live
Я давно хотел затащить Егора Ларина (известного многим по чату Табло) к себе в подкаст. Мы долго обсуждали с ним как бы сделать это интересным и полезным, а не просто обычные поболтушки. Так родилась идея сделать что-то типа стрима с разработкой дашборда. Егор загорелся этой идей, но мы всё что-то тянули с ней. А вчера поиграли вместе онлайн в плойку и решили, что надо пробовать и не откладывать.
Итого сегодня в 20:00 по МСК стартуем стрим — будем делать рандомный дашборд или что получится, общаться и слушать музыку. Что из этого получиться 🤷♂️. Безумие и отвага! 🤘
#cтрим
Я давно хотел затащить Егора Ларина (известного многим по чату Табло) к себе в подкаст. Мы долго обсуждали с ним как бы сделать это интересным и полезным, а не просто обычные поболтушки. Так родилась идея сделать что-то типа стрима с разработкой дашборда. Егор загорелся этой идей, но мы всё что-то тянули с ней. А вчера поиграли вместе онлайн в плойку и решили, что надо пробовать и не откладывать.
Итого сегодня в 20:00 по МСК стартуем стрим — будем делать рандомный дашборд или что получится, общаться и слушать музыку. Что из этого получиться 🤷♂️. Безумие и отвага! 🤘
#cтрим
⚠️⚠️⚠️На DataLearn Мы решили дать жару и на следующей недели будет 3 вебинара⚠️⚠️⚠️
🔥🔥🔥 1) RoadMap нейронных сетей
(7 сентября 2021 в 20:00 по мск)
📕Описание: Эмиль Богомолов инженер-исследователь научной группы Сколтеха, опытный разработчик машинного обучения. Работа Эмиля связана с компьютерным зрением и он является автором статей на международных конференциях, таких как WACV и CVPR.
В этом вебинаре базируясь на своём опыте расскажет о том, где применяются нейронные сети сегодня и как аналитику данных начать их изучение. Цель вебинара создать roadmap для интересующихся темой.
В конце лекции будет практика, на которой разберем на примере, как обучать нейронную сеть.
🔗 Ссылка: https://youtu.be/cq6dUisDeUU
🔥🔥🔥 2) DataVault / Anchor Modeling
(8 сентября 2021 в 20:00 по мск)
Спикер: Николай Голов
📕Описание: Николай у нас выступал с вебинаром про Snowflake, а теперь расскажет про Data Vault
Кто смотрел курс на Datalearn, тот мог заметить, что мы касались этой темы но не раскрыли ее
🔗Ссылка: https://youtu.be/-ZgzpQXsxi0
🔥🔥🔥 3) Angry Data Scientist - изучаем машинное обучение!
(9 сентября 2021 в 20:00 по мск)
Спикер: Роман Зыков.
📕Описание:
Достала реклама курсов, обещающих светлое будущее и полный кошелек. Давайте поговорим серьезно о изучении машинного обучения, чтобы выйти из хобби в реальную работу, которое приносит настоящую пользу.
Кто помнит Роман уже выступал у нас с вебинаром про data science и он также явлейтся автором бестселлера "Роман с DS", а теперь решил вести у нас рубрику "Злой Датасаинтист". Будет целая серия вебинаров
но как признается сам Роман, посмотрит на сколько его хватит.
🔗 Ссылка: https://youtu.be/DmqGfdQWP94
⚠️Мой коментарий такой: не планируйте на следующую неделю вообще никакие дела, а приходите и впитывайте информацию.
Уникальный контент от очень сильных людей в индустрии.
🔔 Да и подпишитесь на ютуб, чтобы не пропустить, если у вас горит красная кнопка "подписаться" на нашем канале это очень плохо, она должна быть серой :)
И про колоколчик не забываем :) 🔔
🔥🔥🔥 1) RoadMap нейронных сетей
(7 сентября 2021 в 20:00 по мск)
📕Описание: Эмиль Богомолов инженер-исследователь научной группы Сколтеха, опытный разработчик машинного обучения. Работа Эмиля связана с компьютерным зрением и он является автором статей на международных конференциях, таких как WACV и CVPR.
В этом вебинаре базируясь на своём опыте расскажет о том, где применяются нейронные сети сегодня и как аналитику данных начать их изучение. Цель вебинара создать roadmap для интересующихся темой.
В конце лекции будет практика, на которой разберем на примере, как обучать нейронную сеть.
🔗 Ссылка: https://youtu.be/cq6dUisDeUU
🔥🔥🔥 2) DataVault / Anchor Modeling
(8 сентября 2021 в 20:00 по мск)
Спикер: Николай Голов
📕Описание: Николай у нас выступал с вебинаром про Snowflake, а теперь расскажет про Data Vault
Кто смотрел курс на Datalearn, тот мог заметить, что мы касались этой темы но не раскрыли ее
🔗Ссылка: https://youtu.be/-ZgzpQXsxi0
🔥🔥🔥 3) Angry Data Scientist - изучаем машинное обучение!
(9 сентября 2021 в 20:00 по мск)
Спикер: Роман Зыков.
📕Описание:
Достала реклама курсов, обещающих светлое будущее и полный кошелек. Давайте поговорим серьезно о изучении машинного обучения, чтобы выйти из хобби в реальную работу, которое приносит настоящую пользу.
Кто помнит Роман уже выступал у нас с вебинаром про data science и он также явлейтся автором бестселлера "Роман с DS", а теперь решил вести у нас рубрику "Злой Датасаинтист". Будет целая серия вебинаров
но как признается сам Роман, посмотрит на сколько его хватит.
🔗 Ссылка: https://youtu.be/DmqGfdQWP94
⚠️Мой коментарий такой: не планируйте на следующую неделю вообще никакие дела, а приходите и впитывайте информацию.
Уникальный контент от очень сильных людей в индустрии.
🔔 Да и подпишитесь на ютуб, чтобы не пропустить, если у вас горит красная кнопка "подписаться" на нашем канале это очень плохо, она должна быть серой :)
И про колоколчик не забываем :) 🔔
Мы начнем наше погружение в современный мир аналитических хранилищ данных с Amazon Redshift. Этот продукт появился в 2012 году и породил целую индустрию облачных продуктов и решений. Сам по себе Redshift прост и удобен, и если вы в облаке AWS, то скорей всего вы будете использовать Amazon Redshift. Я использовал его много раз на различных проектах в Амазоне и за пределами, и он никогда не подводил. С развитием другой облачной DW, в последние годы, Redshift получил много новых фич, такие как ML, разделение storage&compute, и многое другое.
https://youtu.be/K0TOh-Pl3q0
Из видео вы узнаете:
📌 В чем заключается роль Инженера Данных
📌 В чем заключается роль BI инженера
📌 История Amazon Redshift
📌 S curve в технологическом прогрессе
📌 Решение по аналитики мобильного приложения на Amazon Redshift
📌 Решения миграции с Oracle DW на Amazon Redshift в Амазоне
📌 Дизайн таблиц и оптимизация производительности в Amazon Redshift
📌 Способы загрузки данных в Amazon Redshift (COPY, Bulk Insert, Row Insert)
📌 Работа с ETL или ELT для Amazon Redshift
📌 Утилиты для адмиинстрирования и мониторинга Amazon Redshift
📌 Встроенный ML для Amazon Redshift
📌 Про главный недостаток Amazon Redshift - колличество одновременных сессий
📌 Про Хранилище данных Амазон Алекса и трудности масштабирования
📌 Несколько примеров архитектуры из индустрии
На лабораторной работе вам нужно будет
📌 Создать свой кластер Amazon Redshift
📌 Настроить сетевой доступ к нему и подключиться SQL Client - DBeaver
📌 Сгенерировать данные утилитой TPC, той самой, которую используют для benchmarking все вендоры баз данных
📌 Загрузить данные с использование COPY и манифеста
📌 Оптимизировать таблицы и запросы с использование функционала Redshift - Distribution, Sort, Compression и Encoding
Так же, вы легко можете запустить другую виртуальную мащину и установить на нее Tableau Server и/или ETL решение. Или вы можете подключить свои решения с локальной машины. Вы можете загрузить данные superstore и построить модель данных, как было в модуле 4. Возможности безграничны, все в ваших руках, и главное ничего нового!
PS Redshift spectrum, пока пропустил специально, чтобы не усложнять.
Ссылки и дополнительные материалы к лекции:
- Amazon Redshift Paper
- Статья про S кривую и начало развития индустрии - The Modern Data Stack: Past, Present, and Future
- Статья 2012 года! - Amazon Redshift: новое хранилище данных на петабайты
- Мое выступление про 5 лет в Амазон
- Мое выступление 2018 года - Роль BI-систем и DWH. Архитектура и кейсы
- Amazon Redshift Admin утилиты
-Мой пост про новое поколение Redshift - Meet a new generation of Redshift Data Platform — RA3
- AWS Online Tech Talks - Getting Started with Amazon Redshift - AWS Online Tech Talks
- AWS Redshift Architecture: Clusters & Nodes & Data Apps, oh my
- Гид по параллельному масштабированию Amazon Redshift и результаты тестирования
- Аналитический движок Amazon Redshift + преимущества Облака
- Мое выступление в КРОК - Pizza as a service: как Amazon на Redshift мигрировал
https://youtu.be/K0TOh-Pl3q0
Из видео вы узнаете:
📌 В чем заключается роль Инженера Данных
📌 В чем заключается роль BI инженера
📌 История Amazon Redshift
📌 S curve в технологическом прогрессе
📌 Решение по аналитики мобильного приложения на Amazon Redshift
📌 Решения миграции с Oracle DW на Amazon Redshift в Амазоне
📌 Дизайн таблиц и оптимизация производительности в Amazon Redshift
📌 Способы загрузки данных в Amazon Redshift (COPY, Bulk Insert, Row Insert)
📌 Работа с ETL или ELT для Amazon Redshift
📌 Утилиты для адмиинстрирования и мониторинга Amazon Redshift
📌 Встроенный ML для Amazon Redshift
📌 Про главный недостаток Amazon Redshift - колличество одновременных сессий
📌 Про Хранилище данных Амазон Алекса и трудности масштабирования
📌 Несколько примеров архитектуры из индустрии
На лабораторной работе вам нужно будет
📌 Создать свой кластер Amazon Redshift
📌 Настроить сетевой доступ к нему и подключиться SQL Client - DBeaver
📌 Сгенерировать данные утилитой TPC, той самой, которую используют для benchmarking все вендоры баз данных
📌 Загрузить данные с использование COPY и манифеста
📌 Оптимизировать таблицы и запросы с использование функционала Redshift - Distribution, Sort, Compression и Encoding
Так же, вы легко можете запустить другую виртуальную мащину и установить на нее Tableau Server и/или ETL решение. Или вы можете подключить свои решения с локальной машины. Вы можете загрузить данные superstore и построить модель данных, как было в модуле 4. Возможности безграничны, все в ваших руках, и главное ничего нового!
PS Redshift spectrum, пока пропустил специально, чтобы не усложнять.
Ссылки и дополнительные материалы к лекции:
- Amazon Redshift Paper
- Статья про S кривую и начало развития индустрии - The Modern Data Stack: Past, Present, and Future
- Статья 2012 года! - Amazon Redshift: новое хранилище данных на петабайты
- Мое выступление про 5 лет в Амазон
- Мое выступление 2018 года - Роль BI-систем и DWH. Архитектура и кейсы
- Amazon Redshift Admin утилиты
-Мой пост про новое поколение Redshift - Meet a new generation of Redshift Data Platform — RA3
- AWS Online Tech Talks - Getting Started with Amazon Redshift - AWS Online Tech Talks
- AWS Redshift Architecture: Clusters & Nodes & Data Apps, oh my
- Гид по параллельному масштабированию Amazon Redshift и результаты тестирования
- Аналитический движок Amazon Redshift + преимущества Облака
- Мое выступление в КРОК - Pizza as a service: как Amazon на Redshift мигрировал
👍1