Прямо сейчас начинается вебинар https://youtu.be/72mRlugPKNI
YouTube
SQL В АНАЛИЗЕ ДАННЫХ РЕШАЕМ ПРИКЛАДНУЮ ЗАДАЧУ / ЕВГЕНИЙ КУДАШЕВ
Разберем полный цикл задачи в анализе данных на примере RFM сегментации. Построим простое решение с помощью SPARK SQL на базе databricks community edition и построим дашборд с результатами в Tableau public.
Ссылка на материалы в видео и презентацию:
http…
Ссылка на материалы в видео и презентацию:
http…
Все слышали про Boston Dynamics. Их покупает хендай, интересно, что они будут делать с ними.
The Robot Report
Hyundai to acquire Boston Dynamics for nearly $1B
According to a report from The Korea Economic Daily, Hyundai Motor will acquire Boston Dynamics for $921 million (1 trillion won).
Статья про история Olap кубов. Самые популярные кубы, которые лосих пор в ходу это Microsoft Analyses Services. Да и те переключились с Multidimensional Model в Tabular Model. Лично я их не люблю, потому что, это дополнительный слой в аналитическом решении между хранилищем и BI. Но есть ребята, кто так лихо ими умеют пользоваться и подключают готовый куб к Excel, что не подкопаешься, и бизнес пользователи довольны, ведь пользуются Excel☺️
Современные аналитические хранилища, тем более облачные, должны и без кубов справляться со своей работой. Но как я понимаю, еще много вакансий в России, где есть SQL Server + SSAS, и там нужно знать этот инструмент. Но мне повезло, работал с ними немного.
Современные аналитические хранилища, тем более облачные, должны и без кубов справляться со своей работой. Но как я понимаю, еще много вакансий в России, где есть SQL Server + SSAS, и там нужно знать этот инструмент. Но мне повезло, работал с ними немного.
The Holistics Blog
The Rise and Fall of the OLAP Cube
A definitive history of the rise of the OLAP cube, how it's affected our industry, and what comes after.
Карьера в Аналитике.pdf
8.4 MB
Вчерашняя презентация для студентов.
Я же теперь в игровой индустрии, оказывается сегодня была Game Awards 2020.
YouTube
The Game Awards 2020 Official Stream (4K) - Video Game's Biggest Night Live!
Video game's biggest night is LIVE on YouTube in 4K. With appearances by Keanu Reeves, Christopher Nolan, Gal Gadot, Tom Holland, Brie Larson, Reggie Fils-Aime, The Muppets, Stephen A. Smith, Nolan North, Troy Baker and more!
Plus performances by Eddie Vedder…
Plus performances by Eddie Vedder…
Forwarded from LEFT JOIN
Конференция Coalesce от dbt: что посмотреть?
С 7 по 11 декабря проходила конференция Coalesce, о которой я рассказывал ранее. В этом году все организаторы решили проводить конференции по 5 дней с кучей докладов.
С одной стороны это плюс — ощущение, что информации много и можно выбрать, что интересно. С другой стороны такое количество информации несколько изматывает, потому что часто по названию доклада не очень понятно насколько он окажется полезным и интересным. Мне все же кажется, что более трех дней для конференции это много, т.к. интерес аудитории теряется, да и необходимость заниматься своими личными и профессиональными делами не может испариться из-за события, которое хоть и в онлайне, но занимает твое внимание.
Однако мне удалось посмотреть большую часть докладов, кое-что пролистывая. Для начала коротко в целом о впечатлениях: очень круто изучать доклады с подобной конференции как Coalesce, потому что речь идет в основном о современных инструментах и облачных решениях. Почти в каждом докладе можно услышать про Redshift / BigQuery / Snowflake, а с точки зрения BI: Mode / Tableau / Looker / Metabase. В центре всего, разумеется, dbt.
Мой шорт-лист докладов, которые рекомендую изучить:
* dbt 101 — вводный доклад и интро в то, что такое dbt и как его используют
* Kimball in the context of the modern data warehouse: what's worth keeping, and what's not — интересный и очень-очень спорный доклад, который вызвал массу вопросов в slack dbt. В кратце, автор предлагает перейти на "широкие" аналитические таблицы и отказаться от нормальных форм всюду.
* Building a robust data pipeline with dbt, Airflow, and Great Expectations — в докладе про небезынтересный инструмент greatexpectations, суть которого в валидации данных
* Orchestrating dbt with Dagster — мне было несколько скучновато слушать, но если хочется познакомиться с Dagster - самое то
* Supercharging your data team — ребята сделали обертку к dbt, назвали dbt executor 9000 и рассказывают о нем
* Presenting: SQLFluff — про очень классную штуку SQLFluff, которая автоматически редактирует SQL-код согласно канонам
* Quickstart your analytics with Fivetran dbt packages— из доклада можно узнать, что такое Fivetran и как его используют совместно с dbt
* Perfect complements: Using dbt with Looker for effective data governance — про взаимодействие dbt и looker, про различия и схожие части инструментов
@leftjoin
С 7 по 11 декабря проходила конференция Coalesce, о которой я рассказывал ранее. В этом году все организаторы решили проводить конференции по 5 дней с кучей докладов.
С одной стороны это плюс — ощущение, что информации много и можно выбрать, что интересно. С другой стороны такое количество информации несколько изматывает, потому что часто по названию доклада не очень понятно насколько он окажется полезным и интересным. Мне все же кажется, что более трех дней для конференции это много, т.к. интерес аудитории теряется, да и необходимость заниматься своими личными и профессиональными делами не может испариться из-за события, которое хоть и в онлайне, но занимает твое внимание.
Однако мне удалось посмотреть большую часть докладов, кое-что пролистывая. Для начала коротко в целом о впечатлениях: очень круто изучать доклады с подобной конференции как Coalesce, потому что речь идет в основном о современных инструментах и облачных решениях. Почти в каждом докладе можно услышать про Redshift / BigQuery / Snowflake, а с точки зрения BI: Mode / Tableau / Looker / Metabase. В центре всего, разумеется, dbt.
Мой шорт-лист докладов, которые рекомендую изучить:
* dbt 101 — вводный доклад и интро в то, что такое dbt и как его используют
* Kimball in the context of the modern data warehouse: what's worth keeping, and what's not — интересный и очень-очень спорный доклад, который вызвал массу вопросов в slack dbt. В кратце, автор предлагает перейти на "широкие" аналитические таблицы и отказаться от нормальных форм всюду.
* Building a robust data pipeline with dbt, Airflow, and Great Expectations — в докладе про небезынтересный инструмент greatexpectations, суть которого в валидации данных
* Orchestrating dbt with Dagster — мне было несколько скучновато слушать, но если хочется познакомиться с Dagster - самое то
* Supercharging your data team — ребята сделали обертку к dbt, назвали dbt executor 9000 и рассказывают о нем
* Presenting: SQLFluff — про очень классную штуку SQLFluff, которая автоматически редактирует SQL-код согласно канонам
* Quickstart your analytics with Fivetran dbt packages— из доклада можно узнать, что такое Fivetran и как его используют совместно с dbt
* Perfect complements: Using dbt with Looker for effective data governance — про взаимодействие dbt и looker, про различия и схожие части инструментов
@leftjoin
Getdbt
Coalesce Conference | Crafted by dbt Labs
Join dbt Labs and thousands of analytics professionals at our premier data conference Coalesce 2023.
Coral is a library for analyzing, processing, and rewriting views defined in the #Hive Metastore, and sharing them across multiple execution engines 💯💯💯
Coral not only translates view definitions between different SQL/non-SQL dialects, but also rewrites expressions to produce semantically equivalent ones, taking into account the semantics of the target language or engin
Coral consists of following modules:
✔️Coral-Hive: Converts definitions of Hive views with UDFs to equivalent view logical plan.
✔️Coral-Presto: Converts view logical plan to #Presto SQL.
✔️Coral-Spark: Converts view logical plan to #apachespark #SQL.
✔️Coral-Pig: Converts view logical plan to Pig-latin.
✔️Coral-Schema: Derives #Avro schema of view using view logical plan and input Avro schemas of base tables.
✔️Coral-Spark-Plan: Converts Spark plan strings to equivalent logical plan
https://engineering.linkedin.com/blog/2020/coral
Coral not only translates view definitions between different SQL/non-SQL dialects, but also rewrites expressions to produce semantically equivalent ones, taking into account the semantics of the target language or engin
Coral consists of following modules:
✔️Coral-Hive: Converts definitions of Hive views with UDFs to equivalent view logical plan.
✔️Coral-Presto: Converts view logical plan to #Presto SQL.
✔️Coral-Spark: Converts view logical plan to #apachespark #SQL.
✔️Coral-Pig: Converts view logical plan to Pig-latin.
✔️Coral-Schema: Derives #Avro schema of view using view logical plan and input Avro schemas of base tables.
✔️Coral-Spark-Plan: Converts Spark plan strings to equivalent logical plan
https://engineering.linkedin.com/blog/2020/coral
Интересный обзор решений для аналитики и их ценообразование в статье “The Two Philosophies of Cost in Data Analytics”
Dask is a free and open-source library for parallel computing in Python. Dask helps you scale your data science and machine learning workflows. Dask makes it easy to work with Numpy, pandas, and Scikit-Learn, but that’s just the beginning. Dask is a framework to build distributed applications that has since been used with dozens of other systems like XGBoost, PyTorch, Prefect, Airflow, RAPIDS, and more. It’s a full distributed computing toolbox that fits comfortably in your hand.
www.coiled.io
What is Dask?
Dask is a free and open-source library for parallel computing in Python. Dask helps you scale your data science and machine learning workflows. Dask makes it easy to work with Numpy, pandas, and Scikit-Learn, but that's just the beginning.
AWS берет пример с datalearn и учит всех бесплатно. шучу конечно, это борьба за рынок.
IT PRO
AWS to offer free cloud training to 29 million people | IT PRO
Global initiative unveiled at re:Invent will aim to bridge the skills gap highlighted by COVID-19
Самое сложно при построении аналитического решения, это не построить решение, а сделать так, чтобы его использовали. Можно наделать много дашбордов, моделей и витрин данных, но никто не будет их использовать.
Когда мы, что-то строим, мы думаем - “какая полезная информация, как она будет полезна бизнесу”. Но это лишь у нас в голове. Это называется bias, мы рисуем оптимистичную картинку. Но я не про bias, сейчас, хотя считаю, что знание типов bias и вообще, что это такое, это очень важно. Про это хорошо написано в книге “Думай медленно, решай быстро”.
Пост, про необходимость использовании метаданных о данных или по простому - Data /Bi/Analytics portal. То есть это место, куда может зайти бизнес пользователь, и ввести в поисковой строке название показателя или измерения и найти, нужный отчет или таблицу + логику трансформаций. А если в компании (крупной) используются многие решения, то нужно сделать универсальный портал, а это уже как отдельный проект. Самый главный критерий здесь - это избежать ручной работы - Copy Paste. Так как все очень быстро устаревает.
В комментариях люди могут поделиться про свои успешные или неуспешные кейсы.
А вот от взрослых компаний:
Democratizing Data at Airbnb
Metacat: Making Big Data Discoverable and Meaningful at Netflix
Databook: Turning Big Data into Knowledge with Metadata at Uber
Turning Metadata Into Insights with Databook
DataHub: Popular metadata architectures explained
The journey of metadata at PayPal
Nemo: Data discovery at Facebook
Когда мы, что-то строим, мы думаем - “какая полезная информация, как она будет полезна бизнесу”. Но это лишь у нас в голове. Это называется bias, мы рисуем оптимистичную картинку. Но я не про bias, сейчас, хотя считаю, что знание типов bias и вообще, что это такое, это очень важно. Про это хорошо написано в книге “Думай медленно, решай быстро”.
Пост, про необходимость использовании метаданных о данных или по простому - Data /Bi/Analytics portal. То есть это место, куда может зайти бизнес пользователь, и ввести в поисковой строке название показателя или измерения и найти, нужный отчет или таблицу + логику трансформаций. А если в компании (крупной) используются многие решения, то нужно сделать универсальный портал, а это уже как отдельный проект. Самый главный критерий здесь - это избежать ручной работы - Copy Paste. Так как все очень быстро устаревает.
В комментариях люди могут поделиться про свои успешные или неуспешные кейсы.
А вот от взрослых компаний:
Democratizing Data at Airbnb
Metacat: Making Big Data Discoverable and Meaningful at Netflix
Databook: Turning Big Data into Knowledge with Metadata at Uber
Turning Metadata Into Insights with Databook
DataHub: Popular metadata architectures explained
The journey of metadata at PayPal
Nemo: Data discovery at Facebook
dmitrovsky.mskobr.ru
ГБОУ Школа "Дмитровский", Москва
Добро пожаловать в Государственное бюджетное общеобразовательное учреждение города Москвы "Школа "Дмитровский" имени Героя Советского Союза В.П. Кислякова"
Блог про построение ананалического решения на google cloud.
Pythian
Dipping Your Toes Into Building an Analytics Platform on Google Cloud Platform
“We have many disparate data sources and we’re having a hard time getting a global view of all our data across our organization.” “Our data is currently al
Все привет, недавно познакомился с Машей, она ведёт авторский канал телеграм-канал о Python!
В нем:
🔺 топ ошибок новичков,
🔺 лайфхаки и трюки,
🔺 красивый код,
🔺 разбор вопросов с собеседований,
Тем, кто хочет понимать, что пишет: @python_in_depth
Как вы знает Python - это важный элемент для продвинутой аналитики данных, поэтому если вы используете его в работе или учитесь, то возможно будет интересно.
В нем:
🔺 топ ошибок новичков,
🔺 лайфхаки и трюки,
🔺 красивый код,
🔺 разбор вопросов с собеседований,
Тем, кто хочет понимать, что пишет: @python_in_depth
Как вы знает Python - это важный элемент для продвинутой аналитики данных, поэтому если вы используете его в работе или учитесь, то возможно будет интересно.
Telegram
PYTHON IN DEPTH🐍
ПАЙ8
Амазон Редшифт встал как кость поперек горла у основателя Оракл, и при любой возможности, он не упускает возможности про это сказать. Обиделся, что потерял самого жирного клиента в лице Амазон. Вот теперь говорит, что snowflake погубит Redshift. И это действительно так, redshift 2015 года уже давно не конкурент, а вот современный redshift с нодами RA3 (где уже разделение storage и compute и можно хранить вроде 10Pb) серьезный конкурент. Так что благодаря Snowflake, у нас довольно крутой Redshift сейчас и даже data sharing есть, осталось time travel. И у АWS огромные ресурсы сделать его ещё лучше. Они это делают медленно, чтобы у текущих клиентов ничего не сломалось. Azure только недавно выпустил Azure Synapse, сам CEO Microsoft рассказывал про него. А у Microsoft клиентов куры не клюют... В общем, snowflake как явление и продукт это круто. Я, например, не хочу snowflake, это слишком просто будет, лучше помучаться с delta lake от Databricks.
Книга по data science. Согласно описанию совсем введение дают. A concise introduction to the emerging field of data science, explaining its evolution, relation to machine learning, current uses, data infrastructure issues, and ethical challenges.
MIT Press
Data Science
A concise introduction to the emerging field of data science, explaining its evolution, relation to machine learning, current uses, data infrastructure issue...
Вы слышали про Саббатикалы? Вот и я нет. Оказывается это крутая тема, вопрос как ее провернуть.
Sabbaticals - a period of paid leave granted to a university teacher or other worker for study or travel, traditionally one year for every seven years worked.
В этом блоге хорошо про это рассказано. Идея в том, чтобы каждые 5-7 лет брать отпуск на год, чтобы позаниматься чем-то другим. Идея тяжелой работы не все нравится, и у некоторых хватает смелости уйти с работы на год и провести время с семьей, научиться готовить или путешествовать (термин популярный до covid).
В общем знайте, что есть такая возможность, и где-то после 30 - это хорошая идея одолжить годик от пенсии и провести его так как нравиться.
PS я пока не могу себе позволить такую роскошь🙄 а как хотелось бы))
А еще цитата понравилась - “They say that Amazon years are like dog years and I definitely feel that because I am burnt out. “ Амазон он такой😑
Вот еще - “Emails, even urgent work emails, can wait for 3/4 hours. If something is that urgent they can call me my phone (If I work for someone that can't tolerate waiting for 4 hours for me to get back to them, they can suck my d*** and find another employee)” Я вообще уже забил на email рабочий и свой, проверяю иногда))
Sabbaticals - a period of paid leave granted to a university teacher or other worker for study or travel, traditionally one year for every seven years worked.
В этом блоге хорошо про это рассказано. Идея в том, чтобы каждые 5-7 лет брать отпуск на год, чтобы позаниматься чем-то другим. Идея тяжелой работы не все нравится, и у некоторых хватает смелости уйти с работы на год и провести время с семьей, научиться готовить или путешествовать (термин популярный до covid).
В общем знайте, что есть такая возможность, и где-то после 30 - это хорошая идея одолжить годик от пенсии и провести его так как нравиться.
PS я пока не могу себе позволить такую роскошь🙄 а как хотелось бы))
А еще цитата понравилась - “They say that Amazon years are like dog years and I definitely feel that because I am burnt out. “ Амазон он такой😑
Вот еще - “Emails, even urgent work emails, can wait for 3/4 hours. If something is that urgent they can call me my phone (If I work for someone that can't tolerate waiting for 4 hours for me to get back to them, they can suck my d*** and find another employee)” Я вообще уже забил на email рабочий и свой, проверяю иногда))
Evernote
Dreams of Sabbaticals
Dreams of Sabbaticals Sharbani and I have an aspiration/desire/dream of taking a sabbatical every 5 years to spend time with family, to travel, to learn new skills, to disconnect, and take advantage o...