Конференция Microsoft про game development https://developer.microsoft.com/en-us/games/events/game-stack-live/
Для оптимизации запросов через Apache Spark используется система индексации данных hyperspace. Вот описание от Synapse, но там есть ссылка на основной продукт. Используете? #spark
TECHCOMMUNITY.MICROSOFT.COM
Open-sourcing Hyperspace v0.1: An Indexing Subsystem for Apache Spark™
Today, we are making that possible by open-sourcing Hyperspace v0.1 open-sourcing Hyperspace v0.1 – an indexing subsystem for Apache Spark™. Hyperspace is the..
На конференции Microsoft ignite было много новинок, их можно найти в книге.
Microsoft Ignite 2021 Book of News
The Book of News is a guide to all the announcements made during Microsoft Ignite, March 2 - 4, 2021.
Анастасия Дробышева записала новое видео для своего курса:
Курс "Поиск работы для аналитических специальностей в России и за рубежом". Модуль JH 1-4. Стратегия поиска работы. Профессиональное ценностное предложение (PVP)
Что обсуждаем в этом видео:
- зачем PVP и где его применять;
- 3 шага для формулировки PVP;
- 2 примера PVP для аналитика данных и продуктового аналитика.
Шаблон PVP на русском:
Я ____ специалист с опытом в ____ (индустрия/ продукт). Мои сильные стороны - это ____, ___ и ___. Мои достижения/ примеры проектов: _____. Я буду рад(а) применить свои знания в качестве ______ (название должности) в ____ (индустрия/ компания).
Шаблон PVP на английском:
I am a ________________ professional specialising in ________________ . My strengths
include ________________ and ________________ . I have achieved ________________
and ________________ and am excited about ________________ in my next role.
Курс "Поиск работы для аналитических специальностей в России и за рубежом". Модуль JH 1-4. Стратегия поиска работы. Профессиональное ценностное предложение (PVP)
Что обсуждаем в этом видео:
- зачем PVP и где его применять;
- 3 шага для формулировки PVP;
- 2 примера PVP для аналитика данных и продуктового аналитика.
Шаблон PVP на русском:
Я ____ специалист с опытом в ____ (индустрия/ продукт). Мои сильные стороны - это ____, ___ и ___. Мои достижения/ примеры проектов: _____. Я буду рад(а) применить свои знания в качестве ______ (название должности) в ____ (индустрия/ компания).
Шаблон PVP на английском:
I am a ________________ professional specialising in ________________ . My strengths
include ________________ and ________________ . I have achieved ________________
and ________________ and am excited about ________________ in my next role.
YouTube
DATALEARN | JOB HUNTING - 101 | АНАСТАСИЯ ДРОБЫШЕВА | УРОК 1-4 | PVP
Курс "Поиск работы для аналитических специальностей в России и за рубежом". Модуль JH 1-4. Стратегия поиска работы. Профессиональное ценностное предложение (PVP)
Что обсуждаем в этом видео:
- зачем PVP и где его применять;
- 3 шага для формулировки PVP;…
Что обсуждаем в этом видео:
- зачем PVP и где его применять;
- 3 шага для формулировки PVP;…
This media is not supported in your browser
VIEW IN TELEGRAM
Open sourcing Querybook (Pinterest’s collaborative big data hub) (https://medium.com/pinterest-engineering/open-sourcing-querybook-pinterests-collaborative-big-data-hub-ba2605558883)
We started to interview data scientists and engineers about their workflows while scoping out technical details. Shortly, we realized most were organizing their queries outside of the official tool, and many used apps like Evernote. Although Jupyter had a notebook user experience, its requirement to use Python/R and the lack of table metadata integration deterred many users. Based on this finding, our team decided Querybook’s query interface would be a document where users can compose queries and write analyses all in one place with the power of collocated metadata and the simplicity of a note-taking app.
We started to interview data scientists and engineers about their workflows while scoping out technical details. Shortly, we realized most were organizing their queries outside of the official tool, and many used apps like Evernote. Although Jupyter had a notebook user experience, its requirement to use Python/R and the lack of table metadata integration deterred many users. Based on this finding, our team decided Querybook’s query interface would be a document where users can compose queries and write analyses all in one place with the power of collocated metadata and the simplicity of a note-taking app.
В этом блоге очень классные рисунки и все по делу написано про основы основ https://luminousmen.com/post/cap-and-pacelc-theorems-in-plain-english
Forwarded from Без шелухи
📈 Руководство по визуализации данных
Ребята из Германии сделали классное руководство по визуализации данных и открыли его под лицензией Creative Commons.
А чтобы никто не догадался и не оценил их труд — назвали максимально непонятно и спрятали на сайте в слабочитаемом виде.
Но я все равно нашел!
Поэтому теперь у вас есть бесплатная книга по визуальному представлению данных для отчетов и дашбордов. Подробная (150 страниц) и практическая (197 иллюстраций). В вебе, epub и pdf:
https://antonz.ru/dataviz-guide/
Ребята из Германии сделали классное руководство по визуализации данных и открыли его под лицензией Creative Commons.
А чтобы никто не догадался и не оценил их труд — назвали максимально непонятно и спрятали на сайте в слабочитаемом виде.
Но я все равно нашел!
Поэтому теперь у вас есть бесплатная книга по визуальному представлению данных для отчетов и дашбордов. Подробная (150 страниц) и практическая (197 иллюстраций). В вебе, epub и pdf:
https://antonz.ru/dataviz-guide/
Lakehouse = data warehouse + data lake. То есть берём лучшее, что есть у обоих подходов и получаем домик у озера))
Пример коммерческих решений snowflake, synapse analytics, databricks.
https://medium.com/snowflake/selling-the-data-lakehouse-a9f25f67c906
Пример коммерческих решений snowflake, synapse analytics, databricks.
https://medium.com/snowflake/selling-the-data-lakehouse-a9f25f67c906
Medium
Selling the Data Lakehouse for a Data Cloud
The recent craze around the data lakehouse seems to me like much ado about nothing.
Ещё один студент #datalearn нашел работу. До этого у него был небольшой опыт с Экселем и данным. Он работал с маркетинговыми кампаниями. Из 12 собеседований он получил 4 оффера. Я очень рад за человека, которые поставил цель и добился, даже несмотря на первоначальные неудачи и провалы. Вот его словами:
Дима, привет! Хочу выразить благодарность тебе и всему сообществу даталерн! Почти месяц прошёл с тех пор, как я на новой работе. Работа нравится, связана с обработкой и хранением данных, как я и хотел изначально. По ЗП тоже не обидели.
Но не скажу, что это было легко :) Кучу нового пришлось изучить, а еще больше приходится изучать уже на работе) Но, как говорится, дорогу осилит идущий.
Записался на курс одним из первых, когда он только стартовал в июне или конце мая, точно не помню. Скорее так, для общего развития. Про sql если что-то и знал, то это select звездочка. Слова data warehouse, кимболл, звезда - все это звучало для меня, как клингонский.
Но потом ничего, втянулся. Ты понятно объясняешь и самое главное дал мне понимание всей картины, как это работает вместе. Кто есть кто в команде по работе с данными и зачем вообще это нужно.
По отдельным инструментам вроде sql, tableau , bash и питона я уже отдельные курсы гуглил и их проходил, благо их навалом.
Оглядываясь назад, дал бы себе следующие советы
1. Выбрать что тебе ближе bi, data engineer, аналитика данных, data science и. т. д и сфокусироваться на этом.
2. Чем раньше начнешь ходить на собесы, тем лучше. Быстрее поймешь чего не хватает, правильнее расставишь приоритеты в обучении. Мысли вроде, да я ещё подтяну это или то, тогда начну ходить - это все отмазки мозга, чтобы не вылазить из зоны комфорта. Идеального момента никогда не будет, всегда будет чего то не хватать. Еще и забудете, что учили ранее.
3. Любая информация забывается, если её не повторять и нигде не использовать.
Я три раза курсы по базовому sql проходил. Три раза за неполный год Карл! А потому что на старой работе он был не нужен, а перечитывать теорию мне было лень. Только, когда начал пилить свои пет проекты, где использовал sql и складывал их на гитхаб, тогда в памяти начало что-то откладываться. Отсюда ещё одна рекомендация
4. Заведите репозиторий на гитхабе и скидывайте туда свои проекты. Или дашборды в табло паблик, смотря чем решили заняться. Прошли курс- сделали проект. Так и в памяти лучше отложится и на собеседовании можно показать. И на работе пригодится, если попадется похожая задача, то сэкономите время, будете хоть понимать куда копать
Дима, привет! Хочу выразить благодарность тебе и всему сообществу даталерн! Почти месяц прошёл с тех пор, как я на новой работе. Работа нравится, связана с обработкой и хранением данных, как я и хотел изначально. По ЗП тоже не обидели.
Но не скажу, что это было легко :) Кучу нового пришлось изучить, а еще больше приходится изучать уже на работе) Но, как говорится, дорогу осилит идущий.
Записался на курс одним из первых, когда он только стартовал в июне или конце мая, точно не помню. Скорее так, для общего развития. Про sql если что-то и знал, то это select звездочка. Слова data warehouse, кимболл, звезда - все это звучало для меня, как клингонский.
Но потом ничего, втянулся. Ты понятно объясняешь и самое главное дал мне понимание всей картины, как это работает вместе. Кто есть кто в команде по работе с данными и зачем вообще это нужно.
По отдельным инструментам вроде sql, tableau , bash и питона я уже отдельные курсы гуглил и их проходил, благо их навалом.
Оглядываясь назад, дал бы себе следующие советы
1. Выбрать что тебе ближе bi, data engineer, аналитика данных, data science и. т. д и сфокусироваться на этом.
2. Чем раньше начнешь ходить на собесы, тем лучше. Быстрее поймешь чего не хватает, правильнее расставишь приоритеты в обучении. Мысли вроде, да я ещё подтяну это или то, тогда начну ходить - это все отмазки мозга, чтобы не вылазить из зоны комфорта. Идеального момента никогда не будет, всегда будет чего то не хватать. Еще и забудете, что учили ранее.
3. Любая информация забывается, если её не повторять и нигде не использовать.
Я три раза курсы по базовому sql проходил. Три раза за неполный год Карл! А потому что на старой работе он был не нужен, а перечитывать теорию мне было лень. Только, когда начал пилить свои пет проекты, где использовал sql и складывал их на гитхаб, тогда в памяти начало что-то откладываться. Отсюда ещё одна рекомендация
4. Заведите репозиторий на гитхабе и скидывайте туда свои проекты. Или дашборды в табло паблик, смотря чем решили заняться. Прошли курс- сделали проект. Так и в памяти лучше отложится и на собеседовании можно показать. И на работе пригодится, если попадется похожая задача, то сэкономите время, будете хоть понимать куда копать
Интересные новости, к вопросу жив Hadoop или мертв🤞
Apache Foundation объявила, что 19 продуктов идут на пенсию, 11 из которых big data штуки.
Конечно концепты Hadoop важны и применяются по сей день, но уже не в первоначальном виде.
https://www.zdnet.com/article/apache-software-foundation-retires-slew-of-hadoop-related-projects/
Apache Foundation объявила, что 19 продуктов идут на пенсию, 11 из которых big data штуки.
Конечно концепты Hadoop важны и применяются по сей день, но уже не в первоначальном виде.
https://www.zdnet.com/article/apache-software-foundation-retires-slew-of-hadoop-related-projects/
ZDNET
Apache Software Foundation retires slew of Hadoop-related projects
Retirements of 13 big data-related Apache projects -- including Sentry, Tajo and Falcon -- have been announced in 11 days. It looks like the idealistic days of Hadoop and big data are officially over.
У #datalearn ,есть небольшое сообщество девушек. Недавно они взяли интересное интервью с Ксенией Певзнер, она - руководитель по маркетинговой аналитике самого крупного российского легального онлайн кинотеатра “Окко”
https://youtu.be/jOQXozaOYuo
Беседа об аналитике, жизненном пути, необходимых компетенциях и многом другом.
https://youtu.be/jOQXozaOYuo
Беседа об аналитике, жизненном пути, необходимых компетенциях и многом другом.
YouTube
DATALEARN | ИНТЕРВЬЮ С КСЕНИЕЙ ПЕВЗНЕР, РУКОВОДИТЕЛЬ МАРКЕТИНГОВОЙ АНАЛИТИКИ ОНЛАЙН КИНОТЕАТРА ОККО
🔥 Интервью руководителя по маркетинговой аналитике самого крупного российского легального онлайн кинотеатра “Окко” Ксении Певзнер каналу DataLearn. Беседа об аналитике, жизненном пути, необходимых компетенциях и многом другом.
👍🏻Интервью провела куратор…
👍🏻Интервью провела куратор…
Небольшой ролик про AWS use cases для спутников. Отличная идея для стартапа - аналитика спутниковых данных. А то все маркетинговые кампании анализируем))
YouTube
AWS for Aerospace and Satellite
Be inspired. Follow pioneer astronaut Peggy Whitson as she gains first-hand insights from Major Gen. Clint Crosier (Ret.) on how AWS helps space customers take research and discovery to the next level. Explore how NASA’s Mars Mission, Maxar Technologies,…
Новая книжка с хорошим названием, а про контент не знаю... https://www.amazon.co.uk/dp/1781335214/ref=cm_sw_r_cp_awdb_imm_7PVA8KR6F625WZMMSHWB
Cheetsheet по delta lake https://github.com/delta-io/delta/blob/master/examples/cheat_sheet/delta_lake_cheat_sheet.pdf
GitHub
delta/examples/cheat_sheet/delta_lake_cheat_sheet.pdf at master · delta-io/delta
An open-source storage framework that enables building a Lakehouse architecture with compute engines including Spark, PrestoDB, Flink, Trino, and Hive and APIs - delta-io/delta
Вопрос для тех кто использует Delta Lake:
1) Почему вы используете Delta Lake, а не хранилище данных?
2) Какие Инструменты вы используете?
3) Используете ли вы external metastore или по умолчанию (internal)?
4) Используете ли Streaming для Delta Lake?
Вот мои ответы:
1) Я использую delta lake, потому что хочу лучше разобрать в этом подходе и заодно Python и Spark подтянуть. Мог бы обойтись и традиционным хранилищем на Azure.
2) 4 месяца использовал Databricks. Очень классный продукт. К сожалению, перешел на Azure Synapse Analytics. Пытаюсь понять насколько сильно этот продукт отстает и как дальше жить:)
3) В Databricks и HDInsight я использовал external megastore, так как это позволяет разделить на элементы, и я могу создавать back up metastore, могу один и тот же metastore использовать для HDInsight и Databricks. В общем очень удобно. Если удалю computing resources, мой metastore останется неизменным.
4) Была надежда использовать Streaming для Databricks. Synapse не поддерживает.
Интересно послушать про ваш опыт с Delta Lake.
PS Если посмотреть на продукты Microsoft, то как правило это mass market - SQL Server, Power BI. То есть огромное количество пользователей. Часто сами инструменты не самые лучшие, но темнеменее по кол-ву пользователей всех обходят. Сам факт, что в Synapse Analytics есть одновременно возможность писать SQL и использовать Spark в notebooks, говорит мне о том, что теперь минимальная планка для человека, работающего с данными не только знание SQL, но и знание Spark и языка для манипуляции данных Python, Spark.
1) Почему вы используете Delta Lake, а не хранилище данных?
2) Какие Инструменты вы используете?
3) Используете ли вы external metastore или по умолчанию (internal)?
4) Используете ли Streaming для Delta Lake?
Вот мои ответы:
1) Я использую delta lake, потому что хочу лучше разобрать в этом подходе и заодно Python и Spark подтянуть. Мог бы обойтись и традиционным хранилищем на Azure.
2) 4 месяца использовал Databricks. Очень классный продукт. К сожалению, перешел на Azure Synapse Analytics. Пытаюсь понять насколько сильно этот продукт отстает и как дальше жить:)
3) В Databricks и HDInsight я использовал external megastore, так как это позволяет разделить на элементы, и я могу создавать back up metastore, могу один и тот же metastore использовать для HDInsight и Databricks. В общем очень удобно. Если удалю computing resources, мой metastore останется неизменным.
4) Была надежда использовать Streaming для Databricks. Synapse не поддерживает.
Интересно послушать про ваш опыт с Delta Lake.
PS Если посмотреть на продукты Microsoft, то как правило это mass market - SQL Server, Power BI. То есть огромное количество пользователей. Часто сами инструменты не самые лучшие, но темнеменее по кол-ву пользователей всех обходят. Сам факт, что в Synapse Analytics есть одновременно возможность писать SQL и использовать Spark в notebooks, говорит мне о том, что теперь минимальная планка для человека, работающего с данными не только знание SQL, но и знание Spark и языка для манипуляции данных Python, Spark.
Forwarded from Reveal the Data
Давно хотел написать про стандарт IBCS, а тут выдался отличный повод — Антон Жиянов cделал удобную pdf версию этого стандарта. Антон, большое спасибо!
Описал в статье, что я думаю по поводу этого стандарта: выделил основные идеи, которые мне запомнились, и привёл примеры его реализации в Tableau и Power BI. В целом, очень рекомендую читать этот стандарт, но некоторые вещи применять с осторожностью.
Я с Data Yoga, кстати, тоже делал темплейт в Табло для проекта ВизСтандарт. Узнал, что его даже применяют другие компании. Ещё вспомнился вот этот пост, про систему близкую по духу и стилю к IBCS.
#статья
Описал в статье, что я думаю по поводу этого стандарта: выделил основные идеи, которые мне запомнились, и привёл примеры его реализации в Tableau и Power BI. В целом, очень рекомендую читать этот стандарт, но некоторые вещи применять с осторожностью.
Я с Data Yoga, кстати, тоже делал темплейт в Табло для проекта ВизСтандарт. Узнал, что его даже применяют другие компании. Ещё вспомнился вот этот пост, про систему близкую по духу и стилю к IBCS.
#статья