Согласно исследованию 2020 - Brown, Anicich & Galinskya - Compensatory conspicuous communication: Low status increases jargon use, ученые, которые используют много жаргона чувствуют себя неуверенно и пытаются компенсировать незнание/непонимание жаргонными словечками.
Я кстати совсем перестал пытаться использовать модные слова в моей тематике, чем проще и понятней тем лучше, а вот лет 5 назад, очень даже старался быть в тренде.
Я кстати совсем перестал пытаться использовать модные слова в моей тематике, чем проще и понятней тем лучше, а вот лет 5 назад, очень даже старался быть в тренде.
Методология и практика нагрузочного тестирования. Опыт Miro
Интересно можно применять нагрузочное тестировае в инжиниринге данных. С играми особенно, пока делаем новую игру, данных килобайты. В бето тестировании - мегабайты. А в день запуска это как Amazon prime day, пик нагрузки максимальный, то есть к вопросу того же размера кластера Databricks например.
Кстати согласно статье, Miro использует Looker (SaaS BI).
Делаете НТ для аналитики и инжиниринга данных?
Интересно можно применять нагрузочное тестировае в инжиниринге данных. С играми особенно, пока делаем новую игру, данных килобайты. В бето тестировании - мегабайты. А в день запуска это как Amazon prime day, пик нагрузки максимальный, то есть к вопросу того же размера кластера Databricks например.
Кстати согласно статье, Miro использует Looker (SaaS BI).
Делаете НТ для аналитики и инжиниринга данных?
6 Ways to Make Data-Visualization Literacy Part of Company Culture
1. Expose people to “gateway” visualizations.
2. Strike a balance of complexity.
3. Explain (a bit) about cognitive processing.
4. Stress the importance of intentional choices.
5. Teach caution with colors — and in general.
6. Consider a data-visualization style guide.
1. Expose people to “gateway” visualizations.
2. Strike a balance of complexity.
3. Explain (a bit) about cognitive processing.
4. Stress the importance of intentional choices.
5. Teach caution with colors — and in general.
6. Consider a data-visualization style guide.
Built In
6 Ways to Make Data-Visualization Literacy Part of Company Culture
Data viz has reached the masses. Don’t mistake that for proficiency.
Guide_PerspectivesFromEngineeringLeaders_mm_vF.pdf
2.4 MB
Leading software teams is extremely challenging and rewarding.
There are many moving parts to keep fine tuned in order to deliver meaningful
solutions to those you serve. Most of what makes you as an engineering leader
successful is the collective abilities and creativity of your team. With help from
top engineering leaders from across the world, this guide unpacks how to create
the needed environment to help your team thrive in and out of the codebase.
The insights are derived from peers who understand what it takes to create
a high-performing engineering organization.
В общем про управление инженерной командой.
There are many moving parts to keep fine tuned in order to deliver meaningful
solutions to those you serve. Most of what makes you as an engineering leader
successful is the collective abilities and creativity of your team. With help from
top engineering leaders from across the world, this guide unpacks how to create
the needed environment to help your team thrive in and out of the codebase.
The insights are derived from peers who understand what it takes to create
a high-performing engineering organization.
В общем про управление инженерной командой.
Интересная статья Want to Improve Your Career? Become an Uncertainty Killer:
(uncertainty = неопределенность)
I want to provide you with a singular concrete idea that you can use in your career right away. More importantly, this idea will apply to anyone who works with other people. Whether you have a boss to support, clients to impress, or individuals to manage, this specific advice will work wonders for you and your career. What is it?
Reduce uncertainty for others as much as you can.
Become an uncertainty killer. That’s it.
I guarantee that if you can make other peoples’ lives more certain, they will sing your praises. You will build trust at every turn and create allies wherever you go. People may even publicly call you “a machine” and impart positive attributes to you that you may not actually have.
Простой пример из жизни. Мы запускаем новый стрим данных. Много команд взаимодействует и ожидает увидеть данных, но они не знаю, как получить досту, какие данные уже есть и тп. Я создал wiki страничку, где описал:
- источник данных и формат
- нарисовал архитектуру (прям как в 1м модуле нашего курса)
- описал, что происходит с данными и где они находиться
- добавил ссылки на сервисы (BI, delta lake, databricks, azure data explorer, Tableau, Power BI).
И расшарил документ. Для меня пустяк, а оказалася очень полезный документ, точнее изначальная точка документирования процесса. Чувствую себя uncertainty killer. Дальше буду делать опрос для инженерных команд и бизнес команд (прям как в модуле 3 нашего курса)
(uncertainty = неопределенность)
I want to provide you with a singular concrete idea that you can use in your career right away. More importantly, this idea will apply to anyone who works with other people. Whether you have a boss to support, clients to impress, or individuals to manage, this specific advice will work wonders for you and your career. What is it?
Reduce uncertainty for others as much as you can.
Become an uncertainty killer. That’s it.
I guarantee that if you can make other peoples’ lives more certain, they will sing your praises. You will build trust at every turn and create allies wherever you go. People may even publicly call you “a machine” and impart positive attributes to you that you may not actually have.
Простой пример из жизни. Мы запускаем новый стрим данных. Много команд взаимодействует и ожидает увидеть данных, но они не знаю, как получить досту, какие данные уже есть и тп. Я создал wiki страничку, где описал:
- источник данных и формат
- нарисовал архитектуру (прям как в 1м модуле нашего курса)
- описал, что происходит с данными и где они находиться
- добавил ссылки на сервисы (BI, delta lake, databricks, azure data explorer, Tableau, Power BI).
И расшарил документ. Для меня пустяк, а оказалася очень полезный документ, точнее изначальная точка документирования процесса. Чувствую себя uncertainty killer. Дальше буду делать опрос для инженерных команд и бизнес команд (прям как в модуле 3 нашего курса)
Of Dollars And Data
Want to Improve Your Career? Become an Uncertainty Killer
On my favorite piece of career advice and why it can help to improve your finances.
Forwarded from Roman Bunin
Привет!
Видел кстати какую штуку сделали по зарплатам? Там DE есть отдельно тоже, одна из самых оплачиваемых блин позиций! Я прям удивился.
Видел кстати какую штуку сделали по зарплатам? Там DE есть отдельно тоже, одна из самых оплачиваемых блин позиций! Я прям удивился.
Готовлю модуль 6.2 - про введение в аналитические хранилища данных. Можно все уложить в 3-4 слайда, но я немножко покапался в гугле и нашел очень классный документ, который считается 1й статьей в журнале IBM в 1988 году:
The data warehouse concept started in 1988 when Barry Devlin and Paul Murphy published their groundbreaking paper in the IBM Systems Journal.
А вот и ссылка на документ http://altaplana.com/ibmsj2701G.pdf
PS огромное спасибо Сергею (@erfolg5862), он уже сделал офигенные лабы:
- для 6.2 (на базе виртеальной машины терадаты, куда нужно будет загрузить данные, и потом вы узнаете про data skew, statistics и главное поковыряетесь с сетевыми настройками и командной строкой)
- для 6.3 (про Redshift, где вы создадите кластер редшифта, загрузите данные и будете использовать техники оптимизации запросов, и еще будет интересный проект по миграции on-premise dw на cloud dw redshift)
Все это дает офигенный опыт Сергею и ему будет, что рассказать на собеседовании, будьте как Сергей😋
The data warehouse concept started in 1988 when Barry Devlin and Paul Murphy published their groundbreaking paper in the IBM Systems Journal.
А вот и ссылка на документ http://altaplana.com/ibmsj2701G.pdf
PS огромное спасибо Сергею (@erfolg5862), он уже сделал офигенные лабы:
- для 6.2 (на базе виртеальной машины терадаты, куда нужно будет загрузить данные, и потом вы узнаете про data skew, statistics и главное поковыряетесь с сетевыми настройками и командной строкой)
- для 6.3 (про Redshift, где вы создадите кластер редшифта, загрузите данные и будете использовать техники оптимизации запросов, и еще будет интересный проект по миграции on-premise dw на cloud dw redshift)
Все это дает офигенный опыт Сергею и ему будет, что рассказать на собеседовании, будьте как Сергей😋
Ракеты у Безоса отменные, летают туда и обратно (я про космос). Теперь можно даже сувенир купить. Скоро будут шейные массажёры продавать на Амазон в форме ракет☺️
The Verge
Celebrate Jeff Bezos’ big day out to space with a $69 miniature dick rocket
Thank you capitalism!
На 5 модуле про облачные вычисления я рассказывал про безопасность облачных решений и про security shared responsibility, которая нам говорит, что часть ответственности на клиентах, а другая на вендоре. В зависимости от service model (IaaS, PaaS и SaaS) это по разному. У SaaS считается самая высокая ответственность за безопасность на вендоре. Но это не спасает. Во всех новостях сегодня информация про SaaS NoSql базу данных Cosmos DB https://www.reuters.com/technology/exclusive-microsoft-warns-thousands-cloud-customers-exposed-databases-emails-2021-08-26/
Reuters
EXCLUSIVE Microsoft warns thousands of cloud customers of exposed databases
Microsoft on Thursday warned thousands of its cloud computing customers, including some of the world's largest companies, that intruders could have the ability to read, change or even delete their main databases, according to a copy of the email and a cyber…
У вас есть хорошая возможность поднабраться нового опыта на бесплатном воркшопе от Azure Synapse - Azure hands-on webinar series
Data Engineering with Azure Synapse
Data Engineering with Azure Synapse
Microsoft
Data Engineering with Azure Synapse
In this webinar, we’ll be 100% hands-on as we dive into Azure Synapse together to build scalable data pipelines.
Серьезный материал от Databricks - как построить аналитическую платформу из 4х частей, сумарно 8 часов:
How to Build a Cloud Data Platform
Part 1- Architecture
Part 2 - ETL Processing
Part 3 - Structured Streaming
Part 4 - Machine Learning and Business Intelligence
Минимум любого аналитического решения - Архитектура, ETL, BI. Дальше уже по необходимости DS, Streaming.
How to Build a Cloud Data Platform
Part 1- Architecture
Part 2 - ETL Processing
Part 3 - Structured Streaming
Part 4 - Machine Learning and Business Intelligence
Минимум любого аналитического решения - Архитектура, ETL, BI. Дальше уже по необходимости DS, Streaming.
Оказывается самая топавая конференци по game dev - GDC. Следуя своим принципам проактивности, закинул запрос на выступление, шансов практически нет, так как там почти не бывает кейсов про аналитику, но личний challenge accepted.
Title: Building Modern Data Stack for Game Analytics
Overview: Nowadays, game development has become data-driven. Game studios over the world adopting analytics to inform decision making across all levels of industry. The core of game analytics and insights is telemetry data. The best strategy is to log data in the format that is closest to the defined in the code without any aggregation. This strategy insures the least possible bias operated on the data. Unfortunately, this strategy also risks levitating the amount of data logged, streamed and stored. It is vital to design and implement data platform that will handle tremendous volume of data, support mix workloads of use cases from Business Intelligence, Data Science and Business Users. Handle data privacy and establish security. During the talk we will cover the history of data platforms and review reference architectures and use cases for modern data stack and finish the presentation with our data stack modernization use case.
Title: Building Modern Data Stack for Game Analytics
Overview: Nowadays, game development has become data-driven. Game studios over the world adopting analytics to inform decision making across all levels of industry. The core of game analytics and insights is telemetry data. The best strategy is to log data in the format that is closest to the defined in the code without any aggregation. This strategy insures the least possible bias operated on the data. Unfortunately, this strategy also risks levitating the amount of data logged, streamed and stored. It is vital to design and implement data platform that will handle tremendous volume of data, support mix workloads of use cases from Business Intelligence, Data Science and Business Users. Handle data privacy and establish security. During the talk we will cover the history of data platforms and review reference architectures and use cases for modern data stack and finish the presentation with our data stack modernization use case.
Gdconf
GDC Festival of Gaming
The GDC Festival of Gaming is where the entire B2B games industry comes together. From design and code to publishing, marketing, and investment, it's a place to learn, connect, collaborate, and shape the future of games.
Нашел прикольный сервис, который как уверяют создатели Free 4ever=)
Позволяет сделать мини профайл и собрать все важные ссылки в одном месте (можно и резюме ссылку и git и тп).
https://linktr.ee/dmitry.anoshin вот мой пример
Позволяет сделать мини профайл и собрать все важные ссылки в одном месте (можно и резюме ссылку и git и тп).
https://linktr.ee/dmitry.anoshin вот мой пример
Английская версия википедии про хранилище данных получила дополнение про ETL/ELT. https://en.wikipedia.org/wiki/Data_warehouse
В 95 процентах аналитических решений используется хранилище данных. Давайте будем считать, что это аналитическое хранилище данных. Но что это такое? Какие они бывают? Как давно они на рынке? На эти вопросы и другие я отвечу в этом уроке.
На этом уроке мы посмотрим фундаментыльные вещи про хранилище данных, а на последующих уроках, мы будем уже пробовать различные решения хранилищ данных и ETL/ELT инструментов. Практически каждый слайд можно трансформировать в вопрос для собеседования, и я сам, нераз, спрашивал на собеседованиях в Амазон эти вопросы на позицию инженера данных и bi разработчика.
Из модуля вы узнаете:
📌 История хранилищ данных
📌 База данных vs Хранилище данных
📌 Хранилище данных (DW) vs Платформа данных
📌 Характеристики хранилища данных
📌 Архитектура Shared Nothing vs Shared Everything
📌 Cloud vs On-premise Хранилища данных
📌 Облачная экономика на примере ETL jobs
📌 Open Source vs Commercial Хранилища данных
📌 Хранилища данных на базе существующей технологии (Postgres) или свои разработки
📌 Data warehouse as a Service или в ручную тюнить
📌 Современные и Legacy Хранилища данных
📌 OLTP vs OLAP
📌 ETL vs ELT
📌 Вендоры Хранилища данных на рынке (Gartner and Forrester)
📌 Сравнение скорости - benchmarking - TPC
📌 Benchmarking, отчет Gigaom и Fivetran по облачных хранилищам данных
📌 История Teradata
📌 Основы MPP Teradata, Data Distribution, Data Skew и Teradata CLI
На лабораторной работе вы будете использовать виртуальную мащину Teradata DW, вам нужно будет скачать ее и настроить доступ через конфигурацию сети. Дальше вы сможете загрузать данные через CLI инструмент и подключить Power BI. Таким образом у вас будет полноценное аналитическое решение (портативное), которое работает во многих компаниях.
На этом уроке мы посмотрим фундаментыльные вещи про хранилище данных, а на последующих уроках, мы будем уже пробовать различные решения хранилищ данных и ETL/ELT инструментов. Практически каждый слайд можно трансформировать в вопрос для собеседования, и я сам, нераз, спрашивал на собеседованиях в Амазон эти вопросы на позицию инженера данных и bi разработчика.
Из модуля вы узнаете:
📌 История хранилищ данных
📌 База данных vs Хранилище данных
📌 Хранилище данных (DW) vs Платформа данных
📌 Характеристики хранилища данных
📌 Архитектура Shared Nothing vs Shared Everything
📌 Cloud vs On-premise Хранилища данных
📌 Облачная экономика на примере ETL jobs
📌 Open Source vs Commercial Хранилища данных
📌 Хранилища данных на базе существующей технологии (Postgres) или свои разработки
📌 Data warehouse as a Service или в ручную тюнить
📌 Современные и Legacy Хранилища данных
📌 OLTP vs OLAP
📌 ETL vs ELT
📌 Вендоры Хранилища данных на рынке (Gartner and Forrester)
📌 Сравнение скорости - benchmarking - TPC
📌 Benchmarking, отчет Gigaom и Fivetran по облачных хранилищам данных
📌 История Teradata
📌 Основы MPP Teradata, Data Distribution, Data Skew и Teradata CLI
На лабораторной работе вы будете использовать виртуальную мащину Teradata DW, вам нужно будет скачать ее и настроить доступ через конфигурацию сети. Дальше вы сможете загрузать данные через CLI инструмент и подключить Power BI. Таким образом у вас будет полноценное аналитическое решение (портативное), которое работает во многих компаниях.