Jason Brownlee states that “feature engineering is the process of transforming raw data into features that better represent the underlying problem to the predictive models, resulting in improved model accuracy on unseen data”
SeeMTo - новый канал о рациональности, аналитических инструментах и многом другом. Материалы публикуются на основе исследований, кейсов и мнения практикующего аналитика.
В одном из последних постов обзор «Рациональность: от ИИ до зомби» Юдковского. Автор привел подборку практических инструментов из книги.
На английском: seemto.blog.
PS Пост поддержал приют для собак в Ногинске.
В одном из последних постов обзор «Рациональность: от ИИ до зомби» Юдковского. Автор привел подборку практических инструментов из книги.
На английском: seemto.blog.
PS Пост поддержал приют для собак в Ногинске.
Telegram
SeeMTo
SeeMTo - Seeking Mental Tools. Канал о рациональности, аналитических инструментах и многом другом.
Материалы публикуются на основе исследований, кейсов и мнения практикующего аналитика.
Пишите на @SeeMTo_admin или admin@seemto.blog
Материалы публикуются на основе исследований, кейсов и мнения практикующего аналитика.
Пишите на @SeeMTo_admin или admin@seemto.blog
Для сравнения цен. Модуль 5 на data learn у нас был про облачные вычисления - совершенно бесплатно. А вот его цена в местном университете 700$. Так что пройдя модуль 5 вы сэкономите приличную сумму=)
Еще из интересно - университет заключил партнерство с Microsoft, и теперь мне нужно выкинуть все про AWS из курса😅
Еще из интересно - университет заключил партнерство с Microsoft, и теперь мне нужно выкинуть все про AWS из курса😅
Continuing Studies at UVic
Cloud Computing for Business
Employers value people who can understand and evaluate the design, construction and structures of cloud systems. This course introduces you to cloud comput
What to Look for in a Great Engineering Leader
the most important trait of an engineering leader is that they must be biased to say “yes”, but willing to say “no”
the most important trait of an engineering leader is that they must be biased to say “yes”, but willing to say “no”
Linkedin
What to Look for in a Great Engineering Leader
Engineering leaders are tricky hires. Do you want someone with great technical skills? Great management skills? Great charisma with customers? A track record of performance at large and small scale? Or do you look for your classic leadership principles….
Где-то в комментариях проскакивала информация о замечательном курсе - Distributed Systems in One Lesson. Я собрался силами и прошел его, правда со всеми домашними делами получилось 8 часов, вместо 4х обещанных.
На уроке были рассмотрены базовые вещи для distributed systems и их описание.
В целом курс понравился, несмотря на то, что он 2015 года. Узнал что-то нововое. Наример, не существует понятия "сейчас" и на самом деле все эти привычные вещи systime, now() - очень относительные - There is No Now (Problems with simultaneity in distributed systems)
Его одного конечно не достаточно, надо еще и книжку читать про Designing Data Intensive Application (кстати есть на русском). А еще лучше внедрять решение.
Использование облачных технологий упрощает нашу жизнь, мы как будто outsource решения по дизайну distributed system венндору и сами фокусируемся на бизнес проблеме, но всегда интересно понимать суть происходящего.
На уроке были рассмотрены базовые вещи для distributed systems и их описание.
В целом курс понравился, несмотря на то, что он 2015 года. Узнал что-то нововое. Наример, не существует понятия "сейчас" и на самом деле все эти привычные вещи systime, now() - очень относительные - There is No Now (Problems with simultaneity in distributed systems)
Его одного конечно не достаточно, надо еще и книжку читать про Designing Data Intensive Application (кстати есть на русском). А еще лучше внедрять решение.
Использование облачных технологий упрощает нашу жизнь, мы как будто outsource решения по дизайну distributed system венндору и сами фокусируемся на бизнес проблеме, но всегда интересно понимать суть происходящего.
O’Reilly Online Learning
Distributed Systems in One Lesson
Simple tasks like running a program or storing and retrieving data become much more complicated when you do them on collections of computers, rather than single machines. Distributed systems have … - Selection from Distributed Systems in One Lesson [Video]
В статье Rethinking Cloud Data Architecture, автор рассказывает как он создавал озеро данных на AWS в 2017 году с использование всевозможных сервисов, достаточно подробно.
А сейчас на диаграмма получилась намного меньше с использование Databricks, там и structured streaming, и data warehouse на базе delta lake и много чего.
PS Автор Solution Architect в Databricks, но все равно он не далеко ушел от правды
А сейчас на диаграмма получилась намного меньше с использование Databricks, там и structured streaming, и data warehouse на базе delta lake и много чего.
PS Автор Solution Architect в Databricks, но все равно он не далеко ушел от правды
Justjotting
Rethinking Cloud Data Architecture
Modern Cloud Data Architecture
Overview of several well-known workflow managers and their key characteristics. (Из книги https://learning.oreilly.com/library/view/data-pipelines-with/9781617296901/)
Snowflake 2021 features.pdf
72.8 KB
Кто-то составил табличку новых фич для Snowflake. Было бы интересно так посмотреть на остальные продукты, так как все добавляют много новых штук.
Всем привет!
Завтра (28 декабря) в 21:00 по мск вебинар :)
Тема: Введение в DBT
Что будем делать:
1) кратко поговорим о dbt
2) создадим, запустим dbt проект и построим модельки
3) поговорим, опробуем тесты над данными и поговорим о дополнительных возможностях
4) о документации в dbt
Ссылка на трансляцию:
https://youtu.be/btaH7P0U_2g
Завтра (28 декабря) в 21:00 по мск вебинар :)
Тема: Введение в DBT
Что будем делать:
1) кратко поговорим о dbt
2) создадим, запустим dbt проект и построим модельки
3) поговорим, опробуем тесты над данными и поговорим о дополнительных возможностях
4) о документации в dbt
Ссылка на трансляцию:
https://youtu.be/btaH7P0U_2g
YouTube
ВВЕДЕНИ В DBT / СОЗДАНИЕ МОДЕЛЕЙ ПРИ ПОМОЩИ DBT / УПРАВЛЕНИЕ ТРАНСФОРМАЦИЕЙ ДАННЫХ / РИШАТ МИНГАЗОВ
Тема вебинара:
Введение в dbt. Создание моделей при помощи dbt/управление трансформацией данных.
Что будем делать:
1) кратко поговорим о dbt
2) создадим, запустим dbt проект и построим модельки
3) поговорим, опробуем тесты над данными и поговорим о дополнительных…
Введение в dbt. Создание моделей при помощи dbt/управление трансформацией данных.
Что будем делать:
1) кратко поговорим о dbt
2) создадим, запустим dbt проект и построим модельки
3) поговорим, опробуем тесты над данными и поговорим о дополнительных…
Через 10 минут начинаем:
https://youtu.be/btaH7P0U_2g
https://youtu.be/btaH7P0U_2g
YouTube
ВВЕДЕНИ В DBT / СОЗДАНИЕ МОДЕЛЕЙ ПРИ ПОМОЩИ DBT / УПРАВЛЕНИЕ ТРАНСФОРМАЦИЕЙ ДАННЫХ / РИШАТ МИНГАЗОВ
Тема вебинара:
Введение в dbt. Создание моделей при помощи dbt/управление трансформацией данных.
Что будем делать:
1) кратко поговорим о dbt
2) создадим, запустим dbt проект и построим модельки
3) поговорим, опробуем тесты над данными и поговорим о дополнительных…
Введение в dbt. Создание моделей при помощи dbt/управление трансформацией данных.
Что будем делать:
1) кратко поговорим о dbt
2) создадим, запустим dbt проект и построим модельки
3) поговорим, опробуем тесты над данными и поговорим о дополнительных…
Guide to Data Warehousing - пример статьи, которая вводит всех в заблуждение. И таких большинство. Захочет простой человек узнать про хранилища данных и методики моделирования и попадет на такую статью. А в ней:
Methodologies covered
- Kimball methodology
- Inmon methodology
- Data Vault
- Data Lake
- Lakehouse
Кто понимает, сразу заметит что-то неладное в списке. Вот пройдете на data learn и будете тоже в этом видеть разницу🤗
Methodologies covered
- Kimball methodology
- Inmon methodology
- Data Vault
- Data Lake
- Lakehouse
Кто понимает, сразу заметит что-то неладное в списке. Вот пройдете на data learn и будете тоже в этом видеть разницу🤗
Amazon Redshift - популярное хранилище данных от AWS. Я нашел интересный сайт Amazon Redshift Research Project
This not your typical site, with advice like "pick a good distribution key". This is low-level, detailed, comprehensive research. If you do any kind of serious work with Redshift, the content here will blow you away.
The core content are the white papers. Everything else is basically ways to discuss them.
Вот пример из свежей статьи - Multi-Version Concurrency Control and Serialization Isolation Failure. Вот оно, где "собака зарыта". (Так вообще говорят?)
This not your typical site, with advice like "pick a good distribution key". This is low-level, detailed, comprehensive research. If you do any kind of serious work with Redshift, the content here will blow you away.
The core content are the white papers. Everything else is basically ways to discuss them.
Вот пример из свежей статьи - Multi-Version Concurrency Control and Serialization Isolation Failure. Вот оно, где "собака зарыта". (Так вообще говорят?)
Итоги года🤪
До конца года осталось совсем немного и можно подвести итоги уходящего года.
В целом, из-за отсутствия путешествий все как-то грустновато, не хватает ощущений радости исследования новых мест и стран или посещения родных мест, например ГУМа или Макдональдса на Пушкинской=). Вот так вот, человек с канадским паспортом скучает по родным местам. Еще бы я добавил европейские страны - Франция и Италия. Да что уж там говорить, столько прекрасных мест, новых и старых, а нам вот надо еще «немножко» подождать.
В Канаде вообще забавно, после 20 месяцев пандемии с рейтингом вакцинации в 90 процентов, где вам укол поставят в drive through (это такой метод покупки фастфуда, чтобы из машины не выходить) снова идут разговоры про закрытие школ и других методов, которые очевидно не работают.
Но наше дело маленькое – работать работу и получать копеечку. Больше работаешь - больше копеечка, иногда приходилось работать с 7 утра до 9 вечера и практически без выходных. Еще в Амазоне у меня появился вопрос – «Зачем?». После 10 лет работы в одной области, кажется, что одновременно все знаешь и не знаешь ничего. Чем больше изучаешь нового, тем больше появляется новых методов и инструментов.
Для меня, конечно, главный вопрос, а что дальше? Если раньше было все просто и понятно – хочу переехать, купить дом, получить гражданство и работать в FAAN(M)G, то теперь я осознал, что у меня больше нет других планов и я не придумал что делать. Пока еще не придумал. Если я буду просить что-то Деда Мороза на новый год, то я бы попросил новую и ясную цель, чтобы все стало просто и понятно как раньше.
Поэтому могу смело пожелать всем, кто только в начале пути, главное четко определиться с целью. Самый простой пример, вы хотите работать в дата и хорошо зарабатывать или переехать за границу? Ну тогда у вас все для этого есть, datalearn уроки + сообщество, и вы сами не заметите как все получите. Я еще не знаю ни одного человека, кто не достиг результатов. Ведь как говорят, если нет цели, то и попадать некуда.
Мне кажется, у меня самые пессимистичные итоги года:/
Но на самом деле все не так плохо, а даже хорошо. Конечно грустно, что пока еще с целеполаганием у меня пробел, но я надеюсь, что вот как только схожу в Макдональдс на Пушкинской, и проведу качественно время в Москве и Европе, то сразу полегчает!)
2021 год мне запомнился переездом с острова Ванкувер (Виктория) в Ванкувер. Мы прожили 5 лет на острове и это замечательное место. Оно было таким, пока за счет Амазона мы гоняли в Бостон и Сиэтл каждый месяц, и проводили время за счет компании. Именно поэтому при увольнении из Амазона у меня осталось 1,5 месяца отпуска. При переезде в Ванкувер нам выдали на 2 месяца квартиру на 27 этаже в центре и потом мы въехали в новый таунхоум, а старый дом сдали в аренду. Разница жизни в доме/таунхоме достаточно большая, но это уже отдельная статья. С марта по октябрь я ходил в офис, в нем я был практически один, пока «не прикрыли лавочку». Летом мы много времени проводили на пляжах Ванкувера, катались на велосипедах, я плавал на своем новом падл борде, который сделан специально для океана. Если по приезду в Канаду я подсел на кофе, то по приезду в Ванкувер я подсел на сидр, который варится small batch на острове Ванкувер. Вот с этим сидором и встречали закаты.
На острове, от нечего делать, я часто ловил рыбу и крабов в океане, а тут почему-то перестал. Может в 2022 году я смогу снова поймать большую рыбу!)
В технологическом плане я неплохо поднабрался опыта в Databricks, Microsoft Data Stack, Azure, DevOps и все что около него. Достаточно много узнал про игровую индустрию и как делается аналитика для AAA игр и теперь и сам могу строить такое решение. Кроме Microsoft стека появилась возможность попрактиковаться на AWS с использование dbt, looker и других хипстерских инструментов.
В планах, конечно, это получение навыков на пересечении Data Engineering и DevOps и планирую использовать DataDog, Terraform, дальше ковырять Python и делать data pipelines на dbt + airflow, чтобы быть в тренде, так сказать.
До конца года осталось совсем немного и можно подвести итоги уходящего года.
В целом, из-за отсутствия путешествий все как-то грустновато, не хватает ощущений радости исследования новых мест и стран или посещения родных мест, например ГУМа или Макдональдса на Пушкинской=). Вот так вот, человек с канадским паспортом скучает по родным местам. Еще бы я добавил европейские страны - Франция и Италия. Да что уж там говорить, столько прекрасных мест, новых и старых, а нам вот надо еще «немножко» подождать.
В Канаде вообще забавно, после 20 месяцев пандемии с рейтингом вакцинации в 90 процентов, где вам укол поставят в drive through (это такой метод покупки фастфуда, чтобы из машины не выходить) снова идут разговоры про закрытие школ и других методов, которые очевидно не работают.
Но наше дело маленькое – работать работу и получать копеечку. Больше работаешь - больше копеечка, иногда приходилось работать с 7 утра до 9 вечера и практически без выходных. Еще в Амазоне у меня появился вопрос – «Зачем?». После 10 лет работы в одной области, кажется, что одновременно все знаешь и не знаешь ничего. Чем больше изучаешь нового, тем больше появляется новых методов и инструментов.
Для меня, конечно, главный вопрос, а что дальше? Если раньше было все просто и понятно – хочу переехать, купить дом, получить гражданство и работать в FAAN(M)G, то теперь я осознал, что у меня больше нет других планов и я не придумал что делать. Пока еще не придумал. Если я буду просить что-то Деда Мороза на новый год, то я бы попросил новую и ясную цель, чтобы все стало просто и понятно как раньше.
Поэтому могу смело пожелать всем, кто только в начале пути, главное четко определиться с целью. Самый простой пример, вы хотите работать в дата и хорошо зарабатывать или переехать за границу? Ну тогда у вас все для этого есть, datalearn уроки + сообщество, и вы сами не заметите как все получите. Я еще не знаю ни одного человека, кто не достиг результатов. Ведь как говорят, если нет цели, то и попадать некуда.
Мне кажется, у меня самые пессимистичные итоги года:/
Но на самом деле все не так плохо, а даже хорошо. Конечно грустно, что пока еще с целеполаганием у меня пробел, но я надеюсь, что вот как только схожу в Макдональдс на Пушкинской, и проведу качественно время в Москве и Европе, то сразу полегчает!)
2021 год мне запомнился переездом с острова Ванкувер (Виктория) в Ванкувер. Мы прожили 5 лет на острове и это замечательное место. Оно было таким, пока за счет Амазона мы гоняли в Бостон и Сиэтл каждый месяц, и проводили время за счет компании. Именно поэтому при увольнении из Амазона у меня осталось 1,5 месяца отпуска. При переезде в Ванкувер нам выдали на 2 месяца квартиру на 27 этаже в центре и потом мы въехали в новый таунхоум, а старый дом сдали в аренду. Разница жизни в доме/таунхоме достаточно большая, но это уже отдельная статья. С марта по октябрь я ходил в офис, в нем я был практически один, пока «не прикрыли лавочку». Летом мы много времени проводили на пляжах Ванкувера, катались на велосипедах, я плавал на своем новом падл борде, который сделан специально для океана. Если по приезду в Канаду я подсел на кофе, то по приезду в Ванкувер я подсел на сидр, который варится small batch на острове Ванкувер. Вот с этим сидором и встречали закаты.
На острове, от нечего делать, я часто ловил рыбу и крабов в океане, а тут почему-то перестал. Может в 2022 году я смогу снова поймать большую рыбу!)
В технологическом плане я неплохо поднабрался опыта в Databricks, Microsoft Data Stack, Azure, DevOps и все что около него. Достаточно много узнал про игровую индустрию и как делается аналитика для AAA игр и теперь и сам могу строить такое решение. Кроме Microsoft стека появилась возможность попрактиковаться на AWS с использование dbt, looker и других хипстерских инструментов.
В планах, конечно, это получение навыков на пересечении Data Engineering и DevOps и планирую использовать DataDog, Terraform, дальше ковырять Python и делать data pipelines на dbt + airflow, чтобы быть в тренде, так сказать.
👍6
Если посмотреть на провал года, то это будет soft skills. Я слишком много времени уделяю техническим вещам и говорю коллегам как есть, часто не «политкорректно». Одно радует, что пока не сталкивался с проблемами diversity&inclusion. Например, в моем годовом performance review написано, что у меня нет “Grow Mindset”, и что я должен быть открыт ко всему новому и учиться с удовольствием. Звучит перебор для меня, так как я только и делаю что ежедневно учусь. Вопрос в том, что я учу и для кого. Все что я учу, я учу для себя и на перспективу. Я просто сказал менеджеру, что учить C# (жена подумала это это слово СУКА с но цензурно скрыто😭, хотя близко по смыслу) я не хочу и не буду, так как есть более перспективные вещи для моей карьеры дата инженера. Может оно и так, но нельзя так отвечать менеджеру. И таких примеров у меня много, и каждый пример — это как «палка в колесо» развития карьеры внутри компании. Возможно, стоит сменить фокус на софт с технических навыков.
Из других достижений я наконец нашел способ увеличить доход, но все это больше, как временная мера. Чтобы зарабатывать в 2 раза больше, нужно работать в 1,5 раза больше. На короткой перспективе можно заработать, но это так себе решение задачи в долгой перспективе.
Вообще уровень зарплат в Канаде печальный. Если средняя зарплата специалиста не из ИТ равна 60т CAD в год до налогов, то в ИТ это 120т CAD. А старший дата инженер может получать 150т CAD + Stock + Bonus (условно не больше 180т CAD). Доктор будет получать уже 400т+ CAD в год. И налоги здесь прогрессивные. В целом в нашей отрасли дела хорошо идут. Но давайте посмотрим 200км южней от Ванкувера, на родину Старбакс и Амазон, там инженер данных будет получать уже в среднем в год 250т-300т US$ и налог будет 30% вместо 40%. А при хорошем раскладе будет все 450т US$ в год. В целом такое распределение вознаграждений в одной и той же компании мне кажется не честным, но что есть, то есть.
Поэтому часто у меня возникает вопрос, почему я еще не там? И у меня нет ответа. Потому что я не знаю, что лучше. Получать больше в Штатах или получать меньше в Канаде, а может быть получать достаточно в Европе? Или работать удаленно в Мексике? Вот примерно такие вопросы я себе задаю, и надеюсь в 2022 году я смогу найти на них ответы. Того и вам желаю! Пусть у каждого будет цель, а лучше измеряемый OKR😉 и тогда будет вам счастье!
Из других достижений я наконец нашел способ увеличить доход, но все это больше, как временная мера. Чтобы зарабатывать в 2 раза больше, нужно работать в 1,5 раза больше. На короткой перспективе можно заработать, но это так себе решение задачи в долгой перспективе.
Вообще уровень зарплат в Канаде печальный. Если средняя зарплата специалиста не из ИТ равна 60т CAD в год до налогов, то в ИТ это 120т CAD. А старший дата инженер может получать 150т CAD + Stock + Bonus (условно не больше 180т CAD). Доктор будет получать уже 400т+ CAD в год. И налоги здесь прогрессивные. В целом в нашей отрасли дела хорошо идут. Но давайте посмотрим 200км южней от Ванкувера, на родину Старбакс и Амазон, там инженер данных будет получать уже в среднем в год 250т-300т US$ и налог будет 30% вместо 40%. А при хорошем раскладе будет все 450т US$ в год. В целом такое распределение вознаграждений в одной и той же компании мне кажется не честным, но что есть, то есть.
Поэтому часто у меня возникает вопрос, почему я еще не там? И у меня нет ответа. Потому что я не знаю, что лучше. Получать больше в Штатах или получать меньше в Канаде, а может быть получать достаточно в Европе? Или работать удаленно в Мексике? Вот примерно такие вопросы я себе задаю, и надеюсь в 2022 году я смогу найти на них ответы. Того и вам желаю! Пусть у каждого будет цель, а лучше измеряемый OKR😉 и тогда будет вам счастье!
По тексту может показаться грустноватый год, но если верить инстаграмму жены - год улет! Она сделала очень классный reels про 12 месяцев 2021 года