Подкаст про данные - Data Radicals. У них был интересный спикер - founder of BusinessObjects, еще до SAP:)
Подкаст называется The Beginning of Business Intelligence, где Bernard Liautaud по-простому нам расскажет, что же такое BI.
Подкаст называется The Beginning of Business Intelligence, где Bernard Liautaud по-простому нам расскажет, что же такое BI.
👍9
Валидация данных (data validation) - очень важная штука. DV это относиться к data quality. Вообще это частый вопрос на собеседованиях про вакансии с данными.
Как правило - это набор тестов, правил, проверок, которые позволяют нам убедиться, что данные, которые мы используем для принятия решений верны и аккуратны.
В реальном мире все данные можно назвать грязными и у вас обязательно будут проблемы из-за их качества. А если, ошибочка попала на стол к руководителю, то можно и по шапке получить. Хотя в мире данных, всегда можно свалить на плохой процесс/софт/кривые руки пользователя и слабый сигнал Wifi.
К сожалению, мы сначала делаем решения, а уже потом, может быть, задумываемся про проверки качества данных. А должно быть наоборот.
Как правило можно начать с простых проверок:
- значение не равно NULL
- значение одно из заданного списка
- ID уникальный в таблице
- сумма больше 0
- цифра в заданном диапазоне
Сейчас популярно несколько инструментов:
- dbt (для трансформации данных) - там есть строенная функциональность тестирования данных, удобная и простая
- great expectation - самый популярный framework. Работает с Pandas, Spark, и SQL через SQLAlchemy. Утилита еще создает отчеты по валидации данных, которые могут быть расшарены с командой.
- Pandera - простой framework для работы с Pandas.
- SodaSQL - простой framework для работы с SQL.
На самом деле я хотел поделиться материалами и примерами в python с использованием GE и Pandera. Недавно посмотрел тренинг Testing Data Pipelines with Data Validation. Ссылка на репозиторий, там код и теория. Можете потренироваться.
Как правило - это набор тестов, правил, проверок, которые позволяют нам убедиться, что данные, которые мы используем для принятия решений верны и аккуратны.
В реальном мире все данные можно назвать грязными и у вас обязательно будут проблемы из-за их качества. А если, ошибочка попала на стол к руководителю, то можно и по шапке получить. Хотя в мире данных, всегда можно свалить на плохой процесс/софт/кривые руки пользователя и слабый сигнал Wifi.
К сожалению, мы сначала делаем решения, а уже потом, может быть, задумываемся про проверки качества данных. А должно быть наоборот.
Как правило можно начать с простых проверок:
- значение не равно NULL
- значение одно из заданного списка
- ID уникальный в таблице
- сумма больше 0
- цифра в заданном диапазоне
Сейчас популярно несколько инструментов:
- dbt (для трансформации данных) - там есть строенная функциональность тестирования данных, удобная и простая
- great expectation - самый популярный framework. Работает с Pandas, Spark, и SQL через SQLAlchemy. Утилита еще создает отчеты по валидации данных, которые могут быть расшарены с командой.
- Pandera - простой framework для работы с Pandas.
- SodaSQL - простой framework для работы с SQL.
На самом деле я хотел поделиться материалами и примерами в python с использованием GE и Pandera. Недавно посмотрел тренинг Testing Data Pipelines with Data Validation. Ссылка на репозиторий, там код и теория. Можете потренироваться.
GitLab
Files · master · binderhub / testing-data-pipelines-with-data-validation · GitLab
Instructors: Han Wang and Kevin Kho
👍62🔥13
В Индии очень похожая проблема (как в РФ) - взрослых специалистов никто не любит и не хочет брать на работу, несмотря на опыт. Знаете таких коллег, кому сложно найти работу из за возраста?
Хотя по факту молодые не заинтересованы работать долго на одном месте, а наоборот готовы прыгать с места на места ради опыта и повышения дохода.
Хотя по факту молодые не заинтересованы работать долго на одном месте, а наоборот готовы прыгать с места на места ради опыта и повышения дохода.
🔥36👍14
Я уверен, что многие из вас пользуются командной строкой. Я уже писал про zsh и oh my zsh. Напишу еще раз, так как сегодня установил на Windows, все так же работает как и на Mac.
Вообще, если у вас есть слабенький ноутбук, лучше сразу поставьте Linux и учите data на linux. Он ест меньше ресурсов и все необходимое уже есть.
На Windows по умолчанию есть CMD и PowerShell. Для Microsoft это нормально, а вот за его пределами, ХЗ))
На Windows нужно поставить Ubuntu WSL. А затем вы можете поставить zsh и oh my zsh.
Было бы классно сделать вебинар по настройке и использованию командной строки. А вдруг есть желающие?
Вообще, если у вас есть слабенький ноутбук, лучше сразу поставьте Linux и учите data на linux. Он ест меньше ресурсов и все необходимое уже есть.
На Windows по умолчанию есть CMD и PowerShell. Для Microsoft это нормально, а вот за его пределами, ХЗ))
На Windows нужно поставить Ubuntu WSL. А затем вы можете поставить zsh и oh my zsh.
Было бы классно сделать вебинар по настройке и использованию командной строки. А вдруг есть желающие?
👍92🔥13❤1
Пример аналитического open source решения на GCP. На месте GCP и Big Query может быть любое хранилище и любое облако. dbt, airflow, meltano, open metadata не требуют много мощностей и легко запускаются в Docker. В качестве языка используется Python и SQL.
PS Meltano вообще интересный, они дают сразу целую платформу где уже из коробки у вас есть ETL (connectors для ingest, и dbt для трансформации), Aiflow для оркестрации и Preset для BI. Кто-нибудь использовал?
PS Meltano вообще интересный, они дают сразу целую платформу где уже из коробки у вас есть ETL (connectors для ingest, и dbt для трансформации), Aiflow для оркестрации и Preset для BI. Кто-нибудь использовал?
👍19🔥3🤔3
Последние 2 года я работаю с git системами Azure DevOps, GitLab, GitHub. Делая commits каждый день не задумываясь, что происходит и как это работает. МНТ (метод научного тыка) обычно работает. Читать документацию я тоже не люблю. Но работая все больше и больше с Software Engineers на data projects я и общаясь с талантливыми программистами за бутылочкой сидра🙃 я решил все-таки начать пользоваться документацией. Спустя 12 лет, у дорос до документации😝
Сегодня вот узнал, что git это база данных, и что все хранится у вас локально в папке .git, еще научился использовать git tag для release кода, в моем случае AWS Glue pyspark.
Полезные материалы:
- Introduction to Git with Scott Chacon of GitHub
- Книга этого же автора
Не ленитесь, почитайте первые 3 главы. Есть даже на русском копия, только смысла нет читать на русском.
Сегодня вот узнал, что git это база данных, и что все хранится у вас локально в папке .git, еще научился использовать git tag для release кода, в моем случае AWS Glue pyspark.
Полезные материалы:
- Introduction to Git with Scott Chacon of GitHub
- Книга этого же автора
Не ленитесь, почитайте первые 3 главы. Есть даже на русском копия, только смысла нет читать на русском.
YouTube
Introduction to Git with Scott Chacon of GitHub
This talk introduces the Git Version Control System by looking at what Git is doing when you run the commands you need to do basic version control with it. We'll look at how to use Git to do the basics, while seeing how it differs from Subversion, what staging…
👍27😁5❤4
Law of triviality (Закон тривиальности Паркинсона) - «Время, потраченное на обсуждение пункта, обратно пропорционально рассматриваемой сумме»
То есть, люди по своей природе будут сначала обсуждать простые и понятные вещи и всегда будут откладывать на потом действительно важные вещи.
В ИТ используется bike-shed effect ( «эффект велосипедного сарая»).
Почему велосипедный сарай? Потому что, в 1958 году был пример вымышленного комитета, работа которого заключалась в согласовании проекта атомной электростанции. Большую часть времени участники комитета тратили на обсуждение мелких и простых для понимания вопросов, вроде материалов для строительства сарая для велосипедов работников, оставляя без внимания конструкцию самой электростанции, — что является гораздо более важным, но одновременно и гораздо более сложным вопросом.
То есть, люди по своей природе будут сначала обсуждать простые и понятные вещи и всегда будут откладывать на потом действительно важные вещи.
В ИТ используется bike-shed effect ( «эффект велосипедного сарая»).
Почему велосипедный сарай? Потому что, в 1958 году был пример вымышленного комитета, работа которого заключалась в согласовании проекта атомной электростанции. Большую часть времени участники комитета тратили на обсуждение мелких и простых для понимания вопросов, вроде материалов для строительства сарая для велосипедов работников, оставляя без внимания конструкцию самой электростанции, — что является гораздо более важным, но одновременно и гораздо более сложным вопросом.
👍44🔥10
Конференция, про которую я скидывал выше организована на платформе Hopin, организатор девушка, или я бы даже сказал мать драконов данных Lauren Balik, которая не стесняется в выражениях и безконца мандражит Fivetran и другие бесполезные балайки😄
Как я понял, там что-то не работало, и она оставила отзыв. Правада через 20 минут удалила, шедевральный такой ответ, я могу такое же сказать своему менеджеру в Microsoft Gaming, нам с ним осталось 30 дней🤭 Только в моем случае я не платил premium, я почти 2 года работу работал, так-то😇
Как я понял, там что-то не работало, и она оставила отзыв. Правада через 20 минут удалила, шедевральный такой ответ, я могу такое же сказать своему менеджеру в Microsoft Gaming, нам с ним осталось 30 дней🤭 Только в моем случае я не платил premium, я почти 2 года работу работал, так-то😇
😁27👍5🤔2
Forwarded from Dmitry
This media is not supported in your browser
VIEW IN TELEGRAM
Интересный инструмент, рисовать диаграмки БД , вместо drag-drop, пишем код, и можно его хранить в repo. https://dbdiagram.io/
🔥41👍10🤔1
Это — самый короткий путь к работе в SberDevices!
4 сентября участвуй в One Day Offer: пройди fast-интервью за 1 день и получи оффер мечты!
Кто мы? Создаём умные устройства, виртуальных ассистентов и другие продукты в области Speech Recognition, NLP, PLP SmartSearch. У нас очень сильная, а главное, драйвовая команда, в которой ты точно найдёшь проекты по душе!
Кого мы ищем? Специалистов в сферах Data Science, Machine Learning, data-аналитиков, data-инженеров. Опыт работы в DS/ML от 2 лет.
Что такое One Day Offer? Это возможность за 1 день заявить о себе, пройти все этапы отбора и получить предложение присоединиться к команде.
Узнай больше и оставь заявку здесь: http://sber.me/?p=16SFb
4 сентября участвуй в One Day Offer: пройди fast-интервью за 1 день и получи оффер мечты!
Кто мы? Создаём умные устройства, виртуальных ассистентов и другие продукты в области Speech Recognition, NLP, PLP SmartSearch. У нас очень сильная, а главное, драйвовая команда, в которой ты точно найдёшь проекты по душе!
Кого мы ищем? Специалистов в сферах Data Science, Machine Learning, data-аналитиков, data-инженеров. Опыт работы в DS/ML от 2 лет.
Что такое One Day Offer? Это возможность за 1 день заявить о себе, пройти все этапы отбора и получить предложение присоединиться к команде.
Узнай больше и оставь заявку здесь: http://sber.me/?p=16SFb
🤬9👍3
Давайте я расскажу про setup на работе:
1 монитор - Dell 32 Monitor - P3222QE - 4K Resolution, IPS Technology USB-C Hub Monitor
Macbook pro 16” 10-Core CPU 32-Core GPU 32GB Unified Memory 1TB SSD Storage - Ноут очень приятный и даже без монитора, но M1 реально проблема для Python библиотек. Еще есть интересная функция, когда рядом есть Mac или Ipad я могу мышкой с одного перескакивать на другой и копировать с одного на другой.
Dock станция Targus USB-C Universal Dual Video 4K
Камера Logitech Miro 4K Pro Webcam
Touch Pad для apple
Клавиатура Magic Keyboard with Touch ID
Наушники Apple AirPods Pro - недавно попробовал, очень остался доволен, умный bluetooth, который сам перескакивает между устройствами, очень легкие и удобные.
Ipad Mini - использую для календаря, чтения O’Reilly, Spotify (первый раз оформил подписку недавно, остался доволен, пока любимый трек это Бесприданница😅), еще использую программу Atracker - для учета времени работы, где и сколько, сразу понятно сколько чистого времени было посвящено работе и учебе. (За трекер спасибо товарищу)
PS из всего этого я только купил Atracker и Spotify💵
1 монитор - Dell 32 Monitor - P3222QE - 4K Resolution, IPS Technology USB-C Hub Monitor
Macbook pro 16” 10-Core CPU 32-Core GPU 32GB Unified Memory 1TB SSD Storage - Ноут очень приятный и даже без монитора, но M1 реально проблема для Python библиотек. Еще есть интересная функция, когда рядом есть Mac или Ipad я могу мышкой с одного перескакивать на другой и копировать с одного на другой.
Dock станция Targus USB-C Universal Dual Video 4K
Камера Logitech Miro 4K Pro Webcam
Touch Pad для apple
Клавиатура Magic Keyboard with Touch ID
Наушники Apple AirPods Pro - недавно попробовал, очень остался доволен, умный bluetooth, который сам перескакивает между устройствами, очень легкие и удобные.
Ipad Mini - использую для календаря, чтения O’Reilly, Spotify (первый раз оформил подписку недавно, остался доволен, пока любимый трек это Бесприданница😅), еще использую программу Atracker - для учета времени работы, где и сколько, сразу понятно сколько чистого времени было посвящено работе и учебе. (За трекер спасибо товарищу)
PS из всего этого я только купил Atracker и Spotify💵
🔥23👍15🎉1
Что-то в Германии совсем печаль https://habr.com/ru/post/685974/ как вообще в Европе с зарплатами? Кто работает там поделитесь в комментах
Хабр
Блеск и нищета IT в Германии
Уже четыре года я работаю Java разработчиком в небольшой немецкой компании. В начале прошлого года я увидел на столе одного из моих «кураторов» забытый листок с расчётом заработной платы за месяц....
😁12😢4🤔3🔥2👍1🎉1
Очень понравилась статья - Maker's Schedule, Manager's Schedule
Из названия понятно, что бывает 2 типа персонажа - manager и maker, и что для manager хорошо, то для maker смерть☠️
Для менеджера это ок иметь по 5-6 встреч в день, а вот для творца или как его модно сейчас называть Individual Contributor (IC) - встречи только мешают. Я сам по себе знаю почти все встречи, которые у меня есть и на которых больше 3х человек - это чистый waste времени.
Но статья про другое, что для того, чтобы сделать кусочек работы, IC должен как минимум использовать блоки времени по 4 часа (половина рабочего дня), и если дробить день, то не будет и результата.
Я по себе знаю, если у меня есть окно 2 часа между встречами, то я особо ничего не сделаю. Поэтому самое продуктивное время это после окончания работы.
Хорошая статья, и полезная для менеджеров, чтобы не тревожить разработчиков без надобности и давать им больше времени для фокуса.
Из названия понятно, что бывает 2 типа персонажа - manager и maker, и что для manager хорошо, то для maker смерть☠️
Для менеджера это ок иметь по 5-6 встреч в день, а вот для творца или как его модно сейчас называть Individual Contributor (IC) - встречи только мешают. Я сам по себе знаю почти все встречи, которые у меня есть и на которых больше 3х человек - это чистый waste времени.
Но статья про другое, что для того, чтобы сделать кусочек работы, IC должен как минимум использовать блоки времени по 4 часа (половина рабочего дня), и если дробить день, то не будет и результата.
Я по себе знаю, если у меня есть окно 2 часа между встречами, то я особо ничего не сделаю. Поэтому самое продуктивное время это после окончания работы.
Хорошая статья, и полезная для менеджеров, чтобы не тревожить разработчиков без надобности и давать им больше времени для фокуса.
👍75🔥6❤1👏1
Datalearn немного встрял, потому что появилось много дополнительной работы и сейчас иногда приходиться работать с 6 утра до 10 вечера. Знания и опыт тоже растёт и будет чем поделиться.
Возникла идея упростить процесс. Например, раньше я делал презентацию и потом по ней рассказывал и показывал демо, это занимает 6-8 часов. Если сократить процесс, например открыть кучу вкладок или главу в книге o’reilly и по ней пройтись, то процесс ускориться в разы, может стоит так доделать всё? Ну или ещё варианты?
Другой concern что западные облака и compute resellers (snowflake, databricks и тп) - недавно услышал такой термин, не очень востребованы в РФ, и может быть ценности в datalearn меньше из-за этого.
Возникла идея упростить процесс. Например, раньше я делал презентацию и потом по ней рассказывал и показывал демо, это занимает 6-8 часов. Если сократить процесс, например открыть кучу вкладок или главу в книге o’reilly и по ней пройтись, то процесс ускориться в разы, может стоит так доделать всё? Ну или ещё варианты?
Другой concern что западные облака и compute resellers (snowflake, databricks и тп) - недавно услышал такой термин, не очень востребованы в РФ, и может быть ценности в datalearn меньше из-за этого.
👍58🤔3❤1🥰1😁1🤬1
snowflake-the-definitive-guide.pdf
26.1 MB
Snowflake: The Definitive Guide
You’ll learn how Snowflake users can build modern integrated data applications and develop new revenue streams based on data. Using hands-on SQL examples, you’ll also discover how the Snowflake Data Cloud helps you accelerate data science by avoiding replatforming or migrating data unnecessarily.
-Efficiently capture, store, and process large amounts of data at an amazing speed
-Ingest and transform real-time data feeds in both structured and semistructured formats and deliver meaningful data insights within minutes
-Use Snowflake Time Travel and zero-copy cloning to produce a sensible data recovery strategy that balances system resilience with ongoing storage costs
-Securely share data and reduce or eliminate data integration costs by accessing ready-to-query datasets available in the Snowflake Marketplace
You’ll learn how Snowflake users can build modern integrated data applications and develop new revenue streams based on data. Using hands-on SQL examples, you’ll also discover how the Snowflake Data Cloud helps you accelerate data science by avoiding replatforming or migrating data unnecessarily.
-Efficiently capture, store, and process large amounts of data at an amazing speed
-Ingest and transform real-time data feeds in both structured and semistructured formats and deliver meaningful data insights within minutes
-Use Snowflake Time Travel and zero-copy cloning to produce a sensible data recovery strategy that balances system resilience with ongoing storage costs
-Securely share data and reduce or eliminate data integration costs by accessing ready-to-query datasets available in the Snowflake Marketplace
👍34🔥1
Сейчас многие организации говорят, что они не только data-driven (с этим более менее понятно) но и product-driven. Недавно познакомился с термином DACI. Вам знаком такой? Вот хорошее описание этого framework https://www.atlassian.com/team-playbook/plays/daci
Atlassian
DACI: A Decision-Making Framework | Atlassian Team Playbook
Use this DACI template to assign roles and responsibilities to each member of the team, making decision-making more efficient and effective.
👍14
Интересно, много людей еще пользуются SAP BusinessObjects? Попалась статья про их Roadmap.
Сообщили про несколько вещей:
- Self Service Analytics - еще с 2013 года развивают SAP Lumira
- Интеграция с облачным DWH SAP HANA, тоже не ново.
- Операционная отчетность (что-то из экосистемы SAP)
В целом совсем грустно, наверно у кого SAP BO сидят еще на версии 3, а если повезло то и на 4, других релизов-то и не было.
Кстати SAP BO оказался самым крутым инструментом для того, чтобы учить BI. Там есть все, но он не перегружен как Microstrategy. Для меня лушчая школа BI - SAP Business Objects, с Universes, вычисляемыми мерами, с локальным и веб клиентом.
Там есть все, что необходимо.
Сообщили про несколько вещей:
- Self Service Analytics - еще с 2013 года развивают SAP Lumira
- Интеграция с облачным DWH SAP HANA, тоже не ново.
- Операционная отчетность (что-то из экосистемы SAP)
В целом совсем грустно, наверно у кого SAP BO сидят еще на версии 3, а если повезло то и на 4, других релизов-то и не было.
Кстати SAP BO оказался самым крутым инструментом для того, чтобы учить BI. Там есть все, но он не перегружен как Microstrategy. Для меня лушчая школа BI - SAP Business Objects, с Universes, вычисляемыми мерами, с локальным и веб клиентом.
Там есть все, что необходимо.
SAP BI Blog
The SAP Business Intelligence Roadmap
The SAP Business Intelligence Roadmap: Evolution and Convergence By Jonathan Haun, Senior Director, BI and Technology Many of our clients want to know how best to navigate SAP’s business intelligen…
👍11