Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Практический вебинар VK Cloud: Погружение в MLflow API. Готовые рецепты и сценарии использования

Когда: 4 мая, 16:00 по Москве
📍 Регистрация

На вебинаре спикеры покажут основные этапы работы с ML-моделями в MLflow. Вы узнаете, как оценивать и сравнивать модели и выводить их в production.

В программе:

🔹 Принципы работы с MLflow на Jupyter в облаке и решение основных задач: логирования метрик, моделей и параметров.
🔹Сравнение различных ML-моделей и экспериментов с помощью извлеченных метрик.
🔹 Разбор большинства методов MLflow API.
🔹 Деплой ML-модели и демонстрация основных сценариев использования на практике.

Спикеры:

— Александр Волынский, технический менеджер продукта Cloud ML Platform, VK Cloud
— Сергей Артюхин, преподаватель курса «Симулятор ML», karpov.courses

Вебинар будет полезен дата-сайентистам, MLOps- и DevOps-инженерам и аналитикам данных.

Зарегистрироваться

#реклама
🌚4👨‍💻3😈2🌭1
Очень классно видеть как Power BI продвигает практики BI больше как код на примере Azure DevOps. Достаточно много информации как использовать git репозиторий и автоматические deploy изменения в production.

Я полностью поддерживаю подход git, CI/CD для профессий связанных с аналитикой. Хотя за 5 лет в Амазоне ниразу его не применял. То есть можно и без него обойтись, тогда вы недоинженер😛
👨‍💻21🍌4🌭2😈2
Я зарегистрировался на Snowflake Summit 26-29 июня в Лас Вегасе. Цена удовольствия 2000$ + отель + билеты. Но я сам не платил. Если кто еще отправится, сделайте чатик и в комментарии напишите, чтобы уже на месте встретиться и выпить за здоровье data🤠
🌭15🫡11🍾10🐳5🍌2🎄1
😎
❤‍🔥82🐳12🫡9💅4🍌2🌚1
Не знаю, на сколько это правда или нет - Chinese gaming co installed an AI CEO at one of their main subsidiaries in August. Stock outperformed.
🍌5🗿5👾1
Дали задачку переписать 2 петабайта JSON файлов в JSON.gz, то есть использовать компрессию.

Для распределенных систем компрессия дает преимущества и недостатки.

Using compressed JSON (JSON.GZ) as opposed to uncompressed JSON for raw data in Spark or Hadoop has several benefits:

1. Storage Space: Compressed JSON files take up less space on disk, reducing storage costs and making data management more efficient.
2. Network Efficiency: Smaller files mean less data needs to be transferred across the network, reducing network latency and bandwidth consumption.
3. Faster I/O: Reading and writing compressed JSON files can be faster than working with uncompressed JSON files because less data needs to be read from or written to disk.

However, there are also some trade-offs when using compressed JSON:

1. CPU Overhead: Compression and decompression processes can add some CPU overhead, which may offset the I/O benefits. This can be especially true for real-time, low-latency processing where decompression speed is critical.

2. Limited Random Access: Compressed files often have reduced random access capabilities, which means that specific data points cannot be read without decompressing the entire file. This can be a disadvantage for certain types of data processing tasks.


До меня товарищ использовал целый зоопарк технологий, включая AWS CDK на TypeScript он там создавал инфраструктуру (аналог terraform), в которой он запускает EC2, docker на Elastic Container Service (ECS), там еще есть AWS Batch и shell scriptы, которые скачивают файл S3, архивирует и загружает обратно. Уже минут через 10 я понял что здесь что-то не так. 😵 и оставшиеся 40 минут он там чего-то рассказывал и показывал и сказал, что еще нам час нужно, чтобы закончить историю🥸

Почему вообще так получилось? Изначально kinesics stream отдавал файлы и AWS Lambda записывала файл в формате JSON, потом пришла мысль, что на таком объеме можно сэкономить и нужно архивировать, стали писать JSON.gz.

Поэтому не пренебрегайте компрессией. Вообще для big data analytics рекомендуют такие методы:

1. Snappy: Developed by Google, Snappy is a fast, lightweight compression algorithm that is well-suited for big data processing systems like Hadoop and Spark. It balances compression ratio and speed, providing reasonable storage savings without adding too much CPU overhead.

2. LZO: Lempel-Ziv-Oberhumer (LZO) is another lightweight compression algorithm that offers fast compression and decompression speeds. Although its compression ratio may not be as high as gzip, it can be faster for data processing tasks.

3. Brotli: Brotli is a general-purpose, lossless data compression algorithm developed by Google that provides a better compression ratio than gzip while still offering good decompression speeds.

4. Zstandard (zstd): Developed by Facebook, Zstandard is a fast, lossless compression algorithm that balances a high compression ratio with fast decompression speeds. It can be a good choice for big data analytics as it offers improved performance over gzip in many cases.

Но как я понимаю, уже поздно что-то менять. Остался gunzip.

Но все на typescript точно можно выкинуть в помойку. На днях я попробую 2 метода:

1) в «лоб» через Spark прочитать JSON и записать JSON.gz. Как мы знаем тут у на. Сложность алгоритма O(N), не понятно как распаралелить процесс.
2) у Hadoop AWS EMR есть s3-dict-cp утилитка, которая все это делает.

В общем попробую 2 метода и потом расскажу как это работает. Может еще какие варианты есть, пишите в комментах.

PS я теперь тру инжынёр, купил подписку chatgpt4🤓
❤‍🔥44🍓6🌚5🐳3🍾1
Сегодня на одном проекте наш менеджер создал закрытый слак канал и пригласил всех инженеров, будет нас учить как нужно карьерно расти.

На минуточку, чувак был BI инженером (на самом деле и за всю жизнь работал в 2х компаниях и я бы его назвал python разработчиком). После инвестиций в X сотен млн в стартап, он стал директором инжиниринга данных, но без опыта создания хранилищ данных и управления людьми.

Жалко, что в компаниях нет Trial периода. Вот хочешь уйти на новое место, но не уверен, что там будет хорошо. Как бы хорошо было 3 месяца поработать в новом месте и если не понравилось, то вернуться обратно на старое. Но нет, если ты ушел, то “терпеть” придется целый год, чтобы не портить резюме. Ну либо вообще не добавлять компанию в резюме.

По опыту от менеджера зависит климат внутри команды, вам может повести, а может нет - 50 на 50, и если не повезло то 🤯

А если вы вдруг менеджер, будьте душкой для ваших коллег😽 и не забывайте всем поднимать зп на 30% ежегодно, а лучше ежеквартально!
👻61🐳11❤‍🔥8🌭6👾3🗿2🤷2😈1
Станьте специалистом широкого профиля в работе с данными — научитесь разрабатывать архитектуру данных на курсе Яндекс Практикума.

Выпускники смогут:
◾️ проектировать хранилища и пайплайны;
◾️ использовать инструменты DE: оркестраторы, контейнеры и не только;
◾️ работать со стриминговой обработкой данных и облачными хранилищами;
◾️ создавать хранилища Data Warehouse и Data Lake.

Что будет на учёбе:
— Реальные рабочие задачи и командные проекты.
— Код-ревью и персональные советы от действующих инженеров данных.
— Вебинары и продакшн-опыт от экспертов в инженерии данных.

Приходите учиться, если хотите развить свои компетенции или перейти на должность Data Engineer.

#реклама
🙈26🍓9🍌5🗿5🦄3🐳2💅2👨‍💻1
Хотите детям привить аналитические навыки? Попалась интересная и простая игра - Дата Детектив для детей 6-12 лет.
🦄28❤‍🔥3🙈2🗿1
Попался список сайтов для удаленной работы. Зайдя на первый, там сразу просят денег при регистрации😵. Про другие не знаю. Для меня всегда работал LinkedIn. Покидайте в комменты ресурсы, которые помогают искать удаленную работу с дата вакансиями.
👨‍💻7🙈6🗿1
❤‍🔥24🫡8🙈2
Решил помочь найти спикера для курса в университете в Тюмени, возможно даже онлайн вести уроки. Если бы не мои собственные работы и дела, с удовольствием бы провел время в Тюмени. Вдруг кто-то хочет применить свои знания и есть желание поделится опытом, преподавать в университете (можно удаленно). По оплате и условиям в личку у Гузель.

Здравствуйте, меня зовут Гузель, я занимаюсь развитием практико-ориентированной (ориентация на нефтегазовую отрасль) магистерской программы: Разработка интеллектуальных систем в Тюменском государственном университете. Ищу преподавателя(ей) на 2 дисциплины: "Методы распределенной обработки больших объемов данных" и "Методы распределенной обработки потоковых данных". На каждую из дисциплин запланировано по 40 пар (по 80 ак.часов). Это примерно по 3 пары в день на 5 недель. У нас модульная система обучения. Эти дисциплины запланированы на конец мая - июнь. Желательно конечно приехать к нам в Тюмень (тогда можно и плотнее поставить пары - по 4-5-6 пар в день, как будет удобно), но можно и онлайн на платформе MS Teams. Проезд и проживание оплачивается, как в принципе и проведение занятий, подробнее можно в личку: https://t.me/gn_chaparova, или на почту g.n.chaparova@utmn.ru.

Верхнеуровнево, что хотим видеть в дисциплинах:
1) Хранение Big Data, Распределенные и параллельные вычисления, Связь Data Science и Инжиниринга данных, Архитектура Hadoop, HDFS, MapReduce, Hive, Hbase, Архитектура Apache Spark, Spark Core, Data Streaming, Управление данными, ETL/ELT, Облачные решения, Адаптация ML-алгоритмов к распределенной среде и инструментам big data, Spark ML компоненты и модели, ML Engineering, Инструменты развертывания ML решений, Визуализация больших данных и BI инструменты.
2) Система реального времени, Различия между системами реального времени и потоковыми системами, Типичные паттерны взаимодействия, Масштабирование, Отказоустойчивость, Транспортировка данных из звена сбора данных, Анализ потоковых данных, Архитектуры распределённой обработки потоков, Алгоритмы анализа потоковых данных, Сохранение результатов сбора и анализа потоковых данных, Фильтрация потока, Инструменты: Apache Flink, Apache Storm, Apache Kafka, Apache Nifi, Apache Airflow, DBT Tool, Apache Sqoop. Буду рада сотрудничеству.
🍓14❤‍🔥9🌚4🙈4🤷3🐳2🤷‍♂1
Мир не будет прежним - "ETL in Power BI", дальше будет Big Data in Excel, Dashboards in Notepad, Streaming in Bathroom, Sleeping in Kitchen and so on.

Тортики они пекут в Power BI ... а потом пойди разгреби эти "пирожки" когда у вас будет 200 дашбордов, десятки показателей и 5-10из них будут "Revenue".

Забыли книгу рецептов добавить - ChatGPT🙈
👻60🙈19🌭5🌚4😈3💅3🤷3❤‍🔥2
Forwarded from Виталий Шляпа
Спасибо большое курсу Data Learn и ребятам в чате!:)
Благодаря вам я нашёл работу в зарубежной компании и могу жить за границей, там, где мне нравится :)
Я начал проходить модули в октябре 2022г и в марте 2023 получил оффер!:) к этому моменту было пройдено 4.5 модулей, все были очень полезные, сыграли основную роль в трудоустройстве.
Потратил на рассылку резюме около 2х месяцев, в сумме выслал 230шт + Cover Letters :) было всего 3 отклика, но с третьего меня взяли и все получается отлично, навыков хватает :))


Может, это кому-то поможет:
1) До Data Learn я изучил Python (по книгам) и SQL (тренажёр на степик), на это ушло примерно 4 месяца. Мой опыт поиска вакансий говорит о том, что это необходимые навыки.
2) Не рекомендую изучать Python таким образом, как я :)) это долго и неэффективно, лучше пройти пару курсов на степике.
3) для конкретно той вакансии, по которой меня взяли, я изучил подробно их требования, вписал их в Резюме и дополнительно вкратце посмотрел уроки по MongoDB, оптимизации SQL-запросов (индексы), хранимым процедурам. Именно по этим вещам задавались вопросы, это было решающим.
+ проходил курс по Airflow, не закончил его, хотя указывал уже в резюме :))
4) Ещё я занимался всё это время английским с репетитором. У меня был уже довольно Хороший разговорный уровень (наверное, В1), нужно было подтянуть конструкции итп. Это необходимый навык, которым желательно начать заниматься как можно раньше.
5) теперь поработав есть идея для проекта, который, как мне кажется, должен помочь в поиске работы: взять какой-либо датасет. Загрузить его в MongoDB, как будто это сырые данные, поступающие с сайта или ещё откуда-либо. И с помощью Python написать ETL-процессы, которые будут:
А) брать данные из этого датасета
Б) трансформировать их с помощью pandas (или ещё как-то)
В) загружать, либо в SQL, либо в другую коллекцию MongoDB.
Г) на основе этого можно сделать дашборды
Нужно постараться сделать все красиво, по канонам программирования, написать документацию.
В итоге получится база данных, в которой будут храниться удобные таблицы для отчетности. Это то, чем я сейчас в принципе и занимаюсь на работе (кроме дашбордов) :)
Всем удачи, все получится, главное стараться и набраться немного терпения :)
Если хотите, пишите вопросы, помогу, чем смогу :)
❤‍🔥214🍾19🐳11👨‍💻5🫡4🍌3
Книга The Staff Data Engineer's безусловно идеально пойдет всем, кто хочет оставаться индивидуальным контрибьютером (IC), ну или просто разработчиком. Это альтернатива позиции менеджера. Я сам уже на этой позиции почти год в достаточно крупной американской компании. Разница достаточно большая между ролью старшего разработчика и стафф. Если старший разработчик эксперт в построении решений ("руки"), то уровень стафф должен еще видеть Big Picture для всей организации, синхронизироваться с бизнесом и разными командами, чтобы приносить пользу всей организации.

Другими словами от вас будут ждать Impact, вам будут ставить большую задачу, а вы уже сами ищите правильный варианта. От вас нет ожидания, что вы сделаете отчет или pipeline за один день, вы должны помочь решить, а нужен ли этот отчет и pipeline, насколько правильный подход выбран и тд. Важна качественная коммуникация с другими командами и business stakeholders.

Как то делился комментарием инженера из Амазона - Оплачивают за результат, а повышают за ваше отношение к работе. То есть, допустим вы много работаете и закрываете задачи и проекты, за это вам платят и дают бонус условный, а чтобы перейти на следующий уровень вам необходимо уже фокусироваться на behaviour, взаимоотношениях с коллегами, engineering best practices. Каждый раз когда остаются открытые вопросы и "висяки" я всегда стараюсь к ним возвращаться и не жду, что проблема решится сама собой. Такие же ожидания и у моего менеджера.

Я вас сильно не буду грузить своим небольшим опытом, так как есть замечательный обзор этой книги в 2х частях Обзор книги "The Staff Engineer's Path" и другой на схожую тематику Обзор книги “Staff Engineer”.

В целом пока все довольны, что я делаю. Но моему менеджеру не понравилось, что у меня нет career path и career goals. Так как я 50% в дата команде, а другие 50% в technical sales (в смысле не продаю сам, а делаю аналитические решения для technical account managers). То у меня есть возможность сделать большой impact на всю организацию и мой менеджер заинтересован сделать меня Principal инженером. Вся эта история мне напоминает "морковку перед носом осла", что обычно приводит к выгоранию. Другая проблема - это компенсация. Согласно моим подсчетам в Канадских реалиях, моя зп staff на 20-25% меньше возможного, и тогда при повышении на принципал (а это 1,5 - 2 года тяжкого труда), она вырастет всего на 20% максимум. Стоки я не рассматриваю, они не ликвидные следующие несколько лет.

Для себя я решил, что виду сильно не буду показывать, раз предлагают opportunity, буду соглашаться. Мне не так обидно, потому, что эта позиция 1/4 моего дохода на данный момент. Но я же всегда за справедливое распределение капитала среди инженеров😎
❤‍🔥47🫡11🗿1
У меня накопилось несколько интересных ссылок по инжинирингу данных, спешу с вами поделиться. Есть еще список машин, которые мне нравятся, но пока не понятно не понятно, что победит здравомыслие или не здравомыслие😂

Airbyte (кривой open source продукт с ETL connectors) опубликовал 2 поста по теме моделирования данных, идеально будет для собеседований.
- Data Modeling – The Unsung Hero of Data Engineering: An Introduction to Data Modeling (Part 1)
- Data Modeling – The Unsung Hero of Data Engineering: Modeling Approaches and Techniques (Part 2)

Snowflake опубликовал статья про Deep performance analysis with the new “query operator stats” in Snowflake - если вы работает со снежинкой, прочитайте.
Snowflake users can finally dig deep into query stats with this new function. This data was only available in the query profile visualization, and now you can get it in your SQL world with GET_QUERY_OPERATOR_STATS(). Let’s review the new function, and how to use it to get deeper insights while benchmarking.

Databricks купил AI-centric data governance platform Okera:
Databricks is aiming to integrate Okera’s technology into their existing data governance solution, Unity Catalog. The goal of the integration is to provide more AI-powered functionality to the Databricks platform.

Так же они выпустили бета - Databricks Marketplace (Public Preview): an open marketplace for data, analytics, and AI

Fujitsu консалтинг опубликовал A Practitioners Guide to Databricks vs Snowflake - где якобы сравнили 2 продукта, и пришли к выводу, что нужно покупать Кирпичи, и заказывать внедрение у Fujitsu. Как ни как сделали обзор фич каждого из продуктов.

Небольшой tutorial по DuckDb.

Европейские коллеги отправятся на https://datainnovationsummit.com/ в Стокгольм, а Северо Американские коллеги на Snowflake в Las Vegas.

PS Ранее я писал про архивирование S3 JSON в JSON.GZ, я попробовал 2 метода Spark (через RDD) и S3 DICT CP, оба варианта работают, но решил взять S3 dict cp, в обоих случаях ChatGPT 4 для меня написал код, которые сделает для меня PoC, что сэкономило кучу времени. Так как гуглить каждый параметр и команду заняло бы много времени.
❤‍🔥27👨‍💻6🐳3👻1
Вроде не 1ое апреля. Но Power BI я бы даже и устанавливать не стал бы😅
🤷‍♂36🗿10🫡4🍌3👻3
Про пост выше, я имел ввиду, что в должности VP такие шуточки не уместно, явно говорит о его компетенции как VP, да и дополнительные шильдики MP, CLTD тоже это подтверждают. Решил самоутвердится за счет несчастного Tableau😝

Тем не менее, я уже намекал на новинку от Power BI несколько раз, над который мы трудились довольно долго, и даже я немножечко почувствовал. 24-25 Мая будет Microsoft Build на котором будет анонс нового продукта от Power BI.

Программа:
- Microsoft Build keynote: Analytics in the age of AI
- Transform productivity with AI experiences for analytics
- Eliminate data silos with the next-generation data lake
- Modernize your data integration for petabyte-scale analytics
- Unlock value from your data with a modern data warehouseу
- Use Spark to accelerate your lakehouse architecture
- Secure, govern, and manage your data at scale
- Go from models to outcomes with end-to-end data science workflows
- Empower every BI professional to do more with data
- Sense, analyze, and generate insights with real-time analytics
- Accelerate your data potential with Microsoft

Как я понимаю, все это можно будет делать через Power BI Service. Что значит Azure Cloud + Power BI работают в связке.

Парадокс - Power BI мега популярен, возможно из-за удобства и популярности Excel и Windows для пользователей. А вот Azure Cloud аналитические решения не очень. Их продают в S&P500 компании, но реально работает хреново (data warehouse, data lake).

Даже если вы не работаете с Power BI, думаю будет полезный ивент, где затронут множество решений. В основном будут продукт менеджеры рассказывать, так что глубоко копать не будут. Уже после мероприятия можно будет более подробно посмотреть на новые фичи.

И да, к сожалению, табло нас так не радует, но у них и своего облака нет. А вот у Looker, Quicksight, DataLens оно есть, но тоже не сильно помогает.
🐳7😈2🫡2💅1
Рома Бунин опубликовал результаты анализа рынка вакансий в сравнении 2022/2021 на HH. Получается, что дата инженер все еще востребован, а вот data science и аналитики просели. Когда то так же было с data science, а потом каждый 2ой изучал этот предмет и хотел быть data scientist. Посмотрим как долго продержится инженер данных.

Для меня аналогия хорошей профессии - это электрик и сантехник. Так как понятно, чем занимаются люди и за что им платят, какую пользу приносят с первого дня работы. Есть набор инструментов и методик, всем они нужны. Так же и инженер данных, все понятно и прозрачно.

А вот чем занимается аналитик и data scientist, тут как повезет, от Excel до ML и MLOps.
🫡22🍓6🤷6🗿5🐳3🌚3🍾2👨‍💻2
Оперативненько! уже есть курсы по ChatGPT, бросайте ваши питоны и скули, и учите жпт!
🗿44🌚9🙈7🍓3
HR юмор всегда самый смешной🍩 и правдивый...
❤‍🔥170👻7🌚6