Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Главный data engineer influencer написал пост как он обрабатывал data set 100TB + (для особо современных подписчиках у него доступна версия в ТикТок). На картинке изображено дерево, как он обрабатывал каждый час и merge по 2 часа, потом по 4 часа и тп.

Он классно обозначал проблемы:
- data retention
- cost of storage (у нас кстати на одном проекте в S3 образовалось 700TB данных, а используем только 40)
- IO проблема
- data shuffle

Это еще повезло, что не надо исторически обновлять данные, так как это просто события. А прикиньте у вас данные по клиентам, и там например нужно взять сессию клиента, которая больше часа или 24 часов и использовать оконную функцию, тут уже так красиво не сделать.
💯27👨‍💻5❤‍🔥43
Кто-то из вас уже получил письмо от Surfalytics! Ведь для datalearn я специально собирал emails студентов последние 3 года, чтобы потом рассказать им про Surfalytics.

Главная идея в том, что datalearn был эксперимент, где я проверял, разные вещи, что работает, а что нет, чтобы потом развернуть это глобально, что сейчас и делаю.

Datalearn так и остался -7 модулей, от Excel до Databrikcs. Этих знаний хватит с головой, чтобы выучится и найти 1ю работу, либо просто закрыть пробелы. Главный навык это фундаментальные знания для аналитическиго решения, терминология, разделение задач по специализациям и обзор современных инструментов.

Телеграм канал как и раньше будет про новости в мире аналитики, мемы и личнй блог, и успешный успех. Все за что вы меня любите.☺️

Вот первая расслыка - https://blog.surfalytics.com/p/moving-datalearn-to-surfalytics можете подписаться, много разных интересных идей, про что написать, и обязательно напишу. Если интересно, подписывайтесь!

Меня пока сильно бросает, утром могу писать пост в группе facebook "айтишник в канаде", а вечером залететь к филипинцам в группу и начать рассказывать про замечательные возможности дата карьеры, и в перерывах придумывать проекты для субботу и ревьювить резюмешки в нашем Discord.

А сколько еще груп по миру и всем надо рассказать и показать, что такое Surfalytics, и почему именно он стоит их времени и внимания, по-сути я конкурию за внимание аудитории, чтобы люди не Netflix смотрели или играли в консоль, а учились и развивались вместе с нами, глядишь еще и на серфе вместе покатаемся🤩
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥84🍾8🌚4🙈2🫡1
Как использовать Spark в Kubernetes для обработки данных? Узнайте на бесплатном вебинаре

Разберем возможности, ограничения и специфические особенности работы с Apache Spark, развернутом на базе Kubernetes.

05.12.2023, 15:00 МСК
⚡️Регистрация: https://bit.ly/3G8928x

В программе:

🔹 Запуск и настройка первого Spark приложения в Kubernetes.
🔹 Сценарии запуска пользовательского кода, в том числе с использованием S3.
🔹 Основные методы отладки, поиска ошибок и работы с логами в Spark Kubernetes.
🔹 QA-сессия.

Спикер:
- Александр Волынский, технический менеджер продукта, VK Cloud.

Приглашаем дата- и ML-инженеров, тимлидов и руководителей платформ данных, специалистов из команд DWH.

Регистрация: https://bit.ly/3G8928x
23🐳5🍌1
Классическое аналитическое решение. Всем хороших принятых решений и побольше инсайтов.
❤‍🔥45💯197🙈7🌚3😭2🐳1🫡1
Наверно придется найти время в busy schedule, чтобы пройти такой курс https://www.deeplearning.ai/courses/generative-ai-with-llms/ хоть понять когда там инженеров планируют заменить ботами))
🗿8🎄4😭1
Это вам уже не самовар - а целая батарея, которая умеет майнить! Прикиньте самовар на дровах, который и воду греет и дом и еще биткоин добывает.
🌭19🎄5❤‍🔥3💯2🤷1
This media is not supported in your browser
VIEW IN TELEGRAM
Всё о Machine Learning на YaTalks 2023: доклады топовых экспертов

Ждём вас на конференции YaTalks 2023 — крупнейшем мероприятии Яндекса для IT-сообщества. Более 100 экспертов индустрии соберутся, чтобы поделиться кейсами и идеями, которыми можно вдохновиться. Выступления будут 5 и 6 декабря: офлайн — в Москве и Белграде, онлайн — в любой точке мира.

Вот что обсудим в первый день в треке Machine Learning ↓

«Ускоритель в масштабе планеты: как инженеры управляют временем» — доклад о технологиях, которые увеличили скорость целых городов и стран, и о том, что происходит уже сейчас и ждёт нас в будущем.
Алексей Гусаков, технический директор, Яндекс Поиск

«Практические аспекты обучения диффузионных моделей на примере YandexART» — про процесс обучения генеративных картиночных диффузионных моделей от а до я.
Сергей Овчаренко, руководитель группы нейросетевых технологий компьютерного зрения, Яндекс Поиск

«Сильный ИИ — миф или уже реальность?» — что сейчас умеют LLM, с чем ещё, кроме текстов, умеют работать и как они могут помочь в создании сверхсильной интеллектуальной машины.
Андрей Кузнецов, руководитель научной группы FusionBrain, AIRI

Вас ждут не только доклады, но и нетворкинг, лайвкодинг, Random Coffee с коллегами, карьерные консультации и живые встречи с топовыми экспертами. Регистрируйтесь по ссылке на один из дней и приходите ↓

Зарегистрироваться

Реклама. ООО "Яндекс". erid: 2VtzqxJFN5W
❤‍🔥12👨‍💻3🍌2😈1
Эспертный совет как все успевать. Хотя за меня все уже сказали аж в 1969 году в передаче Фитиль. Всем к просмотру и внедрению в вашу ежедневную рутину - отличный пример чем инженер от СТАФФ инженера отличается😅
35💯29👨‍💻5😭3🫡3
Будущее за децентрализацией.

Я не про blockchain. Но идея похожа. Я думал о том, почему одни успешнее других? И пришел к такомы выводу, что децентрализация образования, заработка, внимания и всего остального намного эффективней централизации.

Note: в начале карьры важна централизация, чтобы овладедь минимальными навыками в профессии.

Давайте рассмотрим несколько примеров.

1. Учеба, курсы, тренинги, повышение квалификации.

Ни одна школа, ни одни платные курсы вам не помогут получить нужный результат. Их фокус прибыль. Их воронка продаж это 1-2 success stories, и "обещания" найти работу в data, front-end, AI, QA и тп. (Я заметил, что самый треш происходит в Data Science, там вообще концов не найти, что учить, зачем, для чего).

Децентрализация обучения это возможность использовать открытые ресурсы и комбинировать их вметсе. Пример - вендорские тренинги Snowflake/Databricks, tutorials dbt/Astro. Хорошие видео на youtube, конференции, опыт экспертов.

Список и конфигурация будет всегда менятся в зависимости от движения рынка, региона, экономической и политической ситуации. Сегодня одно, завтра другое.

2. Децентрализация зароботка.

3. Децентрализация фокуса и внимания.

Например до 2023 года мой фокус был направлен на изучения технологий. Книги и тренинги по технологиям. Каждый год появлялось что-то новое. Видео про технологии, конференции про технологии. С утра до вечера про технологии. Технологическая централизация, которая не позволяла расширить горизонт. В 2024 году я буду делать и читать, что угодно, но только не еще одна технологическая книга или конференция. Профита от этого мало.

Что еще можно децентрализировать?
52💯13🍾4👨‍💻3❤‍🔥1🌭1🗿1🦄1
Чувак про Rust в контексте Инжиниринга Данных рассказывает https://seattledataguy.substack.com/p/behind-the-rust-hype-what-every-data

По-моему мнения это пока больше "по приколу" чем реально строить pipelines.

А вы как думаете?
2
Не всем зашло юмористическое видео Фитиль про вагоны, которое я расшарил выше.

История про взаимодействие с отечественным стартапом spenx, которые вроде как хотели делать аналитику на AWS и их заинтересовал сервис Rock Your Data и наша экспертиза в создании облачных аналитических решений.

После первого звонка на 2 часа, хотя оплатили только 1 час, был небольшой ping pong в Slack про следующие шаги, поис кандидатов и тп.

Насколько я понял, я уже должен был искать кандидатов и быть более активным в Slack. На мое возражение, что нужно более менее структурировать отношения и что я не готов бесплатно что-то делать, мужики написали, что они решили после нового года вернуться. И мне как раз и вспомнилась история про вагоны и я решил пошутить, но что-то пошло не по плану😂

В целом для подписчиков есть хорошая и плохая новость, хорошая у них возможно будут вакансии Data Engineer (я уже написал требования) и BI Engineer. Но плохая, вас могут послать😏

Вообще если мои посты и шутки вас бесят, то у вас будет конкурентное преимущество на собеседовнии!
🙈46🐳13🗿9🤷‍♂6❤‍🔥6💯32😭2
В суббот прошла еще одна крутая сессия Surfalytics. Было 2 комнаты у нас:

1. Мы начали с Microsoft Fabric, оказалось не просто получить trial. Далее сделали в нем lakehouse, data pipeline, data model и дашборд. В качестве вывода оставили эту историю для темы про поговорить с hiring manager про современные инструменты и трудности preview от Microsoft.

Далее, показал Synapse Analytics, где мы посмотрели на Dedicated SQL Pool, Serverless SQL Pool, Spark Pool. Надеюсь все поняли разницу между Synapse и Fabric. Как раз картинка про это к посту. Ну только источники по идее будут в нем Fabric но все подключения настраиваются внутри.

А заодно изучили разницу между SQL и PySpark.

Далее, ребята решили дальше ковырять Azure. Насколько я понял в Европе Microsoft Azure популярен и много вакансий.

Вообще любой топик мы обсуждаем, мы смотрим через призму организации и реальных потребностей компании.

2. Продолжение прошлого проекта с dbt, Snowflake, GitHub actions, Astro, docker, Fivetran. Я там не участвовал, но жду блог посты и GitHub readme.md и кодом.

Суббота отличный день получить новые знания и закрыть пробелы. Далее будем дальше ковырять технологии для data engineer и bi/data analyst.
❤‍🔥367💯5🐳3
Non technical книги на 2024. Inspiration был от поста ранее, когда я спрашивал про soft skills. Пока начал с clear leadership, мощная штука, еще пойду к ним на тренинг за 3к$.
47❤‍🔥7🙈6🌭5🍌1
Пост про Liquid Clustering в Databricks.

В начале вообще говорят про партиции, что уже полезно, даже если вы не на Databricks. Далее показывают пример комманды в Spark и оценнка производительности.
7🐳3
❤‍🔥39💯10🙈4
Salary Advices.pdf
8.2 MB
🫡51❤‍🔥1310🌭1
Одно из главных видео уходящего года - https://youtu.be/PMfn9_nTDbM?si=G7unvD4FIT8SXTGV

PS так же посмотрите, если что понравится в playlist https://www.youtube.com/playlist?list=PL2yQDdvlhXf-5R7VtNr9P4nosA7DiDtM1

Я сам хотел поехать на машине с семьей в Вегас на конференцию за свой счет, но не договорился с начальством. Можете считать, меня тоже послали, но вежливо!😜
5❤‍🔥3🌭1😭1
Хороший креатив с AWS конференции. Я все никак не доберусь до Tabular.

Насколько я понял это как Athena, но для Iceberg. На одном проекте у нас Kafka пишет в S3 (JSON), далее мы используем Snowflake External Tables.

Задача писать кафкой сразу Iceberg в Snowflake Iceberg Managed table и как-то там использовать Tabular.

Кто-нибуть использовал?

На проекте Surfalytics обязательно попробуем.

В эту субботу будем:
- Snowflake 101 + Hex
- Just enough CLI and Shell for Data Roles
🦄20🤷5❤‍🔥4🐳2🌭1