Инжиниринг Данных – Telegram

Инжиниринг Данных

23.5K subscribers

1.98K photos

56 videos

192 files

3.2K links

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Download Telegram

About

Blog

Apps

Platform

Инжиниринг Данных

23.5K subscribers

Инжиниринг Данных

Feature Store.pdf

На самом деле хотел расшарить слайды про Feature Store от Databricks.

Для мне термин feature store значит хранилище данных для ML инженеров или Data Scientist (кому как нравится).

PS если хочешь узнать точное определение, надо написать неточное в☝️

🙈3🍌1

7.65K viewsDmitry, 03:00

Инжиниринг Данных

Новый термин - Data Intelligence Platform от Databricks.

Database -> Data Mart -> Data Warehouse -> Data Lake -> Lake House -> Data Platform -> Data Intelligence Platform.

Ничего не забыл упомянуть?

Ах вот подсказывают в чате...

Data Wizardry Workshop - Where data spells are crafted!

Information Lagoon - A relaxed, tropical take on data storage.

Byte Bayou - A swampy, mysterious place for mysterious data.

Cloud Castle of Computations - High above it all, where data reigns supreme.

Digital Doughnut Depot - Because who doesn't like doughnuts with their data?

Pixel Palace - A regal residence for refined data.

Circuit Circus - A fun, chaotic jumble of data and entertainment.

Memory Lane Museum - A nostalgic trip through historical data.

Quantum Quarters - The futuristic abode of next-gen data.

Binary Beach Resort - Where data goes on vacation.

Neural Network Nook - A cozy corner for AI-driven data insights.

Data Dungeon - For those deep, dark data secrets.

Algorithm Abbey - A serene sanctuary for structured data analysis.
Info Island - An isolated oasis of organized information.

🙈26🙉9🙊9🐳4❤‍🔥2😭2🗿2⚡1

8.38K viewsDmitry, edited 01:07

Инжиниринг Данных

Все чаще замечаю продукт для тестов и качества данных Soda. Есть open source - soda core (где то я уже это слышал), а есть коммерческая версия soda platform. Обязательно попробуйте на следующем проекте. Кто-нибудь начал использовать?

А еще все топят за data contracts. В той же soda есть и в новом релизе dbt core, как получилось у вас «заключить контракт»?

💯11

7.7K viewsDmitry, edited 04:46

Инжиниринг Данных

Наверна одна из самых больших новостей. Мне нравится Ethan за его взгляд на вещи! Мужик топчик, и кстати он выплатил ипотеку, так что красавчик. Надеюсь Sam тоже без ипотеки)))

https://techcrunch.com/2023/11/17/sam-altman-is-out-as-openais-ceo/

⚡14🗿5🤷4

7.69K viewsDmitry, edited 22:35

Инжиниринг Данных

Вот реально, это настолько правдиво, что одновременно и смешно и грустно.🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

💯113😭31🙈11🍌5🌭3🌚2🗿1

8.02K viewsDmitry, 05:47

Инжиниринг Данных

Это замечательная возможность работать командой над одной проблемой по 7-8 часов, параллельно обсуждая как тот или иной опыт должен выглдядеть в глазах hiring менеджера. А если умножить количество суббот, умноженное на количество недель в году, то как говорится будет ПУШКА!

Сегодня у нас было 2 проекта:

1й был про Azure Databricks networking configuration, на котором многие попробовали Azure первый раз, а главное мы поговорил о реальных инженерных кейсах про создание инфраструктуры, конфигурации сети, доступа, безопасности. Конкретно для Azure Databricks мы 7 часов долбашили:
- Virtual Network, Subnets
- Azure Firewall
- Private Endpoint
- Private Link
- NAT gateway
- Secure Cluster Connectivity (No Public IP)
- Network Security Groups
- Service Principal и managed identity
- Access Roles
- Key Vault
- Blob Storage

Не сказать, что мы достигли цели, но мы думаю опыта прибавилось.

Другой проект был в соседней комнате, на котором запускали с нуля dbt core, snowflake, все это конфигурировали и опубликовали в GitHub, затем запускали dbt модели в GitHub Actions. Тоже не все успели, но план намечен.

Самое главное, что каждый проект требует время на подготовку и на документирование результата, ведь очень важно написать красивую истори в блог на medium и добавить код в GitHub, не просто код, а код, где каждая строчка написана самостоятельно и каждая команда запущена не один десяток раз.

Уже планы на следующую субботу:
1. Нужно сделать задание с Microsoft Fabric Lakehouse + Power BI
2. Нужно взять dbt+snowflake и создать LookML модель в Looker. Оказывается у меня до сих пор есть рабочий сервер Looker с 2018 года, когда Rock Your Data была оффициальным партнером Looker.

Ну и другоей проект интересны про duckDb, dbt, meltano.

Я использую премиум Discord сервис, на котором есть комнаты, которые поддерживают удобный стриминг видео и screen share в отличном качестве, так же есть календарь с событиями. Офигенная платформа, можно конечно еще и игры стримить=)

Также ребята запустили комнату для Leetcode и вместе решают задачки, помимо этого народ ежедневно делится опытом поиска работы, результатом собеседований (плохих и хороших). То есть всем тем, что нацелено на максимальное достижение цели и результата в узкой области Data Engineer, Analytics Engineering, BI, product/marketing/finance analytics.

Вся переписка у нас на английском, но субботы пока на русском, народ подключился сегодня из Канады, США, Австралии, Европы. Вырабатывается четкое пониманию мирового рынка вакансий, зарплат, технологий и за счет diversity опыта, прикольно получается находить нестандартные решения для задач.

За 3+ года с datalearn, телеграм каналом выработался идеальных подход к изучению и обучению, который чем-то напоминаниет blockchain, идея что у меня нет централизации знаний, инструментов, туторилов. Я не создаю тренажеры и площадки для решения задачек. Я беру реальные проблемы из своего 14 летнего опыта и пытаюсь решить их использую технологии как кубики лего, чтобы соответствовало современным требованиям и ожиданиям рынка.

PS так что surfalytics решает, и самое главное я нашел для себя баланс как все так же помогать другим, но при этом покрывать расходы и отслеживать метрику эффективности Surfalytics сообщества - подписка 20CAD в месяц (4 кофе в месяц), если интересно Welcome!

А еще у нас будут обязательно настоящие surf camps в Канаде, Орегоне, Австралии и Европе!

Services · Surfalytics

Surfalytics is your online launchpad into data analytics, offering a comprehensive, hands-on curriculum that focuses on the crucial 20% of knowledge that yields 80% of results, effectively preparing you for a rewarding career globally.

❤‍🔥69⚡9🍌5

7.51K viewsDmitry, edited 05:02

Инжиниринг Данных

Кто в теме, тот оценит прикол! А кто не в теме, товарищ ceo snowflake, и он не про аналитику или хранилище данных. Он как фермер и его урожай бабло после IPO🤑

🫡20🙈2🗿2🙉2🙊2❤‍🔥1

7.01K viewsDmitry, 19:32

Инжиниринг Данных

Вот это скорость! Быстро приняли решения и газ в пол. Sam и его корешок будут теперь в Microsoft.

⚡34🫡5🌚4🙊4🤷‍♀2

6.91K viewsDmitry, 16:24

Инжиниринг Данных

Forwarded from Книжный куб (Alexander Polomodov)

CAP Theorem

Знаменитой CAP теореме исполнилось 25 лет, поэтому хотелось что это такое, зачем она и как появилась. Про это есть отличная статья от Eric Brewer, автора теоремы, который написал ее больше 10 лет назад, которую хотелось вспомнить, так как она хороша:)
Начнем с самого утверждения теоремы (цитата из статьи выше)

The CAP theorem states that any networked shared-data system can have at most two of three desirable properties:
- consistency (C) equivalent to having a single up-to-date copy of the data;
- high availability (A) of that data (for updates); and
- tolerance to network partitions (P).

Дальше надо вспомнить про ее появление
- 25 лет назад, осенью 1998 года была сформулирована CAP теорема
- в 1999 году она была опубликована в статье "Harvest, Yield, and Scalable Tolerant Systems" в ACM
- в 2000 представлена на Симпоузиуме "Symposium on Principles of Distributed Computing" (презентация здесь)
- в 2002 доказана формально (где консистентность из теоремы превратилась в линеаризуемость)
Потом теорема пошла в массы и превратилась в условные "выберите 2 свойства из трех: C, A, P", что является сильным упрощением по трем причинам, что указывает Эрик в уже упоминавшейся статье:
1. Из-за редкости partition нет смысла выбирать между C и A (про это подробнее в следующий раз при обсуждении PACELC Theorem)
2. Решение о C или A принимается не единоразово для всех компонентов и всех данных, а на другом уровне гранулярности и может зависеть от типа операции или данных
3. C, A, P - это не бинарные свойства, а скорее непрерывные - availability от 0 до 100%, уровни консистентности тоже бывают разные и даже partitions имеют нюансы:)

В итоге, Эрик говорит о том, что в отсутствии разделения системы мы можем выбирать A или C, а во время проблем у нас должен быть понятный алгоритм
- определения, что случился partition
- перехода в явный partition режим, в котором часть операций может быть лимитирована
- запуска процесса восстановления консистентности и компенсации ошибок, что возможно были в рамках partition

Потом Эрик рассказывает про связь акронимов ACID, BASE и CAP
- BASE расшифровывается как Basic Availability, Soft state и Eventually consistency. Первые два из свойств помогают достигать доступности при разделении системы на части
- ACID расшифровывается как Atomicity, Consistency, Isolation, Durability. Этот акроним знают многие, кто работал с реляционными базами данных, но как я писал выше Consistency из CAP и из ACID - это про разное и это добавляет сложности в понимании:)

Следом идет часть про latency, которая отсутствует в классической формулировке, но неявно присутствует. Ведь выполняя операцию в разделенной системе, мы в какой-то момент должны принять решение
- отменить операцию и уменьшить доступность
- продолжить операцию, но принять риск неконсистентности данных

Конечно можно попробовать повторно выполнить операцию (retries), но это просто откладывает принятие решение на некоторое время. Таким образом, с прагматической точки зрения разделение — это ограничение по времени (таймаут), который мы закладываем в свое общение. А из этого следует несколько последствий
1. Не существует глобального понятия partition, поскольку некоторые узлы могут обнаружить partition, а другие — нет.
2. Те узлы, что обнаружили partition входят в режим partition-mode, собственно ту часть, где нам надо выбирать между C и A
В итоге, проектировщики системы выставляют time bounds так, чтобы соответствовать целевым скоростям ответа системы на запросы, а чем жестче эти time bounds, тем выше вероятность попадания в partition mode, причем даже просто при медленной сети, но без реального ее разделения.

В приведенной выше статье есть еще много интересных мыслей про scope консистентности и как это соотносится с датацентрами, как явно управлять процессами перехода в partition mode и восстанавливаться после partition. Очень рекомендую ее к прочтению.

#Software #Architecture #DistributedSystems #SystemDesign

CAP Twelve Years Later: How the "Rules" Have Changed

The CAP theorem asserts that any networked shared-data system can have only two of three desirable properties (Consistency, Availability and Partition Tolerance). In this IEEE article, author Eric Brewer discusses how designers can optimize consistency and…

⚡14🗿4👨‍💻3

6.71K viewsDmitry, 21:16

Инжиниринг Данных

Главный data engineer influencer написал пост как он обрабатывал data set 100TB + (для особо современных подписчиках у него доступна версия в ТикТок). На картинке изображено дерево, как он обрабатывал каждый час и merge по 2 часа, потом по 4 часа и тп.

Он классно обозначал проблемы:
- data retention
- cost of storage (у нас кстати на одном проекте в S3 образовалось 700TB данных, а используем только 40)
- IO проблема
- data shuffle

Это еще повезло, что не надо исторически обновлять данные, так как это просто события. А прикиньте у вас данные по клиентам, и там например нужно взять сессию клиента, которая больше часа или 24 часов и использовать оконную функцию, тут уже так красиво не сделать.

💯27👨‍💻5❤‍🔥4⚡3

6.95K viewsDmitry, 05:29

Инжиниринг Данных

Все-таки Excel это отличная база. Satya Nadella не даст соврать! https://youtu.be/Gmz74e0r87M?si=IiRi3NNjHeQF03vO

Old Video Of Microsoft CEO Satya Nadella Giving Excel Demo #shorts #microsoft #satyanadella

Today, he's the CEO of a $1.8 trillion company.

In 1993, he was just another middle manager doing Excel demos.

Satya Nadella worked at Microsoft for 22 years.

He climbed the ladder.

And is worth ~$700 million today.

There are many ways to win.
#shorts…

💯23🌚3⚡2🤷1

6.97K viewsDmitry, 11:26

Инжиниринг Данных

Кто-то из вас уже получил письмо от Surfalytics! Ведь для datalearn я специально собирал emails студентов последние 3 года, чтобы потом рассказать им про Surfalytics.

Главная идея в том, что datalearn был эксперимент, где я проверял, разные вещи, что работает, а что нет, чтобы потом развернуть это глобально, что сейчас и делаю.

Datalearn так и остался -7 модулей, от Excel до Databrikcs. Этих знаний хватит с головой, чтобы выучится и найти 1ю работу, либо просто закрыть пробелы. Главный навык это фундаментальные знания для аналитическиго решения, терминология, разделение задач по специализациям и обзор современных инструментов.

Телеграм канал как и раньше будет про новости в мире аналитики, мемы и личнй блог, и успешный успех. Все за что вы меня любите.☺️

Вот первая расслыка - https://blog.surfalytics.com/p/moving-datalearn-to-surfalytics можете подписаться, много разных интересных идей, про что написать, и обязательно напишу. Если интересно, подписывайтесь!

Меня пока сильно бросает, утром могу писать пост в группе facebook "айтишник в канаде", а вечером залететь к филипинцам в группу и начать рассказывать про замечательные возможности дата карьеры, и в перерывах придумывать проекты для субботу и ревьювить резюмешки в нашем Discord.

А сколько еще груп по миру и всем надо рассказать и показать, что такое Surfalytics, и почему именно он стоит их времени и внимания, по-сути я конкурию за внимание аудитории, чтобы люди не Netflix смотрели или играли в консоль, а учились и развивались вместе с нами, глядишь еще и на серфе вместе покатаемся🤩

Please open Telegram to view this post

VIEW IN TELEGRAM

Moving DataLearn to Surfalytics

why do you get this email from Dmitry Anoshin?!

❤‍🔥84🍾8🌚4🙈2🫡1

6.9K viewsDmitry, edited 16:53

Инжиниринг Данных

Как использовать Spark в Kubernetes для обработки данных? Узнайте на бесплатном вебинаре

Разберем возможности, ограничения и специфические особенности работы с Apache Spark, развернутом на базе Kubernetes.

⏰ 05.12.2023, 15:00 МСК
⚡️Регистрация: https://bit.ly/3G8928x

В программе:

🔹 Запуск и настройка первого Spark приложения в Kubernetes.
🔹 Сценарии запуска пользовательского кода, в том числе с использованием S3.
🔹 Основные методы отладки, поиска ошибок и работы с логами в Spark Kubernetes.
🔹 QA-сессия.

Спикер:
- Александр Волынский, технический менеджер продукта, VK Cloud.

Приглашаем дата- и ML-инженеров, тимлидов и руководителей платформ данных, специалистов из команд DWH.

Регистрация: https://bit.ly/3G8928x

⚡23🐳5🍌1

8.32K viewsDmitry, 07:59

Инжиниринг Данных

Классическое аналитическое решение. Всем хороших принятых решений и побольше инсайтов.

❤‍🔥45💯19⚡7🙈7🌚3😭2🐳1🫡1

7.83K viewsDmitry, 16:43

Инжиниринг Данных

Наверно придется найти время в busy schedule, чтобы пройти такой курс https://www.deeplearning.ai/courses/generative-ai-with-llms/ хоть понять когда там инженеров планируют заменить ботами))

DeepLearning.AI - Learning Platform

Generative AI with Large Language Models

Understand the generative AI lifecycle. Describe transformer architecture powering LLMs. Apply training/tuning/inference methods. Hear from researchers on generative AI challenges/opportunities.

🗿8🎄4😭1

7.1K viewsDmitry, 21:25

Инжиниринг Данных

Это вам уже не самовар - а целая батарея, которая умеет майнить! Прикиньте самовар на дровах, который и воду греет и дом и еще биткоин добывает.

🌭19🎄5❤‍🔥3💯2🤷1

6.9K viewsDmitry, 22:36

Инжиниринг Данных

This media is not supported in your browser

VIEW IN TELEGRAM

Всё о Machine Learning на YaTalks 2023: доклады топовых экспертов

Ждём вас на конференции YaTalks 2023 — крупнейшем мероприятии Яндекса для IT-сообщества. Более 100 экспертов индустрии соберутся, чтобы поделиться кейсами и идеями, которыми можно вдохновиться. Выступления будут 5 и 6 декабря: офлайн — в Москве и Белграде, онлайн — в любой точке мира.

Вот что обсудим в первый день в треке Machine Learning ↓

«Ускоритель в масштабе планеты: как инженеры управляют временем» — доклад о технологиях, которые увеличили скорость целых городов и стран, и о том, что происходит уже сейчас и ждёт нас в будущем.
Алексей Гусаков, технический директор, Яндекс Поиск

«Практические аспекты обучения диффузионных моделей на примере YandexART» — про процесс обучения генеративных картиночных диффузионных моделей от а до я.
Сергей Овчаренко, руководитель группы нейросетевых технологий компьютерного зрения, Яндекс Поиск

«Сильный ИИ — миф или уже реальность?» — что сейчас умеют LLM, с чем ещё, кроме текстов, умеют работать и как они могут помочь в создании сверхсильной интеллектуальной машины.
Андрей Кузнецов, руководитель научной группы FusionBrain, AIRI

Вас ждут не только доклады, но и нетворкинг, лайвкодинг, Random Coffee с коллегами, карьерные консультации и живые встречи с топовыми экспертами. Регистрируйтесь по ссылке на один из дней и приходите ↓

Зарегистрироваться

Реклама. ООО "Яндекс". erid: 2VtzqxJFN5W

❤‍🔥12👨‍💻3🍌2😈1

6.97K viewsDmitry, 07:00

Инжиниринг Данных

Эспертный совет как все успевать. Хотя за меня все уже сказали аж в 1969 году в передаче Фитиль. Всем к просмотру и внедрению в вашу ежедневную рутину - отличный пример чем инженер от СТАФФ инженера отличается😅

Фитиль "Порожняк" (1969) смотреть онлайн

Смотрите на iPad: https://itunes.apple.com/ru/app/rvision-tv/id810243002
Подписывайтесь: http://www.youtube.com/subscription_center?add_user=FitilOfficial
Кинопортал RVision.tv - http://rvision.tv
Вступайте в группу: http://vk.com/rvision

Порожняк (1969)…

⚡35💯29👨‍💻5😭3🫡3

7.66K viewsDmitry, edited 19:20

Инжиниринг Данных

Будущее за децентрализацией.

Я не про blockchain. Но идея похожа. Я думал о том, почему одни успешнее других? И пришел к такомы выводу, что децентрализация образования, заработка, внимания и всего остального намного эффективней централизации.

Note: в начале карьры важна централизация, чтобы овладедь минимальными навыками в профессии.

Давайте рассмотрим несколько примеров.

1. Учеба, курсы, тренинги, повышение квалификации.

Ни одна школа, ни одни платные курсы вам не помогут получить нужный результат. Их фокус прибыль. Их воронка продаж это 1-2 success stories, и "обещания" найти работу в data, front-end, AI, QA и тп. (Я заметил, что самый треш происходит в Data Science, там вообще концов не найти, что учить, зачем, для чего).

Децентрализация обучения это возможность использовать открытые ресурсы и комбинировать их вметсе. Пример - вендорские тренинги Snowflake/Databricks, tutorials dbt/Astro. Хорошие видео на youtube, конференции, опыт экспертов.

Список и конфигурация будет всегда менятся в зависимости от движения рынка, региона, экономической и политической ситуации. Сегодня одно, завтра другое.

2. Децентрализация зароботка.

3. Децентрализация фокуса и внимания.

Например до 2023 года мой фокус был направлен на изучения технологий. Книги и тренинги по технологиям. Каждый год появлялось что-то новое. Видео про технологии, конференции про технологии. С утра до вечера про технологии. Технологическая централизация, которая не позволяла расширить горизонт. В 2024 году я буду делать и читать, что угодно, но только не еще одна технологическая книга или конференция. Профита от этого мало.

Что еще можно децентрализировать?

⚡52💯13🍾4👨‍💻3❤‍🔥1🌭1🗿1🦄1

7.58K viewsDmitry, edited 21:34

Инжиниринг Данных

Ладно, закрываем дискуссию про бабло! Всем хороших выходных! https://youtu.be/3uVDwerwoC0?si=ph1e--LhnEoIDsas

Антоха МС — Бабки

Съемки проходили на прекрасном и красивом Плещеевом Озере.

Слушайте трек «Бабки» на площадках — https://band.link/A1KFV

Режиссер/оператор: Петр Тимофеев https://www.instagram.com/peterandcomputer/
Фокуспуллер: Игорь Киселев https://instagram.com/garrikislow…

🍾14⚡2❤‍🔥2🌭1😭1👨‍💻1

7.45K viewsDmitry, 23:47

Инжиниринг Данных

Чувак про Rust в контексте Инжиниринга Данных рассказывает https://seattledataguy.substack.com/p/behind-the-rust-hype-what-every-data

По-моему мнения это пока больше "по приколу" чем реально строить pipelines.

А вы как думаете?

Behind the Rust Hype: What Every Data Engineer Needs to Know

Rust, Rust, Rust.

⚡2

7.16K viewsDmitry, edited 16:34