Инжиниринг Данных

Новый термин - Data Intelligence Platform от Databricks.

Database -> Data Mart -> Data Warehouse -> Data Lake -> Lake House -> Data Platform -> Data Intelligence Platform.

Ничего не забыл упомянуть?

Ах вот подсказывают в чате...

Data Wizardry Workshop - Where data spells are crafted!

Information Lagoon - A relaxed, tropical take on data storage.

Byte Bayou - A swampy, mysterious place for mysterious data.

Cloud Castle of Computations - High above it all, where data reigns supreme.

Digital Doughnut Depot - Because who doesn't like doughnuts with their data?

Pixel Palace - A regal residence for refined data.

Circuit Circus - A fun, chaotic jumble of data and entertainment.

Memory Lane Museum - A nostalgic trip through historical data.

Quantum Quarters - The futuristic abode of next-gen data.

Binary Beach Resort - Where data goes on vacation.

Neural Network Nook - A cozy corner for AI-driven data insights.

Data Dungeon - For those deep, dark data secrets.

Algorithm Abbey - A serene sanctuary for structured data analysis.
Info Island - An isolated oasis of organized information.

🙈26🙉9🙊9🐳4❤‍🔥2😭2🗿2⚡1

8.38K viewsDmitry, edited 01:07

Инжиниринг Данных

Все чаще замечаю продукт для тестов и качества данных Soda. Есть open source - soda core (где то я уже это слышал), а есть коммерческая версия soda platform. Обязательно попробуйте на следующем проекте. Кто-нибудь начал использовать?

А еще все топят за data contracts. В той же soda есть и в новом релизе dbt core, как получилось у вас «заключить контракт»?

💯11

7.7K viewsDmitry, edited 04:46

Инжиниринг Данных

Наверна одна из самых больших новостей. Мне нравится Ethan за его взгляд на вещи! Мужик топчик, и кстати он выплатил ипотеку, так что красавчик. Надеюсь Sam тоже без ипотеки)))

https://techcrunch.com/2023/11/17/sam-altman-is-out-as-openais-ceo/

⚡14🗿5🤷4

7.69K viewsDmitry, edited 22:35

Инжиниринг Данных

Вот реально, это настолько правдиво, что одновременно и смешно и грустно.🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

💯113😭31🙈11🍌5🌭3🌚2🗿1

8.02K viewsDmitry, 05:47

Инжиниринг Данных

Это замечательная возможность работать командой над одной проблемой по 7-8 часов, параллельно обсуждая как тот или иной опыт должен выглдядеть в глазах hiring менеджера. А если умножить количество суббот, умноженное на количество недель в году, то как говорится будет ПУШКА!

Сегодня у нас было 2 проекта:

1й был про Azure Databricks networking configuration, на котором многие попробовали Azure первый раз, а главное мы поговорил о реальных инженерных кейсах про создание инфраструктуры, конфигурации сети, доступа, безопасности. Конкретно для Azure Databricks мы 7 часов долбашили:
- Virtual Network, Subnets
- Azure Firewall
- Private Endpoint
- Private Link
- NAT gateway
- Secure Cluster Connectivity (No Public IP)
- Network Security Groups
- Service Principal и managed identity
- Access Roles
- Key Vault
- Blob Storage

Не сказать, что мы достигли цели, но мы думаю опыта прибавилось.

Другой проект был в соседней комнате, на котором запускали с нуля dbt core, snowflake, все это конфигурировали и опубликовали в GitHub, затем запускали dbt модели в GitHub Actions. Тоже не все успели, но план намечен.

Самое главное, что каждый проект требует время на подготовку и на документирование результата, ведь очень важно написать красивую истори в блог на medium и добавить код в GitHub, не просто код, а код, где каждая строчка написана самостоятельно и каждая команда запущена не один десяток раз.

Уже планы на следующую субботу:
1. Нужно сделать задание с Microsoft Fabric Lakehouse + Power BI
2. Нужно взять dbt+snowflake и создать LookML модель в Looker. Оказывается у меня до сих пор есть рабочий сервер Looker с 2018 года, когда Rock Your Data была оффициальным партнером Looker.

Ну и другоей проект интересны про duckDb, dbt, meltano.

Я использую премиум Discord сервис, на котором есть комнаты, которые поддерживают удобный стриминг видео и screen share в отличном качестве, так же есть календарь с событиями. Офигенная платформа, можно конечно еще и игры стримить=)

Также ребята запустили комнату для Leetcode и вместе решают задачки, помимо этого народ ежедневно делится опытом поиска работы, результатом собеседований (плохих и хороших). То есть всем тем, что нацелено на максимальное достижение цели и результата в узкой области Data Engineer, Analytics Engineering, BI, product/marketing/finance analytics.

Вся переписка у нас на английском, но субботы пока на русском, народ подключился сегодня из Канады, США, Австралии, Европы. Вырабатывается четкое пониманию мирового рынка вакансий, зарплат, технологий и за счет diversity опыта, прикольно получается находить нестандартные решения для задач.

За 3+ года с datalearn, телеграм каналом выработался идеальных подход к изучению и обучению, который чем-то напоминаниет blockchain, идея что у меня нет централизации знаний, инструментов, туторилов. Я не создаю тренажеры и площадки для решения задачек. Я беру реальные проблемы из своего 14 летнего опыта и пытаюсь решить их использую технологии как кубики лего, чтобы соответствовало современным требованиям и ожиданиям рынка.

PS так что surfalytics решает, и самое главное я нашел для себя баланс как все так же помогать другим, но при этом покрывать расходы и отслеживать метрику эффективности Surfalytics сообщества - подписка 20CAD в месяц (4 кофе в месяц), если интересно Welcome!

А еще у нас будут обязательно настоящие surf camps в Канаде, Орегоне, Австралии и Европе!

Surfalytics

Services · Surfalytics

Surfalytics is your online launchpad into data analytics, offering a comprehensive, hands-on curriculum that focuses on the crucial 20% of knowledge that yields 80% of results, effectively preparing you for a rewarding career globally.

❤‍🔥69⚡9🍌5

7.51K viewsDmitry, edited 05:02

Инжиниринг Данных

Кто в теме, тот оценит прикол! А кто не в теме, товарищ ceo snowflake, и он не про аналитику или хранилище данных. Он как фермер и его урожай бабло после IPO🤑

🫡20🙈2🗿2🙉2🙊2❤‍🔥1

7.01K viewsDmitry, 19:32

Инжиниринг Данных

Вот это скорость! Быстро приняли решения и газ в пол. Sam и его корешок будут теперь в Microsoft.

⚡34🫡5🌚4🙊4🤷‍♀2

6.91K viewsDmitry, 16:24

Инжиниринг Данных

Forwarded from Книжный куб (Alexander Polomodov)

CAP Theorem

Знаменитой CAP теореме исполнилось 25 лет, поэтому хотелось что это такое, зачем она и как появилась. Про это есть отличная статья от Eric Brewer, автора теоремы, который написал ее больше 10 лет назад, которую хотелось вспомнить, так как она хороша:)
Начнем с самого утверждения теоремы (цитата из статьи выше)

The CAP theorem states that any networked shared-data system can have at most two of three desirable properties:
- consistency (C) equivalent to having a single up-to-date copy of the data;
- high availability (A) of that data (for updates); and
- tolerance to network partitions (P).

Дальше надо вспомнить про ее появление
- 25 лет назад, осенью 1998 года была сформулирована CAP теорема
- в 1999 году она была опубликована в статье "Harvest, Yield, and Scalable Tolerant Systems" в ACM
- в 2000 представлена на Симпоузиуме "Symposium on Principles of Distributed Computing" (презентация здесь)
- в 2002 доказана формально (где консистентность из теоремы превратилась в линеаризуемость)
Потом теорема пошла в массы и превратилась в условные "выберите 2 свойства из трех: C, A, P", что является сильным упрощением по трем причинам, что указывает Эрик в уже упоминавшейся статье:
1. Из-за редкости partition нет смысла выбирать между C и A (про это подробнее в следующий раз при обсуждении PACELC Theorem)
2. Решение о C или A принимается не единоразово для всех компонентов и всех данных, а на другом уровне гранулярности и может зависеть от типа операции или данных
3. C, A, P - это не бинарные свойства, а скорее непрерывные - availability от 0 до 100%, уровни консистентности тоже бывают разные и даже partitions имеют нюансы:)

В итоге, Эрик говорит о том, что в отсутствии разделения системы мы можем выбирать A или C, а во время проблем у нас должен быть понятный алгоритм
- определения, что случился partition
- перехода в явный partition режим, в котором часть операций может быть лимитирована
- запуска процесса восстановления консистентности и компенсации ошибок, что возможно были в рамках partition

Потом Эрик рассказывает про связь акронимов ACID, BASE и CAP
- BASE расшифровывается как Basic Availability, Soft state и Eventually consistency. Первые два из свойств помогают достигать доступности при разделении системы на части
- ACID расшифровывается как Atomicity, Consistency, Isolation, Durability. Этот акроним знают многие, кто работал с реляционными базами данных, но как я писал выше Consistency из CAP и из ACID - это про разное и это добавляет сложности в понимании:)

Следом идет часть про latency, которая отсутствует в классической формулировке, но неявно присутствует. Ведь выполняя операцию в разделенной системе, мы в какой-то момент должны принять решение
- отменить операцию и уменьшить доступность
- продолжить операцию, но принять риск неконсистентности данных

Конечно можно попробовать повторно выполнить операцию (retries), но это просто откладывает принятие решение на некоторое время. Таким образом, с прагматической точки зрения разделение — это ограничение по времени (таймаут), который мы закладываем в свое общение. А из этого следует несколько последствий
1. Не существует глобального понятия partition, поскольку некоторые узлы могут обнаружить partition, а другие — нет.
2. Те узлы, что обнаружили partition входят в режим partition-mode, собственно ту часть, где нам надо выбирать между C и A
В итоге, проектировщики системы выставляют time bounds так, чтобы соответствовать целевым скоростям ответа системы на запросы, а чем жестче эти time bounds, тем выше вероятность попадания в partition mode, причем даже просто при медленной сети, но без реального ее разделения.

В приведенной выше статье есть еще много интересных мыслей про scope консистентности и как это соотносится с датацентрами, как явно управлять процессами перехода в partition mode и восстанавливаться после partition. Очень рекомендую ее к прочтению.

#Software #Architecture #DistributedSystems #SystemDesign

InfoQ

CAP Twelve Years Later: How the "Rules" Have Changed

The CAP theorem asserts that any networked shared-data system can have only two of three desirable properties (Consistency, Availability and Partition Tolerance). In this IEEE article, author Eric Brewer discusses how designers can optimize consistency and…

⚡14🗿4👨‍💻3

6.71K viewsDmitry, 21:16

Инжиниринг Данных

Главный data engineer influencer написал пост как он обрабатывал data set 100TB + (для особо современных подписчиках у него доступна версия в ТикТок). На картинке изображено дерево, как он обрабатывал каждый час и merge по 2 часа, потом по 4 часа и тп.

Он классно обозначал проблемы:
- data retention
- cost of storage (у нас кстати на одном проекте в S3 образовалось 700TB данных, а используем только 40)
- IO проблема
- data shuffle

Это еще повезло, что не надо исторически обновлять данные, так как это просто события. А прикиньте у вас данные по клиентам, и там например нужно взять сессию клиента, которая больше часа или 24 часов и использовать оконную функцию, тут уже так красиво не сделать.

💯27👨‍💻5❤‍🔥4⚡3

6.95K viewsDmitry, 05:29

Инжиниринг Данных

Все-таки Excel это отличная база. Satya Nadella не даст соврать! https://youtu.be/Gmz74e0r87M?si=IiRi3NNjHeQF03vO

YouTube

Old Video Of Microsoft CEO Satya Nadella Giving Excel Demo #shorts #microsoft #satyanadella

Today, he's the CEO of a $1.8 trillion company.

In 1993, he was just another middle manager doing Excel demos.

Satya Nadella worked at Microsoft for 22 years.

He climbed the ladder.

And is worth ~$700 million today.

There are many ways to win.
#shorts…

💯23🌚3⚡2🤷1

6.97K viewsDmitry, 11:26

Инжиниринг Данных

Кто-то из вас уже получил письмо от Surfalytics! Ведь для datalearn я специально собирал emails студентов последние 3 года, чтобы потом рассказать им про Surfalytics.

Главная идея в том, что datalearn был эксперимент, где я проверял, разные вещи, что работает, а что нет, чтобы потом развернуть это глобально, что сейчас и делаю.

Datalearn так и остался -7 модулей, от Excel до Databrikcs. Этих знаний хватит с головой, чтобы выучится и найти 1ю работу, либо просто закрыть пробелы. Главный навык это фундаментальные знания для аналитическиго решения, терминология, разделение задач по специализациям и обзор современных инструментов.

Телеграм канал как и раньше будет про новости в мире аналитики, мемы и личнй блог, и успешный успех. Все за что вы меня любите.☺️

Вот первая расслыка - https://blog.surfalytics.com/p/moving-datalearn-to-surfalytics можете подписаться, много разных интересных идей, про что написать, и обязательно напишу. Если интересно, подписывайтесь!

Меня пока сильно бросает, утром могу писать пост в группе facebook "айтишник в канаде", а вечером залететь к филипинцам в группу и начать рассказывать про замечательные возможности дата карьеры, и в перерывах придумывать проекты для субботу и ревьювить резюмешки в нашем Discord.

А сколько еще груп по миру и всем надо рассказать и показать, что такое Surfalytics, и почему именно он стоит их времени и внимания, по-сути я конкурию за внимание аудитории, чтобы люди не Netflix смотрели или играли в консоль, а учились и развивались вместе с нами, глядишь еще и на серфе вместе покатаемся🤩

Please open Telegram to view this post

VIEW IN TELEGRAM

Surfalytics

Moving DataLearn to Surfalytics

why do you get this email from Dmitry Anoshin?!

❤‍🔥84🍾8🌚4🙈2🫡1

6.9K viewsDmitry, edited 16:53

Инжиниринг Данных

Как использовать Spark в Kubernetes для обработки данных? Узнайте на бесплатном вебинаре

Разберем возможности, ограничения и специфические особенности работы с Apache Spark, развернутом на базе Kubernetes.

⏰ 05.12.2023, 15:00 МСК
⚡️Регистрация: https://bit.ly/3G8928x

В программе:

🔹 Запуск и настройка первого Spark приложения в Kubernetes.
🔹 Сценарии запуска пользовательского кода, в том числе с использованием S3.
🔹 Основные методы отладки, поиска ошибок и работы с логами в Spark Kubernetes.
🔹 QA-сессия.

Спикер:
- Александр Волынский, технический менеджер продукта, VK Cloud.

Приглашаем дата- и ML-инженеров, тимлидов и руководителей платформ данных, специалистов из команд DWH.

Регистрация: https://bit.ly/3G8928x

⚡23🐳5🍌1

8.32K viewsDmitry, 07:59

Инжиниринг Данных

Классическое аналитическое решение. Всем хороших принятых решений и побольше инсайтов.

❤‍🔥45💯19⚡7🙈7🌚3😭2🐳1🫡1

7.83K viewsDmitry, 16:43

Инжиниринг Данных

Наверно придется найти время в busy schedule, чтобы пройти такой курс https://www.deeplearning.ai/courses/generative-ai-with-llms/ хоть понять когда там инженеров планируют заменить ботами))

DeepLearning.AI - Learning Platform

Generative AI with Large Language Models

Understand the generative AI lifecycle. Describe transformer architecture powering LLMs. Apply training/tuning/inference methods. Hear from researchers on generative AI challenges/opportunities.

🗿8🎄4😭1

7.1K viewsDmitry, 21:25

Инжиниринг Данных

Это вам уже не самовар - а целая батарея, которая умеет майнить! Прикиньте самовар на дровах, который и воду греет и дом и еще биткоин добывает.

🌭19🎄5❤‍🔥3💯2🤷1

6.9K viewsDmitry, 22:36

Инжиниринг Данных

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

Всё о Machine Learning на YaTalks 2023: доклады топовых экспертов

Ждём вас на конференции YaTalks 2023 — крупнейшем мероприятии Яндекса для IT-сообщества. Более 100 экспертов индустрии соберутся, чтобы поделиться кейсами и идеями, которыми можно вдохновиться. Выступления будут 5 и 6 декабря: офлайн — в Москве и Белграде, онлайн — в любой точке мира.

Вот что обсудим в первый день в треке Machine Learning ↓

«Ускоритель в масштабе планеты: как инженеры управляют временем» — доклад о технологиях, которые увеличили скорость целых городов и стран, и о том, что происходит уже сейчас и ждёт нас в будущем.
Алексей Гусаков, технический директор, Яндекс Поиск

«Практические аспекты обучения диффузионных моделей на примере YandexART» — про процесс обучения генеративных картиночных диффузионных моделей от а до я.
Сергей Овчаренко, руководитель группы нейросетевых технологий компьютерного зрения, Яндекс Поиск

«Сильный ИИ — миф или уже реальность?» — что сейчас умеют LLM, с чем ещё, кроме текстов, умеют работать и как они могут помочь в создании сверхсильной интеллектуальной машины.
Андрей Кузнецов, руководитель научной группы FusionBrain, AIRI

Вас ждут не только доклады, но и нетворкинг, лайвкодинг, Random Coffee с коллегами, карьерные консультации и живые встречи с топовыми экспертами. Регистрируйтесь по ссылке на один из дней и приходите ↓

Зарегистрироваться

Реклама. ООО "Яндекс". erid: 2VtzqxJFN5W

❤‍🔥12👨‍💻3🍌2😈1

6.97K viewsDmitry, 07:00

Инжиниринг Данных

Эспертный совет как все успевать. Хотя за меня все уже сказали аж в 1969 году в передаче Фитиль. Всем к просмотру и внедрению в вашу ежедневную рутину - отличный пример чем инженер от СТАФФ инженера отличается😅

YouTube

Фитиль "Порожняк" (1969) смотреть онлайн

Смотрите на iPad: https://itunes.apple.com/ru/app/rvision-tv/id810243002
Подписывайтесь: http://www.youtube.com/subscription_center?add_user=FitilOfficial
Кинопортал RVision.tv - http://rvision.tv
Вступайте в группу: http://vk.com/rvision

Порожняк (1969)…

⚡35💯29👨‍💻5😭3🫡3

7.66K viewsDmitry, edited 19:20

Инжиниринг Данных

Будущее за децентрализацией.

Я не про blockchain. Но идея похожа. Я думал о том, почему одни успешнее других? И пришел к такомы выводу, что децентрализация образования, заработка, внимания и всего остального намного эффективней централизации.

Note: в начале карьры важна централизация, чтобы овладедь минимальными навыками в профессии.

Давайте рассмотрим несколько примеров.

1. Учеба, курсы, тренинги, повышение квалификации.

Ни одна школа, ни одни платные курсы вам не помогут получить нужный результат. Их фокус прибыль. Их воронка продаж это 1-2 success stories, и "обещания" найти работу в data, front-end, AI, QA и тп. (Я заметил, что самый треш происходит в Data Science, там вообще концов не найти, что учить, зачем, для чего).

Децентрализация обучения это возможность использовать открытые ресурсы и комбинировать их вметсе. Пример - вендорские тренинги Snowflake/Databricks, tutorials dbt/Astro. Хорошие видео на youtube, конференции, опыт экспертов.

Список и конфигурация будет всегда менятся в зависимости от движения рынка, региона, экономической и политической ситуации. Сегодня одно, завтра другое.

2. Децентрализация зароботка.

3. Децентрализация фокуса и внимания.

Например до 2023 года мой фокус был направлен на изучения технологий. Книги и тренинги по технологиям. Каждый год появлялось что-то новое. Видео про технологии, конференции про технологии. С утра до вечера про технологии. Технологическая централизация, которая не позволяла расширить горизонт. В 2024 году я буду делать и читать, что угодно, но только не еще одна технологическая книга или конференция. Профита от этого мало.

Что еще можно децентрализировать?

⚡52💯13🍾4👨‍💻3❤‍🔥1🌭1🗿1🦄1

7.58K viewsDmitry, edited 21:34

Инжиниринг Данных

Ладно, закрываем дискуссию про бабло! Всем хороших выходных! https://youtu.be/3uVDwerwoC0?si=ph1e--LhnEoIDsas

YouTube

Антоха МС — Бабки

Съемки проходили на прекрасном и красивом Плещеевом Озере.

Слушайте трек «Бабки» на площадках — https://band.link/A1KFV

Режиссер/оператор: Петр Тимофеев https://www.instagram.com/peterandcomputer/
Фокуспуллер: Игорь Киселев https://instagram.com/garrikislow…

🍾14⚡2❤‍🔥2🌭1😭1👨‍💻1

7.45K viewsDmitry, 23:47

Инжиниринг Данных

Чувак про Rust в контексте Инжиниринга Данных рассказывает https://seattledataguy.substack.com/p/behind-the-rust-hype-what-every-data

По-моему мнения это пока больше "по приколу" чем реально строить pipelines.

А вы как думаете?

Substack

Behind the Rust Hype: What Every Data Engineer Needs to Know

Rust, Rust, Rust.

⚡2

7.16K viewsDmitry, edited 16:34

Инжиниринг Данных

Не всем зашло юмористическое видео Фитиль про вагоны, которое я расшарил выше.

История про взаимодействие с отечественным стартапом spenx, которые вроде как хотели делать аналитику на AWS и их заинтересовал сервис Rock Your Data и наша экспертиза в создании облачных аналитических решений.

После первого звонка на 2 часа, хотя оплатили только 1 час, был небольшой ping pong в Slack про следующие шаги, поис кандидатов и тп.

Насколько я понял, я уже должен был искать кандидатов и быть более активным в Slack. На мое возражение, что нужно более менее структурировать отношения и что я не готов бесплатно что-то делать, мужики написали, что они решили после нового года вернуться. И мне как раз и вспомнилась история про вагоны и я решил пошутить, но что-то пошло не по плану😂

В целом для подписчиков есть хорошая и плохая новость, хорошая у них возможно будут вакансии Data Engineer (я уже написал требования) и BI Engineer. Но плохая, вас могут послать😏

Вообще если мои посты и шутки вас бесят, то у вас будет конкурентное преимущество на собеседовнии!

🙈46🐳13🗿9🤷‍♂6❤‍🔥6💯3⚡2😭2

7.15K viewsDmitry, 22:07

About

Blog

Apps

Platform