Инжиниринг Данных
23.4K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Сейчас в Канаде активно набирает движение Freedom Convoy 2022.
Они подробно публикуют апдейты у себя в инстаграмме.

Мои родители меня спрашивают про это движение при каждом со звоне. В российских новостях этому уделяют больше внимание, чем в Канадских оффициальных.

Все началось очень просто, водителей, которые гоняют в штаты попросили сидеть на карантине 2 недели, если нет прививки, даже если они не выходят из машины. К счастью, у них есть своя ассоциация водителей и они решили, сказать государству - "а не офигели ли вы там случайно?" Сели в траки (прям как в фильме резиновый утенок) и поехали в Оттаву.

Пока они ехали, Трюдо сказал, что эти водители "‘Fringe minority’ in truck convoy with ‘unacceptable views’ don’t represent Canadians". Ведь людей без привок меньше 10 процентов. Но не тут то было, люди сказали "enougth is enogth". И Вышли на улицу, вышли ради своих детей, ради своих свобод. Они решили мирно высказать свое мнение и донести свою позицию до госудрства. Это движение anti mandate и ограничений. Кто хочет носить маску и сидеть дома, пусть сидит, кто не хочет, пусть живёт нормальной жизнью. Но государство не слышит. Или им это не выгодно в прямом и переносном смысле.

Илон Маск, написал "fringe minority is actually the government". Илон, ты красавчик! Дай пять

Кто не в теме, думает, что это движение антиваксеров и плоскоземельщиков. Именно это по оффициальным новостям и крутили. Но это совершенно не так. Это движение и единенение канадцев за их свободы и права. Канада была знаменита своими свободами, есть оффициальный документ - Canadian Charter of Rights and Freedoms. В пандемию все свободы пропали. Тут сильно развит малый бизнес, который был закрыт в пандемию и многое другое.

Последние пару лет мы стали уже париться про то, что Канада может быть и не такой прекрасной как нам казалось. Некоторые наши знакомые вернулись в Россию, другие в штаты.

Благодаря этим людям, Канадцы сплачиваются, выходят на улицу, и мирно бастуют. Люди ездят с флагами по всей стране. Это прекрасное ощущение единения простых людей, которые мирно и настойчиво отстаивают свои права.

В России пришла бы гвардия, отфигачила половину людей, других посадили, чтобы им было не повадно. В Беларуссии наверное похожая ситуация. Здесь ситуация другая, даже полицейские лояльны к движению, они не зависят от системы, они канадцы и любят свою страну.

Пока обходится все мирно. Несмотря на большое колличество провокаций, канадцы оперативно решают вопросы. Они чистят улицы, убирают мусор, кормят бездомных. Люди приносят еду, предоставляют ночлег.

Лично для меня и для многих наших знакомых это движение вернуло нам веру в канадцев и Канаду и мне действительно приятно себя ощущать канадцем и поддерживать таких людей.

Неважно какие будут результаты этого движения, о котором знает весь мир, меня переполняют чувства радости и поддержки к этим людям и мне приятно осозновать, что в Канаде столько добрых и замечательных людей! 🇨🇦
👍4817😱2🎉2
Forwarded from Data Coffee
▶️3️⃣8️⃣
Ещё один эпизод в копилку “технических”. Мы добрались до Snowflake и послушали правильного для этой темы человека! В гостях подкаста Data Coffee🎙 был Антон Ревяко — автор канала “Сингулярности не будет”, фаундер holistic.dev, dwh.dev и parsers.dev, заводила в snowflake чатах и канале со snowflake новостями.

Затронули следующие темы:
— что у Snowflake “под капотом”🏗
— что такое data marketplace🛍
— masking policies🎭
— зачем нужны статические анализаторы🔍
— а также история двух кофеен и другое

Слушайте подкаст🎧, пейте кофе☕️, и конечно же наслаждайтесь☀️!

#datacoffee #data #podcast #данные #подкаст #news

https://anchor.fm/data-coffee/episodes/38--Snowflake-Data-Cloud-e1dued5
🔥14👍5
Data learn Update. Я знаю вы ждете главу 7 про Spark. У меня уже все готово в голове. Я покажу Spark, расскажу попростому зачем он и что это такое, без всяких там RDD (их упомяну но использовать не хочу), чтобы вы смогли быстро понять, что за зверь и как его использовать/используют.

Проблема задержки в моем курсе по Cloud Computing в универе. Прошло 3 недели, еще 3 осталось. В неделю у меня 2 урока по 2 часа. То есть, то, что я могу рассказать за 30 минут, мне надо рассказывать 4 часа. Я так много могу говорить только про Аналитику в Облаке, а все остальное было очень кратко. То есть мне надо дико увеличивать объем слайдов с 20-30 до 150-200! Это занимает столько время, что у меня не остается на data learn и вообще даже на просто отдохнуть.

Помимо data learn мне нужно было въехать с 0 в Terraform, и я могу сказать, мне эта штука очень понравилась (вместо того, чтобы кликать мышкой в консоле облака, мы пишем код и terraform создает ресурсы для нас). Уже 2 недели ковыряю его на AWS, и есть результаты. Вчера начал на Azure, все завелось с 1го раза. Обязательно добавлю это дело в курс. ну и CI/CD тему тоже хочется получе понять. Я еще не видел ниодного доступного объяснения про DevOps для кейсов аналитики. Либо глубоко, либо поверхностно. И то и другое бесполезно, приходится вгрызаться в эти знания на Production. Зато потом смогу дености своим языком и будет всем счастье!))

Заметьте, даже и мысли не было использовать платные курсы! 😜
🔥57👍346🤩3
Forwarded from Alexandra
Приглашаем на бесплатный онлайн-митап Microsoft. Тема — «Microsoft Virtual Training Day: основы Power Platform».
9 февраля в 12.00 (МСК)

За 2,5 часа вы узнаете, как:
> создавать многофункциональные приложения;
> анализировать бизнес-производительность в режиме реального времени;
> анализировать данные и автоматизировать рабочие процессы для максимальной эффективности;
> использовать Dataverse для безопасного хранения данных и управления ими.

Вебинар впервые пройдёт на русском языке!

Зарегистрироваться можно уже сейчас: https://bit.ly/35HQHAh
Количество мест ограничено!
👍7😢1
Forwarded from Sergei Timofeev
Тема злободневная. https://habr.com/ru/post/650003/
🔥8👍1🤔1
Forwarded from swiftness
​​#Spark #Streaming #BigData #Structured

Spark Structured Streaming - это масштабируемый и отказоустойчивый механизм потоковой обработки данных на основе движка SparkSQL (см. официальную документацию Spark). Движок Spark SQL заботится о том, чтобы поток данных обрабатывался постепенно и непрерывно, обновляя конечный результат по мере поступления новых потоковых данных.

По итогу мы можем работать со стандартным инструментарием SQL-запросов через DataFrame API или операции Scala в DataSet API, чем Spark Structured отличается от Spark Streaming. Ключевая идея структурированной потоковой передачи состоит в том, чтобы обрабатывать поток данных в режиме реального времени как таблицу, которая постоянно обновляется - добавляются новые записи.

Эта неограниченная по глубине таблица продолжает увеличиваться по мере поступления новых данных и непрерывно обрабатывается с помощью долго выполняющегося запроса. Результаты обработки записываются в выходную таблицу. Каждый интервал триггера (скажем, каждую секунду) к входной таблице добавляются новые строки, которые в конечном итоге обновляют таблицу результатов (выходную таблицу).

На вход Spark Structured Streaming принимает файлы или данные из Kafka. Вывод данных определяет то, что именно будет записано во внешнее хранилище. Существует несколько режимов в Spark Structured Streaming:

⚙️ Режим добавления: во внешнее хранилище будут записаны только новые строки, добавленные в таблицу результатов с момента последнего триггера. Это применимо только к запросам, в которых не предполагается изменение существующих строк в таблице результатов.

⚙️ Режим обновления: во внешнее хранилище будут записываться только те строки, которые были обновлены в таблице результатов с момента последнего триггера.

⚙️ Полный режим: вся обновленная таблица результатов будет записана во внешнее хранилище. Storage Connector должен решить, как обрабатывать запись всей таблицы.

Какие же основные достоинства у этого механизма по сравнению с обычным Spark Streaming?

📍Мы используем DataFrame/DataSet вместо RDD, что обеспечивает более высокий уровень абстракции и позволяет гибко манипулировать данными, включая поддержку всех этапов оптимизации SQL-запросов

📍Начиная со Spark 2.3, в Spark Structured Streaming вместо микропакетной обработки поддерживается непрерывная, которая работает с минимальной задержкой (до 1 миллисекунды), что существенно ускоряет обработку данных.

📍Повысилась надежность и отказоустойчивость за счет условий восстановления после любой (!) ошибки - например, через воспроизводимость источника данных в случае сбоя.

📍Обработка времени события - времени, когда событие действительно (вне Spark) произошло. Это позволяет повысить точность вычислений и обработать события, которые пришли в Spark с опозданием.

Таким образом, для полноценной отказоустойчивой потоковой обработки, на мой взгляд, лучше использовать Spark Structured Streaming.
👍11
Forwarded from Data Nature 🕊 (Alex Barakov)
TDWI B Maturity Model Poster.png
897.8 KB
Eсть такой известный в узких кругах древний как бивни мамонта постер - Модель BI Зрелости от авторитетных ребят из TDWI. Прошло прилично времени, много BI продуктов родились и умерли, но постер все еще хороший и таки актуальный:

... сейчас кажется 95% компаний прям таки столпились на краю второй пропасти ("chasm") для шага из teenager в adult стадию. В этой точке сходятся кривые гибкости и стандартизованности. Выход - сложные переговоры и консолидация аналитики и BI ландшафта. Где-то в этой же точке происходит переход от Self-Service к Customized Delivery, открывающий перспективу роста для числа casual users в бизнесе. Похоже на правду.

Кажется авторитетные ребята шарят и уже тогда что-то знали..

P.S. Всем BI Зрелости в новом году)🎅 Побольше адекватности и драйва! С наступающим!

Постер в высоком разрешении
🔗 TDWI_BI_Maturity_Model_Poster

#biстратегия
👍6
Пост про подходы проектирования современного озера данных. И есть еще запись от AWS про схожую тему - Modern Data Lake Storage Layers
👍1
Всем привет!
В четверг (10 февраля) в 19:00 по мск вебинар.
Мы познакомимся с платформой по подготовке данных - Alteryx.
Тема: Знакомство с Alteryx на практике.

Чем будем заниматься:
Познакомимся с Alteryx и постараемся понять зачем он вообще нужен за такие-то деньги ($5к Individual User/Year).
За пару минут спарсим ~15 Гб данных и поразмышляем о вине и мифах он нем.
А именно, на основе собранных данных ответим на вопросы:
- Правда ли, что французское вино всегда лучше чилийского
- Действительно ли белое больше подходит к рыбе, а красное к мясу
- Определим всегда ли старое вино лучше молодого
- И есть ли корреляция между ценой на вино и его качеством

Спикер - Георгий Виноградов,
Head of Data Management at Novartis

Контакты спикера:
https://www.linkedin.com/mwlite/in/georgiy-vinogradov-b4208756
@vinogradov_g

Ссылка на вебинар:
https://youtu.be/G5B61Swflf4

Ставьте колокольчик, чтобы не пропустить
👍29🔥5
Data-driven организация с BI культорой))
😁5😢2
После недавнего поклощения - колличество сотрудников в MS Gaming
😱5👍3
data tool = octopus?)
мы слышали много раз про dbt tool, у них большое сообщество и есть конференция Coalesce, следующая будет в 2022 году. Имя на слуху. А что если назвать data компанию coalesce? Удобно же, будет хорошая "органика". И действительно, есть такая компания - coalesce announces 5.82m$ seed funding (reimagine data transformations). Я бы назвал компанию reInvent если че))
👍5
Личный бренд - нужен или не нужен? А если нужен, с чего начать.

Personal Brand - достаточно популярный термин в корпоративном мире. Его можно делать, а можно не делать. Каждый решает для себя. Личный бренд нельзя создать за месяц, и возможно и года будет мало. Это ваша репутация в индустрии, это ваше имя, которое ассоциируются с чем-то, как правило с вашими заслугами в том, чем вы занимаетесь и в том, что вы любите. Ведь вы должны любить то, что делаете!=)

Я постарался ответить себе на вопросы:
1) что такое личный бренд в моем понимании
2) хорошой бренд = суперстар?
3) помогает ли бренд получить работу?
4) как создать свой бренд?
5) какие преимущества у бренда
6) какие недостатки у личного бренда
7) бренд для РФ или запада?
8) токсичная среда у нас и позитивная за границей. (Хабр, реакция на ошибки)
9) нужно ли вам создавать личный бренд?

Time Codes:

- 0:15 Что такое личный бренд

- 1:36 Создание личного бренда

- 8:40 Создали бренд - что дальше

- 10:50 Создание бренда на Западе и в России

- 13:29 Заключение


Поддержка по звуку: Мак (PhD, NLP Eng.; подкаст Data Coffee)
🔥15👍7🎉1
Вот пример начала создания бренда:
1) в 2013 я сделал абы какой блог, не имея опыта я туда кое как чего то писал. Практиковал английский и мне это давало личной уверенности для собеседований. http://techbusinessintelligence.blogspot.com
2) позже стал выкладывать презенташки https://www.slideshare.net/dimoobraznii
и все какие были переводил на английский, уверенности стало в 2 раза больше🤣

Поэтому делайте что хотите и как хотите, это все пойдет на пользу в long term.
👍25
Мне пришла идея про data learn на английском, чтобы было не скучно. Я веду еще один канал про Xbox новости и игры, и последний пост у меня был про Unreal Engine и MetaHuman. И я понял, что было бы круто сделать datalearn в metaverse.

Ну начать сначала просто с meta персонажа, который будет копировать мою мимику и просто грузить результат на youtube. У меня всеравно стоит без дела самый навороченный PC для Game Dev и мы работаем на Unreal Engine 5 в области добавление ML и автоматизации элементов game dev. Но это скучно, а вот сделать по фану курс в таком формате будет огонь, но придется вложиться в оборудование. Может кому интересен такой концепт запилить DataLearn для всего мира в формате сериала Netflix (Любовь. Смерть. Роботы).

Я обязательно поковыряюсь в этом и спрошу коллег, чтобы прислать привет и метавселенной))
🔥11👍7
👍48😢15🎉1
Python_Packages_and_Environments.pdf
675.1 KB
Я смог пройти вот этот курс - Managing Python Packages and Virtual Environments и задокументировал его.
🔥24👍13
Data Engineer New(2).pdf
783.3 KB
Попался документ "WHAT DOES A DATA ENGINEER DO AT AMAZON" и чего ждать на интервью.
👍6🔥41