Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Forwarded from Data & IT Career
Работа на российскую компанию из-за рубежа: нюансы и риски
https://t.me/foranalysts/4882
https://vc.ru/hr/525349-rabota-na-rossiyskuyu-kompaniyu-iz-za-rubezha-nyuansy-i-riski
https://t.me/dataengineering_chat_ru/55993
😁8👍7😢1💩1
🔥37😁16👍31🤔1
Мы слышали про lake house подход много раз, где существует 3 основных решения - Delta Lake, Hudi, Iceberg.

Я работал 2 года с Delta Lake, так как использовал Databricks (Spark), именно они и contribute into delta lake.

А вот интересная статья про работу и использование Apache Iceberg https://medium.com/insiderengineering/apache-iceberg-reduced-our-amazon-s3-cost-by-90-997cde5ce931
🔥11👍7
🔥32👍17
Кстати в продолжения темы про продажу стоков. Очень не хотелось продавать в тот день, так как все росло.
Напомню, Microsoft стоил - 247US$, Amazon - 120US$. Но я решил продать и не ждать уже ничего, хотя здравый смысл говорил об обратном. И даже на след день все подорожало на 2$ после продажи. А еще через день все компании объявили о своих доходах за квартал, все недобрали и все упало, теперь Microsoft - 226US$, Amazon - 110US$. Все логично, либо продавайте как есть, либо ждите несколько лет.
🔥11😢6👍3
Накопилось несколько полезных ссылок по dbt:
Data Engineering with Snowpark Python and dbt - это, как я понимаю, новинка😁

Complexity: the new analytics frontier - dbt уже 6 лет +, обзор того, как это было и как сейчас

How we structure our dbt projects - классика, как нужно все организовывать в dbt проекте

dbt(Data Build Tool) Tutorial - tutorial по dbt. Я уже год с dbt работаю, уже могу и сам учить😊 но вы же знаете что это будет дорого и долго🙈

The Most Efficient Way to Organize Dbt Models - еще одна статья про то, как нужно делать правильно. А то они не знают - "Нормально делай, нормально будет"!😚

dbt Style Guide - ну а если вы на стиле, как я🕺🏻, то тут можно посмотреть стильные гайды.
👍23😁3🎉31
Forwarded from Nikita Baburov
😢31😁15🤔53👍2
Forwarded from nonamevc
Венчурный капиталист Томаш Тунгуз (Tomasz Tunguz) поделился прекрасным постом по итогам конференции Monte Carlo
про будущее дата-индсутрии на 2023 год.

Томаш как-то объявил, что в 2020 году мы вошли в декаду дату-стартапов и последовательно развивает этот тезис в своем блоге. За последние пару лет его работодатель, VC фонд, Redpoint Ventures проинвестировал в HEX, ClickHouse, Materialize, Monte Carlo, Omni. Большинство этих сделок лидидровал Томаш, так что прислушаться к его советам стоит.

Главные тезисы:

1. В 2021 году стартапы в области данных привлекли в общей сложности более $60 млрд, что составляет более 20% от всех венчурных долларов в мире.

2. Облачные хранилища данных (DWH) будут отвечать за 75% рабочих нагрузок (workloads) к 2024 году. За последние пять лет облачные DWH выросли с обработки 20% workloads до 50%. Оставшуюся часть составляют локальные базы данных. За это время объем отрасли вырос с $36 млрд до $80 млрд.

3. Workloads, связанные с данными, разделяются на три группы. In-memory бд, такие как DuckDB, будут доминировать в локальном анализе даже весьма массивных файлов. DWH сохранят классическое применение в BI и аналитике. Data lakes данных будут обслуживать таски, работающие с обработкой массивных данных, но которым не требуется высокая latency - и делать это за половину стоимости хранения.

4. Metrics layers объединит стек данных. Сегодня существует два разных направления в работе с данными – BI и машинное обучение. В первом случае мы используем ETL для перекачки данных в DWH, затем в BI или инструмент исследования данных. Отличие процессов машинного обучения том, что на выходе – обслуживание модели и обучение модели. Metrics layers станет единым местом определения метрик и характеристик, объединяя стек и потенциально перемещая обслуживание и обучение моделей в базу данных.

5. Большие языковые модели изменят роль инженеров по обработке данных. Здесь Томаш восхищается Copilot и верит, что подобные технологии, продвинут работу по проектированию данных на более высокий уровень абстракции.

6. WebAssembly (WASM) станет неотъемлемой частью приложений для работы с данными для конечных пользователей. WASM - это технология, которая ускоряет работу по браузера. Страницы загружаются быстрее, обработка данных происходит быстрее, а пользователи становятся счастливее.

7. Ноутбуки завоюют 20% пользователей Excel. Из 1 млрд. пользователей Excel в мире 20% станут пользователями, пишущими на Python/SQL для анализа данных. Эти блокноты станут приложениями для работы с данными, используемыми конечными пользователями внутри компаний, заменив хрупкие Excel и Google Sheets.

8. SaaS-приложения будут использовать облачные DWH в качестве бэкенда для чтения и записи (см.статью выше). Сегодня данные о продажах, маркетинге и финансах хранятся в разрозненных системах. Системы ETL используют API для передачи этих данных в DWH для анализа. В будущем программные продукты будут создавать свои приложения на базе DWH, чтобы воспользоваться преимуществами централизованной безопасности, ускорения процессов закупок и смежных данных. Эти системы также будут записывать данные в DWH.

9. Data Observability становится обязательным условием. Команды по работе с данными будут согласовывать показатели времени безотказной работы/точности данных. Сегодня команды по работе с данными сталкиваются с 70 инцидентами на 1000 таблиц.


@mobilefirstasia
👍46🔥2
Всем привет, завтра (2022-10-31) в 20:00 по мск Вебинар.
Спикер - почетный гость Datalearn - Николай Голов.
Тема: Activity Schema - новая методология? Одна таблица вместо хранилища данных.

Николай уже не первый раз радует нас выступлением
Ссылка на трансляцию: https://youtu.be/JXdz7-hCJyI
Как всегда рекомендация - "Кому интересно быть" :)

Спойлер: Я видел презентацию, там очень круто, впрочем как и всегда :)

Контакты спикера:
- azathot.mail@gmail.com
- linkedin.com/in/golov-nikolay-data
👍22🔥12👏2🤔1
Forwarded from Data Nature 🕊 (Alex Barakov)
.. ненароком сделал саммари текущей реальности на российском рынке BI решений в рамках подготовки сессии курса по BI стратегии. Получилась такое. Классификация решений не претендует на строгость и полноту, не было такой цели, но картинка независимая, без рекламы, содержит все сущностное и вероятно поможет кому-то сориентироваться. Будут дополнения - велком в комменты

отдельное спасибо @Ascenor @asdavtyan @sgromych @rbunin за подгрузку дополнительного экспертного контекста
👍57😁81👎1😢1
🚨Всем привет завтра (2022-11-02) в 21:00 по мск вебинар.

Тема:Базовые принципы заметковедения или как сделать так, чтобы записи приносили пользу, а не страдания.

Ведущий: Рустам Агамалиев
Рустам уже приходил к нам с выступлением про инструменты мышления. Кто смотрел тому выступление понравилось и вы просили Рустама рассказать подробней - вот пожалуйста.

Ссылка на завтрашний эфир:
https://youtu.be/wTQ2wwPsvlc


📕 Ссылки на ресурсы спикера:
🔗 Канал в телеге: https://t.me/Zettelkasten_ru
🔗 Цифровой сад: rustamagamaliev.ru
🔗 Форум: zttl.space
👍21🤡6🔥2🌭2🐳1
Forwarded from Grisha Skobelev
🗓 2 ноября, среда, 18:00 (мск) “Шина данных”

Разберемся какие задачи решает шина данных, поговорим о такие моменты: шина данных как канал обмена сообщениями для Event Driven  архитектуры, средство сбора и доставки данных для аналитики, инструмент batch - упаковки, инструмент потокового реагирования - Streaming analytics, streaming logic. Так же обсудим какие современные требования к шине данных и что от нее ожидаем (Persistence (Durability), High RPS, Many-to-many data deliver).

Встречаемся 02.11 в 18:00 по мск в Zoom.

@backend_megdu_skobkah
👍6
В комментах спросили с чего начать изучение DE с нуля:

1) Найти курсы по DE, посмотреть какие инструменты и технологии указаны там в программе курса. Выписать их себе (инструменты, не курсы) в план на изучение, и искать статьи, видео уроки, курсы по этим инструментам\технологиям.
2) Найти людей, которые работают в этом направлении, и спросить у них, что они чаще всего используют в работе, как вообще выглядят задачи, и что стоит изучить. Выписать тоже в список.
3) Изучать и отрабатывать на практике (искать тестовые задания выложенные в сети, придумать себе пет-проект), на тренажёрах.

Готово, вы великолепны.

Первым шагом — идём на бесплатный курс от Data Learn https://datalearn.ru/ от Дмитрия Аношина https://t.me/rockyourdata (которому лично я очень благодарен за его курс, т.к. я не чистый DE, я всё-таки Data Analyst, в первую очередь (в частности Web Analyst / Marketing Analyst, если говорить про доменную экспертизу). И его курс мне помог освоить дополнительные инструменты, чтобы делать не только DA задачи, но и DE (и потом ещё и офер на работу Data Engineer получить).

Поэтому этот курс, это прям первейшее что надо открыть. И по мере изучения профессии и инструментария — гуглить уже уроки и документацию по каждому отдельному инструменту, изучать их глубже, тренироваться на практике.

Перечень DEшных buzzwords, с чем я сталкивался на практике в работе — python, sql, airflow, dbt, postgresql, clickhouse, google bigquery, tableau, powerbi, google data studio, looker, spark, kafka (было дело пускал руки и в AWS пару раз, но чаще работал с Гугловой экосистемой).

Как можно это всё освоить:
1) Осваиваем SQL — https://stepik.org/course/63054/(бесплатный тренажёр, очень качественный), https://stepik.org/course/90778/ (это более прикладной ПЛАТНЫЙ, но дешёвый, курс, с SQL именно под Data задачи) и отдельно курс по оконным функциям https://stepik.org/course/95367/ (стоит копейки, но стоит того, окошки на собесах часто спрашивают)
2) Осваиваем Питон — я изучал по https://stepik.org/course/67/ и https://stepik.org/course/512/ (оба бесплатные), но, говорят, что https://stepik.org/course/58852/ и https://stepik.org/course/68343/ гораздо лучше по части донесения информации (оба бесплатные) и https://stepik.org/course/82541/ (третья ступень, платная, про неё ничего не слышал)
3) Осваиваем азы Pandas — https://stepik.org/course/74457/ (бесплатно)
4) Осваиваем азы Airflow — https://stepik.org/course/99527/promo#toc (платный)
5) Осваиваем архитектуру и вообще Базы Данных — https://stepik.org/course/551/ (бесплатно) , тут и про архитектуры, и про Нормальные Формы и т.п. https://stepik.org/course/70710/ (бесплатно) — более глубокое погружение в БД и СУБД.
6) Осваиваем Git — полно бесплатных уроков на ютубе, практиковаться можно на своём гитхаб аккаунте.
6) Осваиваем Облака — https://practicum.yandex.ru/ycloud/ (бесплатный курс), я предпочитаю Google Cloud Platform, но для простоты доступности (к Гугл Облаку надо карту привязывать, а с этим щас проблемы могут быть) начать освоение можно с Yandex.Cloud или VK Cloud
7) Осваиваем Spark, Kafka, Hadoop — не могу посоветовать бесплатные курсы, т.к. осваивал их на платных курсах и «в бою» на задачах сразу, гугля «КАК СДЕЛАТЬ ___ в Spark», и с помощью коллег. Но начни с модулей бесплатного Data Learn, а там сориентируешься куда гуглить и как. И, возможно, вот этот курс https://stepik.org/lesson/699607/ (бесплатно) подойдёт для азов и обзорного понимания Спарка
8) Осваиваем dbt — у них свои бесплтаные курсы прям на сайте лежат https://courses.getdbt.com/collections

Когда Data Learn и курсы выше будут пройдены — можно идти к Карпову на https://karpov.courses/dataengineer (за деньги, дорого). И погружаться в более ядрёные штуки под присмотром наставников и кураторов.
75👍43🔥26🥰1
Как улучшить английский в документации

Часто аналитик/технический писатель сталкивается с документацией написанной на английском языке, или же самому приходится писать ее на английском языке, в данной статье автор - технический писатель, постарался не просто дать рекомендации о том, как можно избежать распространённых ошибок, но и подсветил те отличительные черты английского языка, которые к этим ошибкам приводят. Познавательно и интересно))

Прейти
👍26🔥16🍓1
Нам нравится говорить об инновациях и будущем, электромашины, дроны, жизнь на марсе, криптовалюта, спутниковый интернет на малых орбитах и еще много чего нового, инновационного, хотя по факту базовые проблемы не решены. Но я не о проблемах в этом канале пишу.

Хотя иногда жалуюсь на эксплуатацию корпоративного мира, тяжкий труд на галерах и не сбывшиеся мечты, где все есть и ничего не надо делать😇

Хотя обратить ваше внимание на одну маленькую инновацию, за которой я наблюдаю - passwordless. Еще в 2021 году я писал в посте про Microsoft и его идеи об отмене паролей.

Это вам конечно не полет на марс, но именно такие скучные инновации двигают индустрию вперед. Вообще вся отрасль кибер безопасности не такая популярная. Лично мне заниматься безопасностью аналитических решений всегда скучно, но цена ошибки это репутация компании. Данные утекают в интерент легко, яндекс еда и другие яндекс сервисы не дадут соврать.

Так вот, я хотел вам сообщить, что тема passwordless активно развивается, и уже не кажется чем-то необычным.

В интернете достаточно много информации о последних инновациях в этой области, есть множество компаний и стартапов, которые работают в этой области и самое главное, эти компании добавляют ценности клиентам и делают жизнь клиентов лучше.

Сейчас некоторые компании инвестируют в passkey.

Passkey is the company’s implementation of an industry standard designed to remove passwords for online authentication. Earlier this year, Apple, Google and Microsoft joined hands with the FIDO Alliance and the World Wide Web Consortium to work on removing passwords for user authentication across the platforms.

Ссылки по теме:
Apple, Google and Microsoft team up on passwordless logins
Apple presentation - Meet passkeys
What is Apple Passkey, and how will it help you go passwordless?
Google - Passwordless login with passkeys
What is PassKey?

А вам какие инновации видятся?
👍10🍌3🌚2
Нашу любимую Ийтишечку колбасит не по-детски:
Сегодня в Твиттере все получили письмо счастья - Twitter Employees to Learn of Layoffs Friday Morning. А я ведь откликался к ним на вакансии, но даже не позвали на собеседование. Судьба уберегла. Вообще у Твиттера много перспектив - Should Twitter embrace porn and compete with OnlyFans?

Главный конкурент желтого такси - Lyft увольняет 13% процентов . У меня было с ними собеседование на менеджера DE, и я помню вопрос, как я буду нанимать кандидатов, чтобы diversity&inclusion показатели улучшать. Наверно, поэтому меня и не взяли, чтобы не портить статистику белым мужиков, а сейчас бы вообще было бы грустно, белый русский мужик. Судьба уберегла.

Амазон окончательно забуксовал, акции уже 88$, ну ведь не зря же я продал по 120$?! Надо слушать меня в таких вопросах😉 - Amazon Freezes Corporate Hiring. Вообще Amazon увольняет людей пачками постоянно, просто это у них по-другому делается и называется. Поэтому, мы вряд ли узнаем про mass layoff. В Амазоне я работал, и мне там нравилось, и возможно когда нибудь вернусь. Летом мои 5-6 попыток не увенчались успехом, судьба уберегла. Безос красавчик, вовремя взял бабло и слился, пусть сами там разгребают🕺🏻

Stripe Cuts 14% of Staff, Was ‘Much Too Optimistic’ About E-Commerce Boom - как вы можете догадаться, я тоже туда откликался на вакансию, и как и твиттер, мне никто не ответил. Судьба уберегла.

Coinbase Revenue Drop Cushioned By Interest Income - и к ним я откликался и тоже никто не написал.

Вообще я везде откликался в поисках самой большой зарплаты и самой интересной работы.

Почему крутые компании страдают? Я нашел ответ!

The first big takeaway from the massive recalibrations going on is that leaders dramatically overestimated tech’s pandemic-fueled boom. Even as Covid-19 shut down much of the economy, the digital realm continued to thrive. But as we know, that trend didn’t last.

The second big takeaway is that the miscalculations of Stripe and other companies can’t be pinned solely to strategy missteps over the last two years.

That’s because for the last ten years tech companies, including Snap, Meta Platforms, Google and even Stripe, have been working from a different playbook. They were minting—and spending—money at incredible rates. They massively overpaid for talent —because they could. Their margins were amazing. They acquired huge companies at high prices because what else were they going to do with all their capital?

And now the economy and investors’ fears have hit them hard. The part they don’t like to talk about so much is that the competition has also caught up with them—including many traditional companies that have become more tech savvy and efficient about serving their customers.
That seems to be a far bigger reckoning than the adjustment of growth levels post-pandemic, and it is a trend that is playing out at great speed. It’s related to the macroenvironment but it is also fa
r deeper, and its impact will be immense.

В целом нужно быть готовым ко всему, и поэтому я всегда говорил, не надо полностью доверять своему работодателю и быть супер лояльным, для них это просто бизнес, при необходимости вас сольют и скажут

In an effort to place "ВАША КОМПАНИЯ" on a healthy path, we will go through the difficult process of reducing our global workforce on Friday. We recognize that this will impact a number of individuals who have made valuable contributions to "ВАША КОМПАНИЯ" but this action is unfortunately necessary to ensure the company’s success moving forward.

Поэтому думайте прежде всего о себе и своих близких, всех хороших выходных!
👍85🍌5😢32🌭1