Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Сегодня задался простым вопросом, продавать ли акции Microsoft, их цена почти 250 US$ или не продавать, хотя бы просто иметь кеша на черный день, потому что большинство технологических стоков уже не очень ликвидны. Например, я упусти момент когда нужно было продавать акции Амазон по 3600$, но кто мог подумать, что это будет максимум😏 Одно меня точно радует, что в последние 2 года у меня не было лишних денег на крипту.

Сегодня искал на reddit ответ на свой вопрос и не нашел, зато нашел интересный пост - Should I sell my microsoft stock and buy PLTR? 2х летней давности. В комментариях с умным видом говорил о том, что надо покупать PLTR акции, компания топчик и будет расти. Потом я посмотрел, сколько же сейчас они стоят - 8$, а были 35$. Поэтому совет оказался не очень. Я сам год назад такие советы всем раздавал😄

Сегодня попалась еще одна интересная новость - Apple, Microsoft and Alphabet Grapple With Bond Investment Losses в которая говорят о крупных компаниях, которые теряют деньги.

Как у вас настрой? Как с финансовым планированием? Насколько вы оптимистично настроены?
👍11😁10
😁58🔥22🤬9👍2😢2
Forwarded from KD
FREE UDEMY Course - Snowflake SnowPro Core Certification Practice Exam
(For the first 1000 enrollments only)

Grab the highest rated UDEMY Course on Snowflake Core Certification!

Enrollment Link :

https://www.udemy.com/course/snowflake-snowpro-certification-practice-questions/?couponCode=24EFD9D9E223CEA84BDE

Happy Learning !
Online Snowflake Training 
8👍6
Forwarded from Sergey Gromov
Коллеги, радостная новость - несмотря на турбулентность наша команда выпустила ETL-круг Громова 2022 &Connectors - исследование русских ETL-инструментов, API и коннекторов, российское ПО бизнес-аналитики (включая open-source инструменты)
Его уже получили все, кто зарегистрировался на https://russianbi.ru/ и теперь мы его отправляем стандартно при регистрации.
В скором времени выйдет СУБД-круг. Остаемся на связи и всем успешных внедрений!
👍14😁11🤔3😢2💩2🔥1🤩1🤮1
Forwarded from Data & IT Career
Работа на российскую компанию из-за рубежа: нюансы и риски
https://t.me/foranalysts/4882
https://vc.ru/hr/525349-rabota-na-rossiyskuyu-kompaniyu-iz-za-rubezha-nyuansy-i-riski
https://t.me/dataengineering_chat_ru/55993
😁8👍7😢1💩1
🔥37😁16👍31🤔1
Мы слышали про lake house подход много раз, где существует 3 основных решения - Delta Lake, Hudi, Iceberg.

Я работал 2 года с Delta Lake, так как использовал Databricks (Spark), именно они и contribute into delta lake.

А вот интересная статья про работу и использование Apache Iceberg https://medium.com/insiderengineering/apache-iceberg-reduced-our-amazon-s3-cost-by-90-997cde5ce931
🔥11👍7
🔥32👍17
Кстати в продолжения темы про продажу стоков. Очень не хотелось продавать в тот день, так как все росло.
Напомню, Microsoft стоил - 247US$, Amazon - 120US$. Но я решил продать и не ждать уже ничего, хотя здравый смысл говорил об обратном. И даже на след день все подорожало на 2$ после продажи. А еще через день все компании объявили о своих доходах за квартал, все недобрали и все упало, теперь Microsoft - 226US$, Amazon - 110US$. Все логично, либо продавайте как есть, либо ждите несколько лет.
🔥11😢6👍3
Накопилось несколько полезных ссылок по dbt:
Data Engineering with Snowpark Python and dbt - это, как я понимаю, новинка😁

Complexity: the new analytics frontier - dbt уже 6 лет +, обзор того, как это было и как сейчас

How we structure our dbt projects - классика, как нужно все организовывать в dbt проекте

dbt(Data Build Tool) Tutorial - tutorial по dbt. Я уже год с dbt работаю, уже могу и сам учить😊 но вы же знаете что это будет дорого и долго🙈

The Most Efficient Way to Organize Dbt Models - еще одна статья про то, как нужно делать правильно. А то они не знают - "Нормально делай, нормально будет"!😚

dbt Style Guide - ну а если вы на стиле, как я🕺🏻, то тут можно посмотреть стильные гайды.
👍23😁3🎉31
Forwarded from Nikita Baburov
😢31😁15🤔53👍2
Forwarded from nonamevc
Венчурный капиталист Томаш Тунгуз (Tomasz Tunguz) поделился прекрасным постом по итогам конференции Monte Carlo
про будущее дата-индсутрии на 2023 год.

Томаш как-то объявил, что в 2020 году мы вошли в декаду дату-стартапов и последовательно развивает этот тезис в своем блоге. За последние пару лет его работодатель, VC фонд, Redpoint Ventures проинвестировал в HEX, ClickHouse, Materialize, Monte Carlo, Omni. Большинство этих сделок лидидровал Томаш, так что прислушаться к его советам стоит.

Главные тезисы:

1. В 2021 году стартапы в области данных привлекли в общей сложности более $60 млрд, что составляет более 20% от всех венчурных долларов в мире.

2. Облачные хранилища данных (DWH) будут отвечать за 75% рабочих нагрузок (workloads) к 2024 году. За последние пять лет облачные DWH выросли с обработки 20% workloads до 50%. Оставшуюся часть составляют локальные базы данных. За это время объем отрасли вырос с $36 млрд до $80 млрд.

3. Workloads, связанные с данными, разделяются на три группы. In-memory бд, такие как DuckDB, будут доминировать в локальном анализе даже весьма массивных файлов. DWH сохранят классическое применение в BI и аналитике. Data lakes данных будут обслуживать таски, работающие с обработкой массивных данных, но которым не требуется высокая latency - и делать это за половину стоимости хранения.

4. Metrics layers объединит стек данных. Сегодня существует два разных направления в работе с данными – BI и машинное обучение. В первом случае мы используем ETL для перекачки данных в DWH, затем в BI или инструмент исследования данных. Отличие процессов машинного обучения том, что на выходе – обслуживание модели и обучение модели. Metrics layers станет единым местом определения метрик и характеристик, объединяя стек и потенциально перемещая обслуживание и обучение моделей в базу данных.

5. Большие языковые модели изменят роль инженеров по обработке данных. Здесь Томаш восхищается Copilot и верит, что подобные технологии, продвинут работу по проектированию данных на более высокий уровень абстракции.

6. WebAssembly (WASM) станет неотъемлемой частью приложений для работы с данными для конечных пользователей. WASM - это технология, которая ускоряет работу по браузера. Страницы загружаются быстрее, обработка данных происходит быстрее, а пользователи становятся счастливее.

7. Ноутбуки завоюют 20% пользователей Excel. Из 1 млрд. пользователей Excel в мире 20% станут пользователями, пишущими на Python/SQL для анализа данных. Эти блокноты станут приложениями для работы с данными, используемыми конечными пользователями внутри компаний, заменив хрупкие Excel и Google Sheets.

8. SaaS-приложения будут использовать облачные DWH в качестве бэкенда для чтения и записи (см.статью выше). Сегодня данные о продажах, маркетинге и финансах хранятся в разрозненных системах. Системы ETL используют API для передачи этих данных в DWH для анализа. В будущем программные продукты будут создавать свои приложения на базе DWH, чтобы воспользоваться преимуществами централизованной безопасности, ускорения процессов закупок и смежных данных. Эти системы также будут записывать данные в DWH.

9. Data Observability становится обязательным условием. Команды по работе с данными будут согласовывать показатели времени безотказной работы/точности данных. Сегодня команды по работе с данными сталкиваются с 70 инцидентами на 1000 таблиц.


@mobilefirstasia
👍46🔥2
Всем привет, завтра (2022-10-31) в 20:00 по мск Вебинар.
Спикер - почетный гость Datalearn - Николай Голов.
Тема: Activity Schema - новая методология? Одна таблица вместо хранилища данных.

Николай уже не первый раз радует нас выступлением
Ссылка на трансляцию: https://youtu.be/JXdz7-hCJyI
Как всегда рекомендация - "Кому интересно быть" :)

Спойлер: Я видел презентацию, там очень круто, впрочем как и всегда :)

Контакты спикера:
- azathot.mail@gmail.com
- linkedin.com/in/golov-nikolay-data
👍22🔥12👏2🤔1
Forwarded from Data Nature 🕊 (Alex Barakov)
.. ненароком сделал саммари текущей реальности на российском рынке BI решений в рамках подготовки сессии курса по BI стратегии. Получилась такое. Классификация решений не претендует на строгость и полноту, не было такой цели, но картинка независимая, без рекламы, содержит все сущностное и вероятно поможет кому-то сориентироваться. Будут дополнения - велком в комменты

отдельное спасибо @Ascenor @asdavtyan @sgromych @rbunin за подгрузку дополнительного экспертного контекста
👍57😁81👎1😢1
🚨Всем привет завтра (2022-11-02) в 21:00 по мск вебинар.

Тема:Базовые принципы заметковедения или как сделать так, чтобы записи приносили пользу, а не страдания.

Ведущий: Рустам Агамалиев
Рустам уже приходил к нам с выступлением про инструменты мышления. Кто смотрел тому выступление понравилось и вы просили Рустама рассказать подробней - вот пожалуйста.

Ссылка на завтрашний эфир:
https://youtu.be/wTQ2wwPsvlc


📕 Ссылки на ресурсы спикера:
🔗 Канал в телеге: https://t.me/Zettelkasten_ru
🔗 Цифровой сад: rustamagamaliev.ru
🔗 Форум: zttl.space
👍21🤡6🔥2🌭2🐳1
Forwarded from Grisha Skobelev
🗓 2 ноября, среда, 18:00 (мск) “Шина данных”

Разберемся какие задачи решает шина данных, поговорим о такие моменты: шина данных как канал обмена сообщениями для Event Driven  архитектуры, средство сбора и доставки данных для аналитики, инструмент batch - упаковки, инструмент потокового реагирования - Streaming analytics, streaming logic. Так же обсудим какие современные требования к шине данных и что от нее ожидаем (Persistence (Durability), High RPS, Many-to-many data deliver).

Встречаемся 02.11 в 18:00 по мск в Zoom.

@backend_megdu_skobkah
👍6