Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.19K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Forwarded from Книжный куб (Alexander Polomodov)
Data Pipelines Pocket Reference

Прочитал по дороге из Новосибирска в Москву простую книгу про построение конвейеров данных для дата инженеров. Я высоко оценил краткость и практичность книги, а также то, что James Densmore, автор книги, имеет большой практический опыт построения дата инфраструктуры, что и делал в HubSpot. В итоге, я написал краткий обзор этой книги в своем блоге.

#Data #Databases #Engineering #SoftwareArchitecture #Software #SoftwareDevelopment #Management
❤‍🔥39🦄3🍾2😭1
Ты системный аналитик и хочешь прокачать свои навыки и знания? Тогда присоединяйся к проекту IT_ONE CAREER!

Компания IT_One открывает сезон онлайн-мероприятий для системных аналитиков! IT_One – разработчик программного обеспечения для крупных игроков российского бизнеса.

Первым мероприятием станет IT_ONE CAREER MEETUP
27 июля в 18:00 вы сможете больше узнать о компании и обсудить «горячие» темы системной аналитики.

В программе 2 актуальные темы и 2 топовых спикера!

Взаимодействие системного аналитика с Product Owner, бизнес-аналитиком и командой разработки
Ольга Бондарева, старший системный аналитик IT_One

Обсудим:
— лучших друзей аналитика на разных этапах проекта;
— как выстоять натиск РО.

Подводные камни в работе аналитика. К чему готовиться?
Екатерина Климова, старший системный аналитик IT_One

Разберем:
— плюсы работы аналитика;
— минусы, о которых все говорят;
— 7 грехов системных аналитиков.

Дата и время: 27 июля в 18:00

Регистрируйтесь здесь: https://clck.ru/355uHT

#промо
👨‍💻4💘2❤‍🔥1
🫡31❤‍🔥7🌚3
Научитесь строить отчёты самостоятельно в Yandex DataLens

🕙 10 модулей, 6 экспертов, больше 300 часов методологической проработки — и всё это для того, чтобы вы могли из первых рук узнать про все возможности работы с облачной BI-системой.

Курс будет полезен всем, кто работает с данными: менеджерам продукта, аналитикам, руководителям и тем, кто хочет упростить себе работу с данными.

📖 Для прохождения курса не нужны специальные знания. Модули построены так, что, начиная с базового функционала по работе с чартами и дашбордами, вы постепенно погружаетесь в более сложные темы. Недавно мы выпустили завершающий модуль курса про работу с продвинутыми функциями, чтобы вы могли делать самую глубокую аналитику.

Все модули курса доступны бесплатно. Начните уже сегодня!

➡️ Узнать подробнее

#промо
❤‍🔥28🗿10
Собрал небольшой список конференций до конца года:

Do you know any upcoming events by the end of the year?
https://www.bigdataparis.com/ 25-26 Sept (Paris)
https://bigdataldn.com/ 20-21 Sep (London )
https://cloud.withgoogle.com/next 29-31 Aug (San Francisco)
https://reinvent.awsevents.com/ 27 Nov - 1 Dec (Las Vegas)
https://www.quirks.com/events/4-th-annual-big-data-and-analytics-west-summit-2023 14 -15 Nov (Vancouver, BC)
https://vldb.org/2023/ 28 Aug - 1 sep (Vancouver BC)
https://dev.events/conferences/airflow-summit-toronto-8-2023 Airflow Summit 19-21 Sept (Toronto)
https://dev.events/conferences/machine-learning-conference-new-york-new-york-8-2023 25-28 Sep (New York)
https://dev.events/conferences/data-2030-summit-singapore-8-2023 29 Sep (Singapore)
https://dev.events/conferences/coalesce-online-online-9-2023 16-23 Oct (San Diego)
https://dev.events/conferences/the-ai-summit-new-york-new-york-11-2023 6-7 Sep (New York)

Если есть еще какие-то события большие, присылайте. Возможно многие дают бесплатный онлайн доступ.
❤‍🔥25🐳2🫡21
У Tableau самый красивые визуализации данных. Я всегда знал, для Power BI сообществе нет лучше способа создать что-то красивое, как подсмотреть у Tableau сообщества.

These were created in Power BI, inspired by the original visualizations shared yesterday by Andy Kriebel. If you don't already, you should follow him for all kinds of inspirational data visualization ideas, tips and advice.

Самый лучший вариант, учится у лучших.

Автор также поделился шаблонами для PowerBI https://github.com/data-goblin/powerbi-macguyver-toolbox

Какие еще есть классные ресурсы для Power BI?
❤‍🔥16🐳1
Все привет! Хотел задать вопрос:

Какие сервисы, подкасты или еще чего вы посоветуете для инвестиций и почему?

Я давно планирую, что-нибудь сделать в этой области. Пока дальше покупки недвижимости и получения акций публичных компаний я ничего не сделал. Есть возможность 10к$-15к$ в месяц куда-нибудь закидывать, но не хочется “пальцем в небо”, а может просто лучше жену радовать украшениями Cartier, ведь лучшая инвестиция в семью😎

Вот например популярный сервис Motley Fool, я про него иногда слышал. Но обычно, любая площадка зарабатывает на комиссиях. Напоминает золотую лихорадку в Америке, когда обогатились те, кто продает лопаты.

В Канаде, есть еще интересный подход - так называемые Tax Free Savings Account (TFSA), где вам государство позволяет покупать ценные бумаги на какую-то сумму (в зависимости сколько лет вы живете в Канаде, в среднем 6к в год) и прибыль не облагается налогом.

A TFSA, or Tax-Free Savings Account, is a type of savings account in Canada where the money you put in and any income you earn from it (like interest, dividends, or capital gains) is not taxed, even when you withdraw it.

Еще в Канаде много так называемых Financial Adviser, кто сидит на зарплате и на комиссии, и сам едва едва сводит концы с концами, неуверен, что они могут чему-то полезному научить😏

Вообще вопрос инвестиций интересный и полезный. Главная задача как сохранить деньги. Вариантов много - покупать акции компаний, инвестировать в стартапы, покупать ценные металлы, играть в казино, покупать коллекционные вещи или собирать ЛЕГО наборы.

Мне интересно услышать от вас, какие варианты для вас работают? На кого вы ориентируетесь.
🍌10🍾4🌭3
2 августа 11:00 — бесплатный вебинар про виртуальный ЦОД от Cloud․ru

Выбирая модель размещения информации компании в надежном облаке, вы значительно сокращаете затраты на ресурсы и оптимизируете бизнес-процессы.

Эксперты провайдера облачных технологий и AI-решений Cloud․ru в эфире расскажут, как:

бесшовно мигрировать в облачную инфраструктуру;
оперативно масштабировать IT-ресурсы в сезоны пиковых нагрузок;
получить отказоустойчивое резервное хранилище данных;
быстро тестировать гипотезы и новые продукты.

Запись вебинара и презентация будут доступны всем, кто зарегистрируется на мероприятие. Вы сможете вернуться к полезным материалам в удобное для вас время.

▶️ Зарегистрироваться на вебинар
▶️ Подписаться на Telegram канал
❤‍🔥4🍾2🌚1🫡1
Lightning Talks - Driver and Executor Overload.pdf
903.4 KB
Свежая презентация про Databricks (Spark) - Driver & Memory Overload:

What causes Driver overload
• What causes Executor overload
• How to distinguish between Driver and Executor overload
• How to troubleshoot Driver Overload
• How to troubleshoot Executor Overload
• Discussion of Overload scenarios
❤‍🔥21
Станьте специалистом широкого профиля в работе с данными — научитесь разрабатывать архитектуру данных на курсе Яндекс Практикума.

Выпускники смогут:
◾️ проектировать хранилища и пайплайны;
◾️ использовать инструменты DE: оркестраторы, контейнеры и не только;
◾️ работать со стриминговой обработкой данных и облачными хранилищами;
◾️ создавать хранилища Data Warehouse и Data Lake.

Что будет на учёбе:
— Реальные рабочие задачи и командные проекты.
— Код-ревью и персональные советы от действующих инженеров данных.
— Вебинары и продакшн-опыт от экспертов в инженерии данных.

→ Приходите учиться, если хотите развить свои компетенции или перейти на должность Data Engineer.
🗿17❤‍🔥11🤷2
❤‍🔥75🐳9💘5🌚4🙉4
Отлично мужичок суммировал - always remember…you’re not a person…you’re not “family”…you’re a line item…an expense…on a giant spreadsheet.

Все же любят Excel!😁

Но не только в компании 5000+ людей, а наверно в любой, где 30+.

Замечательная динамика рынка, чтобы удвоить стоимость акций, надо уволить кучу людей, потом снова нанять, снова уволить и нанять, в перерывах фиксировать прибыль. 💸
❤‍🔥46🌚17😈6🍾2😭2
Все чаще вижу упоминание про модель (хранилища) данных. Если с развитием облачных вычислений, можно было забить на модель данных и просто все сложить в одну большую таблицу -> и так сойдет, и работало все быстро.

Теперь все чаще возникают вопросы, про качество данных, удобство пользователей, документацию и их (данных) соответствие целям организации.

it’s best to view dimensional modeling purely as a framework for figuring out how the business actually functions day-to-day and expressing that through data structures.

Это очень сложный процесс взять данные из источников и создать модель, которая будет соответствовать бизнес процессу и отвечать на поставленные вопросы, при этом еще должна масштабироваться.

Вообще на русском есть ресурсы про моделирование данных? На datalearn у нас было несколько хороших вебинаров. А есть еще чего?
❤‍🔥24👾2💯1🍌1
Debugging GC related Issues.pdf
1.4 MB
Презентация Databricks про анализ проблеме связанных с Garbage Collection (GC) в драйвере.
❤‍🔥7🌭3🐳1
⚙️ Какая сложность хорошо, а какая плохо?

Со времен участия в олимпиадах по программированию и до сих пор я частенько использую один лайфхак, когда не могу придумать решение сразу. Точнее эта подсказка помогает мне понять, за какую сложность я должен придумать решение.

Небольшое отступление. Сложность по времени не имеет никакого отношения к часам, минутам и секундам. Сложность по времени это количество операций, которое наша программа выполнит в худшем случае.

Но давайте попробуем привязать количество операций к секундам.

Одна секунда это сколько операций?

Немного математики. Процессор в нашем компьютере выполняет где-то 1 млрд тактов в секунду. Одна команда языка программирования верхнего уровня траслируется в множество команд машинного языка. То есть, большинство современных языков программирования выполняют где-то 10-30 млн операций в секунду. Это все приблизительно, но давайте возьмем за ориентир, что 1 секунда равна 20 млн операций.

Ограничения это подсказка это авторов задач

Допустим в условии задачи говорится, что N может быть 100 000. Я знаю, что обычно программа должна работать не больше 1 секунды, это значит у меня есть ~20 млн операций. Вместо того, чтобы сразу придумывать решение, я могу вначале подсчитать сложность, а потом подобрать решение.

Для N = 100 000, я пытаюсь найти такую сложность, чтобы она уложилась в 20 млн операций. Например, если взять N^2 это будет 10 млрд операций, что превышает 20 млн. Но если возьмем N log N, то это будет примерно 1.7 млн операций.

Авторы задач часто подбирают ограничения под единственно правильное решение. Теперь когда я знаю, что мое решение должно укладываться в O(N log N), я могу подобрать алгоритмы и структуры данных под эту сложность.

Когда я вижу N = 20, я сразу понимаю, что автор задачи хочет, чтобы я решил ее за 2^N. Когда я вижу N = 1000, я понимаю сразу, что решение где-то за O(N^2).

Что выполняется за 1 секунду?
- O(N!), где N <= 11
- O(2^N), где N <= 24
- O(N^4), где N <= 100
- O(N^3), где N <= 500
- O(N^2), где N <= 5000
- O(N*logN), где N <= 100000
- O(N), где N <= 10000000
- O(logn), где N <= 1000000000000000000

✔️ Сохраните себе, чтобы не потерять.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥18🌭11🫡5👨‍💻3🐳1
Вписался выступать на MDS Fest, на котором расскажу свою старую презентацию про Gentle vs Hardcore data engineer. В свободное время начал немного создавать аналог datalearn для западного рынка - surfalytics.com. Именно для этого и выступаю, чтобы в "свет" выводить=). Если посмотреть список спикеров, то там довольно многих известного народа в узких кругах. Насколько я понял, эта конференция появилась для тех кому отказали

Идея простая Surf + Analytics, имеется в виду lifestyle, где можно "чилить", учиться, потом по классике fake it till you make it и найти работу и неплохо зарабатывать. Но пока не записал ни одного видео. В идеале бы хотелось бы потом делать 2х недельные воркшопы в surf camp, утром surf, после обеда data. Или наоборот.

Возможно найму профессионального оператора, сделать вводные видео. Рынок таких курсов и сообществ переполнен, но как и с datalearn это больше как хобби без каких-то ожиданий. И самое главное, все эти эксперты и курсы учат очень конкретные вещи, но никто не отвечает ЗАЧЕМ, и главное, как потом монетизировать полученные знания. У меня про другое, минимум знаний, чтобы найти работу. Тоже самое как и datalearn.

Уже в качестве прототипа плотно работаю с 10ю ребятами, с кем знаком в Канаде (не только русскоговорящие), где идет активная прокачка нужными скилами и еженедельные собеседования и обратная связь. И даже в такой маленькой группе, только 2-3 человека реально стараются и получат результат. Как обычно конверсия из "хотелось бы получить новую профессию в хорошей компании" и "реальная возможность это сделать" очень низкая. Приоритеты и мотивация.

В качестве движка сайта я использовал Jekyll и GitHub Pages. Jekyll позволяет создавать сайт использую Markdown. GitHub Pages бесплатно хостит ваш сайт из репозитория. Много время потратил, чтобы домен подключить, так как chatgpt давал мне неправильную информацию.

Зато теперь будет место куда добавить всю информацию о себе, расценки на услуги и многое другое.

PS вы можете сделать себе быстро сайтик и хостить его бесплатно на GitHub Actions.

PPS 29 августа - 1 сентября можно будет встретится в Тофино, БС и покататься на доске 🏄‍♂️ и обсудить data:)
❤‍🔥21🐳4🍌3👨‍💻3
Тут проскочила небольшая новость в мире BI - Thoughtspot купил Mode. Я не работал ни с тем и не с другим. Mode это как Redash и Metabase, но облачный, позволяет использовать SQL и создавать и шарить отчеты.

Пару постов на эту тему:
Why Did ThoughtSpot Acquire Mode? Why not FiveTran or Atlan or any other cool modern data stack company? by Cindi Howson Chief Data Strategy Officer at AI-analytics ThoughtSpot

How an acquisition fails by Benn Benn Stancil CTO + Founder Mode

Обычно любые приобретения в BI сфере ни к чему хорошему не приводят. Про этих не знаю, не пользуюсь. Сейчас на проектах, где я принимаю участие конфигурация такая:
- Azure Databricks + Power BI
- Synapse Dedicated DW + Power BI
- Snowflake + Looker/Tableau
- Athena/Redshift + Looker/Metabase
- AWS EMR Spark data lake + Snowflake + Tableau
🫡7❤‍🔥2🌭1😭1
image_2023-08-03_08-48-52.png
1002.1 KB
Основные элементы дашборда
❤‍🔥36🍌4🎄1
Forwarded from Control Quantitative Laboratory (Pavel A)
Метод Монте-Карло

Понимаю, что в рамках поста в Telegram очень сложно будет уместить объяснение работы Монте-Карло.

Поэтому описал статью отдельно 👉 тут

В статье привел примеры как можно моделировать завершение проекта используя данные пропускной способности.

Постарался сделать самый простой пример.
Который можно использовать для развития своих идей моедлирования.
Добавил и пример с возможными наступления и рисков.

Конечно, это не единственный способ. Однако для большенства случаев он вполне подходящий.

В статье привел пример кода на JavaScript который можно запустить даже в браузере.

Но, а если у вас нет навыков программирования, вы можете воспользоваться готовой формой Rodrigo Rosaulo создавший удобную форму на сонове работ Troy Magennis' и Dimitar Bakardzhiev

Если вам статья понравилась дайте знать - поставьте свой emoji.

Будут вопросы, задавайте в тред (прикрепленный чатик к каналу)
🐳27❤‍🔥16👨‍💻7🍾1