Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Debugging GC related Issues.pdf
1.4 MB
Презентация Databricks про анализ проблеме связанных с Garbage Collection (GC) в драйвере.
❤‍🔥7🌭3🐳1
⚙️ Какая сложность хорошо, а какая плохо?

Со времен участия в олимпиадах по программированию и до сих пор я частенько использую один лайфхак, когда не могу придумать решение сразу. Точнее эта подсказка помогает мне понять, за какую сложность я должен придумать решение.

Небольшое отступление. Сложность по времени не имеет никакого отношения к часам, минутам и секундам. Сложность по времени это количество операций, которое наша программа выполнит в худшем случае.

Но давайте попробуем привязать количество операций к секундам.

Одна секунда это сколько операций?

Немного математики. Процессор в нашем компьютере выполняет где-то 1 млрд тактов в секунду. Одна команда языка программирования верхнего уровня траслируется в множество команд машинного языка. То есть, большинство современных языков программирования выполняют где-то 10-30 млн операций в секунду. Это все приблизительно, но давайте возьмем за ориентир, что 1 секунда равна 20 млн операций.

Ограничения это подсказка это авторов задач

Допустим в условии задачи говорится, что N может быть 100 000. Я знаю, что обычно программа должна работать не больше 1 секунды, это значит у меня есть ~20 млн операций. Вместо того, чтобы сразу придумывать решение, я могу вначале подсчитать сложность, а потом подобрать решение.

Для N = 100 000, я пытаюсь найти такую сложность, чтобы она уложилась в 20 млн операций. Например, если взять N^2 это будет 10 млрд операций, что превышает 20 млн. Но если возьмем N log N, то это будет примерно 1.7 млн операций.

Авторы задач часто подбирают ограничения под единственно правильное решение. Теперь когда я знаю, что мое решение должно укладываться в O(N log N), я могу подобрать алгоритмы и структуры данных под эту сложность.

Когда я вижу N = 20, я сразу понимаю, что автор задачи хочет, чтобы я решил ее за 2^N. Когда я вижу N = 1000, я понимаю сразу, что решение где-то за O(N^2).

Что выполняется за 1 секунду?
- O(N!), где N <= 11
- O(2^N), где N <= 24
- O(N^4), где N <= 100
- O(N^3), где N <= 500
- O(N^2), где N <= 5000
- O(N*logN), где N <= 100000
- O(N), где N <= 10000000
- O(logn), где N <= 1000000000000000000

✔️ Сохраните себе, чтобы не потерять.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥18🌭11🫡5👨‍💻3🐳1
Вписался выступать на MDS Fest, на котором расскажу свою старую презентацию про Gentle vs Hardcore data engineer. В свободное время начал немного создавать аналог datalearn для западного рынка - surfalytics.com. Именно для этого и выступаю, чтобы в "свет" выводить=). Если посмотреть список спикеров, то там довольно многих известного народа в узких кругах. Насколько я понял, эта конференция появилась для тех кому отказали

Идея простая Surf + Analytics, имеется в виду lifestyle, где можно "чилить", учиться, потом по классике fake it till you make it и найти работу и неплохо зарабатывать. Но пока не записал ни одного видео. В идеале бы хотелось бы потом делать 2х недельные воркшопы в surf camp, утром surf, после обеда data. Или наоборот.

Возможно найму профессионального оператора, сделать вводные видео. Рынок таких курсов и сообществ переполнен, но как и с datalearn это больше как хобби без каких-то ожиданий. И самое главное, все эти эксперты и курсы учат очень конкретные вещи, но никто не отвечает ЗАЧЕМ, и главное, как потом монетизировать полученные знания. У меня про другое, минимум знаний, чтобы найти работу. Тоже самое как и datalearn.

Уже в качестве прототипа плотно работаю с 10ю ребятами, с кем знаком в Канаде (не только русскоговорящие), где идет активная прокачка нужными скилами и еженедельные собеседования и обратная связь. И даже в такой маленькой группе, только 2-3 человека реально стараются и получат результат. Как обычно конверсия из "хотелось бы получить новую профессию в хорошей компании" и "реальная возможность это сделать" очень низкая. Приоритеты и мотивация.

В качестве движка сайта я использовал Jekyll и GitHub Pages. Jekyll позволяет создавать сайт использую Markdown. GitHub Pages бесплатно хостит ваш сайт из репозитория. Много время потратил, чтобы домен подключить, так как chatgpt давал мне неправильную информацию.

Зато теперь будет место куда добавить всю информацию о себе, расценки на услуги и многое другое.

PS вы можете сделать себе быстро сайтик и хостить его бесплатно на GitHub Actions.

PPS 29 августа - 1 сентября можно будет встретится в Тофино, БС и покататься на доске 🏄‍♂️ и обсудить data:)
❤‍🔥21🐳4🍌3👨‍💻3
Тут проскочила небольшая новость в мире BI - Thoughtspot купил Mode. Я не работал ни с тем и не с другим. Mode это как Redash и Metabase, но облачный, позволяет использовать SQL и создавать и шарить отчеты.

Пару постов на эту тему:
Why Did ThoughtSpot Acquire Mode? Why not FiveTran or Atlan or any other cool modern data stack company? by Cindi Howson Chief Data Strategy Officer at AI-analytics ThoughtSpot

How an acquisition fails by Benn Benn Stancil CTO + Founder Mode

Обычно любые приобретения в BI сфере ни к чему хорошему не приводят. Про этих не знаю, не пользуюсь. Сейчас на проектах, где я принимаю участие конфигурация такая:
- Azure Databricks + Power BI
- Synapse Dedicated DW + Power BI
- Snowflake + Looker/Tableau
- Athena/Redshift + Looker/Metabase
- AWS EMR Spark data lake + Snowflake + Tableau
🫡7❤‍🔥2🌭1😭1
image_2023-08-03_08-48-52.png
1002.1 KB
Основные элементы дашборда
❤‍🔥36🍌4🎄1
Forwarded from Control Quantitative Laboratory (Pavel A)
Метод Монте-Карло

Понимаю, что в рамках поста в Telegram очень сложно будет уместить объяснение работы Монте-Карло.

Поэтому описал статью отдельно 👉 тут

В статье привел примеры как можно моделировать завершение проекта используя данные пропускной способности.

Постарался сделать самый простой пример.
Который можно использовать для развития своих идей моедлирования.
Добавил и пример с возможными наступления и рисков.

Конечно, это не единственный способ. Однако для большенства случаев он вполне подходящий.

В статье привел пример кода на JavaScript который можно запустить даже в браузере.

Но, а если у вас нет навыков программирования, вы можете воспользоваться готовой формой Rodrigo Rosaulo создавший удобную форму на сонове работ Troy Magennis' и Dimitar Bakardzhiev

Если вам статья понравилась дайте знать - поставьте свой emoji.

Будут вопросы, задавайте в тред (прикрепленный чатик к каналу)
🐳27❤‍🔥16👨‍💻7🍾1
Forwarded from Книжный куб (Alexander Polomodov)
Improving software flow

Открываю сегодня в Казани наш ИТ-фестиваль с вышеуказанным докладом, а материалы к нему публикую здесь

4 основные книги, из которых родилась идея доклада
- The Phoenix Project (2013 год) - книга написана в жанре производственного романа и похожа на книгу "Цель" ("Goal") или "Критическая цепь" ("Critical Chain") Голдратта.
- The DevOps Handbook (2016 год) - книга с популяризацией devops подхода
- Accelerate (2018 год) - книга, где приводятся крутые выводы о связи процессов и практик внутри организации и ее эффективности, а это именно те вопросы, которые интересуют менеджмент.
- The Unicorn Project (2019 год) - эта книга написана Gene Kim как продолжение предыдущей книги Проект Феникс

Связанные книги
- Team Topologies - книга про Team-First подход при проектировании архитектуры программных систем, так и организации.
- Learning Domain Driven Design - эта книга содержит много рекомендаций о том, как бороться со сложностью при проектировании софта.
- A philosophy of sotfware design - книга посвященная борьбе со сложностью и тому, как практиковать стратегический подход к разработке.
- Making Work Visible - простая книга про улучшение процессов разработки с использованием kanban подходов
- SRE Book - крутая книга целиком посвященная тому, как делать надежные системы и строить процессы вокруг них
- "Lean Software Development" - книга про lean практики в разработке

Исследования
- Google's Project Aristotle - исследование, которое ответило на вопрос "What makes a team effective at Google?"
- A typology of organisational cultures - интересное исследование про типологию организационных культур (pathological, bureaucratic, generative)

Мои выступления на связанные темы
- Культура постмортемов
- От монолита к микросервисам и обратно
- Эволюция подходов к развитию мобильного банка Тинькофф
- Эволюция web Tinkoff на ArchDays

#Processes #Management #Architecture #Conference #ExternalReview #ProductManagement #Leadership #SoftwareDevelopment #Software #SoftwareArchitecture
❤‍🔥17💘3🍾1
Forwarded from Data & IT Career (Николай Крупий)
❤‍🔥108🐳15😭13🌚9🫡4😈3🌭1🦄1
Скидка до 22% на ресурсы управляемых баз данных Greenplum и OpenSearch в Yandex Cloud

Теперь у вас есть возможность резервировать определенный объем ресурсов — Committed volume of services, CVoS — с фиксированной ценой в течение полугода или года. Это предложение доступно для всех пользователей и позволяет существенно сократить расходы при стабильном потреблении сервисов.

Условия CVoS распространяются на Yandex Managed Service for Greenplum и Yandex Managed Service for OpenSearch, работающие на платформах с процессорами Intel Ice Lake. Размер скидки: 15% при резервировании на пол года и 22% при резервировании на 1 год.

➡️ Подробнее по ссылке.

#реклама
🤷‍♂10🌭6🗿6🐳4🍾2
Настало время поделиться секретом успеха😎
🍾30🤷‍♂12🦄5🙈4❤‍🔥2🌚2🐳1
Почти закончили написание обновленной версии книги про Azure Data Factory с читателями канала. Добавили про Azure Bicep (Infrastructure as a Code), Azure Data Explorer, Azure Synapse, Azure DevOps and Microsoft Fabric.
❤‍🔥21🍾6
А вы когда-нибудь задумывались, кто отбирает доклады на ваши любимые конференции? Познакомьтесь с программным комитетом Practical ML Conf от Яндекса.

🔊 Ребята из программного комитета сообщают: число заявок превзошло все мыслимые и немыслимые ожидания. В некоторых секциях конкурс достиг 7 человек на доклад! Эксперты в ML сейчас отбирают самые классные темы и спикеров, так что будет очень много практичных и сочных выступлений. Рассказываем в карточках, кто состоит в программном комитете.

📝 Practical ML пройдёт 7 сентября в Москве, и, конечно, мы проведем онлайн-трансляцию.

👥 Узнать полный состав программного комитета и посмотреть доклады, прошедшие отбор, можно здесь.

И подписывайтесь на @Yandex for ML, там мы скоро начнём рассказывать о программе Practical ML Conf 2023.

#реклама
❤‍🔥10🐳4🗿3🤷‍♀2🌚2
Появилась ссылка на мое выступление на MDF Fest - Gentle vs Hardcore Data Engineer, Tue, Aug 22, 3:00 PM PDT
🍾23👨‍💻3❤‍🔥1🤷‍♀1🙊1
🌚25🎄4🙈2