Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Ребята из DevCrowd впервые проводят большое исследование специалистов, работающих в направлениях DS/ML/AI:

- что входит в обязанности той или иной профессии
- какие навыки наиболее важны и каких знаний не хватает
- сколько зарабатывать специалисты в зависимости от опыта и грейда
- а так же полезные для развития каналы, курсы и книги

Проходите опрос, рассказывайте про ваш опыт и помогите сделать исследование максимально охватным. Его результаты появятся в открытом доступе в конце сентября, и помогут вам сравнить свои ожидания с рыночными, построить план своего развития, и просто понять, что происходит с индустрией!

👉Пройти опрос

Посмотреть другие исследования проекта

PS не реклама, просто дружеский пост.
❤‍🔥5🗿3
По моему мнению, сейчас для всех людей кто начинает работать с данными в контексте аналитики важно с первого дня обучения или работы по профессии знать следующие вещи:

- Командная строка (CLI), та самая, которая у вас могла быть в школе на информатик в CMD. Сейчас если у вас MacOS, то Zsh с приятными плагинами Oh My Zsh, если Windows, то сразу ставьте Ubuntu WSL.

- Среда разработки (IDE), самый лучший вариант это VSCode. Бесплатно и есть плагины для всего. Отлично подойдет, чтоб редактировать файлы, писать код и запускать окошко с командной строкой.

- Git система. Самая популярная и бесплатная это GitHub. Создайте себе аккаунт и каждый день делайте туда commit, через branch, чтобы потом сделать Pull Request. А еще вы можете бесплатно запостить свой сайт про себя, использую GitHub Pages.

- Markdown - очень просто текстовый язык. Используйте его, чтобы создавать в каждой папке в вашем репозитории GitHub файлик readme.md и там описывайте шаги, храните код. Намного полезней, чем Google Doc. Конечно не так удобно как Notion, но пользы лучше. И в конце-концов ваш GitHub профайл, это ваш актив.

- Контейнеры, используйте Docker File, потренируйтесь создавать к `DockerFile и потом к нему подключаться.

Как правило все эти навыки не обязательны для аналитиков и BI разработчиков. Но это будет ваше преимущество и откроет вам много возможностей в будущем. А так же вы сможете быстро “въехать” в существующие проекты и понять, что где хранится и для чего делает, но и разговаривать на одном языке с инженерами. Да и быстрей станете сами инженером, ведь им платят больше!

PS Обо всем этом я рассказывал в 0м модуле Surfalytics (на английском) с упражнениями и примерами. В 1м модуле я рассказывал про роли и roadmap. А сейчас уже записываю 2й модуль и во 2м уроке мы использовали SQLite, Postgres на локальной машине, а потом тоже самое но в Docker контейнере.

Возможно вам будет сложно на английском, но мой английский с русским акцентом вам должен быть понятен, и сам навык английского очень важен, я еще в 2010 году читал Kimbal на английском и различные блоги и документацию. Поэтому Surfalytics для вас как бесплатный сериальчик на английском с субтитрами. А если прям хотите каждый день практиковаться, приходите в Surfalytics сообщество.

PPS еще есть замечательная книга Missing Readme, которая на пальцах рассказывает, что зачем для junior software engineer.

Подписывайтесь на YouTube, это мне поможет, я верю, что материал хороший, но сложно сейчас пробиться с 0, поэтому like, follow очень помогает!
❤‍🔥151🐳87💯2🗿1
Forwarded from Время Валеры
Начал активно нанимать в BP в Куала- Лумпуре, столице Малайзии. Визу делаем. Нужны дата-аналитики (мидлы-синьоры-стафы),
Дата Инженеры (мидлы-синьоры-стафы-принципал), МЛ Инженеры (мидлы-синьоры-стафы-принципал)

Если есть желание, резюме можно прислать на maiia.malenko@bp.com
17🗿3🫡2🤷‍♀1
И как раз Smart Data опубликовала мой доклад про архитектуры решений, которые я строил и вообще про срез знаний моей бурной data engineering деятельности.

Дмитрий Аношин — Примеры реальных аналитических решений и дата-команд в западных компаниях

Я выступал у них 3 раза уже, но в этот раз без меня 😔.

Вообще изначально главная идея телеграмм канала была именно писать контент на русском и летать в Москву/Питер выступать на конференциях. Очень надеюсь в будущем так и будет и выступлю на конференции в Москве и чего-нибудь расскажу, чему-нибудь научу📊
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥578💯2🍾2
Я решил под конец дня выполнить недельный план и вместе со стажером и ChatGPT запушить код, но к сожалению GitHub умер на самом финише.

Я думаю у многих проблемы, ну можно закрывать ноут и гулять, еще лето! И надо переходить на импортозамещение

Статус https://www.githubstatus.com/
🍾18
История из жизни.

Говорю директору у нас тут полный треш (tech debt, open source, операционка, все падает каждый день и вообще какая-то сухо…чка) и вообще нет никакого инцентива продолжать все это, и типа я сваливаю, давай до свидание.

А он говорит, реально треш, надо валить, и спрашивает нет ли у меня вариантов для него🤣
🐳68💯24🙈13😈10🫡84🍌3
Что такое VCS и как с помощью неё уменьшить косты бизнеса?

Version Control System (VCS) — это система управления версиями, которая позволяет отслеживать изменения в коде софта или других файлах проекта.

С VCS вы можете вернуться к любой предыдущей версии софта, просмотреть историю изменений, а также работать над проектом в команде, избегая конфликтов.

Эта система позволяет разработчикам эффективно управлять проектами, независимо от их размера и сложности, экономя время и деньги. Таким образом, это повышение эффективности в управлении ресурсами дает компании возможность уменьшить косты.

Плюсы использования:
1️⃣История изменений — можно легко отследить, кто и когда вносил изменения, и откатиться на любую предыдущую версию;
2️⃣Параллельная работа — разработчики могут работать над разными частями проекта одновременно, не мешая друг другу;
3️⃣Резервное копирование — ваш код всегда будет безопасен, так как его копии хранятся на удаленном сервере;
4️⃣Простота коллаборации — легко делиться кодом с другими участниками команды;

Минусы использования:
1️⃣Кривая обучения — для новичков VCS может показаться сложным;
2️⃣Конфликты слияния — при работе над одними и теми же файлами могут возникать конфликты, которые нужно вручную разрешать;

Основные поставщики:
1️⃣GitHub — крупнейший репозиторий кода, предоставляющий как платные, так и бесплатные тарифы;
2️⃣GitLab — аналог GitHub с расширенными функциями DevOps;
3️⃣Bitbucket — поддерживает работу с приватными репозиториями бесплатно для небольших команд;
4️⃣Azure Repos — часть экосистемы Microsoft Azure, интегрируется с другими сервисами Microsoft;

Использование VCS — это ключ к эффективному управлению проектами и командной работе. Внедряя VCS в свои процессы, вы значительно упростите разработку и повысите её качество.

Присоединяйтесь к Data Verse

#технологии
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿16❤‍🔥54🙈1🫡1
Недавно в LinkedIn увидел реплику, что лучший data лидер, тот кто умеет говорить НЕТ.

Очень легко говорить на все ДА, over promising, так сказать, но нагрузка ложится на команду, и часто это может быть операционка, которая вообще не вперлась для дата команды.

Как результат, если всегда говорить ДА всем, то создаются нереалистичные ожидания и начинает страдать work life balance (что видет к проблемам с mental health, или по нашему вы просто за…етесь работать в таком режиме и не успеваете отдыхать), а дальше вариантов несколько для инженеров:
1) продолжать работать в таком режиме от безвыходности
2) свалить нафиг в никуда, если финансы позволяют
3) пытаться найти новую работу и желательно чтобы ЗПшка была +20% как минимум (кстати рабочий вариант)

Как результат long term будет большой fail ну или по простому бабки сжигаются на дату команду и value (КПД) низкое.

Чтобы фигачить в таком режиме должен быть очень высокий инцентив, например если это ваша компания или у вас компенсация в год такая, что любая альтернатива и рядом не стояла, и тогда буду силы дальше делать nonsense работу в ущерб своему спокойствию. Главные не срываться на семью и детей, когда на работе все полыхает, а мы вымещаем эмоции на семью.

Интересно узнать что матерые манагеры думают? На западе я заметил, что инженеры как дети, захотели свалили, а менеджеру разгребать. Но я не менеджер и могу свалить😼
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥40🐳5🦄5💯31
Так, минутка инноваций в области управления, чтобы не было косяков как выше и и все дружно плодотворно хорошо работали, желательно за маленькие деньги (деньги портят людей🫣)

Встречайте, Trauma-Informed <key word>

Если что Trauma-Informed Analytics & Data Engineering я уже занял. Но для вас есть опции:

->Trauma-Informed Excel Analytics
->Trauma-Informed burnout
->Trauma-Informed 1С разработка


Из ЖПТ:

Trauma-Informed — это подход, который учитывает воздействие травмы на человека и ориентирован на создание безопасной, поддерживающей среды, способствующей восстановлению и благополучию. Этот подход особенно важен в таких сферах, как образование, здравоохранение, социальная работа и психотерапия. Он включает понимание того, как травматические события могут влиять на поведение, эмоции и когнитивные процессы человека, и адаптирует методы взаимодействия с учетом этих факторов.

Основные принципы Trauma-Informed подхода включают:

1. Безопасность: Создание физически и эмоционально безопасной среды для всех участников.
2. Доверие и Прозрачность: Поддержание доверительных и честных отношений, открытая коммуникация и уважение к личным границам.
3. Поддержка: Обеспечение эмоциональной поддержки и оказание помощи в восстановлении после травмы.
4. Сотрудничество: Включение человека в процесс принятия решений, уважение его выбора и предпочтений.
5. Учет культурных, гендерных и исторических факторов: Признание и уважение различий, связанных с культурным, гендерным или историческим контекстом.
6. Предотвращение повторной травматизации: Избегание ситуаций, которые могут напомнить о травме и вызвать повторное переживание травматического опыта.

Этот подход способствует не только улучшению эмоционального состояния и качества жизни человека, но и более эффективному взаимодействию и предоставлению услуг.
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿30❤‍🔥11🙈7🤷‍♂5🤷1
В субботу мы с Ромой Буниным очень классно посидели онлайн, 2,5 часа пролетело не заметно.

За это время он меня пособеседовал на позицию BI разработчика/Аналитика и рассказал про зарплаты в Амстердаме.

Рома очень классно проводит собеседование и у него высокие ожидания по разработке дашбордов, качеству визуализации, и главное коммуникации с бизнес пользователями, чтобы докопаться до сути бизнес проблемы. И вообще у него высокий emotional intelligence и сильные soft skills, что делает его классным лидером для своей команды и компании.

На интервью:
- работал в Tableau
- писал SQL
- рассказывал на пример дашборда о его проблемах и возможностях улучшений
- пострарался решить бизнес кейс и сам увидел на своем опыте как сложно быть аналитиком

Ссылка на пост и видео https://t.me/revealthedata/1279

UPD: ссылка на dzen https://dzen.ru/video/watch/66c2ec9068b5661787f78482
❤‍🔥5219
На этой неделе у нас будет потрясающий 5-дневный лагерь Surfalytics Surfing + Data в Тофино, Британская Колумбия.

Это одно из самых красивых мест в Северной Америке с особой атмосферой 💕.

Что мы будем делать?
серфинг для взрослых и бодисерфинг для детей
рыбалка со скал на ужин
походы
велопрогулки
сапсерфинг
сауна
ежедневный книжный клуб на 60 минут
вечерние обсуждения данных
обмен знаниями
некоторые участники запланировали интервью на эти дни и могут воспользоваться коллективной помощью ;)

PS Когда то я просто мечтал, как было бы круто так сделать, а сегодня я это делаю! Не стесняйтесь в своих хотелках🏄‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
106106❤‍🔥32🍾15🌚3😭3
У Microsoft утекли зарплаты в США. В принципе зарплаты похожи на реальность, в Канаде все тоже самое но в Канадских долларах, и на 15-20% меньше.

Источник https://www.businessinsider.com/microsoft-spreadsheet-shows-pay-engineers-2024-8

Чтобы было понятно:
61, 62 - middle
63, 64 - senior
65, 66 - principal (staff нет позиции)

Более детально по уровням можно смотреть на levels fyi сайте, там можно сравнить другие тех компании и их роли.

Еще в Microsoft нет позиции Data Engineer, это Software Engineer. В описании позиции сложно понять, что будет делать человек, и только по стеку можно догадаться, что это про “хранилище данных”. Но как правило будет C# и Windows ноутбук. Навыки сложно конвертировать за пределами Microsoft.

Внутри Microsoft ужасный refer, если в Amazon можно было прыгать из команды в команду легко, то в Microsoft это практически не возможно, менеджеры ничего не могут сделать и просто вам не отвечают.
50🗿12
Несмотря на то, что Snowflake хороший продукт, у него много проблем с экономикой, которая не сходится. Изначально продукт был очень сильно раздут и мы видим как цена акций падает. А следовательно мотивация многих людей тоже может падать, ведь их total comp зависит как раз от цены компании.

Перевод поста:

Непопулярное мнение о #snowflake.

Уоррен Баффет известен тем, что никогда не инвестирует в программное обеспечение, но сделал исключение для Snowflake. Вероятно, он больше никогда не будет инвестировать в ПО, учитывая текущие результаты (цена ниже уровня IPO, отрицательная доходность за 4 года).

На мой взгляд, у Snowflake есть две большие проблемы:

1) Структурная: Snowflake должен был следовать тому же пути, что и Марк Бениофф в Salesforce. Марк обещал, что весь рынок CRM на базе локальных решений перейдет в облако, но через 25 лет только около 50% рынка находится в облаке. Марк быстро расширялся, приобретая крупные смежные бизнесы, такие как ExactTarget (автоматизация маркетинга), Mulesoft (API, обработка данных), Tableau (BI), ClickSoftware (и чуть было не LinkedIN).

Фрэнк Слутман отлично справился с задачей, заработав более $3 млрд на начальном кейсе использования облачного хранилища, но упустил возможность создания платформы. Кроме того, доходы компании полностью включают затраты на облако, так что это не чистый доход от ПО. Множитель должен быть больше похож на облачного провайдера, а не на SaaS/инфраструктуру.

Возможно, он неправильно оценил Snowflake, исходя из своего опыта в ServiceNow, которая является действительно устойчивой платформой. Snowflake следовало бы приобрести Confluent, Alation (каталог), Grafana Labs (BI + наблюдаемость), чтобы упомянуть лишь некоторых. Или сделать ставку на стартапы баз данных ClickHouse или PG. Также стоило бы агрессивно консолидировать MDS (современный стек данных), чтобы вытеснить Databricks. Более дешевые альтернативы Fivetran, DBT, Monte Carlo и т.д. Боюсь, что сейчас уже слишком поздно.

2) Тактическая: Databricks конкурирует с более дешевым озером данных и множеством вариантов запросных движков. Кроме того, в настоящее время клиенты хотят решения на основе "GenAI", и с учетом наследия структурированных данных, Snowflake не является первым местом, куда клиенты обращаются за AI.


И мы наблюдаем как Snowflake превращается в Enterprise компанию.

Мне нравится коммент от CEO Databricks:

All these years they kept saying that Snowflake's sales team is formidable. But the truth is that you need a technical sales team. Our CRO literally has a graduate degree in engineering from Stanford and can code. This makes all the difference in the world...

Все эти годы говорили, что у Snowflake мощная команда продаж. Но на самом деле вам нужна техническая команда продаж. Наш CRO имеет диплом инженера из Стэнфорда и умеет программировать. Это меняет все…

А как вам видиться противостояние 2х компаний?
❤‍🔥16🐳64
10 лет назад все бежали в public cloud, а теперь повернулись на 180 градусов и бегут из public cloud. Интересный тренд. Думаю мы еще увидим много интересного как тренды меняются.

Может оно и хорошо, что в РФ Яндекс и ВК облака еще не так сильно популярны, так сказать проскочили тренд и теперь снова в тренде на on-premise:)
38🌚15
Последние несколько лет ежедневные стендапы по 20-30 минут стали для меня невыносимы.

Они бывают разными:

• Каждый день можно выходить к доске и переклеивать sticky notes, если вы работаете в офисе.
• Online-встречи с коллегами, где каждый делает вид, что рассказывает, что он сделал вчера и что будет делать сегодня.
• Иногда проходят встречи для cross-команд, и тогда эта канитель занимает не 15-20 минут, а 30-40 минут. У нас было так: нужно было назвать следующего человека, вести учет из 20-25 людей, кто уже говорил, а кто — нет… Для меня это был настоящий челлендж.
• Когда я работал на ГКНПЦ им. Хруничева в должности мастера участка механообработки, каждое утро я обходил токарей, фрезеровщиков и слесарей, жал им руку и спрашивал про прогресс. К сожалению, они не собирались у доски, и мне приходилось искать их по цеху. Это тоже был своеобразный, но бесполезный стендап.

В общем, за последние два года я осознал, насколько круто проводить полностью асинхронные стендапы, где каждый пишет в thread в Slack о своём прогрессе. Это сразу освобождает больше времени на работу.

Кстати, такой метод внедрил один из моих бывших менеджеров, который много лет проработал в Meta, а до этого вышел на IPO вместе с Lyft и смог купить домик в Сиэтле за 4 миллиона долларов. Он был противником бесполезных встреч и сделал все нудные процессы полностью асинхронными. Это оказалось очень эффективно.

Очевидно, что это хорошо работает с опытными специалистами. А как быть с новичками и стажерами? Здесь лучше иметь onboard-бадди или ментора, который будет работать с ними над задачами.

Теперь у меня всё просто: если на митинге больше четырёх человек, включая меня, на 99% он бесполезен, и можно не ходить. Точнее, присутствовать надо, но мыслями и делами быть в другом месте, то есть заниматься работой.

А как у вас обстоят дела с ежедневными стендапами и другими церемониями?
💯91🙈6👨‍💻5💘42
This media is not supported in the widget
VIEW IN TELEGRAM
6128🙉19🫡1513🦄10👾6🐳3👨‍💻3🗿3🍌2😈1
Увидел пост в Linkedin и перевел его в chatgpt:

Я прочитал прогноз, что к 2030 году 80% разработчиков программного обеспечения будут заменены ИИ (или, что в противном случае, зарплаты сильно снизятся).

Я также посмотрел видео на YouTube, где один парень заказал приложение у разработчиков, работающих с no-code решениями, которые оказались быстрее, дешевле и лучше, чем обычные разработчики.

Я использую и Copilot, и ChatGPT в своей работе, но все же считаю себя разработчиком программного обеспечения, и хотя я нахожу эти инструменты потрясающими, мне сложно представить, как подобные прогнозы и утверждения могут стать реальностью, особенно в такие короткие сроки.

Буду благодарен за советы, чего я не замечаю! Какие-то конкретные прорывы или разработки помимо Copilot и ChatGPT, рабочие процессы или интеграции?


Вопрос понятный и актуальный. Мне понравился коммент от Gergely Orosz (автор The Pragmatic Engineer):

Обратите внимание на то, кто делает такие прогнозы. Я вижу подобные предсказания почти исключительно от людей, работающих в компаниях с венчурным финансированием, создающих такие инструменты (их успех зависит от этого прогноза), от венчурных инвесторов, вкладывающих средства в те же компании, и от людей, которые не занимаются разработкой день за днем с использованием этих инструментов.

Я спросил разработчиков, которые используют эти инструменты каждый день, и почувствовал суровую реальность по сравнению со всем этим хайпом:
ссылка.


От себя добавлю, что мне сложно предсказать, что будет с индустрией через пять лет. Возможно, такие опытные специалисты, как я, с пятнадцатилетним стажем выполнения примерно одних и тех же задач, будут востребованы в каком-то объеме. Однако начинать карьеру в качестве junior analyst в 2030 году, скорее всего, станет сложнее. Возможно, не столько из-за AI, сколько из-за количества кандидатов на рынке, которые прошли (и заплатили большие деньги) курсы и получили сертификат, подтверждающий, что они готовы "грызть" данные.

Сейчас я на собственном опыте вижу, что ChatGPT и Copilot иногда помогают мне выполнять работу быстрее, но явно не лучше. Качество работы зависит от опыта и навыков.

Например, у меня на велосипеде почти год не работал гидравлический тормоз. Я пытался его починить в мастерской, но мне говорили, что придется ждать неделю, чтобы просто прокачать масло. В итоге, времени все не хватало. И тут я зашел в небольшой магазин, и мастер за 5 минут и 10 долларов устранил проблему. Оказалось, что на моем gravel bike можно регулировать ручку тормоза под длину пальцев, и у меня она была неправильно настроена, из-за чего тормоз не работал.

То есть, у него многолетний опыт, и он видит всю картину целиком. Я бы заплатил ему и 50 долларов за 10 минут работы, потому что он действительно профессионал в своем деле.

Возвращаясь к AI, по моему скромному мнению, эти инструменты пока еще плохо воспринимают (бизнес-) контекст и общую картину. Они решают точечные задачи и автоматизируют узкие бизнес-процессы (например, поддержку).

В аналитике, как правило, очень широкий и уникальный контекст. AI может создать pipeline, дашборд, собрать метрики, но пока это еще далеко от реальности, и крупные компании не скоро смогут это внедрить. До сих пор многие компании используют Teradata/Oracle с 90-х годов. У них огромные бюджеты на AI, которые раньше тратились на ML, Big Data, Cloud и т.д.

В целом, нам не стоит беспокоиться по этому поводу, ведь мы не можем контролировать этот процесс. Но мы можем контролировать свою гибкость и всегда быть открытыми к новому (гибкое мышление), чтобы учиться и развиваться, о чем я часто пишу в этом канале.

Нашим детям будет сложнее, и все, что мы можем сделать для них — это создать комфортные условия для учебы и спорта. Математика, чтение, языки и спорт — и все будет отлично!

Ладно, а как вы себе представляете AI-апокалипсис?

Лично я больше боюсь землетрясения, которое уж точно лишит всех работы в IT, как это уже бывало раньше - The M9 Cascadia Megathrust Earthquake of January 26, 1700
❤‍🔥6514👾5🤷‍♀44🐳1
Инжиниринг Данных
This media is not supported in the widget
VIEW IN TELEGRAM
🍾741
This media is not supported in the widget
VIEW IN TELEGRAM
6229❤‍🔥6🗿2