Инжиниринг Данных
23.6K subscribers
1.99K photos
57 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Недавно столкнулся с задачкой, когде мне понадобился git worktree и tmux для агента. Первый шаг к AI конвейеру.

tmux — программа для терминала, которая позволяет:
• Разделить один терминал на несколько окон — работай в нескольких местах одновременно
• Не терять работу при отключении — закрыл терминал или оборвалось SSH-соединение? Всё продолжает работать, можно вернуться позже
• Запускать долгие процессы на сервере — отключился, а программа работает

Простой пример
Подключился к серверу → запустил tmux → запустил долгую задачу → отключился от сервера → задача продолжает работать → подключился обратно → всё на месте

Коротко: это как вкладки в браузере, но для терминала, и они не закрываются, даже если ты вышел.



Git worktree — это возможность Git создать несколько рабочих копий одного репозитория с разными бранчами одновременно.
Зачем нужен:
Обычно в одной папке репозитория можно работать только с одним бранчем. Git worktree позволяет работать с несколькими бранчами параллельно без переключения.

Как работает:

```
# Основной репозиторий в ~/project (бранч main)
cd ~/project

# Создать worktree для другого бранча
git worktree add ../project-feature-1 feature-1
git worktree add ../project-feature-2 feature-2
```

Теперь у тебя:
• ⁠~/project — бранч main
• ⁠~/project-feature-1 — бранч feature-1
• ⁠~/project-feature-2 — бранч feature-2
Все три папки связаны с одним репозиторием (один ⁠.git), но работают с разными бранчами.

Преимущества:
• Не нужно переключать бранчи и коммитить незаконченную работу
• Можно открыть разные бранчи в разных редакторах (Claude Code в одном, Cursor в другом)
• Экономит время — не нужно клонировать репозиторий несколько раз

Коротко: один репозиторий, несколько папок, разные бранчи одновременно.





Так как я теперь работаю сразу в Claude Code и Cursor на своём Mac, я не могу работать в одном Git Branch. Точнее, я начал это делать, и потом у меня 2 задачи склеились в одну внутри одной ветки, причём частично. (На Windows машинах я использую VSCode + KiloCode, так как нет админского доступа)

Таким образом, сразу возникает потребность в разделении веток на одной машине. Git worktree решает эту проблему, а tmux помогает удобно управлять несколькими терминальными сессиями для работы с разными worktree одновременно.

Дальше нужно попробовать добавить OpenSpec, чтобы поставить задачу и разбить её на подзадачи, чтобы запустить несколько агентов параллельно.

Именно в AI у меня три направления:
1. Разработка с AI — это самое простое, просто нужно следить за обновлениями и примерами и пробовать на своих задачах.
2. Бизнес-кейсы для DE — тут в теории понятно, а вот техническая реализация требует времени. Сейчас очень популярно делать RAG, chat bot, Agent workflow или использовать GenAI для автоматизации. Часть кейсов хочу внедрить в Surfalytics, для этого мигрирую на Netlify + Supabase.
3. Личные агенты и ассистенты — на рынке много продуктов, которые могут делать простые задачи. Например, на базе моих календарей и задач в Notion, Jira, Asana сделать примерное расписание дня и забукать слоты в календаре. Или совсем простой кейс — каждый раз, когда делаю PR или работаю над задачей, заводить новый тикет через MCP и отслеживать все тикеты и обновлять статусы.
❤‍🔥153
После волны AI-стартапов что станет новым фокусом для венчурных инвестиций и технологических компаний?
Anonymous Poll
35%
🧬 Биотехнологии и продление жизни — технологии anti-aging и борьбы со старением
17%
⚛️ Квантовые вычисления — компьютеры нового поколения для невозможных сейчас задач
8%
☀️ Термоядерная энергетика — чистая и практически безграничная энергия
18%
🧠 Нейроинтерфейсы — прямое подключение мозга к компьютерам и устройствам
3%
🚀 Космическая экономика — добыча ресурсов, туризм и инфраструктура в космосе
5%
🌐 Децентрализованный интернет — возврат контроля над данными пользователям
3%
🔬 Синтетическая биология — программирование живых организмов как кода
3%
💎 Новые материалы — графен, метаматериалы и программируемая материя
3%
🧘 Ментальное здоровье и нейронаука — технологии работы с сознанием и психикой
5%
🥩 Культивированная еда — выращивание мяса и продуктов из клеток в лабораториях
Все самое лучшее всегда должно быть простым и понятным. Это применимо ко всему.

Если взять пример внедрение аналитических решений, взаимодействия с другими командами, то я ничего лучше не видел, чем framework DACI.

Матрица DACI (да́си) — это таблица, в которой описывают роли членов команды на всех этапах проекта. Каждый участник может узнать, за что сейчас отвечает и что должен сделать.

Всего существуют четыре роли:
• Driver (организатор) — отвечает за процесс и результат.
• Approver (заказчик) — принимает и оценивает итоги работы.
• Contributor (исполнитель) — работает руками или консультирует.
• Informed (информированный) — находится в курсе процесса.


Для меня это простой инструмент экономии моего (и команды) времени. Нет смысла сидеть на встречах и слушать мнения некомпетентных коллег, особенно там, где у меня есть опыт.

Один из недавних примеров - организация хочет строить аналитическое решение в AWS. У них сейчас on-premise SQL Server, SSIS, SSRS, и они уже месяцев 8 двигаются в эту сторону. Даже создали кластер Redshift, за который платят по $1000 в месяц, но только ничего на нём не сделали. Оно и понятно, ведь организация почти государственного масштаба, даже есть профсоюз, поэтому они не боятся увольнения, и AI им тоже не к чему.

Что может быть проще, чем сделать хранилище на AWS и Redshift? Поэтому, чтобы ускорить процесс, мы создаём в Confluence Decision Log и список горячих вопросов. Для каждого вопроса у нас создаётся документ DACI, в моём случае список документов:

1. Количество AWS акаунтов - один общий для Dev/Prod или несколько, для каждой среды. Очевидно, чем больше акаунтов, тем дороже в линейной зависимости.

2. Каким образом мы накатываем изменения в AWS аккаунт? CloudFormation, Terraform, CDK - нужно выбрать один способ, и мне вообще всё равно, я больше сам код не пишу для инфраструктуры, хоть на Rust. Но важно, чтобы репозиторий был вне периметра IT, чтобы у нас были все козырные права.

3. Framework для трансформации данных - dbt, Glue, stored procedures. Они уже вовсю гоняют Glue Spark, чтобы данные внутри Redshift трансформировать. Про dbt не слышали. Хотя специально для таких консервативных пользователей лучше, чем dbt, нет.

4. Orchestration инструмент - AWS Batch, AWS Step Functions, on-premise Airflow (уже есть), Airflow on ECS, Managed Airflow. Так как я уже два раза внедрял Managed Airflow и остался очень доволен, то мой выбор очевиден. Но IT хотели бы свой Airflow on-premise.

5. Среда разработки - виртуальная рабочая станция (для работы с on-premise) или сам ноутбук. Даже без админского доступа я уже всё себе смог настроить через Python, VSCode. Но хотелось бы, чтобы они немного поменяли mindset и жили в современном мире.

Написать эти 5 документов у меня заняло где-то час. И то пришлось копировать руками из Markdown в Confluence, потому что я не смог поставить Confluence MCP, так как нет прав на установку npm. А через Python не получилось. Без AI я мог бы писать по одному документу в день. А если взять их pace time, то можно писать один документ в неделю.

В данном контексте AI лишь помог расширить мою мысль про правильное решение и подтянул дополнительные факты. Вообще через такие документы можно манипулировать мнением других. Дальше все желающие оставят комментарии, мы на них ответим, и, как говорится, полный газ.

Менеджера я тоже очень воодушевил, рассказал ему, что он Leader (с большой буквы) и его задача убирать road blockers для команды и всех делать счастливыми (типа иди договаривайся с IT, как все доступы получить).

У них ещё команда не обычная: главный ETL-разработчик уже не один десяток лет работает с ними, и, к сожалению, он практически ослеп на старость лет, но он всё ещё главный ETL-разработчик и делает мне демо, как у них там всё работает. А вы тут говорите, у вас времени нет учить AI и зарабатывать 😊
❤‍🔥28💯8
Media is too big
VIEW IN TELEGRAM
Я: 2 зума подряд — выгорел, productivity на нуле

Чувак с 5 remote jobs…
🙈28❤‍🔥84🐳2
Тут накопилось несколько событий.

1️⃣Во вторник 3го февраля по Москве в 6 вечера будет вебинар про Iceberg и Lakehouse, вот детали:

Ссылка:
https://us06web.zoom.us/j/84412299387?pwd=0nAeguTrx40NPv7Ny7rGaVhyvUBvqa.1

Пост:
https://t.me/analyticsfromzero/435 (в комментах есть ссылка календарь)

Описание
С первого взгляда кажется, что Лейкхаус - это чудовищный зоопарк решений, компонентов и сервисов. И так оно и есть ) Для демонстрации и курса Алексей собрал небольшой стенд на одной виртуальной машинке. Хватает простой Убунты на 6 ядрах, чтобы запустить полноценную функциональную сборку и посмотреть, как работает этот класс решений.

На открытом воркшопе Алексей покажет компонентный состав, а по итогу - даст ссылку на GitHub, с помощью которого можно собрать стенд за пару скриптов.

Об авторе
Алексей Белозерский - самый главный по BigDataстроению @ VK Cloud 🤩

———

2️⃣Недавно собрались отцы основатели отечественного дашбордостроения (скорей всего они уже строят свои дашборды на весь мир) и обсудили изменения в индустрии - Dashboardless Analytics - Алексей Колоколов, Дмитрий Некрасов, Роман Бунин.

Описание тут: https://t.me/jetmetrics/370 | https://t.me/analyst_club/2726
Запись тут: https://insba.getcourse.ru/after_web_23-01-26

PS Никого не забыл упомянуть?!🟢
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥93🌚1
Команды Яндекса ищут продуктовых и data-аналитиков, а также data scientists с опытом на Python от 3 лет.

Участвуйте в Weekend Offer, чтобы всего за 2 дня пройти все собеседования и получить офер.

Как участвовать?
Зарегистрироваться на сайте до 25 февраля.
Пройти две технические секции 28 февраля.
Познакомиться с командами и получить офер 1 марта.

Мы опираемся на научные исследования и аналитические данные, а потом превращаем их в реальные продукты для миллионов пользователей. Присоединяйтесь, чтобы строить полезные сервисы вокруг ИИ-технологий, находить новые решения и делать то, что другим не по силам.

Подробности и регистрация — по ссылке: https://yandex.ru/project/events/wo-analytics-0226
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚9🙈5❤‍🔥3🤷1
🎓Снова вебинар 🎓
Сегодня 3 февраля в 20:00 по мск

🖥 Тема: OLAP Cервер для нового стека данных
Ребята сделали штуку - XLTable, в которой можно работать с ClickHouse, BigQuery, Snowflake из сводной таблицы Excel.
Аналог MS OLAP (SSAS) для больших данных.
В общем послушаем, что расскажут об инструменте и про олап кубики, заявляют, что из эксельки можно работать с миллиардами строк данных, у меня например при 500 тыс. все тормозит 😄

Спикер: Богдан Калиновский

#Вебинар #datalearn
Please open Telegram to view this post
VIEW IN TELEGRAM
217❤‍🔥5🙉5💯3🙈2🐳1
Live stream finished (56 minutes)
Life hack для менеджера и тимлида — Монополия на знание

• Ставите себе Claude Code / Cursor.
• Подключаете все возможные MCP (Confluence, Git, базы данных и т. д.).
• Настраиваете CLI для ваших сервисов (CI/CD, Infra, Monitoring и т. д.).
• Подключаетесь к Jira, чтобы всё мониторилось за вас.
• Записи всех встреч скармливаете в AI и получаете готовый backlog и Action Items.

Добавляете еще несколько полезных интеграций по вкусу.

Но самое главное: вы официально запрещаете использовать AI на работе под страхом увольнения. Ведь это «небезопасно» и «не комплаенс».

Таким образом, вы становитесь «Брюсом Тимлидом Всемогущим», реализуя исторические модели доминирования:

• «Вассал собирал оброк с крестьян»
• «Феодал взимал дань с зависимых крестьян»
• «Помещик собирал подати с крепостных»
• «Землевладелец получал ренту от крестьян»

Но пока часто получается наоборот: один инженер втихую делает всё сам, пока менеджеры пропадают на встречах, а команда погрязла в рутине и не находит времени на самосовершенствование.
🌚2664🤷2
This media is not supported in your browser
VIEW IN TELEGRAM
Планируем поезду в LA в середине марта, чтобы взять 911 и на нем покататься по побережью до SF.

Можно как обычно на сидр где-нибудь встретиться или еще чего сделать🥇
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥21🫡31
Строчка из свежего job offer

Увольнения: В связи с экономическими или иными деловыми условиями Компания может временно отстранить вас от работы. Любое такое временное отстранение, при условии что оно соответствует требованиям ESA, не будет являться прекращением вашей трудовой деятельности или конструктивным увольнением.


Ну то есть если вы выходите на новую работу, у вас нет абсолютно никаких гарантий. Раньше я такой пункт не видел, а теперь это обычная практика.

🙅‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡9🐳441