Инжиниринг Данных
23.8K subscribers
2.03K photos
60 videos
194 files
3.24K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Заметил как народ сейчас начал активно впаривать курсы по Claude Code и AI разработке за дорого и решил сделать бесплатный курс и добавил на dataengineer.ru - Claude Code 101

Так как проект dataengineer.ru сидит в GitHub repo, то он полностью открыт и можно вносить изменения в курс всем желающим.

Курс получился простой и легкий. Последняя глава про возможность использовать Claude Code с бесплатными моделями. Я сам так не делал, но поискал информацию про это.

#aidev
65❤‍🔥16527🫡3
Открыта регистрация на главную конференцию этой весны по технологиям ИИ и анализу данных — Data Fusion* 2026! 💙

Шестая ежегодная конференция Data Fusion пройдет 8–9 апреля в Москве в инновационном кластере «Ломоносов».

60+ актуальных сессий, докладов, кейсов, дискуссий по теме анализа данных/ DS/ ML. Среди тем – ИИ-агенты, RL, CV, NLP, Open Source, Embodied AI и робототехника, рекомендательные системы, применение ИИ в кибербезопасности, AI+ естественные науки, AgentOps и многое другое! Всю программу ищите на сайте (подавайте ваши доклады, welcome!).

Конференция объединит лидов ML-команд, DS-специалистов, молодых ученых, инженеров, аналитиков и руководителей, принимающих решения о внедрении технологий в бизнес и государственные сервисы.

Среди спикеров конференции: Суржко Денис (ВТБ), Оселедец Иван (AIRI), Райгородский Андрей (МФТИ), Бурнаев Евгений (Сколтех,AIRI), Саркисов Тигран (Х5), Крайнов Александр (Яндекс), Зима Андрей (Ростелеком) и другие эксперты из науки и индустрии.

Все мы любим конференции не только ради знаний, но и, конечно, ради нетворкинга и новых знакомств! Живое общение в кругу коллег, друзей и единомышленников – важная часть Data Fusion!

Не пропустите, регистрируйтесь.

*Data Fusion — Объединение данных
Информация о рекламодателе
Please open Telegram to view this post
VIEW IN TELEGRAM
В последние несколько дней мне попались несколько интересных примеров/вопросов, которые могут возникнуть в любой компании.

1️⃣ Мы платим Montecarlo 100k$ в год за всякие data quality, observability. Dbt tests не работают, так как нужен UI, чтобы не технические пользователи смогли сами все сделать. Нужно взять Claude Code и создать агентов, чтобы они сами все проверяли и писали SQL и если нужно, можно это все где-то хостить и добавить красивый UI.

Я подумал, ну реально дураки, платят 100к в год вендору, а Claude Code все на раз-два завайбкодит. Заодно можно попросить отвайбкодить Snowflake, HighTouch, Airflow, Fivetran и другое=)

В этой ситуации видны хотелки менеджеров. Вам Claude, не чтобы за вас работу делать, а чтобы вы заменили вендоров. Это же AI, он все может….


2️⃣ PM кто кайфует от Claude Code и уже сам может делать end-to-end одноразовые дашборды поверх google sheets, заявил, что нам бы надо использовать Make .com или Zappier .com, чтобы накрутить всякие там автоматизации, и все быстренько работало, но то есть куяк-куяк и в продакшн, то есть надо быть AI-first + serverless. А я вот со своим традиционным дата инжинирингом замедляю прогресс.

А то, что половина его хотелок уже давно в дашбордах, это уже не принципиально. Негоже современному продукт менеджеру пользоваться технологиями из прошлого.

И вот непонятно, неужели data engineering уже такой bottle neck для бизнеса. По мне чувак вообще одноразовую фигню какую-то придумал.

3️⃣Последний пример был не про AI, и он больше как открытый вопрос. Возьмем любой стартап, у кого еще аналитика в начальной стадии. Как бы я сделал - добавил Airflow, dbt и там уже по ходу смотрел, где чего добавить. Все просто и понятно, любой человек без опыта научится за несколько месяцев.

Но у этой истории есть альтернатива - взять managed Kubernetes на облаке и туда вставить open source Kafka и все остальное, чтобы данные летали в real time, и все было по взрослому и на долгую перспективу. Нужно или не нужно это не самое главное, главное, что теоретически в будущем когда компания вырастит, будет круто иметь все в real-time и можно всякие интеграции бизнесовые делать.

Этот кейс интересный, ведь когда компания выбирает для себя путь, особенно если у нее есть возможность использовать западный стек, от первоначального выбора будет зависеть очень много.

Мой подход был всегда использовать такие решения для конкретных кейсов, но технически реально сразу его использовать для всего, только вопрос, стоит ли это того или нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
20❤‍🔥12🫡53
Познакомился сегодня с библиотекой Get Shit Done


Это лёгкая и мощная система мета-промптинга, контекстной инженерии и спецификационно-ориентированной разработки для Claude Code, OpenCode и Gemini CLI.

Какую проблему решает?
GSD решает проблему «context rot» — деградации качества ответов ИИ по мере заполнения контекстного окна. Когда вы описываете задачу ИИ и он генерирует код, результат часто получается нестабильным и разваливается при масштабировании. GSD выступает прослойкой контекстной инженерии, которая делает Claude Code надёжным.

Как это работает?
Рабочий процесс состоит из цикла:
Инициализация проекта (⁠/gsd:new-project) — описываете идею, система извлекает всё необходимое, создаёт ⁠PROJECT.md, ⁠REQUIREMENTS.md, ⁠ROADMAP.md, ⁠STATE.md
Обсуждение фазы (⁠/gsd:discuss-phase) — система выявляет «серые зоны» и уточняет ваше видение, формируя ⁠CONTEXT.md
Планирование (⁠/gsd:plan-phase) — исследование и создание планов, каждый достаточно маленький для выполнения в свежем контекстном окне
Выполнение (⁠/gsd:execute-phase) — параллельное выполнение планов «волнами» (waves) с учётом зависимостей, атомарные git-коммиты
Верификация (⁠/gsd:verify-work) — автоматическая проверка + ваша ручная приёмка (UAT)
Повтор — цикл повторяется до завершения всех фаз, затем ⁠/gsd:complete-milestone

Ключевые особенности
Мульти-агентная оркестрация — тонкий оркестратор порождает специализированных подагентов, основное контекстное окно остаётся на 30–40%
XML-форматирование промптов — оптимизировано под Claude
Атомарные git-коммиты — каждая задача = отдельный коммит, удобно для ⁠git bisect и отката
Quick Mode — для мелких задач (баг-фиксы, конфиги) без полного цикла планирования
Поддержка brownfield — команда ⁠/gsd:map-codebase анализирует существующий код перед началом работы

Ради интереса попробую использовать для какой-нибудь задачи.

Может кто уже использовал? И какие еще есть хорошие варианты для планирования задач агентов?
24❤‍🔥8
Замечательно, согласно мужичкам из All-In подкаста, уже сейчас токены становятся дороже инженеров. Они сжигаются очень быстро и очень много, а результат не всегда предсказуемый и правильный. Хотя сейчас в целом мало кто пользуется агентами, в основном инженеры, но не большинство.

Дополнительно AI агенты едят токены сами по себе на разных псевдо полезных интеграциях.

Прямо сейчас у меня открыт AI gateway Requestly.io который пропускает весь трафик Claude code и считает токены, заодно хранит мою переписку с AI (менеджерам на заметку).

И я вижу сколько долларов я сжег пока гонял Get Shit Done из прошлого поста, чтобы придумать как заменить Montecarlo из позапрошлого поста💰

Пора пойти сделать, что-то полезное за день🎮
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤷25🌚6❤‍🔥2
Года два назад я писал про глобальную экспансию - increase global presence. Тогда я застал это в Microsoft и в Okta, когда менеджеры говорили открыто, что задание нанять 2х индусов, вместо одного Американца, так как дешевле.

Походу сейчас тренд меняется, в одно большой публичной компании закрыли офис в Индии и сократили всех разработчиков. Офис оказался неэффективным и одна из проблем была, что большая текучка кадров, то есть приходят, работают, но условия плохие и увольняется. И в целом оказалась, дешевая рабочая сила не сильно помогла компании.

PS наверно едут в Москву дворниками.
🤷12💯6🌚3🍌3
Пример сравнения платформа данных в РФ. Насколько соответствует действительности?
💯214❤‍🔥4🙊3🐳1
Who will be the first CIO fired for AI agent havoc? - с таким заголовоком вышла статья на CIO издательстве.

Вот как AI заменит руководителей в прямом смысле…

Краткое содержание статьи
Статья посвящена рискам неконтролируемого внедрения ИИ-агентов в крупных компаниях и угрозе увольнения CIO (ИТ-директоров) из-за последствий их работы.

Ключевые тезисы:
• Прогноз IDC: К 2030 году до 20% из 1,000 крупнейших компаний столкнутся с судебными исками, регуляторными штрафами или увольнением CIO из-за сбоев, вызванных неуправляемыми ИИ-агентами.
• Проблема каскадных ошибок: Когда несколько ИИ-агентов работают совместно, ошибка одного может лавинообразно усиливаться — остальные агенты действуют на основе ошибочного результата, создавая «бесконечный цикл».
• FOMO как драйвер: Многие компании спешат внедрять ИИ-агентов из страха отстать от конкурентов, не уделяя должного внимания управлению и контролю.
• Юридические последствия: Для исков не нужны новые законы об ИИ — существующие правовые нормы (например, HIPAA) уже применимы. ЕС будет активно штрафовать за нарушения приватности, штаты США тоже могут принять регулирование.
• Угроза для CIO лично: Совету директоров достаточно задать один вопрос — «Что именно делают наши ИИ-агенты?» — и если CIO не может ответить, его карьере конец. Потеря доверия совета происходит за секунды, в отличие от судебных процессов, которые тянутся годами.

Рекомендации:
• Вести полный реестр работающих агентов
• Обеспечить аудит-трейл от действия агента до бизнес-результата
• Включать человека в контур для чувствительных задач
• Добавлять «трение» для необратимых действий
• Проводить учения и заранее определять «красные линии»
• Делать процессы управления максимально прозрачными

Главный вывод:
Агентный ИИ не создаёт новых принципов управления — он лишь резко повышает цену их игнорирования. CIO, который сможет показать чёткие контроли и журналы аудита, будет в гораздо лучшем положении, чем тот, кто скажет «это система сделала сама».

Здесь не поспоришь, кому-то надо будет отвечать за vibe-coding, за утечку данных и другие прелести быстрой разработки.

Open AI и Antropic должны выпустить отметку, что это только не компетентные CIO уйдут, их заменит AI, а компании станут лучше, ведь, что вас не убьет - сделает сильней.
🫡15❤‍🔥5🐳2🙈2
Сейчас мой типичный workflow выглядит так:

1. У меня появляется вопрос или идея
2. Я открываю Claude Code CLI
3. Прошу сделать research на заданную тему и сохранить в Markdown
4. Открываю Google Doc -> Paste from Markdown
И получаю хороший документ.

Я скидывал про курс по Claude Code, которого будет достаточно, чтобы начать и привыкнуть к CLI и интерфейсу.

Сегодня посмотрел очень хорошее видео - How I use Claude Code (Meta Staff Engineer Tips), там 50 tips по использованию Claude Code в CLI, многие достаточно удобные и полезные. Очень рекомендую.

PS Не знаю это хорошо или плохо, но я написал 0 строчек кода с начала года. Будем считать, что иду в ногу со временем. И даже PR я уже сам не делаю, использую CLI утилитку gh для GitHub. Она может и PR писать, и GitHub Actions запускать. У каждого инструмента есть свой CLI.

А что мне остается?
• Архитектура решения
• Принятия решения
• Выбор инструментов
• Создание framework/pattern, в котором AI агент может делать простые задачки

Поэтому инвестиция в Claude Code это прям лучшая трата денег.

Хотя есть одна область, где прям совсем все плохо - попросил придумать MonteCarlo Monitors (проверка качества данных) - тут очевидно все плохо, не может понять, что проверять, зачем и как. Да я и сам не знаю.

PPS Общался с руководителем аналитики в РФ компании, он всем своим аналитикам оплачивает Claude Code. Раньше был Cursor, но переехали. Вот это уровень!


Чтобы учиться, я тоже теперь использую Claude Code. Например, хочу сделать проекты по Kafka/Flink и тп. Попросил Claude Code создать курс end-to-end. Очевидно, будет много проблем, но походу прохождения курса, все проблемы решаться.
🦄37❤‍🔥129👨‍💻4🫡1
Норм движ там у Anthropic. Они воруют данные, чтобы обучать модели. А китайские ребята уже воруют у антропика их результат💰

А как отечественные модели делают? Они пылесосят запрещенку или уже готовый результат берут?))
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈23😭8❤‍🔥4🫡3
Databricks is no longer about tuning knobs - отличную тему поднял Zach. Это тот Зак, который уже млн 3$ заработал на курсах по Data Engineering. Его bootcamp стоит 1500$ с носа + подписка и онлайн курсы. Вот что значит есть аудитория.

Зак утверждает, что Databricks постепенно отходит от дата-инженеров в сторону аналитиков и менее технических пользователей. Три ключевых аргумента:

Физическое моделирование данных больше не нужно — Databricks заменил ручное партиционирование, сортировку и бакетирование автоматическими инструментами (Liquid Clustering, Predictive Optimization), лишив инженеров контроля.

Покупка Tabular за $1B+ замедлила развитие Iceberg — управляемые Iceberg-таблицы в Databricks урезаны: нет скрытого партиционирования, ручной компактификации файлов, управления снапшотами. Всё подталкивает к «магии Databricks» вместо явного контроля.

Бизнесу не нужны дата-инженеры — ему нужен результат — компании хотят быстрые дашборды, работающие модели и дешёвые пайплайны, а не споры о стратегиях партиционирования. AI + платформа заменяют дорогих специалистов.

Вывод: рынок вознаграждает абстракцию, а не контроль. Маятник качнулся в сторону аналитиков, близких к бизнесу, а экспертам по распределённым системам становится всё сложнее найти своё место.

Про iceberg и Tabular реально обидно. Вообще, все используют Delta на Databricks и не сильно заморачиваются про Iceberg.

Я тоже считаю, что учиться надо на реальных вещах - партиции, компрессия и тп. Это классно, когда вендор может сделать magic, но лучше понимать, что происходит под капотом.

На собеседовании вас это именно и спросят.
18🌚6❤‍🔥3
Все для работы с AI — со скидками до 40% 

Cloud.ru предлагает выгодные условия на ключевые сервисы для AI-инфраструктуры:

😶‍🌫️Evolution Bare Metal — скидка до 40%
Выделенные физические серверы с полным доступом и управлением только для вас

😶‍🌫️Evolution ML Inference — скидка до 15%
Запуск и развертывание AI- и LLM-моделей

😶‍🌫️Аренда GPU — скидка до 30%
Виртуальные машины, серверы и ML-сервисы с графическими ускорителями
Количество участников ограничено: успейте подключиться и сократить расходы на вычисления без потери производительности
Please open Telegram to view this post
VIEW IN TELEGRAM
8😭5🙈41
Короче я все понял, как надо хайповать в Linkedin.

Вот вам мой Playbook.

Сценарий 1 - я пишу, что AI заменит всех вендоров и что код писать больше не надо. Ко мне сразу бежит народ доказывать, что я ничего не понимаю (мягко сказано) и начинают говорить как нужно. (У меня мысль всегда одна, если ты такой умный, то чего такой бедный🤑)

Сценарий 2 - тегаем Зака 🤴, говорим, что он красавчик, дописываем пару своих мыслей, НО не добавляем ссылку на его пост. Все начинают переживать, как же так, я цитирую самого Зака но ссылку не добавил…Потом приходит Зак и говорит, что надо бы ссылку добавить… Я ссылку добавляю и отвечаю на 40 комментариев. Мир LinkedIn спасен!


Охваты, лайки, шеры и тп. Вот это я понимаю шоу бизнес. А писать умные вещи про архитектуры, дизайны это все сложно и лениво.

Я это еще понял, когда на яхте (не в ту дверь вошел) кружок записал, надо больше 💅 наваливать, тогда все будет! 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥74🌚23🙈1716💯8😭7🐳1👨‍💻1🫡1🙉1
Очень интересный анонс. Из всех технологий ducklake мне сейчас больше всего нравится своей простотой и практичностью. Я себе собрал для Surfalytics аналитики студентов и разбираюсь потихоньку.
❤‍🔥29💯5
Опачки, появились AI детекторы в Grammarly.

Как я понимаю скоро уже текст так легко не на генерить, чтобы выдать за свой, по крайней мере на английском.

Наверно такие же потом будут для кода.
85🌚2💯1🍌1
Хочу добавить в dataengineer про VPN и другие решения для безопасного доступа в интернет🧑‍🌾

Напиши в комментах про варианты с VPN, proxy и другие и я создам новую страницу.

Только не скидывайте ссылку, а то будет бот удалять, можно просто ssikla . Ru (раздельно)

Или как когд


ssilka.ru


Я только про дядя Ваня знаю, работает четко из Канады.
Please open Telegram to view this post
VIEW IN TELEGRAM
💯5
Финтех компания Block, уволила 40% компании и честно призналась, что люди стали работать с AI по другому, меньше размер команды, меньше уровней и зависимостей, больше эффективности.

CEO все сказал как есть. Нам конечно от этого не легче, но думаю вектор понятен.
🫡18💯10🌚8❤‍🔥11
Сегодня они радуются как юристы делают PR, а завтра решат сократить половину компании. Тоже fintech.

PS у Claude Code новая турбо пушка фича

1. Запускаем Claude Code как обычно, создаем бранч и начинаем работать…
2. Собираемся на прогулку за вашим любимым банановым рафом (к сожалению в суровой Канаде, нет таких изысков)
3. Выполняем команду телепорта, которая отправляет нашу сессию в Claude web


claude —teleport session_9482948jfsdfl


4. Подключаемся с телефона и продолжаем vibe работу.
❤‍🔥33😭4