Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Google Antigravity — это новая, бесплатная IDE.

Это прямой конкурент других AI IDE, таких как Cursor.

https://antigravity.google

Go тестировать
Please open Telegram to view this post
VIEW IN TELEGRAM
💯295
Хотите узнать кошмар современного high-performance сотрудника?

Windows ноутбук без админского доступа, без возможности скачать программы, AI чат, AI IDE. И компьютер ложится спать каждые 15 минут без активности. Даже, чтобы скачать Python или Git нужен запрос в help desk, согласование безопасностью и ожидание несколько дней.

Получается уже не high-performance.

А ведь раньше все как-то обходились без всего этого.
2🙈70💯46🌚15😭5🤷2
А у вас не внедряют AI? Вот вам совет для карьерного буста:

В прошлом квартале я внедрил Microsoft Copilot для 4 000 сотрудников. 30 долларов за место в месяц. 1,4 миллиона долларов в год.

Я назвал это "цифровой трансформацией". Совету директоров понравилась эта фраза. Они одобрили это за одиннадцать минут. Никто не спросил, что это на самом деле будет делать. Включая меня.

Я всем говорил, что это "увеличит продуктивность в 10 раз". Это не реальное число. Но звучит как реальное.
HR спросил, как мы будем измерять этот 10-кратный рост. Я сказал, что мы "задействуем аналитические панели". Они перестали спрашивать.

Три месяца спустя я проверил отчёты об использовании. 47 человек открыли его. 12 использовали больше одного раза. Один из них был я.

Я использовал его, чтобы обобщить письмо, которое мог прочитать за 30 секунд. Это заняло 45 секунд. Плюс время, потраченное на исправление галлюцинаций. Но я назвал это "успешным пилотом". Успех означает, что пилот не провалился явно.

Финансовый директор спросил об окупаемости инвестиций. Я показал ему график. График шёл вверх и вправо. Он измерял "внедрение ИИ". Я придумал эту метрику. Он одобрительно кивнул.

Теперь у нас "внедрён ИИ". Я не знаю, что это означает. Но это есть в нашей презентации для инвесторов.

Старший разработчик спросил, почему мы не используем Claude или ChatGPT. Я сказал, что нам нужна "безопасность корпоративного уровня". Он спросил, что это означает. Я сказал "соответствие требованиям". Он спросил, каким требованиям. Я сказал "всем". Он выглядел скептически. Я назначил ему "беседу о развитии карьеры". Он перестал задавать вопросы.

Microsoft прислала команду для кейс-стади. Они хотели представить нас как историю успеха. Я сказал им, что мы "сэкономили 40 000 часов". Я вычислил это число, умножив количество сотрудников на число, которое я придумал. Они не проверяли это. Они никогда не проверяют. Теперь мы на сайте Microsoft. "Глобальное предприятие достигло экономии 40 000 часов продуктивности с Copilot". Генеральный директор поделился этим в LinkedIn. Он получил 3 000 лайков. Он никогда не использовал Copilot. Никто из руководителей не использовал. У нас есть исключение. "Стратегический фокус требует минимального цифрового отвлечения". Я написал эту политику.

Лицензии продлеваются в следующем месяце. Я запрашиваю расширение. Ещё 5 000 мест. Мы не использовали первые 4 000. Но на этот раз мы "стимулируем внедрение". Внедрение означает обязательное обучение. Обучение означает 45-минутный вебинар, который никто не смотрит. Но завершение будет отслеживаться. Завершение — это метрика. Метрики попадают в панели. Панели попадают в презентации для совета директоров. Презентации для совета директоров продвигают меня по службе. Я стану старшим вице-президентом к третьему кварталу.

Я всё ещё не знаю, что делает Copilot. Но я знаю, для чего он нужен. Он нужен, чтобы показать, что мы "инвестируем в ИИ".
Инвестиции означают траты. Траты означают обязательства. Обязательства означают, что мы серьёзно относимся к будущему. Будущее — это то, что я скажу.

Пока график идёт вверх и вправо.


Источник.
🫡64❤‍🔥27💯24😭11🐳6🤷6👨‍💻5🙈5🌚4🍌3
This media is not supported in your browser
VIEW IN TELEGRAM
Представьте себе коммуналку, в которой живут только аналитики. Как вы думаете, о чём там будут говорить?

Если подумали исключительно про цифры, то зря 🙂

Потому что мы в Авито собрали в Телеграме комьюнити «Коммуналка аналитиков», чтобы посмотреть, что будет.
Получилось очень даже интересно. Оказалось, аналитики с удовольствием пишут обо всём вокруг профессии:

✍️ Рассказывают о рабочих буднях

✍️ Хвастаются успехами и вспоминают фейлы

✍️ Постят мемы

✍️ Запускают опросы и собирают бинго

✍️ Шутят

✍️ Делятся лайфхаками

✍️ Создают серьёзные посты про аналитику

✍️ И-и-и обсуждают другие штуки, которые сложно классифицировать

Подписывайтесь на канал и читайте недушную аналитику 😉
17
Знаете, где сейчас косанлтинг компании зарабатывают в Северной Америке?

Нет, это не AI. Про AI я уже только опубликовал историю.

На традиционных миграциях. Но они не совсем традиционные.

Вот, кто-то навайбкодил:
COBOL to Databricks Converter
SAS to Databricks Converter

К сожалению, AI в этих вопросах не сильно помогает(л). Не знаю как сейчас.


Может быть когда-нибудь будет миграция 1C на Databricks? Кстати, один раз общался с разработчиком 1С из Майами, так что получится еще наоборот из Databricks на 1C.

У меня всегда была мечта - сделать аналитическую платформу в экосистеме 1С👀
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈8❤‍🔥2
Интересный кейс был недавно.

Сейчас работа без AI code assistant чувствуется так, как будто нужно пешком, иногда на велосипеде, проехать 100 км вместо того, чтобы взять машину.

Без AI уже очень сложно быть на 100% эффективным.

Конечно, ключевой вопрос — это фундаментальные знания. Например, я могу не знать ничего в мобильной разработке, но с AI смогу создать мобильное приложение.

Качество будет так себе, ведь у меня нет опыта в этом деле и AI нафантазирует за меня, сделает MVP, который вряд ли попадёт в продакшн. И самое главное — знаний у меня в мобильной разработке не прибавится.

А вот если я эксперт в какой-то области и просто хочу аутсорсить простые запросы и задачки junior (AI), и могу чётко поставить задачку с предсказуемым и проверяемым результатом, то здесь и появляется эффективность и скорость. Я держу в голове контекст, архитектуру и контролирую процесс, а бездушная машина печатает мои мысли и валидирует их через MCP или CLI.

То есть иметь AI IDE — это такой base line. Это не про co-pilot для каждого сотрудника, которые там будут спрашивать про погоду.

Теперь про мой кейс.
Что делать, если AI IDE заблокированы. ChatGPT и Anthropic заблокированы, и есть только Copilot в Teams (бесплатная версия).

Для начала добываем VSCode — лучший бесплатный IDE. Дальше нам надо поставить плагины, тут есть две опции:
• Cline
• KiloCode

Очевидно, API Claude закрыт, но у меня есть API ключ. Бесплатный copilot рассказал мне про сервис — Openrouter.ai

OpenRouter.ai — это универсальная платформа-агрегатор, которая предоставляет единый API-доступ к более чем 400 языковым моделям искусственного интеллекта от различных провайдеров (OpenAI, Anthropic, Google, Meta, Mistral и других).


Сервис позволяет зарегистрироваться бесплатно, и у него собственный API Gateway. В нём я добавил свой Claude API ключ и подключил OpenRouter в KiloCode как провайдера. Задача для меня решена.

Картинки из OpenRouter.
26❤‍🔥11🌚5🤷‍♀2
Что такое большие данные, а что такое маленькие данные?

Каждый год это понятие меняется. Для аналитических систем это важно, ведь мы строим инженерные системы, чтобы обрабатывать большие данные! (Но непонятно, что значит большие данные).

Самое простое определение - данные, которые не помещаются на локальном компьютере и которые мы не можем загрузить в оперативную память, даже если они сжаты.

Мы начинаем смотреть на distributed computing engines - Greenplum, Spark, Snowflake, Trino и т. п. Такие системы умеют обрабатывать данные параллельно.

Часто мы выбираем дорогую систему (distributed) для наших будущих объемов, а кто-то вообще ни разу в жизни ничего не выбирал и работает на legacy всю свою карьеру.

А ведь времена меняются, и теперь мы можем читать 1 ТБ данных с помощью одной машины, если использовать DuckDB. Можете посмотреть подробности в статье -
Processing 1 TB with DuckDB in less than 30 seconds

Товарищ сначала сгенерировал 1 ТБ данных на внешнем SSD, а потом написал к ним запрос. Если использовать MotherDuck и читать данные с S3, будет еще удобнее и быстрее.

В новом году хочу попробовать сократить расходы на Snowflake за счет использования DuckDB.
🐳24❤‍🔥149🌚1
The AI Safety Expert: These Are The Only 5 Jobs That Will Remain In 2030! - Dr. Roman Yampolskiy

Через два года ИИ заменит большинство людей и профессий.
Я имею в виду, что через пять лет мы увидим такой уровень безработицы, которого никогда раньше не было.
Не 10%, а 99%.


Не самое оптимистичное видео про будущее с AI.

Мы точно узнаем, как оно будет, осталось не долго!😌

А вы как думаете? Авось пронесет или будет уже не до шуточек?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈19🙊8🙉5❤‍🔥1🤷1
AI никого не щадит, и уже Тим лидам предлагают 250т
Please open Telegram to view this post
VIEW IN TELEGRAM
1🙈63😭37🌚13🍌2🤷21
Как обещал, я записал видео как я использую Cursor с MCP в повседневной работе, но для начала показал VSCode, Claude Code, Kilo Code, Cline, Openrouter.

https://youtu.be/xYtXv6rqZnA

PS Если у вас есть похожий опыт, можно тоже записать демо и добавить в канал или сделать вебинар.
256❤‍🔥94🍌1
С Новым Годом! 🎄🎉🍾🎊🎆
2❤‍🔥9128🦄21🐳1
Несколько статей, которые рассказывают про терминологию GenAI

Foundation vs. Instruct vs. Thinking Models - Статья объясняет разницу между тремя типами языковых моделей: Base/Foundation модели (предсказывают следующий токен, как библиотека без точки входа), Instruct модели (дообучены выполнять инструкции через SFT и RLHF, как готовое приложение) и Thinking модели (используют chain-of-thought reasoning для сложных задач, как оператор приложения). Автор рекомендует использовать Instruct модели для 90% случаев, Thinking модели для сложной логики (5%), и дообучать Base модели только для специфических доменов (5%).

AI Systems Engineering Patterns - Статья представляет 30 паттернов инженерии AI-систем, сгруппированных в 5 категорий: интерфейс (промпт-шаблоны, структурированный ввод/вывод, санитизация), инструменты (Function Calling, MCP, песочницы), контекст (CAG, RAG, кэширование, память), оркестрация (роутинг, каскадирование, LLM Gateway, Flow Engineering) и агенты (ReAct, планирование, мультиагентные системы). Автор показывает, что опыт традиционной разработки ПО применим к AI-системам через знакомые концепции (кэширование, валидация, композиция), адаптированные для работы с LLM, и для каждого паттерна объясняет применение, компромиссы и риски.


Facilitating AI adoption at Imprint - Статья описывает 18-месячный опыт автора по внедрению AI-инструментов и агентов в компании Imprint, включая подходы к стратегии, обучению сотрудников, созданию внутренних агентов и измерению эффективности. Основной вывод: успешное внедрение AI требует глубокого погружения лидеров в детали, фокуса на реальной продуктивности (а не на имидже), и тесного партнерства между разработчиками платформ и пользователями, а не просто создания инструментов в надежде, что их будут использовать.

Generative AI Strategy - Это презентация в формате слайдов (июнь 2023) с фреймворком для разработки стратегии внедрения generative AI в компании, созданная в ответ на вопрос "Руководство требует внедрить генеративный AI, что делать?". Статья представляет собой набор слайдов с практическим подходом к выбору направлений использования генеративного AI, оценке возможностей и рисков, но автор отмечает, что это ранняя версия идей, которую она планирует развить в полноценную статью позже (есть также видео доклада на YouTube).

Agents - подробная статья (январь 2025, адаптация из книги "AI Engineering") о AI-агентах — системах, которые воспринимают окружение и действуют в нём. Статья охватывает ключевые аспекты: определение агента через окружение и набор инструментов (tools), планирование (разделение на генерацию плана, валидацию и выполнение, дискуссия о способности LLM к планированию), инструменты (три категории: расширение знаний через RAG/поиск, расширение возможностей через калькуляторы/code interpreters, write-действия для изменения данных), рефлексия (паттерны ReAct и Reflexion для анализа и коррекции ошибок), и оценку агентов (режимы отказа в планировании, использовании инструментов и эффективности). Автор подчёркивает, что успех агента зависит от правильного выбора инструментов и качества планировщика, обещая будущие посты про фреймворки и системы памяти.

Common pitfalls when building generative AI applications - Статья описывает 6 типичных ошибок при создании генеративных AI-приложений (январь 2025):
1) использование gen AI там, где он не нужен (многие задачи решаются проще без AI),
2) путаница между "плохим продуктом" и "плохим AI" (часто проблема в UX, а не в технологии,
3) старт со сложных решений (раннее использование фреймворков и fine-tuning вместо простых подходов),
4) переоценка ранних успехов,
5) отказ от человеческой оценки в пользу только AI-судей (лучшие команды ежедневно проверяют 30-1000 примеров вручную для калибровки, обнаружения проблем и улучшения),
6) краудсорсинг use cases без общей стратегии (приводит к множеству мелких низкоэффективных приложений). Автор подчёркивает важность продуктового мышления и стратегии, а не просто технологии.
❤‍🔥10
Building A Generative AI Platform - Это очень подробная статья (июль 2024) о построении платформы для генеративного AI, которая постепенно описывает архитектуру от простейшей (запрос → модель → ответ) до сложной production-системы. Основные компоненты:
1) Context construction (RAG с embedding/term-based поиском, SQL-запросы, веб-поиск, query rewriting),
2) Guardrails (входные для защиты от утечек PII и jailbreaking, выходные для проверки качества/токсичности/галлюцинаций),
3) Router и Gateway (маршрутизация запросов к разным моделям, унифицированный доступ, fallback, контроль доступа),
4) Cache (prompt cache, exact cache, semantic cache для снижения латентности и стоимости),
5) Complex logic (циклы, условное ветвление, write-действия),
6) Observability (метрики, логи, трейсы) и
7) Orchestration (LangChain, LlamaIndex и др., но автор советует начинать без них).

А какие вы порекомендуете свежие ресурсы? Если хотите добавить ее как ссылку в коммент, можно использовать код:



http://ssilka.ru
❤‍🔥10🌚1
Для инвесторов было необходимо посмотреть демографию клиентов в США. Для такой задачи можно использовать открытые источники, например данные US Census Bureau, которые доступны в Snowflake.

Бюро переписи населения США публикует данные о американском населении и экономике.

Американское исследование сообществ (American Community Survey) этого агентства — это постоянно проводимый опрос, который предоставляет самые актуальные социальные, экономические, жилищные и демографические статистические данные. Ежегодно публикуются как однолетние, так и пятилетние оценки для различных уровней географических единиц, включая штаты, города, почтовые индексы и группы переписных участков. В отличие от Всеобщей переписи населения (Decennial Census), Американское исследование сообществ публикуется каждый год и рассылается по выборке адресов в США (~3,5 миллиона).


Задача простая, показать типового американца клиента нашего продукта. Последний опрос проводился в декабре 2023.

Сами по себе данные очень неудобные https://api.census.gov/data/2023/acs/acs5/variables.html, так что AI очень хорошо помог (Cursor, MCP - прям как я в недавнем видео записал).

Чтобы упросить логику, трансформации разложил по слоям в dbt.

Хотел поделиться пример демографии про медиане доходов в США:


CASE
WHEN median_household_income_dollars >= 150000 THEN 'High Income ($150k+)'
WHEN median_household_income_dollars >= 100000 THEN 'Upper Middle ($100k-$150k)'
WHEN median_household_income_dollars >= 75000 THEN 'Middle Income ($75k-$100k)'
WHEN median_household_income_dollars >= 50000 THEN 'Lower Middle ($50k-$75k)'
ELSE 'Lower Income (<$50k)'


То есть из примера видно, что средний доход в штатах это 75к в год (до налогов), где-то 4т в месяц на руки. А высокий доход это 150т+, около 8т на руки в месяц. Точно так же и в Канаде, только в Канадских долларах, но налоги будут выше и цены на все тоже будут выше.

А если посмотреть на зп Инженера данных, то старший специалист в США это 180-220к$, а в Канаде 160-180к CAD.

То есть зарплаты в ИТ они выше, чем “high income”.

Но у них есть недостаток, как правило все “high income” специалисты будут жить в дорогих городах, платить большую ипотеку или рент, платить кредит за машину(ы) и по факту, они будут такими же бедными.


Я бы сделал сейчас другие бакеты:
- High Income: >600к
- Upper Middle: 400-600к
- Middle: 250-400к
- Lower: <200к