Мечтаете не просто разбираться в управлении данными, а использовать уникальные инструменты для работы с Big Data? Научитесь этому на бесплатном студкемпе Яндекс Образования и ИТМО по дата-инженерии!
🧠 Программа — интенсивная, актуальная, от лидеров индустрии. С 30 июня по 12 июля вы погрузитесь в мир распределённых хранилищ, микросервисной архитектуры, DataOps/MLOps и пайплайнов для сбора, анализа и визуализации данных. А ещё познакомитесь с технологиями, которые используют в крупных компаниях. В общем, получите реальные навыки, которые ценят на рынке!
🏙 Кампус — в самом центре Санкт-Петербурга. Несмотря на то, что студкемп проходит на базе ИТМО, заявки ждут от студентов из любых вузов и регионов России. Проезд и проживание будут оплачены Яндекс Образованием, так что вам останется сосредоточиться на главном — знаниях, опыте и новых возможностях.
🕐 Регистрация — открыта до 4 мая, но подать заявку можно уже сейчас! Если давно хотели пообщаться с топовыми айтишниками и почувствовать, каково это — учиться в одном из ведущих технических вузов, не откладывайте и заполняйте анкету по ссылке.
🧠 Программа — интенсивная, актуальная, от лидеров индустрии. С 30 июня по 12 июля вы погрузитесь в мир распределённых хранилищ, микросервисной архитектуры, DataOps/MLOps и пайплайнов для сбора, анализа и визуализации данных. А ещё познакомитесь с технологиями, которые используют в крупных компаниях. В общем, получите реальные навыки, которые ценят на рынке!
🏙 Кампус — в самом центре Санкт-Петербурга. Несмотря на то, что студкемп проходит на базе ИТМО, заявки ждут от студентов из любых вузов и регионов России. Проезд и проживание будут оплачены Яндекс Образованием, так что вам останется сосредоточиться на главном — знаниях, опыте и новых возможностях.
🕐 Регистрация — открыта до 4 мая, но подать заявку можно уже сейчас! Если давно хотели пообщаться с топовыми айтишниками и почувствовать, каково это — учиться в одном из ведущих технических вузов, не откладывайте и заполняйте анкету по ссылке.
Поступление в ШАД: даже одна попытка откроет путь к большим возможностям!
Попробовать поступить в Школу анализа данных Яндекса может каждый, кто увлечён Data Science: неважно, учитесь вы в вузе, работаете в IT или просто любите разбираться в сложном. Если вас тянет к задачам, над которыми ломают голову лучшие умы, — попробовать точно стоит!
В ШАДе вас ждёт не просто теория — здесь с первого дня погружаются в практику: осваивают сложные концепции машинного обучения, решают ИИ-задачи, которые вчера казались невозможными, и получают мощный буст для карьеры.
Создавать инновационные решения, продвигать науку, запускать стартапы или делиться опытом — всё это доступно выпускникам ШАДа! Если хотите стать одним из них, не теряйте времени — подайте заявку до 4 мая!
Классные плюшки: обучение бесплатное, а если в вашем городе нет филиала, заниматься можно онлайн. Не упустите шанс: попробуйте поступить и откройте перед собой новые горизонты!
Попробовать поступить в Школу анализа данных Яндекса может каждый, кто увлечён Data Science: неважно, учитесь вы в вузе, работаете в IT или просто любите разбираться в сложном. Если вас тянет к задачам, над которыми ломают голову лучшие умы, — попробовать точно стоит!
В ШАДе вас ждёт не просто теория — здесь с первого дня погружаются в практику: осваивают сложные концепции машинного обучения, решают ИИ-задачи, которые вчера казались невозможными, и получают мощный буст для карьеры.
Создавать инновационные решения, продвигать науку, запускать стартапы или делиться опытом — всё это доступно выпускникам ШАДа! Если хотите стать одним из них, не теряйте времени — подайте заявку до 4 мая!
Классные плюшки: обучение бесплатное, а если в вашем городе нет филиала, заниматься можно онлайн. Не упустите шанс: попробуйте поступить и откройте перед собой новые горизонты!
Сегодня за долгое время отсавил отзыв под продуктом в Amazon, и мне предложили отличный инцентив, чтобы я еще пяток оставил - шутка в подарок.
Теперь вы знаете, за что Product менеджеры получают по ляму в год.
Скорей всего это отличный сценарий использования AI для повышения вовлеченности клиентов.
Получился бы отличный keynote для большой AI конференции - "История успеха: Шутки от AI увеличили продажи на 9.87% и сократили отток клиентов на 2.3%"
Теперь вы знаете, за что Product менеджеры получают по ляму в год.
Скорей всего это отличный сценарий использования AI для повышения вовлеченности клиентов.
Получился бы отличный keynote для большой AI конференции - "История успеха: Шутки от AI увеличили продажи на 9.87% и сократили отток клиентов на 2.3%"
Увидел я значит вакансию в LinkedIn - Principal AI Strategist. Интересно стало посмотреть требования. Все очень классно написано.
Executive Client Engagement and Leadership
— Главный AI-советник для ключевых клиентов.
— Проведение executive briefings, advisory sessions и C-level workshops.
— Ответственность за pre-sales, solution shaping, storytelling и крупные AI-сделки.
— Формирование trusted advisor отношений с клиентами.
Offering Ownership and Marketing Impact
— Создание и продвижение AI offerings и GTM-стратегий (LLMs, Agentic AI, Predictive Analytics).
— Отслеживание AI trends и трансформация их в решения и услуги.
— Разработка thought leadership материалов (white papers, кейноты, статьи).
— Участие в индустриальных форумах и мероприятиях как AI-евангелист.
Solution Design and Delivery Leadership
— Ведение AI strategy, governance, POCs и roadmaps для Fortune 1000.
— Консультирование по платформам (OpenAI, Claude, LangChain, Databricks, Azure OpenAI и др.).
— Обеспечение бизнес-результатов, ethical use и долгосрочной ценности AI.
Organizational Leadership
— Менторинг стратегов, архитекторов и консультантов в TEKsystems и One North.
— Выравнивание business и technical стейкхолдеров на AI-transformation.
— Формирование культуры excellence, innovation и responsible AI.
Skills & Qualifications
— 12+ лет в strategy consulting, tech advisory или innovation.
— 7+ лет AI-опыта:
• AI strategy и governance,
• presales и solutioning,
• работа с LLMs, Generative AI, Predictive Analytics.
— Успешные C-level workshops и advisory.
— Сильный бизнес- и технический AI-бэкграунд.
— Навыки storytelling и executive communication.
— Опыт публикаций, спикерства и AI governance на enterprise-уровне.
Ну хотелки понятно, вы должны быть эдакий эксперт по AI, перед завтраком писать стратегию по внедрению AI в Fortune500 компаниях, до обеда успеть написать пару статей и white papers, подготовить доклад для конференции, а вечером провести доклад для C-уровня по AI.
Вам даже предлагают критерии оценки (что очень редко для вакансии, но классно, когда это есть):
Success Metrics
— Рост AI strategy revenue и расширение AI service line.
— Win rate в AI pre-sales и новых инициативах.
— Client satisfaction и executive endorsements.
— Объём thought leadership (white papers, конференции, публикации).
— Развитие внутренних AI capabilities и рост талантов.
Ну все понятно и логично.
Теперь самое интересное, сколько же стоит такой специалист в US.
Начнем с бенефитов - Скидки только для участников и корпоративные тарифы на всё — от пиццы и зоопарков до билетов в кино.
Просто замечательно.
И как вы думаете, какое вознаграждение у такого топого AI principal стратега?!
Не буду вас томить, просто напишу - Мы оставляем за собой право установить зарплату выше или ниже базового диапазона $162,600–$254,200.
То есть старший разработчик SQL в Америке получает примерно как Pricipal AI Strategist. Интересно, люди которые будут внедрять прорывные AI решения и писать стратегии (уверен тут они эксперты по использованию ChatGPT для написания стратегий), какого качества должны выдавать свои решения.
PS если вы вдруг ищету работу заграницей на позицию Product Manager с AI уклоном, прям можно с этой вакансии к себе в резюме добавлять, написано очень добротно (наверно другой AI strategist писал с попомью ChatGPT).
Executive Client Engagement and Leadership
— Главный AI-советник для ключевых клиентов.
— Проведение executive briefings, advisory sessions и C-level workshops.
— Ответственность за pre-sales, solution shaping, storytelling и крупные AI-сделки.
— Формирование trusted advisor отношений с клиентами.
Offering Ownership and Marketing Impact
— Создание и продвижение AI offerings и GTM-стратегий (LLMs, Agentic AI, Predictive Analytics).
— Отслеживание AI trends и трансформация их в решения и услуги.
— Разработка thought leadership материалов (white papers, кейноты, статьи).
— Участие в индустриальных форумах и мероприятиях как AI-евангелист.
Solution Design and Delivery Leadership
— Ведение AI strategy, governance, POCs и roadmaps для Fortune 1000.
— Консультирование по платформам (OpenAI, Claude, LangChain, Databricks, Azure OpenAI и др.).
— Обеспечение бизнес-результатов, ethical use и долгосрочной ценности AI.
Organizational Leadership
— Менторинг стратегов, архитекторов и консультантов в TEKsystems и One North.
— Выравнивание business и technical стейкхолдеров на AI-transformation.
— Формирование культуры excellence, innovation и responsible AI.
Skills & Qualifications
— 12+ лет в strategy consulting, tech advisory или innovation.
— 7+ лет AI-опыта:
• AI strategy и governance,
• presales и solutioning,
• работа с LLMs, Generative AI, Predictive Analytics.
— Успешные C-level workshops и advisory.
— Сильный бизнес- и технический AI-бэкграунд.
— Навыки storytelling и executive communication.
— Опыт публикаций, спикерства и AI governance на enterprise-уровне.
Ну хотелки понятно, вы должны быть эдакий эксперт по AI, перед завтраком писать стратегию по внедрению AI в Fortune500 компаниях, до обеда успеть написать пару статей и white papers, подготовить доклад для конференции, а вечером провести доклад для C-уровня по AI.
Вам даже предлагают критерии оценки (что очень редко для вакансии, но классно, когда это есть):
Success Metrics
— Рост AI strategy revenue и расширение AI service line.
— Win rate в AI pre-sales и новых инициативах.
— Client satisfaction и executive endorsements.
— Объём thought leadership (white papers, конференции, публикации).
— Развитие внутренних AI capabilities и рост талантов.
Ну все понятно и логично.
Теперь самое интересное, сколько же стоит такой специалист в US.
Начнем с бенефитов - Скидки только для участников и корпоративные тарифы на всё — от пиццы и зоопарков до билетов в кино.
Просто замечательно.
И как вы думаете, какое вознаграждение у такого топого AI principal стратега?!
Не буду вас томить, просто напишу - Мы оставляем за собой право установить зарплату выше или ниже базового диапазона $162,600–$254,200.
То есть старший разработчик SQL в Америке получает примерно как Pricipal AI Strategist. Интересно, люди которые будут внедрять прорывные AI решения и писать стратегии (уверен тут они эксперты по использованию ChatGPT для написания стратегий), какого качества должны выдавать свои решения.
PS если вы вдруг ищету работу заграницей на позицию Product Manager с AI уклоном, прям можно с этой вакансии к себе в резюме добавлять, написано очень добротно (наверно другой AI strategist писал с попомью ChatGPT).
Onenorth
Principal AI Strategist | Careers | One North
This position is for an elite professional who combines business strategy acumen, deep AI expertise, presales excellence, and solution development leadership.
Fivetran купил Census.
Fivetran это набор коннекторов к сотням источников данных. На одном проекте меня очень выручает, грузим данных из Amazon Seller Central, NetSuite и других сервисов. Так же там есть классная возможность использовать webhooks, чтобы собирать все события или по старинке забирать данные из SFTP.
Однозначно инструмент экономит тонну времени. Из минусов это цена за кол-во строк. Подойдет для небольших источников. Еще там есть описанная модель данных для каждого источника и можно подключить готовые dbt модели, чтобы рассчитывать метрики и писать результат в хранилище данных.
Census это у нас reverse etl. Например, хотите вы в хранилище данных обновить метрики для лидов и клиентов и потом отправить в платформу автоматизации маркетинга - Braze, Marketo или обновить информацию по клиентам в CRM. Вам нужно будет писать в API сервиса, и вот Census тут поможет.
Я использую его аналог HighTouch.
Теперь значит Fivetran будет прикрывать хранилище данных с двух концов🤑
Fivetran это набор коннекторов к сотням источников данных. На одном проекте меня очень выручает, грузим данных из Amazon Seller Central, NetSuite и других сервисов. Так же там есть классная возможность использовать webhooks, чтобы собирать все события или по старинке забирать данные из SFTP.
Однозначно инструмент экономит тонну времени. Из минусов это цена за кол-во строк. Подойдет для небольших источников. Еще там есть описанная модель данных для каждого источника и можно подключить готовые dbt модели, чтобы рассчитывать метрики и писать результат в хранилище данных.
Census это у нас reverse etl. Например, хотите вы в хранилище данных обновить метрики для лидов и клиентов и потом отправить в платформу автоматизации маркетинга - Braze, Marketo или обновить информацию по клиентам в CRM. Вам нужно будет писать в API сервиса, и вот Census тут поможет.
Я использую его аналог HighTouch.
Теперь значит Fivetran будет прикрывать хранилище данных с двух концов
Please open Telegram to view this post
VIEW IN TELEGRAM
Как говорится, AI терминология in plain Russian🇷🇺
AGI: ИИ, который может думать как человек.
CoT (Chain of Thought): ИИ размышляет пошагово.
AI Agents: Автономные программы, принимающие решения.
AI Wrapper: Упрощает взаимодействие с ИИ-моделями.
AI Alignment: Обеспечивает соответствие ИИ человеческим ценностям.
Fine-tuning: Улучшение ИИ с помощью конкретных обучающих данных.
Hallucination: Когда ИИ генерирует ложную информацию.
AI Model: Обученная система для выполнения задачи.
Chatbot: ИИ, имитирующий человеческий разговор.
Compute: Вычислительная мощность для ИИ-моделей.
Computer Vision: ИИ, который распознаёт изображения и видео.
Context: Информация, которую ИИ запоминает для лучших ответов.
Deep Learning: Обучение ИИ через многослойные нейросети.
Embedding: Числовое представление слов для ИИ.
Explainability: Как можно понять решения ИИ.
Foundation Model: Крупная ИИ-модель, адаптирующаяся под задачи.
Generative AI: ИИ, создающий текст, изображения и т.п.
GPU: Аппаратное обеспечение для ускорения работы ИИ.
Ground Truth: Проверенные данные, на которых учится ИИ.
Inference: Прогнозы ИИ на новых данных.
LLM (Large Language Model): ИИ, обученный на больших текстах.
Machine Learning: ИИ, улучшающийся на основе данных.
MCP (Model Context Protocol): Стандарт доступа ИИ к внешним данным.
NLP (Natural Language Processing): ИИ, понимающий человеческий язык.
Neural Network: Модель ИИ, вдохновленная мозгом.
Parameters: Внутренние переменные ИИ для обучения.
Prompt Engineering: Создание запросов для управления ИИ-выходом.
Reasoning Model: Модель, которая следует логике.
Reinforcement Learning: Обучение ИИ с помощью наград и наказаний.
RAG (Retrieval-Augmented Generation): ИИ, который совмещает поиск и ответы.
Supervised Learning: ИИ, обучаемый на размеченных данных.
TPU: Специализированный процессор от Google для ИИ.
Tokenization: Разделение текста на более мелкие части.
Training: Обучение ИИ через изменение параметров.
Transformer: Архитектура ИИ для обработки языка.
Unsupervised Learning: ИИ, находящий закономерности в неразмеченных данных.
Vibe Coding: Программирование с помощью естественного языка.
Weights: Значения, формирующие обучение ИИ.
AGI: ИИ, который может думать как человек.
CoT (Chain of Thought): ИИ размышляет пошагово.
AI Agents: Автономные программы, принимающие решения.
AI Wrapper: Упрощает взаимодействие с ИИ-моделями.
AI Alignment: Обеспечивает соответствие ИИ человеческим ценностям.
Fine-tuning: Улучшение ИИ с помощью конкретных обучающих данных.
Hallucination: Когда ИИ генерирует ложную информацию.
AI Model: Обученная система для выполнения задачи.
Chatbot: ИИ, имитирующий человеческий разговор.
Compute: Вычислительная мощность для ИИ-моделей.
Computer Vision: ИИ, который распознаёт изображения и видео.
Context: Информация, которую ИИ запоминает для лучших ответов.
Deep Learning: Обучение ИИ через многослойные нейросети.
Embedding: Числовое представление слов для ИИ.
Explainability: Как можно понять решения ИИ.
Foundation Model: Крупная ИИ-модель, адаптирующаяся под задачи.
Generative AI: ИИ, создающий текст, изображения и т.п.
GPU: Аппаратное обеспечение для ускорения работы ИИ.
Ground Truth: Проверенные данные, на которых учится ИИ.
Inference: Прогнозы ИИ на новых данных.
LLM (Large Language Model): ИИ, обученный на больших текстах.
Machine Learning: ИИ, улучшающийся на основе данных.
MCP (Model Context Protocol): Стандарт доступа ИИ к внешним данным.
NLP (Natural Language Processing): ИИ, понимающий человеческий язык.
Neural Network: Модель ИИ, вдохновленная мозгом.
Parameters: Внутренние переменные ИИ для обучения.
Prompt Engineering: Создание запросов для управления ИИ-выходом.
Reasoning Model: Модель, которая следует логике.
Reinforcement Learning: Обучение ИИ с помощью наград и наказаний.
RAG (Retrieval-Augmented Generation): ИИ, который совмещает поиск и ответы.
Supervised Learning: ИИ, обучаемый на размеченных данных.
TPU: Специализированный процессор от Google для ИИ.
Tokenization: Разделение текста на более мелкие части.
Training: Обучение ИИ через изменение параметров.
Transformer: Архитектура ИИ для обработки языка.
Unsupervised Learning: ИИ, находящий закономерности в неразмеченных данных.
Vibe Coding: Программирование с помощью естественного языка.
Weights: Значения, формирующие обучение ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
McKinsey написали статью - The missing data link: Five practical lessons to scale your data products
Дата-продукт состоит из пяти компонентов, цель которых — собирать, организовывать и управлять наборами данных, чтобы они были легко доступны и переиспользуемы различными командами и системами.
Когда дата-продукт спроектирован правильно:
- Он решает сразу несколько бизнес-задач.
- Его можно масштабировать и адаптировать под разные use case’ы.
- Он изначально создаётся с прицелом на повторное использование и развитие.
Впервые я обратил внимание на термин «дата-продукт» ещё в Amazon в 2016–2017 годах. Уже тогда дашборды, которые мы создавали, мы называли дата-продуктами. Практически любой конечный результат, который производит команда данных, — это и есть продукт данных.
Нельзя просто взять и перестроиться на продуктовый подход в аналитике — это целая культура. В Amazon мы работали в связке с продуктовыми менеджерами. Они прекрасно понимали ценность продукта, видели, где находятся болевые точки и что нужно сделать, чтобы принести максимальную пользу. При этом им было совершенно не важно, какие инструменты использует команда данных — это полностью зона ответственности инженеров и аналитиков.
При таком подходе удаётся извлечь максимальную пользу из аналитических инструментов (дата-продуктов) и обосновать высокие расходы на зарплаты инженеров и инфраструктуру.
Дата-продукт состоит из пяти компонентов, цель которых — собирать, организовывать и управлять наборами данных, чтобы они были легко доступны и переиспользуемы различными командами и системами.
Когда дата-продукт спроектирован правильно:
- Он решает сразу несколько бизнес-задач.
- Его можно масштабировать и адаптировать под разные use case’ы.
- Он изначально создаётся с прицелом на повторное использование и развитие.
Впервые я обратил внимание на термин «дата-продукт» ещё в Amazon в 2016–2017 годах. Уже тогда дашборды, которые мы создавали, мы называли дата-продуктами. Практически любой конечный результат, который производит команда данных, — это и есть продукт данных.
Нельзя просто взять и перестроиться на продуктовый подход в аналитике — это целая культура. В Amazon мы работали в связке с продуктовыми менеджерами. Они прекрасно понимали ценность продукта, видели, где находятся болевые точки и что нужно сделать, чтобы принести максимальную пользу. При этом им было совершенно не важно, какие инструменты использует команда данных — это полностью зона ответственности инженеров и аналитиков.
При таком подходе удаётся извлечь максимальную пользу из аналитических инструментов (дата-продуктов) и обосновать высокие расходы на зарплаты инженеров и инфраструктуру.
в посте - macOS: Essential Productivity Hacks for Developers — No AI Needed автор делится советами по настройки мака, рассказывает про следующие утилитки:
- AeroSpace is an i3-like tiling window manager for macOS
- JankyBorders is a lightweight tool designed to add colored borders to user windows on macOS 14.0+
- Mac Spaces - apps on dedicated space (встроенная функциональность мака)
- Sketchybar replaces the default macOS menu bar with a customizable one — and frees up space.
- Raycast - аналог Spotlight (мощная штука, но так и не смог к ней привыкнуть)
Из этого списка мне нравятся программки и задачки, которые они решают, но к ним нужно время, чтобы привыкнуть (learning curve) или правильно настроить, поэтому я их не использую.
Для оптимизации рабочего пространства, я использую:
- Owly - чтобы не засыпал компьютер
- Magnet - управлять размерами окон (делить экран пополам и тп)
- Browserosaurus - сервис, который позволяет выбрать браузер при клике на ссылку
- AeroSpace is an i3-like tiling window manager for macOS
- JankyBorders is a lightweight tool designed to add colored borders to user windows on macOS 14.0+
- Mac Spaces - apps on dedicated space (встроенная функциональность мака)
- Sketchybar replaces the default macOS menu bar with a customizable one — and frees up space.
- Raycast - аналог Spotlight (мощная штука, но так и не смог к ней привыкнуть)
Из этого списка мне нравятся программки и задачки, которые они решают, но к ним нужно время, чтобы привыкнуть (learning curve) или правильно настроить, поэтому я их не использую.
Для оптимизации рабочего пространства, я использую:
- Owly - чтобы не засыпал компьютер
- Magnet - управлять размерами окон (делить экран пополам и тп)
- Browserosaurus - сервис, который позволяет выбрать браузер при клике на ссылку
если хотите подилиться ссылкой, можно как code
Mehdio
macOS: Essential Productivity Hacks for Developers — No AI Needed
A fast, distraction-free workflow powered by open-source tools and keyboard-driven automation.
Мне понравилась статья Zака - The 2025 AI-enabled Data Engineering Roadmap.
По самому названию понятно, о чём идёт речь — как AI будет влиять на инженеров данных. Мне эта тема тоже интересна и близка. На текущий момент использование AI скорее приветствуется: важно понимать, какие есть инструменты, какие бывают сценарии и как можно сделать команду эффективнее. То есть угрозы полной замены инженера пока нет (хотя Цукерберг и другие боссы скажут вам обратное — но они, возможно, пока больше продают, чем предсказывают).
Конечно, всё развивается настолько быстро, что может произойти что угодно. Например, блэкаут — и мы, как испанцы и португальцы недавно, останемся без электричества.
Давайте посмотрим на его инсайты.
Он разделил задачи инженеров на три категории в зависимости от степени угрозы:
🟢 Минимальный риск замещения
🟡 Средний риск замещения
🔴 Высокий риск замещения
📉 Что автоматизирует AI:
🔴 Отладка пайплайнов (on-call) – почти полностью автоматизируется (много ложных алертов от data quality-чеков или out-of-memory, AI отлично справляется)
🟡 Писать SQL и Spark код – уже частично автоматизируется через Cursor, Windsurf и пр., но всё ещё нужен человек для ревью и тестирования
🟡 Документация – шаблоны и черновики пишутся AI, но бизнес-контекст пока вне его зоны компетенций
🟡 Планирование спринтов – AI может помочь с оценкой задач, но согласование и приоритезация — это человеческая коммуникация
🟡 Писать тесты – генерация мок-данных и шаблонов тестов возможна, но продумать edge cases должен инженер
🔴 Ответы на бизнес-вопросы – если модель данных хорошо оформлена и задокументирована, AI может закрыть до 90–95% типовых запросов
🟡 Автоматизированные data quality-чек-листы – AI хорошо пишет базовые проверки (Great Expectations, SQLMesh), но без бизнес-контекста малоценны
📈 Что останется за инженерами:
🟢 Архитектура пайплайнов и фреймворков (Airflow, Spark и др.) – требует глубокого понимания систем, AI пока не справляется
🟢 Концептуальное моделирование данных – нужно много переговоров и знания бизнеса, AI здесь лишь помощник
🟢 Создание best practices и общих процессов – требует согласования, доверия, культуры — не заменяется быстро
🟢 Создание процессов генерации пайплайнов – организационные процессы требуют участия людей, особенно на старте
📐 Ключевые дизайн-паттерны (по убыванию полезности):
🟢 Kimball (факт/измерения)
🟢 OLTP (3NF)
🟢 SCD Type 2
🟢 One Big Table (NoSQL/широкие аналитики)
🟢 Feature Store для ML
🟢 Kappa-архитектура (Apache Flink)
🟡 Микробатчинг/часовые пайплайны
📚 Вывод:
AI не заменит data-инженеров, но изменит их фокус — от ручной работы к концептуальному проектированию и бизнес-интеграции. Чтобы быть востребованным, нужно понимать архитектуру, паттерны и процессы, а не только писать SQL.
В любом случае выбор у вас только один, учиться/развиваться или стагнировать. Для меня все это уже давно напоминает эскалатор в метро. Вы идет наверх, а он едет вниз. Вот только вы остановились, и все, уехали вниз🪦
По самому названию понятно, о чём идёт речь — как AI будет влиять на инженеров данных. Мне эта тема тоже интересна и близка. На текущий момент использование AI скорее приветствуется: важно понимать, какие есть инструменты, какие бывают сценарии и как можно сделать команду эффективнее. То есть угрозы полной замены инженера пока нет (хотя Цукерберг и другие боссы скажут вам обратное — но они, возможно, пока больше продают, чем предсказывают).
Конечно, всё развивается настолько быстро, что может произойти что угодно. Например, блэкаут — и мы, как испанцы и португальцы недавно, останемся без электричества.
Давайте посмотрим на его инсайты.
Он разделил задачи инженеров на три категории в зависимости от степени угрозы:
🟢 Минимальный риск замещения
🟡 Средний риск замещения
🔴 Высокий риск замещения
📉 Что автоматизирует AI:
🔴 Отладка пайплайнов (on-call) – почти полностью автоматизируется (много ложных алертов от data quality-чеков или out-of-memory, AI отлично справляется)
🟡 Писать SQL и Spark код – уже частично автоматизируется через Cursor, Windsurf и пр., но всё ещё нужен человек для ревью и тестирования
🟡 Документация – шаблоны и черновики пишутся AI, но бизнес-контекст пока вне его зоны компетенций
🟡 Планирование спринтов – AI может помочь с оценкой задач, но согласование и приоритезация — это человеческая коммуникация
🟡 Писать тесты – генерация мок-данных и шаблонов тестов возможна, но продумать edge cases должен инженер
🔴 Ответы на бизнес-вопросы – если модель данных хорошо оформлена и задокументирована, AI может закрыть до 90–95% типовых запросов
🟡 Автоматизированные data quality-чек-листы – AI хорошо пишет базовые проверки (Great Expectations, SQLMesh), но без бизнес-контекста малоценны
📈 Что останется за инженерами:
🟢 Архитектура пайплайнов и фреймворков (Airflow, Spark и др.) – требует глубокого понимания систем, AI пока не справляется
🟢 Концептуальное моделирование данных – нужно много переговоров и знания бизнеса, AI здесь лишь помощник
🟢 Создание best practices и общих процессов – требует согласования, доверия, культуры — не заменяется быстро
🟢 Создание процессов генерации пайплайнов – организационные процессы требуют участия людей, особенно на старте
📐 Ключевые дизайн-паттерны (по убыванию полезности):
🟢 Kimball (факт/измерения)
🟢 OLTP (3NF)
🟢 SCD Type 2
🟢 One Big Table (NoSQL/широкие аналитики)
🟢 Feature Store для ML
🟢 Kappa-архитектура (Apache Flink)
🟡 Микробатчинг/часовые пайплайны
📚 Вывод:
AI не заменит data-инженеров, но изменит их фокус — от ручной работы к концептуальному проектированию и бизнес-интеграции. Чтобы быть востребованным, нужно понимать архитектуру, паттерны и процессы, а не только писать SQL.
В любом случае выбор у вас только один, учиться/развиваться или стагнировать. Для меня все это уже давно напоминает эскалатор в метро. Вы идет наверх, а он едет вниз. Вот только вы остановились, и все, уехали вниз
Please open Telegram to view this post
VIEW IN TELEGRAM
blog.dataengineer.io
The 2025 AI-enabled Data Engineering roadmap
AI is making manually writing complex data pipelines a thing of the past!
Алексей Колоков все время что-то придумывает!
Вот в этот раз для своих (и не только) аналитиков, он придумал Crazy Data Quizzzz, потому что от обычных уже все устали. Вы можете собрать команду из 4х человек, встретиться в 16:00, напиться (можно квасом), и к 18:00 уже прийти в полной готовности отвечать на дата вопросы.....Алексей, еще сказал, что для девушек будет автограф сессия🍸
15 мая в клубе анонимных аналитиков пройдет Крейзи Дата Квиз!
Это тематическая вечеринка в формате квиза, адаптированного под аналитиков! Рекомендую всем, кто будет в Москве
Вы можете собрать свою команду (от 4 чел), либо попасть в рандомную (так больше нетворкинга)
Расписание:
18:00 - знакомимся, рассаживаемся по командам
19:00 - старт квиза
20:30 - призы победителям, нетворкинг
21:00 - завершение, афтепати для самых отчаянных
Розыгрыш билета
Напишите в комментарии самый забавный вопрос, который вам задавали на собеседовании. И я рандомайзером выберу счастливчика, который получит билет.
Регистрируйтесь, будет весело!
https://alexkolokolov.com/data-quiz
Вот в этот раз для своих (и не только) аналитиков, он придумал Crazy Data Quizzzz, потому что от обычных уже все устали. Вы можете собрать команду из 4х человек, встретиться в 16:00, напиться (можно квасом), и к 18:00 уже прийти в полной готовности отвечать на дата вопросы.....Алексей, еще сказал, что для девушек будет автограф сессия
15 мая в клубе анонимных аналитиков пройдет Крейзи Дата Квиз!
Это тематическая вечеринка в формате квиза, адаптированного под аналитиков! Рекомендую всем, кто будет в Москве
Вы можете собрать свою команду (от 4 чел), либо попасть в рандомную (так больше нетворкинга)
Расписание:
18:00 - знакомимся, рассаживаемся по командам
19:00 - старт квиза
20:30 - призы победителям, нетворкинг
21:00 - завершение, афтепати для самых отчаянных
Розыгрыш билета
Напишите в комментарии самый забавный вопрос, который вам задавали на собеседовании. И я рандомайзером выберу счастливчика, который получит билет.
Регистрируйтесь, будет весело!
https://alexkolokolov.com/data-quiz
Please open Telegram to view this post
VIEW IN TELEGRAM
Alexkolokolov
Крейзи Дата Квиз
Интеллектуальная вечеринка для аналитиков! 15 мая в ресторане Бодрум (Москва): квиз, нетворкинг, вечерний дресс-код и 50 самых умных гостей. Успей зарегистрироваться!
Про дату пока нет новостей, зато могу рассказать про недвижимость. Вообще эта тема заслуживает отдельного поста на хабр, так как там много всяких нюансов и скрытых расходов.
Если вам интересно как живется в Канаде, то приглашаю ознакомиться с моейgarage sale распродажей.
С 2016 по 2020 год мы жили в Виктории, настоящий остров в Тихом Океане, самый южный город Канады. Дом купили за 600к CAD (взяли ипотеку) и он вырос до 1.2 млн CAD, и потом стал снижаться, и уже продается в районе 1млн CAD. Идеальный семейный дом.
Одна из особенностей дома, в них есть basement suite, в котором можно делать свой Airbnb. В сезон окупает ипотеку.
Потом стало понятно, что Виктория это деревня с точки зрения развития детей и там ничего нет. Я перешел в Microsoft из Amazon (хотя тупанул, мог бы остаться в Amazon, так как был remote), они оплатили переезд, и мы купили таун хаус в Port Moody. Очень классное место было, большой гараж, горы за окном, рядом пляж и highway. Купили новый за 1.1 млн CAD (взяли ипотеку). А дом сдали в рент.
Потом нам показалось, что мы далеко от центра, и мы перебрались в Северный Ванкувер за 1.5 млн CAD (взяли ипотеку). Но постройку задержали на 7 месяцев и мы скитались по знакомым и Airbnb. То еще веселье было. Прошлый таун хаус сдали в рент. Новый таун дороже, но размером меньше, и как то в нем стало тесновато. И мы решили его продать за 1.54млн CAD, впринципе за тоже самое, что и купили + комиссия риэлторам.
Недавно в Port Moody тенанты попросили скидку, а я попросил их съехать и мы решили его продать за 1.2 млн CAD.
Сейчас достаточно плохое время продавать, так как кол-во иммигрантов уменьшилось, ставки на ипотеку еще высокие по канадским меркам (4-5%), цены высокие, зарплаты маленькие, да еще Трамп хочет 51 штат. Но сдавать новым жильцам мы тоже не готовы. Ведь дома здесь хрупкие, и потом нужно делать ремонт после выселения. А самое печальное, что законы тут на стороне жильцов. Если вы сдали жилье, у вас нет никаких прав, ваша задача обслуживать жилье, чтобы было пригодное для жильцов. Даже если они перестанут платить, это ваша проблема, но самим их нельзя выгнать. Поэтому, не хочется такого счастья, лучше продать. Провинция все делает, что люди процветали и богатели (шутка). Airbnb кстати почти везде прикрыли.
Кол-во скрытых комиссий, налогов на capital gains, legal fees и другое просто зашкаливает. Расходы на обслуживание недвижимости, налоги на недвижимость и utilities тоже недешево.
Вообще invest property стало main stream в 2020-2021 году, у меня у всех знакомых такая есть, и практически все доплачивают каждый месяц.
В нашем случае, мы не покупали недвижимость как инвестицию, просто оставляли старую, так как разницы не было продать или взять еще одну ипотку, а прошлую недвижимость сдать. И ежегодный рост в 10% очень стимулировал.
Сейчас я понимаю, что если хочется инвестировать в недвижимость желательно выкупить 60-70% от стоимости, тогда у вас будет прибыль на покрытие расходов и будет время найти хороших жильцов.
Если сравнить рост ценных бумаг и недвижимости с 2016 года по сейчас, то окажется, что акции технологических компаний проявили себя лучше.
А если вы читали книгу - The Bitcoin Standard, то еще в 2018 году вы смогли купить bitcoin. Сейчас мы с детьми слушаем эту книгу, в ней очень интересно рассказывают про историю денег, про золотой стандарт и многое другое. Дети размышляют о том, чтобы перевести все свои накопления в bitcoin. Но мы еще слушаем.
PS хотите купить недвижимость в Канаде, всего за1000$ 500$ я смогу вам рассказать, как чего🤑
Если вам интересно как живется в Канаде, то приглашаю ознакомиться с моей
С 2016 по 2020 год мы жили в Виктории, настоящий остров в Тихом Океане, самый южный город Канады. Дом купили за 600к CAD (взяли ипотеку) и он вырос до 1.2 млн CAD, и потом стал снижаться, и уже продается в районе 1млн CAD. Идеальный семейный дом.
Одна из особенностей дома, в них есть basement suite, в котором можно делать свой Airbnb. В сезон окупает ипотеку.
Потом стало понятно, что Виктория это деревня с точки зрения развития детей и там ничего нет. Я перешел в Microsoft из Amazon (хотя тупанул, мог бы остаться в Amazon, так как был remote), они оплатили переезд, и мы купили таун хаус в Port Moody. Очень классное место было, большой гараж, горы за окном, рядом пляж и highway. Купили новый за 1.1 млн CAD (взяли ипотеку). А дом сдали в рент.
Потом нам показалось, что мы далеко от центра, и мы перебрались в Северный Ванкувер за 1.5 млн CAD (взяли ипотеку). Но постройку задержали на 7 месяцев и мы скитались по знакомым и Airbnb. То еще веселье было. Прошлый таун хаус сдали в рент. Новый таун дороже, но размером меньше, и как то в нем стало тесновато. И мы решили его продать за 1.54млн CAD, впринципе за тоже самое, что и купили + комиссия риэлторам.
Недавно в Port Moody тенанты попросили скидку, а я попросил их съехать и мы решили его продать за 1.2 млн CAD.
Сейчас достаточно плохое время продавать, так как кол-во иммигрантов уменьшилось, ставки на ипотеку еще высокие по канадским меркам (4-5%), цены высокие, зарплаты маленькие, да еще Трамп хочет 51 штат. Но сдавать новым жильцам мы тоже не готовы. Ведь дома здесь хрупкие, и потом нужно делать ремонт после выселения. А самое печальное, что законы тут на стороне жильцов. Если вы сдали жилье, у вас нет никаких прав, ваша задача обслуживать жилье, чтобы было пригодное для жильцов. Даже если они перестанут платить, это ваша проблема, но самим их нельзя выгнать. Поэтому, не хочется такого счастья, лучше продать. Провинция все делает, что люди процветали и богатели (шутка). Airbnb кстати почти везде прикрыли.
Кол-во скрытых комиссий, налогов на capital gains, legal fees и другое просто зашкаливает. Расходы на обслуживание недвижимости, налоги на недвижимость и utilities тоже недешево.
Вообще invest property стало main stream в 2020-2021 году, у меня у всех знакомых такая есть, и практически все доплачивают каждый месяц.
В нашем случае, мы не покупали недвижимость как инвестицию, просто оставляли старую, так как разницы не было продать или взять еще одну ипотку, а прошлую недвижимость сдать. И ежегодный рост в 10% очень стимулировал.
Сейчас я понимаю, что если хочется инвестировать в недвижимость желательно выкупить 60-70% от стоимости, тогда у вас будет прибыль на покрытие расходов и будет время найти хороших жильцов.
Если сравнить рост ценных бумаг и недвижимости с 2016 года по сейчас, то окажется, что акции технологических компаний проявили себя лучше.
А если вы читали книгу - The Bitcoin Standard, то еще в 2018 году вы смогли купить bitcoin. Сейчас мы с детьми слушаем эту книгу, в ней очень интересно рассказывают про историю денег, про золотой стандарт и многое другое. Дети размышляют о том, чтобы перевести все свои накопления в bitcoin. Но мы еще слушаем.
PS хотите купить недвижимость в Канаде, всего за
Please open Telegram to view this post
VIEW IN TELEGRAM
Письмо от CEO Fiverr.
"Лёгкие задачи" исчезают, "трудные" становятся базовым уровнем, а "невозможные" — новыми сложными.
Пассивность = угроза карьере: если ты не станешь мастером в своём деле, тебя вытеснит технология.
Если что, на собеседовании говорите - вы за AI, и благодаря AI вам теперь возможно невозможное и вы безмерно рады, что простые задачки больше не надо делать самому!🍸
"Лёгкие задачи" исчезают, "трудные" становятся базовым уровнем, а "невозможные" — новыми сложными.
Пассивность = угроза карьере: если ты не станешь мастером в своём деле, тебя вытеснит технология.
Если что, на собеседовании говорите - вы за AI, и благодаря AI вам теперь возможно невозможное и вы безмерно рады, что простые задачки больше не надо делать самому!
Please open Telegram to view this post
VIEW IN TELEGRAM
On-call — это такая штука, которая может напрочь отбить удовольствие от работы.
Для DevOps, SRE и других команд, поддерживающих client-facing приложения, — это must have. Там как бы само собой разумеется в 3 часа ночи вставать по звонку и поднимать упавший прод.
А вот для дата-команд в 99% случаев это не критично для бизнеса, и можно спокойно пофиксить всё в рабочие часы. В идеале. Хотя как повезёт.
По своему опыту скажу — мне скорее везло, и я редко что-то чинил вне рабочего времени или в выходные.
Хотя если вам нужно для галочки показать, какой вы прилежный и ответственный сотрудник, то, конечно, чините всё ночью и в выходные. Все будут думать, что вы работаете круглосуточно и горите делом!
(Спойлер: денег всё равно не прибавят и повышение не дадут.)
Кажется, за всю карьеру я всего один раз просыпался в 4 утра — фиксить отчёт в Ламоде. Там были операционные отчёты для склада в SAP Business Objects, и без них склад реально вставал.
Так что если выбирать между DevOps, SRE и Data Engineer — последние лучше спят по ночам!
Для DevOps, SRE и других команд, поддерживающих client-facing приложения, — это must have. Там как бы само собой разумеется в 3 часа ночи вставать по звонку и поднимать упавший прод.
А вот для дата-команд в 99% случаев это не критично для бизнеса, и можно спокойно пофиксить всё в рабочие часы. В идеале. Хотя как повезёт.
По своему опыту скажу — мне скорее везло, и я редко что-то чинил вне рабочего времени или в выходные.
Хотя если вам нужно для галочки показать, какой вы прилежный и ответственный сотрудник, то, конечно, чините всё ночью и в выходные. Все будут думать, что вы работаете круглосуточно и горите делом!
(Спойлер: денег всё равно не прибавят и повышение не дадут.)
Кажется, за всю карьеру я всего один раз просыпался в 4 утра — фиксить отчёт в Ламоде. Там были операционные отчёты для склада в SAP Business Objects, и без них склад реально вставал.
Так что если выбирать между DevOps, SRE и Data Engineer — последние лучше спят по ночам!
Последние пару недель я работаю с CircleCI — это сервис, который мы используем вместо традиционного GitHub Actions. Код по-прежнему хранится в GitHub, но шаги CI/CD выполняются внутри CircleCI.
Теоретически всё можно реализовать и на обычных GitHub Actions — так было бы даже проще, и у меня уже есть готовые YAML-файлы для всех нужных задач. Но так неинтересно. К тому же, раз компания использует CircleCI, это отличная возможность изучить его получше.
Но пост на самом деле о другом. Мне понравилось их письмо про MCP-сервер. Они попытались объяснить простыми словами, что это такое и зачем он нужен.
Вы меня сильно не ругайте за AI перевод ниже, уж больно понравилось письмо.
Что такое MCP?
Model Context Protocol (MCP) — это стандартизированный способ для языковых моделей понимать и взаимодействовать с внешними инструментами, источниками данных и сервисами. Он определяет, как должен быть представлен context и как можно вызывать инструменты, предоставляя моделям возможность выполнять осмысленные действия, а не просто генерировать текст.
Чтобы понять, почему MCP — это настолько мощная концепция, полезно разобрать само название:
Model — это большая языковая модель (LLM), такая как GPT-4 или Claude — системы, которые генерируют вывод на основе входных данных. Именно такие модели лежат в основе AI-кодинг ассистентов, как Claude Code, Cursor, Windsurf и Lovable, которые помогают разработчикам писать, анализировать и понимать код более эффективно.
Context — это всё, к чему модель имеет доступ при принятии решений. Это может быть текущий prompt, предыдущие взаимодействия, а также структурированная внешняя информация, такая как документация, структура файлов или доступные API. Чем богаче context, тем умнее и релевантнее ответы. До появления MCP управление context'ом было трудоёмким и непоследовательным.
Наконец, Protocol — это набор правил, который стандартизирует обмен информацией между системами. В случае MCP он определяет единый способ, как внешние инструменты делятся информацией (context'ом) с моделями: что они делают, как их вызывать и какие входные данные они ожидают.
Без такого стандарта, как MCP, каждое соединение между моделью и инструментом приходилось настраивать вручную — один инструмент, одна модель, одна интеграция за раз. MCP заменяет эту сложность единственным переиспользуемым интерфейсом: разработчик один раз настраивает MCP client, регистрирует нужные servers, и любая совместимая модель может с ними взаимодействовать. Ответственность за предоставление функциональности через свои MCP servers лежит на tool providers — а не на конечных пользователях или создателях моделей. Это позволяет моделям автоматически находить и использовать эти возможности.
MCP был разработан компанией Anthropic (создателями Claude) и выпущен как открытый стандарт 25 ноября 2024 года. Хотя ранние энтузиасты из open-source и академических сообществ проявили интерес, настоящий прорыв произошёл в марте 2025 года, когда OpenAI — основной конкурент Anthropic — объявил, что внедрит стандарт для своих моделей. С этого момента интерес к MCP стал неоспорим по всему AI-экосистеме.
С тех пор интерес к MCP резко возрос, особенно на фоне роста популярности vibe coding — нового подхода к разработке, где AI-ассистенты помогают изучать, редактировать, тестировать и отлаживать код в рамках живого, разговорного взаимодействия. По мере того как разработчики стремятся к более динамичным и инструментально-ориентированным рабочим процессам, экосистема быстро реагирует: tool providers спешат создать MCP servers, чтобы сделать свои сервисы доступными в современных средах разработки.
Здесь вы можете подписаться на их рассылку - https://www2.circleci.com/newsletter
У них еще есть блог с полезными постами про базу, например - What is a CI/CD pipeline?
Про CI/CD я показал хороший пример на проекте с dbt - Модуль 4.9 Начало работы с dbt и в Surfalytics мы делали проект - Getting started with Git and CI/CD
Теоретически всё можно реализовать и на обычных GitHub Actions — так было бы даже проще, и у меня уже есть готовые YAML-файлы для всех нужных задач. Но так неинтересно. К тому же, раз компания использует CircleCI, это отличная возможность изучить его получше.
Но пост на самом деле о другом. Мне понравилось их письмо про MCP-сервер. Они попытались объяснить простыми словами, что это такое и зачем он нужен.
Вы меня сильно не ругайте за AI перевод ниже, уж больно понравилось письмо.
Что такое MCP?
Model Context Protocol (MCP) — это стандартизированный способ для языковых моделей понимать и взаимодействовать с внешними инструментами, источниками данных и сервисами. Он определяет, как должен быть представлен context и как можно вызывать инструменты, предоставляя моделям возможность выполнять осмысленные действия, а не просто генерировать текст.
Чтобы понять, почему MCP — это настолько мощная концепция, полезно разобрать само название:
Model — это большая языковая модель (LLM), такая как GPT-4 или Claude — системы, которые генерируют вывод на основе входных данных. Именно такие модели лежат в основе AI-кодинг ассистентов, как Claude Code, Cursor, Windsurf и Lovable, которые помогают разработчикам писать, анализировать и понимать код более эффективно.
Context — это всё, к чему модель имеет доступ при принятии решений. Это может быть текущий prompt, предыдущие взаимодействия, а также структурированная внешняя информация, такая как документация, структура файлов или доступные API. Чем богаче context, тем умнее и релевантнее ответы. До появления MCP управление context'ом было трудоёмким и непоследовательным.
Наконец, Protocol — это набор правил, который стандартизирует обмен информацией между системами. В случае MCP он определяет единый способ, как внешние инструменты делятся информацией (context'ом) с моделями: что они делают, как их вызывать и какие входные данные они ожидают.
Без такого стандарта, как MCP, каждое соединение между моделью и инструментом приходилось настраивать вручную — один инструмент, одна модель, одна интеграция за раз. MCP заменяет эту сложность единственным переиспользуемым интерфейсом: разработчик один раз настраивает MCP client, регистрирует нужные servers, и любая совместимая модель может с ними взаимодействовать. Ответственность за предоставление функциональности через свои MCP servers лежит на tool providers — а не на конечных пользователях или создателях моделей. Это позволяет моделям автоматически находить и использовать эти возможности.
MCP был разработан компанией Anthropic (создателями Claude) и выпущен как открытый стандарт 25 ноября 2024 года. Хотя ранние энтузиасты из open-source и академических сообществ проявили интерес, настоящий прорыв произошёл в марте 2025 года, когда OpenAI — основной конкурент Anthropic — объявил, что внедрит стандарт для своих моделей. С этого момента интерес к MCP стал неоспорим по всему AI-экосистеме.
С тех пор интерес к MCP резко возрос, особенно на фоне роста популярности vibe coding — нового подхода к разработке, где AI-ассистенты помогают изучать, редактировать, тестировать и отлаживать код в рамках живого, разговорного взаимодействия. По мере того как разработчики стремятся к более динамичным и инструментально-ориентированным рабочим процессам, экосистема быстро реагирует: tool providers спешат создать MCP servers, чтобы сделать свои сервисы доступными в современных средах разработки.
Здесь вы можете подписаться на их рассылку - https://www2.circleci.com/newsletter
У них еще есть блог с полезными постами про базу, например - What is a CI/CD pipeline?
Про CI/CD я показал хороший пример на проекте с dbt - Модуль 4.9 Начало работы с dbt и в Surfalytics мы делали проект - Getting started with Git and CI/CD