Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Сегодня решил прогуляться в центр, чтобы сходить на настоящее собеседование. Я не знал, что за компания, и что они делают, но так как я был в офисе на собеседовании последний раз в 2016 году, решил воспользоваться возможностью.

Оказалась огромная инвест контора, которая внедряет Databricks и Fabric. Еще оказалось, что у них hybrid. Фотки из путешествия прикладываю. Кофе и булочки не предложили, вообще даже не постарались продать себя😫

Фотки офиса это местный Microsoft, зашел к ним на кофе по старой памяти. У инвест конторы офис попроще через дорогу.

Вывод? Все эти on-site собеседования бесполезное занятие и ни на что не влияет.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥36🫡97🤷‍♀5
Please open Telegram to view this post
VIEW IN TELEGRAM
🌚4❤‍🔥1👨‍💻1
Закончил слушать книгу - Empire of AI, автора Карен Хао. Книга рассказывает историю создания OpenAI и переход компании от non-profit к PROFIT. Книга интересная и слушал ее с удовольствием.

Основные темы в книге by AI:

Центральный аргумент Хао заключается в том, что индустрия ИИ воспроизводит модель колониальных империй XIX века. Она выделяет четыре ключевых паттерна:
• Захват ресурсов — присвоение данных из интернета, а также природных ресурсов (вода, энергия) для работы дата-центров
• Эксплуатация труда — использование низкооплачиваемого «призрачного труда» работников в Кении, Венесуэле и других странах Глобального Юга, которые «чистят» данные и модерируют контент, часто получая меньше доллара в день
• Монополизация знаний — концентрация ведущих ИИ-исследователей внутри корпораций
Цивилизаторская миссия — риторика о «благе для всего человечества», которая оправдывает любые действия

Критика Сэма Альтмана как лидера
По мнению Хао, Альтман — манипулятивный и амбициозный лидер, который:
• Не может чётко определить, что такое AGI, но использует эту концепцию для привлечения инвесторов и талантов
• Превратил OpenAI из некоммерческой организации с миссией безопасности в «прибыльную чёрную дыру», поддерживаемую миллиардами Microsoft
• Умело манипулирует разными аудиториями — перед Сенатом говорит об экзистенциальных рисках ИИ, отвлекая внимание от реального ущерба
• Как пишет Шошана Зубофф в рецензии: «Альтман — хитрый молодой человек с непомерными амбициями, осуждённый мир на цифровое насилие подхода к ИИ, который может существовать только пожирая всю информацию мира»

Как ИИ «возвращает рабство»
Хао документирует систему, которую критики сравнивают с современным цифровым рабством:
• Работники в странах Глобального Юга (Кения, Латинская Америка, Восточная Азия) выполняют психологически травмирующую работу по разметке данных и модерации контента
• Оплата составляет менее доллара в день — при том, что руководители и инвесторы AI-компаний зарабатывают миллиарды
• Это классическая колониальная схема: ресурсы и труд бедных стран используются для обогащения небольшой группы технологической элиты
• OpenAI определяет AGI как технологию, «превосходящую людей в наиболее экономически ценной работе» — то есть сама цель создания таких технологий направлена на подавление возможностей работников требовать права


Книгу сравнивают с «The Anarchy» Уильяма Далримпла о Британской Ост-Индской компании — ещё одной корпоративной империи, превратившейся в политическую силу.


Получается ethical AI там и близко нет, точнее это вряд ли существует. И в погоне за лидерством и могуществом компании ни перед чем ни остановяться.
💯40❤‍🔥18🤷3🌚1
Нейроаналитик в DataLens теперь тянет большие данные.

ИИ-помощник от Yandex B2B Tech научился обрабатывать сразу весь дашборд, искать закономерности и выдавать выводы за секунды. В Яндекс Go его уже используют команды Такси, Доставки и Шерингов — агент анализирует данные по 58 млн пользователей и помогает ловить сезонные скачки спроса и отклонения в метриках.

Технический директор платформы Yandex Cloud говорит, что следующий шаг — проактивный мониторинг, когда системы будут не ждать вопросов, а сами искать аномалии и предлагать решения.
❤‍🔥11🌚4
Forwarded from PharmaDataLab
Голая статистика - Чарльз Уилан
(Naked Statistics - Charles Wheelan)


Сегодня хочу поделиться мини рецензией об этой замечательной книге.
Заодно ответить на вечный вопрос: может ли книга про статистику быть живой, понятной и не вызывать флэшбеки с пары по матстату.

На сайте самого Уилана про него написано коротко и нагло:
Author. Professor. Speaker. Political Reformer.

Автро явно не из тех, кто открывал статистику только ради сдачи экзамена. И это чувствуется с первых страниц. Я, как человек, который уже много лет живёт в аналитике, BI и моделях, я довольно скептически отношусь к «популярным» книгам по статистике - но тут история другая:
«Голая статистика» - это, пожалуй, одна из лучших книг по статистике, которые я читал.

А читал я их уже немало - от классики до совсем академического кирпича.

О чём книга (и почему это не скучно)
• Корреляция
• Основы теории вероятностей
• Центральная предельная теорема (ЦПТ)
• Опросы общественного мнения
• Регрессионный анализ

На обложке вообще написано:
«Самая интересная книга о самой скучной науке»

И вот тут Уилан делает магию:
он реально разжёвывает статистику так, что и новичку ок, и человеку с опытом есть что подчеркнуть и переосмыслить.

При этом он объясняет сложные вещи на живых примерах:
загадка Монти Холла, Perry Preschool Study, марафон любителей сосисок, супружеская жизнь Ким Кардашьян (да, и она послужила статистике), исследования Americans Changing Lives и многое другое.

Центральная предельная теорема по-человечески

Отдельный кайф книги - блок про выборки, опросы и ЦПТ.

Вот как сам Уилан описывает ЦПТ:
«Центральная предельная теорема, значение которой для статистики соизмеримо со значением Леброна Джеймса для профессионального баскетбола».

Если перевести на практический язык:
если у нас есть правильно сформированная выборка, то наблюдаемые на ней характеристики с высокой вероятностью отражают свойства всей генеральной совокупности.

Несколько цитат, которые показались особенно точными
«Опираясь на статистику, легко врать, но без статистики очень трудно выяснить истину». - Андрейс Дункельс

«Вы не можете управлять тем, что не в состоянии измерить. Помимо этого, то, что вы измеряете, действительно является тем, чем вы пытаетесь управлять».

«Какой бы соблазнительной ни была элегантность и точность вероятностных моделей, они не заменят нам здравого размышления о сути и цели выполняемых вычислений».


И мой любимый образ 🔥:
«Когда увеличивается размер неправильно сформированной выборки, высота мусорной кучи также увеличивается, а вонь от неё становится сильнее».


«Голая статистика» трезво напоминает:
📍 Статистика и анализ данных - это мощный инструмент, чтобы лучше понимать реальность, а не подгонять её под наши фантазии.
📍 Любая модель - всего лишь приближение мира, а не откровение.
📍 Аналитик всегда должен быть не только «человеком формул», но и человеком здравого смысла.

Как я люблю говорить:
мало быть data-driven, важно оставаться data-informed


Как эта книга помогла лично мне

В далёком уже 2019-м я учился на Data Science в Нетологии. Одна из тем была Центральная предельная теорема. Формулы были красивые, преподаватели старались, домашки летели одна за другой - но абсолютно не было понятно, как эту теорему вообще применять в реальной аналитике и зачем она нужна, кроме как для галочки на экзамене.

И вот спустя время попадает мне в руки «Голая статистика».
И Уилан, как настоящий профессор-волшебник, берёт и на примере марафона любителей сосисок(!) объясняет ЦПТ так, что наконец-то становится ясно:
• как она работает
• почему она настолько фундаментальна
• и в каких реальных задачах она решает половину аналитических головоломок.

Так что да - эта книга не только хороша сама по себе,
она ещё и сильно закрывает пробелы, которые другие источники часто оставляют открытыми.
1❤‍🔥757💯1
Я тут писал, что вот надо собирать свой AI сервер, но планы поменялись.

На MacBook поставил Vmware, Windows 11 ARM и Worms Worlds Party Remastered. 🎮
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥103🐳10🦄5👨‍💻4🙈1
«Мы поняли, что мы как Тринити и Морфеус. Нам нужен был Нео». Как ночной портье за 3 месяца разобрался в инжиниринге данных

Смотрите подкаст «Криптонит говорит» о дата-инженерах! В нём эксперты обсуждают:
🔹достигла ли пика профессия дата-инженера;
🔹какой стек нужно знать дата-инженерам;
🔹какие намечаются тренды отрасли.

📺 YouTube
📺
Rutube
💙
VK видео
💬
Подкаст в телеграме
🎵 Яндекс.Музыка

Смотрите и подписывайтесь на подкаст «Криптонит говорит» — обсуждаем айти, искусственный интеллект, языки программирования и криптографию.

Реклама АО НПК «Криптонит» ИНН 9701115253 Erid: 2VtzqwCgYzD
13❤‍🔥1🐳1
This media is not supported in your browser
VIEW IN TELEGRAM
11👨‍💻3
Привет, это Yandex for Analytics

Предлагаем размяться и проверить свои навыки. Ответы есть, но подглядывать во время решения — неспортивно ⬇️

🔵 Задача 1. Вспоминаем теорию вероятностей
🔵 Задача 2. Теорема Байеса
🔵 Задача 3. Базовая база теории игр
🔵 Задача 4. Тренируем SQL
🔵 Задача 5. Честная математическая статистика
🔵 Задача 6. Что-то на бизнесовом

💠 Скоро вернёмся с новыми задачами. А пока делитесь своими решениями в комментариях!

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥1310🙈1
Хотите себе долларов (грязная зелёная бумажка (с)) напечатать? Дети мне показали сайт, где можно визуализировать вашу зарплату в долларах. Если много получаете, то может и голова закружиться!

https://neal.fun/printing-money/

PS Вроде надо зарплату визуализировать, чтобы большая была. Возможно это тренажер высоких заработков🤑

На самом сайте https://neal.fun/ много веселых штук позалипать!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥15👨‍💻7🙈3🫡21
Приглашаем на ЮMoneyDay — бесплатную онлайн-конференцию про финтех и IT 🔥

На протяжении двух дней будем общаться с разработчиками, инженерами, тестировщиками, продактами, дизайнерами и другими специалистами из ЮMoney. Они расскажут про свой опыт работы в большом финансовом продукте, поделятся лайфхаками и секретами.

Будут доклады по 16 направлениям:

🟣 Будущее финтеха
🟣 Бэкенд
🟣 Фронтенд
🟣 Тестирование
🟣 Python
🟣 Менеджмент проектов
🟣 Менеджмент продуктов
🟣 Системный анализ
🟣 SQL
🟣 UX
🟣 ИИ
🟣 Архитектура IT-решений
🟣 Внутренние системы
🟣 Мобильная разработка
🟣 Инфраструктура
🟣 О компании

Встречаемся онлайн 5 и 6 декабря в 11:00 мск. Чтобы участвовать, зарегистрируйтесь на сайте конференции
Please open Telegram to view this post
VIEW IN TELEGRAM
11
Отличный пост, который прям смотрит в суть.

Я его перевел для вас с AI. Выглядит немного топорно, но суть понятна:

Ваш руководитель по данным получает зарплату $400К и неограниченный бюджет на инфраструктуру.

Ваш
операционный руководитель получает $180К, потому что "их работа более тактическая."

Угадайте, какой отдел всё ещё не может ответить на базовые вопросы?


Представьте этот сценарий:
Команда данных только что получила $3,8М
на Snowflake, Databricks и новые пайплайны.


Одобрения получены.


Консультанты наняты, и все празднуют победу.


Операционный отдел спрашивает, почему растёт отток клиентов и падает маржинальность.


"Нам нужно запустить запросы. Вернёмся к этому в следующем квартале."


Компании тратят миллионы на инфраструктуру данных.
Но CEO не может получить прямой ответ:
Какие клиенты прибыльны?
"Сложно. Данные разбросаны по системам."


Сколько нам стоит отток клиентов?


"Нам нужно объединить несколько источников."
Мы вообще зарабатываем деньги?


"Это требует продвинутой аналитики."


Тем временем бизнес истекает кровью.


Но большинство компаний нанимают команды данных
как будто они нанимают облачных архитекторов.


"Обязательно знание распределённых систем."


"Опыт работы с ETL-фреймворками предпочтителен."


"Глубокий опыт в MLOps будет плюсом."


Тем временем руководители спрашивают:
• Почему упала выручка в прошлом квартале?
• Что вызывает скачок оттока клиентов?
• Какие сегменты умирают?
• Какое изменение продукта сломало активацию?

А ваша команда данных оптимизирует производительность запросов.

Компании, которые выигрывают с данными,
относятся к ним так, как они есть на самом деле.


Слой ответов.

Их лидеры аналитики:
• Построили операционную отчётность, которая управляет решениями
• Перевели метрики в бизнес-действия
• Возглавили кросс-функциональные расследования
• Предоставили причинно-следственные объяснения, а не дашборды

Потому что они понимают настоящее описание работы:
Превратить миллиарды точек данных
в одно предложение, на основе которого CEO может действовать.


А не "построить идеальный дашборд."


Данные владеют 100 процентами видимости компании.


Но большинство команд предоставляют ноль бизнес-аналитики.


Так почему ваш руководитель данных владеет королевством инструментов,
в то время как никто в компании не может объяснить, почему изменилась выручка?
Потому что вы всё ещё думаете о данных
как об инфраструктуре.


Вместо того, чтобы думать о них как об инсайтах.
Ваш CEO смотрит на стек за $3,8М, который он не может использовать.
Кто в комнате объясняет причинно-следственные связи?


Тот, кто может нарисовать диаграмму ETL-пайплайна?
Или слой ответов, который может сказать CEO,
почему клиенты уходят и что исправить в понедельник?
Рынок не вознаграждает за ваш технологический стек.
Он вознаграждает за вашу способность понимать свой бизнес.


Ваш слой ответов — это ваш движок интеллекта.


Укомплектуйте его соответственно.


То есть строить и внедрять новые shiny tools мы можем на easy.

А вот реально использовать их и помогать бизнесу - это уже другое.

Так реально получается, что Excel более мощный инструмент в умелых руках, чем Snowflake, Databricks и Modern Data Stack.

PS Но как ни крути, лучше конечно внедрять и строить, чем ломать голову, почему churn rate такой, какой есть, почему клиенты покидают подписку и возвращают продукты.

Тратить время и силы на R&D всегда веселее и приятнее, чем на скучные insights, которые помогают бизнесу расти.

Настоящее искусство - это совместить технологии и ценность для бизнеса, когда понятно - что мы делаем, зачем и с помощью каких инструментов.
2💯105❤‍🔥195
Новые возможности для администрирования Apache Ignite

СберТех приглашает на вебинар, где представит обновления в Platform V Grid Center.

Основной темой станет демонстрация ИИ-агента, который помогает администрировать кластеры через диалог.

Спикер — лидер продукта Илья Степанов — покажет, как агент взаимодействует на естественном языке, анонсирует выход гибких пользовательских дашбордов и расскажет про улучшения в интерфейсе и функциональности контроля.

Platform V Grid Center предназначен для работы как с Apache Ignite, так и с коммерческой версией от СберТеха — Platform V DataGrid.

Присоединяйтесь, чтобы узнать о новых инструментах для оптимизации вашей работы. Регистрация по ссылке.
🦄22🙈1
AI Code Assistant вошел плотненько в мой быт. У меня Cursor. Так же я работал с Cline плагином в VSCode, которому я скормил Claude Code API ключ и там же я попробовал Claude плагин, который подключает Claude Code.

В Linkedin я провел опрос, и Claude Code явно популярнее, чем Cursor. И я считаю, что эти два инструмента лучшие на рынке. По опросу в Телеграмм стало понятно, что AI Code Assistant не такие популярные. Главная проблема это цена инструмента и работодатели не хотят оплачивать и людям приходится изобретать.

Чтобы вам стать максимально эффективным вам нужно использовать IDE + AI. Самый простой вариант VSCode + Cline или что-то подобное. Так же все хвалили Kilo Code.

Самое классное, что такой подход работает не только для кода, а для всего. Считайте, что у вашего AI теперь есть buffer, где можно сохранять результат в markdown файлы или создавать их самому, чтобы всегда был контекст. Одно время я так сохранял Slack переписки и вел лог всего в markdown.

Теперь несколько примеров из недавнего опыта.

Недавно была встреча с Product Manager из Silicon Valley, он показал как он завайбкодил целое решение:
- Данные забирает из Survicate API (сервис опросов, многие ответы free text)
- Парсит ответы с AI и классифицирует их
- Построил целое веб приложение с графиками и кнопками

И это сделал чувак, кто совсем не технарь, получилось очень достойно. То есть теперь любой может кодить и создавать продукты. А дальше уже можно привлечь инженеров и доработать решения, чтобы положить в прод.

Лично я сделал достаточно много с AI, что было бы просто нереально успеть сделать за такой короткий срок:
1. Был Airflow, который жил в Docker на AWS EC2. Использовали Astro Run Time. Было очень неудобно. Я решил все смигрировать на Managed AWS Airflow. И AI помог мне конвертировать DAGs и улучшить их и внедрить мои идеи. Как результат пофиксил много legacy багов и улучшил производительность в 4 раза для OLTP источников.
2. AWS и Snowflake закинул в Terraform, и это позволяет быстро вносить изменения.
3. У них еще было 3 проекта в dbt cloud, там был полный хаус, я начал все консолидировать в новом проекте с использованием medallion architecture. Благодаря MCP, я могу тестировать изменения и фиксить, если где-то глюки.
4. Так же поработал плотненькое с Subscription based бизнес для hardware, и все что было сделано в dbt поверх данных Stripe - black box. Я полностью пересобрал модель данных для subscription revenue, смог создать несколько вариаций моделей, задокументировать все в markdown и так же через MCP сравнивать и фиксить модели на уровне конкретных клиентов.
5. Написал несколько документов на изменения связанные с тем как собираются и хранятся данные.
6. Проанализировал 3000 ноутбуков в Hex, чтобы понять какие из них используют сырые данные и как часто используются. Использовал BigQuery System Tables и MCP, чтобы создавать запросы, HEX API, чтобы выгружать данные, и DuckDB, чтобы локально все анализировать. А дальше написал несколько документов, но уже с Gemini. В gemini теперь можно и презентации создавать.

Было еще множество мелких вещей. Все эти задачи, я бы смог решить и без AI, просто делал бы их намного дольше и уж никак не параллельно. А так хватило время на посмотреть Один Дома 1 и 2, запустить Worms Worlds Party, и поиграть в новый сезон Fortnite. И даже на учебу по курсу Databricks Generative AI. И самое главное не пропускать тренировки, у меня на них высокий приоритет - 2 раза бокс, 2 раза джиу джитсу, 2 раза бассейн в неделю.

Жалко AI за меня не ходит на митинги, а то может быть по 5 в день в перемешку с собеседованиями.

Сейчас точно золотое время high performance инженеров, так как если у нас есть фундаментальные знания, то с помощью AI можно решить задачу. При этом большинство коллег, даже технических не шибко пользуются всеми возможностями, а предпочитают топорный способ - copy paste в ChatGPT. Или вообще не понимают, зачем это и как использовать в работе. Возможности и правда безграничные.

Думаю так долго не будет продолжаться, но пока прям четкий vibe📈
Please open Telegram to view this post
VIEW IN TELEGRAM
1💯3622❤‍🔥1
Я явно недооценил Excel, оказывается есть чемпионат по Excel


Чемпионат Microsoft Excel (Microsoft Excel World Championship, MEWC) — это киберспортивное соревнование, где участники решают необычные игровые задачи в Microsoft Excel.

В отличие от традиционных финансовых соревнований, здесь нет финансового моделирования — только Excel и логическое мышление.

Участники соревнуются в скорости и точности решения сложных головоломок, используя формулы, функции и любые инструменты Excel (включая VBA, Power Query, динамические массивы, лямбда-функции).

Формат соревнований:
• Участники получают кейсы с несколькими уровнями сложности (обычно 5-7 уровней)
• Задачи основаны на игровых сценариях — например, World of Warcraft, Scrabble, детективные истории, ролевые игры
• Каждый раунд длится 30 минут с системой выбывания: каждые 5-7,5 минут участник с наименьшим количеством очков выбывает
• Есть бонусные вопросы, которые может получить только первый решивший их участник

Структура турнира:
Чемпионат включает онлайн-отборочные раунды (9 ежемесячных баттлов, квалификационный раунд на 150 участников), плей-офф (256 участников) и финал вживую в Лас-Вегасе в HyperX Arena. Призовой фонд превышает $60,000.
144🙈10❤‍🔥2🐳1
Могу поделиться финансовой мудростью — когда захотите купить последний iPhone или другую дорогую (относительно дорогую) вещь, которую вот прямо необходимо иметь, попробуйте сделать это на прибыль или дивиденды от инвестиций.

То есть на языке книги «Богатый папа, бедный папа», которую, как по мне, должны добавить в школьную программу и вообще учить детей финансовой грамотности, а то получается, в школах растят потребителей.

Вам нужно сначала создать актив, который будет приносить вам прибыль, и на эту прибыль можно купить iPhone. В идеале тут можно говорить про дорогую машину, но надо начинать с чего-то маленького. Я вот вроде бы знал про такой life hack, но не воспользовался им, когда был молодым — возможно, у вас это получится лучше.

Звучит легко, но вот очень сложное сделать.
3❤‍🔥3923🦄8🍌4🐳2🌚2