Инжиниринг Данных
23.9K subscribers
2.11K photos
61 videos
194 files
3.27K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Dimensional Modeling 101 - статья про самый популярный и простой вид моделирования данных внутри хранилища данных.

Это когда 20% знаний закрывают 80% потребностей.

В статье вам напомнят теорию, и расскажут про альтернативы - Data Vault, One Big Table, Inmon Corporate Data Factory, Activity Schema.

Книги по теме:
📚The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling
📚Star Schema The Complete Reference
📚Agile Data Warehouse Design: Collaborative Dimensional Modeling, from Whiteboard to Star Schema

PS моделирование данных очень трудно дается AI, так же как и system design.
❤‍🔥4613💯7
Раз уже заговорили про dimensional modelling, я написал небольшой пост, где показал как с помощью DuckDB можно выкачать данные по запускам SpaceX и сделать dimension/fact таблицы и добавить SCD тип 1, 2, 3.

Этого будет достаточно, чтобы понять концепт, заодно и DuckDB потрогать и SQL позапускать на реальных данных!

https://blog.surfalytics.com/p/practical-data-modelling-with-sql
❤‍🔥646🐳3
Claude Code c моделью Opus 4.6 очень круто. Но даже за тариф в 200$ в месяц вам будет не хватать, особенно если вы очень любознательный и изобретательный человек=)

В итоге я пришел к выводу, что Cursor пока является самым эффективным и за 20$ в месяц в режиме Auto не будет никаких проблем на квоты. С недавних пор я стал использовать Cursor CLI - agent. Он работает достаточно хорошо.

За март я потратил 1000$+ через API Anthropic и решил урезать пользование.

У меня есть несколько edge кейсов, когда я не могу использовать на windows машинах Cursor/Claude Code и мне приходится через Kilo Code плагин в VSCode через OpenRouter подключаться к Anthropic API, чтобы в режиме YOLO творить🪄

А на чем вы остановились? Недавно попался пост про ситуацию с отечественными AI клиентами - ChatGPT, Claude и Gemini запретят в России. Альтернатива — «суверенные» модели, но ими не пользуются даже в компаниях, где они разработаны

Все кого я знаю, все используют Cursor или Claude Code за 200$. Cursor еще удобен, что можно сразу на год купить за 25т рублей и не знать проблем, я уже купил всем родственникам таким образом🏆
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤‍🔥18🙈15
Vibe-coding весело, но иногда лень печатать, поэтому можно воспользоваться бесплатной программой Handy, которая запишет ваш голос и преобразует в текст. Бесплатно.

https://github.com/cjpais/Handy

А вы чем пользуетесь?
🫡95❤‍🔥4🙈3
🚀 GigaChat 3.1 Ultra и GigaChat 3.1 Lightning в опенсорс под MIT лицензией!

Обе модели
• Обучены с нуля — без инициализации зарубежными весами
• MoE + MTP + MLA
• Совместимы с HuggingFace, llama.cpp / vLLM / SGLang

Код и веса уже на платформе GitVerse.

Это не просто релиз весов, а результат большой инженерной работы над качеством, alignment и стабильностью модели. В блоге команда поделилась результатами и своими наработками.
В релизе: высокие результаты на аренах, улучшенный function calling, решённая проблема циклов, DPO в нативном FP8, найденный и зарепорченный баг в SGLang при dp > 1.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥17🙈88🍌4🦄1
Курсера добавила курс от Snowflake про Iceberg https://www.coursera.org/learn/apache-iceberg-data-lakehouse, бесплатно, но фокус на снежинку

PS есть еще на степике на русском https://stepik.org/course/256520/ но нет отзывов и платно:)
❤‍🔥22
Сейчас есть 2 самых популярных Open Source решения для дата каталога:
• Open Metadata - у них даже есть демо стенд
• DataHub - тоже есть demo.

Я слегка работал и с одним и другим.

Обычно меня полностью устраивает dbt docs. Но бизнес пользователи хотят data lineage, и каталог отличное место для этого и все работает из коробки, как правило.

Альтернатива (если у вас Snowflake) - Snowflake Horizon Catalog. Они купили select Star в 2025 году. Но я его не пробовал.

Еще я работал с Alation, но мне он очень не понравился. В Окта у нас в прошлом хотели его заменить на DataHub или какой-то новый модный каталог, я забыл название.

У кого какой опыт с каталогами?
❤‍🔥81
В мае я рассказал про наш опыт с продажей недвижимости и в сентябре был пост про результаты продаж, где получилось продать 2/3 недвижимости.

Сейчас я готовил документы на подачу налогов, и нужно было подготовить цифры по доходам и расходом от сдачи недвижимости. Цифры расскажут сами за себя, насколько неэффективно заниматься арендой в Канаде на уровне хомячка обывателя.

То есть, в 2025 году за 8 месяцев (продал в Августе) я потерял 61к. И каждый доллар этой суммы это после налогов, то есть по факту 120к gross нужно было заработать, чтобы покрыть эту инвестицию. При этом я очень рад, что все таки у нас получилось продать, потому что сейчас в Канаде рынок недвижимости хуже чем в 2008 году.

Из плюсов, этот loss должен мне зачесться в налоговой, как убыток.
🙈20❤‍🔥4
90 млн чеков из 1С — это не проблема, а ресурс 💪

Если ваша аналитика тормозит, а выгрузки из 1С напоминают бесконечную стройку, пора переходить на новый уровень.

7 апреля в 12:00 вместе с Yandex DataLens и BI.Qube учимся:
Быстро забирать данные из 1С.
Использовать Нейроаналитика (ИИ) для общения с данными на естественном языке.
Разворачивать рабочее решение за 24 часа.
Никакой теории, только реальный кейс и пошаговый план развития вашей BI-системы.

🔗 Регистрация по ссылке
Оказывается сегодня запуск лунной программы Artemis II, они хотят облететь луну. Планируют взлет через 1 час 20 минут. Есть прямая трансляция.

У меня еще так совпало сегодня, что мне нужно было купить акции, так как истек мой опцион (covered call) на ASML и пришлось продать акции.

Я купил 4ре космических компании, о которых писал ранее:
• RKLB — Rocket Lab — американская космическая компания, запускает малые спутники на ракете Electron и разрабатывает среднюю ракету Neutron, конкурент SpaceX в сегменте small-sat.
• RDW — Redwire Corporation — производитель космической инфраструктуры и оборудования (солнечные панели, сенсоры, авионика) для правительственных и коммерческих спутников и станций.
• PL — Planet Labs — компания, которая управляет крупнейшей в мире группировкой спутников дистанционного зондирования Земли и продаёт снимки и геоданные правительствам и бизнесу.
• VOYG — Voyager Technologies (бывш. Voyager Space) — компания в сфере обороны и космоса, строит коммерческую космическую станцию Starlab совместно с Airbus, вышла на IPO в июне 2025.

На сдачу закупался стоками Microsoft, они такими низкими давно не были, явно отрастут. И еще несколько компаний, которые специализируется на комплектующих

• RMBS — Rambus — небольшая полупроводниковая компания из Сан-Хосе, разрабатывает чипы интерфейсов памяти DDR5/DDR4 и продаёт лицензии на IP в области безопасности и памяти.
• LRCX — Lam Research — один из крупнейших производителей оборудования для производства полупроводников (машины для травления и осаждения плёнок), без которого не работает ни один чипмейкер — TSMC, Samsung, Micron.
• SNDK — SanDisk — производитель флэш-памяти (NAND) и накопителей, в феврале 2025 выделился в отдельную публичную компанию после отделения от Western Digital и вышел на Nasdaq.
• MU — Micron Technology — один из трёх крупнейших в мире производителей памяти DRAM и NAND (наряду с Samsung и SK Hynix), главный бенефициар роста спроса на память для AI-серверов.


В целом мой портфель с сентября немного в минусе.

Получается с недвижной в минусе, с криптой в минусе, с акциями в минусе. Следующий bet на космос! 🛰🛰
Please open Telegram to view this post
VIEW IN TELEGRAM
🍌14🦄14❤‍🔥52🤷‍♀1
Приходите на неформальную офлайн-встречу с командой R&D

Технологии, нетворкинг и «внутрянка» проектов — всё это ждёт вас на Welcome Time*, который пройдёт 11 апреля в штаб-квартире Яндекса в Москве.

💠 Приглашаем датасаентистов, дата-аналитиков и продуктовых аналитиков с опытом работы на Python** от трёх лет и опытом с LLM/VLM***

В этот раз встречать вас будет команда R&D. Спикеры расскажут, зачем генеративным моделям нужны аналитики, как работают голосовые технологии Алисы и как её делают человечнее.

После докладов для желающих проведём диагностику навыков. Интервьюер подсветит ваши сильные стороны и покажет зоны роста. А хорошие результаты засчитаем как одну техническую секцию при прохождении собеседования в Яндекс.

🔗Подробная программа и регистрация — на сайте: https://yandex.ru/project/events/welcometimes-all
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥51
Montecarlo решило уволить 30 процентов людей. В эпоху до AI это был самый лучший (и дорогой) user friendly инструмент для data quality и data observation. А теперь они стали не нужны. В 2х проектах я занимаюсь тем, что выпиливаю и заменяю их решение за ненадобностью.
👨‍💻12🙈11🍌1
ИИ все глубже встраивается в бизнес-аналитику — и это уже не эксперимент, а рабочий инструмент. По данным свежего исследования, каждый пятый корпоративный пользователь обращается к ИИ-агенту (нейроаналитику) за поиском бизнес-инсайтов.

На практике это выглядит так: 73% пользователей просят ИИ писать формулы, а 50% — объяснять графики. Причем не просто «что нарисовано», а с выявлением аномалий и проверкой гипотез на естественном языке. Это качественный сдвиг — BI перестает быть инструментом только для аналитиков и становится доступным бизнесу напрямую.

Активнее всего ИИ в BI используют ИТ (40%), ритейл (25%), финтех (10%), логистика (5%) и медицина (4%). И причина проста — скорость. Например, в ритейле задержка в обнаружении падения маржи всего на несколько дней может стоить десятки миллионов. ИИ сокращает этот лаг до часов, позволяя делать десятки срезов и находить отклонения почти в реальном времени.
🤷‍♀96💯33❤‍🔥2🍌2🦄1
Один из участников подкаста из Кремниевой Долины All - In со сложным именем записал видео - 30 Years of Business Advice in 13 Minutes (from a Billionaire)

Советы простые и многие очевидные, но мы часто о них забываем.

Про жизнь и цели
Не стройте жизнь как список галочек. Погоня за титулами останавливает, как только «добился». Сильнее — ориентир на постоянный рост, риск и правильное окружение. Успех — это процесс, а не финишная черта.

Практические правила
Избегайте долгов — они заставляют бросить обучение и гнаться за быстрыми деньгами. Будьте честны о своей ситуации — с собой и другими. Общайтесь с теми, кто моложе вас: у них другие модели мышления, и они как радар изменений.

Карьера и деньги
Лестница должностей — ловушка. Директор → VP → партнёр → больше equity может превратить вас в карикатуру на самого себя. Оптимизируйте возможности, а не зарплату. Держите запас ходов. И идите туда, где сгусток возможностей: финансы — Нью-Йорк/Лондон, технологии — Кремниевая долина, крипто — Абу-Даби.

Отношения
Партнёр должен прикрывать вас на 100% — и это работает только при радикальной честности. Называйте и успехи, и проблемы вслух.

Про статус
Списки, клубы, приглашения — крючки. Внешняя валидация даёт другим рычаг над вами. Отказ от игры в статус — это суперсила.

Про соцсети
Кураторские ленты — не реальная жизнь. Онлайн-«успех» вводит в заблуждение о том, как «надо» жить.

Главная мысль
Оставайтесь вечным учеником. Молодые слушатели часто отмахиваются от этого — и усваивают через более жёсткий опыт.
❤‍🔥26🙈322