Инжиниринг Данных
23.6K subscribers
2.02K photos
57 videos
193 files
3.23K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
И в подтверждение всего вышесказанного расскажу, что мне удалось сделать вчера. На базе Surfalytics я могу экспериментировать, и у меня были в команде UX/UI-дизайнеры, SDE, маркетинговые эксперты, reels-мейкеры и т.п. У каждого была возможность за мой счёт реализовать их же идеи 🍪🍪

Остановлюсь на примере SDE, а именно — разработке backend/frontend. Мы решили мигрировать с GitHub Pages и Zapier на Netlify (хостинг) и Supabase (бэк). Идея была простая — добавить личный кабинет и в нём сделать roadmap и множество других фич.
Supabase оказался очень крутым продуктом — по сути это Postgres и множество фич: аутентификация, возможность запускать функции (как AWS Lambda) и т.п. Можно создавать новые таблицы и трекать разные активности.

Товарищ смог справиться с миграцией as is, но дальше пока у нас не очень хорошо шло. Я решил поэкспериментировать. С помощью Claude Code я запустил сайт локально с подключением к Supabase prod и начал добавлять фичи и менять структуру Supabase и страницы сайта. У меня не было много времени, но я прифигел от результата. Даже мой SDE офигел от результата и попросил его научить.

Я смог добавить визуализацию как у GitHub, которая показывает вашу активность. Пока это только логины в кабинет, но потом я смогу подключить активность в Discord.
Но самое крутое — это как AI начал решать задачу вместе со мной для создания Roadmap. Мне нужно было сделать конфигуратор задач с описанием и возможностью сохранять результат в Supabase БД, и он справился.

Я добавил несколько скринов.

Параллельно с этим локально я развернул Airflow 3.1, чтобы выгрузить всю историю сообщений из Discord с 2023 года — там самый сок. Я знал про DuckLake, но не использовал. Ну как я? Claude Code постарался, учит меня родной.

Я сделал себе DuckLake:
• сторадж в S3 (копейки)
• каталог в Neon Postgres (бесплатно)

Я ещё экспериментировал с Open Source BI — долго пытался завести Evidence, но не сработало, переключился на Cube.js.

Далее я подвяжу мой DuckLake на бэк и смогу обновить график активности. И сделать AI-интеграцию:
• на базе всех сообщений сделать RAG и подвязать его к боту, который будет помогать в Discord и отвечать на базе прошлых сообщений
• автоматически создавать Weekly Newsletter на базе переписок и статей, которые мы шарим (делать выжимку из статей)

То есть задача — максимально мотивировать участников сообщества, чтобы не ленились и не расслаблялись. В целом наличие всего это никак не влияет на успех сообщества, но хочется реализовать свои идеи.

И всё это возможно благодаря AI-разработке, где мне лишь достаточно иметь намерение.

#aidev
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥2714💯1
Запись вебинара про Tengri от Николая.

Вебинар представляет Tengri Data Platform — корпоративную аналитическую платформу класса LakeHouse от Николая Голова, который ранее проектировал решения на Snowflake и Databricks.

Суть платформы: Tengri объединяет загрузку, хранение, трансформацию, аналитику и визуализацию данных в одном месте. Из коробки доступны SQL, Python и AI-агенты. Архитектура построена на разделении вычислений и хранения (Compute & Storage), используется формат Iceberg поверх S3-совместимых хранилищ (MinIO, Ceph, AWS, Yandex, VK) с поддержкой ACID-транзакций.

Проблема, которую решает: компании вынуждены собирать «зоопарк» из ETL, BI, ML-инструментов, а облачные платформы вроде Snowflake имеют ограничения — привязка к облаку, стоимость, невозможность держать данные у себя. Tengri — это альтернатива, которую можно развернуть on-prem, в облаке или гибридно, от одного сервера до кластера.
Отличия от конкурентов: в отличие от ClickHouse, Greenplum, Trino+Spark и классических DWH, Tengri — это единая платформа, а не отдельный компонент. Не нужно искать редких специалистов, минимальное администрирование, встроенные RBAC, аудит и контроль доступа.

AI-агенты встроены в платформу и помогают аналитикам и бизнесу автоматизировать работу с данными.
Целевая аудитория: те, кто ищет замену Snowflake/Databricks, хочет держать данные на своей инфраструктуре, строит LakeHouse или устал от сложной интеграции множества инструментов.



https://youtu.be/B377-Dvn_xc?si=gAKy2PPQFXufLY-p
❤‍🔥126
Ну вы поняли ;)

#aidev
💯21🌚1221🐳1
Как же круто Opus 4.6 в исполнение Claude Code при поддержки dbt и MCP делает сравнение и проверки. Да еще, сам предложит улучшения.

Раньше делали всякие кривые data diff и тп инструменты, а теперь просто просим сравнить Prod и измененный Dev.

Если надо и док сгенерит и письмо напишет с объяснениями.

Но как все замечают с AI вы работаете намного больше, вы просто не можете остановиться, ведь все ваши идеи и задачи превращаются в реальный результат.

#aidev
1❤‍🔥17🙈12💯65
На OpenClaw я не решился из-за безопасности и решил по старинке N8N.

Теперь-то можно все на outsource отдавать агентам.

Как в песне - Не могу остановиться.

#aidev
❤‍🔥6👨‍💻4
Очень классная презентация про миграция с Fivetran на Airbyte и потом на dlt.

У меня есть один Fivetran и он дороже Snowflake, вот думаю с AI я смогу его на easy эмигрировать. Как у вас опыт с dlt и Airbyte?

Claude слайды прям в сердечко=)

https://docs.google.com/presentation/d/e/2PACX-1vQvJapgEkJxgpsWqoMlmEw-ctV3gZe0LLc5oZBHaJNezBGAYKYoyir1aQi-37tO37SjFGaYjmQJhi_r/pub?start=false&loop=false&delayms=3000&slide=id.g175a817e68e_3_932
💯1
А вот мой Fivetran - 20 аквтиных подключений и пример Snowflake (январь 2026), который еще не только обрабатывает Fivetran 20 источников, а еще есть Azure Data Factory и там очень много данных из Azure SQL и CosmosDB.

Это лишь один из Fivetran и Snowflake, просто тут я знаю всю от и до.

Перекинуть все на dlt или даже написать Python можно, но это время и никак не повлияет на меня.

Главное преимущество Fivetran - это сервис. Он сам все делает, я вообще туда не захожу.

С Airbyte и Meltano OS я работал, это было вечное ковыряние в коде и куча багов (еще до AI мира).
Вчера еще была статья в комментах про то, как команда выкинула нафиг весь код и open source и людей, которые писали этот корявый код (и не важно с AI или без).

https://medium.com/@reliabledataengineering/dbt-databricks-the-combo-that-cut-our-data-team-from-12-to-5-engineers-be97e83fa7cb

Очень интересный сценарий, на заметку боссам и CDO. Но в РФ реалиях это не работает.

Я кстати вспомнил, что в прошлом году общался с VK и там была позиция на Max типа CTO/CDO платформы, но надо было закрыть ее в декабре.

Вообще место хорошее, ведь этот человек может реально попробовать повлиять на качество сервиса и пилить самую современную дата платформу и заодно модернизировать VK Cloud и развивать их любимый Lakehouse + Iceberg. Думаю так все ок с бюджетами.

Но я бы хотел смотреть в сторону managed DuckLake или пилить аналог Databricks (Compute + Notebooks + Data ingesting + ML + pipelines) и все это с интерфейсом в YML.
This media is not supported in your browser
VIEW IN TELEGRAM
33❤‍🔥12🫡11💯7🙈1
Заметил как народ сейчас начал активно впаривать курсы по Claude Code и AI разработке за дорого и решил сделать бесплатный курс и добавил на dataengineer.ru - Claude Code 101

Так как проект dataengineer.ru сидит в GitHub repo, то он полностью открыт и можно вносить изменения в курс всем желающим.

Курс получился простой и легкий. Последняя глава про возможность использовать Claude Code с бесплатными моделями. Я сам так не делал, но поискал информацию про это.

#aidev
14❤‍🔥12022🫡1