Инжиниринг Данных
20.6K subscribers
1.55K photos
31 videos
175 files
2.83K links
Делюсь новостями из мира аналитики и вредными карьерными советами;)

8 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄‍♂️

Контакты и реклама: @dimoobraznii (сам не предлагаю купить рекламу или взаимопиар за деньги).
Download Telegram
Я сейчас как раз смотрю его видосы по Airflow. Очень хорошо рассказывает, а тут он добавил новый курс про Airbyte.

Идеально для open-source и современного стека. Обязательно начну и добавлю идеи в проекты Surfalytics.

Airbyte это набор коннекторов, чтобы загрузить данные в хранилище данных и потом можно с dbt уже трансформировать данные.

Короче, это топ! Да еще бесплатно. Вот он афигеет, сколько народу сейчас придет на купон))

https://www.udemy.com/course/the-complete-hands-on-introduction-to-airbyte/?couponCode=EARLYBIRD
💻 Yandex Cloud выпустила большое обновление платформы для работы с данными

Облачная платформа запустила сервис для управления метаданными Yandex MetaData Hub, повысила безопасность баз данных, а инструмент BI-аналитики Yandex DataLens получил новые возможности. Всё это позволит компаниям быстро и надёжно создавать дата-проекты в облаке — от корпоративных хранилищ данных до аналитических и рекомендательных систем.

💬 Больше об обновлениях платформы данных читайте в статье.
Please open Telegram to view this post
VIEW IN TELEGRAM
Легким движением руки брюки превращаются хранилище данных превращается в GenAI платформу, с помощью который вы можете реализовать AI стратегию и заработать потратить много бабла🤦‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
https://www.layoffmemos.com/ решил собрать письма CEO про увольнения, чтобы не забывать своем место в корпорации. Точнее, я то знаю, но много еще наивных людей, и я всем в Surfalytics присылаю на ознакомление. Как и Surfalytics.com, сайт сделала Lala

PS есть еще компании и письма, кидайте в комментарии
Яндекс выкатил YandexGPT 3 Pro, это первая языковая модель из большой линейки нейросетей третьего поколения.

Что известно: в дальнейшем моделей станет больше, каждая будет ориентирована на решение задач определённого типа.

Благодаря обновлению YandexGPT 3 Pro лучше понимает контекст беседы и более естественно ведёт диалог с пользователем. Теперь она допускает меньше стилистических и фактических ошибок, а еще умеет обрабатывать существенно больше запросов за единицу времени.

Для бизнеса стоимость использования нейросети снизилась почти в два раза. Заказчики смогут самостоятельно дообучить YandexGPT 3 Pro в сервисе ML-разработки Yandex DataSphere для того, чтобы она ещё лучше соответствовала потребностям конкретного бизнеса. А потом внедрить технологию в свои продукты через API.
Интересный анализ от Financial Times про возраст для первого ребенка. В возрасте 34 года у женщин 0 детей.

Когда в 2016 году мы переехали в Канаду я сразу обратил внимание на коллег за 30 у кого нет в планах детей, и коллеги за 35 планируют первого ребенка. Частые поездки в Сиэтл лишь подтвердили тренд, в которым отдают предпочтение собакам вместо детей. (Собак я тоже люблю, больше чем кошек, если что☺️), дискуссию лишь про детей. И это все было еще до лгбт+ маркетинга.

Причины были банальны. Чтобы иметь детей, один из родителей должен не работать и желательно уже иметь ипотеку. Но чтобы это позволить, нужно выплатить кредит за образование и найти хорошую работу. Родители как правило выгоняют детей после 18 и дети уже не ожидают помощи от родителей и сами решают свои финансовые проблемы и растят детей, если конечно к 40 годам созреют.

Это лишь мое наблюдение за 9 дет в Канаде и США. Как в России мне понятно, и я там уже отношусь к многодетной семье с 3мя детьми.

В Канаде и США все наоборот, дети это очень дорого, возможно поэтому многие ограничиваются собаками и кошками.

Как там дела в Европе, в Штатах, Канаде и других странах?

PS мой совет всегда простой - взять ипотеку, завести детей и дальше уже как-нибудь все сложится:)
Please open Telegram to view this post
VIEW IN TELEGRAM
Что мы знаем про продуктовых аналитиков в Авито?

— Быстро растут и развиваются внутри компании;
— Многое автоматизируют, обучают модели и прогнозируют;
— Постоянно запускают эксперименты, строят фреймворки и математические модели;
— Каждый работает в своей продуктовой команде, но не теряет связь с аналитиками из других направлений.

Хочешь также?
Подавай заявку на Weekend Offer до 4 апреля, приходи интервью и получай оффер!
🚀
Анонс Вебинара: "Разработка data приложений на DuckDB"🚀

Давненько не было.... уверен ждали)))

📅 Дата вебинара 4 апреля в 7 вечера по мск

🎙Спикер - Роман Зыков.
Очень крутой спец, который уже дважды выступал у нас 🎙

🔗 Ссылка на вебинар:
https://youtube.com/live/biyPV-4glN4?feature=share

Мы всегда ищем способы сделать инженерию данных проще и удобнее. Роман Зыков создал полностью рабочую систему, которой хочет поделиться с вами!
При этом он отказался от использования знакомых инструментов.

🔍 Что мы обсудим на вебинаре:

🔸Почему выбрал DuckDB для разработки data приложений, отказавшись от привычных инструментов.
🔸Как построил полностью рабочую систему с базой данных, dbt, и оркестратором для ежедневного обновления данных без использования облачных сервисов.
🔸Живые примеры и исходные коды проекта.
🔸Управление данными с помощью DBT и Prefect.io.

👨‍💻 Приходите на вебинар, если вы хотите:
• Узнать, как использовать DuckDB для создания эффективных data приложений.
• Познакомиться с бесплатными инструментами для инжиниринга данных.
• Вдохновиться реальным проектом и увидеть, как можно управлять данными без облаков.


#datalearn #вебинар
Please open Telegram to view this post
VIEW IN TELEGRAM
Обновление платформы YTsaurus

В новой версии YTsaurus Server 23.2.0 оптимизировали подсистему обработки данных, добавили OAuth‑аутентификацию и расширили возможности языка запросов динамических таблиц. Плюсом — еще несколько обновлений других частей платформы.

Подробности — в блоге.
Дашборд должен быть всегда простой, еще бы неплохо, чтобы был понятный.

Заметил интересный момент, пока BI люди трудятся над дашбордами, выбирают цвет, шрифт, толщину линии, ребята из devops, platform и тп используют инструменты для observation (мониторинга), чтобы быстро своять дашборд, который будет простой и понятный. Не изобретают велосипед с типом графика и цветовой палитрой в цвет того компании.

Как вообще обстоят дела с визуализацией? Тема как-то ушла на зданий план в последнее время. Ни новый промывных фич, ни супер-пупер best practices. Поделитесь в комментариях.
Оффер за 2 дня — легко!

🙂 Регистрируйся на Weekend Offer Лиги Ставок для продуктовых аналитиков.

20 и 21 апреля мы проведем технические собеседования и познакомимся с командами. Все этапы будут проходить в zoom. Основная часть — в субботу, а знакомство с продактами — в воскресенье. Если случится метч, ты получишь оффер до конца дня!

Как у нас все устроено? Переходи по ссылке 😍

Мы ждем тебя в команде!
Please open Telegram to view this post
VIEW IN TELEGRAM
Хорошая статья про партиции - Iceberg Partitioning and Performance Optimizations in Trino. В данном случае на примере Trino. И заодно сравнение Hive (традиционный подход для Spark, Trino и других инструментов озера данных) и Iceberg (популярный формат данных для lakehouse).

Я сам в послденее время глубоко в оптимизации Trino, который живет на GCP Kubernetes. И пока набиваю шишки связанные с OUT OF MEMORY (OOM) ошибками. Вообще решение очень удобное, особенно для стартапов.
Каждый год VC FirstMark публикует список инструментов для работы с данными из разных категорий.

Каждый год список растет.

Из интересного в отчете они написали, что хайп на Modern Data Stack (то есть решения для традиционной аналитики BigData, Data Engineering, BI и тп) прошел, и все сейчас делают AI. Что в общем-то очевидно.

Вопрос, что делать? Тема уже на раз обсуждалось, и как обычно ответ простой - надо быть ближе к “деньгами”, то есть приносить ценность организации, клиентам, коллегам, учиться (grow mindset) и особенно искать точки соприкосновения между BI/Data Engineering и GenAI и смотреть куда все движется.

На вопрос, что сейчас делают компании с GenAI у меня есть ответ, сам уже видел в нескольких больших S&P500 компаниях - фокус на эффективность, автоматизацию, повышения качества и безопасности. Пока еще на стадии PoC.

Конкретно для инженеров пока ограничивается использованием Co-Pilot как помошником и повышения эффективности.

Еще несколько лет мы точно будем не заменимы🚣 (не претендую на экспертное мнение, если чЕ🍟)

А как вам кажется?

https://mattturck.com/mad2024/
Please open Telegram to view this post
VIEW IN TELEGRAM
Изучил вопрос вакансий и недвижимости в Швейцарии https://youtu.be/5pGVEnCLxLk.

Кто-то собирает ложки и рюмки из разных стран, а я теперь пробую сидр 🍺 и заодно изучаю рынок страны, откуда сидр привезли. Друзья привезли из Швейцарии сидр Moehl, и я изучил рынок. Еще оказалось, что товарищ оттуда написал мне и рассказал про свои доходы и расходы.

Вот как обычно мои заметки:

🏡По стране:
Весь движ в Женеве и Цюрихе, причем в Женеве на английском гораздо больше вакансий 🌍.
Судя по вакансиям и количеству заявлений, у них там голод по дата-инженерам 👨‍💻.
Работа в основном офисная или гибридная.
Мало вакансий на позиции Senior.
Ипотека 2,5%, но, похоже, там никто не покупает, и все предпочитают аренду 🏠.
Налоги ниже, чем в Канаде и США 💰.
Много контрактных вакансий 📄.

🛠По технологиям:
Очень много Microsoft и on-premise решений 💻.
Есть много современных вакансий с облачными технологиями, Databricks, BigQuery .
Обязательно знание DevOps для инженера данных .
Power BI доминирует.

🏦По зарплате:
Очень мало вакансий с указанием зарплатной вилки.
Из того, что есть - 120к-140к франков, и судя по местному калькулятору, это 7-8т на руки (но это не Senior позиции).

От товарища информация:
Контракт на 100+ франков в час.
13т франков в месяц, по калькулятору налогов это в год больше 230т франков, что считается высокой зарплатой.
Аренда 2500 франков.
Страховка 700 франков на человека.

PS как обычно любая иммиграция связана с двумя основными вещами.

Первая очень простая - это скилы, которые можно выучить и подтянуть.

Скилы важны трех типов (которые я закрываю в Surfalytics:
1. Технические - инструменты, подходы (hard skills)
2. Коммуникация и коллаборация с коллегами (soft skills)
3. Навык прохождения собеседования (story telling😃)

А вот второй момент уже не простой - получение рабочей визы и легализация. Тут все зависит от страны и надо общаться с теми, кто уже прошел процесс.
Yandex Cloud запустила программу сертификации для специалистов по облачным технологиям. Сертификат Yandex Cloud Certified Engineer Associate подтверждает знания и навыки в шести областях: базовые облачные технологии, хранение и обработка данных, DevOps и автоматизация, бессерверные вычисления, информационная безопасность и биллинг. Онлайн-тестирование состоит из 65 вопросов. Для получения сертификата нужно набрать 70% или более правильных ответов. Экзамен соответствует международным стандартам и проводится с применением ИИ для прокторинга.

Первый экзамен пройдет 11 апреля – записаться можно по ссылке.
How Apache Spark performs a fast count using the parquet metadata - хорошая статья для дата инженера.

Ведь, не всегда нужно прочитать полностью весь датасет, что может быть дорого, но можно использовать метанные, как например, в этой статье.
Больше конверсий для рекламодателей — больше доход издателей

В Yandex Mobile Ads SDK 7 появились новые возможности для монетизации приложений. Во-первых, тестируется новый рекламный формат «Лента» — это десятки объявлений в одном месте. Пока формат доступен в бета-режиме для приложений на Android.

Во-вторых, для полноэкранных форматов добавили новые механики:

🔸 AdPod — показ нескольких объявлений в одном рекламном месте.
🔸 EndCard — интерактивный экран-пэкшот в конце объявления.
🔸 SKOverlay (для iOS) — рекламируемое приложение можно установить прямо из объявления.

Для Android добавили дебаг панель, это будет полезно для отладки рекламы в приложении.