Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Yandex Cloud приглашает на Data Open Source Day

Это первая конференция от Yandex Cloud про Open Source инструменты для обработки данных и создания корпоративных хранилищ.

В программе Data Open Source Day:

🔹 Реальные бизнес-задачи, которые можно решать с помощью Open Source продуктов.
🔹 Эксперты из OZON, Яндекс, Битрикс24 и других компаний расскажут, как технологии с открытым исходным кодом помогают им в работе.
🔹 Какой вклад команда Yandex Cloud вносит в развитие ClickHouse® и Greenplum® .
🔹 Open Source продукты Яндекса для работы с данными: расскажем про YDB и YTsaurus.

Также вас ждёт доклад Яндекс Игр об опыте использования управляемых сервисов PostgreSQL, Redis, YDB. Рассказ о том, как Open Source помогает науке и при чём здесь озеро Байкал.

🗓 11 июля 2023, в 15:00. Участие бесплатное. Регистрация по ссылке.

#реклама
🍾12🙉5🍌1
Буквально перед конференцией читал статью - Building A Million Dollar Data Analytics Service - идея в том, что можно собирать любые данные, приводить их в порядок и продавать insights. Есть огромное количество стартапов, кто так делает. Одни insights для wildberries чего стоят!

Можно например не только продавать insights, но и "брать" данные у клиента и загружать их к себе облако, и потом тоже, продавать insights.

Теперь Snowflake может делать все сразу, загружаем данные к себе, создаем нативное приложение с помощью streamlit и раздаем доступ всем желающим через snowflake data cloud.

Сегодня был как раз на презентации Real Time Analytics for Marketing with Stremlit. (добавил фотки в коммент), очень классное решение, snowflake использует его у себя внутри, там BI + прогнозирование, и самое главное, можно писать сегменты обратно в хранилище.

Утром еще была мощная дискуссия среди SVP Product Snowflake, VP of applied research at NVIDIA, VP Microsoft Azure AI Platform. Они поговорили о будущем, настоящем и прошлом в области AI. Самое важное из разговора нам необходим grow mindset. Вы сами видите с какой скоростью развиваются технологии. VP Azure буквально посоветовал учиться и развиваться по выходным, вечерам и ночам.

Недавно вышел курс на курсере - Generative AI with Large Language Models на AWS. И уже известные курсы на deeplearning.ai, google generative AI training

PS пока ехал в аэропорт, водитель Uber, мужичок лет 55-60 рассказал, что они с женой переехали в Вегас из Техаса, их основная работа - играть в казино в кости. Они с женой играют каждый день, обычно в день получается около тысячи, иногда больше, иногда меньше. uber он водит от скуки, дети выросли, а жена еще работает ради страховки. В год это 365т US$ без налогов. Он рассказал, что они ходят только в определенные казино, где одинаковые кости, покрытие, размер стола. У них есть своя техника как бросать кости и стратегия игры, они занимаются этим всю жизнь.

То ли мы учим? 🤑

Далее планирую углубится в databricks новинки и сравнить с snowflake. Эти ребята меняют индустрию. Уже видел, что databricks - Introducing English as the New Programming Language for Apache Spark

Из смешного - во время мировой премьеры Microsoft Fabric, text-to-query штука сделала кривой запрос. Пока еще сыровата технология. В этом посте - LLM Is Not Enough (For Self-Service Analytics) автор обсуждает этот вопрос.

Ну и в заключении ждем подобных штуковин от yandex, vk облаков! Я же отслеживают все их тренды через рекламные посты😝
❤‍🔥32🐳4🍌4🦄2🌭1👨‍💻1
Делая всякие внутренние тренинги по Databricks, мне попалась интересная лаба - имитация Databricks/Spark среды с вопросами.

Вот пример:

У вас есть notebook и вы можете кликать на доступные элементы в UI - https://www.databricks.training/spark-ui-simulator/experiment-0000/v003-P/index.html

Для этой лабы есть секция с вопросами - https://www.databricks.training/spark-ui-simulator/experiment-0000/v003-P/lab.html

Вы можете попробовать, много Spark терминологии. Как я понял, это самая базовая лаба. Можно еще полазить тут https://www.databricks.training/spark-ui-simulator/index.html

Из комментария - https://www.dbdemos.ai/ Demos for Databricks.
❤‍🔥23🌭1🍌1
Типы баз данных
🌭36🍌8🦄6💘5❤‍🔥4🐳3🗿3👾3🫡2
Бесплатный тренинг по Generative AI, если пройдете получите бэйдж. Даже если вам не нужно создавать с нуля Generative AI, все равно придется с ними работать рано или поздно. Многие компании бросились изучать данный вопрос и искать варианты применения современных подходов.

Поэтому будет нелишним понимать суть и уметь оперировать простыми решениями на уровне готовых ML блоков, примерно так же, как многие из вас принимают участие в ML решениях при подготовки данных, релизе или просто знают теорию и делали ML после нескольких tutorials. В этом плане databricks очень удобное место, чтобы понять, как применять на практики решения generative AI.

databricks еще купил mosaic AI, чтобы еще больше демократизировать gen ai и развивать open source - Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs

В целом кардинально разный подход между databricks (открытый подход) и snowflake (хотят вас подсадить на "вендорскую иглу").

Хорошо, что я сразу работаю и с тем и с другим. Осталось на проект попасть, где внедряют gen ai решение.
❤‍🔥20
Forwarded from Stanislav Lysikov
Dbt Meetup

Привет. Рады сообщить, что наконец мы набрались сил и докладов на тему DBT и готовы поделиться ими с вами :)
Большое спасибо компании Space307 за классный дизайн и повсеместную поддержку в проведении, благодаря ребятам наш внешний лоск становится красивее, а знания в мире доступнее :)

Митапы пройдут 20 июля в 19:00 (GMT+3) и 27 июля в 19:00 (GMT+3).

Программа 20 июля, 19:00:

1. Оркестрация dbt jobs для Dev, Test, Prod без головной боли
Артемий Козырь, Analytics Engineer at Wheely

2. Modern Data Stack, а стоит ли игра свеч?
Никита Баканчев, ex-Senior Data Engineer at NabuMinds

3.Описание метрик в dbt
Венера Насырова, BI Analyst at Space307

4. CI/CD и оркестрация онпрем когда адаптеров много
Станислав Лысиков, Data Platform Engineer at Space307

Программа 27 июля, 19:00:

1. DataVault в GreenPlum на основе автоматизированного создания dbt-моделей
Дмитрий Тирских, Data Engineer at X5 Digital

2. Любовь и восторг: как мигрировать 40+ DS/PA на dbt
Алмаз, Data Engineer at Picsart

3. Автоматическое создание экспозиций в dbt
Кирилл Романихин, Data Engineer at Space307

4. Автоматизация вокруг dbt (чего не хватает в коробке)
Станислав Лысиков, Data Platform Engineer at Space307

Подробности о докладах и регистрация на митапы по ссылке:
https://cutt.ly/bwi8covj

Важно! На каждый митап нужно регистрироваться отдельно.

Отзывы, предложения и благодарность в сообщество DBT - https://t.me/dbt_users
PS: архив старых митапов доступен на ютубе: https://www.youtube.com/watch?v=AxXv-988B1A, https://www.youtube.com/watch?v=10H45iYaCc8
❤‍🔥37🐳4
🌚10🐳8👨‍💻4🗿2
Для любителей data pipelines.
🐳43👾7🍌2
Всегда думал сколько стоит консультация специалиста из нашей области, нашел хороший прейскурант😂
❤‍🔥27🙈6🌚4🍌3🌭2🍾2
❤‍🔥31🫡8🗿5🐳3🌚3
Forwarded from Reveal the Data
Привет! Меня зовут Саша, я аналитик в медиа-агентстве. Я активно использую в работе и самообучении AI-продукты: ChatGPT, Whisper и DALL·E. Пробовал и другие продукты, но эти показались самыми удачными.

Идея
Я участвовал в конкурсе Yandex Datalens Festival 2022, а недавно Рома разобрал кейс оттуда на вебинаре. Во время просмотра меня осенило: интервью можно расшифровать, а потом суммировать с помощью GPT-4, опираясь на блоки Dashboard Canvas 2.0. А еще попросить подобрать графики и задать дополнительные вопросы.

Инструменты
Для расшифровки аудио использовал Whisper. Его возможности меня сильно впечатлили ещё раньше, при работе с интервью для исследовательского конкурса. Русский язык она транскрибирует очень хорошо: орфографических ошибок почти нет и даже расставляет знаки препинания. А для анализа интервью использовался GPT-4, наверняка, вы уже много про него слышали.

О Dashboard canvas 2.0
Это форма, заполняемая по результатам интервью. Показалось, что можно заполнять её автоматически. Нейросети активно применяются для суммирования информации (тот же YaGPT в Я.Браузере или проект 300.ya.ru). Несмотря на то, что у интервью есть план, в результате получается поток видео/аудио, который еще нужно структурировать и аккуратно проанализировать, то есть из руды получить что-то ценное. И часто это сложнее, чем кажется: нужны уточняющие вопросы в обе стороны, расшифровки обрывков мыслей или даже шуток, держать в голове много составляющих.

GPT-4 заполняет Canvas
GPT-4, настроенный на работу BI-разработчиком с помощью промпта, получил интервью на вход. Блоки Canvas я сформулировал в виде вопросов: кто будет использовать дашборд, для чего он нужен и т. д.

С суммированием информации для блоков GPT-4 справился хорошо, но выжимку нужно делать еще более «сухой», чем получилось в итоге (ниже есть ссылка на полную версию диалога).

Ещё пришлось задавать уточняющие вопросы о KPI и товарных категориях. Я знал, что это важные моменты, так как сам смотрел интервью несколько раз. В этом смысле получилось не совсем то, что я ожидал — хотелось бы, чтобы это был полноценный второй пилот или штурман. Но, думаю, можно дообучить модель или придумать более подходящий промпт.

Графики
Ещё я попросил составить список возможных графиков для выделенных метрик и получил в основном линейные графики, немного столбиков и даже пирог :) Приятно удивило предложение индикаторов. А вот таблицу GPT-4 не предложил, наверное, опасаясь проклятий всех разработчиков дашбордов :)

Хотел бы узнать ваше мнение в комментариях по поводу предложенных графиков. Мое личное мнение: связь с метриками слабая, рекомендации довольно общие, возможно, подходит как источник идей, но не готового решения. После увиденного решения от Ромы я отчетливо понял, какой большой путь лежит между рекомендацией линейного графика и готовым дашбордом.

«Забытые» вопросы
В конце диалога я решил спросить у GPT-4, какие вопросы нужно задать бизнес-заказчику, чтобы подвести итог и внезапно получил дополнительные вопросы. Они релевантны и действительно полезны: о каких KPI мы могли забыть, о качестве и частоте обновления данных, о доступах к дашборду, тренингах и др. Здесь однозначно плюс GPT-4.

Итог
Если правильно настроить нейросеть на анализ интервью и выделение из него главного по заданным ранее правилам, в нашем случае Dashboard Canvas, то можно упростить себе задачу формирования бизнес-потребностей заказчиков.

Хотя GPT-4 хорошо суммирует, он может что-то упускать, все равно приходится надеяться только на себя. Больше пользы видится в автоматизации интервью с помощью нейронных сетей, когда они становятся интервьюером, знают, что спросить и могут адаптироваться по ходу, а после этого способны заполнить какие-либо формы – разумеется, нейронная сеть должна говорить с заказчиком и не просто распознавать его речь, но и анализировать на ходу – эти продукты существуют по отдельности, но думаю, осталось недолго до их появления и полноценного использования в рабочих процессах.

Всем спасибо за внимание! 🔗 Полная версия диалога с GPT-4
💘18🐳11🙈7❤‍🔥6
🌚63😭15🙈14🤷13🙉8🌭4❤‍🔥3
Manager Amazon.pdf
3.4 MB
27 страниц - записки курса для менеджеров в Амазоне
🐳23🫡15❤‍🔥4👾2
Почти 5 лет я прожил на острове Ванкувер в столице Британской Колумбии - Виктории. Попалась презентация, которую я давно делал для коллег из Seattle, если интересно узнать больше про этот небольшой город, you are welcome.
❤‍🔥37💘2
Forwarded from Рома держит в курсе
В гугле показали зависимость продуктивности инженеров от времени "билда", или проще говоря от "вынужденного временного простоя исполнителя"

Если мы принимаем что продуктивность в т.ч. зависит от того насколько часто инженер отвлекается от своего основного стрима работы и идет заниматься чем-то другим (потому что ждёт пока все сбилдится), то исследование показывает, что даже легкое сокращение времени, которое требуется для сборки кода, улучшает продуктивность.

Со своей стороны я могу вспомнить map-reduce YT (Ыть) использовавшийся нами для аналитики в Яндексе, и как медленно он исполнял sql. Работать без прерывания было невозможно. Постоянно появлялись "вынужденные" остановки на сделать кофе или поболтать с ребятами/потупить в ленту.

У меня есть подозрение что "билд кода" можно заменить вообще на любой процесс, который не требует вовлечения, но занимает время, достаточное для того, чтобы исполнитель плюнул, прервал свой поток работы и переключился на что то другое, не всегда продуктивное
❤‍🔥49🐳7🌚1
Аналитика хорошо, а предиктивная аналитика — вдвое лучше. Это доказывает Авито: благодаря качественным прогнозам эффективность их рекламы выросла на 22%, стоимость привлечения снизилась на 12%, а новых пользователей в тестовых кампаниях было 60%.

Как этого добились? Тщательно анализируя клиентов, их поведение и путь к целевому событию. Чтобы построить прогноз на 90 дней, пользователей поделили на группы, определили ценность контакта, выбрали события и фичи, которые нужно предсказать, и сделали большую аналитическую работу.

Кампании с предиктивными моделями нужны в нескольких случаях. Если у вас долгие циклы продаж, у товаров в продукте циклы разной длины или продукт предназначен не для разовой покупки, а для длительного использования. Если это про ваш бизнес — открывайте кейс, там исполняющая обязанности тимлида в аналитике маркетинга Авито Ирина Гутман очень подробно объясняется каждый шаг на пути к успеху.
❤‍🔥14🎄1
Как это знакомо! Реально "build inhouse" это худшее, что может со мной случится, но есть много 🥸 кто обожает кодить какую-нибудь штуку😜
🌚21🙈9🤷‍♂4🐳2🦄1
#weeklydatanewsdump

Начну сначала с подписок за неделю, расскажу о чем пишут tech инфлюенсеры

The Pragmatic Engineer (посты короткие и по делу)
Interesting Learnings from Outages - автор рассказывает про несколько крупных инцидентов. Вы узнаете, что такое incident review и postmortem. Довольно редко такое можно встретить среди аналитических решений, но для SDE решений это стандарт

Building an an Early Stage Startup: Lessons from Akita Software - небольшой интервью с основателем Akita, которую купил Postman.

Seattle Data Guy (несмотря на его популярность, как-то он мне совсем не заходит, и ничего прорывного не пишет, но популярен)
Operational Data Stores Vs Data Lakehouses And All The Other Data Management Methods - узнаете что такое Data Warehouse, Data Lake, Data Mesh, ODS и тп. Ну как узнаете? Если вы знаете, что это такое, то будет понятно, а если нет, то ничего не поймете😄

Getting Unstuck In Your Data Career - идеи про развитие карьеры. Пару банальных и важны вещей - горизонтальные рост (набор дополнительных скилов для вашей профессии), Business Domain (понимание бизнеса). Последнее я считаю очень важных. Ну про soft skills и так все понятно, нельзя быть таким же токсичным на работе, как в комментариях в телеге😭

MongoDB Is Great For Analytics; Until It's Not - для кого-то очевидно, что "Excel это не база данных" (с), и что NoSQL MongoDB нельзя использовать как аналитическое хранилище данных. А для кого-то нет, вот и разгребают потом 💩

Zach Wilson (чувак начал продавать курсы, и много пишет, у него свой стиль, и многие подходы из его опыта дельные, но мне кажется из-за собаки хаски у него + 100 к лайкам и решерам🐶)

How I got a data engineering job at Facebook coming from a small town and tier 3 university - начало большого пути

How I transitioned from mid-level data engineer at Facebook/Meta to senior software engineer at Netflix in less than 1 year - у народа в долине свои течения, успехи и огромные зарплаты. История автор

Data & Data Engineering — the past, present, and future - история аналитики, начиная c Римской Империи.🛵

The Datelist Int - An Efficient Data Structure for User Growth - структура позволяющая конвертнуть множество строк в одну строчку с массивом.

Cumulative Table Design - is an extremely powerful data engineering tool that all data engineers should know. ( я не использовал такую штуку, возможно для конкретных кейсов будет работать)

А теперь к другим новостям:

Streaming Analytics with Tableau and Databricks - real time дашборд это реальность или утопия? Я не сомневаюсь, что databricks может "лить" данные в таблицу нон-стоп. А вот может ли табло отрисовывать данные (обновлять) или не может, не понятно.

21 Great ChatGPT Prompts for Your Resume

PayPal for Data Contract - сейчас много разговоров о контрактах данных, и вот pay pal предложил свой подход. A data contract defines the agreement between a data producer and consumer.

Snowflake SQL Improvements | Summit 2023 - много классных обновлений для SQL в ❄️
👨‍💻25❤‍🔥18
Хорошая идея визуализировать необходимость скилов для аналитических профессий, но исполнение плохое.

У уверен, что есть и лучше варианты исполнения описание и визуализации ролей.Даже я делал в 1м модуле datalearn "на коленке".

Если что попадалось, присылайте в комментарии.
❤‍🔥34🐳4🙈2
Forwarded from Книжный куб (Alexander Polomodov)
Data Pipelines Pocket Reference

Прочитал по дороге из Новосибирска в Москву простую книгу про построение конвейеров данных для дата инженеров. Я высоко оценил краткость и практичность книги, а также то, что James Densmore, автор книги, имеет большой практический опыт построения дата инфраструктуры, что и делал в HubSpot. В итоге, я написал краткий обзор этой книги в своем блоге.

#Data #Databases #Engineering #SoftwareArchitecture #Software #SoftwareDevelopment #Management
❤‍🔥39🦄3🍾2😭1