Dataism
3.63K subscribers
242 photos
49 videos
10 files
126 links
Бот для подготовки к IT-собесам @DataismPrepBot 📲
Недушный канал про аналитику, карьеру в IT и немного португальского лайфстайла.
Полезно аналитикам, дата-сатанистам и продактам.

По вопросам рекламы писать в лс канала
Download Telegram
Как построить data lineage. Обзор решений и опыт команды Тинькофф.
Принесла немного DE-шного материала, посмотрела доклад с конфы Smart Data 2022.

Что такое lineage?
Если кратко, то lineage - это информация, которая описывает движение данных от источника происхождения по точкам обработки и применения.

Где применяется lineage?
- поиск источников: отслеживание зависимостей, поиск узких мест, анализ первопричин аномалий и тд
- анализ влияния: анализ первопричин аномалий, change management, инф.безопасность, комплаенс и тд

Какие есть подходы к построению lineage?
1. 😖Вручную
Сидит разраб и ручками прокидывает стрелочки между элементами, то есть явное указание зависимостей
Плюсы: простота реализации, поддержка множеством etl инструментов
Минусы: как протянуто поле от начала до конца не увидишь, дорогостоящая разработка, так как все связи должен знать разраб, много всего в голове должно держаться.
Кто использует: Pentaho DI, SSIS (рис. 1)

2. 👩‍💻Полуавтоматический вариант по метаданным
Сидит разраб и ручками заполняет метаданные трансформаций
Плюсы: возможен column-column lineage (то есть видим как поле протягивается от начала до конца), граф выполнения исходя из зависимостей
Минусы: метаданные могут не соответствовать реальности из-за косяков со стороны разраба, сложность в описании явных зависимостей
Кто использует: Informatica (рис. 2), SAS

3. 🤩Автоматически (метаданные извлекаются из кода)
Плюсы: не требует доп.действий, всегд актуальное состояние
Минусы: ограниченное количество инструментов, различия в синтаксисах
Кто использует: dbt(table-table only) (рис. 3), atlan

Нюанс: dbt ничего не знает про семантику, его lineage можно сломать комментом c ref и получим неправильные зависимости.😜

Команда разработчиков в Тинькофф пошла дальше и решила запилить свой собственный инструмент под названием TEDI.
Им потребовалось около 2 лет и 11 человек в команде, чтобы сделать версию под Greenplam.

#трудовыебудни
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Могла бы сейчас онлайн шопиться, но у Остина я вызываю сомнения. 😔
Пришлось достать чтиво в виде DAMA-DMBOK.

Кстати, с ужасом осознала, что когда стрессую, то начинаю заедать вкусняшками или мониторить маркетплейсы.
А я-то все думала, что я не такая, я жду трамвая…

А как вы справляетесь со стрессом или просто плохим настроением?

P.s. На главную переходила, не работает
Please open Telegram to view this post
VIEW IN TELEGRAM
😁3
У меня тотальные проблемы с чтением.

Я плохо переношу художественную литературу, моему центру удовольствия довольно трудно угодить. Кажется, последнее, что я читала уже после школы был И.Ефремов «Туманность Андромеды».

Зато мне нравится читать что-то связанное с историей или профессиональную литературу.
Есть правда нюанс: как-то мало времени получается на это выделять. Мне нужен какой-то стимул.

В итоге вспомнила, что вообще-то есть канал и решила, что буду читать и делать конспекты с главными тезисами и делиться ими с вами.

Закоммичусь на чтение 4х книг:

🤓 DAMA-DMBOK - свод правил по управлению данными. Настольная книга серьезных дата-людей.
🤓Lean Analytics – своего рода путеводитель по созданию стартапа. Книга рассказывает о том, как аналитика может помочь в развитии собственного бизнеса. Фактически Lean Analytics продолжает идею так называемого «бережливого стартапа», которая берет начало в книге (The Lean Startup Эрика Риса.
🤓 Mastering Leadership - что-то часто стала мелькать эта книга в постах LinkedIn. По идее книга для CEO и руководителей высшего звена, но думаю, что для общего развития будет полезна всем.
🤓 Storytelling with data - ну куда уж без этого. Название говорит само за себя.

А что вы читаете? Что у вас в списке?

#книги
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍1
DAMA-DMBOK.pdf
392.3 KB
Что ж, выкатываю первые 2 главы DAMA-DMBOK.

Вычитала интересный вариант неэтичного использования данных:
«Статистическое сглаживание» показателей за отчетный период способно кардинально изменить восприятие чисел. Недавно появившийся термин «data mining snooping» (в буквальном переводе — «добыча данных с отслеживанием», однако в русскоязычных источниках чаще всего используется термин «слепое прочесывание данных») описывает новомодную тенденцию в статистико-аналитических исследованиях больших массивов неупорядоченных данных. В рамках этого подхода на массив данных накладываются исчерпывающие корреляционные связи, то есть данные принудительно втискиваются в рамки некой статистической модели, после чего из массива вытягивается выборка, дающая формально «статистически значимые» результаты, которые в реальности являются чисто случайными и не выходят за пределы статистической ошибки в рамках совокупности исходных данных. Неспециалисты этим приемом вводятся в заблуждение с легкостью. Этот трюк сегодня наиболее распространен в финансах и медицине.


https://tylervigen.com/spurious-correlations - интересный сайт, где показаны забавные «совпадения» выборок случайных величин.
К примеру, вы можете увидеть график, где возраст «Мисс Америка» разных лет удивительным образом коррелирует с графиком количества смертей из-за пара и\или разного рода горячих объектов.

#книги
🔥31
👨‍💻Бот для подготовки к IT-собеседованиям
@DataismPrepBot

В базе уже 600+ реальных вопросов с собеседований (с ответами!)
Теперь готовиться к интервью стало намного проще.

Какие есть специальности:
Data analyst
Data Scientist
Data Engineer
Python Developer
Go Developer
System Analyst

Какие фичи в боте:
Возможность отслеживания статистики
Добавление вопросов в Избранное
Ссылки на доп.материалы для изучения
Экспресс-скрининг знаний

Бесплатно, без регистраций и смс 🤩

#поискработы
#бот
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥2
Как выглядит работа аналитика данных в РЕАЛЬНОСТИ

👨‍💻 Часто просят рассказать более детально суть работы аналитиком.
Сидела я вечером и думала, как же жизненно это описать. В итоге родилось это.

Кидайте в комменты свои варианты (и про свою профессию, не только аналитики).

А еще напоминаю, что есть милый бот для подготовки к собеседованиям @DataismPrepBot
250+ вопросов с ответами ждут :)
Без регистраций, смс и бесплатно

#трудовыебудни
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20
- Вы проводите деструктивное* тестирование системы?
- Мы - нет, система - да. Самотестируется практически каждый день.

*Деструктивное тестирование — это метод тестирования программного обеспечения, позволяющий найти точки сбоя в программе.

#подслушано_it
#поискработы
3
This media is not supported in your browser
VIEW IN TELEGRAM
Забавный кусочек из интервью CTO OpenAI Миры Мурати по поводу Sora.
Напомнило защиту диплома в Бауманке.

Ну, конечно, смешно слышать от CTO, что он не в курсе деталей, камон.
Так и скажи: «юристы не подготовили норм ответы на ваши вопросы»

#мемы
4👍2🔥1
С утра поглазела на Тимошку и Зендею. Мощная музыка, потрясающий визуальный ряд как всегда.
Фильм понравился, а вот мое решение выбрать сеанс в 10 утра - нет.🫠
Please open Telegram to view this post
VIEW IN TELEGRAM
7
👩‍💻👩‍💻👩‍💻Парадокс Симпсона

На собеседованиях все так же продолжают спрашивать задачки в следующем стиле:

Весь ассортимент на сайте можно разбить на две категории. Конверсия из просмотра в заказ месяц к месяцу снизилась на тотале, но выросла в каждой категории отдельно. Может ли такое быть? Почему?
Все игроки разбиты на сегменты. Метрика по каждому сегменту выросла, а в общем по всем игрокам упала, может ли быть такое? И если может, то в каком случае?

(и в боте @DataismPrepBot, кстати, тоже есть похожий вопрос)

Все это про парадокс Симпсона или «парадокс объединения».
Парадокс Симпсона — контринтуитивное явление в статистике, когда мы видим в каждой из групп данных определенную зависимость, но при объединении этих групп зависимость исчезает или становится противоположной. Это явление было описано Эдвардом Симпсоном в 1951 году и Удни Юлом в 1903 году.
На рисунке как раз представлена ситуация, когда первичный вывод может быть обманчивым.
Общая конверсия падает при сравнении двух месяцев, но если посмотрим конверсию на отдельных сегментах, то увидим, что вообще-то метрика имеет положительную тенденцию.

#трудовыебудни
#поискработы
Please open Telegram to view this post
VIEW IN TELEGRAM
1
7
⌛️ Идеальный тайм-менеджмент - это поработать, провести созвоны и успеть залететь на конференцию Яндекса «Union All».

Я, к сожалению, не все доклады успела послушать, но даже в 3х услышанных лейтмотивом идет боль по импортозамещению.
Особенно запомнились ребята из British American Tobacco: в 2021 году определили основной путь развития, а в 22 году резко пришлось переобуться скорректировать курс.

#трудовыебудни
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥91