Как построить data lineage. Обзор решений и опыт команды Тинькофф.
Принесла немного DE-шного материала, посмотрела доклад с конфы Smart Data 2022.
Что такое lineage?
Если кратко, то lineage - это информация, которая описывает движение данных от источника происхождения по точкам обработки и применения.
Где применяется lineage?
- поиск источников: отслеживание зависимостей, поиск узких мест, анализ первопричин аномалий и тд
- анализ влияния: анализ первопричин аномалий, change management, инф.безопасность, комплаенс и тд
Какие есть подходы к построению lineage?
1.😖 Вручную
Сидит разраб и ручками прокидывает стрелочки между элементами, то есть явное указание зависимостей
Плюсы: простота реализации, поддержка множеством etl инструментов
Минусы: как протянуто поле от начала до конца не увидишь, дорогостоящая разработка, так как все связи должен знать разраб, много всего в голове должно держаться.
Кто использует: Pentaho DI, SSIS (рис. 1)
2.👩💻 Полуавтоматический вариант по метаданным
Сидит разраб и ручками заполняет метаданные трансформаций
Плюсы: возможен column-column lineage (то есть видим как поле протягивается от начала до конца), граф выполнения исходя из зависимостей
Минусы: метаданные могут не соответствовать реальности из-за косяков со стороны разраба, сложность в описании явных зависимостей
Кто использует: Informatica (рис. 2), SAS
3.🤩 Автоматически (метаданные извлекаются из кода)
Плюсы: не требует доп.действий, всегд актуальное состояние
Минусы: ограниченное количество инструментов, различия в синтаксисах
Кто использует: dbt(table-table only) (рис. 3), atlan
Нюанс: dbt ничего не знает про семантику, его lineage можно сломать комментом c ref и получим неправильные зависимости.😜
Команда разработчиков в Тинькофф пошла дальше и решила запилить свой собственный инструмент под названием TEDI.
Им потребовалось около 2 лет и 11 человек в команде, чтобы сделать версию под Greenplam.
#трудовыебудни
Принесла немного DE-шного материала, посмотрела доклад с конфы Smart Data 2022.
Что такое lineage?
Если кратко, то lineage - это информация, которая описывает движение данных от источника происхождения по точкам обработки и применения.
Где применяется lineage?
- поиск источников: отслеживание зависимостей, поиск узких мест, анализ первопричин аномалий и тд
- анализ влияния: анализ первопричин аномалий, change management, инф.безопасность, комплаенс и тд
Какие есть подходы к построению lineage?
1.
Сидит разраб и ручками прокидывает стрелочки между элементами, то есть явное указание зависимостей
Плюсы: простота реализации, поддержка множеством etl инструментов
Минусы: как протянуто поле от начала до конца не увидишь, дорогостоящая разработка, так как все связи должен знать разраб, много всего в голове должно держаться.
Кто использует: Pentaho DI, SSIS (рис. 1)
2.
Сидит разраб и ручками заполняет метаданные трансформаций
Плюсы: возможен column-column lineage (то есть видим как поле протягивается от начала до конца), граф выполнения исходя из зависимостей
Минусы: метаданные могут не соответствовать реальности из-за косяков со стороны разраба, сложность в описании явных зависимостей
Кто использует: Informatica (рис. 2), SAS
3.
Плюсы: не требует доп.действий, всегд актуальное состояние
Минусы: ограниченное количество инструментов, различия в синтаксисах
Кто использует: dbt(table-table only) (рис. 3), atlan
Нюанс: dbt ничего не знает про семантику, его lineage можно сломать комментом c ref и получим неправильные зависимости.
Команда разработчиков в Тинькофф пошла дальше и решила запилить свой собственный инструмент под названием TEDI.
Им потребовалось около 2 лет и 11 человек в команде, чтобы сделать версию под Greenplam.
#трудовыебудни
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Могла бы сейчас онлайн шопиться, но у Остина я вызываю сомнения. 😔
Пришлось достать чтиво в виде DAMA-DMBOK.
Кстати, с ужасом осознала, что когда стрессую, то начинаю заедать вкусняшками или мониторить маркетплейсы.
А я-то все думала, что я не такая, я жду трамвая…
А как вы справляетесь со стрессом или просто плохим настроением?
P.s. На главную переходила, не работает
Пришлось достать чтиво в виде DAMA-DMBOK.
Кстати, с ужасом осознала, что когда стрессую, то начинаю заедать вкусняшками или мониторить маркетплейсы.
А я-то все думала, что я не такая, я жду трамвая…
А как вы справляетесь со стрессом или просто плохим настроением?
P.s. На главную переходила, не работает
Please open Telegram to view this post
VIEW IN TELEGRAM
😁3
У меня тотальные проблемы с чтением.
Я плохо переношу художественную литературу, моему центру удовольствия довольно трудно угодить. Кажется, последнее, что я читала уже после школы был И.Ефремов «Туманность Андромеды».
Зато мне нравится читать что-то связанное с историей или профессиональную литературу.
Есть правда нюанс: как-то мало времени получается на это выделять. Мне нужен какой-то стимул.
В итоге вспомнила, что вообще-то есть канал и решила, что буду читать и делать конспекты с главными тезисами и делиться ими с вами.
Закоммичусь на чтение 4х книг:
🤓 DAMA-DMBOK - свод правил по управлению данными. Настольная книга серьезных дата-людей.
🤓 Lean Analytics – своего рода путеводитель по созданию стартапа. Книга рассказывает о том, как аналитика может помочь в развитии собственного бизнеса. Фактически Lean Analytics продолжает идею так называемого «бережливого стартапа», которая берет начало в книге (The Lean Startup Эрика Риса.
🤓 Mastering Leadership - что-то часто стала мелькать эта книга в постах LinkedIn. По идее книга для CEO и руководителей высшего звена, но думаю, что для общего развития будет полезна всем.
🤓 Storytelling with data - ну куда уж без этого. Название говорит само за себя.
А что вы читаете? Что у вас в списке?
#книги
Я плохо переношу художественную литературу, моему центру удовольствия довольно трудно угодить. Кажется, последнее, что я читала уже после школы был И.Ефремов «Туманность Андромеды».
Зато мне нравится читать что-то связанное с историей или профессиональную литературу.
Есть правда нюанс: как-то мало времени получается на это выделять. Мне нужен какой-то стимул.
В итоге вспомнила, что вообще-то есть канал и решила, что буду читать и делать конспекты с главными тезисами и делиться ими с вами.
Закоммичусь на чтение 4х книг:
А что вы читаете? Что у вас в списке?
#книги
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍1
DAMA-DMBOK.pdf
392.3 KB
Что ж, выкатываю первые 2 главы DAMA-DMBOK.
Вычитала интересный вариант неэтичного использования данных:
https://tylervigen.com/spurious-correlations - интересный сайт, где показаны забавные «совпадения» выборок случайных величин.
К примеру, вы можете увидеть график, где возраст «Мисс Америка» разных лет удивительным образом коррелирует с графиком количества смертей из-за пара и\или разного рода горячих объектов.
#книги
Вычитала интересный вариант неэтичного использования данных:
«Статистическое сглаживание» показателей за отчетный период способно кардинально изменить восприятие чисел. Недавно появившийся термин «data mining snooping» (в буквальном переводе — «добыча данных с отслеживанием», однако в русскоязычных источниках чаще всего используется термин «слепое прочесывание данных») описывает новомодную тенденцию в статистико-аналитических исследованиях больших массивов неупорядоченных данных. В рамках этого подхода на массив данных накладываются исчерпывающие корреляционные связи, то есть данные принудительно втискиваются в рамки некой статистической модели, после чего из массива вытягивается выборка, дающая формально «статистически значимые» результаты, которые в реальности являются чисто случайными и не выходят за пределы статистической ошибки в рамках совокупности исходных данных. Неспециалисты этим приемом вводятся в заблуждение с легкостью. Этот трюк сегодня наиболее распространен в финансах и медицине.
https://tylervigen.com/spurious-correlations - интересный сайт, где показаны забавные «совпадения» выборок случайных величин.
К примеру, вы можете увидеть график, где возраст «Мисс Америка» разных лет удивительным образом коррелирует с графиком количества смертей из-за пара и\или разного рода горячих объектов.
#книги
🔥3❤1
@DataismPrepBot
В базе уже 600+ реальных вопросов с собеседований (с ответами!)
Теперь готовиться к интервью стало намного проще.
Какие есть специальности:
Какие фичи в боте:
Бесплатно, без регистраций и смс
#поискработы
#бот
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7 5🔥2
Тут на vc парень-программист выкатил анализ своих подарков.
Моя любимая часть любой статьи - это комментарии. И вот кто-то в них написал про видео Вероники Степановой о программистах.
Официально заявляю, что это была плохая идея глянуть ЭТО перед сном.
Не повторяйте мою ошибку.
Моя любимая часть любой статьи - это комментарии. И вот кто-то в них написал про видео Вероники Степановой о программистах.
Официально заявляю, что это была плохая идея глянуть ЭТО перед сном.
Не повторяйте мою ошибку.
vc.ru
Надоело делать нормальные подарки, а получать тапочки. Сделал таблицу с расходами и вариантами равноценных подарков
Привет! В ноябре на свой др я понял, что подарки должны быть равноценными хотя бы по вложенным усилиям. Если уж не по цене. Мне и самому нравится дарить персональные подарки, а не на отвались. Решил понять, сколько тратятся на подарки мне, сколько трачусь…
Как выглядит работа аналитика данных в РЕАЛЬНОСТИ
👨💻 Часто просят рассказать более детально суть работы аналитиком.
Сидела я вечером и думала, как же жизненно это описать. В итоге родилось это.
Кидайте в комменты свои варианты (и про свою профессию, не только аналитики).
А еще напоминаю, что есть милый бот для подготовки к собеседованиям @DataismPrepBot
250+ вопросов с ответами ждут :)
Без регистраций, смс и бесплатно
#трудовыебудни
Сидела я вечером и думала, как же жизненно это описать. В итоге родилось это.
Кидайте в комменты свои варианты (и про свою профессию, не только аналитики).
А еще напоминаю, что есть милый бот для подготовки к собеседованиям @DataismPrepBot
250+ вопросов с ответами ждут :)
Без регистраций, смс и бесплатно
#трудовыебудни
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20
- Вы проводите деструктивное* тестирование системы?
- Мы - нет, система - да. Самотестируется практически каждый день.
*Деструктивное тестирование — это метод тестирования программного обеспечения, позволяющий найти точки сбоя в программе.
#подслушано_it
#поискработы
- Мы - нет, система - да. Самотестируется практически каждый день.
*Деструктивное тестирование — это метод тестирования программного обеспечения, позволяющий найти точки сбоя в программе.
#подслушано_it
#поискработы
This media is not supported in your browser
VIEW IN TELEGRAM
Забавный кусочек из интервью CTO OpenAI Миры Мурати по поводу Sora.
Напомнило защиту диплома в Бауманке.
Ну, конечно, смешно слышать от CTO, что он не в курсе деталей, камон.
Так и скажи: «юристы не подготовили норм ответы на ваши вопросы»
#мемы
Напомнило защиту диплома в Бауманке.
Ну, конечно, смешно слышать от CTO, что он не в курсе деталей, камон.
Так и скажи: «юристы не подготовили норм ответы на ваши вопросы»
#мемы
С утра поглазела на Тимошку и Зендею. Мощная музыка, потрясающий визуальный ряд как всегда.
Фильм понравился, а вот мое решение выбрать сеанс в 10 утра - нет.🫠
Фильм понравился, а вот мое решение выбрать сеанс в 10 утра - нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда не веришь в прекрасную Россию будущего, но идешь голосовать:
https://youtu.be/KmHkajDI97o?si=vqLPZJt1bXK0F73_
https://youtu.be/KmHkajDI97o?si=vqLPZJt1bXK0F73_
YouTube
"Я уже никому не верю и ничего не жду"
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
❤8😭3
На собеседованиях все так же продолжают спрашивать задачки в следующем стиле:
(и в боте @DataismPrepBot, кстати, тоже есть похожий вопрос)
Все это про парадокс Симпсона или «парадокс объединения».
Парадокс Симпсона — контринтуитивное явление в статистике, когда мы видим в каждой из групп данных определенную зависимость, но при объединении этих групп зависимость исчезает или становится противоположной. Это явление было описано Эдвардом Симпсоном в 1951 году и Удни Юлом в 1903 году.
На рисунке как раз представлена ситуация, когда первичный вывод может быть обманчивым.
Общая конверсия падает при сравнении двух месяцев, но если посмотрим конверсию на отдельных сегментах, то увидим, что вообще-то метрика имеет положительную тенденцию.
#трудовыебудни
#поискработы
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Я, к сожалению, не все доклады успела послушать, но даже в 3х услышанных лейтмотивом идет боль по импортозамещению.
Особенно запомнились ребята из British American Tobacco: в 2021 году определили основной путь развития, а в 22 году резко пришлось
#трудовыебудни
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤1