Dataism
3.63K subscribers
242 photos
49 videos
10 files
126 links
Бот для подготовки к IT-собесам @DataismPrepBot 📲
Недушный канал про аналитику, карьеру в IT и немного португальского лайфстайла.
Полезно аналитикам, дата-сатанистам и продактам.

По вопросам рекламы писать в лс канала
Download Telegram
Кстати, доколупалась с опросом до участников чата karpov.courses
Вот такие результаты:)
🤔1
Проснулись, улыбнулись, пострадали 😭
А как у вас проходят выходные?
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉4🔥2
Как построить data lineage. Обзор решений и опыт команды Тинькофф.
Принесла немного DE-шного материала, посмотрела доклад с конфы Smart Data 2022.

Что такое lineage?
Если кратко, то lineage - это информация, которая описывает движение данных от источника происхождения по точкам обработки и применения.

Где применяется lineage?
- поиск источников: отслеживание зависимостей, поиск узких мест, анализ первопричин аномалий и тд
- анализ влияния: анализ первопричин аномалий, change management, инф.безопасность, комплаенс и тд

Какие есть подходы к построению lineage?
1. 😖Вручную
Сидит разраб и ручками прокидывает стрелочки между элементами, то есть явное указание зависимостей
Плюсы: простота реализации, поддержка множеством etl инструментов
Минусы: как протянуто поле от начала до конца не увидишь, дорогостоящая разработка, так как все связи должен знать разраб, много всего в голове должно держаться.
Кто использует: Pentaho DI, SSIS (рис. 1)

2. 👩‍💻Полуавтоматический вариант по метаданным
Сидит разраб и ручками заполняет метаданные трансформаций
Плюсы: возможен column-column lineage (то есть видим как поле протягивается от начала до конца), граф выполнения исходя из зависимостей
Минусы: метаданные могут не соответствовать реальности из-за косяков со стороны разраба, сложность в описании явных зависимостей
Кто использует: Informatica (рис. 2), SAS

3. 🤩Автоматически (метаданные извлекаются из кода)
Плюсы: не требует доп.действий, всегд актуальное состояние
Минусы: ограниченное количество инструментов, различия в синтаксисах
Кто использует: dbt(table-table only) (рис. 3), atlan

Нюанс: dbt ничего не знает про семантику, его lineage можно сломать комментом c ref и получим неправильные зависимости.😜

Команда разработчиков в Тинькофф пошла дальше и решила запилить свой собственный инструмент под названием TEDI.
Им потребовалось около 2 лет и 11 человек в команде, чтобы сделать версию под Greenplam.

#трудовыебудни
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Могла бы сейчас онлайн шопиться, но у Остина я вызываю сомнения. 😔
Пришлось достать чтиво в виде DAMA-DMBOK.

Кстати, с ужасом осознала, что когда стрессую, то начинаю заедать вкусняшками или мониторить маркетплейсы.
А я-то все думала, что я не такая, я жду трамвая…

А как вы справляетесь со стрессом или просто плохим настроением?

P.s. На главную переходила, не работает
Please open Telegram to view this post
VIEW IN TELEGRAM
😁3
У меня тотальные проблемы с чтением.

Я плохо переношу художественную литературу, моему центру удовольствия довольно трудно угодить. Кажется, последнее, что я читала уже после школы был И.Ефремов «Туманность Андромеды».

Зато мне нравится читать что-то связанное с историей или профессиональную литературу.
Есть правда нюанс: как-то мало времени получается на это выделять. Мне нужен какой-то стимул.

В итоге вспомнила, что вообще-то есть канал и решила, что буду читать и делать конспекты с главными тезисами и делиться ими с вами.

Закоммичусь на чтение 4х книг:

🤓 DAMA-DMBOK - свод правил по управлению данными. Настольная книга серьезных дата-людей.
🤓Lean Analytics – своего рода путеводитель по созданию стартапа. Книга рассказывает о том, как аналитика может помочь в развитии собственного бизнеса. Фактически Lean Analytics продолжает идею так называемого «бережливого стартапа», которая берет начало в книге (The Lean Startup Эрика Риса.
🤓 Mastering Leadership - что-то часто стала мелькать эта книга в постах LinkedIn. По идее книга для CEO и руководителей высшего звена, но думаю, что для общего развития будет полезна всем.
🤓 Storytelling with data - ну куда уж без этого. Название говорит само за себя.

А что вы читаете? Что у вас в списке?

#книги
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍1
DAMA-DMBOK.pdf
392.3 KB
Что ж, выкатываю первые 2 главы DAMA-DMBOK.

Вычитала интересный вариант неэтичного использования данных:
«Статистическое сглаживание» показателей за отчетный период способно кардинально изменить восприятие чисел. Недавно появившийся термин «data mining snooping» (в буквальном переводе — «добыча данных с отслеживанием», однако в русскоязычных источниках чаще всего используется термин «слепое прочесывание данных») описывает новомодную тенденцию в статистико-аналитических исследованиях больших массивов неупорядоченных данных. В рамках этого подхода на массив данных накладываются исчерпывающие корреляционные связи, то есть данные принудительно втискиваются в рамки некой статистической модели, после чего из массива вытягивается выборка, дающая формально «статистически значимые» результаты, которые в реальности являются чисто случайными и не выходят за пределы статистической ошибки в рамках совокупности исходных данных. Неспециалисты этим приемом вводятся в заблуждение с легкостью. Этот трюк сегодня наиболее распространен в финансах и медицине.


https://tylervigen.com/spurious-correlations - интересный сайт, где показаны забавные «совпадения» выборок случайных величин.
К примеру, вы можете увидеть график, где возраст «Мисс Америка» разных лет удивительным образом коррелирует с графиком количества смертей из-за пара и\или разного рода горячих объектов.

#книги
🔥31
👨‍💻Бот для подготовки к IT-собеседованиям
@DataismPrepBot

В базе уже 600+ реальных вопросов с собеседований (с ответами!)
Теперь готовиться к интервью стало намного проще.

Какие есть специальности:
Data analyst
Data Scientist
Data Engineer
Python Developer
Go Developer
System Analyst

Какие фичи в боте:
Возможность отслеживания статистики
Добавление вопросов в Избранное
Ссылки на доп.материалы для изучения
Экспресс-скрининг знаний

Бесплатно, без регистраций и смс 🤩

#поискработы
#бот
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🔥2
Как выглядит работа аналитика данных в РЕАЛЬНОСТИ

👨‍💻 Часто просят рассказать более детально суть работы аналитиком.
Сидела я вечером и думала, как же жизненно это описать. В итоге родилось это.

Кидайте в комменты свои варианты (и про свою профессию, не только аналитики).

А еще напоминаю, что есть милый бот для подготовки к собеседованиям @DataismPrepBot
250+ вопросов с ответами ждут :)
Без регистраций, смс и бесплатно

#трудовыебудни
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20
- Вы проводите деструктивное* тестирование системы?
- Мы - нет, система - да. Самотестируется практически каждый день.

*Деструктивное тестирование — это метод тестирования программного обеспечения, позволяющий найти точки сбоя в программе.

#подслушано_it
#поискработы
3
This media is not supported in your browser
VIEW IN TELEGRAM
Забавный кусочек из интервью CTO OpenAI Миры Мурати по поводу Sora.
Напомнило защиту диплома в Бауманке.

Ну, конечно, смешно слышать от CTO, что он не в курсе деталей, камон.
Так и скажи: «юристы не подготовили норм ответы на ваши вопросы»

#мемы
4👍2🔥1