Я у мамы аналитик
2.87K subscribers
77 photos
2 files
244 links
Как могу анализирую материалы на тему работы с данными:
- инфраструктура и инструменты;
- роли и компетенции аналитиков;
- продуктовый подход к аналитике;
- роль аналитики в создании и развитии продуктов.

Обратная связь @s_valuev, рекламу не размещаю
Download Telegram
Forwarded from Непрошеные сервисные советы (Maria Vorobyova)
Об аналитиках

В этом году мы с @AliceMatiss искали джуниора в группу аналитики, и это было интересно, но непросто.

Кого мы увидели:
Ребят, которым очень хочется освоить новую сферу и которые для этого готовы учиться и много работать.
Ребят, которые уже прошли различные курсы, попробовали хотя бы в учебном формате Python и SQL, визуализацию и рекомендации.
Ребят, которые считают Excel бесполезным инструментом (но мы-то с вами знаем истину!)
Ребят, которые не думают о конечном Заказчике, и о том, чьими глазами стоит смотреть на результат.

В очередной раз утвердилась в том, что аналитики, которые находятся внутри саппорта и регулярно общаются с Клиентами по собственной отчетности, - это замечательно.
Это возможность постоянно замечать, как разные люди смотрят на одни и те же данные, слышать фидбэк от реальных пользователей и иметь возможность вносить корректировки сразу.

▪️ Ведь смысл-то, как известно, не в том, чтобы показать, какими инструментами ты умеешь пользоваться.
А в том, чтобы помогать людям видеть за красивыми дашбордами ответы. Ответы, которые помогают принимать решения.
16👍2
Ежегодный обзор того, какое количество данных генерируется в интернете за одну минуту.

Если до этого не видели - числа поражают.

Итоги представлены в виде инфографики, к понятности которой есть вопросы, но по цветам красиво (и темная тема - ❤️).

Качество в телеграме будет шакальное, вот прямая ссылка на картинку.

🔗Ссылка

#визуализации
👍8🔥4
Мне понравилась простая классификация аналитиков из статьи "Storytellers and System Builders".

Автор выделяет 2 мета-роли:

📊 Рассказыватели историй
Они больше про помощь бизнесу в принятии решений, построение дашбордов и визуализаций, донесение информации и убеждение.

🛠 Строители систем
Они больше про аналитические решения и платформы, пайплайны, повышение качества данных, в общем что-то более "дата-инженерное".

Такой подход позволяет:
🔹хоть как-то систематизировать то количество ролей/должностей, которое сейчас существует в профессии (автор насчитал 12 реальных и еще одну шуточную, но я встречал списки и побольше);
🔹лучше распределить задачи в команде исходя из компетенций сотрудников;
🔹строить карьерные пути и планы развития исходя из предрасположенности людей к тем или иным задачам;
🔹заставлять их всех работать вместе на основании более четкого распределения ответственности.

У меня в голове крутится мысль, что это какое-то аналитическое переосмысление ролей фронтенда и бэкенда (но это не точно).

🔗Ссылка

#компетенции
7👍5🔥1
Сегодня и завтра меня, при желании, можно найти на Product Sense.

Четвертый раз подряд и первый раз в оффлайн, удалось выбраться в последний момент.

#конференции
🔥8👍1
Вопреки всему, что происходит, поеду на Матемаркетинг 2022, второй год подряд в очном формате.

В прошлом году познакомился лично с классными ребятами, в том числе теми, чьи каналы раньше только читал. И даже немного порефлексировали с Сашей про тренды по итогам.

В этот раз тоже попробую. Захотите пообщаться - пишите.

По ссылке ниже Леша раздает бесплатные билеты с онлайн-доступом к части докладов, в том числе и тем, которые стартуют сегодня и завтра.

🔗Ссылка

#конференции
🔥94👎2👍1
Нашел прикольную штуку для создания дата-пайплайнов прямо из интерфейса JupyterLab - Elyra.

Причем интересно, что собирать их можно не только из готового кода, но еще и из самих ноутбуков, а также каких-то базовых действий над элементами (скачать, сгруппировать, разделить, соединить файлы и тому подобное).
А еще можно пробросить выполнение пайплайна в оркестраторы вроде Airflow или даже (прости, господи) Kubeflow.

Кажется перспективной штукой, буду подробнее изучать.

В статье ниже можно посмотреть как это выглядит в интерфейсе.

🔗Ссылка

#инструменты
👍14🤔6
Тренды на год по многим темам публикуют уже пару месяцев. Достойных материалов пока не очень много.

Сегодняшняя статья про будущее Data Engineering, тем не менее, в порядке.

7 трендов из нее:
🔹 Команды будут больше фокусироваться на оптимизацию затрат на облака и инфраструктуру (что поделать, кризис);
🔹 Роли аналитиков будут дальше уходить в специализацию;
🔹 Несмотря на децентрализацию и прочие data mesh, общие платформы обработки данных продолжат развиваться;
🔹 Больше половины разрабатываемых ML-моделей успешно дойдут до продакшена;
🔹Начнут внедряться дата-контракты;
🔹Все больше будет размываться грань между DWH и DL-подходами (привет, DataLakeHouse);
🔹Время исправления аномалий и проблем с качеством данных будет снижаться (думаю, это связано с более активных внедрением observability, governance, lineage и всего такого).

🔗Ссылка

#тренды
👍52
Любителям разного рода трендов могу также порекомендовать вот такой сайт-агрегатор от компании Spacecadet. Доступны материалы за 2023, 2022 и 2021 годы.

На этот год по нашей предметной области там, кажется, только отчеты Gartner, прикрытые обязательным заполнением формы:
- Gartner’s 100 Data Analytics Predictions 2025;
- Gartner’s IT Roadmap For Data And Analytics 2023 (прямая ссылка на файл, спасибо Максиму из комментов к посту)

Правда мне на корпоративную почту их после заполнения так и не прислали (может она недостаточно корпоративная или я еще чем-то еще не угодил).

Ну и есть что-то красивое с цветами.

Зато много интересного из смежных сфер - технологии, дизайн, маркетинг и прочее (вроде рынка инфлюенсеров Китая). Не все хорошего качества, но ожидать его от большого списка было бы странно.

🔗Ссылка

#тренды
👍9
Мой товарищ Антон написал монструозную статью про то, что такое MLOps. Это результат более чем двухлетнего погружения в тему и изучения многочисленных источников.

Для справки: MLOps - это DevOps из мира ML, стандартизация разработки, обслуживания ML-моделей в продакшене или же "операционализация моделей машинного обучения".

По-простому: это когда модель не только накодили, обучили и начали использовать в каком-то боевом приложении, но еще и выстроили пайплайны для ее мониторинга, обновления и переразвертывания.

В статье помимо определений и истории развития MLOps можно найти следующее:
🔹несколько моделей уровней зрелости;
🔹огромную технологическую схему;
🔹описание основных процессов;
🔹генерируемые артефакты;
🔹взгляд на это все как на классическую информационную систему;
🔹мемасики.

В общем, все очень по-взрослому (кроме последнего пункта, конечно).

Я не видел аналогов на русском языке ни по объему, ни по качеству, если они есть - пришлите, пожалуйста.

🔗Ссылка

#MLечное
👍18🔥131
Обзор российского рынка Business Intelligence от TAdviser, которые, кажется, реально хотят стать еще одним Гартнеро-заменителем (напомню, что есть еще ежегодные обзоры рынка от Сnews).

Правда, итоги и основные числа пока только за 2021 год:
🔹объем рынка около 45 млрд рублей;
🔹рост год к году 16%;
🔹есть топы крупнейших вендоров и интеграторов;
🔹а еще собрана статистика по аудитории телеграм-каналов конкретных решений (и западных и отечественных) - не знаю, что она должна показать, но такого еще не видел.

Тренд года угадать несложно - импортозамещение (прогноз роста выручки российских решений составляет 10-12%)

🔗Ссылка

#исследования #business_intelligence #анализ_рынка
👍6
Matt Turck с коллегами запилили ML/AI/Data Landscape по состоянию на начало 2023 года. Теперь у этого артефакта есть классная аббревиатура MAD, которая отлично отражает всю сущность мира инструментов для анализа данных.

Отчет состоит из 4 частей:
🔹Part I: The Landscape;
🔹Part II: Market trends: Financings, M&A and IPOs;
🔹Part III: Trends in data infrastructure;
🔹Part IV: Trends in ML/AI.

В этом году проявилась еще и интерактивная версия.

Про прошлую версию я что-то писал тут.

#инструменты #анализ_рынка
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Чем больше я смотрю на плагины и расширения Jupyter Notebook, тем больше убеждаюсь, что аналитиков хлебом не корми - дай пооптимизировать что-то.

Например, c помощью Mito можно работать с датафреймами как с Excel/Google Sheet с кнопочками, фильтрами, сводными таблицами и прочими удобствами.

Эта штука еще и код за тебя попишет. Зачем пихать это все прямо внутрь Jupyter для меня загадка, но какие-то простые вещи действительно удобно делать кнопочками без кода. Кажется, как обычно, лень - двигатель прогресса.

У инструмента есть аналоги, как минимум - bamboolib и dtale. Про различия можно почитать, например, в статье на Хабре.

Пощупал все три и Mito, в итоге, понравился больше (хотя все еще считаю это все извращением). Видео-демка и документация есть на сайте разработчиков. В дополнение можно почитать восторженные отзывы с medium по ссылке ниже:

🔗Ссылка

#инструменты
🔥8👍52
Собрали с коллегами дайджест материалов про работу с данными и машинным обучением, которые показались нам интересными. Накопилась критическая масса с начала года.

Аналитического и ML-ного примерно серединка-наполовинку, плюс какие-то материалы вы уже могли видеть в моем канале.

Вот то, о чем я мог бы, но не собрался написать подробнее:

🔹Рассуждения Benn Stancil о том, как скоро генеративные модели заменят аналитиков;
🔹Кейсы Леруа Мерлен и Почтатеха о построении enterprise дата-платформ;
🔹Новость о покупке Dbt BI-инструмента Transform;
🔹Итоги 2022 года по версии DB Engines;
🔹Подборки сервисов для исследования/визуализации данных и полезных репозиториев для дата-саентистов;
🔸Много материалов по ML/MLOps, в которых я разбираюсь похуже, но, благо, есть специально обученные люди 😉.

🔗Ссылка

#дайджест #MLечное #инфраструктурное
🔥9👍42
This media is not supported in your browser
VIEW IN TELEGRAM
Продолжаю копаться в новых инструментах для аналитиков.

Если в прошлый раз мы сами заталкивали Google Sheets в Jupyter, то сейчас за нас уже затолкали Python в аналог Google Sheets: Neptyne.

Получается, что у нас обычная электронная табличка с одной стороны, IDE с другой и чуть пониже окно запроса в местный "AI" (куда уж без этого).

То есть в одном окне можно спросить у нейросети население всех стран, написать эксельные формулы для базовых вычислений, а потом кодом переобразовать в dataframe, обработать pandas-ом и вывывести обратно в табличку.

Пока даже пускают бесплатно попробовать. По ссылке ниже чуть подробнее рассказывают про инструмент (хотя на сайте все и так довольно наглядно).

🔗Ссылка

#инструменты
🔥9👍54
В продолжение темы про новые инструменты.

Интересно понаблюдать за тем, как нейросети начинают экспансию в сервисы для визуализации и аналитики. Например, вот эта штука (Data Prism), найденная @data_csv, умеет генерировать идеи визуализаций по датасету.

По поводу качества полученных результатов уже успел знатно и обоснованно поорать Рома Бунин в комментах. Мне остается только присоединиться.

#инструменты
Forwarded from data.csv (Алексей Смагин)
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь можно не страдать с выбором типа визуализации

Директор по инновациям Noteable (это такой онлайн-аналог Jupyter Notebook — платформы для написания кода) анонсировал новый инструмент — Data Prism, который сможет подбирать много вариантов графиков для ваших данных.

В статье есть несколько примеров, а полноценный анонс состоится сегодня в 19:00 по Москве — по крайней мере, об этом гласит прямая трансляция, которая висит на страничке.
🔥52
Не придумал лучшего способа вернуться к написанию постов, чем дайджест того, что больше всего приглянулось за последнее время.

ОТЧЕТЫ О РЫНКЕ
- Data Teams Survey 2023 Results 🔗Ссылка
- State of data 2023 🔗Ссылка
- The State of Data Engineering 2023 🔗Ссылка

ИНСТРУМЕНТЫ
- Introducing Microsoft Fabric: Data analytics for the era of AI 🔗Ссылка
- Qlik Acquires Talend 🔗Ссылка
- Pivot: Managed dbt made easy 🔗Ссылка

УПРАВЛЕНИЕ И КОМПЕТЕНЦИИ
- Разработчики — налево, методологи — направо: четыре шага к оптимизации работы BI-аналитиков 🔗Ссылка
- The struggles scaling data teams face 🔗Ссылка

РАЗМЫШЛЕНИЯ
- BI by another name 🔗Ссылка
- Dashboards are dead: 3 years later 🔗Ссылка

ЕЩЕ БОЛЬШЕ ДАЙДЖЕСТОВ
- Новые инструменты для работы c ML-моделями и обзор MLOps от CERN 🔗Ссылка
- Массивный курс по управлению данными и обзор новинок от NVIDIA. Дайджест полезных текстов про ML и дата-аналитику 🔗Ссылка

Telegram-папка с каналами около Data/Analytics/BI
🔗Ссылка

#дайджест
🔥20👍62
Я фанат материалов про уровни зрелости аналитических систем. Вот варианты их оценки, которые рассматривал ранее:
🔹по сложности решаемых задач;
🔹по степени влияния на принятие решений;
🔹по уровню удовлетворения основных потребностей и наличию нужных компетенций;
🔹по подходу к организации хранилищ/озер данных.

Дополню список еще одним: по степени "развитости" используемых аналитических инструментов (из статьи "Evolution of the Data Landscape").

Автор выделяет 3 ключевых уровня развития аналитического стека:
🔸Традиционный;
🔸Современный (подробнее тут);
🔸Data-First.

Материал продвигает последний из них, предлагая перейти к унифицированному подходу к построению аналитических систем с использованием общих принципов для загрузки, хранения и потребления данных. Выглядит похоже на новомодные Data Mesh/Fabric.

Рекомендую ознакомиться, если интересны верхнеуровневые архитектурные вопросы, там еще много интересного про проблемы и ограничения каждого из этапов.

🔗Ссылка

#архитектурное #уровни_зрелости
🔥7👍31
Мы добавили вам Питон в Эксель...

Новость (вчерашнего) дня: Microsoft запускает публичное превью нативного Python в Excel.

Код пишем непосредственно в ячейках, но запускаться он будет не локально, а в облаке Microsoft. Импортировать библиотеки можно.

На картинке выше показан пример того, как будет выглядеть генерация графика в seaborn.

По функциональности похоже на то, что мы уже видели в Neptyne.
Также не первый год существуют другие аналоги вроде PyXLL.

В общем, функция не то, чтобы уникальная, но посмотреть на реализацию интересно.

🔗Ссылка

#инструменты
🔥30👍2🤔21👏1
Со следующего понедельника (4 сентября) стартует конференция по менеджменту продуктов Product Sense 2023.

В этот раз я даже взял себя в руки и смог написать о ней не день-в-день из поезда, а чуть заранее.

Если говорить про мой опыт, то это единственное ежегодное мероприятие, которое я посещу юбилейный, 5 раз подряд.

Помимо очевидных ценностей вроде докладов (качественных) и нетворкинга (в прошлый раз вернулись с новоприобретенным коллегой) я всегда нахожу для себя еще одну.

Это возможность со стороны посмотреть на:
- то что делаешь сам;
- что в этот момент делают другие;
- что у кого болит и какие решения существуют.

Короче, полный "think outside the box".

В итоге, если есть еще такие же слоупоки как я, кто пропустил все сроки - рекомендую ознакомиться с тем, что будет в этом году по ссылке ниже или любым удобным способом.

🔗Ссылка

#конференции
7👍3