Котятки🐱,
Наверное, некоторые шишки надо набить, а ошибки - прожить.
Сейчас переписываю свой парсер с формата ‘куст’, в нечто, близкое вот к этой статье: https://habr.com/ru/companies/spectr/articles/815831/
Что могу сказать?
С точки зрения разработки и хранения, динамические решения даже в хранилище уже могут быть вариантом нормы.
Но увы, классическая BI-аналитика и BI-инструменты не предназначены для таких решений. Им на входе надо ‘знать, что придет’. Всякие лайфхаки типа Schema-drift и иже с ними на длинном горизонте очень неслабо деградируют по производительности.
Что делать, не знаю, но думаю)
Наверное, некоторые шишки надо набить, а ошибки - прожить.
Сейчас переписываю свой парсер с формата ‘куст’, в нечто, близкое вот к этой статье: https://habr.com/ru/companies/spectr/articles/815831/
Что могу сказать?
С точки зрения разработки и хранения, динамические решения даже в хранилище уже могут быть вариантом нормы.
Но увы, классическая BI-аналитика и BI-инструменты не предназначены для таких решений. Им на входе надо ‘знать, что придет’. Всякие лайфхаки типа Schema-drift и иже с ними на длинном горизонте очень неслабо деградируют по производительности.
Что делать, не знаю, но думаю)
Хабр
Магия динамического маппинга. Реализация универсальной обработки файлов нефиксированной структуры на Python
Привет! На связи Никита Ильин из Spectr , Backend-разработчик с опытом более 5 лет. Один из проектов, с которым мы работаем, — IBP-платформа для планирования и прогнозирования спроса и продаж в...
❤6🔥4👍1
Котятки🐱,
У меня сегодня всплыла сложная и специфическая темка - коммодификации данных , то есть превращение их в товар. Ну или актив,- более модное словечко.
Впервые я столкнулась с этим в 2014 году и не смогла выдохнуть,- на моих глазах разворачивалась история, когда обладание определенным массивом данных и пониманием, как его применить, давало нехилое преимущество в рыночной стратегии.
Сейчас этим никого уже не удивишь - есть и биржа данных, и коммерческие датасеты, и торговля API с консолидациями. Ну и скрытую коммодификацию никто не отменял - ряд узких IT-решений берут чисто за то, что их модели заточены годами операционных процессов и датасетов профильных компаний, и они учли все возможные узкие места. Это, фактически, способ подсмотреть к конкурентам или лидерам направлений, - Закон Конвея пока еще работает.
Но сегодня я уже думаю о коммодизации - страшилке, что восприятие данных как актива подрывает понятие конфиденциальности и безопасности.
В общем, как говаривал однажды наш безопасник, некоторые данные не надо собирать даже в эксельку. Пусть валяются.
У меня сегодня всплыла сложная и специфическая темка - коммодификации данных , то есть превращение их в товар. Ну или актив,- более модное словечко.
Впервые я столкнулась с этим в 2014 году и не смогла выдохнуть,- на моих глазах разворачивалась история, когда обладание определенным массивом данных и пониманием, как его применить, давало нехилое преимущество в рыночной стратегии.
Сейчас этим никого уже не удивишь - есть и биржа данных, и коммерческие датасеты, и торговля API с консолидациями. Ну и скрытую коммодификацию никто не отменял - ряд узких IT-решений берут чисто за то, что их модели заточены годами операционных процессов и датасетов профильных компаний, и они учли все возможные узкие места. Это, фактически, способ подсмотреть к конкурентам или лидерам направлений, - Закон Конвея пока еще работает.
Но сегодня я уже думаю о коммодизации - страшилке, что восприятие данных как актива подрывает понятие конфиденциальности и безопасности.
В общем, как говаривал однажды наш безопасник, некоторые данные не надо собирать даже в эксельку. Пусть валяются.
Forbes
Council Post: The Massive Implications Of Data Becoming A Commodity
As data becomes increasingly commodified, businesses have to adjust.
🔥7❤4👍1
Котятки🐱,
Иногда артефакты, связанные с аналитикой, визуализацией, творчеством и вдохновением, мы находим в самых неожиданных местах.
Сегодня вот эта книжечка и ее побратимы были найдены в стоматологии)
Основную, «Кради как художник», я по-прежнему нежно люблю, но «Покажи свою работу» тоже неплоха.
Иногда артефакты, связанные с аналитикой, визуализацией, творчеством и вдохновением, мы находим в самых неожиданных местах.
Сегодня вот эта книжечка и ее побратимы были найдены в стоматологии)
Основную, «Кради как художник», я по-прежнему нежно люблю, но «Покажи свою работу» тоже неплоха.
❤12🔥8👍2
Котятки🐱
Если в BI вдруг начинает ощущаться, что вы не аналитик, а оператор ручного труда — возможно, это звоночек.
10 марта в 12:00 (мск) Yandex Cloud делает вебинар «API в DataLens – все пути автоматизации». Будут разбирать, как через Public API и API-коннектор убрать лишние телодвижения и перестать перекладывать одно и то же из раза в раз.
Автоматизация в BI — штука коварная. Пока всё стабильно — живём. Как только отчётов становится больше, пользователей — шире, а сценариев — сложнее, ручные действия начинают мстить.
Полезно будет тем, кто живёт рядом с данными: BI-аналитикам, дата-инженерам, разработчикам, архитекторам и тем, кто отвечает за аналитику целиком.
Участие бесплатное, но нужна регистрация.
Если автоматизация давно в бэклоге — хороший повод наконец туда посмотреть 👀
Если в BI вдруг начинает ощущаться, что вы не аналитик, а оператор ручного труда — возможно, это звоночек.
10 марта в 12:00 (мск) Yandex Cloud делает вебинар «API в DataLens – все пути автоматизации». Будут разбирать, как через Public API и API-коннектор убрать лишние телодвижения и перестать перекладывать одно и то же из раза в раз.
Автоматизация в BI — штука коварная. Пока всё стабильно — живём. Как только отчётов становится больше, пользователей — шире, а сценариев — сложнее, ручные действия начинают мстить.
Полезно будет тем, кто живёт рядом с данными: BI-аналитикам, дата-инженерам, разработчикам, архитекторам и тем, кто отвечает за аналитику целиком.
Участие бесплатное, но нужна регистрация.
Если автоматизация давно в бэклоге — хороший повод наконец туда посмотреть 👀
👍7❤5🔥1
Котятки,
На прошлой неделе в моей команде была очень крутая дискуссия - как хранить сущность с динамическим набором атрибутов (в зависимости от какого-нибудь атрибута этой же сущности). Обычно такие кейсы возникают, когда мы берем слишком высокий уровень абстракции (условно, не сущности ‘стол’ и ‘шкаф’, а объединяем в одну сущность- ‘мебель’).
Я люблю всякое хранение, основанное на идентифицирующих связях. Он мне напоминает data vault. Кто-то любит EAV.
До 24 года я очень любила БД Cassandra для таких кейсов. Отсутствие гибкости компенсировалось скоростью работы в конкретно задачах с динамическими атрибутами. Моя любовь бы и дальше продолжалась, если бы не драматическая ситуация с удвоением данных,- увы, тут эта базеночка явно не пушка, однажды начисто парализовала чтение.
Линк на почитать: https://habr.com/ru/companies/tbank/articles/951772/
На прошлой неделе в моей команде была очень крутая дискуссия - как хранить сущность с динамическим набором атрибутов (в зависимости от какого-нибудь атрибута этой же сущности). Обычно такие кейсы возникают, когда мы берем слишком высокий уровень абстракции (условно, не сущности ‘стол’ и ‘шкаф’, а объединяем в одну сущность- ‘мебель’).
Я люблю всякое хранение, основанное на идентифицирующих связях. Он мне напоминает data vault. Кто-то любит EAV.
До 24 года я очень любила БД Cassandra для таких кейсов. Отсутствие гибкости компенсировалось скоростью работы в конкретно задачах с динамическими атрибутами. Моя любовь бы и дальше продолжалась, если бы не драматическая ситуация с удвоением данных,- увы, тут эта базеночка явно не пушка, однажды начисто парализовала чтение.
Линк на почитать: https://habr.com/ru/companies/tbank/articles/951772/
Хабр
Что нужно знать системному аналитику о Apache Cassandra
Всем привет! Я Илья Глазунов, системный аналитик в проекте карточного хранилища T-Pay Online — быстрого способа оплаты для наших клиентов. В качестве БД в проекте хранилища мы используем Apache...
❤7👍5🔥2
Forwarded from Диаграммы и презентации
Спешу поделиться потрясающим проектом Фабиана Ланга.
Дизайнер и аналитик Фабиан Ланг 3 года работал с открытыми источниками, архивами и различными экспертами, чтобы получить уникальные наборы данных о природных и человеческих явлениях, связанных с Альпами. В результате получился 200-страничный сборник из 100 визуальных историй, где данные превращены в наглядные визуализации.
Проект охватывает такие темы, как:
- жизнь бородатого стервятника (GPS-трек)
- прошлое и будущее крупнейших альпийских ледников
- биоразнообразие на основе 30 000 наблюдений
- сосуществование людей и волков
- изменение климата, энергетический переход, распространение фамилий по высоте и др.
Это не просто визуализация гор - это визуализация взаимосвязей между средой, биоразнообразием, климатом и людьми. Данные становятся языком, с помощью которого читатель узнает и чувствует Альпы, а не просто читает сухие цифры.
Проект был отмечен рядом наград за сочетание дизайна, аналитики и ясного визуального языка.
Обязательно посмотрите, вдохновитесь
➡️https://www.fabianlang.net/schweizer-bergwelten/
Дизайнер и аналитик Фабиан Ланг 3 года работал с открытыми источниками, архивами и различными экспертами, чтобы получить уникальные наборы данных о природных и человеческих явлениях, связанных с Альпами. В результате получился 200-страничный сборник из 100 визуальных историй, где данные превращены в наглядные визуализации.
Проект охватывает такие темы, как:
- жизнь бородатого стервятника (GPS-трек)
- прошлое и будущее крупнейших альпийских ледников
- биоразнообразие на основе 30 000 наблюдений
- сосуществование людей и волков
- изменение климата, энергетический переход, распространение фамилий по высоте и др.
Это не просто визуализация гор - это визуализация взаимосвязей между средой, биоразнообразием, климатом и людьми. Данные становятся языком, с помощью которого читатель узнает и чувствует Альпы, а не просто читает сухие цифры.
Проект был отмечен рядом наград за сочетание дизайна, аналитики и ясного визуального языка.
Обязательно посмотрите, вдохновитесь
➡️https://www.fabianlang.net/schweizer-bergwelten/
🔥16❤8👍1
Котятки🐱,
Внутри любого продукта для хранения/аналитики есть логирование и возможность мониторинга.
На тачках, где они хостятся, если логирование и мониторинг.
Есть агенты типа Zabbix, которые ходят по всем тачкам и собирают всякие метрики, чтобы потом все это выдать в какой-нибудь Grafana.
Но факт в общем простой: любая observability-система, которую мы сами себе строим, имеет глубину погружения. Можно завезти в зоопарк видеокамеры, а можно ходить и брать у животных кровь на анализы и тыкать в них градусником. И то и другое не дает понимание, что на самом деле происходит в организме наших лисичек и бегемотиков, но по крайней мере мы понимаем, что они живы и возможно не умирают.
Вот тут неплохая программная статья про многослойный подход к observability в BI, линк: https://www.sigmacomputing.com/blog/data-observability
Внутри любого продукта для хранения/аналитики есть логирование и возможность мониторинга.
На тачках, где они хостятся, если логирование и мониторинг.
Есть агенты типа Zabbix, которые ходят по всем тачкам и собирают всякие метрики, чтобы потом все это выдать в какой-нибудь Grafana.
Но факт в общем простой: любая observability-система, которую мы сами себе строим, имеет глубину погружения. Можно завезти в зоопарк видеокамеры, а можно ходить и брать у животных кровь на анализы и тыкать в них градусником. И то и другое не дает понимание, что на самом деле происходит в организме наших лисичек и бегемотиков, но по крайней мере мы понимаем, что они живы и возможно не умирают.
Вот тут неплохая программная статья про многослойный подход к observability в BI, линк: https://www.sigmacomputing.com/blog/data-observability
Sigmacomputing
How Data Observability Future-Proofs Your BI Strategy | Sigma
Data observability ensures BI reliability by monitoring pipelines, catching issues early, and building trust for scalable, future-ready analytics.
❤5👍4🔥1
Котятки🐱,
С 8м марта девочек) пусть будет прекрасной и удивительной эта весна для всех нас!
Ну и сегодня еще тот самый день, который оказывает сильное влияние на ретейл)
У меня сегодня на изучении заумный гайд по сезонности и baseline ( книженция Intermittent Demand Forecasting) и чуть более веселая вещь - гайд по тому, как построить аналитику для цветочного магазина):
https://youtu.be/7fmij5j3hwM?si=RHj_HZwEYLNVnDmY
С 8м марта девочек) пусть будет прекрасной и удивительной эта весна для всех нас!
Ну и сегодня еще тот самый день, который оказывает сильное влияние на ретейл)
У меня сегодня на изучении заумный гайд по сезонности и baseline ( книженция Intermittent Demand Forecasting) и чуть более веселая вещь - гайд по тому, как построить аналитику для цветочного магазина):
https://youtu.be/7fmij5j3hwM?si=RHj_HZwEYLNVnDmY
YouTube
Interactive Excel Flower Shop Analysis Dashboard | Data Analysis Project
In this video, I create a flower shop sales dashboard using Microsoft Excel. The dashboard includes visualizations for top-selling products, monthly sales trends, product categories, sales by city, payment methods, and customer breakdown.
Like, share, and…
Like, share, and…
❤8👍7🔥4
Forwarded from Чернов пишет (Stanislav Chernov)
Опубликовал mcp-superset — MCP-сервер для Apache Superset
128+ инструментов. Дашборды, графики, датасеты, SQL Lab, пользователи, роли, RLS, группы, аудит прав — всё через Claude Code / Claude Desktop / Cursor.
Там "конкуренты" и рядом не стояли, сравнительную таблицу в том числе написал (по состоянию на 11 марта 2026 года)
Что умеет:
- полный CRUD всего что есть в Superset
- выполнение SQL запросов
- управление доступом (пользователи, роли, RLS, группы)
- аудит прав (матрица кто-куда-имеет-доступ)
- экспорт/импорт всего инстанса
- встроенная защита от случайного удаления и DDL/DML в SQL Lab
Ни один другой MCP-сервер для Superset даже близко не подошёл — ближайший конкурент имеет 60 инструментов и
ноль управления безопасностью.
или просто
репа: github.com/bintocher/mcp-superset
pypi: pypi.org/project/mcp-superset
описание: https://github.com/bintocher/mcp-superset/blob/main/README_RU.md
Лицензия: MIT
#mcp@chernovdev #superset@chernovdev #claudecode@chernovdev
https://t.me/chernovdev
128+ инструментов. Дашборды, графики, датасеты, SQL Lab, пользователи, роли, RLS, группы, аудит прав — всё через Claude Code / Claude Desktop / Cursor.
Там "конкуренты" и рядом не стояли, сравнительную таблицу в том числе написал (по состоянию на 11 марта 2026 года)
Что умеет:
- полный CRUD всего что есть в Superset
- выполнение SQL запросов
- управление доступом (пользователи, роли, RLS, группы)
- аудит прав (матрица кто-куда-имеет-доступ)
- экспорт/импорт всего инстанса
- встроенная защита от случайного удаления и DDL/DML в SQL Lab
Ни один другой MCP-сервер для Superset даже близко не подошёл — ближайший конкурент имеет 60 инструментов и
ноль управления безопасностью.
pip install mcp-superset
или просто
uvx mcp-superset
репа: github.com/bintocher/mcp-superset
pypi: pypi.org/project/mcp-superset
описание: https://github.com/bintocher/mcp-superset/blob/main/README_RU.md
Лицензия: MIT
#mcp@chernovdev #superset@chernovdev #claudecode@chernovdev
https://t.me/chernovdev
🔥14❤7🎉5👍1
Котятки,
Мне очень понравилась вот эта статья по масштабированию данных. Аккурат как раз когда я решаю вопрос о горизонте хранения:
https://arxiv.org/html/2501.13779v1
Несмотря на то, что она относится к LLM, в ней важные мысли про критерии качества данных и расширение этих критериев для разных целей, и как это влияет на масштабирование.
Грубо говоря, зачем хранить факт за 10 лет, если его поведение стабильно и доп горизонт хранения не даст дополнительных полезных свойств ни в задачах анализа, ни в задачах прогнозирования? Ну то есть, результат расчета всяких корреляций за 10 лет и за 3 года дает близкие коэффициенты?
Впрочем, эти проблемы решены в Data vault 2.0, где мы можем сжать сателлит до состояния ‘признак-период’, оптимизировать производительность и оставить неограниченной глубину хранения.
Мне очень понравилась вот эта статья по масштабированию данных. Аккурат как раз когда я решаю вопрос о горизонте хранения:
https://arxiv.org/html/2501.13779v1
Несмотря на то, что она относится к LLM, в ней важные мысли про критерии качества данных и расширение этих критериев для разных целей, и как это влияет на масштабирование.
Грубо говоря, зачем хранить факт за 10 лет, если его поведение стабильно и доп горизонт хранения не даст дополнительных полезных свойств ни в задачах анализа, ни в задачах прогнозирования? Ну то есть, результат расчета всяких корреляций за 10 лет и за 3 года дает близкие коэффициенты?
Впрочем, эти проблемы решены в Data vault 2.0, где мы можем сжать сателлит до состояния ‘признак-период’, оптимизировать производительность и оставить неограниченной глубину хранения.
👍7❤4🔥3