Через тернии к Визам
384 subscribers
51 photos
15 videos
21 links
Про DWH, CH, BI и автоматизации рядом
Канал это место для дискуссий =D То есть не стесняемся задавать вопросы, уточнять и говорить свое фи.

Канал ведёт Юра, который любит данные, оптимизации в БД и визуализацию

Большие посты тут
https://датавиз.рф
Download Telegram
History of Big Data #1
Пример, который хочу вспомнить, поражает меня постоянно. Когда в следующий раз будете прокидывать еще один атрибут в воронку и жаловаться, что DWH делает всё медленно - вспомните эту историю =)


Врач, который не использует термометр в своей работе, походит на слепого, который пытается определить цвет с помощью осязания


Проект длиной в 15 ЛЕТ
Карл Вундерлих - врач, который первый в мире систематизировал знания о температуре человека и в 1868 году опубликовал результат своего исследования - оценку средней температуры здорового человека.

Каждый день, утром и вечером, заставлял пациентов держать градусник и вместе с помощниками собрал информацию о 25 000 пациентах.
Не смог найти подтверждений о громкой цифре в 1 млн замеров в некоторых статьях, но 100 тыс замеров были сделаны, записаны на бумаге и по ним посчитаны основные статистики.

Благодаря его титанической работе у врачей появилась в арсенале одна из метрик состояния пациента, а на любом градуснике - контекст, говорящий, а со мной все в порядке?

Про источники данных
Градусник располагался во рту, это позволяет сделать измерение быстрее и точнее, температура при этом 37°. А в Советской школе медицины использовали подмышечное измерение, это было безопаснее, хотя погрешность больше и температура 36.6°.
Как мы видим, от источника данных зависит результат =)

Про трансформацию данных
Еще одна потенциальная причина расхождений 36.6° и 37° - это погрешность перевода из системы Фаренгейта в Цельсии.

Про метрику, которая изменяется
А вообще, хотя мы все привыкли к метрике 36.6, последние исследования говорят, что мы потихоньку охлаждаемся, ученые связывают это с развитием медицины и в целом повышением уровня здоровья, а так же, как ни странно, кондиционерами и батареями =)

Всем хорошего теплого дня, не болейте, собирайте полезные данные =)
🔥17
Приоткрывая завесу тайны…
Пару месяцев чувствовал себя как тот мальчик, которому рассказали секрет, но он не мог им поделиться.
Now its officially, так сказать =)

Уже около месяца в DataLens внутри Яндекса для всех сотрудников доступен Нейроаналитик - AI-помощник в формате чата.
Он отлично справляется с суммаризацией чартов (при этом часть промта задаёт владелец дэша — это очень удобно), а также обучен работе с Editor. Благодаря этому можно быстро создавать различные JS-визуализации (это 🔥).

Первая версия инструмента для Yandex Cloud станет доступна внешним компаниям в сентябре 2025 года. Уже сейчас можно записаться в лист ожидания!
18🔥5👍1
Friday Joke.
Ну ClickHouse не очень любит JOINs, а мы все любим пятницу и объединяться с близкими по духу людьми =)

Всем хороших выходных.
😁10🍾3
Не всегда нужно DWH
- Юр, классно, конечно, широкие таблицы, BIG Data, но вот что, если у меня просто в S3 JSON логи льются и я хочу папочку с логами покрутить быстро - тоже весь путь проделывать?
- Не, если надо быстро покрутить Ad-hoc - хватит и вот такого решения над самой простой инсталляцией ClickHouse. Всю папку по маске можно прочесть из S3 и сразу все поля из JSON ClickHouse за тебя распарсит.
- Вроде то, что нужно, а скинь скрипт селекта?


SELECT * from s3(
'https://storage.yandexcloud.net/YOUR_PATH/log_{001..999}.csv',
'JSONEachRow')
🔥5
Media is too big
VIEW IN TELEGRAM
How to. Make Chat in DataLens
Немного шутливый пост, что внутри DataLens можно сделать чатик =)
ага, как в в конце девяностых в браузерах =)

На самом деле полезная штука для определенных задач. Это интеграция через API с Базой данных и запись / чтение из нее информации. Это может быть write-back, триггер обновления данных или смена статуса заказа (привет, CRM)
🔥8🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
AI - BI #1.
Вот еще один простой пример, как использовать API Connector, на этот раз с пользой =)

JS ChartAPIAPI AI

По естественному запросу заполняются поля с фильтрами, которые применимы именно к этому датасету.
Самая сложная штука была в написании промпта, чтобы ответ был идемподентен и не придумывал лишнего.

🤖 Возможно, общение с AI это в том числе новый SQL, но с нагретым от GPU воздухом =)


💡 Из интересного
- Сетка тут не из ТОПовых, а результат отличный
- Потребовалось профилирование полей, чтобы AI не придумывала мастер-данные

- Реализация заняла меньше дня суммарно
🔥84🤯2
How to. Filter for YoY* efficiently
Если нужно сравнить какой-то интервал с таким же интервалом предыдущего года - мы используем AGO, LAG. Но если данных в табличке ОООЧЕНЬ много - это неэффективно, дорого и даже мощная железка ClickHouse может сказать НЕТ

Чтобы этого избежать - фильтруйте сразу нужные интервалы дат заранее, для самого интервала и соответствующего YoY, так вы сильно меньше прочитаете данных, не будет JOINs и ваш пользователь будет счастлив =)

*Year-over-Year сравнение

[
filter_date] BETWEEN
Date(SUBSTR([date_interval],12,10))
AND
Date(SUBSTR([date_interval],37,10))
OR
[filter_date] BETWEEN
DATEADD(Date(SUBSTR([date_interval],12,10)),'day',-364)
and
DATEADD(Date(SUBSTR([date_interval],37,10)),'day',-364)
🔥4
Friday Jeeza
На самом деле, правильный prompt - это важная часть работы с сетками.
Вот эту картинку собирал в PowerPoint, потому что не умею в картиночные промпты =)
Коллега Антон вот умеет в музыкальные сетки и прикольно получается - а для меня это вообще темный лес как и создание музыки =)

А ты чем пользуешься и для каких задач?
В моём детстве у меня была энциклопедия Профессора Фортрана и это было нереально круто. Считаю, что после нее с алгоритмами сильно проще в начальной школе было.PDF

А вот ребенку лет 5 назад купил на Авито книгу французских авторов, которая была выпущена намного раньше ЭПФ и в ней очень интересно и про распознавание образов и про роботов-пылесосов рассказано с алгоритмами. PDF

UPD. когда увидел ее на Авито вспомнил сразу Филипа К. Дика =)
12
Фича, которую очень ждали многие (и мы внутри Яндекс тоже), вот теперь можно разгуляться 😃
Forwarded from Yandex DataLens
Media is too big
VIEW IN TELEGRAM
⚡️ Параметризация источника в датасете

Встречайте функциональность, выводящую работу с вашими датасетами на новый уровень!

Параметризация позволит:
- Подменять таблицу в запросах
- Передавать в SQL, определяющий датасет, параметр как часть запроса

Смотрите видео и читайте подробности в документации!
10🔥10
ClickHouse 25.7 - Features for BI
Уже две недели как вышел 25.7, а у меня только руки дошли посмотреть, что же там интересного появилось

1. Возрадуйстесь, финансисты, теперь в ClickHouse есть IRR и NPV =) на самом деле, буквально месяц назад меня спрашивали из команды финансов, что вот в PowerBI можно сделать IRR, а у нас нельзя, доколе? =) постараемся поддержать внутри DataLens побыстрее

2. Ускорение count() на 30% с GROUP BY (если у вас в датасете одна строчка что-то значит сама по себе)

3. Очередная порция оптимизации JOINS!
- RIGHT and FULL
- INNER JOIN такой же быстрый, как оператор IN!! (но пока медленнее, если у IN берется индекс)

4. ClickHouse Client Agent - Ну и как же без AI.
Теперь в clickhouse-client встроена AIшка, которая пишет скрипты и умеет создавать / менять таблички по человеческому вводу. Себе в поддержку выполняет всякие селекты метаданных и тому подобное. То есть в клиенте вместо SQL просто пишешь словами, что надо сделать и он пишет тебе скрипт, ты проверяешь - если ок - запускаешь. Выглядит интересно, надо понять только, можно ли подкладывать свою модельку, а не дорогущий Claude =)
🔥5
Media is too big
VIEW IN TELEGRAM
Небольшие приятные фичи за прошлый месяц.

Мой фаворит - ввод из буфера значений в параметр =)

А как вам в целом лучше было бы узнавать о новых фичах в BI-продукте?
- Попапами в продукте?
- Текстовыми анонсами в канале / чатике?
- Видосиками?
🔥17👍82
How to. Organize selectors
1) Сгруппируй селекторы по смыслу
- включи верхнее отображение названия
- туда КАПС добавь текст
- включи внутренний заголовок
- включи и заполни подсказку
- voila
2) Подсвети ⚡️поля, которые у тебя в индексе / в сортировке, чтобы пользователь не забывал по ним выставлять фильтры
3) для ID старайся не использовать списки - а используй поля ручного ввода / массовые поля ручного ввода
4) Аббревиатуры всегда расшифровывай в "Подсказке"
5) Если основной паттерн - это много разных фильтров - включай кнопку "Применить", чтобы не нагружать лишний раз источник
👍72
Friday Joke.
В этот раз не про данные, но прям очень понравилось =D

При этом, Ферма внес ощутимый вклад в теорвер
😁7
To watch.Pantheon.
Небольшой анимационный сериал, местами с прекрасными визуальными образами (напомнили Айснера), чтобы развивать насмотренность, с пелевинскими мотивами и этическими дилеммами, человек или компьютер.
ИИ сложно создать до конца с сознанием, проще сознание человека загрузить...

Смотрю всё на английском обычно, чтобы не совсем уж time killing, тут он не сложный.

- почему ты тут советуешь комиксы, фильмы, мультики?
- верю, что это часть повышения насмотренности
9👍3🦄2👾1
FrAIday joke.

На самом деле, часто AI очень капитански помогает с анализом графика / дашборда. Нужно давать больше контекста про бизнес, модель и в идеале давать возможность итеративно искать инсайты.

Кажется, AI, наконец, заставит всех вложить ресурсы в дата каталоги и DQ =)
😁152