О быстрых оптимизациях в Clickhouse
Пришел заказчик жаловаться на медленный отчет в суперсете. Говорит, больше 2 минут обновляется любой чих.
Apache Superset, кто не знает, тот пример максимально ленивого BI, который на каждый фильтр, на каждое обновление страницы на каждый график отправляет live-запросы в БД. Но данные висят на Clickhouse, так что 2 минут быть точно не должно.
Начинаю разбираться. Витрина - заказы за все время жизни компании, 550 млн строк, солидно. Но
1) Витрина оформлена через джойны на два справочника. А-ля схема звезда.
2) Пол-ярда записей лежат одной таблицей (!) без партиций, с сортировкой по id заказа (!!)
То есть на каждый апдейт или взятый фильтр, базу отправляется 10-15 запросов, в которых база вынуждена вычитывать 550 млн записей и налету джойнить их 2 раза. 5,5 млрд чтений + 5,5 млрд джойнов на один апдейт страницы одним пользователем! У СУБД нет способа выделить только нужные данные даже если запрос за последние 10 дней.
Делаем честную плоскую витрину, режем на партиции, сортировка по дню. Время от фильтра до отчета падает до меньше 2-5 секунд. Это большая разница. Это разница между возможностью и невозможностью работать с предоставленной информацией в режиме лайв. Например на звонке или встрече.
Мораль. Да какая уж тут мораль - если ввязался в российский бомже-стек аналитики, то придется знать, как работает Superset и какие лучшие практики построения витрин в кликхаусе. Еще и DBT какой рядом иметь, чтобы процесс добавления колонок в плоскую витрину (заказчик попросил еще 2-22 разреза данных) занимал минуты, а не дни.
Еще много там такого выковыривать, на полгода хватит.
Пришел заказчик жаловаться на медленный отчет в суперсете. Говорит, больше 2 минут обновляется любой чих.
Apache Superset, кто не знает, тот пример максимально ленивого BI, который на каждый фильтр, на каждое обновление страницы на каждый график отправляет live-запросы в БД. Но данные висят на Clickhouse, так что 2 минут быть точно не должно.
Начинаю разбираться. Витрина - заказы за все время жизни компании, 550 млн строк, солидно. Но
1) Витрина оформлена через джойны на два справочника. А-ля схема звезда.
2) Пол-ярда записей лежат одной таблицей (!) без партиций, с сортировкой по id заказа (!!)
То есть на каждый апдейт или взятый фильтр, базу отправляется 10-15 запросов, в которых база вынуждена вычитывать 550 млн записей и налету джойнить их 2 раза. 5,5 млрд чтений + 5,5 млрд джойнов на один апдейт страницы одним пользователем! У СУБД нет способа выделить только нужные данные даже если запрос за последние 10 дней.
Делаем честную плоскую витрину, режем на партиции, сортировка по дню. Время от фильтра до отчета падает до меньше 2-5 секунд. Это большая разница. Это разница между возможностью и невозможностью работать с предоставленной информацией в режиме лайв. Например на звонке или встрече.
Мораль. Да какая уж тут мораль - если ввязался в российский бомже-стек аналитики, то придется знать, как работает Superset и какие лучшие практики построения витрин в кликхаусе. Еще и DBT какой рядом иметь, чтобы процесс добавления колонок в плоскую витрину (заказчик попросил еще 2-22 разреза данных) занимал минуты, а не дни.
Еще много там такого выковыривать, на полгода хватит.
👍9❤7 3👏2
В Postgres есть CREATE MATERIALIZED VIEW
В Clickhouse тоже есть CREATE MATERIALIZED VIEW
Между ними крайне мало общего. Супер разные вещи назвали одинаковым словомдабы запутать добрых христиан .
С этим и со многим другим начнем разбираться 11 июня на курсе по Кликхаусу.
В Clickhouse тоже есть CREATE MATERIALIZED VIEW
Между ними крайне мало общего. Супер разные вещи назвали одинаковым словом
С этим и со многим другим начнем разбираться 11 июня на курсе по Кликхаусу.
devhands.ru
Clickhouse для аналитиков и инженеров данных
😁8👍7 5
Forwarded from LadimirKapital
ICE and Ornn plan to launch futures based on Ornn’s Compute Price Index, which tracks live-traded spot prices for GPU compute across major hardware types.
***
Очень крутая концепция, фьючерсы на вычислительную мощность. Превращение ее в сырье, полезно для конкуренции.
***
Очень крутая концепция, фьючерсы на вычислительную мощность. Превращение ее в сырье, полезно для конкуренции.
🔥2
Сайт Open Meta Data (open-metadata.org) заблокирован РКН.
IP 75.2.60.5
Продолжи фразу:
Сегодня ты управляешь своими данными, а завтра …
IP 75.2.60.5
Продолжи фразу:
Сегодня ты управляешь своими данными, а завтра …
😱14😁5🤯4💩3
Меняю профессию!
Теперь я вайб-садовод.
Вы со своими старыми подходами не понимаете, мир изменился, ИИ трансформация сжирает целые старые отрасли!
Мой продукт - нейро лимон 🍋 - инновационное производство с глубоким внедрением Искусственных Интеллектов во все процессы. С помощью ИИ Агентов КлодГПТ я делаю все: определяю режим полива, потребности в свете, поддержке, режим вноса удобрений. И вот результат - продукт вырос по основной метрике на +80% всего за 1,5 месяца!
Это успех. Сейчас я активно думаю над масштабированием сразу на уровень плантации и с помощью ИИ агентов подбираю подходящую площадку для производства. В то де время другие мои КлодГПТ агенты исследуют возможности в соседних нишах. Наиболее перспективными считаются персик-тех и мандарин-тех.
Если вы инвестор - это уникальная возможность вложиться в самое передовое лимон-тех предприятие в России. Вот мой яндекс кошелек.
А пока - подписывайтесь на мои каналы, любой может стать, вайб-растениеводом. Я готов предоставить уникальную технологию, промпты и скрипты для вайб-садоводинга.
Не сиди на диване, ты упускаешь все шансы стать преуспевающим владельцем нейро-плантации. Не нужно никаких знаний, только грамотное применение ИИ-Агентов.
Завтра все ниши будут заняты, поэтому подписывайся прямо сейчас.
Теперь я вайб-садовод.
Вы со своими старыми подходами не понимаете, мир изменился, ИИ трансформация сжирает целые старые отрасли!
Мой продукт - нейро лимон 🍋 - инновационное производство с глубоким внедрением Искусственных Интеллектов во все процессы. С помощью ИИ Агентов КлодГПТ я делаю все: определяю режим полива, потребности в свете, поддержке, режим вноса удобрений. И вот результат - продукт вырос по основной метрике на +80% всего за 1,5 месяца!
Это успех. Сейчас я активно думаю над масштабированием сразу на уровень плантации и с помощью ИИ агентов подбираю подходящую площадку для производства. В то де время другие мои КлодГПТ агенты исследуют возможности в соседних нишах. Наиболее перспективными считаются персик-тех и мандарин-тех.
Если вы инвестор - это уникальная возможность вложиться в самое передовое лимон-тех предприятие в России. Вот мой яндекс кошелек.
А пока - подписывайтесь на мои каналы, любой может стать, вайб-растениеводом. Я готов предоставить уникальную технологию, промпты и скрипты для вайб-садоводинга.
Не сиди на диване, ты упускаешь все шансы стать преуспевающим владельцем нейро-плантации. Не нужно никаких знаний, только грамотное применение ИИ-Агентов.
Завтра все ниши будут заняты, поэтому подписывайся прямо сейчас.
😁24 4 3 2👍1
Forwarded from Грокс
Anthropic привлёк $65 млрд рамках финансирования серии H при оценке после получения инвестиций в $965 млрд. В феврале было объявлено о привлечении $30 млрд в G-раунде и post-money оценке в $380 млрд.
То есть свыше половины триллиона баксов стоимости создано менее, чем за полгода. И многие реально умные, успешные, уважаемые люди, которые привлекают десятки миллионов долларов в Долине — у меня живые примеры есть, с кем я общаюсь — вообще нисколечко не считают, что в США ИИ-пузырь.
История повторяется? Или консерваторы зациклились на выявлении паттернов и просто не желают признавать то, как быстро меняется мир? В скором будущем узнаем.
https://www.anthropic.com/news/series-h
То есть свыше половины триллиона баксов стоимости создано менее, чем за полгода. И многие реально умные, успешные, уважаемые люди, которые привлекают десятки миллионов долларов в Долине — у меня живые примеры есть, с кем я общаюсь — вообще нисколечко не считают, что в США ИИ-пузырь.
История повторяется? Или консерваторы зациклились на выявлении паттернов и просто не желают признавать то, как быстро меняется мир? В скором будущем узнаем.
https://www.anthropic.com/news/series-h
👍4
Грокс
Anthropic привлёк $65 млрд рамках финансирования серии H при оценке после получения инвестиций в $965 млрд. В феврале было объявлено о привлечении $30 млрд в G-раунде и post-money оценке в $380 млрд. То есть свыше половины триллиона баксов стоимости создано…
Тем временем Антропик и СпейсЭкс уверенно продает свои лимонные плантации в народ
Компанию Маска говорят, даже по-братски уже включили в индексы. Это загоняет триллионы индексных фондов от нефтяных шейхов и американских пенсионеров в компанию по безумной оценке.
Это как если бы я продал канал Архитектора Данных за 2 миллиарда рублей и обязал всех купить его часть.
Компанию Маска говорят, даже по-братски уже включили в индексы. Это загоняет триллионы индексных фондов от нефтяных шейхов и американских пенсионеров в компанию по безумной оценке.
Это как если бы я продал канал Архитектора Данных за 2 миллиарда рублей и обязал всех купить его часть.
Telegram
Архитектор Данных
Меняю профессию!
Теперь я вайб-садовод.
Вы со своими старыми подходами не понимаете, мир изменился, ИИ трансформация сжирает целые старые отрасли!
Мой продукт - нейро лимон 🍋 - инновационное производство с глубоким внедрением Искусственных Интеллектов…
Теперь я вайб-садовод.
Вы со своими старыми подходами не понимаете, мир изменился, ИИ трансформация сжирает целые старые отрасли!
Мой продукт - нейро лимон 🍋 - инновационное производство с глубоким внедрением Искусственных Интеллектов…
😁8❤3 3
Порой замечаю у людей адский хейт к airflow
Для меня это удобный инструмент, правда мне обычно нужно от него десятка три dbt run / dbt test да пара-тройка кастомных интеграций.
А какое у вас отношение?
И если не старичок, то кто?
Для меня это удобный инструмент, правда мне обычно нужно от него десятка три dbt run / dbt test да пара-тройка кастомных интеграций.
А какое у вас отношение?
И если не старичок, то кто?
❤4 4🔥2
Архитектор Данных
Порой замечаю у людей адский хейт к airflow Для меня это удобный инструмент, правда мне обычно нужно от него десятка три dbt run / dbt test да пара-тройка кастомных интеграций. А какое у вас отношение? И если не старичок, то кто?
Вдогонку.
Мой главный вопрос к старичку Airflow это то, что он стал слишком сложный.
С каждым мажорным релизом он становится еще сложнее. Вот в единичке и двойке были всем известные проблемы с шедулером - зависает, собака. Так давайте его в тройке распилим на несколько подсервисов. И еще даг процессор унесем отдельно чтоб один тяжело написанный даг файл не унес с собой в могилу весь сервис.
В моменте это даже нормальные решения. Но то что в итоге получилось это то ли 7, то ли 9 сервисов, которые надо размещать, управлять, за которыми надо следить.
Потом во все это залетают Vault для кредов, keycloak для аутентификаций, эластика или s3 для логов, сложные github/gitlab CI-CD для управления дагами. Потом все это надо повторить на нескольких QA-Test средах. Отдельное приключение - управление сложными питонячьими окружениями во всем этом.
Некоторые “умельцы» добавляют в это месиво еще своей сложности - например для синхронизации нескольких команд, которые на разных стадиях обслуживают один пайп данных. Для чего делают свои оркестраторы поверх этого оркестратора.
Дата инженерам не то чтобы комфортно, у ДевОпсов вскипает мозг от того, сколько всего надо сделать, чтобы весь этот жуткий зоопарк завелся.
И тут ты понимаешь, что все это нужно чтобы фактически запустить умный крон с граф интерфейсом. Траблшутнуть что-то по логам, поправить и перезапустить упавшее под-деревце из твоего куста. И твой проект не такой уж сложный, чтобы это все оправдать. Да и за мис по SLA или DQ не то чтобы отвезут в лес в пакете. Тогда зачем этот мудреный комбайн?
Решено, делаю свой оркестратор!
Мой главный вопрос к старичку Airflow это то, что он стал слишком сложный.
С каждым мажорным релизом он становится еще сложнее. Вот в единичке и двойке были всем известные проблемы с шедулером - зависает, собака. Так давайте его в тройке распилим на несколько подсервисов. И еще даг процессор унесем отдельно чтоб один тяжело написанный даг файл не унес с собой в могилу весь сервис.
В моменте это даже нормальные решения. Но то что в итоге получилось это то ли 7, то ли 9 сервисов, которые надо размещать, управлять, за которыми надо следить.
Потом во все это залетают Vault для кредов, keycloak для аутентификаций, эластика или s3 для логов, сложные github/gitlab CI-CD для управления дагами. Потом все это надо повторить на нескольких QA-Test средах. Отдельное приключение - управление сложными питонячьими окружениями во всем этом.
Некоторые “умельцы» добавляют в это месиво еще своей сложности - например для синхронизации нескольких команд, которые на разных стадиях обслуживают один пайп данных. Для чего делают свои оркестраторы поверх этого оркестратора.
Дата инженерам не то чтобы комфортно, у ДевОпсов вскипает мозг от того, сколько всего надо сделать, чтобы весь этот жуткий зоопарк завелся.
И тут ты понимаешь, что все это нужно чтобы фактически запустить умный крон с граф интерфейсом. Траблшутнуть что-то по логам, поправить и перезапустить упавшее под-деревце из твоего куста. И твой проект не такой уж сложный, чтобы это все оправдать. Да и за мис по SLA или DQ не то чтобы отвезут в лес в пакете. Тогда зачем этот мудреный комбайн?
Решено, делаю свой оркестратор!
😁12👍5 5 5 3
Forwarded from Соня Рыбак | HR for Tech
TechCrunch: AI команду Meты сравнили с Гулаг
Сложно представить такие статьи на наших ресурсах. Что где-то бунт, где-то что-то криво, или какой-то косяк в процессах вроде Амазона и выпущенного письма раньше времени.
У нас инфляция 2 процента и безработицы нет. Ладно. Не хочу флеймить. Просто моментное размышление.
Теперь к Meta. В чем весь цимес. Сотрудников без права отказаться перевели в новый отдел Apllied AI. 6 500 инженеров и продактов.
Людей, которые делали продукты, перевели на поддержку ИИ. Теперь они генерят пазлы и задачи по программированию для обучения ИИ.
Ты был инженером продукта, а теперь делаешь задачки для модели.
Сами сотрудники называют себя призывниками, пишут что такая работа убивает душу, и это буквально гулаг.
На этой неделе кто-то сорвал презентацию для сотрудников. Ворвался с матерной тирадой и попросил передать руководителю Meta AI, что тот a piece of sh*t.
Такие дела.
Народ обсуждает, что ИИ заменит инженеров. Но пока инженеров ставят на лейбелинг и гловоломки. Хотя, возможно, это нужный промежуточный шаг. Просто организовать его, возможно, стоит не как микроскопом по гвоздям.
🔥 — невыносимая тяжесть бытия в Meta
👍 — а как вы хотели, без обучения AI невозможен
💜 — а может будет как с Metaverse
Сложно представить такие статьи на наших ресурсах. Что где-то бунт, где-то что-то криво, или какой-то косяк в процессах вроде Амазона и выпущенного письма раньше времени.
У нас инфляция 2 процента и безработицы нет. Ладно. Не хочу флеймить. Просто моментное размышление.
Теперь к Meta. В чем весь цимес. Сотрудников без права отказаться перевели в новый отдел Apllied AI. 6 500 инженеров и продактов.
Людей, которые делали продукты, перевели на поддержку ИИ. Теперь они генерят пазлы и задачи по программированию для обучения ИИ.
Ты был инженером продукта, а теперь делаешь задачки для модели.
Сами сотрудники называют себя призывниками, пишут что такая работа убивает душу, и это буквально гулаг.
На этой неделе кто-то сорвал презентацию для сотрудников. Ворвался с матерной тирадой и попросил передать руководителю Meta AI, что тот a piece of sh*t.
Такие дела.
Народ обсуждает, что ИИ заменит инженеров. Но пока инженеров ставят на лейбелинг и гловоломки. Хотя, возможно, это нужный промежуточный шаг. Просто организовать его, возможно, стоит не как микроскопом по гвоздям.
🔥 — невыносимая тяжесть бытия в Meta
👍 — а как вы хотели, без обучения AI невозможен
💜 — а может будет как с Metaverse
😁9❤2👏2
Соня Рыбак | HR for Tech
TechCrunch: AI команду Meты сравнили с Гулаг Сложно представить такие статьи на наших ресурсах. Что где-то бунт, где-то что-то криво, или какой-то косяк в процессах вроде Амазона и выпущенного письма раньше времени. У нас инфляция 2 процента и безработицы…
Пойду скажу своим аналитикам, что если будут косячить, переведу их в ИИ-Гулаг
(А у любой Великой Стройки есть свой ГУЛаг)
(А у любой Великой Стройки есть свой ГУЛаг)
😁16
Кто чем занят, а я подловил Клода на задаче расположения 4 городов на поверхности Земли, так чтобы они были максимально удаленными.
Сначала сказал, что будут вершины тетраэдра, но это неверно!
Сначала сказал, что будут вершины тетраэдра, но это неверно!
😁5👾3 2✍1 1