Архитектор Данных – Telegram

Архитектор Данных

@analyticsfromzero

912 subscribers

111 photos

6 videos

2 files

86 links

Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky

Download Telegram

About

Blog

Apps

Platform

Архитектор Данных

912 subscribers

Архитектор Данных

Пара конфовых фото

1❤12👍96

956 views17:31

Архитектор Данных

Forwarded from Мысли CEO вслух | Юниверс Дата

🔠

🔠

🔠

Вчера в Санкт-Петербурге записал потрясающий эфир с Алексеем Белозерским — руководителем Big Data Services VK Cloud, VK Tech и автором канала Архитектор данных. Говорили о самых передовых темах современного управления данными:

- Lakehouse и его роль в управлении данными, заменит ли он DWH?
- ИИ в Data Governance — как найти правильную комбинацию
- Парадокс self-service аналитики — почему не всё так просто
- Концепция "chat with your data" и её практическое применение
- Open Source vs Commercial — вечная дилемма, что выбрать. Плюсы и минусы.
- Образование — онлайн курсы vs фундаментальные знания

Думаю, сегодня закончим монтаж и завтра эфир уже будет доступен. Алексей очень глубоко погружён в тему, так что будет интересно!

А пока — продолжаю рубрику #закулисами

Как и обещал, делюсь новыми возможностями наших релизов. Сегодня на очереди крутая фича DG — создание активов без черновика.

Казалось бы, мелочь, а на практике серьёзно ускоряет работу дата-аналитиков и steward'ов.

Следите за обновлениями — завтра эфир, а релизы продолжаем готовить!

#мыслиCEOвслух #закулисамиl

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍16❤75🔥2

844 views19:19

Архитектор Данных

Появилась запись огненного интервью с Владом Каменским, CEO Юниверс Дата.

Из разобранных тем:

- LakeHouse против DWH (или нет).
- ИИ и классический Data Governance: друзья или враги?
- Пара слов о построении КХД для небольшой компании

И много других интересных вопросов.

Видео доступно по ссылке.

Обязательно подпишитесь на канал Влада

Отдельная благодарность - за подеренную книгу.

❤95👍4👏3

852 views16:45

Архитектор Данных

Text to SQL (не) работает

Согласен с коллегами (см репост)

Мы хотим решить режимом аналитического диалога. В процессе работы белковый аналитик также задает бизнесу уточняющие вопросы и действует в зависимости от этих уточнений.

Эту часть также можно во многом автоматизировать.

Пример: на вопрос «как вывести на рынок новый продукт» предложить проанализировать примеры успешных запусков. А дальше продолжить раскапыванием особенностей динамики продаж успешных кейсов.

Удержание контекста, примеры успешных диалогов, понимание структуры компании, чем конкретно занимается заказчик и какая у него внутренняя терминология включая жаргонизмы. Задача сильно сложнее чем просто «эй, чат, напиши мне запрос», но в совокупности взлетабельно.

6🫡3❤2

678 viewsedited 06:50

Архитектор Данных

Forwarded from LEFT JOIN

Почему Text 2 SQL не работает?
Ко мне иногда приходят разные знакомые и говорят, что у них есть концепция Text 2 SQL или LLM-генератора SQL-кода — мол, классная идея для бизнеса, можно ее попродавать.

И вот наконец я понял, почему идея «пусть бизнес пишет запросы на естественном языке» не взлетает и не взлетит.

На бумаге все красиво. Даешь ИИшке команду: «Покажи выручку за август по городам», получаешь результат.

На практике же имеем несколько иной сетап: никто из бизнес-менеджеров не хочет и не может задавать правильные вопросы к данным.

Причина кроется в подмене понятий, за которую сами бизнес-менеджеры обычно аналитика и ругают. Так вот, написание SQL — это не основная работа аналитика. На самом деле аналитик занимается мыслительным трудом: как раз пытается разобраться, какие вопросы вообще стоит задать, чтобы понять, что там у бизнеса пошло не так. SQL — лишь удобный интерфейс для формулировки гипотез. Его просто изучить, но логика за пределами SQL.

И, соответственно, вторая часть проблемы: многие бизнес-менеджеры в большинстве случаев не обучены мыслить аналитически, эту часть работы они делегировали аналитику, чтобы он за них подумал. Они сами не думают в контексте данных, структур или понимания взаимосвязей. Именно поэтому LLM-промпты в виде «SQLGPT для маркетологов» и не взлетают.

🔜

AI может перевести вопрос в SQL, но не может придумать сам вопрос, который имеет смысл для бизнеса.

Сейчас мы на этапе следующего шага — передать LLM формирование вопросов и гипотез, а затем уже написание необходимого кода и SQL-запросов для решения аналитической задачи.

А пока просто осознаем, что произошла гиперинфляция хардскиллов. А вот мыслить и генерировать ценные инсайты — тот самый навык, который был и есть востребован в аналитиках.

Please open Telegram to view this post

VIEW IN TELEGRAM

💯14❤2👍22

697 views06:50

Архитектор Данных

Forwarded from topdatalab (Roman Zykov)

Две плохие новости за последний месяц: Fivetran купила SQLMesh и dbt.

Почему это плохо.
SQLMesh относительно молодая компания, ей около трех лет. То, что ее продали, означает, что они не смогли сделать выручку или не хватило амбиций фаундеров.
Думаю, что сейчас фаундеры SQLmesh ходят грустные.

Про dbt не скажу, но SQLMesh наступала ей на пятки.
И такая консолидация плохо повлияет на развитие инструментов.

💯74🤔1

785 views04:20

Архитектор Данных

Две плохие новости за последний месяц: Fivetran купила SQLMesh и dbt. Почему это плохо. SQLMesh относительно молодая компания, ей около трех лет. То, что ее продали, означает, что они не смогли сделать выручку или не хватило амбиций фаундеров. Думаю, что…

DBT - один из самых полезных инструментов для инжиниринга данных.

Видимо, пришло время сделать свой аналог, свободный от окукливания большими жадными корпорациями. Заодно проделать работу над ошибками, потому как некоторые вещи ужас как неудобно делать.

Расскажите, что для вас удобно и неудобно в DBT и SQL Mesh.

6✍2❤2👍1

883 views04:52

Архитектор Данных

Следующее пристанице самурая данных - Форум "Открытые Данные", Казань 30-31 октября.

Докладываю о современных подходах к построению облаков данных.

https://opendataforum.ru/

👍113❤2

777 views05:33

Архитектор Данных

Мясная статья от коллег с измерением скорости Lakehouse движков

https://habr.com/ru/companies/cedrusdata/articles/955896/

Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех

Clickbait-картинка В этой статье мы детально рассмотрим поведение аналитических движков при выполнении TPC-DS запроса Q1 на одном узле. Этот ограниченный тест даст нам столько информации к...

👍10😁5❤2

1.34K views15:12

Архитектор Данных

В музее Москвы нашел занятия для джунов-архитекторов.

😁17❤52

692 views07:06

Архитектор Данных

😭21💯11🤣10

790 views06:04

Архитектор Данных

А с типичным российским энтерпрайзом некоторые технологии уйдут в легаси не успев пройти согласование ИБ 😄

😭16💯9🔥6👍3

735 views08:02

Архитектор Данных

Гениальная самоирония

😁27🤔3⚡2👀2

2.31K views06:37

Архитектор Данных

Хорошая англоязычная картинка про тренды в Лейкхаусе

🔥11👍31

588 views06:30

Архитектор Данных

На вот этот вебинар запишитесь!

https://cloud.vk.com/events/migraciya-prilozheniya-kak-perenesti-infrastrukturu-s-monolita-v-upravlyaemyj-kubernetes-v-oblake

Ведут два абсолютных "отца" кубера и облачных миграций.

В прямом эфире показываем на реальном примере перенос приложения в Kubernetes с сервисом Cloud Containers. Разбираем распространенные типичные ошибки при миграции.

Сам точно буду смотреть, так как местами мои познания в кубернетесе оставляют желать, а в Лейкхаусах он ой как нужен.

👍6✍2❤1

494 viewsedited 10:26

Архитектор Данных

Написали большой хабрапост о внутрянке формата айсберг.

Постарался раскрыть вопросы

1️⃣Как перейти от навала файлов в S3/HDFS до хорошего Data Lake[House]

2️⃣Зачем нужны все эти сложности с вложенной древовидной метадатой

3️⃣Откуда берется ACID в не ACID-ном хранилище S3.

4️⃣Какие процедуры поддержки требуется применить к DLH на айсберге.

Вопросы как всегда можно задать в коментах.

Please open Telegram to view this post

VIEW IN TELEGRAM

Больше чем просто данные в S3. Iceberg как основа архитектуры Next-Gen КХД

Традиционные форматы хранения данных постепенно перестают удовлетворять требованиям современных распределенных вычислений и аналитики больших данных. Каскадные обновления метаданных, проблемы...

🔥12❤5✍1👍1

569 views14:07

Архитектор Данных

Архитектор Данных

Написали большой хабрапост о внутрянке формата айсберг. Постарался раскрыть вопросы 1️⃣Как перейти от навала файлов в S3/HDFS до хорошего Data Lake[House] 2️⃣Зачем нужны все эти сложности с вложенной древовидной метадатой 3️⃣Откуда берется ACID в не ACID…

Материалы хабрастатьи есть в видео формате:

https://t.me/analyticsfromzero/246

Архитектор Данных

Запись вебинара

https://vk.com/video-164978780_456239739

🔥9❤2👍22

470 views06:07

Архитектор Данных

Вот так новости

Workspace - корпоративный мессенджер, который ставится в инфраструктуру вашей компании (а еще корп почта, звонки, таск-трекер, облако для файлов, офис и тд)

Макс - все знаем что

Можно будет создать чат с подрядчиком или кандидатом, в котором будут с одной стороны внутри-корповые учетки, доступные из VK Workspace / Teams, а с другой стороны - внешние люди из Макса.

Это как если в корп слак можно было бы добавить по приглашению рандомных людей из телеги и переписываться бесшовно для всех участников.

Как по мне - удобно, я порядком замучался копипастить разную информацию из корпового мессенджера в телегу и обратно 😄

🤡12👏7👍4❤3💩3💊3⚡1

464 views11:00

Архитектор Данных

Мессенджер Макс как кладбище
Все там будем

11😁18❤1👌1🤡1🤨1

447 views17:02