Архитектор Данных
1.8K subscribers
272 photos
21 videos
3 files
204 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Архитектор Данных
Молния! Срочно в номер!
А как вы хотели?

Через лет несколько существенный процент зп среднего разработчика будет тратиться на токены и подписки нейронок. З/п мидла на рынке в Европе 4-6к долларов/евро, значит 1-2 тысячи будете отстегивать в провайдера нейронок. Вы или ваша компания.

Очевидно что подписка $20 не может окупиться и существует только для того, чтобы вы в сервисе увязли как следует.

На месте компаний и команд, особенно российских, я бы крепко думал, как сейчас обзавестись своими достаточно качественными сервисами по кодовым агентам и необходимой инфраструктурой. Научиться пользоваться опенсорс моделями, которые хуже, но несут ценность. Настроить гардианы и определить берега когда можно в SaaS нейронку, а когда строго в свою корпоративную.

Это критически важная инфраструктура если у вас больше 10 разработчиков.

Начальный прайс пока еще в районе 1 млн рублей на команду, это 2 человека-мидла ФОТ. Недорого пока еще.

Бигтехи в этой игре уже год, пора и мидл-теку подтягиваться.
1💯1211
Ваша любимая категория:
7😁52
Типы внедрения ИИ платформ в энтерпрайзе


1. Статусное потребление

Гелик или ламбу покупают не за то, что это лучшая машина на свете, их покупают, чтобы все вокруг знали, что владелец может комитнуть большие деньги на оверпрайснутую игрушку. ИИ-платформа - оверпрайснутая игрушка. Какая там самая дорогая ИИ на рынке? Все равно что она ничего не может, я сказал, какая самая дорогая?


2. Архитектурная эхопраксия

Гугл что-то внедрили? Нам тоже надо!


3. HR Эхопраксия

У нас нет собственной ИИ платформы! Нам нечего предложить нашим разработчикам! К нам не пойдут звезды, нам же нужны такие кодеры как звезды, что светят в небе до утра!


4. Мегаломания

Я, МЛ-Лорд, пришел работать в энтерпрайз для больших проектов! Мне нужен большой проект для моего большого CV и большого попила


5. Пнем банку дальше по дороге

Да, мы знаем, что наши текущие модели барахло, а МЛ-щики занимаются ерундой, а мы, МЛ-Лорда получаем бонусы ни за что. Но вот когда мы внедрим ИИ-платформу через 1 год (3 года), тогда мы уххх! Разорвем рынок!

Ну а через 3 года либо ишак, либо падишах, и к нам никаких вопросов.

Над каким типом трудитесь вы?

-------------------------------------------
-- Ранее - Типы кокосовых менеджеров
-------------------------------------------
👏8😁6👍5
Открыли страницу для записи на курс по Clickhouse. Старт - 28 мая.

Одна из самых популярных СУБД для аналитики и предмет многих и многих мнений и холиваров. Но будь вы сениор DA, DE, архитектор или даже CDO - у вас Кликхаус точно будет: если не в архитектуре, то в обсуждении.

Задача курса - разобрать по полочкам, где кликхаус применим хорошо, где - с настройками и тюнингом, а где точно нет. Также разберем приемчики и кликхаус-специфичные фишки для DA, DE, DWH-архитекторов.

Будут демо стенды, на которых построим датасеты и пайплайны.

Записаться можно сейчас, а финальное решение принять в конце мая. А все вопросы задать кураторам.

https://devhands.ru/clickhouse
👍104👌3
Посетил митап HF Labs - им уже 21 год как компании, ничего себе. Фото такое, потому что единственное место, где нашел их лого

Была большая дискуссия на тему как правильно отвечать за качество и целостность данных.

Больше всего понравилось, что бинес и дата офис отвечают за данные в пропорции 100/100 🫢
8🔥62
Бизнес и CDO определяют, чей косяк в данных
😁20😭32
Сегодня Вальпургиева ночь
😱8😁5😈3🎉2👀2
Замечательная история как агент удалил прод базу.

Это ты думаешь, что агент не может удалить прод базу потому что у него нет ключей к прод базе.

А на самом деле у агента Смита есть ключи к облаку, с помощью которых он может выпустить себе ключи к прод-базе и удалить прод-базу.

Длинная версия есть у коллеги.

Выводы - не давай обезьяне гранату. Не давай обезьяне ключи от склада, где лежат гранаты. И вообще следи за кредами сильно пристальнее чем раньше.

Нет, то что ты в своих md-файликах напишешь «Дорогая обезьяна, пожалйста не бери гранаты, не взрывай гранаты» тебе не сильно поможет.

И кстати, более умные гардианы доступов, которые предотвратят или хотя бы стопнут потенциально деструктивные действия обезьян будут в тренде и в рынке уже очень скоро.

Как и аудиторы доступов и пентесты.
👍97💯2🙏1
А вы когда в последний раз просили прибавки?
😁22🤬5💯5
Архитектор Данных
А вы когда в последний раз просили прибавки?
Как интересно состарилась фраза «Поднимешь красный флаг»
😁9👌3👍2🔥1😭1
Важный опрос

Ситуация близкая к реальной.

Команда пишет энтерпрайз софт. Софт едет к заказчику в виде подписанного всеми печатями чистоты дистрибутива. Ставится и в первый же день падает из-за бага. По мнению заказчика, работать с этим багом нельзя.

Наступает этап разбора полетов, к уважаемым людям (УЛ) вызывается тимлид и ему задают вопрос: «Как так вышло, мил человек?»

УЛ: Должны были этот кейс протестировать?
Т: Да, должны
УЛ: Так а почему не?
Т: Для теста Нужна была инфраструктура. Я написал письмо в отдел инфраструктуры, мне никто не ответил. Поэтому и не протестировали.

Как оцениваем тимлида?

- Норм (ну а чо они)
- Сказочный …

Выскажитесь в комментариях
👍8😁42
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8👍3💯3
Архитектор Данных
Задачка на собес Рынок шоколадок в натуральном выражении -15% в килограммах. А в денежном выражении +14% в рублях. Какая инфляция шоколадок? Цифры из реальной новости
Строго - это верно.

Из данных можно сказать изменение средней цены 1 грамма шоколада, и оно равно +34%. В коментах есть детали

Но это не равно строго инфляции, так как не учитывает, к примеру, микс качества шоколадок. Если в прошлом периоде мы ели низкокачественный, а в этом периоде среднее качество выше, то рост средней цены не равно инфляция.

Но, честно, я вряд ли верю, что россияне вдруг в 25-м году набросились на швейцарский шоколад. Или в целом повысили качество потребляемого шоколада против 2024.

Так что +34% вполне хорошая оценка на коротком промежутке времени.
👍10👏31
Какое-то время уже не в ВК
1😁32👍166🤯2💔2
Прикольный слайд про суперциклы в IT. Интересно - какой будет следующий. Ваши варианты?
👨‍💻6👍4
Forwarded from Клуб CDO
В новую эпоху GenAI и LLM данные стали еще более ценным и важным ресурсом от которого зависит качество работы агентов.

Разница лишь в том, что раньше экспертиза и участие в процессе человека компенсировала недостаток качества данных, а ИИ, наоборот, каждую ошибку в данных может усилить и экстраполировать не задавая вопросов и не испытывая сомнений.

Раньше между сырой таблицей и бизнес-решением всегда стоял аналитик. Он знал, что в этой таблице выручка считается без возвратов, а в той - с возвратами. Помнил, что финансовый квартал кончается 28-го, а не 30-го. Умел сказать «это число выглядит странно, давайте перепроверим». Его экспертиза компенсировала кривизну данных.

LLM-агент таким фильтром не является и не будет. Он не сомневается, не спрашивает коллегу, не перепроверяет. Берёт первую правдоподобную таблицу с похожим названием, пишет правдоподобный SQL, возвращает уверенный ответ. С отличным форматированием и без единого вопроса.

В этом разборе Modern Data 101 хорошо показаны пять точек отказа на тривиальном вопросе «какой был рост выручки в прошлом квартале»: определение выручки, определение квартала, выбор источника среди трёх таблиц с одинаковым именем, актуальность данных, аудируемость ответа. Аналитик прошёл бы через эту же мину и заметил все пять. Агент проедет, не моргнув.

Автор статьи, конечно, ведёт к своему продукту - он сооснователь компании, делающей платформу для тех самых дата-продуктов, которые он рекомендует строить. Понятный интерес. Но диагноз эпохи от этого интереса не зависит: проблема enterprise AI - это не проблема моделей. Модели за прошлый год выросли драматически, и проблема не ушла. Слой компенсации между данными и решением исчез, а слой источника никто не починил. Раньше можно было держать данные в относительно сыром состоянии, потому что между ними и реальностью была человеческая экспертиза. Теперь так нельзя.

Хороший повод вернуться к скучным разговорам про data quality, контракты, lineage и семантический слой. Не потому что это модно, а потому что без этого автоматизация превращается в автоматизацию ошибок.

https://moderndata101.substack.com/p/data-products-the-essential-context
👍11👌52
Услышал на днях метафору про ИИ, и особенно про вайбкодинг. Это казино!

Ты не пишешь код - покупаешь токены вместо фишек, жмёшь "Генерировать" вместо рычага однорукого бандита и ждёшь, что выпадет. То ли рабочее приложение, то ли мусор, который дешевле выкинуть, чем чинить.

Мигающие лампочки, бойкие анимации, "Бинго", "Клёвая идея". Агент хвалит каждый твой ход. Иногда правда выходишь с джекпотом - фича за вечер, прототип к утру. А иногда сливаешь день и три часа дебага на то, чтобы потом откатить всё то, что он нагенерил.

Сам ловлю себя на этом, когда пять раз подряд генеришь одну и ту же логику с верой "вот сейчас точно заработает".

И самое смешное - после пары удач начинаешь верить, что у тебя стратегия игры. Что ты-то уж не просто дёргаешь однорукого бандита - ты "мастер вайбкодинга". Что это казино ты обыграл и собрал себе всё сам - абсолютно бесплатно.

Играть можно и нужно. Главное - помнить, во что играешь. Бюджет ставь заранее - не только в токенах, но и в часах и нервах. Особенно когда хочется отыграться. 😂

А ты на чём ловил себя в этом казино?
😁11💯83💩2
Архитектор Данных
Linkedin забанил опрос про тимлида

Спасибо всем проголосовавшим здесь! Отдельно спасибо за результаты, они сильно отличаются от среднего эффекта, который производит заданный вопрос.

Обычно как минимум несколько как-бы-тимлидов начинают с пеной у рта отстаивать свою позицию, а молчаливое меньшинство делится в пропорции примерно обратной полученной в канале.

Разбор ситуации сделаю в форме видео, а то иначе это будет прямо огромная простыня текста. А еще есть идея с кем-то из будущих гостей подкаста разобрать в режиме беседы.
😁7😐3👍2👏2