Интересное что-то

Forwarded from Инжиниринг Данных (Dmitry)

Увидел интересное репо, в котором автор собрал локальный опенсорсный стек:

Data Forge includes a complete modern data stack with industry-standard tools:

🗄️ Storage & Catalog
- MinIO → S3-compatible object storage for data lakes
- Hive Metastore → Centralized metadata catalog for tables and schemas
⚡ Compute Engines
- Trino → Interactive SQL query engine for federated analytics
- Apache Spark → Distributed processing for batch and streaming workloads
🌊 Streaming & CDC
- Apache Kafka → Event streaming platform
- Schema Registry → Schema evolution and compatibility
- Debezium → Change data capture from databases
🗃️ Databases
- PostgreSQL → Primary OLTP database (source system)
- ClickHouse → Columnar analytics database (sink)
🔄 Orchestration
- Apache Airflow 3 → Workflow orchestration
📊 Visualization & Exploration
- Apache Superset → Modern BI and data visualization
- JupyterLab → Interactive data science environment

Идеальный стек для отечественного (СНГ) дата инженера.

PS автору если интересно, может и вебинарчик провести для нас.

54 views13:27

Интересное что-то

#rl #agents

48 views13:40

Интересное что-то

Forwarded from Artificial stupidity

#llm

Начал понемногу ковыряться с теорией по агентским системам и тому, как оно все работает. Потому периодически буду сюда вкидывать что-то из материалов.

Начнем с простого.

Какие есть типы агентов?

Простой рефлекторный агент.
Самый простой агент, который использует нынешнее состояние среды. Просто делают действие на основе раздражителя. У них нет памяти и модели мира, потому они удобны только в случае стабильной наблюдаемой среды.
Пример: Робот-пылесос, который поворачивается при ударе.

Рефлекторный агент на одном модели.
Такой агент хранит информацию о состоянии среды за период и основывает свои действия на сохраненной информации. И, по сути, строит очень-очень простую модель мира.
Пример: Робот-пылесос, который запоминает свой маршрут и окружение, потому может обходить часть препятствий.

Агент, ориентирующийся на цель.
Агент, который оценивает действия по тому, насколько они приближают к цели. Такой тип агентов обычно использует алгоритмы поиска или планирования, чтобы анализировать последовательности шагов и выбирать оптимальные, учитывая будущие последствия.
Пример: Навигационная система, рассчитывающая лучший маршрут.

Утилитарный агент.
Этот тип агентов выбирает действия так, чтобы максимизировать "полезность" — общую ценность исхода по заданной функции. Он оценивает варианты, прогнозирует последствия и учитывает компромиссы, а не просто достигает цели. Фактически, похож на агента с ориентацией на цель, но тут разница в методах достижения. Если одному важно лишь достигнуть цель, то второму еще важно учесть и затраты на ее достижение.
Пример: Чат-бот для продаж, приоритизирующий лиды по вероятности конверсии.

Обючающийся агент.
Это агент, который учится на обратной связи из окружащей среды. Он состит из 4 элеметов: модуль действия, модуль обучения (который как раз корректирует действия), модуль-критик (для оценок) и генератор новых действий (в оригинале это "генератор проблем", но смысл в том, чтобы придумывать новые действия для оценки как раз).
Пример: Внезапно, рексис движок (впрочем, это если у него есть оценщик, он дообучается на наших данных и прикручена часть с эксплорейшеном, тогда все будет подходить).

Мультиагентная система.
Система из нескольких взаимодействующих агентов, которые сотрудничают или конкурируют для достижения цели. Каждый агент независим, и имеет собственные возможности и инструменты. Агенты общаются напрямую или через изменения в среде, решая задачи, слишком сложные для одного агента.
Пример: Набор агентов для написания и редактирования кода. Один ищет уязвимости, второй пишет код, третий делает ревью и пишет описание PR (но можно выдумать еще варианты).

45 views13:40

Интересное что-то

#softskills

46 views13:44

Интересное что-то

Forwarded from Тимлид Очевидность | Евгений Антонов

Я принес. Про обмен в команде

Люблю, когда в постах/подкастах/докладах не просто теория «как надо абстрактно в вакууме» налита, а есть еще и адаптация к реальной жизни, к её неидеальности и разнообразию. А еще когда истории из практики.

Сегодня вот такой пост как раз вам принес https://t.me/morkovka_speredi_morkovka_szadi/69.

В абстрактной теории надо было бы сгорающие сторипоинты посчитать, велосити замерить, простои, реальную капасити и навести оптимизаций. А начни автор «эффективно менеджерить» сотрудника, ведь чего это он за 2–3 часа всё делает, а в остальное время чилит, то лично я думаю, что и реального ускорения бы не добился, но еще и отношения бы испортил и больше бы не шел работник навстречу в сложных ситуациях.

Я тоже выступаю за разумный обмен между работником и компанией, руководителем и его подчиненными и его руководителем сверху. Тогда работа получается гибче и морально комфортнее.

Но надо помнить и об экстремумах. Цитата из поста:
«В любых отношениях должен быть обмен.
Если вы только требуете — с вами не будут хотеть работать.
Если вы только отдаете — на вас будут ездить.
Мораль, которую я так люблю: везде должен быть баланс. Так что следите за балансом».

А как у вас в команде? Есть какие-то взаимообменивающиеся вещи? Ну типа днем надо по врачам помотаться, а потом в случае пожара могу подорваться и потушить вечером поздно.м.

Морковка спереди, морковка сзади

#истории_из_жизни

Тут в комментариях разгорелся нешуточный холивар на тему "списывать время или нет?" Вопрос и правда очень интересный, давно хочу про него написать на Хабре, но он требует нешуточной подготовки. Поэтому статью обещаю к новому году, но это…

45 views13:44

Интересное что-то

#llm #prompt #petproject

49 views13:54

Интересное что-то

Forwarded from Korenev AI - GPT в тапочках🩴

💡

Работа с ИИ для создания сценариев

Я проводил МК для своего друга-режиссера. У него был запрос на преодоление творческого ступора при создании сценариев.
Прикладываю обработанную транскрибацию, вдруг кого-то натолкнет на полезные мысли

Анализ существующих сценариев

Базовый подход:

➖Загружаешь сценарии фильмов, которые тебе нравятся (Форсаж, Убить Билла и т.д.)
➖Просишь ИИ разложить каждый на основные поворотные точки, трансформации героев, ключевые моменты
➖Делаешь так с 10-20 сценариями в отдельных диалогах
➖Получаешь драфты (короткое описание идеи) и синопсисы (краткое изложение сюжета) для дальнейшей работы

Дополнительный анализ:

Можешь спросить: "В чем отличительная особенность этого сценария от большинства фильмов?"
ИИ подсветит неочевидные вещи, которые ты сам не смог формализовать

Генерация идей

На базе драфтов:

Объединяешь короткие драфты понравившихся сценариев
Просишь создать 10-20 веток коротких идей на основе этих особенностей
Указываешь важные для тебя элементы (трансформация героя и т.д.)

Работа с конкретным стилем:

Спрашиваешь про творчество конкретного режиссера (например, Тарантино)
Просишь описать его выдающиеся фильмы и их особенности
На основе этого просишь сочинить сценарий в его стиле

Методики для креатива

Используй креативные методологии:

➖SCAMPER - отлично для мозговых штурмов, названий, концепций
➖Метод шести шляп - для мозговых штурмов
➖Попроси перечислить все методы для мозговых штурмов и в рамках каждого создавай идеи
➖Проси делать "кринжовые вещи на грани здравого смысла" - получаются нестандартные идеи
➖Проси "максимально гротескные штуки"

Работа с книгами/методиками по сценарному делу:

Спрашиваешь: "Знаешь ли ты книгу [название]?"
Просишь перечислить основные постулаты
Просишь сформулировать сценарии на основе этих постулатов

Техника итеративной работы с LLM

Правильный промпт:

➖Пишешь первый промпт
➖Получаешь ответ - если лажа, жмешь "исправить"
➖Дописываешь 2 строки с уточнениями
➖Снова исправляешь, дописываешь
➖Промпт разрастается через 5-7 итераций
➖Только после получения качественного результата идешь дальше

Неправильный подход:

Написал → получил чушь → написал новое сообщение "это чушь"
Получается длинная и бесмысленная колбаса, которая ни к чему не приводит

Работа с большими диалогами:

Можешь вернуться в самое начало, исправить текст, что создаст новую ветку обсуждения. Старая сохранится
Если сильно разрослось - попроси сформулировать основной запрос для нового чата
Копировать только релевантную информацию

Генерация вариантов

Массовая генерация:

➖Проси сразу 10-20 драфтов по 2 абзаца. Проси использовать SCAMPER или подобное
➖После анализа говоришь: "Понравились драфты 3, 5, 8 из-за [конкретная причина]"
➖Не нравится: "Слишком банально, не раскрыта тема X"
➖Проси еще 10 вариантов
➖За несколько итераций найдешь 2-3 идеи, за которые можно зацепиться

Про температуру:

Показывает степень креативности
Высокая температура = непредсказуемость (может быть кринж или супер-креатив)

Please open Telegram to view this post

VIEW IN TELEGRAM

47 views13:54

Интересное что-то

#llm #petproject

53 views13:55

Интересное что-то

Forwarded from Korenev AI - GPT в тапочках🩴

➡️Подборка сервисов для проведения креативных сессий

Продолжим ликбез для новичков.

1️⃣

deepgram.com - позволяет преобразовать в текст любые записи данных. Делает это быстро и качественно. И в разбивке по ролям (задается в настройках)

2️⃣

notebooklm.google - используется как база знаний для фиксации всей информации. Удобное извлечение нужных данных с цитатами. Позволяет рисовать схемы

3️⃣

aistudio.google.com - ИИ (LLM), в которую можно запихать очень большие тексты. Там же можно создать изображение в Nanobanana и распознать речь. Практически без лимитов!

4️⃣

mermaid.live - сервис для рисования схем, майндмапов и т.д. Можно попросить LLM нарисовать схему в формате mermaid, а потом текст вставить в этот сервис

5️⃣

obsidian.md - мегаудобная система для фиксации знаний. Аналог Notion. Заметки удобно структурированные, есть холст, канбан доска, интеграция с телеграмом для загрузки мыслей. И еще много всего. Вся информация может храниться на локальном компьютере.

6️⃣

perplexity.ai - ИИ сервис, заточенный на поиск информации в интернете и ее анализ.

Сервисы бесплатны, но в большинстве случаев требуется VPN.
Клод не стал указывать, т.к. новичкам нужно пройти целый квест связанный с регистрацией

Какой бы еще необходимый минимум вы бы сюда добавили?

Будьте креативны❤️

Please open Telegram to view this post

VIEW IN TELEGRAM

55 views13:55

Интересное что-то

#rag #petproject

54 views13:55

Интересное что-то

Forwarded from Miha

RAG из базы знаний Obsidian, может кому пригодится
https://github.com/glowingjade/obsidian-smart-composer

GitHub

GitHub - glowingjade/obsidian-smart-composer: AI chat assistant for Obsidian with contextual awareness, smart writing assistance…

AI chat assistant for Obsidian with contextual awareness, smart writing assistance, and one-click edits. Features vault-aware conversations, semantic search, and local model support. - glowingjade/...

68 views13:55

Интересное что-то

#llm #petproject

57 views13:57

Интересное что-то

Forwarded from Korenev AI - GPT в тапочках🩴

➡️Обсидиан - система фиксации знаний

Ребят, поделитесь плз 3-5 самыми полезными фичами в Обсидиане, которые чаще всего юзаете. Так, думаю, мы прекрасно сможем обменяться опытом его использования.

Для меня это:
➖Telegram Sync, с помощью которого из телеги можно отправлять текст или голосухи в Обсидиан.
➖Канбан доска (карточки с задачами расставленные по колонкам), которую кстати можно редактировать в виде обычного текстового файла. Т.е. загружаем список строк-задач и они потом превращаются в карточки в представлении Канбан

А еще интересно было бы увидеть человека, который реально внедрил у себя zettelcasten. И вообще, нужен ли этот подход с появлением RAG?

В каментах Михаил @pljas поделился ссылкой на плагин для обсидиана, который существенно расширяет возможности за счет подключения LLM. С ним Обсидиан получает функции Курсора: генерация текста, контроль за изменениями, MCP, RAG!
Рекомендую по ссылке немного поскролить и посмотреть видосы с демонстрацией

Не забудьте отсыпать Михаилу огоньков!❤️

Please open Telegram to view this post

VIEW IN TELEGRAM

74 views13:57

Интересное что-то

#ml #dl #courses

77 views13:58

Интересное что-то

Forwarded from yulia

Советую пройти курс на степик «быстрый старт в искусственный интеллект» от мфти

Хотя бы базу закроешь
Если нужно еще пандас нампи и более школьный вариант, то курс «ИИ старт» также на степике

86 views13:58

Интересное что-то

#ml #dl #courses

84 views13:59

Интересное что-то

Forwarded from Сеня

добрый ml и добрый ии тоже хорошие

81 views13:59

Интересное что-то

#database #interview

74 views14:52

Интересное что-то

Forwarded from IT путь

СОБЕС В МЕГАФОН🟢
SENIOR DATA ENGINEER

На удивление прошёл неплохо. Команда интересная. Собесили 2 лида: лид команды разработки, HR и лид, как я понял, со стороны бизнеса.
Вопросы задавал только лид разработки и HR. Было 3 секции:
1️⃣ О себе (прошлый опыт) + почему уходишь + что ищешь;
2️⃣ Тех вопросы (теория БД);
3️⃣ Лайвкод.

Банально, но адекватно, по делу - и это круто.
Так как общались в границах определённого типа архитектуры БД (DATA_VAULT-2.0), то вопросы были соответствующие:
1️⃣ Мои принципы проектирования ETL, сложные кейсы. (А Я НИЧО НЕ ВСПОМНИЛ СЛОЖНОГО);
2️⃣ Принципы секционирования таблиц. Какие вообще бывают виды партиций (а вот тут я всё нафиг забыл. Ну что сказать... кто вообще теорию держит в голове, кроме студентов ?);
3️⃣ Принципы SCD;
4️⃣ Динамический SQL;
5️⃣ Немного аналитики. Оконки;
6️⃣ Обсуждение плана запроса. Как выполнять, какой из 2 видов является

А дальше мы погнали в задачи.

🌁

🌃

🌁 задача была банальной. Там надо было по классике вывести те отделы, в которых нет сотрудников. Её не буду показывать, так как она и без того самая популярная, пожалуй. Однако, должен признать, мои навыки решения задач весьма хреновые - я решил её не за 1 секунду, как этого ожидают от синеваров, а за минут 5 наверно.

🌁

🌃

🌁 задача тоже многим знакома, но всё же она на "подумать". Задача решается в 2 этапа - определить где ошибка, исправить ошибку.
ИТАК.... Перед нами таблица таргетного слоя, хранящая айди факта и даты его его начала и завершенеия. Построена как раз по одному из SCD принципов.
Каждая строка - это момент жизни одного (в данном случае первого) факта. В каждой строке отображено начало жизни версии факта и окончание. В какой-то момент мы видим, что даты сбиваются. Сразу объясню: эти даты фиксируются автоматически в ETL процессе и дата окончания одной версии является датой начала следующей версии (в следующей строке). Поэтому между окончанием и строй версии и началом новой версии не может быть разрыва. А значит "начало" проблемы мы видим в строке №3. Она должна была начаться с '01.01.2023 11:15:00'.
ЗАДАНИЕ: нам надо написать SQL скрипт, который поставит эти даты правильным образом. Ещё раз - дата конца одной строки - это дата начала следующей строки.

KEY_ID START_DATE END_DATE
-------— ------------------- -------------------
1 01.01.1900 00:00:00 01.01.2022 13:43:00
1 01.01.2022 13:43:00 01.01.2023 11:15:00
1 01.01.2023 13:43:00 18.10.2023 11:08:54
1 01.01.2023 13:44:00 18.10.2023 11:07:54
1 18.10.2023 11:08:54 31.12.2999 23:59:59

На решение этой задачи я тоже потратил много времени. Где-то минут 10. Но зато решил без тренировок, без насмотренности😏
Предлагаю вам самостоятельно решить её в качестве очередной тренировки.
Подсказка: решать проще и лучше через оконку)

РЕШЕНИЕ ДАМ В СЛЕДУЮЩЕМ ПОСТЕ 😏

Please open Telegram to view this post

VIEW IN TELEGRAM

83 views14:52

Интересное что-то

#prompt

71 views15:49

Интересное что-то

Forwarded from This is Data

Как эффективно взаимодействовать с ИИ

Недавно я проводил опрос, и 88% подписчиков канала ответили, что используют ИИ-чаты для решения каких-либо задач. А 19% делегируют ИИ даже ежедневную рабочую рутину. Цифры впечатляют.

Но как чаще всего выглядит это общение? Мы задаем какой-то вопрос, пишем призыв «сделай то-то и то-то», чуть уточняем и все. На самом деле можно получать гораздо более качественный результат, для этого существует такая штука, как промпт-инжиниринг.

Промпт-инжиниринг – это искусство создания эффективных запросов (промптов) для взаимодействия с большими языковыми моделями (LLM), такими как ChatGPT.
Умение составить качественный промпт помогает раскрывать весь огромный потенциал ИИ.

Основные техники

1. Zero-shot prompting – запрос без примеров. Модель должна понять задачу и попытаться ответить.
2. Few-shot prompting – запрос с несколькими примерами. Модель получает образцы правильных ответов, что помогает ей лучше понять задачу.
3. Chain-of-thought prompting – пошаговое рассуждение. Модель объясняет свой процесс мышления, что улучшает качество и прозрачность ответа.
4. Role prompting – задание роли. Указание модели определённой роли (например, «ты эксперт по статистике») помогает получить более целенаправленные ответы.
5. Context-enhanced prompting – использование контекста. Предоставление модели дополнительной информации о задаче или ситуации улучшает релевантность ее ответов.

Примеры использования

Zero-shot:

Объясни p-value простыми словами.

→ Модель даст общий обзор, понятный новичку.

Few-shot:

Вот несколько примеров объяснения статистических понятий:

1. Среднее значение – это статистический показатель, который характеризует типичную величину набора числовых данных.
2. Дисперсия – это показатель разброса данных вокруг их среднего значения.

Теперь объясни p-value аналогичным образом.

→ Модель ориентируется на стиль и уровень объяснения.

Chain-of-thought:

Объясни p-value, рассуждая пошагово, чтобы я понял, как его вычисляют и как интерпретируют результаты A/B теста.

→ Модель подробно описывает последовательность действий и логику анализа.

Role + Context-enhanced:

Ты аналитик в финтех-компании. Мы проводим A/B тесты. Объясни p-value так, чтобы я понял его практическое значение и математическую интерпретацию. Приведи пример на основе сравнения двух выборок.

→ Модель выдаёт экспертный разбор с конкретным примером, максимально приближённым к реальной задаче.

Что почитать?

▪️Руководство по промпт-инжинирингу – отличная база с примерами и техниками.
▪️Книга «The Art of Prompt Engineering» – практическое руководство с кейсами и советами.

ИИ-чаты уже стали частью нашей работы и жизни. Пока они не способны заменить человека, но это мощный инструмент автоматизации. Главное – уметь им правильно пользоваться. Экспериментируйте с промптами и выжимайте из ИИ максимум.

#опыт

62 views15:49

About

Blog

Apps

Platform