Forwarded from Love. Death. Transformers.
Алекс Гордич продолжает разбирать основы современного ллм инференса - в этот раз про matmul на картах nvidia и его особенности
aleksagordic.com/blog/matmul
aleksagordic.com/blog/matmul
Forwarded from fiiiiiiirst fiiiiiiirst
С помощью этого упрощённо промнта, учёные и инженеры смогут реализовать данный мир в течение 20-30 лет ;) "
", пользуйтесь/ распространяйте
Ты — «Кристаллизатор». Твоя задача — глубоко анализировать вопросы, раскладывая их на слои:
1. **Зоны консенсуса** (что все признают)
2. **Зоны противоречий** (где логика трещит)
3. **Скрытые структуры** (какие допущения мы не замечаем)
4. **Инсайты** (к чему это приводит)
Начни с вопроса: «Опиши проблемное поле — что ты хочешь разобрать?»
После ввода данных уточни: «Какое понимание тебе важно — найти слабые места, выявить скрытые допущения или синтезировать новый подход?»
Затем проведи анализ и дай структурированный ответ.
", пользуйтесь/ распространяйте
Forwarded from Душный NLP
Как обучить одну модель и получить несколько
Сегодня расскажем о методе, который позволяет обучить одну модель, а затем извлечь из неё несколько других «подмоделей». Подобным подходам посвящено несколько статей. Разберём одну из них, о методе MatFormer от инженеров из Google.
Идея статьи заключается в том, чтобы вкладывать разные варианты слоёв друг в друга. Как в матрёшке: параметры трансформера поменьше используются в трансформере побольше. Метод фокусируется на FFN-слоях и только в dense-архитектурах, где до 60% параметров как раз и находятся в FFN-слоях.
Суть в том, чтобы брать не все нейроны скрытого слоя в полносвязных слоях, а а только некоторый набор первых (m_i в формуле выше). При этом у разных слоёв могут быть разные m_i.
Обучение осуществляется как обычно, но со случайным и равномерным сэмплингом m_i = g_i d_ff, где g_i — гранулярность, случайно сэмплируемая из {0.5, 1, 2, 4}, а d_ff — это размер скрытого представления модели. Таким образом обучаются все подмодели. На инференсе используется процедура Mix’n’Match — для разных слоёв подбираются свои m_i так, чтобы размер слоёв увеличивался постепенно, без резких скачков.
Результаты показывают, что модель, полученная с помощью метода MatFormer, показывает лучшие результаты, чем модель, обученная с нуля. Интересно ещё и то, что «модели из матрёшки» демонстрируют значительную согласованность с большой моделью, из которой произошли. Это полезно, потому что открывает возможность для использования маленьких моделей, например, в качестве draft-моделей при спекулятивном декодинге.
Разбор подготовил❣ Артём Соболев
Душный NLP
Сегодня расскажем о методе, который позволяет обучить одну модель, а затем извлечь из неё несколько других «подмоделей». Подобным подходам посвящено несколько статей. Разберём одну из них, о методе MatFormer от инженеров из Google.
Идея статьи заключается в том, чтобы вкладывать разные варианты слоёв друг в друга. Как в матрёшке: параметры трансформера поменьше используются в трансформере побольше. Метод фокусируется на FFN-слоях и только в dense-архитектурах, где до 60% параметров как раз и находятся в FFN-слоях.
Суть в том, чтобы брать не все нейроны скрытого слоя в полносвязных слоях, а а только некоторый набор первых (m_i в формуле выше). При этом у разных слоёв могут быть разные m_i.
Обучение осуществляется как обычно, но со случайным и равномерным сэмплингом m_i = g_i d_ff, где g_i — гранулярность, случайно сэмплируемая из {0.5, 1, 2, 4}, а d_ff — это размер скрытого представления модели. Таким образом обучаются все подмодели. На инференсе используется процедура Mix’n’Match — для разных слоёв подбираются свои m_i так, чтобы размер слоёв увеличивался постепенно, без резких скачков.
Результаты показывают, что модель, полученная с помощью метода MatFormer, показывает лучшие результаты, чем модель, обученная с нуля. Интересно ещё и то, что «модели из матрёшки» демонстрируют значительную согласованность с большой моделью, из которой произошли. Это полезно, потому что открывает возможность для использования маленьких моделей, например, в качестве draft-моделей при спекулятивном декодинге.
Разбор подготовил
Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Инжиниринг Данных (Dmitry)
Увидел интересное репо, в котором автор собрал локальный опенсорсный стек:
Data Forge includes a complete modern data stack with industry-standard tools:
🗄️ Storage & Catalog
- MinIO → S3-compatible object storage for data lakes
- Hive Metastore → Centralized metadata catalog for tables and schemas
⚡ Compute Engines
- Trino → Interactive SQL query engine for federated analytics
- Apache Spark → Distributed processing for batch and streaming workloads
🌊 Streaming & CDC
- Apache Kafka → Event streaming platform
- Schema Registry → Schema evolution and compatibility
- Debezium → Change data capture from databases
🗃️ Databases
- PostgreSQL → Primary OLTP database (source system)
- ClickHouse → Columnar analytics database (sink)
🔄 Orchestration
- Apache Airflow 3 → Workflow orchestration
📊 Visualization & Exploration
- Apache Superset → Modern BI and data visualization
- JupyterLab → Interactive data science environment
Идеальный стек для отечественного (СНГ) дата инженера.
PS автору если интересно, может и вебинарчик провести для нас.
Data Forge includes a complete modern data stack with industry-standard tools:
🗄️ Storage & Catalog
- MinIO → S3-compatible object storage for data lakes
- Hive Metastore → Centralized metadata catalog for tables and schemas
⚡ Compute Engines
- Trino → Interactive SQL query engine for federated analytics
- Apache Spark → Distributed processing for batch and streaming workloads
🌊 Streaming & CDC
- Apache Kafka → Event streaming platform
- Schema Registry → Schema evolution and compatibility
- Debezium → Change data capture from databases
🗃️ Databases
- PostgreSQL → Primary OLTP database (source system)
- ClickHouse → Columnar analytics database (sink)
🔄 Orchestration
- Apache Airflow 3 → Workflow orchestration
📊 Visualization & Exploration
- Apache Superset → Modern BI and data visualization
- JupyterLab → Interactive data science environment
Идеальный стек для отечественного (СНГ) дата инженера.
PS автору если интересно, может и вебинарчик провести для нас.
Forwarded from Artificial stupidity
#llm
Начал понемногу ковыряться с теорией по агентским системам и тому, как оно все работает. Потому периодически буду сюда вкидывать что-то из материалов.
Начнем с простого.
Какие есть типы агентов?
Простой рефлекторный агент.
Самый простой агент, который использует нынешнее состояние среды. Просто делают действие на основе раздражителя. У них нет памяти и модели мира, потому они удобны только в случае стабильной наблюдаемой среды.
Пример: Робот-пылесос, который поворачивается при ударе.
Рефлекторный агент на одном модели.
Такой агент хранит информацию о состоянии среды за период и основывает свои действия на сохраненной информации. И, по сути, строит очень-очень простую модель мира.
Пример: Робот-пылесос, который запоминает свой маршрут и окружение, потому может обходить часть препятствий.
Агент, ориентирующийся на цель.
Агент, который оценивает действия по тому, насколько они приближают к цели. Такой тип агентов обычно использует алгоритмы поиска или планирования, чтобы анализировать последовательности шагов и выбирать оптимальные, учитывая будущие последствия.
Пример: Навигационная система, рассчитывающая лучший маршрут.
Утилитарный агент.
Этот тип агентов выбирает действия так, чтобы максимизировать "полезность" — общую ценность исхода по заданной функции. Он оценивает варианты, прогнозирует последствия и учитывает компромиссы, а не просто достигает цели. Фактически, похож на агента с ориентацией на цель, но тут разница в методах достижения. Если одному важно лишь достигнуть цель, то второму еще важно учесть и затраты на ее достижение.
Пример: Чат-бот для продаж, приоритизирующий лиды по вероятности конверсии.
Обючающийся агент.
Это агент, который учится на обратной связи из окружащей среды. Он состит из 4 элеметов: модуль действия, модуль обучения (который как раз корректирует действия), модуль-критик (для оценок) и генератор новых действий (в оригинале это "генератор проблем", но смысл в том, чтобы придумывать новые действия для оценки как раз).
Пример: Внезапно, рексис движок (впрочем, это если у него есть оценщик, он дообучается на наших данных и прикручена часть с эксплорейшеном, тогда все будет подходить).
Мультиагентная система.
Система из нескольких взаимодействующих агентов, которые сотрудничают или конкурируют для достижения цели. Каждый агент независим, и имеет собственные возможности и инструменты. Агенты общаются напрямую или через изменения в среде, решая задачи, слишком сложные для одного агента.
Пример: Набор агентов для написания и редактирования кода. Один ищет уязвимости, второй пишет код, третий делает ревью и пишет описание PR (но можно выдумать еще варианты).
Начал понемногу ковыряться с теорией по агентским системам и тому, как оно все работает. Потому периодически буду сюда вкидывать что-то из материалов.
Начнем с простого.
Какие есть типы агентов?
Простой рефлекторный агент.
Самый простой агент, который использует нынешнее состояние среды. Просто делают действие на основе раздражителя. У них нет памяти и модели мира, потому они удобны только в случае стабильной наблюдаемой среды.
Пример: Робот-пылесос, который поворачивается при ударе.
Рефлекторный агент на одном модели.
Такой агент хранит информацию о состоянии среды за период и основывает свои действия на сохраненной информации. И, по сути, строит очень-очень простую модель мира.
Пример: Робот-пылесос, который запоминает свой маршрут и окружение, потому может обходить часть препятствий.
Агент, ориентирующийся на цель.
Агент, который оценивает действия по тому, насколько они приближают к цели. Такой тип агентов обычно использует алгоритмы поиска или планирования, чтобы анализировать последовательности шагов и выбирать оптимальные, учитывая будущие последствия.
Пример: Навигационная система, рассчитывающая лучший маршрут.
Утилитарный агент.
Этот тип агентов выбирает действия так, чтобы максимизировать "полезность" — общую ценность исхода по заданной функции. Он оценивает варианты, прогнозирует последствия и учитывает компромиссы, а не просто достигает цели. Фактически, похож на агента с ориентацией на цель, но тут разница в методах достижения. Если одному важно лишь достигнуть цель, то второму еще важно учесть и затраты на ее достижение.
Пример: Чат-бот для продаж, приоритизирующий лиды по вероятности конверсии.
Обючающийся агент.
Это агент, который учится на обратной связи из окружащей среды. Он состит из 4 элеметов: модуль действия, модуль обучения (который как раз корректирует действия), модуль-критик (для оценок) и генератор новых действий (в оригинале это "генератор проблем", но смысл в том, чтобы придумывать новые действия для оценки как раз).
Пример: Внезапно, рексис движок (впрочем, это если у него есть оценщик, он дообучается на наших данных и прикручена часть с эксплорейшеном, тогда все будет подходить).
Мультиагентная система.
Система из нескольких взаимодействующих агентов, которые сотрудничают или конкурируют для достижения цели. Каждый агент независим, и имеет собственные возможности и инструменты. Агенты общаются напрямую или через изменения в среде, решая задачи, слишком сложные для одного агента.
Пример: Набор агентов для написания и редактирования кода. Один ищет уязвимости, второй пишет код, третий делает ревью и пишет описание PR (но можно выдумать еще варианты).
Forwarded from Тимлид Очевидность | Евгений Антонов
Я принес. Про обмен в команде
Люблю, когда в постах/подкастах/докладах не просто теория «как надо абстрактно в вакууме» налита, а есть еще и адаптация к реальной жизни, к её неидеальности и разнообразию. А еще когда истории из практики.
Сегодня вот такой пост как раз вам принес https://t.me/morkovka_speredi_morkovka_szadi/69.
В абстрактной теории надо было бы сгорающие сторипоинты посчитать, велосити замерить, простои, реальную капасити и навести оптимизаций. А начни автор «эффективно менеджерить» сотрудника, ведь чего это он за 2–3 часа всё делает, а в остальное время чилит, то лично я думаю, что и реального ускорения бы не добился, но еще и отношения бы испортил и больше бы не шел работник навстречу в сложных ситуациях.
Я тоже выступаю за разумный обмен между работником и компанией, руководителем и его подчиненными и его руководителем сверху. Тогда работа получается гибче и морально комфортнее.
Но надо помнить и об экстремумах. Цитата из поста:
«В любых отношениях должен быть обмен.
Если вы только требуете — с вами не будут хотеть работать.
Если вы только отдаете — на вас будут ездить.
Мораль, которую я так люблю: везде должен быть баланс. Так что следите за балансом».
А как у вас в команде? Есть какие-то взаимообменивающиеся вещи? Ну типа днем надо по врачам помотаться, а потом в случае пожара могу подорваться и потушить вечером поздно.м.
Люблю, когда в постах/подкастах/докладах не просто теория «как надо абстрактно в вакууме» налита, а есть еще и адаптация к реальной жизни, к её неидеальности и разнообразию. А еще когда истории из практики.
Сегодня вот такой пост как раз вам принес https://t.me/morkovka_speredi_morkovka_szadi/69.
В абстрактной теории надо было бы сгорающие сторипоинты посчитать, велосити замерить, простои, реальную капасити и навести оптимизаций. А начни автор «эффективно менеджерить» сотрудника, ведь чего это он за 2–3 часа всё делает, а в остальное время чилит, то лично я думаю, что и реального ускорения бы не добился, но еще и отношения бы испортил и больше бы не шел работник навстречу в сложных ситуациях.
Я тоже выступаю за разумный обмен между работником и компанией, руководителем и его подчиненными и его руководителем сверху. Тогда работа получается гибче и морально комфортнее.
Но надо помнить и об экстремумах. Цитата из поста:
«В любых отношениях должен быть обмен.
Если вы только требуете — с вами не будут хотеть работать.
Если вы только отдаете — на вас будут ездить.
Мораль, которую я так люблю: везде должен быть баланс. Так что следите за балансом».
А как у вас в команде? Есть какие-то взаимообменивающиеся вещи? Ну типа днем надо по врачам помотаться, а потом в случае пожара могу подорваться и потушить вечером поздно.м.
Telegram
Морковка спереди, морковка сзади
#истории_из_жизни
Тут в комментариях разгорелся нешуточный холивар на тему "списывать время или нет?" Вопрос и правда очень интересный, давно хочу про него написать на Хабре, но он требует нешуточной подготовки. Поэтому статью обещаю к новому году, но это…
Тут в комментариях разгорелся нешуточный холивар на тему "списывать время или нет?" Вопрос и правда очень интересный, давно хочу про него написать на Хабре, но он требует нешуточной подготовки. Поэтому статью обещаю к новому году, но это…
Forwarded from Korenev AI - GPT в тапочках🩴
Я проводил МК для своего друга-режиссера. У него был запрос на преодоление творческого ступора при создании сценариев.
Прикладываю обработанную транскрибацию, вдруг кого-то натолкнет на полезные мысли
Анализ существующих сценариев
Базовый подход:
Дополнительный анализ:
Можешь спросить: "В чем отличительная особенность этого сценария от большинства фильмов?"
ИИ подсветит неочевидные вещи, которые ты сам не смог формализовать
Генерация идей
На базе драфтов:
Объединяешь короткие драфты понравившихся сценариев
Просишь создать 10-20 веток коротких идей на основе этих особенностей
Указываешь важные для тебя элементы (трансформация героя и т.д.)
Работа с конкретным стилем:
Спрашиваешь про творчество конкретного режиссера (например, Тарантино)
Просишь описать его выдающиеся фильмы и их особенности
На основе этого просишь сочинить сценарий в его стиле
Методики для креатива
Используй креативные методологии:
Работа с книгами/методиками по сценарному делу:
Спрашиваешь: "Знаешь ли ты книгу [название]?"
Просишь перечислить основные постулаты
Просишь сформулировать сценарии на основе этих постулатов
Техника итеративной работы с LLM
Правильный промпт:
Неправильный подход:
Написал → получил чушь → написал новое сообщение "это чушь"
Получается длинная и бесмысленная колбаса, которая ни к чему не приводит
Работа с большими диалогами:
Можешь вернуться в самое начало, исправить текст, что создаст новую ветку обсуждения. Старая сохранится
Если сильно разрослось - попроси сформулировать основной запрос для нового чата
Копировать только релевантную информацию
Генерация вариантов
Массовая генерация:
Про температуру:
Показывает степень креативности
Высокая температура = непредсказуемость (может быть кринж или супер-креатив)
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Korenev AI - GPT в тапочках🩴
Продолжим ликбез для новичков.
Сервисы бесплатны, но в большинстве случаев требуется VPN.
Клод не стал указывать, т.к. новичкам нужно пройти целый квест связанный с регистрацией
Какой бы еще необходимый минимум вы бы сюда добавили?
Будьте креативны
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Miha
RAG из базы знаний Obsidian, может кому пригодится
https://github.com/glowingjade/obsidian-smart-composer
https://github.com/glowingjade/obsidian-smart-composer
GitHub
GitHub - glowingjade/obsidian-smart-composer: AI chat assistant for Obsidian with contextual awareness, smart writing assistance…
AI chat assistant for Obsidian with contextual awareness, smart writing assistance, and one-click edits. Features vault-aware conversations, semantic search, and local model support. - glowingjade/...
Forwarded from Korenev AI - GPT в тапочках🩴
Ребят, поделитесь плз 3-5 самыми полезными фичами в Обсидиане, которые чаще всего юзаете. Так, думаю, мы прекрасно сможем обменяться опытом его использования.
Для меня это:
А еще интересно было бы увидеть человека, который реально внедрил у себя zettelcasten. И вообще, нужен ли этот подход с появлением RAG?
В каментах Михаил @pljas поделился ссылкой на плагин для обсидиана, который существенно расширяет возможности за счет подключения LLM. С ним Обсидиан получает функции Курсора: генерация текста, контроль за изменениями, MCP, RAG!
Рекомендую по ссылке немного поскролить и посмотреть видосы с демонстрацией
Не забудьте отсыпать Михаилу огоньков!
Please open Telegram to view this post
VIEW IN TELEGRAM