Data Portal | DS & ML
8.42K subscribers
390 photos
114 videos
4 files
523 links
Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx
Download Telegram
«NAND» для непрерывной математики.

Один бинарный оператор вместе с константой 1 порождает любые элементарные функции:

  eml(x, y) = eˣ − ln(y)

• e = eml(1, 1)
• eˣ = eml(x, 1)
• ln(x) = eml(1, eml(eml(1, x), 1))

Собран интерактивный ноутбук для исследования идеи: можно менять x и наблюдать, как значения распространяются по узлам в реальном времени.

https://arxiv.org/abs/2603.21852

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Что если эксперименты в ML могли бы крутиться всю ночь и сохранять только те изменения, которые реально улучшают метрики?

Ручной запуск — это цикл: меняешь один гиперпараметр, ждёшь обучение, смотришь результат и повторяешь. Прогресс останавливается, как только ты отходишь, и исследуется только узкий набор гипотез.

Autoresearch — опенсорс-фреймворк, который решает это через автономный цикл.

Агент фиксирует каждое изменение в git, запускает обучение на ~5 минут и проверяет, улучшилась ли модель.

Если метрика выросла — изменение остаётся. Если нет — происходит откат к последнему валидному состоянию.

Ключевые преимущества:
• Снимки через git перед каждым экспериментом с мгновенным откатом
• Структурированный лог результатов, который переживает падения и хранит все попытки
• Непрерывный цикл без необходимости подтверждения со стороны пользователя

https://github.com/karpathy/autoresearch

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51
GitHub массово выкатил инструмент, который снижает расходы на ИИ примерно на 75%.

И большинство разработчиков пока его игнорируют.

Caveman — скилл для Claude Code, который заставляет модель отвечать в максимально сжатом «пещерном» стиле.

↳ убирает весь филлер, хеджирование и вежливые формулировки
↳ сохраняет 100% технической точности
↳ снижает количество выходных токенов до ~75%
↳ автоматически возвращается к нормальному английскому для критичных предупреждений по безопасности
↳ работает как обычный скилл для Claude Code — без сложной настройки
↳ устанавливается одной строкой в проект

Почему это важно:

Основная часть затрат на ИИ уходит на «вежливость».

"I'd be happy to help you with that! Here's a comprehensive overview..."

Это ~20 токенов до начала ответа.

Caveman убирает это полностью.

На выходе — прямые, короткие, технически точные ответы без лишнего.

Ключевая деталь: скилл понимает, когда нужно вернуть нормальный стиль — например, при предупреждениях безопасности или потенциально разрушающих операциях.

По сути, это один из самых практичных приёмов промпт-инжиниринга, упакованный в готовый скилл.

https://github.com/JuliusBrussee/caveman

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Реализация нейронной сети с нуля на чистом ассемблере x86-64

Да, всё верно. Будем делать это на максимально низком уровне. В этой статье мы реализуем небольшую нейросеть для XOR на ассемблере x86-64. Без библиотек. Без упрощений. Только ты и процессор.

Требования: нужно понимать базу нейронных сетей (слои, веса, смещения, функции активации). Опыт с ассемблером будет плюсом, но по ходу будут объяснения. Понадобятся NASM и GCC, установленные на Linux-системе.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯74
Кэширование промптов в больших языковых моделях — понятное объяснение
Кейс о том, как Claude достигает 92% cache hit-rate

Каждый раз, когда ИИ-агент делает шаг, он отправляет всю историю диалога обратно в модель.
Туда входят системные инструкции, определения инструментов и контекст проекта, который уже обрабатывался три хода назад. Всё это заново читается, заново обрабатывается и заново тарифицируется на каждом шаге.

В долгоживущих агентных воркфлоу такие избыточные вычисления часто становятся самой дорогой строкой затрат во всей ИИ-инфраструктуре.

Системный промпт на 20 000 токенов при 50 шагах — это 1 миллион токенов избыточных вычислений, оплаченных по полной цене и не создающих новой ценности. И эта стоимость накапливается для каждого пользователя и каждой сессии.

Решение — кэширование промптов. Но чтобы использовать его эффективно, нужно понимать, что именно происходит под капотом.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5
This media is not supported in your browser
VIEW IN TELEGRAM
Техники дообучения LLM, которые стоит изучить для кастомизации:

Сохрани.

1. LoRA
2. QLoRA
3. Prefix Tuning
4. Adapter Tuning
5. Instruction Tuning
6. P-Tuning
7. BitFit
8. Soft Prompts
9. RLHF
10. RLAIF
11. DPO (прямая оптимизация предпочтений)
12. GRPO (групповая относительная оптимизация политики)
13. RLAIF (обучение с подкреплением на основе AI-фидбэка)
14. Многозадачное дообучение
15. Федеративное дообучение

Мой фаворит — GRPO для построения моделей с рассуждением. Что насчёт тебя?

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6👀2
Microsoft существенно сжал рассуждение в LLM.

В новой работе представлен MEMENTO — метод, при котором модель учится самостоятельно управлять своим контекстом.

Вместо того чтобы раздувать chain-of-thought в плоский поток на 32K токенов, модель сегментирует рассуждение на блоки, сжимает каждый в плотное резюме (memento) и маскирует исходный блок для дальнейшего внимания.

Результат — пилообразный паттерн KV-кэша, где память периодически уменьшается, а не растёт монотонно.

Обучение строится как двухэтапный SFT-пайплайн.

Этап 1: обучение формату блок → memento с полным вниманием.
Этап 2: обучение рассуждению с замаскированными блоками. Каждый блок сжимается в 5–20 раз, а пик KV-кэша уменьшается в 2–2.5 раза на разных моделях.

Самое интересное — эффект «двойного потока информации».

В момент генерации memento модель всё ещё видит полный блок рассуждения, поэтому KV-представления для memento считаются с учётом полного контекста блока.

После маскирования блока эти KV остаются и продолжают нести неявную информацию, которая не содержится в самом тексте memento.

Если пересчитать KV для memento без доступа к исходному блоку, точность падает примерно на 15 процентных пунктов. Тот же текст, но другие KV-представления — заметно хуже результат.

Это ключевое отличие MEMENTO от подходов, которые пересобирают контекст только из текста и теряют этот неявный канал.

Также показано, что разрыв в точности связан с согласованностью, а не со способностями модели. Она всё ещё может решать те же задачи, но менее стабильно. Голосование по нескольким ответам (k=3) восстанавливает базовую точность, а обучение с подкреплением закрывает большую часть оставшегося разрыва.

По мере роста длины рассуждений модели, которые умеют сжимать промежуточное состояние, смогут обслуживать больше пользователей на том же железе. А двойной KV-канал указывает, что маскирование «на месте» фундаментально лучше, чем подходы с перезапуском контекста.

Статья и датасет (228K трасс рассуждений) доступны публично. Ссылка

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Kimi опять двигает инференс-стек.

Moonshot AI выкатили подход Prefill-as-a-Service, где стадии предзаполнения и декодирования больше не привязаны к одному кластеру. Теперь это кросс-датацентровая архитектура с гетерогенным железом, что позволяет гибко распределять нагрузку и снижать стоимость инференса.

Ключевая проблема раньше — перенос KV-кэша между узлами: слишком большой, дорогой по сети. Решение — архитектура Kimi Linear, которая уменьшает размер KV-кэша и делает такую схему практически применимой.

Что получили на практике:

* +1.54× к пропускной способности
* −64% к P90 времени до первого токена
* прямое снижение стоимости токена

Контекст: Kimi уже давно упирается в инфраструктуру, а не только в модель. У них есть собственные решения вокруг KV-кэша и дизагрегации инференса, и это логичное продолжение — вынести prefill как отдельный сервис.

Вывод: рынок движется в сторону разделения инференс-пайплайна и оптимизации под стоимость, а не только под качество модели.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Гении предложили общий кросс-доменный слой памяти для кодинг-агентов.

Эта идея называется Memory Transfer Learning (MTL).

Собирается один большой пул памяти из разных типов задач по разработке, после чего агент переиспользует эту память между доменами.

→ Такая память становится общим ресурсом и универсальной библиотекой опыта для множества агентов и моделей.

Прирост (+3.7% в среднем) достигается за счёт мета-знаний:

* как валидировать решение
* как структурировать дебаг
* какие проверки запускать
* как детектить паттерны фейлов

При этом важен уровень абстракции: память, слишком привязанная к конкретной задаче, ухудшает качество.

Память для дебага, генерации кода и тестирования складывается в один общий пул. Чем больше памяти, тем лучше работает перенос.

MTL даёт агенту возможность переиспользовать общее рассуждение и проверки, а не только точные трассы решений.

https://github.com/KangsanKim07/MemoryTransferLearning
https://arxiv.org/abs/2604.14004

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2
Ты на собеседовании на ML Engineer в MistralAI.

Интервьюер спрашивает:

«Нам нужна языковая модель, которая хорошо работает в коде, математике и креативном письме. Как добиться мультидоменной производительности?»

Ты: «Я увеличу количество голов внимания».

Собеседование окончено.

Вот что ты упустил:

Головы внимания захватывают паттерны, а не доменную экспертизу.

Больше голов = более богатые представления за один проход.
Больше экспертов = выделенные подсети под разные типы знаний.

Правильный ответ: Mixture of Experts (MoE).

Разберёмся, чем MoE отличается от стандартных трансформеров:

Трансформер и MoE различаются в блоке декодера:

- В трансформере используется полносвязная сеть прямого распространения.
- В MoE используются эксперты — это тоже полносвязные сети прямого распространения, но меньшего размера по сравнению с теми, что в трансформере.

Во время инференса выбирается подмножество экспертов. Это ускоряет инференс в MoE.

Так как сеть содержит несколько слоёв декодера:

- текст проходит через разных экспертов на разных слоях
- выбранные эксперты также различаются для разных токенов

Но как модель решает, какие эксперты подходят лучше?

Это делает маршрутизатор. Разберём его далее.

Задача 1) Обрати внимание на этот паттерн в начале обучения:

- модель выбирает «Эксперт 2»
- эксперт немного улучшается
- его могут выбрать снова
- эксперт обучается дальше
- его снова выбирают
- он продолжает обучаться
- и так далее

Многие эксперты остаются недообученными.

Решаем это в два шага:

- Добавляем шум к выходу полносвязного слоя маршрутизатора, чтобы другие эксперты могли получать более высокие логиты.
- Устанавливаем все логиты, кроме top-K, в −бесконечность. После softmax их значения становятся нулевыми.

Так другие эксперты тоже получают возможность обучаться.

Задача 2) Некоторые эксперты могут получать больше токенов, чем другие — это приводит к тому, что часть экспертов остаётся недообученной.

Это предотвращается ограничением количества токенов, которые может обработать один эксперт.

Если эксперт достигает лимита, входной токен перенаправляется к следующему наиболее подходящему эксперту.

MoE содержит больше параметров для загрузки. Однако активируется только их часть, так как выбирается ограниченное количество экспертов.

Это приводит к более быстрому инференсу. Mixtral 8x7B от MistralAI — известная языковая модель, построенная на MoE.

Вот визуал, который снова сравнивает трансформеры и MoE (ласт гифка)

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1
Граф-ориентированная универсальная RAG-система

RAG-Anything — это графовая, универсальная мультимодальная RAG-система для обработки документов, построенная на базе LightRAG.

Поддерживает все типы контента в рамках единого интегрированного фреймворка.

Полностью с открытым исходным кодом.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Десять лет мы увеличивали ширину и глубину моделей — но почти не меняли то, как слои *взаимодействуют* между собой.

Со времён ResNet с x + F(x) в 2015 году глубинная остаточная связь остаётся единственным каналом межслойной коммуникации.

На бумаге модели выглядят глубокими. Но многие слои «учатся молчать»: по мере накопления информации сигнал размывается и теряется.

Узкое место — не вычисления *внутри* слоёв, а коммуникация *между* ними.

Все предыдущие подходы — DenseNet, DenseFormer, Hyper-Connections, MUDDFormer — отвечают на один и тот же вопрос: «как лучше *смешивать* выходы слоёв?»

Лучшие коэффициенты. Больше каналов. Адаптивные веса.

Но всё это — накопление. И это категориальная ошибка.

Межслойная коммуникация должна быть извлечением, а не накоплением.

Запрос = «что мне нужно».
Ключ = «что у меня есть».
Обе стороны участвуют.

Слой 152 не должен «напрягаться», чтобы услышать слой 3 в общем хоре. Он должен просто обратиться к нему: «что ты сказал?»

Проблема: наивная реализация внимания по глубине занимала 44 924 мс на прямой и обратный проход. Слишком медленно.

Представлен Flash Depth Attention (FDA) — аппаратно-эффективное ядро, ускоряющее внимание по глубине более чем в 40 000 раз, делая полноценное извлечение по глубине пригодным для масштабного обучения.

Классический пайплайн трансформера: остаточные связи → последовательное внимание → остаточные связи → полносвязный слой.

Пайплайн с Flash Depth Attention (FDA): внимание по глубине → последовательное внимание → внимание по глубине → полносвязный слой.

Дальше — Mixture-of-Depths Attention (MoDA): объединение извлечения по глубине и по последовательности в один softmax.

Каждая голова одновременно обращается к KV текущего слоя (по последовательности) и к KV всех предыдущих слоёв (по глубине).

Одна операция, два измерения извлечения.

Результаты: модель активно использует межслойное извлечение, эффект «attention sink» исчезает, MoDA улучшает базовую модель OLMo2 по всем метрикам.

Первая половина развития архитектур была про масштабирование компонентов.
Вторая — про масштабирование *коммуникации*.

Добро пожаловать во вторую половину 👋

Статья: https://arxiv.org/abs/2603.15619
Блог (рекомендуется): https://lh-zhu.github.io/The-Second-Half-of-Model-Architecture/
Код: https://github.com/hustvl/MoDA

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2🏆1
13+ механизмов внимания, которые стоит знать:

▪️ самовнимание
▪️ кросс-внимание
▪️ каузальное внимание
▪️ линейное внимание
▪️ внимание с softmax
▪️ скользящее окно (локальное внимание)
▪️ глобальное внимание
▪️ FlashAttention
▪️ многоголовое внимание (MHA)
▪️ многозапросное внимание (MQA)
▪️ сгруппированное внимание по запросам (GQA)
▪️ многоголовое латентное внимание (MLA)
▪️ чередующееся внимание по головам (IHA)

* Slim Attention, KArAt, XAttention, Mixture-of-Depths Attention (MoDA)

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2😁1