Data Science by ODS.ai 🦜

⚡️

DeepSeek Engram: условная память LLM через поиск.

DeepSeek опять шатают устои архитектуры трансформеров свежайшим пейпером, который доказывает, что новое — это хорошо и очень хитро забытое старое.

Пока все пытаются запихнуть в LLM как можно больше слоев и параметров, DeepSeek задались вопросом: зачем тратить дорогой компьют на запоминание фактов, если их можно просто подсмотреть? Знакомьтесь:

🟡

Engram — модуль, который возвращает нас к дедам с N-грамами.

DeepSeek предлагает разделить "думалку" (MoE-слои) и "хранилище знаний" (Engram):

🟢

Hashed N-grams: модуль смотрит на входящий текст и нарезает его на N-грамы (последовательности токенов).

🟢

O(1) Lookup: система делает мгновенный запрос в гигантскую хэш-таблицу эмбеддингов - это чисто статический поиск.

🟢

Context-Aware Gating: самый сок. Модель не просто слепо берет данные из "хранилища знаний" - специальный гейтинг-механизм решает: "Нам сейчас нужен факт из памяти или будем думать сами?". Если найденный N-грам релевантен контексту, он подмешивается в скрытое состояние.

🟢

Tokenizer Compression: чтобы хранилище знаний не лопнуло от мусора, похожие токены в нем схлопывают в один ID, например, "Apple" и "apple".

🟡

Баланс распределения ресурсов.

Чтобы правильно поделить бюджет параметров между MoE и Engram посчитали сценарии масштабирования. График лосса от соотношения этих частей выглядит как буква U:

🟠

Перекос в MoE (100% вычислений): модель тратит дорогие слои внимания на запоминание статики. Это неэффективно, лосс высокий.

🟠

Перекос в Память (0% вычислений): модель превращается в гигантскую википедию. Она помнит факты, но у нее напрочь атрофируется ризонинг. Лосс тоже высокий.

🟢

Золотая середина (дно U-кривой): 80% MoE и ~20% Engram.

🟡

Тесты и результаты.

DeepSeek обучили модель Engram-27B и сравнили ее с классической MoE-27B при одинаковом бюджете параметров и FLOPs. Итоги:

Общее качество подросло: MMLU +3.4 пункта, HumanEval (код) +3.0.

На длинном контексте - разнос. В тесте на поиск иголки (NIAH) точность выросла с 84.2 до 97.0. Модель разгрузила слои внимания от запоминания локальных паттернов, и оно сфокусировалось на глобальном контексте.

Модель быстрее сходится. Engram берет на себя рутину в ранних слоях, тем самым позволяя модели сразу учиться сложным вещам.

🟡

Архитектурный нюанс.

Таблица эмбеддингов для Engram может быть запредельно огромной (в пейпере разгоняли до 100B параметров) и, очевидно, в VRAM это не влезает.

Решили так: раз ID токенов известен до прогона слоя, то эти данные можно хранить в RAM и асинхронно подтягивать. В реале, оверхед от этой механики показал меньше 3%., т.е. мы получаем модель, которая знает больше, чем влезает в GPU, используя оперативку сервера.

🟡

DeepSeek фактически легализовала подобие шпаргалок для LLM.

Вместо того чтобы заставлять модель учить все наизусть, ей дают гигантский справочник. Теоретически, это открывает путь к прекрасному ИИ светлого будущего, который может иметь условно-бесконечную память, ограниченную только объемом оперативки, а не VRAM.

Похоже, в V4 мы увидим как эта схема работает, ведь инсайдеры обещают у нее запредельные скилы.

🟡

Техотчет

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #Engram #Deepseek

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥15👍7❤4🥰1

2.26K views05:16

Data Science by ODS.ai 🦜

Forwarded from База знаний AI

В МГУ им. М.В. Ломоносова предложили новый подход к формальной верификации моделей

Он проверяет надежность и устойчивость ИИ-моделей при выполнении критически важных задач. Исследователи отмечают, что традиционное тестирование на наборах данных позволяет оценивать только точность, но не дает гарантий, что всегда будут соблюдаться заданные свойства.

Подход протестировали на модели, применяемой в задаче активного шумоподавления. Для этого исследователи разработали набор инструментов: преобразование весов из формата ONNX в систему ограничений и проверка их выполнимости с помощью Prolog-верификатора.

Метод сравнили с системой Marabou — одним из наиболее известных инструментов для проверки нейросетей. Новый подход обеспечил высокую скорость и требовал меньше памяти при анализе больших моделей и свойств.

🔗Источник: пресс-служба МГУ им. М.В. Ломоносова

👍6❤2🤯1

2.07K views16:13

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

4:38

Media is too big

VIEW IN TELEGRAM

✔️

OpenAI открыла доступ к GPT-5.2 Codex через Responses API.

Модель, ранее доступная лишь в среде Codex, теперь предлагается широкому кругу разработчиков. OpenAI позиционирует версию 5.2 как инструмент для глубокого рефакторинга, написания сложной функциональности и аудита безопасности.

Модель поддерживает мультимодальный ввод и предлагает гибкую настройку глубины рассуждений — от низкого до очень высокого уровня.

За повышенную производительность придется платить: стоимость токенов выросла до $1.75 за миллион на вход и $14 на выход. Поддержка новой модели уже появилась в Cursor и Windsurf.
OpenAI Developers в сети X

✔️

Anthropic усиливает команду экспериментальных продуктов Labs.

Майк Кригер оставляет пост директора по продукту, чтобы сосредоточиться на создании новых инструментов в паре с Беном Манном. Руководство основной продуктовой стратегией переходит к Ами Вора, присоединившейся к компании в конце 2025 года; она возглавит Labs совместно с техническим директором Рахулом Патилом.

Подразделение зарекомендовало себя как генератор хитов Anthropic. Именно здесь родился Claude Code, который всего за 6 месяцев превратился в продукт с миллиардной выручкой и был разработан стандарт MCP, ставший отраслевым эталоном со 100 млн. загрузок ежемесячно.

Президент компании Даниэла Амодей говорит, что формат лаборатории позволяет действовать экстремально быстро: например, Cowork был создан с нуля именно в Labs всего за полторы недели.
anthropic.com

✔️

Z.AI представила модель GLM-Image.

GLM-Image стала важной вехой в технологической независимости КНР. Это первая модель, которая обучалась исключительно на китайском стеке - серверах Huawei Ascend Atlas 800T A2 и фреймворке MindSpore, без использования ускорителей NVIDIA.

Под капотом гибрид из 9-миллиардного авторегрессионного трансформера и 7-миллиардного диффузионного декодера на базе DiT. Разработчики утверждают, что такая связка превосходит конкурентов в рендеринге текста и создания инфографики.

API модели предлагается по цене примерно 1,5 цента за изображение, а веса выложены на HuggingFace и ModelScope.
z.ai

✔️

Google обновила модель Veo.

Google обновила свою видеомодель Veo до версии 3.1, добавив возможность генерации роликов с соотношением сторон 9:16, инструменты для апскейлинга до 4K и переработку функции референса по изображению.

3.1 лучше удерживает визуальную консистентность персонажей и окружения между сценами и точнее следует коротким промптам.

Новые возможности уже доступны в приложении Gemini, AI Studio и на Vertex AI.
blog.google

✔️

Скандал с суверенным ИИ в Южной Корее.

Госпроект Сеула стоимостью $6,9 млрд, призванный избавить страну от технологической зависимости от США и КНР, оказался в центре скандала: ключевые участники использовали опен-сорс решения китайских конкурентов.

Проверка показала, что 3 из 5 финалистов конкурса, компании Naver Cloud, SK Telecom и стартап Upstage заимствовали компоненты у Alibaba, DeepSeek и Zhipu AI. В частности, выяснилось, что визуальный энкодер флагманской модели Naver HyperCLOVA X на 99,5% совпадает с архитектурой Qwen 2.5.

Разработчики оправдываются инженерной целесообразностью, утверждая, что заимствовали лишь вспомогательные модули и код инференса. Однако, использование компонентов с китайскими копирайтами в проекте, который финансируется государством, вызвало жесткую критику общественности и поставило под угрозу квалификацию участников.
wsj.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍2🔥1🙏1

1.66K views05:20

Data Science by ODS.ai 🦜

Forwarded from ODS Events

Stereo Data Ёлка | 24 января 2026🎄

🦜

Год в мире данных завершается — время свести все каналы воедино! 🔥

На мероприятии вас ждёт:
🔹 Микс главных итогов 2025 в ML/DS
🔹Разбор лучших решений VK RecSys Challenge (эксклюзив для офлайна).
🔹 Атмосфера живого общения, афтепати и подарки за активность.

📌 Формат — гибридный, но полное погружение в «стерео-звук» данных — только офлайн:

📱

В Москве — в гостях у ВК

📱

В Питере — в гостях у ВК

Регистрируйтесь до 20 января на страницах мероприятий, места на площадках ограничены!

TL;DR:
🎄Data Ёлка ждёт всех в субботу 24 января
🎁 Пройдут 2 офлайн Ëлки + одна общая онлайн-трансляция на VK Video ODS.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1🎉1

2.03K views08:40

Data Science by ODS.ai 🦜

Forwarded from Анализ данных (Data analysis)

🔥 CEO Cursor заявил, что они скоординировали сотни GPT-5.2 агентов, чтобы автономно собрать браузер с нуля всего за 1 неделю.

Цитата:

> “Мы построили браузер с GPT-5.2 прямо в Cursor. Он работал без остановки целую неделю.”

Что особенно дико:
- 3M+ строк кода
- тысячи файлов
- рендер-движок с нуля на Rust
- парсинг HTML / CSS

Если это правда - мы уже не “пишем код”, мы управляем армией агентов, которые строят целые продукты без сна и выходных.

https://x.com/mntruell/status/2011562190286045552

@data_analysis_ml

🤡11🔥7❤3👍2😁2

2.01K views15:11

Data Science by ODS.ai 🦜

Forwarded from DevOps

🤖

Лучшие GitHub-репозитории, чтобы выучить AI с нуля в 2026

Если хочешь разобраться в ИИ не по курсам “в вакууме”, а через реальные open-source проекты - вот топ реп, которые реально ведут от базы до практики:

1) Karpathy – Neural Networks: Zero to Hero
Самый понятный вход в нейросети и backprop “на пальцах”
https://github.com/karpathy/nn-zero-to-hero

2) Hugging Face Transformers
Главная библиотека современного NLP/LLM: модели, токенизаторы, fine-tuning
https://github.com/huggingface/transformers

3) FastAI – Fastbook
Практическое DL-обучение через проекты и эксперименты
https://github.com/fastai/fastbook

4) Made With ML
ML как инженерная система: пайплайны, прод, деплой, мониторинг
https://github.com/GokuMohandas/Made-With-ML

5) Machine Learning System Design (Chip Huyen)
Как строить ML-системы в реальном бизнесе: данные, метрики, инфраструктура
https://github.com/chiphuyen/machine-learning-systems-design

6) Awesome Generative AI Guide
Подборка материалов по GenAI: от основ до практики
https://github.com/aishwaryanr/awesome-generative-ai-guide

7) Dive into Deep Learning (D2L)
Одна из лучших книг по DL + код + задания
https://github.com/d2l-ai/d2l-en

Сохрани себе - это база, на которой можно реально вырасти до ML/LLM-инженера.

@DevOPSitsec

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥6❤4🎉2😢1

1.88K views10:05

Data Science by ODS.ai 🦜

Forwarded from ODS Events

Привет!

Представляем Вашему вниманию второй выпуск подкаста "Капитанский мостик". В этом разговоре участники обсуждают как ИИ и данные перестраивают рынок, а платформы адаптируются под новые сценарии. Ведущие подкаста - Валентин Малых и Дмитрий Колодезев.
Смотрите видео на каналах ⤵️
ODS VK Video
ODS YouTube

📩 Присылайте новости для обсуждения в канал "Дата-капитаны" в mattermost (авторизуйтесь через ODS.ai).

👍1😢1

1.61K views07:04

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

🌟

NVIDIA KVzap: жмем KV-кэш в 4 раза.

Все любят длинный контекст, но для GPU это больно - KV-кэш растет линейно и быстро сжирает VRAM. Например, для Llama-65B на 128k токенов кэш весит 335 ГБ. Существующие методы прунинга либо медленные, либо тупые и режут важное, либо требуют переобучения модели.

NVIDIA предложили метод KVzap, который решает, какие токены можно забыть, глядя только на текущие хидден-стэйты.

🟡

Логика метода разбита на 2 этапа:

Поиск идеала (KVzip+).
Берется медленный, но точный метод KVzip: модели скармливают текст, заставляют его повторить, и смотрят, на какие прошлые токены она реально обращает внимание. Это золотой стандарт важности токена. Но в проде так делать нельзя, это двойная работа.

Аппроксимация (KVzap).
Тут и происходит вся суть: крошечная модель-суррогат смотрит на входящий хидден-стэйт токена и предсказывает, насколько этот токен будет важен в будущем, то есть пытается угадать скор KVzip.

Модели 2-х видов:

KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%).

KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%).

🟡

Все вместе это работает так

Токен залетает в слой трансформера, модель-суррогат быстро считает его скор важности. Если он ниже порога - токен в кэш не пишется или удаляется. Но при этом всегда оставляется скользящее окно из последних 128 токенов, чтобы не терять локальный контекст, иначе модель сыпется.

🟡

Результаты тестов.

Проверяли на Qwen3-8B, Llama-3.1-8B и Qwen3-32B. Спойлер: работает везде.

Удалось выкинуть до 75% KV-кэша, а это сжатие в 4 раза. На бенчмарках RULER (длинный контекст), LongBench и AIME25 падение метрик или нулевое, или меньше 1%. Оверхед от суррогатной модели мизерный - менее 1% FLOPs.

🟡

Звучит, конечно, как гем, но давайте про минусы:

🟠Нужно дообучить этот маленький MLP для каждого слоя целевой модели. Датасет нужен, но процесс быстрый.

🟠Удаление токенов создает рваный кэш. У разных голов будет разное количество сохраненных токенов.

Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины.

🟠Порог отсечения фиксированный. Если промахнуться с ним, то модель начнет галлюцинировать или забудет начало.

🟡

По итогу, KVzap - крутой шаг к тому, чтобы гонять длинные контексты на GPU попроще.

Метод умнее, чем Streaming LLM, и быстрее, чем полные методы разреженного внимания.

Ждем интеграции в vLLM или TRT-LLM, а пока, чтобы скрасить ожидание, NVIDIA собрала на HF интерактивный лидерборд популярных методик компрессии KV-кэша.

Код и веса моделей-суррогатов из тестов пейпера в открытом доступе, так что нет никаких ограничений, чтобы не покрутить KVzap на каком-нибудь тестовом сетапе.

@ai_machinelearning_big_data

#AI #ML #LLM #KVZAP #NVIDIA

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🔥3❤1🙏1

1.26K views12:04

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

✔️ Sakana AI выпустили RePo - LLM, которые умеют “наводить порядок” в контексте

Обычные языковые модели читают текст как одну длинную ленту.

Что ближе к началу внимания - то “важнее”.
Что дальше - то модель видит хуже.

И тут появляется проблема: если важный факт спрятан где-то далеко среди шума, модель может его просто не использовать.

Она тратит внимание на всё подряд, вместо того чтобы сосредоточиться на главном.

Sakana AI предложили решение - RePo (Context Re-Positioning).

Идея очень понятная: модель получает модуль, который позволяет динамически “перепозиционировать” контекст.

Примерно как человек:
ты читаешь длинный документ, понимаешь, что важная часть была 20 страниц назад - и мысленно перечитываешь её , а лишнее игнорируешь.

Что делает RePo
- подтягивает важные куски информации ближе
- отодвигает шум и лишний текст
- помогает вниманию модели фокусироваться на нужном

В результате модель с такой памятью начинает лучше работать там, где LLM обычно страдают:
- когда контекст длинный
- когда много шума
- когда важные детали раскиданы далеко друг от друга
- когда данные структурированные (таблички, списки, правила)

Авторы показывают, что RePo даёт заметный прирост устойчивости, при этом не ухудшая общее качество.

▶️ Устойчивость к шуму (Noisy Context)
Средний результат по 8 noisy-бенчмаркам:

- Обычный RoPE: 21.07
- RePo: 28.31

🟡 Прирост: +7.24 пункта (сильно)

Авторы отдельно фиксируют ключевую цифру:
на noisy-eval (4K контекст) RePo лучше RoPE на +11.04 пункта.

🔥 Примеры прироста на конкретных задачах
(везде RePo > RoPE)

- TriviaQA: 61.47 → 73.02 (+11.55)
- GovReport: 6.23 → 16.80 (+10.57)
- 2WikiMultihopQA: 23.32 → 30.86 (+7.54)
- MuSiQue: 7.24 → 13.45 (+6.21)

Это шаг к моделям, которые не просто “читают что дали”, а умеют сами организовать свою рабочую память.

🟡

Подробности: pub.sakana.ai/repo/

🟡

Статья: arxiv.org/abs/2512.14391

@ai_machinelearning_big_data

#RePo #SakanaAI #LLM #AI #AIAgents #Context #LongContext #Attention

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍3🔥1

1.63K views07:13

About

Blog

Apps

Platform