Машиннное обучение | Наука о данных Библиотека
17K subscribers
920 photos
19 videos
21 files
759 links
админ - @workakkk

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram - 🔥лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

№ 5037635661
Download Telegram
Forwarded from Machinelearning
✔️ Sakana AI выпустили RePo - LLM, которые умеют “наводить порядок” в контексте

Обычные языковые модели читают текст как одну длинную ленту.

Что ближе к началу внимания - то “важнее”.
Что дальше - то модель видит хуже.

И тут появляется проблема: если важный факт спрятан где-то далеко среди шума, модель может его просто не использовать.

Она тратит внимание на всё подряд, вместо того чтобы сосредоточиться на главном.

Sakana AI предложили решение - RePo (Context Re-Positioning).

Идея очень понятная: модель получает модуль, который позволяет динамически “перепозиционировать” контекст.

Примерно как человек:
ты читаешь длинный документ, понимаешь, что важная часть была 20 страниц назад - и мысленно перечитываешь её , а лишнее игнорируешь.

Что делает RePo
- подтягивает важные куски информации ближе
- отодвигает шум и лишний текст
- помогает вниманию модели фокусироваться на нужном

В результате модель с такой памятью начинает лучше работать там, где LLM обычно страдают:
- когда контекст длинный
- когда много шума
- когда важные детали раскиданы далеко друг от друга
- когда данные структурированные (таблички, списки, правила)

Авторы показывают, что RePo даёт заметный прирост устойчивости, при этом не ухудшая общее качество.

▶️ Устойчивость к шуму (Noisy Context)
Средний результат по 8 noisy-бенчмаркам:

- Обычный RoPE: 21.07
- RePo: 28.31

🟡 Прирост: +7.24 пункта (сильно)

Авторы отдельно фиксируют ключевую цифру:
на noisy-eval (4K контекст) RePo лучше RoPE на +11.04 пункта.

🔥 Примеры прироста на конкретных задачах
(везде RePo > RoPE)

- TriviaQA: 61.47 → 73.02 (**+11.55**)
- GovReport: 6.23 → 16.80 (**+10.57**)
- 2WikiMultihopQA: 23.32 → 30.86 (**+7.54**)
- MuSiQue: 7.24 → 13.45 (**+6.21*

Это шаг к моделям, которые не просто “читают что дали”, а умеют сами организовать свою рабочую память.

🟡Подробности: pub.sakana.ai/repo/
🟡Статья: arxiv.org/abs/2512.14391

@ai_machinelearning_big_data

#RePo #SakanaAI #LLM #AI #AIAgents #Context #LongContext #Attention
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3🔥2
📌 Новая работа Microsoft + University of Pennsylvania показывает, как LLM могут решать более сложную математику **короче и точнее** - за счёт семплирования и “слияния” вариантов мысли.

Метод называется Multiplex Thinking.

Обычный Chain-of-Thought работает так:
модель расписывает шаги рассуждений текстом, и это:
- быстро раздувает длину ответа
- заставляет рано выбрать один путь решения (и ошибиться)

Multiplex Thinking меняет сам механизм шага:
на каждом шаге модель семплирует K вариантов следующего токена, а затем объединяет их в один “внутренний токен”.

Как это устроено:
- токены - это маленькие куски текста, которые предсказывает модель
- вместо выбора одного варианта сразу, берутся K предположений
- затем их эмбеддинги (внутренние векторы модели) смешиваются в один токен
- итог: неопределённость “упаковывается” без увеличения длины рассуждения

Если модель уверена - варианты совпадают, и поведение почти как обычное.
Если не уверена - сомнения сохраняются внутри шага, не раздувая цепочку мыслей.

Ключевой плюс:
так как варианты берутся как реальные случайные выборки из распределения вероятностей модели, обучение через reward может направлять модель к более сильным траекториям рассуждений.

Авторы проверили метод на двух размерах DeepSeek R1 Distill Qwen:
- 6 сложных математических бенчмарков
- сравнение с обычным пошаговым CoT и другими continuous-token методами

Результат:
точность выше (от 1 до 1024 семплов)
при этом генерируется меньше токенов, что критично, когда дорого прогонять много попыток решения

arxiv.org/abs/2601.08808
3🔥1🥰1
🖥 Большинство “парсеров” умирают через 2 дня.
Ты научишься делать те, которые живут в проде.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.

🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥2👍1
QAD vs QAT - как правильно учить 4-bit модели

Quantization-aware distillation (QAD) помогает сохранить поведение сильной teacher-модели,
а QAT остаётся привязан к обычной задаче предсказания следующего токена.

🧠 QAD - Quantization-Aware Distillation

- Есть teacher - большая модель высокой точности (заморожена)
- Есть student - квантованная 4-bit модель

Студент учится копировать всё распределение вероятностей следующего слова,
а не только один правильный ответ.

Используется KL divergence - метрика различия двух распределений вероятностей.
Она заставляет student делать свои выходы максимально похожими на teacher.

Почему это важно:

Teacher даёт "мягкие цели" (soft targets) - показывает, какие ответы близки к правильному, а какие совсем мимо.
Это особенно полезно, когда 4-bit квантование вносит шум и искажения в обучение.

QAD учит модель вести себя как большая, даже если она сильно ужата.

⚙️ QAT - Quantization-Aware Training

Справа на схеме:

- 4-bit модель обучается напрямую
- Используются обычные метки токенов
- Лосс - cross entropy

Модель получает награду только за то, что ставит высокую вероятность на один правильный следующий токен.

Что значит "shift + mask"

- Shift - модель предсказывает следующий токен по предыдущим (стандартный autoregressive режим)
- Mask - некоторые позиции не учитываются в лоссе (padding, служебные токены и т.д.)

Главное различие

| QAD | QAT |
|------|------|
| Есть teacher | Учителя нет |
| Копируем распределение вероятностей | Угадываем один правильный токен |
| Используется KL divergence | Используется cross entropy |
| Лучше сохраняет поведение большой модели | Проще, но теряет "тонкие знания" |
| Стабильнее при сильном квантовании | Сильнее страдает от шума 4-bit |

Вывод:
QAD помогает перенести "интеллект" большой модели в сильно сжатую версию.
QAT - это обычное обучение, но с учётом того, что модель уже квантована.

research.nvidia.com/labs/nemotron/nemotron-qad
3👍1
💡 Новое исследование предупреждает о преступном использовании тысяч развертываний открытых моделей ИИ.

В ходе 293-дневного наблюдения выяснилось, что 7,5 % системных промптов пропускают вредоносную активность, а хосты сосредоточены в основном в Китае и США.

Многие установили Ollama для локального запуска ИИ и оставили его доступным из сети.

Сканирование в течение 293 дней выявило 175 108 публичных серверов Ollama в 130 странах.

Это означает, что незнакомцы в сети могли отправлять им подсказки и иногда делать больше, чем просто получать текст.

Ollama должна слушать только 127.0.0.1, то есть быть доступной только на том же компьютере.

Если стоит 0.0.0.0, она слушает всю сеть и может случайно стать публичной.

Исследователи зафиксировали 7,23 млн появлений таких хостов, при этом 13 % хостов дают 76 % всех появлений, то есть небольшая группа работает почти постоянно.

Около 48 % рекламировали вызов инструментов, что позволяет подсказкам запускать действия, например выполнять функции, а не только генерировать текст.

Некоторые публичные установки также используют ретривал, и внедрение подсказок может заставить систему раскрывать данные, которые она подтягивает.

Открытые конечные точки могут быть захвачены как бесплатные вычислительные ресурсы для спама или фишинга, и группа из 5 000 хостов в среднем работала 87 % времени.

Недавний завирусившийся ИИ-агент OpenClaw (Clawdbot) спровоцировал новый кризис безопасности.

С проектом OpenClaw (который сначала был Clawdbot, а потом Moltbot) творится классический хайп-экзит. То, что задумывалось как удобный инструмент для управления компьютером через мессенджеры, на деле превратилось в огромную дыру в безопасности. Идея дать ИИ-агенту привилегированные права изначально выглядела так себе, и теперь мы видим последствия.

Из-за того, что Anthropic заставила автора менять название из-за прав на бренд, возникла путаница. Хакеры этим вовсю пользуются: воруют названия и плодят фейковые репозитории с вирусами внутри. Тем временем сотрудники компаний ставят себе OpenClaw без ведома айтишников. В итоге исследователи находят в сети сотни открытых панелей управления, где лежат чужие API-ключи и истории переписки.

reuters.com/technology/open-source-ai-models-vulnerable-criminal-misuse-researchers-warn-2026-01-29/
3👍2🔥1