Машинное обучение digest
58 subscribers
1.69K photos
224 videos
925 links
Download Telegram
⚡️ Black Forest Labs выпустила ультралегкую модель.

BFL вышли на связь c релизом прямого наследника ветки schnell первой версии семейства Flux.

Знакомьтесь - FLUX.2 [Klein], модель, которая возвращает веру в то, что с маленьким VRAM тоже можно жить.

Это попытка впихнуть качество топовой FLUX.2 в формат, которую потянет большинство потребительских GPU.

Klein получился довольно универсальным инструментом: она умеет и text-to-image, и инпэйинт, и смешивание стилей.

Заявлены разрешение до 4 мегапикселей, отличный рендеринг текста и понимание сложных промптов.

🟡Как вы правильно подумали - да, это дистилляция.

BFL взяли флагманскую FLUX.2 и сжали знания в 2 компактные версии: 4B и 9B, каждая из которых получила вариации Base и Distilled:

🟢Base: медленная, много шагов - нужна для дообучения.

🟠Distilled: быстрая, 4 шага, только для инференса.

Если захотите тренить на 4B Distilled - получите кашу.

🟡Расклад по инференсу на 5090:

9B distilled — 4 шага · ~2 сек. · 19.6GB VRAM

9B base — 50 шагов · ~35 сек · 21.7GB VRAM

4B distilled — 4 шага · ~1.2 сек. · 8.4GB VRAM

4B base — 50 шагов · ~17 сек. · 9.2GB VRAM



📌 Лицензионная вилка : 4B - Apache 2.0, 9B - Non-Commercial.

Веса уже на Hugging Face, потыкать в демо можно у BFL или в спейсах на HF: 9B и .


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Google выкатила TranslateGemma.

Google продолжает радовать открытыми сайд-релизами.

На этот раз они взяли свежую Gemma 3, накачали ее синтетикой от флагманской Gemini и отполировали через RL.

Поскольку база - Gemma 3, модель умеет переводить текст на картинках (OCR + Translation) из коробки, без дополнительных танцев с бубном

Google громко заявляет про поддержку 55 языков, на которых качество гарантировано. Но мелким шрифтом добавляют, что модель видела еще 500 языков.

Работают ли они? Скорее всего, на редких диалектах галлюцинации будут знатные.

В состав релиза вошли модели трех размерностей: 4B , 12B и 27B.

Справедливости ради - Google cравнивают новинку в основном с собой же. Пишут, что модель на 12 млрд. параметров уделывает базовую Gemma 3 на 27B.

Как она стоит против специализированных NLLB (если они еще живы в 2026) - вопрос открытый.


Веса уже на Hugging Face и Kaggle.

Хотя золотая середина в линейке на 12B вроде как компактная и легкая, но для топового качества на старшей версии все равно понадобится что-то на уровне H100.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🧪 Новое исследование Anthropic: как ученые используют Claude, чтобы ускорять науку

Claude подключают к базам данных и научному софту, добавляют guardrails (проверяемость и контроль) - и модель начинает работать как агент, который не “болтает”, а реально выполняет исследования.

1) Stanford - Biomni (Claude + сотни биомедицинских инструментов)
Biomni объединяет огромный набор научных тулов, и Claude-агент может работать сразу по ~25 биоподразделам по обычному запросу на английском.

Результаты тестов:
- GWAS-анализ (поиск связей генов и признаков) занимает 20 минут вместо месяцев
- обработка 450 файлов с носимых устройств (30 людей) - 35 минут вместо 3 недель
- анализ 336 000 эмбриональных клеток - нашел известные регуляторы и предложил новые факторы транскрипции
- можно “обучать” его экспертным рабочим процессам как переиспользуемым навыкам

2) CRISPR-лаборатория - MozzareLLM
В CRISPR-экспериментах отключают тысячи генов и смотрят, что ломается.
Самая сложная часть - интерпретация массивов результатов.

MozzareLLM:
- группирует связанные гены
- объясняет, какую функцию они могут делить
- отмечает малоизученные гены
- выставляет confidence, чтобы понять, что реально стоит продолжать

В сравнении моделей Claude оказался лучшим - и даже смог правильно распознал путь модификации РНК, который другие модели списали как шум.

3) Лаборатория с дорогими скринингами
Один точечный экран может стоить > $20 000.
Обычно люди выбирают гены “вручную”, буквально по табличке, как гадание.

Они построили карту молекул и связей между ними - и Claude “путешествует” по этой карте, предлагая лучшие генные цели.
Дальше планируют сравнить:
выбор Claude vs выбор человека vs полный геномный скрининг.

Это исследование про экономику науки:

скорость + масштаб
= больше экспериментов
= быстрее открытия
= без увеличения команды и бюджета

https://www.anthropic.com/news/accelerating-scientific-research
⚡️ xAI первой в мире запустила AI-кластер для обучения на 1 ГВт

И это только старт - уже в апреле мощность увеличат до 1.5 ГВт.

Мы видим новый тренд: AI-дата-центры превращаются в энергопотребителей масштаба города, причём по скорости роста это больше похоже на релиз софта, чем на строительство тяжёлой инфраструктуры.

Чтобы почувствовать масштаб:
1 ГВт - это примерно половина всего энергопотребления Лос-Анджелеса.

И xAI не единственные - hyperscaler’ы массово переходят к “гига-уровню”:

OpenAI
- строит Stargate в Milam County (Техас) мощностью 1.2 ГВт
- партнёрство с SB Energy на $1B
- строительство начинается уже сейчас
- запуск по фазам - начиная с 2026 года

Anthropic
- стартовая фаза: 245 МВт совместно с Hut 8 и Fluidstack
- предусмотрено масштабирование до 2.295 ГВт на нескольких площадках
- развёртывание будет идти несколько лет

https://x.com/elonmusk/status/2012500968571637891
🎙 OpenBMB выложили в open-source веса VoxCPM - с real-time стримингом и LoRA fine-tuning

Модель работает примерно с 0.15 real-time factor на одной RTX 4090 - то есть очень быстро.

Самое интересное: VoxCPM фактически убирает токенизацию из TTS.

Вместо того чтобы переводить аудио в дискретные токены, модель генерирует непрерывную речь напрямую.
Это убирает “токенные артефакты” и лучше сохраняет:
- интонацию
- темп речи
- эмоции и просодию

Технически:
• End-to-end diffusion + autoregressive генерация
• Непрерывные акустические представления
• Без узких мест типа фонем и codec-токенов

🧬 Клонирование голоса - буквально по нескольким секундам аудио

Достаточно короткого референса, и модель переносит:
- акцент
- ритм
- тембр
- паузы и тайминг

Возможности:
• Zero-shot voice cloning
• Без обучения под конкретного спикера
• Работает в режиме streaming

Быстро и легко тюнится
Стриминг идёт чанками с задержкой меньше секунды.
А через LoRA fine-tuning можно адаптировать голоса без полного переобучения модели.

https://github.com/OpenBMB/VoxCPM
💾 Оперативная память может резко подорожать - аналитики ждут новый скачок цен

Индустриальные аналитики прогнозируют крупный рост цен на оперативную память.

Citibank резко пересмотрел прогноз:
📈 теперь ожидается рост цен на DRAM в 2026 году на +88%
(раньше прогнозировали **+53%**).

Почему так:
Micron прямо заявляет, что дефицит DRAM сохранится даже после 2026.
Даже с запуском новых фабрик компания считает, что сможет закрыть только 50% - 66% спроса клиентов.

Главный драйвер - AI.
ИИ-сервера и ускорители сжирают память тоннами, и это вытесняет обычный рынок.

Дополнительный фактор:
производители памяти переводят мощности на более прибыльные AI/Server чипы, создавая “искусственный дефицит” обычной DRAM и NAND, которые идут в:
- ПК
- ноутбуки
- телефоны
- бытовые гаджеты

Итог для пользователей:
производители ПК уже предупреждают - в 2026 году розничные цены могут вырасти на +15% - 20%.

https://x.com/Beth_Kindig/status/2012612262767321271
🌟 NVIDIA KVzap: жмем KV-кэш в 4 раза.

Все любят длинный контекст, но для GPU это больно - KV-кэш растет линейно и быстро сжирает VRAM. Например, для Llama-65B на 128k токенов кэш весит 335 ГБ. Существующие методы прунинга либо медленные, либо тупые и режут важное, либо требуют переобучения модели.

NVIDIA предложили метод KVzap, который решает, какие токены можно забыть, глядя только на текущие хидден-стэйты.

🟡Логика метода разбита на 2 этапа:

Поиск идеала (KVzip+).
Берется медленный, но точный метод KVzip: модели скармливают текст, заставляют его повторить, и смотрят, на какие прошлые токены она реально обращает внимание. Это золотой стандарт важности токена. Но в проде так делать нельзя, это двойная работа.

Аппроксимация (KVzap).
Тут и происходит вся суть: крошечная модель-суррогат смотрит на входящий хидден-стэйт токена и предсказывает, насколько этот токен будет важен в будущем, то есть пытается угадать скор KVzip.

Модели 2-х видов:

KVzap-Linear: простейшая линейная проекция (одна матрица). Она берет хиден-стэйт и тупо проецирует его в скалярный скор важности. Сложность: экстремально низкая (~0.02%).

KVzap-MLP: двухслойный перцептрон. Внутри есть скрытый слой размером 1/8 от размерности модели и нелинейная активация. Сложность: низкая, но выше линейной (~1.1%).


🟡Все вместе это работает так

Токен залетает в слой трансформера, модель-суррогат быстро считает его скор важности. Если он ниже порога - токен в кэш не пишется или удаляется. Но при этом всегда оставляется скользящее окно из последних 128 токенов, чтобы не терять локальный контекст, иначе модель сыпется.

🟡Результаты тестов.

Проверяли на Qwen3-8B, Llama-3.1-8B и Qwen3-32B. Спойлер: работает везде.

Удалось выкинуть до 75% KV-кэша, а это сжатие в 4 раза. На бенчмарках RULER (длинный контекст), LongBench и AIME25 падение метрик или нулевое, или меньше 1%. Оверхед от суррогатной модели мизерный - менее 1% FLOPs.

🟡Звучит, конечно, как гем, но давайте про минусы:

🟠Нужно дообучить этот маленький MLP для каждого слоя целевой модели. Датасет нужен, но процесс быстрый.

🟠Удаление токенов создает рваный кэш. У разных голов будет разное количество сохраненных токенов.

Это плохо, потому что стандартные ядра Paged Attention любят структуру. Чтобы реально получить ускорение, а не только экономию памяти, нужно писать кастомные CUDA-ядра, которые смогут эффективно жевать блоки переменной длины.


🟠Порог отсечения фиксированный. Если промахнуться с ним, то модель начнет галлюцинировать или забудет начало.

🟡По итогу, KVzap - крутой шаг к тому, чтобы гонять длинные контексты на GPU попроще.

Метод умнее, чем Streaming LLM, и быстрее, чем полные методы разреженного внимания.

Ждем интеграции в vLLM или TRT-LLM, а пока, чтобы скрасить ожидание, NVIDIA собрала на HF интерактивный лидерборд популярных методик компрессии KV-кэша.

Код и веса моделей-суррогатов из тестов пейпера в открытом доступе, так что нет никаких ограничений, чтобы не покрутить KVzap на каком-нибудь тестовом сетапе.



@ai_machinelearning_big_data

#AI #ML #LLM #KVZAP #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Новый тренд: инфлюенсеры и коучи продают “себя” в формате ИИ.

Примеры:
- Matthew Hussey запустил подписку $39/мес на “Matthew AI”
уже 1M+ чатов и 1.9M минут общения
- Tony Robbins продаёт AI-коучинг-приложение за $99/мес
- похожие боты уже массово появляются в нишах:
отношения, психология, духовные практики

Кто всё это делает:
Delphi — стартап (основан в 2022), который получил $16M инвестиций.

Они делают таких ботов на базе LLM: то есть фактически это просто чатбот, который разговаривает “в стиле автора”.

Почему это так популярно:
бот работает 24/7
масштабируется на миллионы диалогов
можно монетизировать знания и контент без траты личного времени

Но есть и обратная сторона:
появляются неавторизованные копии.
Например, сайт YesChat продавал доступ к ботам “в стиле миллиардера Тонни Роббинсона”, используя его имя и образ без разрешения.

В итоге Роббинсон подал в суд - и выиграл.
YesChat выплатил миллиардеру $1 млн и закрылся.

AI-коучи — это новая подписочная экономика.
Ты покупаешь не курс и не консультацию.
Ты покупаешь “компанию знаменитости”, но в виде чатбота.

wsj.com/style/ai-self-help-chat-bots-tony-robbins-gabby-bernstein-0cf8b3b0
This media is not supported in your browser
VIEW IN TELEGRAM
Демис Хассабис (CEO Google DeepMind) на интервью сказал важную вещь -

Вопрос уже не в том, умеет ли ИИ решать задачи.
Это мы уже видим каждый день.

Настоящий вопрос другой:
сможет ли ИИ изобретать новую науку?


И вот тут ответ пока честный - нет.

Причина не в том, что “мало данных” или “не хватает GPU”.
Проблема фундаментальная: у современных моделей нет модели мира.

LLM могут генерировать гениальные тексты, картинки, код.
Но они почти не понимают причинно-следственные связи.
Они не знают, почему событие A приводит к результату B.
Они просто очень хорошо предсказывают, что обычно идёт дальше.

А настоящая научная работа - это не про угадывание.
Это про построение гипотез, проверку, ошибки, итерации.
Про понимание того, как устроена реальность:
физика, биология, химия, причинность.

Хассабис говорит: чтобы ИИ начал открывать новое, ему нужны:
- сильное рассуждение, а не только генерация
- долгосрочное планирование
- внутренняя модель мира, которая позволяет “думать”, а не продолжать текст

И только тогда ИИ сможет проводить собственные мысленные эксперименты.
Не пересказывать знания.
А создавать их.

Вот где начинается путь к настоящему “цифровому учёному”.

И когда это случится - наука ускорится в разы.
✔️ Sakana AI выпустили RePo - LLM, которые умеют “наводить порядок” в контексте

Обычные языковые модели читают текст как одну длинную ленту.

Что ближе к началу внимания - то “важнее”.
Что дальше - то модель видит хуже.

И тут появляется проблема: если важный факт спрятан где-то далеко среди шума, модель может его просто не использовать.

Она тратит внимание на всё подряд, вместо того чтобы сосредоточиться на главном.

Sakana AI предложили решение - RePo (Context Re-Positioning).

Идея очень понятная: модель получает модуль, который позволяет динамически “перепозиционировать” контекст.

Примерно как человек:
ты читаешь длинный документ, понимаешь, что важная часть была 20 страниц назад - и мысленно перечитываешь её , а лишнее игнорируешь.

Что делает RePo
- подтягивает важные куски информации ближе
- отодвигает шум и лишний текст
- помогает вниманию модели фокусироваться на нужном

В результате модель с такой памятью начинает лучше работать там, где LLM обычно страдают:
- когда контекст длинный
- когда много шума
- когда важные детали раскиданы далеко друг от друга
- когда данные структурированные (таблички, списки, правила)

Авторы показывают, что RePo даёт заметный прирост устойчивости, при этом не ухудшая общее качество.

▶️ Устойчивость к шуму (Noisy Context)
Средний результат по 8 noisy-бенчмаркам:

- Обычный RoPE: 21.07
- RePo: 28.31

🟡 Прирост: +7.24 пункта (сильно)

Авторы отдельно фиксируют ключевую цифру:
на noisy-eval (4K контекст) RePo лучше RoPE на +11.04 пункта.

🔥 Примеры прироста на конкретных задачах
(везде RePo > RoPE)

- TriviaQA: 61.47 → 73.02 (+11.55)
- GovReport: 6.23 → 16.80 (+10.57)
- 2WikiMultihopQA: 23.32 → 30.86 (+7.54)
- MuSiQue: 7.24 → 13.45 (+6.21)

Это шаг к моделям, которые не просто “читают что дали”, а умеют сами организовать свою рабочую память.

🟡Подробности: pub.sakana.ai/repo/
🟡Статья: arxiv.org/abs/2512.14391

@ai_machinelearning_big_data

#RePo #SakanaAI #LLM #AI #AIAgents #Context #LongContext #Attention
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌍 DeepSeek захватывает рынки там, где западные AI-сервисы недоступны

Microsoft собрали оценку глобальной доли DeepSeek - и картина очень показательная.

В Северной Америке и Европе adoption остаётся низким.
Зато в регионах, где доступ к американским сервисам ограничен (или где зарубежные технологии стоят слишком дорого), DeepSeek резко набирает популярность:

- Китай
- Россия
- Иран
- Куба
- Беларусь
- страны Африки (там использование оценивают в 2-4 раза выше, чем в других регионах)

DeepSeek оказался идеальным продуктом для “недообслуженных” рынков:
- больше открытости
- ниже цена
- проще доступ
- лучше адаптация под локальные реалии

И главный вывод тут не про “кто сильнее по бенчмаркам”.
Глобальное распространение ИИ определяется не только качеством модели.

А ещё:
- доступностью
- стоимостью
- языком
- политическими и инфраструктурными ограничениями

Люди выбирают не “самый хайповый AI”, а тот, который реально работает в их стране и подходит по условиям.

microsoft.com/en-us/corporate-responsibility/topics/ai-economy-institute/reports/global-ai-adoption-2025/
⚡️ Финляндия научилась передавать “электричество по воздуху” - без проводов

Учёные из Финляндии (в том числе Университет Хельсинки) показали очень необычную штуку: они смогли управляемо передавать электрический разряд через воздух, используя… звук.

Идея выглядит как sci-fi, но логика простая.

Обычно электрическая искра ведёт себя хаотично - разветвляется и летит туда, где ближе металл. Её почти невозможно “направить”, как провод.

А тут исследователи сделали “невидимый провод” в воздухе:
мощные ультразвуковые волны создают в воздухе стабильный канал (как дорожку), по которому искра идёт в нужном направлении.

Эту технологию называют acoustic wire - “акустический провод”.
Она пока экспериментальная, но потенциально может дать:
- бесконтактные соединения (без вилок и кабелей)
- управление искрами в промышленности (сварка/разряд)
- новые “умные интерфейсы”, где питание может подключаться буквально через воздух

Параллельно финны развивают и другие варианты беспроводной энергии:
- power-by-light - питание лазером на удалённый приёмник (важно для опасных мест: АЭС, высоковольтные станции)
- harvesting радиоволн - сбор энергии из окружающих сигналов (почти “Wi-Fi для питания”) для IoT-датчиков, чтобы не менять батарейки

Главная мысль
Тренд двигается к миру, где питание становится более гибким:
меньше проводов, больше “доставки энергии” под задачу.

Источник (University of Helsinki): направляли искры ультразвуком, фактически создавая “невидимый электрический провод”.