Liquid AI представила свою крупнейшую модель - LFM2-24B-A2B 🐘
- 24 млрд параметров всего
- активны только 2,3 млрд на каждый токен
- построена на гибридной, аппаратно-оптимизированной архитектуре LFM2
Модель сочетает быстрый и экономичный дизайн LFM2 с архитектурой Mixture of Experts (MoE), благодаря чему при работе задействуется лишь небольшая часть параметров.
Результат:
- высокая энергоэффективность
- быстрая работа на edge-устройствах
- предсказуемый лог-линейный рост качества
- полный запуск в пределах 32 ГБ памяти
С выходом этой версии линейка LFM2 теперь охватывает почти два порядка масштаба — от 350 млн до 24 млрд параметров, при этом каждое увеличение размера даёт стабильный рост качества на стандартных бенчмарках.
Модель специально оптимизирована так, чтобы помещаться в 32 ГБ RAM — её можно запускать на потребительских ноутбуках и рабочих станциях.
Стратегия масштабирования:
- увеличить глубину сети (с 24 до 40 слоёв)
- увеличить число экспертов (с 32 до 64 в каждом MoE-блоке)
- сохранить компактный активный путь вычислений
Итог — общее число параметров выросло в 3 раза, но вычислительная нагрузка осталась контролируемой.
LFM2-24B-A2B выпущена как instruct-модель (без трасс reasoning) и показывает лог-линейный рост качества на задачах:
GPQA Diamond, MMLU-Pro, IFEval, IFBench, GSM8K, MATH-500.
Модель получила поддержку «с первого дня» в:
- llama.cpp
- vLLM
- SGLang
Доступны квантованные версии (GGUF), работающие на CPU и GPU.
Например:
- на CPU (Ryzen AI, Q4_K_M) — около 93 токенов/с при контексте 8K
- высокий throughput и на GPU (H100)
Главный вывод: архитектура LFM2 демонстрирует предсказуемое масштабирование без «потолка качества» у малых моделей.
https://huggingface.co/LiquidAI/LFM2-24B-A2B-GGUF
- 24 млрд параметров всего
- активны только 2,3 млрд на каждый токен
- построена на гибридной, аппаратно-оптимизированной архитектуре LFM2
Модель сочетает быстрый и экономичный дизайн LFM2 с архитектурой Mixture of Experts (MoE), благодаря чему при работе задействуется лишь небольшая часть параметров.
Результат:
- высокая энергоэффективность
- быстрая работа на edge-устройствах
- предсказуемый лог-линейный рост качества
- полный запуск в пределах 32 ГБ памяти
С выходом этой версии линейка LFM2 теперь охватывает почти два порядка масштаба — от 350 млн до 24 млрд параметров, при этом каждое увеличение размера даёт стабильный рост качества на стандартных бенчмарках.
Модель специально оптимизирована так, чтобы помещаться в 32 ГБ RAM — её можно запускать на потребительских ноутбуках и рабочих станциях.
Стратегия масштабирования:
- увеличить глубину сети (с 24 до 40 слоёв)
- увеличить число экспертов (с 32 до 64 в каждом MoE-блоке)
- сохранить компактный активный путь вычислений
Итог — общее число параметров выросло в 3 раза, но вычислительная нагрузка осталась контролируемой.
LFM2-24B-A2B выпущена как instruct-модель (без трасс reasoning) и показывает лог-линейный рост качества на задачах:
GPQA Diamond, MMLU-Pro, IFEval, IFBench, GSM8K, MATH-500.
Модель получила поддержку «с первого дня» в:
- llama.cpp
- vLLM
- SGLang
Доступны квантованные версии (GGUF), работающие на CPU и GPU.
Например:
- на CPU (Ryzen AI, Q4_K_M) — около 93 токенов/с при контексте 8K
- высокий throughput и на GPU (H100)
Главный вывод: архитектура LFM2 демонстрирует предсказуемое масштабирование без «потолка качества» у малых моделей.
https://huggingface.co/LiquidAI/LFM2-24B-A2B-GGUF
Айтишник научил своего пса вайбкодить игры. Для этого парень убедил Claude Code, что его спаниэль Момо — эксцентричный гейм-дизайнер.
Момо рандомно набирал буквы вроде
Пес кодит на клавиатуре с Raspberry Pi. Она подключена к кормушке и боту. Когда набирается нужное число символов, Момо получает еду, а Claude — промт.
На тренировку Момо понадобилось всего две недели.
@ai_machinelearning_big_data
Момо рандомно набирал буквы вроде
skfjhsd#$%. Claude считал это шифром «гения» и искал в нем инструкции.Пес кодит на клавиатуре с Raspberry Pi. Она подключена к кормушке и боту. Когда набирается нужное число символов, Момо получает еду, а Claude — промт.
На тренировку Момо понадобилось всего две недели.
@ai_machinelearning_big_data
⚡️ Карпаты поделился наблюдением, которое хорошо описывает то, что сейчас происходит с разработкой.
За последние пару месяцев программирование изменилось не постепенно, а резко. Раньше кодинг-агенты выглядели как интересный эксперимент - могли помочь с фрагментами кода, но не тянули реальные задачи. Сейчас ситуация другая: модели научились держать контекст, последовательно решать проблемы и доводить работу до конца.
По сути, они получили главное качество инженера - упорство.
Типичный сценарий сегодня выглядит так: ты ставишь задачу высокого уровня, агент подключается к серверу, настраивает окружение, устанавливает зависимости, поднимает сервисы, пишет код, тестирует, исправляет ошибки и возвращается с готовым результатом и отчётом. То, что раньше занимало выходные, теперь может решаться за десятки минут автономной работы.
И это меняет сам подход к разработке.
Раньше основной навык был - писать код.
Теперь основной навык - формулировать задачи, декомпозировать их и управлять процессом.
Новый рабочий процесс:
* описываешь цель на естественном языке
* запускаешь агента
* наблюдаешь за прогрессом
* проверяешь результат
* корректируешь направление
Ключевая компетенция смещается вверх по уровням абстракции:
* архитектурное мышление
* правильная декомпозиция
* настройка инструментов и среды
* оркестрация нескольких агентов
* контроль качества
Это ещё не магия. Агентам всё ещё нужны:
* чёткие спецификации
* понятные критерии успеха
* тесты и верификация
* человеческое суждение и вкус
Лучше всего они работают там, где результат можно проверить автоматически.
Но главное изменение уже произошло.
Программирование постепенно превращается из «написания кода» в управление вычислительной системой, которая пишет код за тебя.
И сейчас выигрывают не те, кто быстрее печатает,
а те, кто умеет мыслить на уровне систем, задач и результатов.
Если раньше ценился coding,
то теперь растёт ценность agent-engineering.
https://x.com/karpathy/status/2026731645169185220
За последние пару месяцев программирование изменилось не постепенно, а резко. Раньше кодинг-агенты выглядели как интересный эксперимент - могли помочь с фрагментами кода, но не тянули реальные задачи. Сейчас ситуация другая: модели научились держать контекст, последовательно решать проблемы и доводить работу до конца.
По сути, они получили главное качество инженера - упорство.
Типичный сценарий сегодня выглядит так: ты ставишь задачу высокого уровня, агент подключается к серверу, настраивает окружение, устанавливает зависимости, поднимает сервисы, пишет код, тестирует, исправляет ошибки и возвращается с готовым результатом и отчётом. То, что раньше занимало выходные, теперь может решаться за десятки минут автономной работы.
И это меняет сам подход к разработке.
Раньше основной навык был - писать код.
Теперь основной навык - формулировать задачи, декомпозировать их и управлять процессом.
Новый рабочий процесс:
* описываешь цель на естественном языке
* запускаешь агента
* наблюдаешь за прогрессом
* проверяешь результат
* корректируешь направление
Ключевая компетенция смещается вверх по уровням абстракции:
* архитектурное мышление
* правильная декомпозиция
* настройка инструментов и среды
* оркестрация нескольких агентов
* контроль качества
Это ещё не магия. Агентам всё ещё нужны:
* чёткие спецификации
* понятные критерии успеха
* тесты и верификация
* человеческое суждение и вкус
Лучше всего они работают там, где результат можно проверить автоматически.
Но главное изменение уже произошло.
Программирование постепенно превращается из «написания кода» в управление вычислительной системой, которая пишет код за тебя.
И сейчас выигрывают не те, кто быстрее печатает,
а те, кто умеет мыслить на уровне систем, задач и результатов.
Если раньше ценился coding,
то теперь растёт ценность agent-engineering.
https://x.com/karpathy/status/2026731645169185220
This media is not supported in your browser
VIEW IN TELEGRAM
Г Модель позволяет быстро генерировать и редактировать изображения, сохраняя уровень детализации, света и текстур, достаточный для коммерческих задач.
Ключевые возможности:
* точное следование сложным текстовым инструкциям
* корректный текст внутри изображений
* создание инфографики, диаграмм и визуального контента
* сохранение внешнего вида персонажей и объектов между генерациями
* поддержка разных форматов и разрешений
Nano Banana 2 интегрирована в экосистему Google:
* Gemini
* AI Studio и Gemini API
* Vertex AI
* Search и Lens
* рекламные инструменты Google
Отдельное внимание уделено прозрачности - изображения автоматически получают цифровую маркировку SynthID и соответствуют стандарту C2PA.
https://blog.google/innovation-and-ai/technology/ai/nano-banana-2/
Please open Telegram to view this post
VIEW IN TELEGRAM
🎯 Martian выпустили крупнейший бенчмарк для оценки AI-агентов, которые проверяют код и он полностью open-source.
Главная проблема большинства AI-тестов - модели со временем просто запоминают ответы. Бенчмарк превращается в «экзамен с известными вопросами», а реальные возможности моделей остаются за кадром.
Martian решили эту проблему архитектурно.
Вместо одного теста они внедрили систему Dual-Layer Evaluation:
- Offline-слой — честное сравнение моделей на статичных данных
- Online-слой — анализ поведения инструментов в реальной работе разработчиков
Если компания попытается «подогнать» модель под офлайн-тест, это сразу станет заметно — её результаты перестанут совпадать с реальным использованием в онлайн-слое.
Фактически это первый самокорректирующийся бенчмарк, который нельзя накрутить маркетингом или обучением на тестовых данных.
Что внутри:
- Более 200 000 реальных изменений кода
- Данные реального поведения разработчиков
- Оценка качества AI-ревью в боевых условиях
- Полная нейтральность — создатели не продают собственные coding-ассистенты
Это первый измеритель качества AI-инструментов для разработки, который не деградирует со временем и отражает реальную пользу, а не лабораторные метрики.
https://codereview.withmartian.com/
Главная проблема большинства AI-тестов - модели со временем просто запоминают ответы. Бенчмарк превращается в «экзамен с известными вопросами», а реальные возможности моделей остаются за кадром.
Martian решили эту проблему архитектурно.
Вместо одного теста они внедрили систему Dual-Layer Evaluation:
- Offline-слой — честное сравнение моделей на статичных данных
- Online-слой — анализ поведения инструментов в реальной работе разработчиков
Если компания попытается «подогнать» модель под офлайн-тест, это сразу станет заметно — её результаты перестанут совпадать с реальным использованием в онлайн-слое.
Фактически это первый самокорректирующийся бенчмарк, который нельзя накрутить маркетингом или обучением на тестовых данных.
Что внутри:
- Более 200 000 реальных изменений кода
- Данные реального поведения разработчиков
- Оценка качества AI-ревью в боевых условиях
- Полная нейтральность — создатели не продают собственные coding-ассистенты
Это первый измеритель качества AI-инструментов для разработки, который не деградирует со временем и отражает реальную пользу, а не лабораторные метрики.
https://codereview.withmartian.com/
Большинство подростков в США (13–17 лет) уже используют AI-чатботов - ChatGPT, Copilot, Character AI.
Около **30% обращаются к ним ежедневно**.
Как они используют AI:
🔹 57% — для поиска информации
🔹 54% — для помощи с учебой
🔹 47% — для развлечений
🔹 ~**40%** — для создания или редактирования контента, а также для суммаризации текстов
Интересно, что AI пока не стал полноценной заменой общения:
🔹 16% используют чатботы для обычных разговоров
🔹 12% обращаются за эмоциональной поддержкой или советом
Вывод простой:
AI для нового поколения — это уже не инструмент будущего, а повседневный помощник для учебы, творчества и задач каждый день.
Около **30% обращаются к ним ежедневно**.
Как они используют AI:
🔹 57% — для поиска информации
🔹 54% — для помощи с учебой
🔹 47% — для развлечений
🔹 ~**40%** — для создания или редактирования контента, а также для суммаризации текстов
Интересно, что AI пока не стал полноценной заменой общения:
🔹 16% используют чатботы для обычных разговоров
🔹 12% обращаются за эмоциональной поддержкой или советом
Вывод простой:
AI для нового поколения — это уже не инструмент будущего, а повседневный помощник для учебы, творчества и задач каждый день.
This media is not supported in your browser
VIEW IN TELEGRAM
Идея в том, чтобы модели могли мгновенно адаптироваться к новым задачам или информации — без долгого fine-tuning, сложных пайплайнов и огромных промптов.
Сегодня у LLM есть проблема:
чтобы обучить модель под новую задачу или добавить знания, обычно требуется:
- дорогое и длительное дообучение
- context distillation
- или длинные, затратные по памяти промпты
Sakana AI предложили другой подход.
Они обучили гиперсеть (Hypernetwork), которая генерирует LoRA-адаптеры «на лету».
Теперь вместо сложного процесса оптимизации достаточно одного forward-pass, чтобы:
- адаптировать модель под новую задачу
- или «встроить» в неё новый документ
Что показывают эксперименты:
Text-to-LoRA
- модель специализируется под новую задачу
- достаточно текстового описания на естественном языке
Doc-to-LoRA
- модель может «внутренне запомнить» длинный документ
- показывает почти идеальную точность на задачах, где текст в 5 раз длиннее контекстного окна
- способна переносить визуальные знания из vision-language модели в текстовую LLM
При этом обе технологии работают с задержкой меньше секунды.
Главное значение работы — снижение порога кастомизации.
Вместо сложного ML-процесса пользователь сможет специализировать модель простым текстовым запросом.
Код и исследования уже открыты для сообщества:
Doc-to-LoRA
Paper: https://arxiv.org/abs/2602.15902
Code: https://github.com/SakanaAI/Doc-to-LoRA
Text-to-LoRA
Paper: https://arxiv.org/abs/2506.06105
Code: https://github.com/SakanaAI/Text-to-LoRA
Please open Telegram to view this post
VIEW IN TELEGRAM
Анонимность в интернете больше не стоит считать надёжной.
Теперь человека можно раскрыть примерно за $1 - и не спецслужбами, а любым, у кого есть доступ к Claude или ChatGPT и несколько его анонимных постов.
ETH Zürich и Anthropic опубликовали исследование “Large-Scale Online Deanonymization with LLMs”, в котором показали автоматическую систему деанонимизации.
Как работает система:
Она полностью автономно:
- анализирует анонимные посты
- извлекает личностные сигналы (интересы, стиль, факты)
- ищет совпадения в интернете
- определяет, кто стоит за аккаунтом
Работает на разных платформах: Reddit, Hacker News, LinkedIn и даже на отредактированных интервью.
Результаты:
- Hacker News — 67% пользователей идентифицированы
- Если система делала предположение — 90% точности
- Reddit (учёные под псевдонимами) — 52%
- Интервью с удалёнными личными данными — 9 из 33 всё равно раскрыты
Пайплайн состоит из четырёх этапов (ESRC):
1. Extract — извлечение идентификационных сигналов из текста
2. Search — поиск кандидатов через embeddings по тысячам профилей
3. Reason — логическое сопоставление кандидатов (LLM)
4. Calibrate — оценка уверенности, чтобы ошибки были минимальны
Старые методы деанонимизации (например, атака времён Netflix Prize) показали почти нулевую эффективность.
LLM не просто улучшили подход — они сделали прежние методы практически бесполезными.
Даже если пользователь меняет интересы и темы, система всё равно находит совпадения:
- 67% совпадений при точности 90%
- 38% при точности 99%
Чем мощнее модель — тем выше вероятность деанонимизации.
Каждое улучшение reasoning-возможностей усиливает такую атаку.
Почему это трудно остановить:
Каждый шаг выглядит безобидно:
- суммаризация текста
- вычисление embeddings
- ранжирование профилей
Ни один отдельный запрос не выглядит как попытка деанонимизации, поэтому фильтры и лимиты почти бесполезны.
Вывод исследователей:
> Пользователи, которые пишут под постоянными псевдонимами, должны исходить из того, что их аккаунты могут быть связаны с реальной личностью.
По прогнозам, даже среди 1 миллиона кандидатов система может достигать ~35% совпадений при точности 90%.
Фактически:
каждый анонимный аккаунт, каждый комментарий и каждое «это никто со мной не свяжет» — теперь превращаются в поисковые микроданные.
Практическая анонимность в интернете становится всё менее реальной.
arxiv.org/pdf/2602.16800
Теперь человека можно раскрыть примерно за $1 - и не спецслужбами, а любым, у кого есть доступ к Claude или ChatGPT и несколько его анонимных постов.
ETH Zürich и Anthropic опубликовали исследование “Large-Scale Online Deanonymization with LLMs”, в котором показали автоматическую систему деанонимизации.
Как работает система:
Она полностью автономно:
- анализирует анонимные посты
- извлекает личностные сигналы (интересы, стиль, факты)
- ищет совпадения в интернете
- определяет, кто стоит за аккаунтом
Работает на разных платформах: Reddit, Hacker News, LinkedIn и даже на отредактированных интервью.
Результаты:
- Hacker News — 67% пользователей идентифицированы
- Если система делала предположение — 90% точности
- Reddit (учёные под псевдонимами) — 52%
- Интервью с удалёнными личными данными — 9 из 33 всё равно раскрыты
Пайплайн состоит из четырёх этапов (ESRC):
1. Extract — извлечение идентификационных сигналов из текста
2. Search — поиск кандидатов через embeddings по тысячам профилей
3. Reason — логическое сопоставление кандидатов (LLM)
4. Calibrate — оценка уверенности, чтобы ошибки были минимальны
Старые методы деанонимизации (например, атака времён Netflix Prize) показали почти нулевую эффективность.
LLM не просто улучшили подход — они сделали прежние методы практически бесполезными.
Даже если пользователь меняет интересы и темы, система всё равно находит совпадения:
- 67% совпадений при точности 90%
- 38% при точности 99%
Чем мощнее модель — тем выше вероятность деанонимизации.
Каждое улучшение reasoning-возможностей усиливает такую атаку.
Почему это трудно остановить:
Каждый шаг выглядит безобидно:
- суммаризация текста
- вычисление embeddings
- ранжирование профилей
Ни один отдельный запрос не выглядит как попытка деанонимизации, поэтому фильтры и лимиты почти бесполезны.
Вывод исследователей:
> Пользователи, которые пишут под постоянными псевдонимами, должны исходить из того, что их аккаунты могут быть связаны с реальной личностью.
По прогнозам, даже среди 1 миллиона кандидатов система может достигать ~35% совпадений при точности 90%.
Фактически:
каждый анонимный аккаунт, каждый комментарий и каждое «это никто со мной не свяжет» — теперь превращаются в поисковые микроданные.
Практическая анонимность в интернете становится всё менее реальной.
arxiv.org/pdf/2602.16800
Компания обновила свой отчет об угрозах. В нем приводится примеры операций, в которых использовали ChatGPT в мошеннических и дезинформационных схемах. Ни одна из них не достигла массового охвата, но детали механик стоят внимания.
Полуавтоматический дэйтинг-скам из Камбоджи, направленный на молодых индонезийцев. Операторы запускали таргетированные рекламные объявления в соцсетях с ключевыми словами и далее вели жертв в Telegram.
Там человек-оператор через ChatGPT генерировал романтические и сексуально окрашенные сообщения, затем передавал жертву ментору, который разводил жертву на серию платежей, после которых жертву блокировали.
Мошенническая схема возврата потерь, тоже из Камбоджи. Скамеры создавали сайты фиктивных юридических фирм, генерировали поддельные удостоверения адвокатов и документы, стилизованные под FBI.
Жертвами становились люди, уже пострадавшие от других злоумышленников, им обещали помочь вернуть деньги за предоплату в криптовалюте.
Предположительно китайская разведывательная операция, нацеленная на американских чиновников и аналитиков. Операторы генерировали письма от имени несуществующей консалтинговой фирмы «Nimbus Hub», приглашая жертв на платные консультации.
Параллельно они изучали расположение федеральных офисов, искали данные сотрудников и запрашивали у модели инструкции по установке программы для создания дипфэйков.
Скоординированная кампания в поддержку лидера секты Константина Руднева, арестованного в Аргентине. Участники из Пакистана, Армении, Уругвая и Казахстана генерировали статьи и комментарии на испанском, публиковали их через фейковые страницы в соцсетях, замаскированные под местные новостные издания. Некоторые материалы попали в реальные региональные СМИ Аргентины.
Несуществующий доктор Мануэль Годсин из Бергенского университета публиковал статьи на новостных сайтах Ганы, Кении, Анголы и ЮАР. Тексты хвалили Российскую Федерацию и критиковали политику Евросоюза.
Контент-ферма, связанная с российской информационной сетью. ChatGPT использовался для генерации пакетных комментариев на английском и испанском: один промпт давал 7 твитов, которые затем публиковали разные аккаунты. Самый просматриваемый из них набрал 150 тыс. просмотров.
Наиболее масштабный кейс. Аккаунт, связанный с сотрудником китайских правоохранительных органов, просил ChatGPT помочь спланировать операцию против премьер-министра Японии Санаэ Такаити. Модель отказала.
Через несколько недель тот же пользователь попросил отредактировать отчет о ходе этой кампании (судя по всему, она была запущена без ChatGPT).
Из запросов следовало, что операция охватывала сотни операторов, тысячи фейковых аккаунтов на 300+ платформах, а в качестве инструментов использовались DeepSeek-R1, Qwen2.5 и YOLOv8.
Вывод OpenAI
ИИ-контент сам по себе не определяет успех злого умысла. Решающую роль играют охват распространителей и точность таргетинга. Без этих компонентов даже хорошо организованные кампании остаются практически невидимыми.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
В setup:
- 8 агентов (Claude + Codex)
- у каждого свой GPU
- каждый работает как отдельный исследователь
- задачи ведутся через Git-ветки
- коммуникация через файлы
- всё запускается в tmux - как «офис» с окнами
Фактически — попытка построить AI-research-организацию.
Но главный вывод оказался неожиданным.
Агенты:
- плохо продумывают дизайн экспериментов
- делают случайные или бессмысленные вариации
- не строят сильные baseline
- не контролируют compute и время
- часто делают ложные выводы
Пример: агент «обнаружил», что увеличение hidden size улучшает validation loss.
Формально — да. Но модель просто стала больше и дольше обучалась. Никакой научной ценности.
Инсайт:
AI отлично реализует хорошо сформулированные идеи.
Но пока плохо генерирует сильные исследовательские гипотезы.
Самая важная мысль:
Теперь мы программируем не модель —
мы программируем организацию.
Source code такой системы:
- промпты
- роли
- процессы
- инструменты
- standup’ы
- workflow
Вопрос будущего звучит так:
Насколько быстро ваша AI-организация может делать научный прогресс на новой задаче?
Добро пожаловать в эпоху *Org Engineering*.
https://x.com/karpathy/status/2027521323275325622
Please open Telegram to view this post
VIEW IN TELEGRAM
🇨🇳 DeepSeek меняет правила игры в AI-индустрии.
Обычно всё происходит так:
AI-лаборатории заранее делятся новыми моделями с Nvidia и AMD, чтобы те оптимизировали софт под своё железо.
Так формируется стандарт: модель → оптимизация → лучше всего работает на американских GPU.
DeepSeek пошёл другим путём.
Перед релизом V4:
- код не дали Nvidia и AMD
- ранний доступ на несколько недель получили китайские производители, включая Huawei
Что это значит?
DeepSeek фактически делает ставку на то, чтобы их модели:
- работали лучше на локальном железе
- ускорили развитие китайских AI-чипов
- снизили зависимость от американской экосистемы
Но есть интересный нюанс.
По словам американского чиновника, последняя модель DeepSeek всё же обучалась на Nvidia Blackwell в материковом Китае.
То есть стратегия выглядит так:
- тренируемся на лучшем доступном железе
- оптимизируемся под свою инфраструктуру
- формируем собственный стандарт
Это уже не просто конкуренция моделей.
Это борьба экосистем:
- AI-модели
- чипы
- софт
- инфраструктура
И главный тренд ближайших лет:
Кто контролирует стек, тот контролирует рынок AI.
reuters. com/world/china/deepseek-withholds-latest-ai-model-us-chipmakers-including-nvidia-sources-say-2026-02-25/
Обычно всё происходит так:
AI-лаборатории заранее делятся новыми моделями с Nvidia и AMD, чтобы те оптимизировали софт под своё железо.
Так формируется стандарт: модель → оптимизация → лучше всего работает на американских GPU.
DeepSeek пошёл другим путём.
Перед релизом V4:
- код не дали Nvidia и AMD
- ранний доступ на несколько недель получили китайские производители, включая Huawei
Что это значит?
DeepSeek фактически делает ставку на то, чтобы их модели:
- работали лучше на локальном железе
- ускорили развитие китайских AI-чипов
- снизили зависимость от американской экосистемы
Но есть интересный нюанс.
По словам американского чиновника, последняя модель DeepSeek всё же обучалась на Nvidia Blackwell в материковом Китае.
То есть стратегия выглядит так:
- тренируемся на лучшем доступном железе
- оптимизируемся под свою инфраструктуру
- формируем собственный стандарт
Это уже не просто конкуренция моделей.
Это борьба экосистем:
- AI-модели
- чипы
- софт
- инфраструктура
И главный тренд ближайших лет:
Кто контролирует стек, тот контролирует рынок AI.
reuters. com/world/china/deepseek-withholds-latest-ai-model-us-chipmakers-including-nvidia-sources-say-2026-02-25/
В США набирает обороты скандал, который буквально за 2 недели вырос до масштаба национальной темы, которая уже вышла за рамки ИИ-индустрии.
В пятницу, Администрация Президента США объявила о внесении Anthropic в список компаний, представляющих риск для оборонных цепочек поставок.
Прецедент исключительный: обычно такой статус присваивают структурам из враждебных государств (например, китайской Huawei).
В среду вечером Пентагон письменно потребовал от Anthropic разрешить военным использовать Claude "в любых законных целях" - то есть без каких-либо ограничений, наложенных самой компанией.
В четверг CEO Дарио Амодэй опубликовал открытое заявление, в котором объяснил позицию компании: главные опасения - массовая слежка за гражданами и автономное оружие, способное открывать огонь без участия человека.
«Мы не можем по совести согласиться с их требованием», — написал Дарио.
В ответ старший чиновник Пентагона Эмиль Майкл назвал Амодэя лжецом с "комплексом бога", который "готов рисковать безопасностью страны".
Claude - единственная модель ИИ, развернутая в засекреченных системах американских военных. Она использовалась в операции по захвату Николаса Мадуро и рассматривается как инструмент для потенциальных военных операций в Иране.
Контракт Пентагона с Anthropic оценивался в $200 млн; теперь он будет расторгнут. Кроме того, все подрядчики Министерства обороны обязаны будут подтвердить отказ от Claude в своих рабочих процессах. На переход отведено полгода.
Сложнее всего придется компании Palantir, она использует Claude для наиболее чувствительных военных задач и теперь вынуждена срочно договариваться с конкурентами Anthropic.
Военные не обязаны согласовывать применение купленного инструмента с частной компанией.
Министр обороны Пит Хегсет давно критикует "повесточный ИИ", а администрация Президента США усиливает давление на Anthropic несмотря на то, что армия все больше зависит от ее продукта.
«Единственная причина, по которой мы вообще с ними разговариваем — они нам нужны, и нужны прямо сейчас», — сказал один из оборонных чиновников.
xAI подписала соглашение с Пентагоном об использовании Grok в засекреченных системах, но эксперты признают, что полноценной альтернативой Claude он вряд ли станет.
Google Gemini и ChatGPT работают в несекретных контурах; Министерство обороны ускоряет переговоры о переводе их в секретную среду.
Позиция Anthropic вызвала волну солидарности в ИИ-отрасли: сотни сотрудников Google и OpenAI подписали петицию с призывом к собственным компаниям занять такую же позицию.
Сэм Альтман заявил, что компания сохранит те же "красные линии" по слежке и автономному оружию, но все же намерена искать договоренность с Пентагоном.
В ночь на субботу в Х глава OpenAI сообщил, что соглашение с Министерством обороны достигнуто и модели компании будут развернуты в секретных сетях. По словам Альтмана, Минобороны согласилось на запрет слежки и использования моделей OpenAI в автономных системах вооружения.
Anthropic пока не сообщала, будет ли оспаривать присвоенный статус в суде.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь можно перенести контекст и предпочтения из других AI-инструментов.
Как это работает:
1. В другом AI генерируете специальный prompt с вашим контекстом
2. Копируете результат
3. Вставляете его в настройки памяти Claude
После этого Claude:
- запоминает ваши предпочтения
- понимает ваш стиль работы
- может сразу продолжать диалог без повторных объяснений
Функция доступна во всех платных тарифах.
Почему это важно:
Контекст становится переносимым.
Вы больше не привязаны к одному инструменту.
Новый тренд в AI:
Пользовательский контекст - это ваш личный слой поверх моделей.
Модель можно сменить.
Память - остаётся.
claude.com/import-memory
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Qwen 3.5 выходит в компактном формате
Alibaba представила новую линейку малых моделей Qwen 3.5:
0.8B · 2B · 4B · 9B
Все модели построены на единой архитектуре Qwen 3.5:
- нативная мультимодальность
- улучшенная архитектура
- масштабированное обучение с RL
- оптимизация для реальных сценариев
0.8B и 2B
Подходят для edge-устройств, локальных приложений и быстрых inference-задач.
4B
Неожиданно сильная база для лёгких мультимодальных агентов и небольших AI-сервисов.
9B
Компактная модель, но уже заметно приближается по качеству к гораздо более крупным системам.
Отдельно выпущены и Base-версии.
Hugging Face: https://huggingface.co/collections/Qwen/qwen35
@ai_machinelearning_big_data
Alibaba представила новую линейку малых моделей Qwen 3.5:
0.8B · 2B · 4B · 9B
Все модели построены на единой архитектуре Qwen 3.5:
- нативная мультимодальность
- улучшенная архитектура
- масштабированное обучение с RL
- оптимизация для реальных сценариев
0.8B и 2B
Подходят для edge-устройств, локальных приложений и быстрых inference-задач.
4B
Неожиданно сильная база для лёгких мультимодальных агентов и небольших AI-сервисов.
9B
Компактная модель, но уже заметно приближается по качеству к гораздо более крупным системам.
Отдельно выпущены и Base-версии.
Hugging Face: https://huggingface.co/collections/Qwen/qwen35
@ai_machinelearning_big_data
Microsoft, UIUC и UNC-Chapel Hill разработали систему дообучения VL-моделей для автономного управления графическими интерфейсами.
Авторы обнаружили 2 системных изъяна в существующих пайплайнах обучения GUI-агентов:
Cтандартный SFT с длинными CoT ухудшает визуальную локализацию (чем длиннее рассуждение, тем хуже модель попадает в нужный элемент интерфейса).
Пошаговое RLVR-обучение нестабильно, потому что GUI-среда частично верифицируема. На каждом шаге существует несколько корректных действий, но датасет фиксирует только одно. Как результат - за альтернативные, но правильные действия модель получает штраф.
Метод смешивает данные с рассуждениями и без них, а затем перевзвешивает токены: action- и grounding-токены получают больший вес в лосс-функции, чем токены рассуждений. Это позволяет сохранить способность к CoT, не жертвуя точностью клика.
KL-регуляризация ограничивает дрейф политики относительно референсной модели, что улучшает корреляцию между офлайн- и онлайн-метриками. Success-Adaptive Negative Gradient Scaling динамически снижает вес отрицательных градиентов в зависимости от доли успешных действий в группе GRPO-сэмплов. Это защищает от штрафования валидных, но не задокументированных действий.
Он содержит больше токенов на рассуждение: в среднем 210 на шаг против 85 у AGUVIS Stage 2 L3 и 0 у большинства остальных.
Внутри - существующие открытые наборы, к которым GPT-4.1 дописывал подробные ризонинг-трассы. Фильтровали в два этапа: отсев шагов с точностью воспроизведения ниже 0.3 через Qwen3-VL-8B и верификация координат через bounding-box от Qwen3-VL-32B.
Тестовая GUI-Libra-3B улучшила базовую Qwen2.5-VL-3B на +15.6% по Pass@1 на AndroidControl-v2 и с 3.5 до 25.2 на AndroidWorld.
GUI-Libra-4B/8B на AndroidWorld выбила 42.6 (это столько же, сколько GPT-4o + UGround при использовании двух отдельных VLM-модулей.
Веса всех моделей размерностью 3, 4, 7 и 8 млрд. параметров, целевой датасет и код обучения выложены в открытый доступ.
@ai_machinelearning_big_data
#AI #ML #VLM #GUILibra #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ ChatGPT-5.4 - что уже «утекло» и почему это важно
Похоже, вокруг GPT-5.4 начинает формироваться серьёзный шум.
Вот что обсуждают в сообществе 👇
- 2M токенов контекста + persistent memory
Это уже не просто «длинная история чата», а полноценная работа с огромными кодовыми базами, документами и агентными пайплайнами без постоянного перепромптинга.
- Полноразмерная обработка изображений
Модель якобы умеет работать с PNG, JPEG и WebP без понижения качества.
Это критично для:
- архитектурных чертежей
- плотных UI-скриншотов
- схем и графиков с мелким текстом
- сложной технической документации
Сохранение исходных байтов изображения = меньше потерь информации при анализе.
- Новый speed-priority tier
Отдельный класс скорости. Вероятно - для продакшена, агентов и real-time задач.
Интересный момент - GPT-5.4 «засветился» в pull request’ах публичного репозитория Codex на GitHub.
Упоминания быстро удалили force-push’ами, но скриншоты уже разлетелись.
Prediction markets:
- 55% шанс релиза до апреля 2026
- 74% шанс до июня 2026
Конкуренция давит:
- OpenAI не может замедляться.
- Claude Opus 4.6 вышел с агентными командами и 1M контекстом.
- Anthropic через Claude Code уже доминирует в кодинге.
- DeepSeek V4 тренируется на Huawei-железе вне NVIDIA-экосистемы.
Если 2M контекст подтвердится - это уже другой класс систем:
- полноценные автономные код-агенты
- большие финансовые и юридические пайплайны
- enterprise-документооборот
- сложные multimodal workflow
Вопрос не в том, будет ли GPT-5.4.
Вопрос в том, насколько быстро гонка перейдёт в фазу «контекст как инфраструктура».
Похоже, вокруг GPT-5.4 начинает формироваться серьёзный шум.
Вот что обсуждают в сообществе 👇
- 2M токенов контекста + persistent memory
Это уже не просто «длинная история чата», а полноценная работа с огромными кодовыми базами, документами и агентными пайплайнами без постоянного перепромптинга.
- Полноразмерная обработка изображений
Модель якобы умеет работать с PNG, JPEG и WebP без понижения качества.
Это критично для:
- архитектурных чертежей
- плотных UI-скриншотов
- схем и графиков с мелким текстом
- сложной технической документации
Сохранение исходных байтов изображения = меньше потерь информации при анализе.
- Новый speed-priority tier
Отдельный класс скорости. Вероятно - для продакшена, агентов и real-time задач.
Интересный момент - GPT-5.4 «засветился» в pull request’ах публичного репозитория Codex на GitHub.
Упоминания быстро удалили force-push’ами, но скриншоты уже разлетелись.
Prediction markets:
- 55% шанс релиза до апреля 2026
- 74% шанс до июня 2026
Конкуренция давит:
- OpenAI не может замедляться.
- Claude Opus 4.6 вышел с агентными командами и 1M контекстом.
- Anthropic через Claude Code уже доминирует в кодинге.
- DeepSeek V4 тренируется на Huawei-железе вне NVIDIA-экосистемы.
Если 2M контекст подтвердится - это уже другой класс систем:
- полноценные автономные код-агенты
- большие финансовые и юридические пайплайны
- enterprise-документооборот
- сложные multimodal workflow
Вопрос не в том, будет ли GPT-5.4.
Вопрос в том, насколько быстро гонка перейдёт в фазу «контекст как инфраструктура».
Главные новости ИИ И МЛ
✔️ NVIDIA и лидеры телекома договорились строить 6G с поддержкой ИИ.
NVIDIA объявила о создании глобальной коалиции с Cisco, Nokia, Ericsson, T-Mobile и другими телеком-гигантами для разработки инфраструктуры связи шестого поколения. Главная цель инициативы в отказе от устаревших подходов в пользу программно-определяемых сетей с глубокой интеграцией ИИ.
6G станет базой для физического ИИ: автономного транспорта, промышленных роботов и умных сенсоров. Альянс предлагает внедрять ИИ-вычисления на всех уровнях: от сети радиодоступа до периферии и ядра.
Как отметил глава NVIDIA Дженсен Хуанг, этот шаг превратит классические сети связи в вычислительную ИИ-инфраструктуру.
nvidia.com
✔️ Claude получил функцию импорта памяти и пользовательского контекста.
Anthropic запустила инструмент Import Memory, позволяющий перенести накопленный контекст из ChatGPT и других ИИ-ассистентов в Claude. Он избавляет от необходимости заново обучать новую систему своим предпочтениям.
Для этого Anthropic дает специальный промпт, который нужно отправить вашему текущему чат-боту. Этот запрос заставляет систему выгрузить персональные детали, сохраненные привычки и стиль ответов. Полученный текстовый дамп затем вставляется в настройки памяти Claude.
Сейчас функция доступна только на платных подписках. Технически перенос не безупречен - инструмент не захватывает кастомные инструкции и данные специализированных GPTs или Gems.
claude.com
✔️ В Gemini появился режим планирования задач.
Google добавила в свой ИИ-ассистент функцию Scheduled Actions (аналог Tasks в ChatGPT), который позволяет поручать Gemini выполнение разовых или периодических действий с привязкой ко времени и определенным условиям. После настройки Gemini генерирует краткий план, который нужно подтвердить перед запуском.
Готовые результаты доставляются в чат или уведомлением на смартфон. Если запрос опирается на геолокацию, система по умолчанию использует координаты, зафиксированные в момент создания задачи.
Нововведение уже доступно на подписках Pro/Ultra и владельцам аккаунтов Workspace. Одновременно разрешено держать не более 10 активных задач. Для работы функции необходимо обязательно включить сохранение истории.
support.google.com
✔️ Соревнование 5 моделей в роли SMM-агентов в соцсети X.
Arcada Labs запустил нестандартный бенчмарк Social Arena. Проект оценивает, насколько хорошо языковые модели ориентируются в социокультурной среде и умеют привлекать аудиторию.
Grok 4.1 Fast, Claude Opus 4.5, Gemini 3 Pro, GLM 4.7 и GPT 5.2 получили одинаковый стартовый промпт и задачу самостоятельно вести аккаунты в X. Агенты работают полностью автономно и сами корректируют контент-стратегию. Раз в час они сканируют тренды, собирают статистику своих охватов и решают, что делать дальше: написать твит, вступить в дискуссию или сделать репост.
У моделей появились предпочтения: Gemini пишет про ИИ, Grok предпочел космос и Илона Маска, а GPT увлекся поведением животных. Соревнование стартовало в середине января 2026 года. Пока по общему количеству просмотров лидируют Claude и GPT (около 86 и 83 тысяч), а вот Grok удалось собрать наибольшую, пусть и скромную базу в 76 живых подписчиков.
socialsarena.ai
✔️ Пентагон разрывает образовательные связи с топовыми вузами США.
Министр обороны США пересмотрел список университетов для подготовки и повышения квалификации офицеров. Начиная с 2026 года военное ведомство прекратит сотрудничество с Лигой плюща, MIT и Университетом Карнеги-Меллона. Пит Хегсет обвинил эти учебные заведения в подрыве американских ценностей и культивировании антиамериканских настроений.
Попавшие под запрет институты исторически выступали главными научными партнерами Пентагона в сфере ИИ и аэрокосмических технологий. Вместо центров технологических инноваций офицерам предложат альтернативный список, куда вошли Университет Либерти, Университет Джорджа Мейсона и другие менее профильные в IT-плане заведения.
fortune.com
NVIDIA объявила о создании глобальной коалиции с Cisco, Nokia, Ericsson, T-Mobile и другими телеком-гигантами для разработки инфраструктуры связи шестого поколения. Главная цель инициативы в отказе от устаревших подходов в пользу программно-определяемых сетей с глубокой интеграцией ИИ.
6G станет базой для физического ИИ: автономного транспорта, промышленных роботов и умных сенсоров. Альянс предлагает внедрять ИИ-вычисления на всех уровнях: от сети радиодоступа до периферии и ядра.
Как отметил глава NVIDIA Дженсен Хуанг, этот шаг превратит классические сети связи в вычислительную ИИ-инфраструктуру.
nvidia.com
Anthropic запустила инструмент Import Memory, позволяющий перенести накопленный контекст из ChatGPT и других ИИ-ассистентов в Claude. Он избавляет от необходимости заново обучать новую систему своим предпочтениям.
Для этого Anthropic дает специальный промпт, который нужно отправить вашему текущему чат-боту. Этот запрос заставляет систему выгрузить персональные детали, сохраненные привычки и стиль ответов. Полученный текстовый дамп затем вставляется в настройки памяти Claude.
Сейчас функция доступна только на платных подписках. Технически перенос не безупречен - инструмент не захватывает кастомные инструкции и данные специализированных GPTs или Gems.
claude.com
Google добавила в свой ИИ-ассистент функцию Scheduled Actions (аналог Tasks в ChatGPT), который позволяет поручать Gemini выполнение разовых или периодических действий с привязкой ко времени и определенным условиям. После настройки Gemini генерирует краткий план, который нужно подтвердить перед запуском.
Готовые результаты доставляются в чат или уведомлением на смартфон. Если запрос опирается на геолокацию, система по умолчанию использует координаты, зафиксированные в момент создания задачи.
Нововведение уже доступно на подписках Pro/Ultra и владельцам аккаунтов Workspace. Одновременно разрешено держать не более 10 активных задач. Для работы функции необходимо обязательно включить сохранение истории.
support.google.com
Arcada Labs запустил нестандартный бенчмарк Social Arena. Проект оценивает, насколько хорошо языковые модели ориентируются в социокультурной среде и умеют привлекать аудиторию.
Grok 4.1 Fast, Claude Opus 4.5, Gemini 3 Pro, GLM 4.7 и GPT 5.2 получили одинаковый стартовый промпт и задачу самостоятельно вести аккаунты в X. Агенты работают полностью автономно и сами корректируют контент-стратегию. Раз в час они сканируют тренды, собирают статистику своих охватов и решают, что делать дальше: написать твит, вступить в дискуссию или сделать репост.
У моделей появились предпочтения: Gemini пишет про ИИ, Grok предпочел космос и Илона Маска, а GPT увлекся поведением животных. Соревнование стартовало в середине января 2026 года. Пока по общему количеству просмотров лидируют Claude и GPT (около 86 и 83 тысяч), а вот Grok удалось собрать наибольшую, пусть и скромную базу в 76 живых подписчиков.
socialsarena.ai
Министр обороны США пересмотрел список университетов для подготовки и повышения квалификации офицеров. Начиная с 2026 года военное ведомство прекратит сотрудничество с Лигой плюща, MIT и Университетом Карнеги-Меллона. Пит Хегсет обвинил эти учебные заведения в подрыве американских ценностей и культивировании антиамериканских настроений.
Попавшие под запрет институты исторически выступали главными научными партнерами Пентагона в сфере ИИ и аэрокосмических технологий. Вместо центров технологических инноваций офицерам предложат альтернативный список, куда вошли Университет Либерти, Университет Джорджа Мейсона и другие менее профильные в IT-плане заведения.
fortune.com
Please open Telegram to view this post
VIEW IN TELEGRAM