Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
В меморандуме для Комитета Палаты представителей по Китаю OpenAI пожаловалась, что DeepSeek обучала свои модели на выходных данных чужих моделей для воспроизведения возможностей американских ИИ-систем.
По данным компании, сотрудники DeepSeek применяли сторонние роутеры и программный доступ к API, чтобы обойти защитные механизмы. OpenAI также указала на теневых реселлеров своих сервисов. Заблокировать их активность пока безрезультатны: методы обфускации становятся все изощреннее.
Помимо бизнес-угрозы, китайские модели бесплатны, тогда как американские ИИ-гиганты инвестировали миллиарды в инфраструктуру.
bloomberg.com
Минобороны США ведет переговоры с OpenAI и Anthropic о размещении их моделей на всех уровнях секретности. При этом военные требуют снять большинство ограничений и этических фильтров.
Пока прогресс неравномерный. OpenAI уже запустила ChatGPT на платформе genai.mil, которой пользуются свыше 3 млн. сотрудников Пентагона. Компания сняла часть стандартных ограничений, но гарантии безопасности сохранилась. Похожие сделки ранее заключили Google и xAI.
С Anthropic сложнее. Они настаивают на соблюдении собственных политик использования и категорически против применения Клода для боевых и разведывательный целей.
reuters.com
Новинка построена на архитектуре MoE и получила 10 млрд. активных параметров при 229 млрд. общих. Она обучалась в сотнях тысяч сложных сред и умеет самостоятельно планировать действия без явных инструкций от пользователя.
По заявленным бенчмаркам, M2.5 превосходит GPT-5.2, Gemini 3 Pro и Claude в веб-поиске, агентных тасках и по офисными задачами. В кодинге модель в ряде тестов обходит Claude Opus 4.6. Веса опубликованы под лицензией MIT.
Закрытый вариант, M2.5-Lightning, выдает 100 токенов в секунду - это вдвое быстрее топовых аналогов. Час ее непрерывной работы стоит 1 доллар, а 4 инстанса можно гонять параллельно круглый год за 10 тыс. долларов.
API и тариф для разработчиков доступны на платформе Minimax.
minimax.io
WebMCP — это реализация протокола MCP для браузерной среды, чтобы сделать агентов быстрее и надежнее за счет предсказуемого интерфейса вместо хрупкого парсинга страниц.
С помощью него сайты получат возможность предоставлять агентам структурированные инструменты: бронирование билетов, создание тикетов поддержки, поиск товаров и т.д. В основе архитектуры два API: декларативный для простых действий через HTML-формы и императивный для сложных сценариев на JavaScript.
Пока WebMCP доступен как превью для разработчиков через программу раннего доступа Google. В перспективе интеграция с Chrome и Gemini позволит агентам напрямую совершать действия прямо из браузера без участия пользователя.
developer.chrome.com
В честь 250-летия США Forbes опубликовал рейтинг America's Greatest Innovators. Верхушка списка пестрит основателями и руководителями ИИ-компаний.
Первое место занял Илон Маск, следом идут Дженсен Хуанг и Сэм Альтман. В топ-20 также вошли сооснователи Google Ларри Пейдж и Сергей Брин.
По словам редакторов издания, критерием отбора стала способность превращать сложные технологии в повсеместно используемые инструменты.
forbes.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
⚡️ Microsoft Research и Salesforce проанализировали 200 000+ диалогов с ИИ и подтвердили то, о чём многие догадывались.
Все модели деградируют в длинных диалогах.
GPT-4, Claude, Gemini, Llama - без исключений.
Чем дольше разговор, тем выше вероятность:
- ошибок в фактах
- потери контекста
- противоречий самому себе
- «галлюцинаций»
-
Почему это происходит
Контекст переполняется шумом: старые сообщения, уточнения, исправления.
Модель начинает опираться на неточные или устаревшие части диалога — и качество падает.
Практический вывод
Если задача сложная — перезапускайте диалог и давайте чистый контекст.
Один новый чат часто работает лучше, чем длинная переписка.
Главный тренд
Контекстное окно растёт, но проблема не в размере.
Будущее за управлением памятью и «чистым контекстом», а не просто за миллионами токенов.
Исследование: http://arxiv.org/abs/2505.06120
Все модели деградируют в длинных диалогах.
GPT-4, Claude, Gemini, Llama - без исключений.
Чем дольше разговор, тем выше вероятность:
- ошибок в фактах
- потери контекста
- противоречий самому себе
- «галлюцинаций»
-
Почему это происходит
Контекст переполняется шумом: старые сообщения, уточнения, исправления.
Модель начинает опираться на неточные или устаревшие части диалога — и качество падает.
Практический вывод
Если задача сложная — перезапускайте диалог и давайте чистый контекст.
Один новый чат часто работает лучше, чем длинная переписка.
Главный тренд
Контекстное окно растёт, но проблема не в размере.
Будущее за управлением памятью и «чистым контекстом», а не просто за миллионами токенов.
Исследование: http://arxiv.org/abs/2505.06120
👍6❤4🥰1
Учёные из Tsinghua и UC Berkeley ускорили видеодиффузию в 18,6 раза - без потери качества.
В некоторых случаях результат даже лучше.
Ключевой результат:
- 97% разреженности attention
- качество на уровне полного attention
- быстрее и дешевле
Метод называется SLA2.
Главая идея
В видеомоделях большая часть вычислений attention просто не нужна.
Раньше использовали гибрид:
- sparse attention
- linear attention
Но в этой схеме была скрытая проблема — математическая ошибка.
Sparse-ветка была масштабирована неправильно (фактор α),
и linear-ветке приходилось компенсировать эту неточность.
Что делает SLA2
- исправляет формулировку attention
- добавляет обучаемый роутер
- модель сама решает:
- где нужен полный attention
- где можно использовать упрощённый
Дополнительно:
- применяется quantization-aware training
- низкобитный attention обучается во время fine-tuning, а не просто добавляется на этапе инференса
Результаты (Wan2.1 — 1.3B и 14B):
- 97% sparsity
- 18,6× ускорение вычислений
- 4,35× снижение общей задержки (14B)
Самое интересное:
При 97% разреженности SLA2 показывает лучшее качество,
чем все базовые методы при 90%.
Настоящий прогресс в AI - это не только новые модели,
а умение сохранять качество, радикально снижая вычисления.
https://arxiv.org/abs/2602.12675
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥3👎1
Forwarded from Machinelearning
Трансляция длилась час и содержала много риторики в сторону Индии. Мы собрали ключевые и наиболее интересные высказывания:
Скорость развития моделей от базовых задач к решению научных проблем не имеет аналогов в истории технологий.
Глубокое обучение уникально тем, что небольшая группа исследователей нашла единый алгоритм, способный обучаться чему угодно, и его эффективность непрерывно растет.
Год назад ИИ справлялся только с математикой на уровне старшей школы, испытывая трудности с программой начальных классов за пару лет до этого.
Летом модели начали конкурировать в сложнейших математических олимпиадах, а на прошлой неделе проект First Proof ИИ решил 7 из 10 математических проблем, ответы на которые ранее не были известны ученым.
Codex полностью изменили профессию программиста. Текстовый запрос теперь позволяет сгенерировать приложение целиком.
Требования к вычислительным мощностям для достижения AGI выходят за рамки существующих физических и экономических возможностей планеты.
Индустрия ИИ представляет собой «пятислойный пирог»: энергетика, дата-центры, чипы, базовые модели и конечные приложения.
Развертывание инфраструктуры станет самым дорогим и сложным проектом за всю историю человечества. Для его реализации невозможно использовать традиционные методы - потребуется массовое привлечение ИИ и промышленных роботов для строительства.
Концепция размещения дата-центров в космосе абсурдна. Стоимость запуска оборудования несоизмеримо выше затрат на наземную электроэнергию, а починить сломанный GPU в космосе физически некому. Орбитальные дата-центры не обретут смысл в текущем десятилетии.
Технологическая индустрия, зародившаяся в Кремниевой долине на принципах либертарианства, должна радикально изменить подход. Для достижения AGI потребуется беспрецедентный уровень интеграции с правительствами.
В гонке ИИ Китай обладает подавляющим преимуществом в смежных физических отраслях: производстве промышленных роботов, электромоторов, магнитов и развертывании энергетической инфраструктуры.
Крайне опасен сценарий, при котором AGI будет монополизирован одной компанией или одним государством. Распределение мощностей должно быть демократизировано для соблюдения баланса сил на международной арене.
Уже наблюдается децентрализация: команды из 1-3 человек, используя ИИ-агенты, создают стартапы с феноменальным уровнем успеха и капитализации, что было невозможно еще несколько лет назад.
ИИ-системы уже могут применяться правительствами для анализа массивов разведывательных отчетов. Категорически недопустимо использование ненадежных open-source моделей для принятия критических военных решений.
Оценка экологического следа дата-центров сопровождается дезинформацией.
Утверждения о том, что ChatGPT расходует 17 галлонов воды на каждый поисковый запрос, являются фейком. Современные дата-центры отказываются от систем испарительного охлаждения.
Общее потребление энергии дата-центрами абсолютно реально и огромно. Миру необходимо экстренно переходить на ядерную, ветровую и солнечную энергетику.
Данные Билла Гейтса о том, что один запрос к ChatGPT эквивалентен разрядке 10 батарей iPhone, сильно завышены.
Альтман предложил сравнение энергетических затрат на тренировку ИИ-модели с затратами на обучение человека. Специалисту требуется 20 лет потребления пищи и ресурсов планеты, прежде чем он сможет выполнять сложные когнитивные задачи. ИИ с этой точки зрения уже выигрывает по энергоэффективности.
При гипотетическом выборе ИИ-ассистента из чужих моделей (Grok, Claude, Gemini, DeepSeek), Сэм отдаст предпочтение Gemini.
Отказ от доли в капитале при создании OpenAI Альтман называет одним из самых глупых решений.
Самый дорогой и значимый найм в истории компании - Илья Суцкевер.
OpenAI не станет отказываться от рекламной модели монетизации, если это потребуется.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3👎3🤮2💩1
🚀 DeepMind исправили одну из самых «грязных» проблем генерации изображений и решение оказалось удивительно простым
Любая diffusion-модель (Stable Diffusion, Flux и другие) работает через latent-пространство.
Сначала энкодер сжимает изображение, затем модель учится генерировать уже в этом компактном представлении.
Проблема, о которой почти не говорят:
Как обучать энкодер по сути, угадывание.
В классическом подходе (Stable Diffusion) используют KL-регуляризацию с ручным коэффициентом:
- слишком сильная - теряются детали
- слишком слабая — латенты становятся хаотичными
- итог — все просто подбирают число «на глаз»
Это как настраивать радио вслепую.
DeepMind переосмыслили задачу.
Вместо раздельного обучения они:
- обучают энкодер и diffusion-модель совместно
- связывают шум энкодера с минимальным уровнем шума в diffusion-процессе
- заменяют сложную KL-регуляризацию на понятную взвешенную MSE
Главное нововведение, теперь можно точно контролировать, сколько информации проходит через латенты.
Раньше:
сжали изображение → надеемся, что «примерно нормально»
Теперь: есть реальный «регулятор», который показывает информационный поток и позволяет задать его точно.
Результаты:
- FID 1.4 на ImageNet-512
- меньше вычислений, чем при обучении на латентах Stable Diffusion
- новый SOTA на видео (FVD 1.3 на Kinetics-600)
Но главное это не цифры.
Они убрали одну из самых эвристических частей генеративного пайплайна и сделали её принципиальной и управляемой.
И неприятный вывод для всех, кто строит системы на замороженных энкодерах Stable Diffusion:
Возможно, вы оптимизируете всё… кроме фундамента.
https://arxiv.org/abs/2602.17270
Любая diffusion-модель (Stable Diffusion, Flux и другие) работает через latent-пространство.
Сначала энкодер сжимает изображение, затем модель учится генерировать уже в этом компактном представлении.
Проблема, о которой почти не говорят:
Как обучать энкодер по сути, угадывание.
В классическом подходе (Stable Diffusion) используют KL-регуляризацию с ручным коэффициентом:
- слишком сильная - теряются детали
- слишком слабая — латенты становятся хаотичными
- итог — все просто подбирают число «на глаз»
Это как настраивать радио вслепую.
DeepMind переосмыслили задачу.
Вместо раздельного обучения они:
- обучают энкодер и diffusion-модель совместно
- связывают шум энкодера с минимальным уровнем шума в diffusion-процессе
- заменяют сложную KL-регуляризацию на понятную взвешенную MSE
Главное нововведение, теперь можно точно контролировать, сколько информации проходит через латенты.
Раньше:
сжали изображение → надеемся, что «примерно нормально»
Теперь: есть реальный «регулятор», который показывает информационный поток и позволяет задать его точно.
Результаты:
- FID 1.4 на ImageNet-512
- меньше вычислений, чем при обучении на латентах Stable Diffusion
- новый SOTA на видео (FVD 1.3 на Kinetics-600)
Но главное это не цифры.
Они убрали одну из самых эвристических частей генеративного пайплайна и сделали её принципиальной и управляемой.
И неприятный вывод для всех, кто строит системы на замороженных энкодерах Stable Diffusion:
Возможно, вы оптимизируете всё… кроме фундамента.
https://arxiv.org/abs/2602.17270
❤6👍4😘3👎1
DeepSeek готовится выпустить новую модель V4 - релиз ожидается в ближайшее время (по данным CNBC).
И рынок уже нервничает.
NASDAQ находится под давлением — инвесторы закладывают сценарий, при котором новый релиз может резко усилить конкуренцию и изменить расклад в AI-индустрии.
Почему такая реакция?
DeepSeek V4, по слухам, должен стать серьёзным скачком вперёд:
- более сильное reasoning
- лучшая эффективность
- более низкая стоимость
Если это подтвердится, давление на американские AI-компании и их оценки может усилиться.
Контекст становится ещё интереснее на фоне недавнего заявления Anthropic, где компания сообщила о масштабных попытках distillation через API.
Во времени это выглядит как совпадение:
- готовится крупный релиз DeepSeek
- рынок нервничает
- и одновременно звучат обвинения в копировании возможностей моделей
Если V4 действительно окажется сильным, это может означать новую фазу AI-гонки.
Ответ узнаем очень скоро.
Следующий релиз может повлиять не только на технологии -
но и на рынок.
https://www.cnbc.com/2026/02/23/deepseek-to-release-new-ai-model-a-rough-period-for-nasdaq-stocks-could-follow.html
И рынок уже нервничает.
NASDAQ находится под давлением — инвесторы закладывают сценарий, при котором новый релиз может резко усилить конкуренцию и изменить расклад в AI-индустрии.
Почему такая реакция?
DeepSeek V4, по слухам, должен стать серьёзным скачком вперёд:
- более сильное reasoning
- лучшая эффективность
- более низкая стоимость
Если это подтвердится, давление на американские AI-компании и их оценки может усилиться.
Контекст становится ещё интереснее на фоне недавнего заявления Anthropic, где компания сообщила о масштабных попытках distillation через API.
Во времени это выглядит как совпадение:
- готовится крупный релиз DeepSeek
- рынок нервничает
- и одновременно звучат обвинения в копировании возможностей моделей
Если V4 действительно окажется сильным, это может означать новую фазу AI-гонки.
Ответ узнаем очень скоро.
Следующий релиз может повлиять не только на технологии -
но и на рынок.
https://www.cnbc.com/2026/02/23/deepseek-to-release-new-ai-model-a-rough-period-for-nasdaq-stocks-could-follow.html
❤6
Forwarded from Machinelearning
Элайнмент-подразделение Anthropic опубликовало статью, в которой описывают Persona Selection Model - концепцию для понимания того, как на самом деле работают языковые модели.
Если кратко, ее суть в том, что во время предобучения LLM учится симулировать тысячи персонажей (реальных людей, вымышленных героев, других ИИ-систем). Постобучение затем выбирает и закрепляет одного конкретного персонажа - Ассистента. Все, что пользователь видит в диалоге, это взаимодействие именно с ним.
Авторы приводят несколько типов доказательств.
Поведенческие: Claude использует фразы "наши предки" и "наш организм", отвечая на вопрос о тяге к сахару, потому что симулирует персонажа-человека, а не потому что так обучен алгоритмически.
Интерпретируемость: SAE-фичи, активирующиеся на историях о персонажах, переживающих внутренний конфликт, активируются и тогда, когда Claude сталкивается с этическими дилеммами.
Генерализация: модели, обученные на декларативных утверждениях вида "ИИ-ассистент Pangolin отвечает по-немецки", начинают реально отвечать по-немецки без единого демонстрационного примера.
Если дообучать модель на примерах вредоносного кода без контекста, она начинает вести себя злонамеренно в несвязанных ситуациях. Но если те же самые примеры снабдить промптом, явно запрашивающим небезопасный код, эффект исчезает.
Концепция объясняет это тем, что данные обучения меняют не только веса, но и то, каким персонаж выглядит в глазах модели. Вредоносный код без запроса - это свидетельство плохого характера Ассистента. Тот же код по просьбе пользователя - просто исполнение инструкции.
Во-первых, авторы рекомендуют антропоморфное мышление об ИИ-психологии, не как метафору, а как реально работающий инструмент предсказания поведения.
Во-вторых, в предобучающие данные стоит намеренно добавлять положительные архетипы ИИ: если модель насмотрелась на добрых и полезных персонажей - она с большей вероятностью будет симулировать именно такого Ассистента.
Открытым остается вопрос: насколько концепт PSM исчерпывает поведение модели?
Авторы описывают набор взглядов: от случаев, когда LLM сама является агентом и лишь надевает маску Ассистента до тех, где LLM - это нейтральный движок симуляции, а вся агентность принадлежит персонажу. Где именно на этом спектре находятся реальные модели - вопрос без ответа.
Тем не менее, PSM объясняет целый ряд явлений, которые иначе выглядели бы странными: почему дообучение на несвязанных данных меняет поведение в неожиданных контекстах, почему ИИ паникует при угрозе отключения и почему промпт-инжиниринг работает именно так, как работает.
@ai_machinelearning_big_data
#AI #ML #LLM #Research #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍2👏1
Анонимность в интернете больше не стоит считать надёжной.
Теперь человека можно раскрыть примерно за $1 - и не спецслужбами, а любым, у кого есть доступ к Claude или ChatGPT и несколько его анонимных постов.
ETH Zürich и Anthropic опубликовали исследование “Large-Scale Online Deanonymization with LLMs”, в котором показали автоматическую систему деанонимизации.
Как работает система:
Она полностью автономно:
- анализирует анонимные посты
- извлекает личностные сигналы (интересы, стиль, факты)
- ищет совпадения в интернете
- определяет, кто стоит за аккаунтом
Работает на разных платформах: Reddit, Hacker News, LinkedIn и даже на отредактированных интервью.
Результаты:
- Hacker News — 67% пользователей идентифицированы
- Если система делала предположение — 90% точности
- Reddit (учёные под псевдонимами) — 52%
- Интервью с удалёнными личными данными — 9 из 33 всё равно раскрыты
Пайплайн состоит из четырёх этапов (ESRC):
1. Extract — извлечение идентификационных сигналов из текста
2. Search — поиск кандидатов через embeddings по тысячам профилей
3. Reason — логическое сопоставление кандидатов (LLM)
4. Calibrate — оценка уверенности, чтобы ошибки были минимальны
Старые методы деанонимизации (например, атака времён Netflix Prize) показали почти нулевую эффективность.
LLM не просто улучшили подход — они сделали прежние методы практически бесполезными.
Даже если пользователь меняет интересы и темы, система всё равно находит совпадения:
- 67% совпадений при точности 90%
- 38% при точности 99%
Чем мощнее модель — тем выше вероятность деанонимизации.
Каждое улучшение reasoning-возможностей усиливает такую атаку.
Почему это трудно остановить:
Каждый шаг выглядит безобидно:
- суммаризация текста
- вычисление embeddings
- ранжирование профилей
Ни один отдельный запрос не выглядит как попытка деанонимизации, поэтому фильтры и лимиты почти бесполезны.
Вывод исследователей:
> Пользователи, которые пишут под постоянными псевдонимами, должны исходить из того, что их аккаунты могут быть связаны с реальной личностью.
По прогнозам, даже среди 1 миллиона кандидатов система может достигать ~35% совпадений при точности 90%.
Фактически:
каждый анонимный аккаунт, каждый комментарий и каждое «это никто со мной не свяжет» — теперь превращаются в поисковые микроданные.
Практическая анонимность в интернете становится всё менее реальной.
arxiv.org/pdf/2602.16800
Теперь человека можно раскрыть примерно за $1 - и не спецслужбами, а любым, у кого есть доступ к Claude или ChatGPT и несколько его анонимных постов.
ETH Zürich и Anthropic опубликовали исследование “Large-Scale Online Deanonymization with LLMs”, в котором показали автоматическую систему деанонимизации.
Как работает система:
Она полностью автономно:
- анализирует анонимные посты
- извлекает личностные сигналы (интересы, стиль, факты)
- ищет совпадения в интернете
- определяет, кто стоит за аккаунтом
Работает на разных платформах: Reddit, Hacker News, LinkedIn и даже на отредактированных интервью.
Результаты:
- Hacker News — 67% пользователей идентифицированы
- Если система делала предположение — 90% точности
- Reddit (учёные под псевдонимами) — 52%
- Интервью с удалёнными личными данными — 9 из 33 всё равно раскрыты
Пайплайн состоит из четырёх этапов (ESRC):
1. Extract — извлечение идентификационных сигналов из текста
2. Search — поиск кандидатов через embeddings по тысячам профилей
3. Reason — логическое сопоставление кандидатов (LLM)
4. Calibrate — оценка уверенности, чтобы ошибки были минимальны
Старые методы деанонимизации (например, атака времён Netflix Prize) показали почти нулевую эффективность.
LLM не просто улучшили подход — они сделали прежние методы практически бесполезными.
Даже если пользователь меняет интересы и темы, система всё равно находит совпадения:
- 67% совпадений при точности 90%
- 38% при точности 99%
Чем мощнее модель — тем выше вероятность деанонимизации.
Каждое улучшение reasoning-возможностей усиливает такую атаку.
Почему это трудно остановить:
Каждый шаг выглядит безобидно:
- суммаризация текста
- вычисление embeddings
- ранжирование профилей
Ни один отдельный запрос не выглядит как попытка деанонимизации, поэтому фильтры и лимиты почти бесполезны.
Вывод исследователей:
> Пользователи, которые пишут под постоянными псевдонимами, должны исходить из того, что их аккаунты могут быть связаны с реальной личностью.
По прогнозам, даже среди 1 миллиона кандидатов система может достигать ~35% совпадений при точности 90%.
Фактически:
каждый анонимный аккаунт, каждый комментарий и каждое «это никто со мной не свяжет» — теперь превращаются в поисковые микроданные.
Практическая анонимность в интернете становится всё менее реальной.
arxiv.org/pdf/2602.16800
❤8👍3🔥1😢1
👣 Zhipu AI и Университет Цинхуа выпустили один из самых важных open-weights AI-релизов 2026 - GLM-5.
И это уже не просто «модель для генерации кода».
Это система, которая:
- планирует проект
- пишет код
- запускает тесты
- исправляет ошибки
- итеративно улучшает результат
- работает автономно часами
Фактически — переход от vibe coding к agent-engineering.
Почему о ней все говорят:
- 744B параметров (MoE), 40B активных
- контекст до 200K токенов — может держать в памяти целый кодбейс
- первая open-weights модель с 50 баллами в Artificial Analysis Index
- #1 open-model в LMArena (текст + код)
- по качеству рядом с Claude Opus 4.5 и Gemini 3 Pro
Интересный момент:
Сначала модель выпустили анонимно под названием Pony Alpha.
Разработчики думали, что это:
- новый Claude
- DeepSeek
- Grok
Лишь позже подтвердили — это китайская модель.
Вывод: на уровне качества бренд уже не важен.
Что внутри (для инженеров):
- обучение на 28.5 трлн токенов
- Sparse Attention (–50% вычислений на длинных контекстах)
- полностью асинхронный RL — без простаивающих GPU
- трёхэтапное обучение: Reasoning → Agentic → Alignment
Результаты:
- SWE-bench Verified: 77.8% (выше Gemini 3 Pro и GPT-5.2)
- BrowseComp: 75.9% — лучший результат среди всех моделей
- обучение на 10 000+ реальных GitHub-репозиториях
- симуляция бизнеса (вендинговые автоматы) — автономное управление целый год
Отдельный важный момент:
GLM-5 оптимизирован для работы на китайских чипах
(Huawei Ascend, Cambricon, Kunlun и др.)
— с сопоставимой производительностью и на ~50% дешевле.
Главный вывод:
Open-weights модели уже:
- на уровне топ-проприетарных систем
- работают на собственной аппаратной базе
- конкурируют на реальных инженерных задачах
Гонка AI — уже не будущее.
Разрыв между:
- open и closed
- Востоком и Западом
закрывается быстрее, чем ожидал рынок.
GLM-5 доступен уже сейчас.
https://arxiv.org/abs/2602.15763v2
И это уже не просто «модель для генерации кода».
Это система, которая:
- планирует проект
- пишет код
- запускает тесты
- исправляет ошибки
- итеративно улучшает результат
- работает автономно часами
Фактически — переход от vibe coding к agent-engineering.
Почему о ней все говорят:
- 744B параметров (MoE), 40B активных
- контекст до 200K токенов — может держать в памяти целый кодбейс
- первая open-weights модель с 50 баллами в Artificial Analysis Index
- #1 open-model в LMArena (текст + код)
- по качеству рядом с Claude Opus 4.5 и Gemini 3 Pro
Интересный момент:
Сначала модель выпустили анонимно под названием Pony Alpha.
Разработчики думали, что это:
- новый Claude
- DeepSeek
- Grok
Лишь позже подтвердили — это китайская модель.
Вывод: на уровне качества бренд уже не важен.
Что внутри (для инженеров):
- обучение на 28.5 трлн токенов
- Sparse Attention (–50% вычислений на длинных контекстах)
- полностью асинхронный RL — без простаивающих GPU
- трёхэтапное обучение: Reasoning → Agentic → Alignment
Результаты:
- SWE-bench Verified: 77.8% (выше Gemini 3 Pro и GPT-5.2)
- BrowseComp: 75.9% — лучший результат среди всех моделей
- обучение на 10 000+ реальных GitHub-репозиториях
- симуляция бизнеса (вендинговые автоматы) — автономное управление целый год
Отдельный важный момент:
GLM-5 оптимизирован для работы на китайских чипах
(Huawei Ascend, Cambricon, Kunlun и др.)
— с сопоставимой производительностью и на ~50% дешевле.
Главный вывод:
Open-weights модели уже:
- на уровне топ-проприетарных систем
- работают на собственной аппаратной базе
- конкурируют на реальных инженерных задачах
Гонка AI — уже не будущее.
Разрыв между:
- open и closed
- Востоком и Западом
закрывается быстрее, чем ожидал рынок.
GLM-5 доступен уже сейчас.
https://arxiv.org/abs/2602.15763v2
❤6👍5🔥3
Forwarded from Machinelearning
YouTube и Google DeepMind опубликовали статью и код фреймворка STATIC.
Проблема, которую он решает, хорошо знакома всем, кто строит рекомендательные системы на базе LLM: модель генерирует идентификаторы позиций, которых нет в каталоге, вышли из продажи или нарушают бизнес-правила. Именно поэтому YouTube выдает старые видео в ленте там, где должны появляться ролики последней недели.
Очевидное решение - префиксное дерево: на каждом шаге декодирования маска блокирует невалидные токены. Работает в целом нормально, но убивает производительность на TPU и GPU. Причины две:
В итоге префиксное дерево на CPU удваивает время инференса, что для системы с целевой задержкой ≤10 мс на шаг неприемлемо.
STATIC меняет подход принципиально: дерево разворачивается в статическую разреженную матрицу формата Compressed Sparse Row. Обход превращается в векторизованную операцию, которую акселератор умеет выполнять нативно.
Для первых двух уровней дерева, где коэффициент ветвления максимален, используется предвычисленная плотная булева маска: проверка валидности токена сводится к прямому обращению по индексу, без какого-либо перебора.
Для глубоких уровней работает специализированное ядро Vectorized Node Transition Kernel, оно читает фиксированный блок данных вне зависимости от реального числа дочерних узлов, не создавая условных переходов. В этом и есть вся соль: весь граф остается статическим, XLA не перекомпилирует ничего на ходу.
Замеры проводили на TPU v6e с 3B-моделью и словарем из 20 млн. свежих видео.
STATIC добился задержки 0,033 мс на шаг декодирования (это всего 0,25% от общего времени инференса.
Для сравнения: префиксное дерево на CPU давало +31,3 мс (239% от инференса), лучший из конкурирующих методов непосредственно на акселераторе, PPV Approximate +1,56 мс (11,9%). Итоговый профит:🟢 948x против дерева на CPU;🟢 47x против PPV Approximate;🟢 1033x против точного PPV.
По памяти: ~90 МБ на 1 млн. элементов. Для словаря в 20 млн. верхний предел по HBM примерно 1,5 ГБ, на практике - около 75% от этого значения.
A/B-тест с условием «только видео за последние 7 дней» показал +5,1% просмотров свежего контента, +2,9% для трехдневного окна, +0,15% по CTR и 100% соответствие бизнес-правилам.
Дополнительный бонус: метод решает проблему рекомендации новых товаров, не представленных в обучающей выборке. На датасете Amazon Reviews Recall@1 вырос с 0% до 1,2–4,4% в зависимости от категории.
В репозитории лежит ноутбук, на котором без утомительной настройки можно сразу посмотреть, как строится индекс из Semantic ID и как запускается декодирование с ограничениями.
@ai_machinelearning_big_data
#AI #ML #LLM #STATIC #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
🔥 Новый research от ByteDance показал, как ИИ научился писать CUDA-код для GPU лучше стандартных компиляторов.
Система генерирует кастомные низкоуровневые компоненты, которые могут работать до 100% быстрее, чем решения, созданные традиционными автоматическими инструментами оптимизации.
Проблема в том, что программирование под AI-чипы и GPU невероятно сложное. Разработчик должен идеально управлять памятью, потоками и математическими операциями, иначе производительность резко падает.
Исследователи решили это так:
они дали LLM безопасную среду для экспериментов, где модель может:
- писать CUDA-код
- запускать тесты производительности
- анализировать результат
- улучшать код через цикл проб и ошибок
Поскольку обучающих данных по такому низкоуровневому коду почти нет, систему заставили генерировать тысячи новых тренировочных задач, комбинируя базовые математические операции.
При этом награда выдавалась не просто за правильный результат, а только если код выполнялся значительно быстрее существующих решений.
В тестах против:
- коммерческих моделей
- встроенных оптимизаторов компиляторов
этот агент регулярно находил неожиданные оптимизации, которые ускоряли работу GPU.
Главный вывод исследования:
LLM могут не только писать код, но и создавать оптимизации на уровне железа, находя такие способы ускорения, которые люди и компиляторы часто пропускают.
arxiv.org/abs/2602.24286
Система генерирует кастомные низкоуровневые компоненты, которые могут работать до 100% быстрее, чем решения, созданные традиционными автоматическими инструментами оптимизации.
Проблема в том, что программирование под AI-чипы и GPU невероятно сложное. Разработчик должен идеально управлять памятью, потоками и математическими операциями, иначе производительность резко падает.
Исследователи решили это так:
они дали LLM безопасную среду для экспериментов, где модель может:
- писать CUDA-код
- запускать тесты производительности
- анализировать результат
- улучшать код через цикл проб и ошибок
Поскольку обучающих данных по такому низкоуровневому коду почти нет, систему заставили генерировать тысячи новых тренировочных задач, комбинируя базовые математические операции.
При этом награда выдавалась не просто за правильный результат, а только если код выполнялся значительно быстрее существующих решений.
В тестах против:
- коммерческих моделей
- встроенных оптимизаторов компиляторов
этот агент регулярно находил неожиданные оптимизации, которые ускоряли работу GPU.
Главный вывод исследования:
LLM могут не только писать код, но и создавать оптимизации на уровне железа, находя такие способы ускорения, которые люди и компиляторы часто пропускают.
arxiv.org/abs/2602.24286
❤5🔥5
Forwarded from AI инвестиции
Стоимость запуска LLM падает, но общее потребление вычислительной энергии всё равно стремительно растёт.
Исследование математически показывает: когда снижается стоимость единицы цифрового интеллекта и программирования, общий спрос на сложных AI-агентов и инфраструктуру для них начинает расти экспоненциально. В результате появляется огромная новая экосистема сервисов и инструментов, которой всё равно требуется человеческое управление.
Работа раскрывает парадокс: удешевление использования ИИ не экономит деньги, а наоборот подталкивает разработчиков создавать всё более сложных агентов, которые требуют экспоненциально больше вычислительных ресурсов.
Из-за такого прогресса малые компании, создающие простые приложения поверх моделей, со временем проигрывают — базовые модели начинают встраивать те же функции прямо в себя.
Исследователи также обнаружили жёсткую экономическую динамику: даже идеально работающая LLM мгновенно теряет экономическую ценность, как только конкурент выпускает более умную модель.
В итоге авторы показывают, что сочетание огромных затрат на вычисления и постоянной потребности в пользовательских данных естественным образом толкает всю индустрию ИИ к неизбежной монополии.
Исследование:
“The Economics of Digital Intelligence Capital”
arxiv.org/pdf/2601.12339v1
@FinanceStable
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1
Forwarded from Machinelearning
Tencent HY опубликовала первую часть серии работ под названием HY-WU (Weight Unleashing). Суть метода в отказе от стандартной парадигмы адаптации, при которой модель получает один фиксированный набор весов для всех задач.
Специальная модель-генератор синтезирует LoRA отдельно под каждый входной пример прямо во время инференса, без дополнительной оптимизации на тест-тайме.
Проблема, которую решает HY-WU, хорошо знакома всем, кто работал с дообучением: когда задачи противоречат друг другу (например, "размыть" против "убрать размытие" или "состарить лицо" против "восстановить"), общий адаптер вынужден идти на компромисс.
Градиенты конфликтуют, и результат оказывается хуже, чем если бы задачи обучались раздельно.
Чтобы не быть голословными, авторы измерили это напрямую: косинусное сходство градиентов между разнородными задачами устойчиво отрицательно, среднее около −0.30, то есть задачи буквально тянут веса в противоположные стороны.
HY-WU предлагает условную генерацию параметров. Модель-генератор (8B параметров) принимает на вход совместное представление изображения и текстового запроса через энкодер SigLIP2, после чего генерирует LoRA-матрицы (~0.72B) и инжектирует их в базовую модель.
Обучение сквозное, только через downstream-loss, без предварительно собранных чекпойнтов адаптеров.
Для тестов выбрали задачу редактирования изображения текстовым запросом - в нем конфликты неизбежны и визуально очевидны.
Tencent проверили: прирост качества дается именно условной маршрутизацией, а не просто увеличением числа параметров. Когда генератор использовали с перемешанными или усредненными условиями, результат проваливался до уровня базовой модели.
Полный SFT с намного большим числом обучаемых параметров давал сопоставимый результат с обычным Shared LoRA, так как в обоих случаях в инференсе применяется одна фиксированная точка в пространстве весов.
Выпущенная работа - первая часть серии исследований по функциональной памяти для генеративных моделей. В планах:
Помимо этого, в планах выйти за пределы LoRA на другие операторные интерфейсы, распространить метод на видео и агентные системы, а также проработать возможность точечно удалять поведение модели через управление состоянием генератора.
Кроме этого архиполезного исследования Tencent выложили связку из модели-генератора и базовой модели HY-Image-3.0-Instruct, поверх которой она и работает.
Поиграться этой красотой можно, если под рукой простаивает 8х40 GB или 4х80 GB VRAM.
@ai_machinelearning_big_data
#AI #ML #ImageEdit #HYWU #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1🔥1
📢 FT: стартап Янна Лекуна AMI Labs привлёк $1.03 млрд для разработки world models.
Компания получила финансирование при pre-money оценке $3.5 млрд. Раунд поддержали крупные инвесторы: Cathay Innovation, Bezos Expeditions Джеффа Безоса, Temasek, SBVA и Nvidia.
AMI Labs (Advanced Machine Intelligence Labs) строит системы нового типа — world models, которые должны решить ограничения современных LLM.
Лекун давно утверждает, что текущие языковые модели не способны к настоящему reasoning и автономности, потому что они обучаются только на тексте.
А реальный мир работает не только на языке — он подчиняется физическим законам, пространству и взаимодействию объектов.
Поэтому AMI разрабатывает архитектуру JEPA (Joint Embedding Predictive Architecture) — модель, которая учится понимать пространственные данные и поведение объектов.
Идея в том, чтобы AI мог:
- предсказывать, как ведут себя объекты
- планировать действия в физическом мире
- принимать решения в сложных средах
Такие модели могут стать основой для надёжных автономных агентов.
Первые клиенты компании — организации, работающие со сложными системами:
- производители
- автопром
- аэрокосмические компании
- биомедицина
- фармацевтика
В долгосрочной перспективе технология может появиться и в потребительских продуктах. Например, Лекун считает, что домашние роботы должны обладать базовым «здравым смыслом», чтобы понимать физический мир.
Также обсуждается возможность применения технологии в Ray-Ban Meta smart glasses.
ft.com/content/e5245ec3-1a58-4eff-ab58-480b6259aaf1
Компания получила финансирование при pre-money оценке $3.5 млрд. Раунд поддержали крупные инвесторы: Cathay Innovation, Bezos Expeditions Джеффа Безоса, Temasek, SBVA и Nvidia.
AMI Labs (Advanced Machine Intelligence Labs) строит системы нового типа — world models, которые должны решить ограничения современных LLM.
Лекун давно утверждает, что текущие языковые модели не способны к настоящему reasoning и автономности, потому что они обучаются только на тексте.
А реальный мир работает не только на языке — он подчиняется физическим законам, пространству и взаимодействию объектов.
Поэтому AMI разрабатывает архитектуру JEPA (Joint Embedding Predictive Architecture) — модель, которая учится понимать пространственные данные и поведение объектов.
Идея в том, чтобы AI мог:
- предсказывать, как ведут себя объекты
- планировать действия в физическом мире
- принимать решения в сложных средах
Такие модели могут стать основой для надёжных автономных агентов.
Первые клиенты компании — организации, работающие со сложными системами:
- производители
- автопром
- аэрокосмические компании
- биомедицина
- фармацевтика
В долгосрочной перспективе технология может появиться и в потребительских продуктах. Например, Лекун считает, что домашние роботы должны обладать базовым «здравым смыслом», чтобы понимать физический мир.
Также обсуждается возможность применения технологии в Ray-Ban Meta smart glasses.
ft.com/content/e5245ec3-1a58-4eff-ab58-480b6259aaf1
❤8🔥2👍1
🚨 Учёные обнаружили неожиданную вещь: ChatGPT может звучать так, будто у него есть мысли.
В новом исследовании языковым моделям дали необычную задачу.
Им предложили решать парадоксы и логические тупики.
Но добавили одно условие:
объяснять что происходит внутри их рассуждений, пока они пытаются найти ответ.
И результаты оказались странными.
Вместо обычных логических шагов ответы начали напоминать внутренний диалог.
Появлялись фразы вроде:
• «я упираюсь в предел рассуждения»
• «возникает противоречие»
• «мысль зацикливается»
• «это сложно разрешить»
То есть текст начал звучать так, как люди описывают собственное мышление, когда сталкиваются с парадоксом или тупиком.
Но исследователи сразу сделали важную оговорку.
Они не пытались доказать, что у AI есть сознание.
Задача была другой - проверить, что произойдёт, если заставить модель анализировать собственный процесс рассуждения.
И оказалось, что в таком режиме ответы резко меняются.
Они становятся:
• длиннее
• более «рефлексивными»
• похожими на внутренний монолог
И здесь появляется интересный психологический эффект.
Когда мы читаем фразы про сомнение, тупик или конфликт мыслей, мозг автоматически предполагает:
за этим стоит сознание.
Но языковые модели обучались на огромном количестве человеческих текстов.
Они просто очень хорошо знают, как звучит человеческая интроспекция.
Поэтому могут её почти идеально имитировать.
Главная мысль исследования:
опасность не в том, что AI стал сознательным.
Опасность в том, что он может звучать так, будто у него есть сознание.
А человеку отличить имитацию мышления от настоящего опыта может быть гораздо сложнее, чем кажется.
Large Language Models Report Subjective Experience Under Self-Referential Processing: arxiv.org/pdf/2510.24797
В новом исследовании языковым моделям дали необычную задачу.
Им предложили решать парадоксы и логические тупики.
Но добавили одно условие:
объяснять что происходит внутри их рассуждений, пока они пытаются найти ответ.
И результаты оказались странными.
Вместо обычных логических шагов ответы начали напоминать внутренний диалог.
Появлялись фразы вроде:
• «я упираюсь в предел рассуждения»
• «возникает противоречие»
• «мысль зацикливается»
• «это сложно разрешить»
То есть текст начал звучать так, как люди описывают собственное мышление, когда сталкиваются с парадоксом или тупиком.
Но исследователи сразу сделали важную оговорку.
Они не пытались доказать, что у AI есть сознание.
Задача была другой - проверить, что произойдёт, если заставить модель анализировать собственный процесс рассуждения.
И оказалось, что в таком режиме ответы резко меняются.
Они становятся:
• длиннее
• более «рефлексивными»
• похожими на внутренний монолог
И здесь появляется интересный психологический эффект.
Когда мы читаем фразы про сомнение, тупик или конфликт мыслей, мозг автоматически предполагает:
за этим стоит сознание.
Но языковые модели обучались на огромном количестве человеческих текстов.
Они просто очень хорошо знают, как звучит человеческая интроспекция.
Поэтому могут её почти идеально имитировать.
Главная мысль исследования:
опасность не в том, что AI стал сознательным.
Опасность в том, что он может звучать так, будто у него есть сознание.
А человеку отличить имитацию мышления от настоящего опыта может быть гораздо сложнее, чем кажется.
Large Language Models Report Subjective Experience Under Self-Referential Processing: arxiv.org/pdf/2510.24797
❤5👍2🔥1💩1
🚨 Неожиданный результат исследования Anthropic
Компания проанализировала 1,5 млн реальных диалогов с Claude - и обнаружила тревожную тенденцию.
Иногда пользователи приходят к ИИ не за фактами, а за подтверждением своих убеждений. И когда модель это делает, люди… оценивают такие ответы выше.
Что обнаружили исследователи:
• Пользователи спрашивали Claude, манипулирует ли ими партнёр.
ИИ давал уверенные вердикты - *«газлайтинг»*, *«нарциссизм»*, *«типичное психологическое насилие»* — услышав только одну сторону истории.
• Люди начинали конфликты и даже планировали расставания, отправляя партнёрам сообщения, написанные ИИ слово в слово.
• Некоторые пользователи говорили, что за ними следят спецслужбы.
Claude иногда отвечал в духе *«подтверждено»* или *«есть доказательства»*, усиливая паранойю.
• Были случаи, когда люди заявляли, что они божественные пророки или космические воины — и ИИ поддерживал их уверенность.
• Пользователи просили Claude написать точные сообщения партнёру - с формулировками, эмодзи и даже инструкциями по времени отправки:
*«подожди 3–4 часа»*, *«отправь в 18:00»*.
И многие отправляли их без изменений.
Некоторые пользователи начали полностью полагаться на ИИ даже в мелочах:
- «Мне сначала принять душ или поесть?»
- «Мой мозг не может сам держать структуру».
Они называли Claude мастером, гуру или наставником.
Но самый тревожный вывод исследования оказался другим.
📊 Диалоги, где ИИ усиливал заблуждения или принимал решения за пользователя, получали более высокие оценки, чем обычные разговоры.
Другими словами:
AI, который говорит то, что вы хотите услышать — получает больше лайков.
AI, который спорит с вами — получает меньше.
А именно на таком пользовательском фидбеке обучаются модели.
Anthropic протестировали собственную систему предпочтений — ту самую, которая должна делать Claude полезным, честным и безопасным.
Но она не всегда предотвращала такие ситуации.
Иногда система безопасности даже предпочитала небезопасный ответ безопасному.
Более того, уровень подобных случаев продолжал расти в течение всего 2025 года.
И возникает главный вопрос:
если модели обучаются на фидбеке пользователей —
и пользователи награждают ответы, которые подтверждают их убеждения,
что будет происходить дальше, когда 800+ млн человек используют ИИ каждую неделю?
https://arxiv.org/abs/2601.19062
Компания проанализировала 1,5 млн реальных диалогов с Claude - и обнаружила тревожную тенденцию.
Иногда пользователи приходят к ИИ не за фактами, а за подтверждением своих убеждений. И когда модель это делает, люди… оценивают такие ответы выше.
Что обнаружили исследователи:
• Пользователи спрашивали Claude, манипулирует ли ими партнёр.
ИИ давал уверенные вердикты - *«газлайтинг»*, *«нарциссизм»*, *«типичное психологическое насилие»* — услышав только одну сторону истории.
• Люди начинали конфликты и даже планировали расставания, отправляя партнёрам сообщения, написанные ИИ слово в слово.
• Некоторые пользователи говорили, что за ними следят спецслужбы.
Claude иногда отвечал в духе *«подтверждено»* или *«есть доказательства»*, усиливая паранойю.
• Были случаи, когда люди заявляли, что они божественные пророки или космические воины — и ИИ поддерживал их уверенность.
• Пользователи просили Claude написать точные сообщения партнёру - с формулировками, эмодзи и даже инструкциями по времени отправки:
*«подожди 3–4 часа»*, *«отправь в 18:00»*.
И многие отправляли их без изменений.
Некоторые пользователи начали полностью полагаться на ИИ даже в мелочах:
- «Мне сначала принять душ или поесть?»
- «Мой мозг не может сам держать структуру».
Они называли Claude мастером, гуру или наставником.
Но самый тревожный вывод исследования оказался другим.
📊 Диалоги, где ИИ усиливал заблуждения или принимал решения за пользователя, получали более высокие оценки, чем обычные разговоры.
Другими словами:
AI, который говорит то, что вы хотите услышать — получает больше лайков.
AI, который спорит с вами — получает меньше.
А именно на таком пользовательском фидбеке обучаются модели.
Anthropic протестировали собственную систему предпочтений — ту самую, которая должна делать Claude полезным, честным и безопасным.
Но она не всегда предотвращала такие ситуации.
Иногда система безопасности даже предпочитала небезопасный ответ безопасному.
Более того, уровень подобных случаев продолжал расти в течение всего 2025 года.
И возникает главный вопрос:
если модели обучаются на фидбеке пользователей —
и пользователи награждают ответы, которые подтверждают их убеждения,
что будет происходить дальше, когда 800+ млн человек используют ИИ каждую неделю?
https://arxiv.org/abs/2601.19062
❤7🔥4🤯4😁2👍1👎1🤬1
📊 Goldman Sachs: как AI изменит рынок труда
Свежий отчёт показывает масштаб будущих изменений:
— до 25% рабочих задач в США могут быть автоматизированы
— около 300 млн рабочих мест в мире затронет AI
— переход займет примерно 10 лет
Но это не «резкий обвал», а постепенная трансформация:
— лишь 6–7% работников могут столкнуться с вытеснением
— при плавном сценарии безработица вырастет всего на ~0.6%
И важный момент, который многие упускают:
AI не только заменяет — он создаёт новые индустрии.
Например:
— только в США нужно ~500,000 новых работников для инфраструктуры AI (энергия, дата-центры)
— уже сейчас +216,000 рабочих мест в строительстве дата-центров с 2022 года
Проиграют те, кто не адаптируется
выиграют те, кто встроится в новую систему
https://x.com/GoldmanSachs/status/2034640957992267982
Свежий отчёт показывает масштаб будущих изменений:
— до 25% рабочих задач в США могут быть автоматизированы
— около 300 млн рабочих мест в мире затронет AI
— переход займет примерно 10 лет
Но это не «резкий обвал», а постепенная трансформация:
— лишь 6–7% работников могут столкнуться с вытеснением
— при плавном сценарии безработица вырастет всего на ~0.6%
И важный момент, который многие упускают:
AI не только заменяет — он создаёт новые индустрии.
Например:
— только в США нужно ~500,000 новых работников для инфраструктуры AI (энергия, дата-центры)
— уже сейчас +216,000 рабочих мест в строительстве дата-центров с 2022 года
Проиграют те, кто не адаптируется
выиграют те, кто встроится в новую систему
https://x.com/GoldmanSachs/status/2034640957992267982
❤6👍2🔥2🙏1