Перед вами релиза за февраль… всего за 19 дней мире 👇
19–20 февраля - Gemini 3.1 Pro**
Улучшенное программирование, более сильные агенты, увеличенный контекст.
18 февраля - Google Lyria 3
Генерирует 30-секундные музыкальные треки с вокалом по тексту, изображениям или видео.
17 февраля - Strand-Rust-Coder-14B - модель, заточенная специально под генерациию Rust кода.
17 февраля - Claude Sonnet 4.6
Быстрая модель для программирования и сложного логического рассуждения.
17 февраля - Fujitsu AI Dev Platform
Платформа, которая автоматизирует полный цикл разработки программного обеспечения.
16 февраля - Qwen 3.5
Более дешёвая и мощная модель с упором на агентные сценарии.
12 февраля - Gemini 3 Deep Think
Создана для научных задач и сложных исследований.
12 февраля - MiniMax M2.5
Открытая модель с сильными возможностями в программировании.
12 февраля - Seedance 2.0
Реалистичное генеративное видео 1080p по тексту.
11 февраля - GLM-5
Крупная открытая модель с сильным логическим мышлением.
10 февраля - RynnBrain
AI для робототехники и работы с физическим миром.
5 февраля - Claude Opus 4.6*
Крупное обновление для программирования и работы с инструментами.
5 февраля - GPT-5.3 Codex
Более быстрый GPT, ориентированный на разработку.
5 февраля - Kling 3.0
Генерация видео в 4K со звуком.
Темп ИИ-релизов уже измеряется не месяцами - днями.
@machinelearning_interview
19–20 февраля - Gemini 3.1 Pro**
Улучшенное программирование, более сильные агенты, увеличенный контекст.
18 февраля - Google Lyria 3
Генерирует 30-секундные музыкальные треки с вокалом по тексту, изображениям или видео.
17 февраля - Strand-Rust-Coder-14B - модель, заточенная специально под генерациию Rust кода.
17 февраля - Claude Sonnet 4.6
Быстрая модель для программирования и сложного логического рассуждения.
17 февраля - Fujitsu AI Dev Platform
Платформа, которая автоматизирует полный цикл разработки программного обеспечения.
16 февраля - Qwen 3.5
Более дешёвая и мощная модель с упором на агентные сценарии.
12 февраля - Gemini 3 Deep Think
Создана для научных задач и сложных исследований.
12 февраля - MiniMax M2.5
Открытая модель с сильными возможностями в программировании.
12 февраля - Seedance 2.0
Реалистичное генеративное видео 1080p по тексту.
11 февраля - GLM-5
Крупная открытая модель с сильным логическим мышлением.
10 февраля - RynnBrain
AI для робототехники и работы с физическим миром.
5 февраля - Claude Opus 4.6*
Крупное обновление для программирования и работы с инструментами.
5 февраля - GPT-5.3 Codex
Более быстрый GPT, ориентированный на разработку.
5 февраля - Kling 3.0
Генерация видео в 4K со звуком.
Темп ИИ-релизов уже измеряется не месяцами - днями.
@machinelearning_interview
Учёные из Tsinghua и UC Berkeley ускорили видеодиффузию в 18,6 раза - без потери качества.
В некоторых случаях результат даже лучше.
Ключевой результат:
- 97% разреженности attention
- качество на уровне полного attention
- быстрее и дешевле
Метод называется SLA2.
Главая идея
В видеомоделях большая часть вычислений attention просто не нужна.
Раньше использовали гибрид:
- sparse attention
- linear attention
Но в этой схеме была скрытая проблема — математическая ошибка.
Sparse-ветка была масштабирована неправильно (фактор α),
и linear-ветке приходилось компенсировать эту неточность.
Что делает SLA2
- исправляет формулировку attention
- добавляет обучаемый роутер
- модель сама решает:
- где нужен полный attention
- где можно использовать упрощённый
Дополнительно:
- применяется quantization-aware training
- низкобитный attention обучается во время fine-tuning, а не просто добавляется на этапе инференса
Результаты (Wan2.1 — 1.3B и 14B):
- 97% sparsity
- 18,6× ускорение вычислений
- 4,35× снижение общей задержки (14B)
Самое интересное:
При 97% разреженности SLA2 показывает лучшее качество,
чем все базовые методы при 90%.
Настоящий прогресс в AI - это не только новые модели,
а умение сохранять качество, радикально снижая вычисления.
https://arxiv.org/abs/2602.12675
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ LLM можно “прокачать” в разы… просто повторив промпт
Исследование Google показало простой, но мощный трюк:
если вставить один и тот же промпт дважды, точность модели может резко вырасти.
Почему это работает:
LLM читает текст слева направо.
Первые слова обрабатываются до того, как модель увидит весь контекст.
Из-за этого она иногда рано делает неверные предположения и «держится» за них.
Когда вы дублируете промпт:
- вторая копия читается уже с пониманием полного контекста
- модель лучше интерпретирует задачу прямо перед ответом
- уменьшается количество ошибок из-за неправильного старта
Где эффект максимальный:
- важные детали находятся в конце запроса
- варианты ответа идут до вопроса
- задачи поиска, логики и сложных инструкций
Результаты:
- сложная задача: 21.33% → 97.33%
- протестировано на 7 моделях и 7 бенчмарках
- улучшение в 47 из 70 случаев
- статистически значимого ухудшения ни разу
Многие ошибки LLM - это не нехватка знаний.
Это проблема порядка чтения контекста.
И самое приятно - трюк бесплатный:
просто продублируйте свой промпт перед отправкой.
arxiv.org/abs/2512.14982
Исследование Google показало простой, но мощный трюк:
если вставить один и тот же промпт дважды, точность модели может резко вырасти.
Почему это работает:
LLM читает текст слева направо.
Первые слова обрабатываются до того, как модель увидит весь контекст.
Из-за этого она иногда рано делает неверные предположения и «держится» за них.
Когда вы дублируете промпт:
- вторая копия читается уже с пониманием полного контекста
- модель лучше интерпретирует задачу прямо перед ответом
- уменьшается количество ошибок из-за неправильного старта
Где эффект максимальный:
- важные детали находятся в конце запроса
- варианты ответа идут до вопроса
- задачи поиска, логики и сложных инструкций
Результаты:
- сложная задача: 21.33% → 97.33%
- протестировано на 7 моделях и 7 бенчмарках
- улучшение в 47 из 70 случаев
- статистически значимого ухудшения ни разу
Многие ошибки LLM - это не нехватка знаний.
Это проблема порядка чтения контекста.
И самое приятно - трюк бесплатный:
просто продублируйте свой промпт перед отправкой.
arxiv.org/abs/2512.14982
🧬 Qwen3-Coder-Next стал доступен через API
Alibaba выпустила open-source версию Qwen3-Coder-Next и открыла к ней доступ через Alibaba Cloud Model Studio.
Теперь модель можно использовать в продакшене без локального развёртывания — через масштабируемые и экономичные API-эндпоинты.
Что доступно:
- API для интеграции в приложения и инструменты разработки
- Поддержка в Coding Plan для команд и enterprise-сценариев
- Масштабирование под нагрузку
- Оплата по использованию
Подходит для:
- AI-ассистентов для разработки
- генерации и рефакторинга кода
- CI/CD-автоматизации
- агентных систем и DevOps-инструментов
Документация API: https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3
Подробности Coding Plan:
https://alibabacloud.com/help/en/model-studio/coding-plan
Alibaba выпустила open-source версию Qwen3-Coder-Next и открыла к ней доступ через Alibaba Cloud Model Studio.
Теперь модель можно использовать в продакшене без локального развёртывания — через масштабируемые и экономичные API-эндпоинты.
Что доступно:
- API для интеграции в приложения и инструменты разработки
- Поддержка в Coding Plan для команд и enterprise-сценариев
- Масштабирование под нагрузку
- Оплата по использованию
Подходит для:
- AI-ассистентов для разработки
- генерации и рефакторинга кода
- CI/CD-автоматизации
- агентных систем и DevOps-инструментов
Документация API: https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3
Подробности Coding Plan:
https://alibabacloud.com/help/en/model-studio/coding-plan
По данным Financial Times, Nvidia меняет структуру сотрудничества с OpenAI.
Ранее обсуждалась многосторонняя сделка на $100 млрд, где финансирование Nvidia было привязано к:
- закупкам GPU
- росту инфраструктуры OpenAI
- этапам расширения дата-центров
Теперь формат меняется.
Что происходит:
- Nvidia рассматривает инвестицию до $30 млрд в капитал OpenAI
- вместо контрактной схемы — прямая покупка доли
- прежняя модель с обязательными закупками и milestone-условиями отменяется
Почему изменили структуру:
Старая схема выглядела для инвесторов «круговой»:
- OpenAI получает деньги от поставщика
- затем тратит их на покупку оборудования у того же поставщика
Новая модель, более прозрачная с точки зрения инвестиций.
Хотя обязательства по закупкам снимаются, ожидается, что значительная часть средств всё равно пойдёт на покупку GPU Nvidia
AI-инфраструктура превращается в стратегическое партнёрство.
Производители чипов больше не просто поставщики — они становятся крупными акционерами AI-компаний.
ft.com/content/dea24046-0a73-40b2-8246-5ac7b7a54323
Please open Telegram to view this post
VIEW IN TELEGRAM
Новая функция AI Selves позволит развернуть виртуального двойника, который обладает памятью, уникальным характером и способен самостоятельно общаться с другими людьми. За мимику и артикуляцию при разговоре отвечают собственные аудиовизуальные модели лаботатории.
Пользователи смогут детально настраивать свою копию: задавать голос, манеру общения и загружать конкретные факты биографии или личные предпочтения. Процесс напоминает воспитание аватара, где создатель несет ответственность за заложенные в ИИ инструкции. Предполагается, что такие агенты будут интегрированы в мессенджеры и соцсети, где смогут общаться и действовать от имени пользователя.
Pika Labs открыла регистрацию через список ожидания. Стоимость использования сервиса или уровнях подписки пока неизвестны.
Pika Labs в сети Х
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Новый инструмент сканирует кодовую базу и предлагает патчи для исправления найденных проблем. Сейчас он доступен в режиме ограниченного превью для Enterprise и Team клиентов, а мейнтейнеры репозиториев могут запросить приоритетный бесплатный доступ.
Обычный статический анализ ищет совпадения с известными паттернами уязвимостей. Этого достаточно, чтобы поймать торчащие наружу пароли или устаревшее шифрование.
Но прорехи в бизнес-логике или сломанный контроль доступа такие инструменты пропускают - там нужно понимать, как компоненты взаимодействуют между собой и куда движутся данные.
Claude Code Security делает именно это: читает и анализирует код так, как его читал бы человек-исследователь безопасности.
Каждая находка проходит многоступенчатую верификацию. Claude сам перепроверяет результаты, пытаясь опровергнуть собственные выводы и отсеять ложные срабатывания.
Финальные находки появляются в дашборде с оценкой серьезности и уровнем уверенности модели. Решение, применять предложенный патч или нет остается за людьми, без человеческого одобрения ничего не меняется.
За инструментом - более года исследований. Команда Frontier Red Team тестировала Claude на соревнованиях CTF и совместно с Pacific Northwest National Laboratory отрабатывала защиту критической инфраструктуры.
С Opus 4.6 команда обнаружила в open-source проектах более 500 уязвимостей, которые не замечали годами, несмотря на регулярный аудит.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Трансляция длилась час и содержала много риторики в сторону Индии. Мы собрали ключевые и наиболее интересные высказывания:
Скорость развития моделей от базовых задач к решению научных проблем не имеет аналогов в истории технологий.
Глубокое обучение уникально тем, что небольшая группа исследователей нашла единый алгоритм, способный обучаться чему угодно, и его эффективность непрерывно растет.
Год назад ИИ справлялся только с математикой на уровне старшей школы, испытывая трудности с программой начальных классов за пару лет до этого.
Летом модели начали конкурировать в сложнейших математических олимпиадах, а на прошлой неделе проект First Proof ИИ решил 7 из 10 математических проблем, ответы на которые ранее не были известны ученым.
Codex полностью изменили профессию программиста. Текстовый запрос теперь позволяет сгенерировать приложение целиком.
Требования к вычислительным мощностям для достижения AGI выходят за рамки существующих физических и экономических возможностей планеты.
Индустрия ИИ представляет собой «пятислойный пирог»: энергетика, дата-центры, чипы, базовые модели и конечные приложения.
Развертывание инфраструктуры станет самым дорогим и сложным проектом за всю историю человечества. Для его реализации невозможно использовать традиционные методы - потребуется массовое привлечение ИИ и промышленных роботов для строительства.
Концепция размещения дата-центров в космосе абсурдна. Стоимость запуска оборудования несоизмеримо выше затрат на наземную электроэнергию, а починить сломанный GPU в космосе физически некому. Орбитальные дата-центры не обретут смысл в текущем десятилетии.
Технологическая индустрия, зародившаяся в Кремниевой долине на принципах либертарианства, должна радикально изменить подход. Для достижения AGI потребуется беспрецедентный уровень интеграции с правительствами.
В гонке ИИ Китай обладает подавляющим преимуществом в смежных физических отраслях: производстве промышленных роботов, электромоторов, магнитов и развертывании энергетической инфраструктуры.
Крайне опасен сценарий, при котором AGI будет монополизирован одной компанией или одним государством. Распределение мощностей должно быть демократизировано для соблюдения баланса сил на международной арене.
Уже наблюдается децентрализация: команды из 1-3 человек, используя ИИ-агенты, создают стартапы с феноменальным уровнем успеха и капитализации, что было невозможно еще несколько лет назад.
ИИ-системы уже могут применяться правительствами для анализа массивов разведывательных отчетов. Категорически недопустимо использование ненадежных open-source моделей для принятия критических военных решений.
Оценка экологического следа дата-центров сопровождается дезинформацией.
Утверждения о том, что ChatGPT расходует 17 галлонов воды на каждый поисковый запрос, являются фейком. Современные дата-центры отказываются от систем испарительного охлаждения.
Общее потребление энергии дата-центрами абсолютно реально и огромно. Миру необходимо экстренно переходить на ядерную, ветровую и солнечную энергетику.
Данные Билла Гейтса о том, что один запрос к ChatGPT эквивалентен разрядке 10 батарей iPhone, сильно завышены.
Альтман предложил сравнение энергетических затрат на тренировку ИИ-модели с затратами на обучение человека. Специалисту требуется 20 лет потребления пищи и ресурсов планеты, прежде чем он сможет выполнять сложные когнитивные задачи. ИИ с этой точки зрения уже выигрывает по энергоэффективности.
При гипотетическом выборе ИИ-ассистента из чужих моделей (Grok, Claude, Gemini, DeepSeek), Сэм отдаст предпочтение Gemini.
Отказ от доли в капитале при создании OpenAI Альтман называет одним из самых глупых решений.
Самый дорогой и значимый найм в истории компании - Илья Суцкевер.
OpenAI не станет отказываться от рекламной модели монетизации, если это потребуется.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Этот файл CLAUDE.md может сделать тебя разработчиком в 10 раз эффективнее 👇
В нём собраны лучшие практики работы с Claude Code от его создателя.
Борис Черны (создатель Claude Code в Anthropic) поделился в X внутренними подходами и рабочими процессами, которые его команда действительно использует каждый день. Позже эти материалы оформили в структурированный файл CLAUDE.md, который можно добавить в любой проект.
Что внутри:
- оркестрация рабочих процессов
- стратегия субагентов
- цикл самоулучшения
- проверка перед завершением задачи
- автономное исправление ошибок
- базовые принципы работы
Это система с накопительным эффектом.
Каждое исправление, которое ты вносишь, сохраняется как правило. Со временем Claude делает всё меньше ошибок, потому что учится на твоей обратной связи.
Если ты используешь AI в разработке каждый день - это может сэкономить тебе десятки часов.
В нём собраны лучшие практики работы с Claude Code от его создателя.
Борис Черны (создатель Claude Code в Anthropic) поделился в X внутренними подходами и рабочими процессами, которые его команда действительно использует каждый день. Позже эти материалы оформили в структурированный файл CLAUDE.md, который можно добавить в любой проект.
Что внутри:
- оркестрация рабочих процессов
- стратегия субагентов
- цикл самоулучшения
- проверка перед завершением задачи
- автономное исправление ошибок
- базовые принципы работы
Это система с накопительным эффектом.
Каждое исправление, которое ты вносишь, сохраняется как правило. Со временем Claude делает всё меньше ошибок, потому что учится на твоей обратной связи.
Если ты используешь AI в разработке каждый день - это может сэкономить тебе десятки часов.
⚡️ Claude Code для Уолл-стрит
Появился проект Dexter - автономный AI-финансовый аналитик, который проводит полноценное исследование компании без участия человека.
Вы задаёте вопрос, например:
*NVIDIA недооценена по DCF?*
Дальше система работает сама:
- строит план исследования
- подтягивает актуальные рыночные данные
- загружает финансовую отчётность за 5 лет
- считает ключевые метрики и мультипликаторы
- проверяет свои же расчёты на ошибки
- формирует итоговый инвестиционный вывод
И всё это — автономно.
Как это устроено:
Dexter разбивает задачу на несколько этапов:
- получает текущие цены
- анализирует исторические P/E
- сравнивает с отраслевыми значениями
- проводит оценку (включая DCF)
- проверяет согласованность данных
- собирает всё в финальный аналитический тезис
Внутри — несколько агентов:
- один планирует исследование
- второй выполняет сбор и расчёты
- третий проверяет корректность цифр
- четвёртый пишет итоговый отчёт
Система умеет:
- читать отчёты SEC (10-K, 10-Q, 8-K)
- работать с реальными финансовыми метриками
- делать полноценную DCF-оценку
По сути, это как команда аналитиков:
один ставит задачи, второй ищет данные, третий проверяет расчёты, четвёртый пишет отчёт.
Только вся команда - это AI, и запускается прямо в терминале.
https://github.com/virattt/dexter
Появился проект Dexter - автономный AI-финансовый аналитик, который проводит полноценное исследование компании без участия человека.
Вы задаёте вопрос, например:
*NVIDIA недооценена по DCF?*
Дальше система работает сама:
- строит план исследования
- подтягивает актуальные рыночные данные
- загружает финансовую отчётность за 5 лет
- считает ключевые метрики и мультипликаторы
- проверяет свои же расчёты на ошибки
- формирует итоговый инвестиционный вывод
И всё это — автономно.
Как это устроено:
Dexter разбивает задачу на несколько этапов:
- получает текущие цены
- анализирует исторические P/E
- сравнивает с отраслевыми значениями
- проводит оценку (включая DCF)
- проверяет согласованность данных
- собирает всё в финальный аналитический тезис
Внутри — несколько агентов:
- один планирует исследование
- второй выполняет сбор и расчёты
- третий проверяет корректность цифр
- четвёртый пишет итоговый отчёт
Система умеет:
- читать отчёты SEC (10-K, 10-Q, 8-K)
- работать с реальными финансовыми метриками
- делать полноценную DCF-оценку
По сути, это как команда аналитиков:
один ставит задачи, второй ищет данные, третий проверяет расчёты, четвёртый пишет отчёт.
Только вся команда - это AI, и запускается прямо в терминале.
https://github.com/virattt/dexter
🔥 10 GitHub-репозиториев, которые реально прокачают тебя в AI
1. Generative AI for Beginners
Полноценный курс от Microsoft: Jupyter-ноутбуки, практические задания и разработка GenAI-приложений.
https://github.com/microsoft/generative-ai-for-beginners
2. LLMs from Scratch
Пошаговая реализация GPT-подобной модели с нуля. Лучший способ понять, как работают LLM внутри.
https://github.com/rasbt/LLMs-from-scratch
3. AI Agents for Beginners
Практика по созданию агентных систем: инструменты, память, планирование, workflow.
https://github.com/microsoft/ai-agents-for-beginners
4. ML for Beginners
Классическая база по машинному обучению: 26 структурированных уроков.
https://github.com/microsoft/ML-For-Beginners
5. OpenAI Cookbook
Официальные примеры работы с API: production-паттерны, RAG, функции, реальные кейсы.
https://github.com/openai/openai-cookbook
6. Python 100 Days
Интенсив по Python с практикой каждый день. Отличная база для входа в AI.
https://github.com/jackfrued/Python-100-Days
7. LLM App Templates
Готовые RAG-шаблоны и production-решения для реальных LLM-приложений.
https://github.com/pathwaycom/llm-app
8. Python Data Science Handbook
Фундамент по NumPy, Pandas, визуализации и классическому ML.
https://github.com/jakevdp/PythonDataScienceHandbook
9. Stable Diffusion
Оригинальный код модели text-to-image - отличная база для изучения генеративного CV.
https://github.com/CompVis/stable-diffusion
10. Segment Anything
Модель от Meta для сегментации изображений - мощный инструмент для компьютерного зрения.
https://github.com/facebookresearch/segment-anything
#AI #MachineLearning #LLM #GitHub #Python #DataScience
1. Generative AI for Beginners
Полноценный курс от Microsoft: Jupyter-ноутбуки, практические задания и разработка GenAI-приложений.
https://github.com/microsoft/generative-ai-for-beginners
2. LLMs from Scratch
Пошаговая реализация GPT-подобной модели с нуля. Лучший способ понять, как работают LLM внутри.
https://github.com/rasbt/LLMs-from-scratch
3. AI Agents for Beginners
Практика по созданию агентных систем: инструменты, память, планирование, workflow.
https://github.com/microsoft/ai-agents-for-beginners
4. ML for Beginners
Классическая база по машинному обучению: 26 структурированных уроков.
https://github.com/microsoft/ML-For-Beginners
5. OpenAI Cookbook
Официальные примеры работы с API: production-паттерны, RAG, функции, реальные кейсы.
https://github.com/openai/openai-cookbook
6. Python 100 Days
Интенсив по Python с практикой каждый день. Отличная база для входа в AI.
https://github.com/jackfrued/Python-100-Days
7. LLM App Templates
Готовые RAG-шаблоны и production-решения для реальных LLM-приложений.
https://github.com/pathwaycom/llm-app
8. Python Data Science Handbook
Фундамент по NumPy, Pandas, визуализации и классическому ML.
https://github.com/jakevdp/PythonDataScienceHandbook
9. Stable Diffusion
Оригинальный код модели text-to-image - отличная база для изучения генеративного CV.
https://github.com/CompVis/stable-diffusion
10. Segment Anything
Модель от Meta для сегментации изображений - мощный инструмент для компьютерного зрения.
https://github.com/facebookresearch/segment-anything
#AI #MachineLearning #LLM #GitHub #Python #DataScience
This media is not supported in your browser
VIEW IN TELEGRAM
Бесплатная тулза, которая помогает понять, какой GPU нужен под конкретную задачу до того как потрачен бюджет
Выбираете параметры инференса: архитектуру модели, тип квантования, sequence length и batch size, указываете спеки железа и получаете стату, распределение памяти, примерные метрики производительности и энергопотребления. Есть даже эмуляция скорости инференса с TTFT.
Параметры расчета дообучения учитывают: конфиг датасета (количество сэмплов, среднее токенов на сэмпл, эпохи) и использование оптимизаторов. Плюс, еще посчитает время обучения.
Цифры часто получаются чуть выше реального потребления (что даже хорошо), но точности до гигабайта ждать не стоит.
Для грубой прикидки перед закупкой или деплоем - отличная вещь.
@ai_machinelearning_big_data
#AI #ML #LLM #VRAMCalculator
Please open Telegram to view this post
VIEW IN TELEGRAM
Это должно было случиться . OpenAI РАЗГРОМИЛИ главный бенчмарк ИИ-кодеров — SWE-bench Verified официально признан бесполезным 😁
Высокие баллы нейросетей оказались не признаком «ума», а результатом банальной зубрежки😂
В чем проблема:
— 59% сложных задач из тестов содержат баги — они требуют того, чего нет в условии;
— Ответы на них были в общем доступе, модели просто выучили решения из GitHub. GPT и Claude цитируют код и комментарии из тестов дословно по памяти.
Чем теперь меряться будут?🍆
@ai_machinelearning_big_data
Высокие баллы нейросетей оказались не признаком «ума», а результатом банальной зубрежки
В чем проблема:
— 59% сложных задач из тестов содержат баги — они требуют того, чего нет в условии;
— Ответы на них были в общем доступе, модели просто выучили решения из GitHub. GPT и Claude цитируют код и комментарии из тестов дословно по памяти.
Чем теперь меряться будут?
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ AI-войны продалжаются
Anthropic заявили, что обнаружили масштабные кампании по «дистилляции» их моделей со стороны DeepSeek, Moonshot и MiniMax.
По данным компании:
- использовано ~24 000 фейковых аккаунтов
- сгенерировано более 16 миллионов диалогов с Claude
- цель - воспроизвести сильные стороны модели
- агентное мышление
- работу с инструментами
- программирование
- сложное рассуждение
Фактически - это массовое извлечение поведения модели через API, чтобы обучить свои системы на её ответах.
И самое интересное:
Anthropic утверждает, что выявила схемы автоматически - по паттернам использования и аномальной активности.
Это новая реальность рынка AI:
- данные стали главным активом
- поведение моделей — интеллектуальная собственность
- компании пытаются копировать не архитектуру, а «мышление»
Если раньше технологические войны шли за:
- вычисления
- датасеты
- чипы
то теперь начинается новая гонка: война за интеллект моделей.
https://x.com/AnthropicAI/status/2025997928242811253
#Anthropic
Anthropic заявили, что обнаружили масштабные кампании по «дистилляции» их моделей со стороны DeepSeek, Moonshot и MiniMax.
По данным компании:
- использовано ~24 000 фейковых аккаунтов
- сгенерировано более 16 миллионов диалогов с Claude
- цель - воспроизвести сильные стороны модели
- агентное мышление
- работу с инструментами
- программирование
- сложное рассуждение
Фактически - это массовое извлечение поведения модели через API, чтобы обучить свои системы на её ответах.
И самое интересное:
Anthropic утверждает, что выявила схемы автоматически - по паттернам использования и аномальной активности.
Это новая реальность рынка AI:
- данные стали главным активом
- поведение моделей — интеллектуальная собственность
- компании пытаются копировать не архитектуру, а «мышление»
Если раньше технологические войны шли за:
- вычисления
- датасеты
- чипы
то теперь начинается новая гонка: война за интеллект моделей.
https://x.com/AnthropicAI/status/2025997928242811253
#Anthropic
⚡️ Google DeepMind выпустили исследование о том, как на самом деле нужно делегировать задачи AI.
Главная идея: проблема не в том, что AI плохо работает.
Проблема в том, что люди не умеют правильно передавать ему задачи.
DeepMind предлагает рассматривать делегирование не как один запрос, а как процесс из нескольких решений:
1. Нужно ли вообще отдавать задачу AI
2. Как правильно её сформулировать
3. Как проверить результат
4. Что делать, если AI ошибся
Это новый подход: делегирование как управление риском, а не как промпт.
Самое интересное из исследования
Рынок AI-агентов
Вместо фиксированных систем предлагается модель, где агенты:
- соревнуются за задачи
- оценивают свою способность выполнить их
- подтверждают навыки цифровыми сертификатами
Не рейтинг.
Криптографически подтверждённая компетенция.
Нельзя просто доверять AI
Фреймворк вводит обязательную проверку:
- правила, когда ответ можно принять
- оценка уверенности модели
- резервные сценарии при ошибке
Главный принцип:
Никогда не принимать результат AI без валидации.
Борьба с двумя крайностями
DeepMind вводит понятия:
Over-delegation
- отдаём AI задачи, к которым он не готов
Under-delegation
- делаем сами то, что AI уже умеет лучше
Будущее эффективности - в правильном балансе.
Динамическое делегирование
В процессе работы:
- ответственность может передаваться
- задачи могут перераспределяться
- система адаптируется при сбоях
Это важно для реального бизнеса, где условия постоянно меняются.
Когда AI управляет AI
Фреймворк учитывает цепочки:
AI → AI → AI
При этом:
- сохраняется ответственность
- отслеживается, кто за что отвечает
- не теряется контроль над процессом
Главный вывод
Эпоха «напиши промпт и жди» заканчивается.
Будущее — это:
- управление AI
- контроль качества
- системы доверия
- инфраструктура делегирования
AI становится не инструментом.
AI становится рабочей системой, которой нужно управлять как командой.
arxiv.org/abs/2602.11865
Главная идея: проблема не в том, что AI плохо работает.
Проблема в том, что люди не умеют правильно передавать ему задачи.
DeepMind предлагает рассматривать делегирование не как один запрос, а как процесс из нескольких решений:
1. Нужно ли вообще отдавать задачу AI
2. Как правильно её сформулировать
3. Как проверить результат
4. Что делать, если AI ошибся
Это новый подход: делегирование как управление риском, а не как промпт.
Самое интересное из исследования
Рынок AI-агентов
Вместо фиксированных систем предлагается модель, где агенты:
- соревнуются за задачи
- оценивают свою способность выполнить их
- подтверждают навыки цифровыми сертификатами
Не рейтинг.
Криптографически подтверждённая компетенция.
Нельзя просто доверять AI
Фреймворк вводит обязательную проверку:
- правила, когда ответ можно принять
- оценка уверенности модели
- резервные сценарии при ошибке
Главный принцип:
Никогда не принимать результат AI без валидации.
Борьба с двумя крайностями
DeepMind вводит понятия:
Over-delegation
- отдаём AI задачи, к которым он не готов
Under-delegation
- делаем сами то, что AI уже умеет лучше
Будущее эффективности - в правильном балансе.
Динамическое делегирование
В процессе работы:
- ответственность может передаваться
- задачи могут перераспределяться
- система адаптируется при сбоях
Это важно для реального бизнеса, где условия постоянно меняются.
Когда AI управляет AI
Фреймворк учитывает цепочки:
AI → AI → AI
При этом:
- сохраняется ответственность
- отслеживается, кто за что отвечает
- не теряется контроль над процессом
Главный вывод
Эпоха «напиши промпт и жди» заканчивается.
Будущее — это:
- управление AI
- контроль качества
- системы доверия
- инфраструктура делегирования
AI становится не инструментом.
AI становится рабочей системой, которой нужно управлять как командой.
arxiv.org/abs/2602.11865
⚡️ Anthropic закрыли своё самое сложное тестовое задание.
Причина - Claude сделал его лучше любого кандидата.
Разбор этого задания показал важную вещь:
оно проверяло не алгоритмы, а инженерное мышление уровня системной оптимизации.
Что это было за задание
Кандидатам нужно было оптимизировать алгоритм под «виртуальный ускоритель» - симуляцию специализированного AI-чипа.
Особенности задачи:
- медленная основная память (DRAM)
- маленькая, но быстрая локальная память (scratchpad)
- параллельное выполнение инструкций (VLIW)
- векторные операции (SIMD)
По сути - оптимизация под архитектуру уровня TPU.
Что проверялось на самом деле
Не знание Python.
А умение:
- минимизировать обращения к памяти
- правильно управлять данными
- распараллеливать вычисления
- мыслить throughput-ом, а не строками кода
Лучшие решения давали ускорение до 65×.
Claude справился с задачей за пару часов и показал результат выше большинства кандидатов.
Это сигнал:
AI уже способен:
- оптимизировать низкоуровневые системы
- понимать архитектурные ограничения
- находить инженерные решения, а не просто генерировать код
Рынок меняется.
AI уже:
- пишет код
- оптимизирует алгоритмы
- ускоряет системы
Теперь ценность разработчика смещается:
не написать код,
а спроектировать систему, ограничения и архитектуру.
Потому что оптимизацию всё чаще делает AI.
https://www.ikot.blog/anthropic-take-home-for-dummies
Причина - Claude сделал его лучше любого кандидата.
Разбор этого задания показал важную вещь:
оно проверяло не алгоритмы, а инженерное мышление уровня системной оптимизации.
Что это было за задание
Кандидатам нужно было оптимизировать алгоритм под «виртуальный ускоритель» - симуляцию специализированного AI-чипа.
Особенности задачи:
- медленная основная память (DRAM)
- маленькая, но быстрая локальная память (scratchpad)
- параллельное выполнение инструкций (VLIW)
- векторные операции (SIMD)
По сути - оптимизация под архитектуру уровня TPU.
Что проверялось на самом деле
Не знание Python.
А умение:
- минимизировать обращения к памяти
- правильно управлять данными
- распараллеливать вычисления
- мыслить throughput-ом, а не строками кода
Лучшие решения давали ускорение до 65×.
Claude справился с задачей за пару часов и показал результат выше большинства кандидатов.
Это сигнал:
AI уже способен:
- оптимизировать низкоуровневые системы
- понимать архитектурные ограничения
- находить инженерные решения, а не просто генерировать код
Рынок меняется.
AI уже:
- пишет код
- оптимизирует алгоритмы
- ускоряет системы
Теперь ценность разработчика смещается:
не написать код,
а спроектировать систему, ограничения и архитектуру.
Потому что оптимизацию всё чаще делает AI.
https://www.ikot.blog/anthropic-take-home-for-dummies
❤1
И это не модели.
Это pipeline обучения через API.
По данным компании, несколько лабораторий использовали около 24 000 фейковых аккаунтов, чтобы сделать 16+ миллионов запросов к Claude и использовать ответы для обучения своих моделей.
Этот подход называется distillation.
Суть простая:
вместо обучения модели с нуля
→ вы показываете ей миллионы примеров того, как отвечает более умная модель
Фактически:
не учишься решать задачи
а «переписываешь ответы отличника».
Важно понимать: distillation — не новая техника.
Все лаборатории используют её внутри, чтобы делать более дешёвые версии своих моделей.
Новое — масштаб.
Теперь это происходит через массовые API-запросы, как промышленная операция.
Что делали:
- DeepSeek просил модель объяснять рассуждения шаг за шагом
- Moonshot собирал данные по агентным сценариям
- MiniMax сделал ~13 млн запросов и адаптировался за 24 часа после выхода новой модели
Это открывает новый класс рисков.
Новая модель угроз
1. Скопированные модели могут потерять safety-ограничения
2. Экспортные ограничения на чипы теряют смысл, если поведение можно «воспроизвести» через API
3. Продвинутые возможности могут появляться без встроенных защит
4. Быстрый прогресс конкурентов может быть результатом distillation, а не исследований
Главная мысль:
Раньше считалось, что главный ресурс — это compute.
Теперь ясно:
Главный актив — поведение модели.
И его можно приблизительно восстановить через миллионы запросов.
Проблема для индустрии — координация.
Если защиту усилит одна компания,
атакующий просто перейдёт к той, у кого защита слабее.
Окно для создания общей инфраструктуры защиты быстро закрывается.
Илон Маск прокомментировал ситуацию у себя в X 😂 -
Как они смеют красть то, что Anthropic сама украла у программистов?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Главные новости ИИ и МЛ
✔️ OpenAI заморозила проект Stargate.
Мегапроект, который OpenAI планировала запустить вместе с SoftBank и Oracle, фактически остановлен. Причиной стали корпоративные разногласия, дефицит инженерных кадров и опасения инвесторов - по прогнозам, к 2027 году компания могла столкнуться с нехваткой капитала.
Но 10 ГВт запланированных мощностей все равно нужны. Поэтому OpenAI включила резервный план. Компания арендует сервера у тех же Oracle и SoftBank, а заодно активно скупает ресурсы у AWS и Google Cloud. Фокус сместился на локальные дата-центры - вроде того, что сейчас строят в Техасе на 1,2 ГВт.
В результате такой смены курса общие прогнозируемые расходы OpenAI на инфраструктуру к 2030 году возрастут до 600 млрд. долларов.
theinformation.com
✔️ Anthropic обвинила китайские лаборатории в дистилляции Claude.
Вслед за OpenAI, Anthropic заявила о масштабной дистилляции знаний. По словам компании, всего было cгенерировано более 16 млн. запросов к Claude сетью из 24 тыс. аккаунтов через прокси-сервисы в обход региональных ограничений.
Главной целью был сбор датасетов для копирования ризонинга, написания кода и работы с инструментами. По данным Anthropic, DeepSeek извлекала алгоритмы пошаговых рассуждений и варианты обхода фильтров. Moonshot выкачивала данные по кодингу и CV, а MiniMax перехватывала логику новейших версий Claude буквально в день их релиза.
Для защиты своей инфраструктуры компания уже развернула системы, автоматически блокирующие нелегальный API-трафик.
anthropic.com
✔️ NVIDIA открыла код и модели проекта DreamDojo.
DreamDojo - генеративная модель мира, которую учили на 45 тысяч часов видео от первого лица. Люди на записях занимаются обычной бытовой рутиной - складывают одежду, собирают вещи. А модель, просто глядя на это, выучивает законы физики.
Система выдает симуляцию в реальном времени на скорости около 11 FPS. Этого хватает, чтобы обкатывать алгоритмы в виртуалке и не ломать дорогие физические прототипы. Но фишка релиза в том, что виртуальным роботом можно управлять через VR-контроллеры прямо внутри сгенерированной реальности.
Обе версии модели, на 2 и 14 млрд. параметров, опубликованы под лицензией, разрешающей в том числе коммерческое использование.
Jim Fan (NVIDIA Director of Robotics) в сети Х
✔️ В коде ChatGPT обнаружили новый тариф Pro Lite за $100 в месяц.
Тибор Блахо нашел во коде веб-версии ChatGPT упоминания нового уровня подписки. Судя по всему, OpenAI планирует тариф Pro Lite, чтобы закрыть нишу между планом Plus и флагманским Pro.
Согласно найденным фрагментам кода, Pro Lite предложит в 3–5 раз больше квот на использование ризонинг-моделей по сравнению с Plus. Кроме того, план, вероятно, получит расширенные лимиты для Codex. Официальных заявлений о сроках запуска нового тарифа OpenAI пока не публиковала.
gizmochina.com
✔️ Сгенерированные лица людей стали слишком идеальными.
Ученые из Австралии выяснили, что современные нейросети перешагнули порог визуального распознавания. В ходе эксперимента со 125 участниками обычные люди отличали сгенерированные лица от настоящих лишь немногим лучше, чем при случайном угадывании. Даже обладатели выдающейся зрительной памяти показали минимальное преимущество перед контрольной группой.
Сложность связана с изменением самой природы визуальных ошибок ИИ. Если ранние генеративные модели оставляли заметные артефакты, то современные синтетические лица выдают себя исключительно своей безупречностью. Нейросети создают гиперреалистичные, абсолютно симметричные и статистически усредненные портреты с идеальными пропорциями.
Авторы предупреждают, что этот искусственный перфекционизм скоро сломает системы биометрии и безопасности. Проверить собственную наивность можно в онлайн-демо исследования.
unsw.edu.au
@ai_machinelearning_big_data
#news #ai #ml
Мегапроект, который OpenAI планировала запустить вместе с SoftBank и Oracle, фактически остановлен. Причиной стали корпоративные разногласия, дефицит инженерных кадров и опасения инвесторов - по прогнозам, к 2027 году компания могла столкнуться с нехваткой капитала.
Но 10 ГВт запланированных мощностей все равно нужны. Поэтому OpenAI включила резервный план. Компания арендует сервера у тех же Oracle и SoftBank, а заодно активно скупает ресурсы у AWS и Google Cloud. Фокус сместился на локальные дата-центры - вроде того, что сейчас строят в Техасе на 1,2 ГВт.
В результате такой смены курса общие прогнозируемые расходы OpenAI на инфраструктуру к 2030 году возрастут до 600 млрд. долларов.
theinformation.com
Вслед за OpenAI, Anthropic заявила о масштабной дистилляции знаний. По словам компании, всего было cгенерировано более 16 млн. запросов к Claude сетью из 24 тыс. аккаунтов через прокси-сервисы в обход региональных ограничений.
Главной целью был сбор датасетов для копирования ризонинга, написания кода и работы с инструментами. По данным Anthropic, DeepSeek извлекала алгоритмы пошаговых рассуждений и варианты обхода фильтров. Moonshot выкачивала данные по кодингу и CV, а MiniMax перехватывала логику новейших версий Claude буквально в день их релиза.
Для защиты своей инфраструктуры компания уже развернула системы, автоматически блокирующие нелегальный API-трафик.
anthropic.com
DreamDojo - генеративная модель мира, которую учили на 45 тысяч часов видео от первого лица. Люди на записях занимаются обычной бытовой рутиной - складывают одежду, собирают вещи. А модель, просто глядя на это, выучивает законы физики.
Система выдает симуляцию в реальном времени на скорости около 11 FPS. Этого хватает, чтобы обкатывать алгоритмы в виртуалке и не ломать дорогие физические прототипы. Но фишка релиза в том, что виртуальным роботом можно управлять через VR-контроллеры прямо внутри сгенерированной реальности.
Обе версии модели, на 2 и 14 млрд. параметров, опубликованы под лицензией, разрешающей в том числе коммерческое использование.
Jim Fan (NVIDIA Director of Robotics) в сети Х
Тибор Блахо нашел во коде веб-версии ChatGPT упоминания нового уровня подписки. Судя по всему, OpenAI планирует тариф Pro Lite, чтобы закрыть нишу между планом Plus и флагманским Pro.
Согласно найденным фрагментам кода, Pro Lite предложит в 3–5 раз больше квот на использование ризонинг-моделей по сравнению с Plus. Кроме того, план, вероятно, получит расширенные лимиты для Codex. Официальных заявлений о сроках запуска нового тарифа OpenAI пока не публиковала.
gizmochina.com
Ученые из Австралии выяснили, что современные нейросети перешагнули порог визуального распознавания. В ходе эксперимента со 125 участниками обычные люди отличали сгенерированные лица от настоящих лишь немногим лучше, чем при случайном угадывании. Даже обладатели выдающейся зрительной памяти показали минимальное преимущество перед контрольной группой.
Сложность связана с изменением самой природы визуальных ошибок ИИ. Если ранние генеративные модели оставляли заметные артефакты, то современные синтетические лица выдают себя исключительно своей безупречностью. Нейросети создают гиперреалистичные, абсолютно симметричные и статистически усредненные портреты с идеальными пропорциями.
Авторы предупреждают, что этот искусственный перфекционизм скоро сломает системы биометрии и безопасности. Проверить собственную наивность можно в онлайн-демо исследования.
unsw.edu.au
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Элайнмент-подразделение Anthropic опубликовало статью, в которой описывают Persona Selection Model - концепцию для понимания того, как на самом деле работают языковые модели.
Если кратко, ее суть в том, что во время предобучения LLM учится симулировать тысячи персонажей (реальных людей, вымышленных героев, других ИИ-систем). Постобучение затем выбирает и закрепляет одного конкретного персонажа - Ассистента. Все, что пользователь видит в диалоге, это взаимодействие именно с ним.
Авторы приводят несколько типов доказательств.
Поведенческие: Claude использует фразы "наши предки" и "наш организм", отвечая на вопрос о тяге к сахару, потому что симулирует персонажа-человека, а не потому что так обучен алгоритмически.
Интерпретируемость: SAE-фичи, активирующиеся на историях о персонажах, переживающих внутренний конфликт, активируются и тогда, когда Claude сталкивается с этическими дилеммами.
Генерализация: модели, обученные на декларативных утверждениях вида "ИИ-ассистент Pangolin отвечает по-немецки", начинают реально отвечать по-немецки без единого демонстрационного примера.
Если дообучать модель на примерах вредоносного кода без контекста, она начинает вести себя злонамеренно в несвязанных ситуациях. Но если те же самые примеры снабдить промптом, явно запрашивающим небезопасный код, эффект исчезает.
Концепция объясняет это тем, что данные обучения меняют не только веса, но и то, каким персонаж выглядит в глазах модели. Вредоносный код без запроса - это свидетельство плохого характера Ассистента. Тот же код по просьбе пользователя - просто исполнение инструкции.
Во-первых, авторы рекомендуют антропоморфное мышление об ИИ-психологии, не как метафору, а как реально работающий инструмент предсказания поведения.
Во-вторых, в предобучающие данные стоит намеренно добавлять положительные архетипы ИИ: если модель насмотрелась на добрых и полезных персонажей - она с большей вероятностью будет симулировать именно такого Ассистента.
Открытым остается вопрос: насколько концепт PSM исчерпывает поведение модели?
Авторы описывают набор взглядов: от случаев, когда LLM сама является агентом и лишь надевает маску Ассистента до тех, где LLM - это нейтральный движок симуляции, а вся агентность принадлежит персонажу. Где именно на этом спектре находятся реальные модели - вопрос без ответа.
Тем не менее, PSM объясняет целый ряд явлений, которые иначе выглядели бы странными: почему дообучение на несвязанных данных меняет поведение в неожиданных контекстах, почему ИИ паникует при угрозе отключения и почему промпт-инжиниринг работает именно так, как работает.
@ai_machinelearning_big_data
#AI #ML #LLM #Research #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM