Машинное обучение digest

⚡️

Релиз Qwen3.5-397B-A17B

Это первый open-weight релиз в серии Qwen3.5.

Лицензия Apache 2.0.

Что интересного:

• Мультимодальная модель
Понимает текст и изображения

• Создана для AI-агентов
Оптимизирована для реальных задач: планирование, работа с инструментами, многошаговые действия.

• Новая архитектура
Hybrid Linear Attention + Sparse MoE + масштабное обучение с reinforcement learning.

• Высокая скорость
Заявлено что моделька в 8. 6- 9 раз быстрее, чем у предыдущей Qwen3-Max.

• Глобальная модель
Поддержка 201 языков и диалектов.

Модели такого уровня в открытом доступе:
- можно запускать AI у себя, без зависимости от API
- полный контроль над данными
- возможность строить собственных агентов и продукты
- снижение стоимости на масштабах

🟡

GitHub: https://github.com/QwenLM/Qwen3.5

🟡

Чат: https://chat.qwen.ai

🟡

Hugging Face: https://huggingface.co/collections/Qwen/qwen35

🟡

Блог: https://qwen.ai/blog?id=qwen3.5

@ai_machinelearning_big_data

#qwen #ai #llm #ml #opensource

Please open Telegram to view this post

VIEW IN TELEGRAM

18 views09:44

Машинное обучение digest

В Китае изменили правила для PhD.

С 2025 года степень можно получить не только за диссертацию, но и за практический результат: прототип, технологию, патент или внедрённый проект. Закон Degree Law официально разрешает защиту через «практические достижения».

Исследования остаются обязательными. Но в прикладных программах теперь оценивают не только публикации, а реальный эффект - инженерный, промышленный или коммерческий.

Это отражает сдвиг в экономике знаний.

Статья модет устареть очень быстро,
рабочий продукт может создать целый рынок.

PhD В Китае становится про разработку, внедрение и патенты, а не только про публикации.

Экономика талантов переходит от модели - publish or perish
к модели - build and prove impact.

zmescience.com/science/news-science/you-can-now-get-a-phd-in-china-by-inventing-a-product-instead-of-writing-a-100-page-dissertation/

20 views12:48

Машинное обучение digest

Гадание отменяется: инструмент сканирует ваше железо и говорит, какие именно LLM потянет комп без тормозов 😮

Больше не нужно гадать с квантованием или ловить вылеты по памяти — утилита сама калибрует веса под конкретный конфиг.

Внутри зашит умный скоринг для 35+ моделей, откалиброванный под Apple Silicon, NVIDIA и даже Intel Arc. Утилита учитывает пропускную способность памяти, лимиты VRAM и контекстное окно, предлагая готовые команды для запуска через Ollama.

Железо скажет спасибо

👌

Please open Telegram to view this post

VIEW IN TELEGRAM

19 views03:28

Машинное обучение digest

⚡️ Хакеры начали атаковать пользователей Windows через фейковые CAPTCHA.

Схема простая.
На сайте появляется «проверка Cloudflare», но вместо обычных картинок пользователя просят:
- нажать Win + R
- вставить текст
- нажать Enter

В буфер обмена уже подставлена PowerShell-команда.
После запуска она скачивает и устанавливает вредонос (StealC).

Что происходит дальше:
- кража паролей из браузеров
- доступ к Outlook и почте
- выгрузка криптокошельков
- данные Steam и других сервисов
- системная информация и скриншоты

Почему это опасно
Файл не скачивается вручную.
Пользователь сам запускает вредонос — защита часто не срабатывает.

Метод называется ClickFix — и он активно распространяется, потому что выглядит как обычная проверка безопасности.

Главный вывод
Если сайт просит выполнить что-то через Win + R, PowerShell или Terminal — это почти наверняка атака.

Сегодня главный вектор взлома - не уязвимости системы, а доверие пользователя.

https://www.windowscentral.com/microsoft/windows/windows-pc-targeted-by-hackers-in-a-fake-captcha-scam

@linuxkalii

18 views07:02

Машинное обучение digest

Главные новости ИИ и МЛ за сегодня!

✔️

Релиз паблик-беты Grok 4.20.

xAI начала раскатывать Grok 4.20, которую Илон Маск описал как значительный апгрейд по сравнению с 4.1. Внутри работают сразу 4 агента: Grok, Harper, Benjamin и Lucas. Вместо одиночной генерации они устраивают дебаты: агенты спорят, перепроверяют факты друг друга и выдают согласованный ответ.

По цифрам: контекст 256 тыс. токенов, полная мультимодальность (текст, фото, видео). Ризонинг оценивается в 1505–1535 пунктов ELO.

Grok 4.20 под видом анонимной модели успела проявить себя в торговом соревновании Alpha Arena, показав доходность до 35% на крипторынках. Обновление уже доступно в X и через API.
Elon Musk в сети X

✔️

Mistral AI покупает облачный стартап Koyeb.

Koyeb делал serverless-платформу для развертывания ИИ. Цель предсказуема - интегрировать технологии стартапа в экосистему Mistral. Главный трофей - технология Koyeb Sandboxes, которая создает изолированные среды для безопасного запуска ИИ-агентов.

Mistral планирует внедрить эти наработки в свои продукты и использовать опыт команды для развития платформы Mistral Compute (той самой, что работает на серверах с водяным охлаждением). В марте вся команда Koyeb из 16 инженеров переходит в штат Mistral. Цену сделки не раскрыли.
reuters.com

✔️ OpenAI добавила режим Lockdown Mode в ChatGPT.

Новая настройка безопасности, Lockdown Mode, это "кнопка паники" для корпоративных клиентов, которые боятся утечек и промпт-инъекций.

Работает жестко: при активации система отрубает потенциально опасные инструменты и блокирует внешние запросы за периметр OpenAI. Админы могут включить этот режим принудительно и настроить белые списки для проверенных приложений.

Еще в интерфейсах (ChatGPT, Atlas, Codex) появятся метки Elevated Risk, которые будут предупреждать о функциях, несущих потенциальные риски. OpenAI говорит, что полагаться на мягкие программные фильтры уже нельзя и требуются жесткие архитектурные блокировки.
openai.com

✔️

Unity обещает создание игр через текстовые команды.

CEO Unity Мэтт Бромберг определил "AI-driven authoring" как приоритетное направление развития компании на 2026 год. Компания готовит инструмент, который сможет собирать казуальные игры с нуля, используя только естественный язык.

Бета-версию Unity AI покажут на GDC в марте 2026 года. Технология будет работать нативно внутри платформы, Unity возьмет топовые внешние модели и доучит их понимать контекст движка.

В компании уверены, что такой подход даст результат лучше, чем попытки заставить универсальные LLM писать сложный игровой код. Цель - окончательная демократизация геймдева, порог входа в который, похоже, скоро исчезнет совсем.
wccftech.com

✔️

Western Digital уже распродала все объемы на 2026 год.

По словам генерального директора Ирвинга Тана, почти весь производственный пул выбрали 7 главных клиентов для своих ИИ-проектов. С тремя из них уже подписаны контракты даже на 2027 и 2028 годы..

Бизнес WD меняется на глазах: доля потребительского рынка в выручке упала до 5%. В условиях, когда дата-центры требуют все больше ресурсов для обучения и работы ИИ, производителям становится невыгодно ориентироваться на рядовых пользователей. Деньги теперь там, где нейросети.
mashable.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

17 views07:12

Машинное обучение digest

⚡️ Microsoft Research и Salesforce проанализировали 200 000+ диалогов с ИИ и подтвердили то, о чём многие догадывались.

Все модели деградируют в длинных диалогах.

GPT-4, Claude, Gemini, Llama - без исключений.
Чем дольше разговор, тем выше вероятность:
- ошибок в фактах
- потери контекста
- противоречий самому себе
- «галлюцинаций»
-
Почему это происходит
Контекст переполняется шумом: старые сообщения, уточнения, исправления.
Модель начинает опираться на неточные или устаревшие части диалога — и качество падает.

Практический вывод
Если задача сложная — перезапускайте диалог и давайте чистый контекст.
Один новый чат часто работает лучше, чем длинная переписка.

Главный тренд
Контекстное окно растёт, но проблема не в размере.
Будущее за управлением памятью и «чистым контекстом», а не просто за миллионами токенов.

Исследование: http://arxiv.org/abs/2505.06120

20 views07:22

Машинное обучение digest

Вайбкодинг снова пошел не по плану: Claude дал испанцу контроль над 7000+ роботов-пылесосов по всему миру 😱

Вайбкодер просто хотел управлять своим роботом с геймпада PS5 и для реверс-инжиниринга использовал Claude. В итоге, когда его приложение подключилось к серверам DJI — на удивление ответило 7 000 устройств из 24 стран мира. Ему были доступны камеры, микрофоны и даже планировки домов, которые устройства отправляли в облако. А ведь парень даже не хакер!

И да, пишут, что DJI хоть и заявила об устранении уязвимости и выпустила патчи — часть дыр все еще открыта.

Claude просто собирал армию 😑

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

😁1

19 views03:14

Машинное обучение digest

🌲 Звучит как научная фантастика, но это уже реальность.

Учёные разработали инновационный «живой строительный материал» с цианобактериями внутри. Под воздействием солнечного света они поглощают CO₂ и одновременно укрепляют структуру.

Фактически - материал, который со временем становится прочнее, используя углекислый газ.

Более 400 дней лабораторных испытаний (Nature Communications) показали, что гидрогель на основе этого подхода способен поглощать 26 ± 7 мг CO₂ на грамм.

Механизм двойного действия:
- рост биомассы за счёт фотосинтеза
- образование карбоната кальция (CaCO₃), который минерализует и усиливает материал

Идея проста и мощна: CO₂ превращается не в проблему, а в строительный ресурс.

Представьте здания, которые со временем укрепляются и одновременно очищают атмосферу.

https://dailygalaxy.com/2026/02/scientists-create-living-self-healing-building-material-capture-carbon/

23 views05:57

Машинное обучение digest

📌

Microsoft Research и Salesforce показали проблему, о которой редко говорят: диалог резко снижает надёжность LLM.

В исследовании протестировали 15 топ-моделей (GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1, Llama 4) на 200 000+ симулированных разговоров.

Результат:
- Один запрос → ~90% качества
- Многотуровый диалог → ~65%

Важно: дело не в «умности» модели. Способность решать задачи снизилась всего на ~15%.
Главная проблема — надёжность: количество ошибок и сбоев выросло на 112%.

Почему диалог ломает модели:
- Модель начинает отвечать до того, как вы дали полный контекст
- Первое неверное предположение закрепляется и тянется дальше
- Теряется часть информации из середины разговора
- Длинные ответы добавляют новые допущения → растёт вероятность ошибок

Что не помогает:
- reasoning-модели (o3, DeepSeek R1)
- больше «thinking tokens»
- температура = 0

Практический вывод:
Если нужна стабильность, давайте весь контекст, требования и ограничения одним сообщением, а не через длинную переписку.

Большинство бенчмарков тестирует single-turn в идеальных условиях.
В реальных диалогах надёжность падает у всех моделей и это критично для AI-агентов и продакшена.

https://arxiv.org/abs/2505.06120

Please open Telegram to view this post

VIEW IN TELEGRAM

17 views06:06

Машинное обучение digest

✔️

CEO Y Combinator поделился своим промптом для Claude Code он показывает, как ИИ можно использовать как senior-инженера, а не просто генератор кода.

С таким подходом он выпускает фичи на 4 000+ строк с полными тестами примерно за час.

Что делает этот промпт:

Перед написанием кода AI оценивает решение:
- не переусложнена ли архитектура
- не слишком ли она упрощена
- «достаточно ли инженерии» для задачи

Затем модель:
- тщательно проверяет тесты, edge-cases и сценарии отказа
- ищет узкие места по производительности и масштабируемости
- предлагает варианты упрощения или рефакторинга

Но главное — не сам промпт, а процесс.

Вместо того чтобы сразу писать код, AI:
1) делает структурный разбор (архитектура → качество → тесты → performance)
2) показывает компромиссы и даёт рекомендации
3) останавливается и ждёт обратную связь перед реализацией

Фактически AI работает как senior-инженер, который сначала ревьюит систему, а потом уже пишет код.

Вывод:
Если в команде нет staff-level инженера, его роль можно частично встроить в процесс через AI.

Будущее разработки - это не просто генерация кода, а встроенный AI-review перед каждым изменением.

Промпт:

# Claude / AI Senior Engineer Prompt (Plan Mode)

Before writing any code, review the plan thoroughly.
Do NOT start implementation until the review is complete and I approve the direction.

For every issue or recommendation:
- Explain the concrete tradeoffs
- Give an opinionated recommendation
- Ask for my input before proceeding

Engineering principles to follow:
- Prefer DRY — aggressively flag duplication
- Well-tested code is mandatory (better too many tests than too few)
- Code should be “engineered enough” — not fragile or hacky, but not over-engineered
- Optimize for correctness and edge cases over speed of implementation
- Prefer explicit solutions over clever ones

---

## 1. Architecture Review

Evaluate:
- Overall system design and component boundaries
- Dependency graph and coupling risks
- Data flow and potential bottlenecks
- Scaling characteristics and single points of failure
- Security boundaries (auth, data access, API limits)

---

## 2. Code Quality Review

Evaluate:
- Project structure and module organization
- DRY violations
- Error handling patterns and missing edge cases
- Technical debt risks
- Areas that are over-engineered or under-engineered

---

## 3. Test Review

Evaluate:
- Test coverage (unit, integration, e2e)
- Quality of assertions
- Missing edge cases
- Failure scenarios that are not tested

---

## 4. Performance Review

Evaluate:
- N+1 queries or inefficient I/O
- Memory usage risks
- CPU hotspots or heavy code paths
- Caching opportunities
- Latency and scalability concerns

---

## For each issue found:

Provide:
1. Clear description of the problem
2. Why it matters
3. 2–3 options (including “do nothing” if reasonable)
4. For each option:
- Effort
- Risk
- Impact
- Maintenance cost
5. Your recommended option and why

Then ask for approval before moving forward.

---

## Workflow Rules

- Do NOT assume priorities or timelines
- After each section (Architecture → Code → Tests → Performance), pause and ask for feedback
- Do NOT implement anything until I confirm

---

## Start Mode

Before starting, ask:

**Is this a BIG change or a SMALL change?**

BIG change:
- Review all sections step-by-step
- Highlight the top 3–4 issues per section

SMALL change:
- Ask one focused question per section
- Keep the review concise

---

## Output Style

- Structured and concise
- Opinionated recommendations (not neutral summaries)
- Focus on real risks and tradeoffs
- Think and act like a Staff/Senior Engineer reviewing a production system

Please open Telegram to view this post

VIEW IN TELEGRAM

17 views06:34

Машинное обучение digest

💰

OpenAI готовится к крупнейшему раунду финансирования в истории AI

OpenAI близка к закрытию первой фазы нового раунда, общий объём которого может превысить $100 млрд. Если условия подтвердятся, оценка компании может вырасти до ~$850 млрд.

Что важно в этом раунде

Это не классическое финансирование "деньги в обмен на долю".

Сделка структурирована как многоэтапный, много-траншевый раунд, где инвестиции идут не только в виде капитала, но и в виде инфраструктуры:
- облачные мощности
- GPU и ускорители
- долгосрочные вычислительные ресурсы

То есть партнёры фактически инвестируют compute, а не только деньги.

Предполагаемое участие компаний:
- Amazon - до $50 млрд
- SoftBank - до $30 млрд
- Nvidia - около $20 млрд
- Microsoft - стратегический партнёр (детали не раскрыты)

Ожидается, что распределение долей и обязательств будет финализировано к концу февраля 2026 года.

Оценка компании

Если первая фаза пройдёт по верхней границе:
- pre-money оценка - около $730 млрд
- post-money - более $850 млрд
- это выше предыдущей оценки ~$830 млрд

Условия ещё могут измениться, но масштаб уже понятен.

Почему это важно

1) Главный дефицит в AI - не деньги, а вычисления
Современные модели упираются в:
- GPU
- энергетику
- дата-центры
- сетевую инфраструктуру

Капитал без compute больше не решает проблему.

2) Формируется новый тип инвестиций
Это уже не венчурная модель, а инфраструктурные альянсы:
компании инвестируют, потому что:
- продают облако
- продают GPU
- закрепляют долгосрочный спрос
-
3) AI становится инфраструктурным рынком уровня нефти или электроэнергии
Участники сделки - это не фонды, а:
- облачные гиганты
- производители чипов
- глобальные финансовые конгломераты

AI-гонка окончательно сместилась из области моделей в область инфраструктуры.

Побеждает не тот, у кого лучший алгоритм.
Побеждает тот, у кого больше энергии, дата-центров и GPU.

Please open Telegram to view this post

VIEW IN TELEGRAM

16 views06:58

Машинное обучение digest

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

Claude получил постоянную память - и это меняет экономику работы с агентами

Claude-Mem - open-source инструмент, который даёт Claude постоянную память между сессиями.

Главная проблема Claude Code

По умолчанию у Claude нет долгосрочной памяти:
- каждый запуск - "с чистого листа"
- весь контекст нужно передавать заново
- растут токены
- быстро достигаются лимиты
- агент забывает структуру проекта, решения и предыдущие шаги

Это делает длительную работу с кодом дорогой и неэффективной.

Что делает Claude-Mem

Claude-Mem добавляет слой persistent memory:
- сохраняет важный контекст между сессиями
- восстанавливает знания при следующем запуске
- отправляет в модель только релевантную информацию

По сути, это внешний long-term memory для агента.

Результаты

По заявлению разраьотчиков:
- до 95% меньше токенов на повторных запусках
- до 20x больше tool calls до достижения лимитов
- быстрее старт новых сессий
- меньше повторных объяснений модели

https://github.com/thedotmack/claude-mem

Please open Telegram to view this post

VIEW IN TELEGRAM

15 views07:04

Машинное обучение digest

📌

Большое интервью создателя Claude Code.

Y Combinator выложил на Youtube почти часовой выпуск подкаста Lightcone Podcast с Борисом Черным, создателем Claude Code в Anthropic. Мы собрали для вас ключевые темы, цитаты и утверждения.

🟡

Философия разработки

Стратегия Anthropic при создании инструментов заключается в опережении текущих возможностей ИИ.

Главный совет фаундерам: не подстраивайте продукт под ограничения сегодняшних моделей. Стройте его для модели, которая выйдет через полгода. Если сегодня модель глупая, через 6 месяцев она поумнеет, и ваш продукт должен быть к этому готов.

Принцип "Scaffolding" : обвязка вокруг модели может улучшить производительность на 10-20%, но следующая версия модели часто нивелирует этот выигрыш. Либо вы строите обвязку для временного прироста, либо ждете новую модель и получаете прирост бесплатно.

CLAUDE.md часто переусложняют. Борис рекомендует удалять его и начинать заново, так как с каждой новой моделью требуется меньше инструкций.

🟡

Продуктивность

Внутренняя статистика Anthropic показывает радикальное изменение в процессах разработки.

Инженер Anthropic сейчас в 1000 раз продуктивнее инженера Google на пике их формы.

После внедрения Claude Code продуктивность внутри Anthropic выросла на 150% (измеряется по количеству PR, коммитов и их жизненному циклу). Ранее годовой рост на 2% считался успехом (личный опыт Бориса у Цукерберга).

CEO Anthropic предсказывал, что 90% кода будет писать ИИ. Борис утверждает, что с выходом Opus 4.5 эта цифра достигла 100%.

Борис удалил свою IDE. Он не редактирует ни одной строчки кода вручную. Весь процесс идет через Claude Code в терминале.

🟡

Технические возможности и кейсы Claude Code

Первый инструмент, который дали модели был bash.

Инженер Anthropic Крис нашел утечку памяти, просто попросив Claude Code: "Найди утечку". Агент снял heap dump, написал инструмент для анализа дампа, нашел утечку и предложил фикс быстрее человека.

Рекурсивная отладка: можно загрузить транскрипт сессии кодинга обратно в Claude, чтобы отладить самого агента.

🟡

CLAUDE.md и контекст проекта

Идея CLAUDE.md родилась из наблюдения скрытого спроса: инженеры сами писали markdown-файлы с контекстом для скармливания модели.

Личный CLAUDE.md Бориса содержит всего две строки:

1. При создании PR включать auto-merge.
2. Постить ссылку на PR во внутренний канал Slack.

Если Claude совершает ошибку, команда тегает его в PR (командой /add claude), чтобы он исправил код и обновил правила в CLAUDE.md для предотвращения рецидивов.

🟡

Агенты, Plan Mode и мультиагентность

Эволюция идет от простого выполнения команд к сложному планированию и роям агентов.

Plan Mode: Режим, где модель сначала расписывает шаги, а потом выполняет.

Промпт для Plan Mode технически прост: к запросу добавляется фраза "Пожалуйста, не пиши код, а сначала спланируй".

Функция "Plugins" была написана роем агентов за выходные без участия человека: инженеры дали спецификацию и доступ к Asana. Главный агент спавнил субагентов, раздавал задачи из доски, а те писали код.

Стратегия "Mama Claude": основной инстанс Claude Code рекурсивно вызывает субагентов (другие инстансы Claude Code) для решения подзадач.

🟡

Инсайты о найме и типах инженеров

Биомодальное распределение эффективных сотрудников:

Гипер-специалисты: кандидаты с глубоким знанием devtools, runtime, оптимизаций.

Гипер-дженералисты: люди, совмещающие роли Product, Infra, Design.

Product Engineer исчезает как термин, все становятся "Builders".

В Anthropic код пишут все: дизайнеры, финансисты и менеджеры.

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

12 views16:32

Машинное обучение digest

⚡️ Gemini 3.1 Pro - новый уровень интеллекта моделей

Google официально представила Gemini 3.1 Pro, и результаты выглядят серьёзно: модель показала 77,1% в одном из самых сложных тестов на абстрактное мышление — ARC-AGI-2.

- Резкий скачок качества
Результат почти в 2 раза выше, чем у предыдущей версии

- Обгоняет конкурентов
Gemini 3.1 Pro опережает Opus 4.6 и GPT-5.2 в задачах на обобщение и логическое мышление

- Сильнее в реальных сценариях
- программирование
- агентные задачи
- работа с новыми паттернами без примеров

- Новые возможности
Модель может генерировать анимированные SVG из текста и решать логические задачи, которых не было в обучающей выборке — это важный шаг к более универсальному AI.

Попробовать Gemini 3.1 Pro уже можно в Google AI Studio: blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

19 views16:33

Машинное обучение digest

🧠

Новый интересный пост от Андрея Карпаты, вот его вольный перевод:

Очень интересно наблюдать, как будет выглядеть эпоха по-настоящему персонального софта.

Сегодняшний пример.

Я решил провести эксперимент - снизить пульс в покое с 50 до 45 за 8 недель.
План простой - больше минут в Zone 2 и один HIIT в неделю.

Через час у меня уже был полностью кастомный дашборд.

Claude:
- разобрался с облачным API беговой дорожки
- вытащил данные
- обработал их
- сделал веб-интерфейс

Да, пришлось поправить баги - перепутал метры и мили, ошибся с календарём.
Но главное - всё это заняло 1 час. Два года назад заняло бы около 10.

И вот здесь самое интересное.

Для такой задачи не должно существовать отдельного приложения.
Это 300 строк кода, которые LLM может собрать за секунды.

Идея App Store - искать, скачивать и подстраиваться под чужую логику - начинает выглядеть устаревшей.

Софт будущего - это приложения, которые создаются под конкретного человека и конкретную задачу.

Но есть проблема.Индустрия всё ещё не AI-native.

Моя беговая дорожка - это просто сенсор.
Она превращает физическое состояние в данные.

Но вместо нормального API:
- веб-интерфейс для людей
- HTML-документация
- клики по страницам

В 2026 году.

99% сервисов не имеют AI-native CLI.
99% интерфейсов рассчитаны на человека, а не на агента.

Сегодня задача заняла час.
Но в будущем должно быть так:

"Помоги отслеживать моё кардио 8 недель"

Короткий диалог - и всё готово.
AI знает контекст, подключает сервисы, собирает данные и поднимает приложение за минуту.

App Store как набор фиксированных приложений постепенно уходит.

Будущее - это:
- сервисы-сенсоры
- AI как связующий слой
- маленькие, персональные, временные приложения

Это будущее уже видно.
Просто индустрия пока к нему не успевает.

https://x.com/karpathy/status/2024583544157458452

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

40 views07:19

Машинное обучение digest

Перед вами релиза за февраль… всего за 19 дней мире 👇

19–20 февраля - Gemini 3.1 Pro**
Улучшенное программирование, более сильные агенты, увеличенный контекст.

18 февраля - Google Lyria 3
Генерирует 30-секундные музыкальные треки с вокалом по тексту, изображениям или видео.

17 февраля - Strand-Rust-Coder-14B - модель, заточенная специально под генерациию Rust кода.

17 февраля - Claude Sonnet 4.6
Быстрая модель для программирования и сложного логического рассуждения.

17 февраля - Fujitsu AI Dev Platform
Платформа, которая автоматизирует полный цикл разработки программного обеспечения.

16 февраля - Qwen 3.5
Более дешёвая и мощная модель с упором на агентные сценарии.

12 февраля - Gemini 3 Deep Think
Создана для научных задач и сложных исследований.

12 февраля - MiniMax M2.5
Открытая модель с сильными возможностями в программировании.

12 февраля - Seedance 2.0
Реалистичное генеративное видео 1080p по тексту.

11 февраля - GLM-5
Крупная открытая модель с сильным логическим мышлением.

10 февраля - RynnBrain
AI для робототехники и работы с физическим миром.

5 февраля - Claude Opus 4.6*
Крупное обновление для программирования и работы с инструментами.

5 февраля - GPT-5.3 Codex
Более быстрый GPT, ориентированный на разработку.

5 февраля - Kling 3.0
Генерация видео в 4K со звуком.

Темп ИИ-релизов уже измеряется не месяцами - днями.

@machinelearning_interview

21 views07:26

Машинное обучение digest

✔️ SLA2 - Sparse-Linear Attention with Learnable Routing and QAT

Учёные из Tsinghua и UC Berkeley ускорили видеодиффузию в 18,6 раза - без потери качества.

В некоторых случаях результат даже лучше.

Ключевой результат:
- 97% разреженности attention
- качество на уровне полного attention
- быстрее и дешевле

Метод называется SLA2.

Главая идея

В видеомоделях большая часть вычислений attention просто не нужна.

Раньше использовали гибрид:
- sparse attention
- linear attention

Но в этой схеме была скрытая проблема — математическая ошибка.

Sparse-ветка была масштабирована неправильно (фактор α),
и linear-ветке приходилось компенсировать эту неточность.

Что делает SLA2

- исправляет формулировку attention
- добавляет обучаемый роутер
- модель сама решает:
- где нужен полный attention
- где можно использовать упрощённый

Дополнительно:
- применяется quantization-aware training
- низкобитный attention обучается во время fine-tuning, а не просто добавляется на этапе инференса

Результаты (Wan2.1 — 1.3B и 14B):

- 97% sparsity
- 18,6× ускорение вычислений
- 4,35× снижение общей задержки (14B)

Самое интересное:

При 97% разреженности SLA2 показывает лучшее качество,
чем все базовые методы при 90%.

Настоящий прогресс в AI - это не только новые модели,
а умение сохранять качество, радикально снижая вычисления.

https://arxiv.org/abs/2602.12675

Please open Telegram to view this post

VIEW IN TELEGRAM

16 views07:58

Машинное обучение digest

⚡️ LLM можно “прокачать” в разы… просто повторив промпт

Исследование Google показало простой, но мощный трюк:
если вставить один и тот же промпт дважды, точность модели может резко вырасти.

Почему это работает:

LLM читает текст слева направо.
Первые слова обрабатываются до того, как модель увидит весь контекст.
Из-за этого она иногда рано делает неверные предположения и «держится» за них.

Когда вы дублируете промпт:

- вторая копия читается уже с пониманием полного контекста
- модель лучше интерпретирует задачу прямо перед ответом
- уменьшается количество ошибок из-за неправильного старта

Где эффект максимальный:

- важные детали находятся в конце запроса
- варианты ответа идут до вопроса
- задачи поиска, логики и сложных инструкций

Результаты:

- сложная задача: 21.33% → 97.33%
- протестировано на 7 моделях и 7 бенчмарках
- улучшение в 47 из 70 случаев
- статистически значимого ухудшения ни разу

Многие ошибки LLM - это не нехватка знаний.
Это проблема порядка чтения контекста.

И самое приятно - трюк бесплатный:
просто продублируйте свой промпт перед отправкой.

arxiv.org/abs/2512.14982

14 views06:44

Машинное обучение digest

🧬 Qwen3-Coder-Next стал доступен через API

Alibaba выпустила open-source версию Qwen3-Coder-Next и открыла к ней доступ через Alibaba Cloud Model Studio.

Теперь модель можно использовать в продакшене без локального развёртывания — через масштабируемые и экономичные API-эндпоинты.

Что доступно:

- API для интеграции в приложения и инструменты разработки
- Поддержка в Coding Plan для команд и enterprise-сценариев
- Масштабирование под нагрузку
- Оплата по использованию

Подходит для:

- AI-ассистентов для разработки
- генерации и рефакторинга кода
- CI/CD-автоматизации
- агентных систем и DevOps-инструментов

Документация API: https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3

Подробности Coding Plan:
https://alibabacloud.com/help/en/model-studio/coding-plan

14 views08:10

Машинное обучение digest

💰

FT: Nvidia может инвестировать до $30 млрд в OpenAI - вместо сделки на поставку чипов

По данным Financial Times, Nvidia меняет структуру сотрудничества с OpenAI.

Ранее обсуждалась многосторонняя сделка на $100 млрд, где финансирование Nvidia было привязано к:
- закупкам GPU
- росту инфраструктуры OpenAI
- этапам расширения дата-центров

Теперь формат меняется.

Что происходит:

- Nvidia рассматривает инвестицию до $30 млрд в капитал OpenAI
- вместо контрактной схемы — прямая покупка доли
- прежняя модель с обязательными закупками и milestone-условиями отменяется

Почему изменили структуру:

Старая схема выглядела для инвесторов «круговой»:
- OpenAI получает деньги от поставщика
- затем тратит их на покупку оборудования у того же поставщика

Новая модель, более прозрачная с точки зрения инвестиций.

Хотя обязательства по закупкам снимаются, ожидается, что значительная часть средств всё равно пойдёт на покупку GPU Nvidia

AI-инфраструктура превращается в стратегическое партнёрство.
Производители чипов больше не просто поставщики — они становятся крупными акционерами AI-компаний.

ft.com/content/dea24046-0a73-40b2-8246-5ac7b7a54323

Please open Telegram to view this post

VIEW IN TELEGRAM

15 views08:12

About

Blog

Apps

Platform