Машинное обучение digest
60 subscribers
1.7K photos
225 videos
939 links
Download Telegram
⚡️Релиз Qwen3.5-397B-A17B

Это первый open-weight релиз в серии Qwen3.5.

Лицензия Apache 2.0.

Что интересного:

• Мультимодальная модель
Понимает текст и изображения

• Создана для AI-агентов
Оптимизирована для реальных задач: планирование, работа с инструментами, многошаговые действия.

• Новая архитектура
Hybrid Linear Attention + Sparse MoE + масштабное обучение с reinforcement learning.

• Высокая скорость
Заявлено что моделька в 8. 6- 9 раз быстрее, чем у предыдущей Qwen3-Max.

• Глобальная модель
Поддержка 201 языков и диалектов.

Модели такого уровня в открытом доступе:
- можно запускать AI у себя, без зависимости от API
- полный контроль над данными
- возможность строить собственных агентов и продукты
- снижение стоимости на масштабах

🟡GitHub: https://github.com/QwenLM/Qwen3.5
🟡Чат: https://chat.qwen.ai
🟡Hugging Face: https://huggingface.co/collections/Qwen/qwen35
🟡Блог: https://qwen.ai/blog?id=qwen3.5

@ai_machinelearning_big_data

#qwen #ai #llm #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
В Китае изменили правила для PhD.

С 2025 года степень можно получить не только за диссертацию, но и за практический результат: прототип, технологию, патент или внедрённый проект. Закон Degree Law официально разрешает защиту через «практические достижения».

Исследования остаются обязательными. Но в прикладных программах теперь оценивают не только публикации, а реальный эффект - инженерный, промышленный или коммерческий.

Это отражает сдвиг в экономике знаний.

Статья модет устареть очень быстро,
рабочий продукт может создать целый рынок.

PhD В Китае становится про разработку, внедрение и патенты, а не только про публикации.


Экономика талантов переходит от модели - publish or perish
к модели - build and prove impact.

zmescience.com/science/news-science/you-can-now-get-a-phd-in-china-by-inventing-a-product-instead-of-writing-a-100-page-dissertation/
Гадание отменяется: инструмент сканирует ваше железо и говорит, какие именно LLM потянет комп без тормозов 😮

Больше не нужно гадать с квантованием или ловить вылеты по памяти — утилита сама калибрует веса под конкретный конфиг.

Внутри зашит умный скоринг для 35+ моделей, откалиброванный под Apple Silicon, NVIDIA и даже Intel Arc. Утилита учитывает пропускную способность памяти, лимиты VRAM и контекстное окно, предлагая готовые команды для запуска через Ollama.

Железо скажет спасибо 👌
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Хакеры начали атаковать пользователей Windows через фейковые CAPTCHA.

Схема простая.
На сайте появляется «проверка Cloudflare», но вместо обычных картинок пользователя просят:
- нажать Win + R
- вставить текст
- нажать Enter

В буфер обмена уже подставлена PowerShell-команда.
После запуска она скачивает и устанавливает вредонос (StealC).

Что происходит дальше:
- кража паролей из браузеров
- доступ к Outlook и почте
- выгрузка криптокошельков
- данные Steam и других сервисов
- системная информация и скриншоты

Почему это опасно
Файл не скачивается вручную.
Пользователь сам запускает вредонос — защита часто не срабатывает.

Метод называется ClickFix — и он активно распространяется, потому что выглядит как обычная проверка безопасности.

Главный вывод
Если сайт просит выполнить что-то через Win + R, PowerShell или Terminal — это почти наверняка атака.

Сегодня главный вектор взлома - не уязвимости системы, а доверие пользователя.

https://www.windowscentral.com/microsoft/windows/windows-pc-targeted-by-hackers-in-a-fake-captcha-scam

@linuxkalii
Главные новости ИИ и МЛ за сегодня!

✔️ Релиз паблик-беты Grok 4.20.

xAI начала раскатывать Grok 4.20, которую Илон Маск описал как значительный апгрейд по сравнению с 4.1. Внутри работают сразу 4 агента: Grok, Harper, Benjamin и Lucas. Вместо одиночной генерации они устраивают дебаты: агенты спорят, перепроверяют факты друг друга и выдают согласованный ответ.

По цифрам: контекст 256 тыс. токенов, полная мультимодальность (текст, фото, видео). Ризонинг оценивается в 1505–1535 пунктов ELO.

Grok 4.20 под видом анонимной модели успела проявить себя в торговом соревновании Alpha Arena, показав доходность до 35% на крипторынках. Обновление уже доступно в X и через API.
Elon Musk в сети X

✔️ Mistral AI покупает облачный стартап Koyeb.

Koyeb делал serverless-платформу для развертывания ИИ. Цель предсказуема - интегрировать технологии стартапа в экосистему Mistral. Главный трофей - технология Koyeb Sandboxes, которая создает изолированные среды для безопасного запуска ИИ-агентов.

Mistral планирует внедрить эти наработки в свои продукты и использовать опыт команды для развития платформы Mistral Compute (той самой, что работает на серверах с водяным охлаждением). В марте вся команда Koyeb из 16 инженеров переходит в штат Mistral. Цену сделки не раскрыли.
reuters.com

✔️ OpenAI добавила режим Lockdown Mode в ChatGPT.

Новая настройка безопасности, Lockdown Mode, это "кнопка паники" для корпоративных клиентов, которые боятся утечек и промпт-инъекций.

Работает жестко: при активации система отрубает потенциально опасные инструменты и блокирует внешние запросы за периметр OpenAI. Админы могут включить этот режим принудительно и настроить белые списки для проверенных приложений.

Еще в интерфейсах (ChatGPT, Atlas, Codex) появятся метки Elevated Risk, которые будут предупреждать о функциях, несущих потенциальные риски. OpenAI говорит, что полагаться на мягкие программные фильтры уже нельзя и требуются жесткие архитектурные блокировки.
openai.com

✔️ Unity обещает создание игр через текстовые команды.

CEO Unity Мэтт Бромберг определил "AI-driven authoring" как приоритетное направление развития компании на 2026 год. Компания готовит инструмент, который сможет собирать казуальные игры с нуля, используя только естественный язык.

Бета-версию Unity AI покажут на GDC в марте 2026 года. Технология будет работать нативно внутри платформы, Unity возьмет топовые внешние модели и доучит их понимать контекст движка.

В компании уверены, что такой подход даст результат лучше, чем попытки заставить универсальные LLM писать сложный игровой код. Цель - окончательная демократизация геймдева, порог входа в который, похоже, скоро исчезнет совсем.
wccftech.com

✔️ Western Digital уже распродала все объемы на 2026 год.

По словам генерального директора Ирвинга Тана, почти весь производственный пул выбрали 7 главных клиентов для своих ИИ-проектов. С тремя из них уже подписаны контракты даже на 2027 и 2028 годы..

Бизнес WD меняется на глазах: доля потребительского рынка в выручке упала до 5%. В условиях, когда дата-центры требуют все больше ресурсов для обучения и работы ИИ, производителям становится невыгодно ориентироваться на рядовых пользователей. Деньги теперь там, где нейросети.
mashable.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Microsoft Research и Salesforce проанализировали 200 000+ диалогов с ИИ и подтвердили то, о чём многие догадывались.

Все модели деградируют в длинных диалогах.

GPT-4, Claude, Gemini, Llama - без исключений.
Чем дольше разговор, тем выше вероятность:
- ошибок в фактах
- потери контекста
- противоречий самому себе
- «галлюцинаций»
-
Почему это происходит
Контекст переполняется шумом: старые сообщения, уточнения, исправления.
Модель начинает опираться на неточные или устаревшие части диалога — и качество падает.

Практический вывод
Если задача сложная — перезапускайте диалог и давайте чистый контекст.
Один новый чат часто работает лучше, чем длинная переписка.

Главный тренд
Контекстное окно растёт, но проблема не в размере.
Будущее за управлением памятью и «чистым контекстом», а не просто за миллионами токенов.

Исследование: http://arxiv.org/abs/2505.06120
Вайбкодинг снова пошел не по плану: Claude дал испанцу контроль над 7000+ роботов-пылесосов по всему миру 😱

Вайбкодер просто хотел управлять своим роботом с геймпада PS5 и для реверс-инжиниринга использовал Claude. В итоге, когда его приложение подключилось к серверам DJI — на удивление ответило 7 000 устройств из 24 стран мира. Ему были доступны камеры, микрофоны и даже планировки домов, которые устройства отправляли в облако. А ведь парень даже не хакер!

И да, пишут, что DJI хоть и заявила об устранении уязвимости и выпустила патчи — часть дыр все еще открыта.

Claude просто собирал армию 😑

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1
🌲 Звучит как научная фантастика, но это уже реальность.

Учёные разработали инновационный «живой строительный материал» с цианобактериями внутри. Под воздействием солнечного света они поглощают CO₂ и одновременно укрепляют структуру.

Фактически - материал, который со временем становится прочнее, используя углекислый газ.

Более 400 дней лабораторных испытаний (Nature Communications) показали, что гидрогель на основе этого подхода способен поглощать 26 ± 7 мг CO₂ на грамм.

Механизм двойного действия:
- рост биомассы за счёт фотосинтеза
- образование карбоната кальция (CaCO₃), который минерализует и усиливает материал

Идея проста и мощна: CO₂ превращается не в проблему, а в строительный ресурс.

Представьте здания, которые со временем укрепляются и одновременно очищают атмосферу.

https://dailygalaxy.com/2026/02/scientists-create-living-self-healing-building-material-capture-carbon/
📌 Microsoft Research и Salesforce показали проблему, о которой редко говорят: диалог резко снижает надёжность LLM.

В исследовании протестировали 15 топ-моделей (GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1, Llama 4) на 200 000+ симулированных разговоров.

Результат:
- Один запрос → ~90% качества
- Многотуровый диалог → ~65%

Важно: дело не в «умности» модели. Способность решать задачи снизилась всего на ~15%.
Главная проблема — надёжность: количество ошибок и сбоев выросло на 112%.

Почему диалог ломает модели:
- Модель начинает отвечать до того, как вы дали полный контекст
- Первое неверное предположение закрепляется и тянется дальше
- Теряется часть информации из середины разговора
- Длинные ответы добавляют новые допущения → растёт вероятность ошибок

Что не помогает:
- reasoning-модели (o3, DeepSeek R1)
- больше «thinking tokens»
- температура = 0

Практический вывод:
Если нужна стабильность, давайте весь контекст, требования и ограничения одним сообщением, а не через длинную переписку.

Большинство бенчмарков тестирует single-turn в идеальных условиях.
В реальных диалогах надёжность падает у всех моделей и это критично для AI-агентов и продакшена.

https://arxiv.org/abs/2505.06120
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ CEO Y Combinator поделился своим промптом для Claude Code он показывает, как ИИ можно использовать как senior-инженера, а не просто генератор кода.

С таким подходом он выпускает фичи на 4 000+ строк с полными тестами примерно за час.

Что делает этот промпт:

Перед написанием кода AI оценивает решение:
- не переусложнена ли архитектура
- не слишком ли она упрощена
- «достаточно ли инженерии» для задачи

Затем модель:
- тщательно проверяет тесты, edge-cases и сценарии отказа
- ищет узкие места по производительности и масштабируемости
- предлагает варианты упрощения или рефакторинга

Но главное — не сам промпт, а процесс.

Вместо того чтобы сразу писать код, AI:
1) делает структурный разбор (архитектура → качество → тесты → performance)
2) показывает компромиссы и даёт рекомендации
3) останавливается и ждёт обратную связь перед реализацией

Фактически AI работает как senior-инженер, который сначала ревьюит систему, а потом уже пишет код.

Вывод:
Если в команде нет staff-level инженера, его роль можно частично встроить в процесс через AI.

Будущее разработки - это не просто генерация кода, а встроенный AI-review перед каждым изменением.

Промпт:
# Claude / AI Senior Engineer Prompt (Plan Mode)

Before writing any code, review the plan thoroughly.
Do NOT start implementation until the review is complete and I approve the direction.

For every issue or recommendation:
- Explain the concrete tradeoffs
- Give an opinionated recommendation
- Ask for my input before proceeding

Engineering principles to follow:
- Prefer DRY — aggressively flag duplication
- Well-tested code is mandatory (better too many tests than too few)
- Code should be “engineered enough” — not fragile or hacky, but not over-engineered
- Optimize for correctness and edge cases over speed of implementation
- Prefer explicit solutions over clever ones

---

## 1. Architecture Review

Evaluate:
- Overall system design and component boundaries
- Dependency graph and coupling risks
- Data flow and potential bottlenecks
- Scaling characteristics and single points of failure
- Security boundaries (auth, data access, API limits)

---

## 2. Code Quality Review

Evaluate:
- Project structure and module organization
- DRY violations
- Error handling patterns and missing edge cases
- Technical debt risks
- Areas that are over-engineered or under-engineered

---

## 3. Test Review

Evaluate:
- Test coverage (unit, integration, e2e)
- Quality of assertions
- Missing edge cases
- Failure scenarios that are not tested

---

## 4. Performance Review

Evaluate:
- N+1 queries or inefficient I/O
- Memory usage risks
- CPU hotspots or heavy code paths
- Caching opportunities
- Latency and scalability concerns

---

## For each issue found:

Provide:
1. Clear description of the problem
2. Why it matters
3. 2–3 options (including “do nothing” if reasonable)
4. For each option:
- Effort
- Risk
- Impact
- Maintenance cost
5. Your recommended option and why

Then ask for approval before moving forward.

---

## Workflow Rules

- Do NOT assume priorities or timelines
- After each section (Architecture → Code → Tests → Performance), pause and ask for feedback
- Do NOT implement anything until I confirm

---

## Start Mode

Before starting, ask:

**Is this a BIG change or a SMALL change?**

BIG change:
- Review all sections step-by-step
- Highlight the top 3–4 issues per section

SMALL change:
- Ask one focused question per section
- Keep the review concise

---

## Output Style

- Structured and concise
- Opinionated recommendations (not neutral summaries)
- Focus on real risks and tradeoffs
- Think and act like a Staff/Senior Engineer reviewing a production system
Please open Telegram to view this post
VIEW IN TELEGRAM
💰 OpenAI готовится к крупнейшему раунду финансирования в истории AI

OpenAI близка к закрытию первой фазы нового раунда, общий объём которого может превысить $100 млрд. Если условия подтвердятся, оценка компании может вырасти до ~$850 млрд.

Что важно в этом раунде

Это не классическое финансирование "деньги в обмен на долю".

Сделка структурирована как многоэтапный, много-траншевый раунд, где инвестиции идут не только в виде капитала, но и в виде инфраструктуры:
- облачные мощности
- GPU и ускорители
- долгосрочные вычислительные ресурсы

То есть партнёры фактически инвестируют compute, а не только деньги.

Предполагаемое участие компаний:
- Amazon - до $50 млрд
- SoftBank - до $30 млрд
- Nvidia - около $20 млрд
- Microsoft - стратегический партнёр (детали не раскрыты)

Ожидается, что распределение долей и обязательств будет финализировано к концу февраля 2026 года.

Оценка компании

Если первая фаза пройдёт по верхней границе:
- pre-money оценка - около $730 млрд
- post-money - более $850 млрд
- это выше предыдущей оценки ~$830 млрд

Условия ещё могут измениться, но масштаб уже понятен.

Почему это важно

1) Главный дефицит в AI - не деньги, а вычисления
Современные модели упираются в:
- GPU
- энергетику
- дата-центры
- сетевую инфраструктуру

Капитал без compute больше не решает проблему.

2) Формируется новый тип инвестиций
Это уже не венчурная модель, а инфраструктурные альянсы:
компании инвестируют, потому что:
- продают облако
- продают GPU
- закрепляют долгосрочный спрос
-
3) AI становится инфраструктурным рынком уровня нефти или электроэнергии
Участники сделки - это не фонды, а:
- облачные гиганты
- производители чипов
- глобальные финансовые конгломераты

AI-гонка окончательно сместилась из области моделей в область инфраструктуры.

Побеждает не тот, у кого лучший алгоритм.
Побеждает тот, у кого больше энергии, дата-центров и GPU.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Claude получил постоянную память - и это меняет экономику работы с агентами

Claude-Mem - open-source инструмент, который даёт Claude постоянную память между сессиями.

Главная проблема Claude Code

По умолчанию у Claude нет долгосрочной памяти:
- каждый запуск - "с чистого листа"
- весь контекст нужно передавать заново
- растут токены
- быстро достигаются лимиты
- агент забывает структуру проекта, решения и предыдущие шаги

Это делает длительную работу с кодом дорогой и неэффективной.

Что делает Claude-Mem

Claude-Mem добавляет слой persistent memory:
- сохраняет важный контекст между сессиями
- восстанавливает знания при следующем запуске
- отправляет в модель только релевантную информацию

По сути, это внешний long-term memory для агента.

Результаты

По заявлению разраьотчиков:
- до 95% меньше токенов на повторных запусках
- до 20x больше tool calls до достижения лимитов
- быстрее старт новых сессий
- меньше повторных объяснений модели

https://github.com/thedotmack/claude-mem
Please open Telegram to view this post
VIEW IN TELEGRAM
📌Большое интервью создателя Claude Code.

Y Combinator выложил на Youtube почти часовой выпуск подкаста Lightcone Podcast с Борисом Черным, создателем Claude Code в Anthropic. Мы собрали для вас ключевые темы, цитаты и утверждения.

🟡Философия разработки

Стратегия Anthropic при создании инструментов заключается в опережении текущих возможностей ИИ.

Главный совет фаундерам: не подстраивайте продукт под ограничения сегодняшних моделей. Стройте его для модели, которая выйдет через полгода. Если сегодня модель глупая, через 6 месяцев она поумнеет, и ваш продукт должен быть к этому готов.

Принцип "Scaffolding" : обвязка вокруг модели может улучшить производительность на 10-20%, но следующая версия модели часто нивелирует этот выигрыш. Либо вы строите обвязку для временного прироста, либо ждете новую модель и получаете прирост бесплатно.

CLAUDE.md часто переусложняют. Борис рекомендует удалять его и начинать заново, так как с каждой новой моделью требуется меньше инструкций.

🟡Продуктивность

Внутренняя статистика Anthropic показывает радикальное изменение в процессах разработки.

Инженер Anthropic сейчас в 1000 раз продуктивнее инженера Google на пике их формы.

После внедрения Claude Code продуктивность внутри Anthropic выросла на 150% (измеряется по количеству PR, коммитов и их жизненному циклу). Ранее годовой рост на 2% считался успехом (личный опыт Бориса у Цукерберга).

CEO Anthropic предсказывал, что 90% кода будет писать ИИ. Борис утверждает, что с выходом Opus 4.5 эта цифра достигла 100%.

Борис удалил свою IDE. Он не редактирует ни одной строчки кода вручную. Весь процесс идет через Claude Code в терминале.

🟡Технические возможности и кейсы Claude Code

Первый инструмент, который дали модели был bash.

Инженер Anthropic Крис нашел утечку памяти, просто попросив Claude Code: "Найди утечку". Агент снял heap dump, написал инструмент для анализа дампа, нашел утечку и предложил фикс быстрее человека.

Рекурсивная отладка: можно загрузить транскрипт сессии кодинга обратно в Claude, чтобы отладить самого агента.

🟡CLAUDE.md и контекст проекта

Идея CLAUDE.md родилась из наблюдения скрытого спроса: инженеры сами писали markdown-файлы с контекстом для скармливания модели.

Личный CLAUDE.md Бориса содержит всего две строки:
1. При создании PR включать auto-merge.
2. Постить ссылку на PR во внутренний канал Slack.

Если Claude совершает ошибку, команда тегает его в PR (командой /add claude), чтобы он исправил код и обновил правила в CLAUDE.md для предотвращения рецидивов.


🟡Агенты, Plan Mode и мультиагентность

Эволюция идет от простого выполнения команд к сложному планированию и роям агентов.

Plan Mode: Режим, где модель сначала расписывает шаги, а потом выполняет.

Промпт для Plan Mode технически прост: к запросу добавляется фраза "Пожалуйста, не пиши код, а сначала спланируй".

Функция "Plugins" была написана роем агентов за выходные без участия человека: инженеры дали спецификацию и доступ к Asana. Главный агент спавнил субагентов, раздавал задачи из доски, а те писали код.

Стратегия "Mama Claude": основной инстанс Claude Code рекурсивно вызывает субагентов (другие инстансы Claude Code) для решения подзадач.

🟡Инсайты о найме и типах инженеров

Биомодальное распределение эффективных сотрудников:

Гипер-специалисты: кандидаты с глубоким знанием devtools, runtime, оптимизаций.

Гипер-дженералисты: люди, совмещающие роли Product, Infra, Design.


Product Engineer исчезает как термин, все становятся "Builders".

В Anthropic код пишут все: дизайнеры, финансисты и менеджеры.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Gemini 3.1 Pro - новый уровень интеллекта моделей

Google официально представила Gemini 3.1 Pro, и результаты выглядят серьёзно: модель показала 77,1% в одном из самых сложных тестов на абстрактное мышление — ARC-AGI-2.

- Резкий скачок качества
Результат почти в 2 раза выше, чем у предыдущей версии

- Обгоняет конкурентов
Gemini 3.1 Pro опережает Opus 4.6 и GPT-5.2 в задачах на обобщение и логическое мышление

- Сильнее в реальных сценариях
- программирование
- агентные задачи
- работа с новыми паттернами без примеров

- Новые возможности
Модель может генерировать анимированные SVG из текста и решать логические задачи, которых не было в обучающей выборке — это важный шаг к более универсальному AI.

Попробовать Gemini 3.1 Pro уже можно в Google AI Studio: blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/
🧠 Новый интересный пост от Андрея Карпаты, вот его вольный перевод:

Очень интересно наблюдать, как будет выглядеть эпоха по-настоящему персонального софта.

Сегодняшний пример.

Я решил провести эксперимент - снизить пульс в покое с 50 до 45 за 8 недель.
План простой - больше минут в Zone 2 и один HIIT в неделю.

Через час у меня уже был полностью кастомный дашборд.

Claude:
- разобрался с облачным API беговой дорожки
- вытащил данные
- обработал их
- сделал веб-интерфейс

Да, пришлось поправить баги - перепутал метры и мили, ошибся с календарём.
Но главное - всё это заняло 1 час. Два года назад заняло бы около 10.

И вот здесь самое интересное.

Для такой задачи не должно существовать отдельного приложения.
Это 300 строк кода, которые LLM может собрать за секунды.

Идея App Store - искать, скачивать и подстраиваться под чужую логику - начинает выглядеть устаревшей.

Софт будущего - это приложения, которые создаются под конкретного человека и конкретную задачу.

Но есть проблема.Индустрия всё ещё не AI-native.

Моя беговая дорожка - это просто сенсор.
Она превращает физическое состояние в данные.

Но вместо нормального API:
- веб-интерфейс для людей
- HTML-документация
- клики по страницам

В 2026 году.

99% сервисов не имеют AI-native CLI.
99% интерфейсов рассчитаны на человека, а не на агента.

Сегодня задача заняла час.
Но в будущем должно быть так:

"Помоги отслеживать моё кардио 8 недель"


Короткий диалог - и всё готово.
AI знает контекст, подключает сервисы, собирает данные и поднимает приложение за минуту.

App Store как набор фиксированных приложений постепенно уходит.

Будущее - это:
- сервисы-сенсоры
- AI как связующий слой
- маленькие, персональные, временные приложения

Это будущее уже видно.
Просто индустрия пока к нему не успевает.

https://x.com/karpathy/status/2024583544157458452
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Перед вами релиза за февраль… всего за 19 дней мире 👇

19–20 февраля - Gemini 3.1 Pro**
Улучшенное программирование, более сильные агенты, увеличенный контекст.

18 февраля - Google Lyria 3
Генерирует 30-секундные музыкальные треки с вокалом по тексту, изображениям или видео.

17 февраля - Strand-Rust-Coder-14B - модель, заточенная специально под генерациию Rust кода.

17 февраля - Claude Sonnet 4.6
Быстрая модель для программирования и сложного логического рассуждения.

17 февраля - Fujitsu AI Dev Platform
Платформа, которая автоматизирует полный цикл разработки программного обеспечения.

16 февраля - Qwen 3.5
Более дешёвая и мощная модель с упором на агентные сценарии.

12 февраля - Gemini 3 Deep Think
Создана для научных задач и сложных исследований.

12 февраля - MiniMax M2.5
Открытая модель с сильными возможностями в программировании.

12 февраля - Seedance 2.0
Реалистичное генеративное видео 1080p по тексту.

11 февраля - GLM-5
Крупная открытая модель с сильным логическим мышлением.

10 февраля - RynnBrain
AI для робототехники и работы с физическим миром.

5 февраля - Claude Opus 4.6*
Крупное обновление для программирования и работы с инструментами.

5 февраля - GPT-5.3 Codex
Более быстрый GPT, ориентированный на разработку.

5 февраля - Kling 3.0
Генерация видео в 4K со звуком.

Темп ИИ-релизов уже измеряется не месяцами - днями.

@machinelearning_interview
✔️ SLA2 - Sparse-Linear Attention with Learnable Routing and QAT

Учёные из Tsinghua и UC Berkeley ускорили видеодиффузию в 18,6 раза - без потери качества.

В некоторых случаях результат даже лучше.

Ключевой результат:
- 97% разреженности attention
- качество на уровне полного attention
- быстрее и дешевле

Метод называется SLA2.

Главая идея

В видеомоделях большая часть вычислений attention просто не нужна.

Раньше использовали гибрид:
- sparse attention
- linear attention

Но в этой схеме была скрытая проблема — математическая ошибка.

Sparse-ветка была масштабирована неправильно (фактор α),
и linear-ветке приходилось компенсировать эту неточность.

Что делает SLA2

- исправляет формулировку attention
- добавляет обучаемый роутер
- модель сама решает:
- где нужен полный attention
- где можно использовать упрощённый

Дополнительно:
- применяется quantization-aware training
- низкобитный attention обучается во время fine-tuning, а не просто добавляется на этапе инференса

Результаты (Wan2.1 — 1.3B и 14B):

- 97% sparsity
- 18,6× ускорение вычислений
- 4,35× снижение общей задержки (14B)

Самое интересное:

При 97% разреженности SLA2 показывает лучшее качество,
чем все базовые методы при 90%.

Настоящий прогресс в AI - это не только новые модели,
а умение сохранять качество, радикально снижая вычисления.


https://arxiv.org/abs/2602.12675
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ LLM можно “прокачать” в разы… просто повторив промпт

Исследование Google показало простой, но мощный трюк:
если вставить один и тот же промпт дважды, точность модели может резко вырасти.

Почему это работает:

LLM читает текст слева направо.
Первые слова обрабатываются до того, как модель увидит весь контекст.
Из-за этого она иногда рано делает неверные предположения и «держится» за них.

Когда вы дублируете промпт:

- вторая копия читается уже с пониманием полного контекста
- модель лучше интерпретирует задачу прямо перед ответом
- уменьшается количество ошибок из-за неправильного старта

Где эффект максимальный:

- важные детали находятся в конце запроса
- варианты ответа идут до вопроса
- задачи поиска, логики и сложных инструкций

Результаты:

- сложная задача: 21.33% → 97.33%
- протестировано на 7 моделях и 7 бенчмарках
- улучшение в 47 из 70 случаев
- статистически значимого ухудшения ни разу

Многие ошибки LLM - это не нехватка знаний.
Это проблема порядка чтения контекста.

И самое приятно - трюк бесплатный:
просто продублируйте свой промпт перед отправкой.

arxiv.org/abs/2512.14982
🧬 Qwen3-Coder-Next стал доступен через API

Alibaba выпустила open-source версию Qwen3-Coder-Next и открыла к ней доступ через Alibaba Cloud Model Studio.

Теперь модель можно использовать в продакшене без локального развёртывания — через масштабируемые и экономичные API-эндпоинты.

Что доступно:

- API для интеграции в приложения и инструменты разработки
- Поддержка в Coding Plan для команд и enterprise-сценариев
- Масштабирование под нагрузку
- Оплата по использованию

Подходит для:

- AI-ассистентов для разработки
- генерации и рефакторинга кода
- CI/CD-автоматизации
- агентных систем и DevOps-инструментов

Документация API: https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3

Подробности Coding Plan:
https://alibabacloud.com/help/en/model-studio/coding-plan
💰 FT: Nvidia может инвестировать до $30 млрд в OpenAI - вместо сделки на поставку чипов

По данным Financial Times, Nvidia меняет структуру сотрудничества с OpenAI.

Ранее обсуждалась многосторонняя сделка на $100 млрд, где финансирование Nvidia было привязано к:
- закупкам GPU
- росту инфраструктуры OpenAI
- этапам расширения дата-центров

Теперь формат меняется.

Что происходит:

- Nvidia рассматривает инвестицию до $30 млрд в капитал OpenAI
- вместо контрактной схемы — прямая покупка доли
- прежняя модель с обязательными закупками и milestone-условиями отменяется

Почему изменили структуру:

Старая схема выглядела для инвесторов «круговой»:
- OpenAI получает деньги от поставщика
- затем тратит их на покупку оборудования у того же поставщика

Новая модель, более прозрачная с точки зрения инвестиций.

Хотя обязательства по закупкам снимаются, ожидается, что значительная часть средств всё равно пойдёт на покупку GPU Nvidia

AI-инфраструктура превращается в стратегическое партнёрство.
Производители чипов больше не просто поставщики — они становятся крупными акционерами AI-компаний.

ft.com/content/dea24046-0a73-40b2-8246-5ac7b7a54323
Please open Telegram to view this post
VIEW IN TELEGRAM