🔥 Qwen 3.5 Series GPTQ-Int4
Вышли квантизированные веса GPTQ-Int4 для серии Qwen 3.5 - теперь запускать мощные модели можно даже на ограниченном железе.
- GPTQ-Int4
4-битная квантизация = значительно меньше потребление VRAM.
- Нативная поддержка vLLM и SGLang
Можно запускать без костылей и сложной настройки.
- Меньше памяти - быстрее инференс
Подходит для локальных серверов, single-GPU машин и бюджетных сетапов.
- Production-ready
Идеально для тех, кто строит свои LLM-сервисы и хочет максимум эффективности.
Запустить мощную модель теперь можно даже на ограниченном GPU-сетапе.
Hugging Face: https://huggingface.co/collections/Qwen/qwen35
ModelScope: https://modelscope.cn/collections/Qwen/Qwen35
Вышли квантизированные веса GPTQ-Int4 для серии Qwen 3.5 - теперь запускать мощные модели можно даже на ограниченном железе.
- GPTQ-Int4
4-битная квантизация = значительно меньше потребление VRAM.
- Нативная поддержка vLLM и SGLang
Можно запускать без костылей и сложной настройки.
- Меньше памяти - быстрее инференс
Подходит для локальных серверов, single-GPU машин и бюджетных сетапов.
- Production-ready
Идеально для тех, кто строит свои LLM-сервисы и хочет максимум эффективности.
Запустить мощную модель теперь можно даже на ограниченном GPU-сетапе.
Hugging Face: https://huggingface.co/collections/Qwen/qwen35
ModelScope: https://modelscope.cn/collections/Qwen/Qwen35
❤6🔥3
Forwarded from Machinelearning
Anthropic перенесла часть инженерной культуры: тестирование, бенчмаркинг и итеративность в процесс создания навыков и для этого теперь не нужно уметь писать код.
В skill-creator добавили автоматические тесты, бенчмарки и A/B-сравнения и теперь создатели навыков могут измерить, работает ли skill, до его запуска в продакшен.
Автор задает тестовые промпты и описывает, как выглядит нужный результат. Skill-creator запускает их параллельно: с навыком и без него.
Независимый агент-сравниватель оценивает результаты вслепую, не зная, какая версия перед ним, и сразу показывает, дает ли навык реальный прирост.
Внутренние тесты Anthropic: точность PDF-навыка выросла с 6/8 до 7/8, Excel-навыка - с 6/8 до полных 8/8.
Отдельный бенчмарк-режим дает детальную картину по каждому прогону: процент успешных тестов, время выполнения, расход токенов.
На примере PDF-навыка при работе с незаполняемыми формами и таблицами из многостраничных документов успешность выросла с 40 до 100% (при том же времени выполнения).
Если базовая модель начинает проходить тесты без загруженного навыка - это сигнал о том, что навык уже есть в ее поведении и skill можно отключить. Результаты тестов хранятся локально и интегрируются в CI-системы.
Claude решает, когда подключить навык, исключительно по короткому текстовому описанию в системном промпте.
Skill-creator теперь анализирует эти описания против тестовых промптов и предлагает правки, снижающие и ложные срабатывания и пропуски.
По результатам внутреннего прогона триггеринг стал лучше на 5 из 6 публичных навыков.
Все обновления уже доступны в вебе и Cowork. Для Claude Code обновили плагин или вот он же - в репозитории, если ставить руками.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1
По данным The Information, GPT-5.4 официально выйдет с контекстным окном в 1 миллион токенов.
- Это ставит модель на один уровень с Gemini и Claude по объёму информации, которую она может удерживать и обрабатывать одновременно.
- Новый режим Extreme reasoning позволит выполнять более глубокие рассуждения за счёт использования большего количества вычислительных ресурсов.
- Модель стала значительно надёжнее для сложных задач и показывает более низкий уровень ошибок в целом.
- Благодаря способности работать с долгими задачами, которые могут выполняться часами, она особенно подходит для агентов и научных исследований.
- Также OpenAI меняет стратегию и планирует выпускать обновления моделей ежемесячно, чтобы быстрее продвигать развитие.
- Это ставит модель на один уровень с Gemini и Claude по объёму информации, которую она может удерживать и обрабатывать одновременно.
- Новый режим Extreme reasoning позволит выполнять более глубокие рассуждения за счёт использования большего количества вычислительных ресурсов.
- Модель стала значительно надёжнее для сложных задач и показывает более низкий уровень ошибок в целом.
- Благодаря способности работать с долгими задачами, которые могут выполняться часами, она особенно подходит для агентов и научных исследований.
- Также OpenAI меняет стратегию и планирует выпускать обновления моделей ежемесячно, чтобы быстрее продвигать развитие.
👍3😁1
🚀Про архитектуру для агентных LLM с распределённой памятью и безопасным инференсом
Обновленная инфраструктура Yandex AI Studio для долгоживущих сессий решает главную проблему агентных моделей — устойчивость и экономию при длительных цепочках рассуждений.
Основные моменты:
Появились и улучшения для enterprise-сред:
- Управляемые правила модерации ответов модели, возможность подключаться к нейросетям через частные эндпоинты по выделенному сетевому каналу для работы с ними без выхода в публичный интернет.
- Токены инструментов и токены кеширования — новая тарификация, где вычисления с переиспользованием контекста в агентских сценариях стоят до 4 раз дешевле.
https://ai.cnews.ru/news/line/2026-03-03_yandex_b2b_tech_otkryla_biznesu
Обновленная инфраструктура Yandex AI Studio для долгоживущих сессий решает главную проблему агентных моделей — устойчивость и экономию при длительных цепочках рассуждений.
Основные моменты:
- Prefill / Decode Split — разделённые этапы инференса: быстрый prefill для контекста и стабильный decode для генерации.
- Иерархия KV-кэшей — GPU → CPU → распределённый слой.
- Переиспользование KV-кешей — контекст перемещается между серверами в реальном времени.
- Cache-aware балансировка — запросы направляются в ту часть кластера, где находятся нужные KV-кеши.
Появились и улучшения для enterprise-сред:
- Управляемые правила модерации ответов модели, возможность подключаться к нейросетям через частные эндпоинты по выделенному сетевому каналу для работы с ними без выхода в публичный интернет.
- Токены инструментов и токены кеширования — новая тарификация, где вычисления с переиспользованием контекста в агентских сценариях стоят до 4 раз дешевле.
https://ai.cnews.ru/news/line/2026-03-03_yandex_b2b_tech_otkryla_biznesu
❤5
This media is not supported in your browser
VIEW IN TELEGRAM
Если нужен быстрый и простой speech-to-text для real-time задач — у Mistral есть интересное решение.
Voxtral Mini Realtime — open-source модель для потоковой транскрипции речи.
Что умеет:
- Обрабатывает аудио в реальном времени
- Низкая задержка — текст появляется почти сразу
- Поддержка нескольких языков
- Работает со стриминг-аудио, а не только с файлами
- Подходит для звонков, ассистентов, субтитров и voice-интерфейсов
Это хороший вариант для сценариев, где важна скорость:
- голосовые боты
- live-транскрипция встреч
- AI-ассистенты с голосом
- real-time субтитры
Можно попробовать прямо в браузере:
Demo: https://huggingface.co/spaces/mistralai/Voxtral-Mini-Realtime
Voxtral Mini Realtime — open-source модель для потоковой транскрипции речи.
Что умеет:
- Обрабатывает аудио в реальном времени
- Низкая задержка — текст появляется почти сразу
- Поддержка нескольких языков
- Работает со стриминг-аудио, а не только с файлами
- Подходит для звонков, ассистентов, субтитров и voice-интерфейсов
Это хороший вариант для сценариев, где важна скорость:
- голосовые боты
- live-транскрипция встреч
- AI-ассистенты с голосом
- real-time субтитры
Можно попробовать прямо в браузере:
Demo: https://huggingface.co/spaces/mistralai/Voxtral-Mini-Realtime
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Opus 4.6 vs GPT-5.4
Обе модели сделали 3D-веб-приложение для отслеживания самолётов очень хорошо.
Главное различие:
• GPT-5.4 - лучшее визуальное оформление и пост-обработка (свет, камера, эффекты).
• Opus 4.6 - лучше модели и текстуры (более качественная Земля и самолёты).
Также у GPT-5.4 иногда камера пролетает сквозь планету, что портит эффект, а Opus обработал это аккуратнее.
Итог:
GPT-5.4 сильнее в визуальных эффектах,
Opus 4.6 - в качестве ассетов и моделей.
Обе модели сделали 3D-веб-приложение для отслеживания самолётов очень хорошо.
Главное различие:
• GPT-5.4 - лучшее визуальное оформление и пост-обработка (свет, камера, эффекты).
• Opus 4.6 - лучше модели и текстуры (более качественная Земля и самолёты).
Также у GPT-5.4 иногда камера пролетает сквозь планету, что портит эффект, а Opus обработал это аккуратнее.
Итог:
GPT-5.4 сильнее в визуальных эффектах,
Opus 4.6 - в качестве ассетов и моделей.
👍11😁1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Это инструмент, который сканирует архитектуру проекта и выстраивает индивидуальную модель угроз. Опираясь на эту карту, агент целенаправленно ищет слабые места в безопасности приложения.
Фирменная фича - защита от ложных срабатываний за счет практической проверки найденных багов. Обнаружив проблему, агент разворачивает изолированную копию системы в песочнице и пытается самостоятельно провести реальный взлом. Если попытка оказалась успешной и угроза подтверждена, ИИ сам пишет патч. Затем система тестирует обновление, чтобы убедиться, что внесенные исправления не сломают другие функции продукта.
Доступ к превью-версии инструмента получат пользователи тарифов ChatGPT Enterprise, Business и Edu в ближайшие дни.
openai.com
Министерство торговли США подготовило новые правила продажи чипов для ЦОД. Теперь государствам, чьи компании закупают большие объемы продукции Nvidia и AMD, придется встречно инвестировать в американскую ИИ-инфраструктуру.
Проект вводит многоуровневую систему выдачи экспортных лицензий. Строгость требований напрямую зависит от суммарной вычислительной мощности запрашиваемых компонентов. Для одобрения крупных сделок высшего уровня страны-покупатели будут обязаны проводить прямые финансовые вливания в технологический сектор США.
Этот подход формализует практику, которая уже была успешно обкатана на недавних соглашениях с ОАЭ и Саудовской Аравией. На поставки оборудования в Китай, эти правила не повлияют - они по-прежнему регламентируются отдельными санкциями.
ft.com
Новый инструмент от создателей ИИ-редактора кода избавляет разработчиков от необходимости каждый раз вручную писать промпты. Теперь ИИ-помощник может включаться в работу фоном, самостоятельно реагируя на внешние события.
Триггерами служат действия в Git, сообщения в Slack, новые тикеты в Linear или инциденты в PagerDuty. Платформа также поддерживает настройку кастомных вебхуков и запуск задач по расписанию. Обновленные агенты способны брать на себя полноценные инженерные процессы: проанализировать логи через протокол MCP, локализовать ошибку и сразу подготовить пулл-реквест с готовым исправлением.
Важная деталь - у агентов появилась память. Они запоминают результаты прошлых запусков, постепенно адаптируясь к контексту проекта и избегая повторения старых ошибок.
cursor.com
Японский конгломерат ведет переговоры о привлечении крупнейшего в своей истории долларового займа. Ожидается, что кредит на 40 млрд. сроком на год будет обеспечен четырьмя банками.
Главная цель сделки - финансирование ставки основателя SoftBank Масаёси Сона на ИИ. Банк уже вложил в OpenAI более 30 млрд. долларов, получив около 11% акций стартапа. Чтобы обеспечить эти инвестиции, холдингу пришлось частично распродать другие свои активы.
Агрессивные заимствования усиливают опасения аналитиков по поводу раздувания ИИ-пузыря. Суммарный долг ключевых партнеров OpenAI уже достиг 96 млрд. долларов, а ведущая пятерка ИТ-корпораций набрала новых кредитов на 121 млрд., это в 4 раза выше привычной нормы. При этом монетизация буксует - платные подписки на ИИ-сервисы пока оформили лишь 3% пользователей.
bloomberg.com
Об этом достижении сообщил Майк Кригер, возглавляющий подразделение экспериментальных ИИ-разработок. Столь стремительный рост аудитории обусловлен несколькими факторами. Помимо глобального тренда на ИИ, Anthropic извлекла серьезную выгоду из недавнего скандала вокруг сотрудничества OpenAI с Пентагоном.
На фоне этих событий в глазах потребителей и технологического сообщества создатели Claude выглядят более последовательными в вопросах этики. Статус «морального победителя» обеспечивает компании сильное репутационное преимущество и стимулирует массовый приток пользователей.
Mike Krieger в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥3
🚀 CodePilot: GUI для Claude Code
CodePilot — это настольное приложение с графическим интерфейсом для взаимодействия с Claude Code. Оно позволяет удобно общаться, писать код и управлять проектами без использования терминала. Приложение поддерживает управление сессиями, визуализацию файлов и настройку разрешений.
🚀 Основные моменты:
- 💬 Реальное взаимодействие с Claude с поддержкой Markdown и подсветки синтаксиса.
- 📂 Удобное управление сессиями и сохранение разговоров в SQLite.
- 🎯 Контекст проекта с живым деревом файлов.
- 🔒 Настройка разрешений для действий.
- ⚙️ Поддержка нескольких режимов взаимодействия.
📌 GitHub: https://github.com/op7418/CodePilot
#javascript
CodePilot — это настольное приложение с графическим интерфейсом для взаимодействия с Claude Code. Оно позволяет удобно общаться, писать код и управлять проектами без использования терминала. Приложение поддерживает управление сессиями, визуализацию файлов и настройку разрешений.
🚀 Основные моменты:
- 💬 Реальное взаимодействие с Claude с поддержкой Markdown и подсветки синтаксиса.
- 📂 Удобное управление сессиями и сохранение разговоров в SQLite.
- 🎯 Контекст проекта с живым деревом файлов.
- 🔒 Настройка разрешений для действий.
- ⚙️ Поддержка нескольких режимов взаимодействия.
📌 GitHub: https://github.com/op7418/CodePilot
#javascript
GitHub
GitHub - op7418/CodePilot: A desktop GUI for Claude Code — chat, code, and manage projects visually. Built with Electron + Next.js.
A desktop GUI for Claude Code — chat, code, and manage projects visually. Built with Electron + Next.js. - op7418/CodePilot
❤2
По словам человека, знакомого с внутренним анализом компании, Cursor оценивал в прошлом году, что подписка Claude Code за $200 в месяц могла потреблять до $2000 вычислительных ресурсов, что указывает на значительное субсидирование со стороны Anthropic.
Сейчас ситуация стала еще более агрессивной.
По словам другого источника, знакомого с анализом расходов на вычисления, тот же тариф за $200 может потреблять уже около $5000 вычислительных ресурсов.
https://www.forbes.com/sites/annatong/2026/03/05/cursor-goes-to-war-for-ai-coding-dominance/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5🔥1
🔥 На stepik вышел курс, который учит Создавать настоящие AI-сервисы, а не просто запускать скрипты?
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
❤4👍1🥰1
Forwarded from Machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14❤4👍1
Память для AI-чипов Nvidia растёт взрывными темпами.
Новый чип Rubin требует 288 ГБ оперативной памяти только для работы.
Чтобы понять масштаб:
- это примерно на 800% больше, чем в топовом настольном компьютере
- и примерно на 2300% больше, чем в флагманском смартфоне
Причина — взрывной спрос со стороны AI-компаний.
Крупные закупки со стороны OpenAI и Alphabet практически опустошили рынок памяти. В результате цена 16GB DDR4 выросла на 2352% — до $76.90, что уже привело к серьёзному мировому дефициту памяти.
Производители железа просто не успевают производить чипы памяти такими темпами, какими растёт спрос со стороны новых AI-процессоров.
Глобальная нехватка памяти для AI-инфраструктуры начинает выходить из-под контроля.
(график — Bloomberg)
Новый чип Rubin требует 288 ГБ оперативной памяти только для работы.
Чтобы понять масштаб:
- это примерно на 800% больше, чем в топовом настольном компьютере
- и примерно на 2300% больше, чем в флагманском смартфоне
Причина — взрывной спрос со стороны AI-компаний.
Крупные закупки со стороны OpenAI и Alphabet практически опустошили рынок памяти. В результате цена 16GB DDR4 выросла на 2352% — до $76.90, что уже привело к серьёзному мировому дефициту памяти.
Производители железа просто не успевают производить чипы памяти такими темпами, какими растёт спрос со стороны новых AI-процессоров.
Глобальная нехватка памяти для AI-инфраструктуры начинает выходить из-под контроля.
(график — Bloomberg)
😱3❤2👍1
OpenAI может выйти на IPO не раньше чем через шесть месяцев, но уже сейчас среди инвесторов есть заметный скепсис.
Несмотря на огромную оценку компании около $850 млрд, первые обсуждения с инвесторами показывают неоднозначное отношение к будущему размещению.
Главная причина путь к прибыльности. По оценкам, OpenAI может продолжать активно сжигать деньги как минимум до 2030 года.
Ещё один фактор - высокая оценка бизнеса. Сейчас она составляет примерно 28× прогнозной выручки 2026 года, что более чем в два раза выше мультипликатора Nvidia.
Это означает, что для успешного IPO OpenAI придётся:
- снижать операционные расходы
- значительно увеличивать выручку
- укреплять позиции на фоне конкуренции, особенно со стороны Anthropic
Иначе убедить рынок в такой высокой оценке будет сложно.
Несмотря на огромную оценку компании около $850 млрд, первые обсуждения с инвесторами показывают неоднозначное отношение к будущему размещению.
Главная причина путь к прибыльности. По оценкам, OpenAI может продолжать активно сжигать деньги как минимум до 2030 года.
Ещё один фактор - высокая оценка бизнеса. Сейчас она составляет примерно 28× прогнозной выручки 2026 года, что более чем в два раза выше мультипликатора Nvidia.
Это означает, что для успешного IPO OpenAI придётся:
- снижать операционные расходы
- значительно увеличивать выручку
- укреплять позиции на фоне конкуренции, особенно со стороны Anthropic
Иначе убедить рынок в такой высокой оценке будет сложно.
👍4❤2🔥2
🚀 Оптимизация затрат на LLM с ClawRouter
ClawRouter автоматически направляет запросы к самым дешевым моделям, экономя до 78% на расходах. Все операции происходят локально без внешних API, поддерживая более 30 моделей через один кошелек.
🚀 Основные моменты:
- 100% локальная маршрутизация за <1мс
- Нет внешних вызовов для принятия решений
- Оплата за запросы с помощью USDC
- Открытый исходный код под лицензией MIT
- Поддержка множества моделей от разных провайдеров
📌 GitHub: https://github.com/BlockRunAI/ClawRouter
#typescript
ClawRouter автоматически направляет запросы к самым дешевым моделям, экономя до 78% на расходах. Все операции происходят локально без внешних API, поддерживая более 30 моделей через один кошелек.
🚀 Основные моменты:
- 100% локальная маршрутизация за <1мс
- Нет внешних вызовов для принятия решений
- Оплата за запросы с помощью USDC
- Открытый исходный код под лицензией MIT
- Поддержка множества моделей от разных провайдеров
📌 GitHub: https://github.com/BlockRunAI/ClawRouter
#typescript
GitHub
GitHub - BlockRunAI/ClawRouter: The agent-native LLM router for OpenClaw. 41+ models, <1ms routing, USDC payments on Base & Solana…
The agent-native LLM router for OpenClaw. 41+ models, <1ms routing, USDC payments on Base & Solana via x402. - BlockRunAI/ClawRouter
👍2
ИИ-поисковик предложил концепцию агента, который работает круглосуточно без участия пользователя. Personal Computer интегрируется с локальными файлами и приложениями на выделенном Mac mini, автономно выполняя сложные рабочие процессы. Система построена на гибридной архитектуре: взаимодействие с десктопом происходит локально, а тяжелые вычисления перенесены на серверы Perplexity.
Ядро платформы - собственный движок оркестрации, который автоматически переключается между передовыми моделями для решения задач. Контролировать ИИ-помощника можно удаленно с любого устройства. Особое внимание уделили безопасности: внедрены функция экстренного отключения, ведение детального аудита всех сессий и ручное подтверждение для чувствительных действий системы. Записаться в лист ожидания проекта можно по ссылке.
PerplexityAI в сети Х
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1🔥1
🚀 Высокопроизводительная диффузия на C++/CUDA
Librediffusion — это реализация StreamDiffusion на C++ с использованием CUDA и TensorRT. Оптимизирована для высокой производительности на современных графических процессорах, обеспечивая стабильные кадры для генерации изображений.
🚀Основные моменты:
- Поддержка моделей SDXL Turbo и SD Turbo.
- Высокая скорость: до 600 fps на RTX 5090.
- Интеграция с ossia score для удобства использования.
📌 GitHub: https://github.com/jcelerier/librediffusion
#cpp
Librediffusion — это реализация StreamDiffusion на C++ с использованием CUDA и TensorRT. Оптимизирована для высокой производительности на современных графических процессорах, обеспечивая стабильные кадры для генерации изображений.
🚀Основные моменты:
- Поддержка моделей SDXL Turbo и SD Turbo.
- Высокая скорость: до 600 fps на RTX 5090.
- Интеграция с ossia score для удобства использования.
📌 GitHub: https://github.com/jcelerier/librediffusion
#cpp
❤1👍1
Бывшие учёные Anthropic запускают AI-стартап для научных открытий с оценкой $1 млрд
Команда бывших исследователей из Anthropic привлекает около $175 млн инвестиций для нового стартапа Mirendil, который оценивается примерно в $1 млрд. Их цель - ускорить научные открытия с помощью искусственного интеллекта.
Идея проста: использовать AI для решения сложных научных задач и поиска прорывов в разных областях. Именно такие системы многие считают следующим большим этапом развития AI. Например, Sam Altman ранее говорил, что одна из целей индустрии - создать автономных AI-исследователей к 2028 году.
Стартап возглавляют Behnam Neyshabur и Harsh Mehta. Они планируют создавать продвинутые AI-системы, способные к долгосрочному научному рассуждению, чтобы ускорять открытия в биологии и материаловедении.
Команда бывших исследователей из Anthropic привлекает около $175 млн инвестиций для нового стартапа Mirendil, который оценивается примерно в $1 млрд. Их цель - ускорить научные открытия с помощью искусственного интеллекта.
Идея проста: использовать AI для решения сложных научных задач и поиска прорывов в разных областях. Именно такие системы многие считают следующим большим этапом развития AI. Например, Sam Altman ранее говорил, что одна из целей индустрии - создать автономных AI-исследователей к 2028 году.
Стартап возглавляют Behnam Neyshabur и Harsh Mehta. Они планируют создавать продвинутые AI-системы, способные к долгосрочному научному рассуждению, чтобы ускорять открытия в биологии и материаловедении.
🔥3