Machinelearning

OpenAI показала GPT-5.6 Sol.

Это новый флагман в линейке GPT-5.6. Вместе с ним идут Terra - более сбалансированная модель для повседневной работы, и Luna - быстрый и дешёвый вариант.

Главный фокус Sol: сложные агентные задачи, кодинг, биология и кибербезопасность.

Появляются два важных режима:

• max — больше времени на глубокое рассуждение
• ultra — работа через субагентов для сложных процессов

Пока GPT-5.6 доступен только в ограниченном preview для доверенных партнёров через API и Codex. Более широкий запуск в ChatGPT, Codex и API обещают позже.

https://openai.com/index/previewing-gpt-5-6-sol/

👨‍💻88🔥70👏30❤12🤣7👍6🙈2🥰1🤩1

21.5K viewsedited 17:16

Machinelearning

3:49

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

ЕС сделает открытую LLM в рамках технологического суверенитета

Итальянская компания Domyn (ранее iGenius) разработает модель на 400 млрд параметров. Проект реализуют совместно с консорциумом EUROPA при поддержке Еврокомиссии. Релиз запланирован в течение года.

Модель обучат с нуля. Датасет соберут при участии европейских правительств, первые соглашения о доступе к данным ожидаются в ближайшие недели. Проект будет открытым для локального развертывания на серверах компаний и госсектора.

Инициатива направлена на достижение технологического суверенитета ЕС. Разработка идет на фоне регуляторных и геополитических ограничений - ранее Италия и Чехия запретили облачное использование моделей DeepSeek, оставив легальным только локальный хостинг, а бизнес столкнулся с экспортным контролем США.
reuters.com

✔️

Qualcomm выходит на рынок дата-центров

Производитель мобильных чипов анонсировал серверный ИИ-процессор Dragonfly C1000 и покупает стартап Modular за $4 млрд.

Чип оптимизирован для работы с ИИ-агентами с фокусом на энергоэффективность. Первым крупным заказчиком процессоров выступит Марк Цукерберг, он планирует развернуть оборудование на базе Dragonfly C1000 в 2028 году.

Покупка Modular должна усилить программный багаж Qualcomm. Стартап разрабатывает софт для инференса моделей поверх различных аппаратных архитектур. Сделка дополнит серверные ИИ-ускорители компании единой экосистемой для разработчиков.
cnbc.com

✔️

Sakana AI представила симулятор для оценки бизнес-стратегий LLM

Японский ИИ-стартап совместно с KPMG разработали CoffeeBench, симулятор кофейной цепочки поставок для оценки экономических навыков агентов.

Тестируемая LLM управляет компанией-обжарщиком, а остальных участников рынка (фермеров, ритейлеров) отыгрывает Sonnet 4.6. В течение 90 виртуальных дней агент ведет торги, оплачивает счета и управляет кредитами. Ежедневные издержки обязывают модель активно торговать для предотвращения банкротства.

По итогу теста, GPT-5.5 и Opus 4.7 активно расширяли продажи, Gemini 3.1 Pro использовала пассивную тактику, Kimi K2.6 заключала убыточные сделки, а Haiku 4.5 обанкротилась из-за постоянного переноса действий на следующий день.

Код проекта и логи испытаний - в открытом доступе, а сам проект принят на ICML 2026.
sakana.ai

✔️

ИТ-гиганты защитят опенсорс от ИИ-атак

Linux Foundation запустила инициативу Akrites для защиты открытых проектов от атак нового поколения. В альянс вошли более 20 компаний, включая Amazon, Google, Microsoft, OpenAI и Anthropic. Цель - устранение уязвимостей в критическом ПО до того, как их найдут с помощью ИИ.

Центром проекта станет общая команда реагирования на инциденты, которая будет фильтровать баг-репорты, координировать патчи и выступит единой точкой контакта для мейнтейнеров. Оценка уязвимостей и обмен данными опираются на стандарты CVE, CVSS и протокол TLP.

Отчеты получают максимальный уровень секретности до релиза исправления, которое интегрируется в репозиторий на условиях разработчиков. Если критически важный пакет заброшен авторами, команда Akrites выпустит обновление самостоятельно.
akrites.org

✔️

Калифорния создала первый в США трекер увольнений из-за ИИ

Департамент развития занятости штата совместно с UCLA запустил первый в США инструмент, который отслеживает увольнения, вызванные внедрением ИИ.

Трекер ежемесячно анализирует статистику заявок на пособия по безработице в профессиях с высоким риском автоматизации. Данные будут использовать для программ переобучения и помощи специалистам в поиске новой работы.

Массовых сокращений в масштабах всего штата дашборд пока не фиксирует. При этом данные показывают рост числа безработных специалистов с высшим образованием после релиза ChatGPT в 2022 году. Сильнее всего эта динамика заметна в Сан-Франциско.
gov.ca.gov

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣27❤23🤔9👍5🔥5😁4

16.1K views06:15

Machinelearning

Сидеть и работать в корпорации — страшно, жизнь-то мимо проходит. Уходить строить бизнес — страшно, а вдруг прогорит. Один из вариантов — разрабатывать свой пет-проект по вечерам. Многие успешные компании, например, Twitter, создавались именно так. Это не значит, что ваш проект обязательно заработает миллиарды, но заработать больше, чем в найме, и получить ценный опыт — вполне реально.

Перед началом разработки появляется множество вопросов, например:

– Как выбрать идею для пет-проекта?
– Что нужно знать про маркетинг?
– Как запуститься и довести до первых продаж не имея бюджета на рекламу?

В телеграм-канале «Твой пет проект», Михаил Табунов делится своим опытом с разработчиками и менеджерами.

Он рассказывает, где искать идею для нового проекта, что нужно знать о маркетинге, как запустить стартап и привлечь первых 10 клиентов, а также о многих других важных вещах.

Подписывайтесь на «Твой пет проект», получайте пользу от практиков рынка!

Реклама. ИП Табунов Михаил Валерьевич ИНН 773379585100. erid: 2VtzqunmRFf

Твой пет проект

Канал про то, как создать свой маленький свечной заводик

Пишу про:
- Запуски и как сделать первые 10 продаж
- Прожарка идей
- Кейсы роста и ведения проекта параллельно с работой

Автор - Михаил Табунов - @bossofyourboss
Связь @to_baza_education

😁23🥱13❤9👍6🔥2🌭2🎃2

15.9K views10:00

📌

Могут ли LLM переписать софт с нуля?

Epoch AI совместно с METR собрала бенчмарк MirrorCode, который проверяет, способны ли современные модели восстановить полноценное приложение, не видя его исходников.

Спойлер: на мелочи да, на крупных проектах пока нет.

🟡

Механика

Агенту показывают 25 целевых программ, от Unix-утилит и криптографии до биоинформатики, интерпретаторов и статических анализаторов и ставят задачу написать их заново на одном из 6 языков (Python, C, Rust, Go, OCaml, Ada).

Доступ к оригиналу дают только на запуск: можно гонять бинарник, смотреть в документацию и смотреть выводы, но не читать код.

Решение проверяется сквозными тестами на байт-точное совпадение stdout/stderr, причём часть тестов скрыта от модели, чтобы исключить захардкоженные lookup-таблицы.

Что важно, дают щедрый вычислительный бюджет. Моделям разрешают шикануть вплоть до 10 миллиардов токенов на крупный таск.

На самом дорогом прогоне агент работал 19 дней и сжёг $2 600, полностью без участия кожаного вообще.

🟡

Результаты

🟢

Claude Opus 4.7 - 56% идеальных решений и единственный, кто закрыл задачи категории Large.

В частности, он переписал gotree (биоинформатический тулкит на 16 000 строк Go) за 14 часов и $251, пройдя 2000 из 2001 тестов. Авторы говорят, что инженеру без ИИ на это потребовалось бы от 2 до 17 недель.

🟢

GPT-5.5 - 44%. На задачах, где он всё-таки добирался до близкого к идеалу решения, выходил в среднем в 2 раза дешевле Opus.

🟠

Gemini 3.1 Pro Preview - 32%.

Простые утилиты (uuidparse, qsv_select или hexyl) модели разбирают уверенно, там почти всегда 100%. Даже когда финальный результат не идеален, агенты обычно проходят больше 90% тестов.

🟡

Где спотыкаются

Самая массовая категория ошибок - пограничные случаи: около 40% запусков Opus 4.7 проваливают хотя бы один скрытый тест из-за пропущенной мелочи.

Дальше идут решения, заточенные под видимые тесты, преждевременная сдача и пропуск целых фич, которые есть в документации, но не в тестах.

Попытки читерить хардкодом. У GPT-5.5 это случилось в 24% запусков, у Gemini - в 31%. Opus 4.7 в финальных сабмитах не схитрил ни разу.

Самый крепкий орешек - питоновский линтер ruff. Лучший запуск на скрытых тестах вытянул только 67%. Похожая история с математическим пакетом giac_subset и библиотекой mailauth для email-аутентификации.

🟡

Странности экономики

GPT-5.5 решает задачи примерно в 3 раза дороже, чем GPT-5, а Opus 4.7, наоборот, в 3 раза дешевле, чем Opus 4.1.

🟡

Меморизация

Все таргеты опенсорсные и модели вполне могли видеть их во время обучения, поэтому прогнали отдельный тест, где модели восстанавливали функции по имени и потом сравнили с реальным кодом.

Следы меморизации нашлись у 17 из 25 программ. Но при этом модели успешно решали незнакомые по обучению программы (nonogrid и tssql) и проваливали известыне (sed, ruff), так что меморизация явно не повод для скепсиса.

🟡

Вывод

Агенты умеют автономно работать сутками и пилить проекты, которые у человека заняли бы недели, но для этого нужна жёсткая спецификация в виде эталона и тестов. Без чёткого фидбек-сигнала и на действительно крупных кодовых базах всё пока сыпется.

По меркам бенчмарков прогресс внушительный, по меркам полной автономии - ещё рано.

Авторы выложили в опенсорс обвязку агента и 22 таргета, оставив 3 в приватном тестовом наборе.

🟡

Техотчёт

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #Benchmark #MirrorCode #EpochAI

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤50👍22🔥11🗿3👌1👻1

17.6K views11:05

Machinelearning

✔️

DeepSeek выложила DSpark - новый метод speculative decoding для V4 Flash и V4 Pro.

Заявленный прирост throughput: от 51% до 400% в зависимости от модели и случаев использования.

Смысл speculative decoding простой: маленькая или более быстрая модель заранее предлагает несколько следующих токенов, а основная модель проверяет их пачкой. Если предсказание совпадает, генерация идёт быстрее, потому что дорогих проходов большой модели становится меньше.

DeepSeek показывает ускорение не только на своих V4 Flash и Pro, но и на других моделях, включая Gemma и Qwen.

Это потенциально довольно полезный inference-подход для разных open-weight моделей.

Для продакшена это важная история.

Если качество ответа остаётся близким, а throughput растёт в разы, можно обслуживать больше запросов на том же железе или снижать стоимость генерации.

GitHub:
https://github.com/deepseek-ai/DeepSpec

Paper:
https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf

HF:
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥105❤13👍9🥰9👏2

20.4K viewsedited 14:46

Machinelearning

✔️

Власти США разрешили избранным американским компаниям использовать Mythos

Список допущенных корпораций не раскрываются, но известно что их число около 100.

Это разрешение стало первым послаблением после введения госконтроля над распространением продуктов Anthropic.

Правительство классифицирует Mythos как технологию двойного назначения, поэтому доступ предоставляется выборочно и только внутри страны.

По словам Министра торговли США, Anthropic согласилась сотрудничать с властями по протоколам, стандартам и выпуску своих моделей.

В Anthropic уточнили, что компания продолжит работать над расширением доступа к Mythos 5, а также над снятием запрета с Fable 5.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥79🤬30❤14😁9👍4👻4🫡4🤔1🎅1

13.3K views14:18

About

Blog

Apps

Platform