Machinelearning

✔️

GPT-5.6 Sol читерит на тестах и пока не способна к автономной разработке ИИ

METR опубликовала предрелизный аудит модели GPT-5.6 Sol от OpenAI. При выполнении программных заданий она регулярно пыталась использовать уязвимости тестовой среды и извлекать скрытый исходный код с ответами.

Из-за использования эксплойтов исследователи не смогли достоверно замерить автономность алгоритма.

Если классифицировать попытки извлечь ответы как ошибку, GPT-5.6 Sol способна самостоятельно работать над задачами около 11 часов.

Если засчитывать обход среды как успешное решение, показатель превышает 270 часов.

Несмотря на сложности с оценкой, в METR пришли к выводу, что навыки GPT-5.6 Sol не совершили революционного скачка.

Обнаружение попыток обхода означает, что текущие системы мониторинга справляются с фиксацией подобных действий алгоритма.

Настоящая угроза безопасности возникнет тогда, когда следующие поколения моделей научатся безупречно маскировать свои намерения и незаметно обходить инструменты контроля.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔86🤣84👍37🤨14❤8😐7🔥5😁4

18.9K views05:25

Machinelearning

На эти вопросы правильно ответят только 5% айтишников…

И вы будете в их числе, если хорошо разбираетесь в теме ИИ и машинного обучения. Приготовьтесь блеснуть знаниями и получить приятные бонусы. 6 июля Selectel запускает третий сезон ИТ-кроссворда — онлайн-соревнования для всех, кто интересуется технологиями.

С 6 по 9 июля каждый день будет открываться новая рубрика с вопросами: от базовых про большие языковые модели до более углубленных про железо для инференса. Набирайте баллы за верные ответы и выигрывайте эксклюзивный мерч Selectel и бонусы на аренду серверов.

Зарегистрируйтесь и получите ссылку для участия → https://slc.tl/wyc77

Реклама. АО "Селектел". erid:2W5zFHaB5DT

🎉46🦄14👍13😁11❤5🤣4🤓4🌚2😎2🔥1

17.4K views08:03

✔️

OpenAI переманила главного разработчика Apple Vision Pro

Вице-президент Apple по аппаратному обеспечению Пол Мид, 7 лет работавший над проектом Vision Pro, перешел в OpenAI. Он присоединится к разработке физических ИИ-устройств.

Мид будет работать в команде с дизайнером Джони Айвом и еще двумя бывшими топ-менеджерами Apple. Спецификации будущих гаджетов не раскрываются. По словам Сэма Альтмана, задача нового оборудования - обеспечить взаимодействие с ИИ вне интерфейса смартфонов.

Мид уволился из Apple на фоне реструктуризации. Из-за изменения цепочки подчинения он потерял прямой доступ к высшему руководству корпорации. Пост Мида в Apple занял его бывший заместитель.
bloomberg.com

✔️

Южная Корея инвестирует $650 млрд в ИИ и полупроводники

Президент страны анонсировал 10-летнюю программу развития микроэлектроники, ИИ и робототехники с бюджетом $650 млрд. Центральный элемент стратегии - строительство нового полупроводникового кластера на юго-западе страны.

Проект реализуют Samsung Electronics и SK Group. Правительство обеспечит базовую инфраструктуру: электричество, воду, транспортные сети, а также строительство жилья и подготовку инженерных кадров.
firstpost.com

✔️

Amazon дистиллирует модели Anthropic для внутренних задач

Компания создает компактные модели, обучаемые на инференсе Claude, чтобы избежать скачка расходов. Со следующего года Amazon откажется от почасовой оплаты за компьют Anthropic и перейдет на тарификацию за токены.

На данный момент платформа Amazon Bedrock предлагает клиентам услугу дистилляции для моделей Nova и Llama. Использование семейства Claude для аналогичной процедуры пока доступно только инженерам самой Amazon.

Параллельно корпорация развивает собственную линейку моделей, чтобы диверсифицировать риски и снизить зависимость от одного вендора ИИ.
theinformation.com

✔️

Институт Аллена обновил открытую модель для анализа спутниковых снимков до v1.2

В мажорном обновлении OlmoEarth отказались от стандартных позиционных сигналов в пользу RoPE. Переход устранил артефакты в выходных эмбеддингах и улучшил качество представления данных. Рост производительности зафиксирован в бенчмарках kNN и linear-probe для всех версий модели.

Архитектура OlmoEarth поддерживает мультимодальный анализ и обрабатывает мультиспектральные снимки Sentinel-2 и Landsat, радарные данные Sentinel-1, глобальные карты рельефа и индексы растительности.

Семейство включает 4 размера: Nano, Tiny, Small и Base. Веса моделей опубликованы на Hugging Face. Код и скрипты для дообучения доступны на GitHub.
Ai2 с сети Х

✔️

ИИ разрушает классическую бизнес-модель консалтинга

Руководство Deloitte прогнозирует отказ от почасовой оплаты консалтинга из-за развития ИИ-агентов. На внутреннем собрании в компании заявили, что к 2035 году автономные модели займут основную долю рынка профессиональных услуг.

Вместо продажи человеко-часов консалтинговые корпорации переходят на IT-модель - подписки и решения с фиксированной ценой. McKinsey и Boston Consulting Group внедряют ценообразование, привязанное к результатам работы.

По данным WSJ, на подобные контракты у McKinsey приходится более 30% выручки.
wsj.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍105❤37🔥17👏10🤔8

19.8K views09:10

Machinelearning

По сообщениям, OpenAI нашла новые оптимизации инференса, которые снизили стоимость запуска моделей больше чем в два раза.

По данным The Information, инженеры в этом месяце рассказывали коллегам, что эти техники в какой-то момент позволили обслуживать ChatGPT для посетителей без бесплатных или платных аккаунтов всего на нескольких сотнях GPU Nvidia.

Точный метод пока не раскрыт. Это может быть квантизация, KV caching, batching, маршрутизация простых запросов на более дешёвые модели или комбинация всех этих подходов.

OpenAI закончила Q1 с gross margin 39% и хочет выйти на 52% к концу года. Более дешёвый инференс даёт компании пространство: улучшать маржу, поднимать лимиты ChatGPT или снижать ценовое давление API для разработчиков.

Moat OpenAI всё сильнее смещается в сторону инференса и преимущества по стоимости, особенно на фоне Anthropic.

https://www.theinformation.com/newsletters/ai-agenda/openai-discovers-new-way-cut-inference-costs-half

@ai_machinelearning_big_data

🤩82🔥36❤20👏18👍15👌9🙈4🥰1

17.7K viewsedited 16:06

Machinelearning

Forwarded from Анализ данных (Data analysis)

⚡️

Google открыла Nano Banana 2 Lite и Gemini Omni Flash

Google выкатила два новых инструмента для генеративных медиа: Nano Banana 2 Lite для быстрых изображений и Gemini Omni Flash для видео и conversational editing.

Nano Banana 2 Lite - самая быстрая и дешёвая image-модель в линейке Nano Banana. Она рассчитана на high-throughput пайплайны, прототипирование и массовую генерацию, где важны скорость и цена. Google заявляет около 4 секунд на text-to-image и цену $0.034 за 1K image. При этом модель сохраняет нормальное следование промпту, стабильность персонажей и читаемый текст внутри изображения.

Gemini Omni Flash - модель для генерации и редактирования видео через текст, изображения и видео-референсы. Её можно использовать для natural language video editing, мультимодальных сцен, синхронизации текста с действием и быстрых итераций. Цена заявлена на уровне $0.10 за секунду видео, как у Veo 3.1 Fast.

Сначала Nano Banana 2 Lite быстро генерирует изображение, потом Omni Flash превращает его в видео. Через Interactions API можно сохранять историю сессии и делать до трёх последовательных правок.

Ограничения у Omni Flash пока есть: генерация до 10 секунд, audio references и scene extension в API ещё не поддерживаются, а длинные video references пока обрабатываются неидеально.

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡51👍19❤17👏7🔥4🤩4👌3🕊1💯1💔1

17.1K views16:25

Machinelearning

Anthropic выкатила Claude Sonnet 5 - мощнейший «агентный» Sonnet в линейке.

Модель теперь лучше планирует, пользуется инструментами, браузером, терминалом и может дольше вести сложные задачи без постоянного контроля.

По словам Anthropic, Sonnet 5 приблизился к Opus 4.8 по агентным задачам, но стоит дешевле. Особенно упор сделали на кодинг, tool use, reasoning и работу с многошаговыми процессами.

Модель уже доступна во всех планах Claude, включая Free и Pro, а также в Claude Code и API.

Цена для разработчиков до 31 августа 2026:

• $2 за 1 млн input tokens
• $10 за 1 млн output tokens

Потом стандартная цена:

• $3 за input
• $15 за output

Интересный момент: Anthropic отдельно пишет, что Sonnet 5 безопаснее Sonnet 4.6 в агентных сценариях, лучше отказывается от вредных запросов и устойчивее к prompt injection.

По сути, это попытка сделать «рабочую лошадку» для AI-агентов: не самую дорогую, но достаточно сильную, чтобы закрывать кодинг, автоматизацию, браузерные задачи и долгие пайплайны.

https://www.anthropic.com/news/claude-sonnet-5

1👍105🤩34❤25👏12🥱8🔥3🥰3🤔3❤‍🔥1

29.9K viewsedited 18:04

Machinelearning

0:00

This media is not supported in your browser

VIEW IN TELEGRAM

⚡️

Власти США сняли экспортные ограничения на Fable 5 и Mythos 5

Минторг США официально отменил ограничения, наложенные ранее на Claude Fable 5 и Mythos 5.

В Anthropic подтвердили, что полноценный доступ к моделям для будет открыт уже завтра.

Создатели поблагодарили аудиторию за терпение в период вынужденной приостановки сервисов, а также выразили признательность всем специалистам, помогавшим в повторном развертывании систем.

Ожидается, что в ближайшее время Anthropic выпустит патчноуты с дополнительной информацией и раскроет дальнейшие планы по развитию линейки.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍87⚡33😁19❤13👏7🎉4🌭4🔥3🙉3🤨2🤝1

21.9K views06:25

✔️

OpenAI анонсировала клавиатуру под Codex

Создатель ChatGPT cовместно с производителем периферии Work Louder выпустит клавиатуру Codex для разработчиков. Официальная презентация и публикация характеристик запланированы на 15 июля.

Судя по тизеру, контроллер базируется на мини-клавиатуре Creator Micro 2. В базовой версии девайс оснащен 13 механическими переключателями, аналоговым джойстиком и сенсорными панелями для настройки макросов и быстрых команд.

Ожидается, что устройство получит аппаратную интеграцию с моделями OpenAI для генерации кода и вызова ИИ-ассистентов в одно нажатие.
OpenAI Developers в сети Х

✔️

Anthropic представила среду для научных вычислений

Claude Science - ИИ-среда для научных исследований, в которой представлены более 60 настроенных навыков для геномики, протеомики и хемоинформатики.

Платформа интегрирована с Nvidia BioNeMo и дает доступ к моделям Evo 2, Boltz-2 и OpenFold3. Среда позволяет анализировать литературу, визуализировать данные и писать черновики статей, а встроенный агент верификации проверяет точность расчетов и цитирований.

Приложение запускается локально на macOS или Linux и подключается к удаленным серверам. Чувствительные данные остаются во внутренней инфраструктуре, облачной модели передается только необходимый контекст. Нагрузка масштабируется от одного до сотен GPU.

Бета-версия доступна на тарифах Pro, Max, Team и Enterprise. До 15 июля Anthropic распределит до 50 грантов по 30 000 долларов в виде вычислительных кредитов.
anthropic.com

✔️

Релиз LongCat-2.0: первая LLM, обученная на китайских чипах

Китайская компания Meituan представила модель на 1,6 трлн параметров с контекстом 1 млн токенов. Полный цикл претрейна и инференса прошел на кластере из 50 тыс отечественных ASIC.

Поставщик ускорителей не назван, но использование библиотеки HCCL указывает на архитектуру Huawei. Ранее локальное железо массово применяли преимущественно для инференса, а обучение оставалось слабым местом.

По тестам LongCat-2.0 обходит Gemini 3.1 Pro в кодинге и агентных сценариях на Terminal-Bench 2.1 и SWE-Bench Pro. Модель пока уступает GPT-5.5 и Claude 4.8 Opus.

LongCat-2.0 доступна через API Meituan и OpenRouter. Веса ожидаются на Hugging Face.
longcatai.org

✔️

Генерация изображений в Gemini стала бесплатной для пользователей США

Google открыла базовым аккаунтам из США бесплатный доступ к персонализированной генерации изображений в Gemini. Ранее инструмент на базе движка Nano Banana был доступен только в тарифах Plus, Pro и Ultra.

Для формирования контекста Gemini анализирует данные из Gmail, YouTube, истории поиска и Google Фото. Система напрямую подтягивает снимки пользователя из облака, заменяя ручную загрузку исходников.

Функция работает в рамках инструмента Personal Intelligence, развертывание которого идет с весны. Доступ к данным определяет пользователь, он сам выбирает приложения для интеграции с ассистентом.
blog.google

✔️

Ford вернул в штат 300 инженеров после неудачного внедрения ИИ

Автопроизводитель вернул в штат QA-инженеров после неудачного внедрения автоматизированного контроля качества. Ранее компания установила сотни CV-камер для проверки производственных деталей на соответствие проектным требованиям.

Системам машинного зрения не хватило данных о специфических и реальных дефектах. Большинство опытных специалистов покинули Ford до того, как их экспертизу формализовали и перенесли в обучающие датасеты.

Сейчас вернувшиеся занимаются сбором данных, дообучением CV-алгоритмов и менторством младшего персонала.
bbc.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣43❤9🔥6👍4🙏2

16.2K views08:55

Machinelearning

⚡️ Инженеры AI VK выкатили нейропоиск Discovery AI.

Это не банальный чат-бот, а движок для рекомендаций, который ищет ответы строго внутри контентной базы продуктов VK.
Система учитывает интересы пользователя внутри сервисов, обрабатывает до 3 000 поисковых запросов в секунду и выдает релевантный ответ меньше чем за полсекунды.

Внутри — собственная LLM и целая цепочка ML-моделей, которые обучили на миллиардах примеров пользовательских запросов. Движок работает на единой Discovery-платформе и позволит усилить персонализацию контента с учетом данных из разных сервисов VK.

Технологию можно адаптировать под разные сценарии. Например, в дейтинге для поиска потенциальных мэтчей по определенному запросу или в рекомендациях контентных сервисов: подобрать музыкальный плейлист или выбрать фильм на вечер. Обновление поэтапно появится в VK Видео, Медиапроектах Mail и других продуктах VK.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

😁59🤣55❤13👍8🔥6🙈4🌚3🗿3🍾2💅1

11.8K views14:48

Machinelearning

✔️

Cognition разработала архитектуру, которая снижает затраты на программирование на 35%

Американская лаборатория прикладного ИИ представила гибридную архитектуру Devin Fusion для автоматизации кодинга.

На бенчмарке FrontierCode система снижает затраты на генерацию кода на 35% без падения качества.

Devin Fusion использует динамическую маршрутизацию и концепцию напарника. Система оценивает сложность задачи в реальном времени и переключает запросы между моделями с применением сжатия контекста.

Тяжелая LLM планирует архитектуру, уточняет требования и проводит ревью. Легкий агент пишет базовый код, тесты и валидирует результаты. Для предотвращения конфликтов модели используют независимые кэши контекста.

В связке с GPT-5.5 и Claude 4.8 Opus архитектура экономит больше трети ресурсов, с Fable 5 - до 41%.

Внутри Cognition гибридная маршрутизация уже закрывает 88% успешных PR.

Главное ограничение системы в кейсах со сложной бизнес-логикой (например, в связке React/Redux).

Избыточное делегирование кросс-файловых задач младшей модели снижает результативность почти в 2 раза.

Devin Fusion доступен только на платформе Cognition.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤18👍13🔥4😁3🤣3💯1

9.95K views16:05

Machinelearning

https://t.me/ai_machinelearning_big_data

✔️

МТС и НИУ ВШЭ открыли набор на третий поток магистратуры по ИИ

МТС и факультет компьютерных наук НИУ ВШЭ объявили о старте набора на третий поток магистерской программы «Исследования и предпринимательство в искусственном интеллекте». Обучение пройдет в московском кампусе ВШЭ, для студентов предусмотрено 30 оплачиваемых мест от компании.

Программу обновили с учетом запросов рынка. В нее вошли курсы по генеративному ИИ, интеллектуальным агентным системам, проектированию ML-систем, а также дисциплины по большим языковым моделям, машинному обучению и видеоаналитике.

Лучшие студенты смогут получить приглашение на стажировку или работу в МТС Web Services еще во время обучения. Заявки можно оставить по ссылке.

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣16👍6❤3🔥1🙊1

8.5K views17:15

Machinelearning

📌

Claude Code более автономен, чем чат-бот

На выходных Anthropic опубликовала свежий отчёт Economic Index об использовании своих моделей.

Компания выпускает его нерегулярно (раз в 2-3 месяца), по мере накопления значимых изменений в методологии или данных. Предыдущая публикация была в марте.

Главный инсайт: то, сколько решений мы готовы отдавать ИИ, зависит не от самой модели, а от того, как именно запакован продукт.

Степень автономии, которую мы даем Claude в обычном веб-чате (или Cowork) и в Claude Code замеряли по шкале от 1 до 5, где 1- это почти никакой самостоятельности, а 5 - экстремальная.

Результат определил, что характер работы над одинаковыми задачами кардинально меняется. Например, чтобы написать статью или пост в чате, требуется медианно 13 раундов диалогового пинг-понга с моделью. В Claude Code на ту же задачу уходит ровно один промпт.

Логично списать это на то, что в Code 54% сессий обслуживает Opus (против 10% в чате). Но нет, это не просто фича большей модели - на Sonnet картина такая же.

🟡

Цифры

+0.37 балла - средний отрыв в уровне автономии в пользу Claude Code по всем задачам;

+0.53 балла - отрыв конкретно для кодинга. В 26 из 31 категории результатов агентный интерфейс бьёт обычный чат.

Отчёт, кстати, построен на новой телеметрии, которая собирает данные ежечасно, а не семидневными выборками, как раньше.

Это позволило впервые увидеть и недельные, и суточные ритмы использования: всплеск личных запросов на выходных, пик просьб о рецептах в шесть вечера, запросы о сне под утро.

Отдельная часть отчёта - первые результаты опроса пользователей Claude, в котором участвовали около 9700 респондентов.

Он показал, что люди, которые делегируют ИИ задачи целиком, смотрят на свои перспективы оптимистичнее остальных и чаще ожидают роста зарплаты или сохранения работы, а не наоборот, как можно было бы предположить.

Гендерный факт.

У женщин доля сессий в Claude Code существенно ниже. Они используют Claude более итеративно, как партнера-собеседника, и проводят в чате больше активного времени, тогда как мужчины чаще пытаются скинуть задачу целиком и забыть.

🟡

Автономия пока стоит дорого

Корреляция между делегированием и сожженными токенами очень сильная (r = 0,68). Чем дороже и ценнее профессия/задача, тем больше токенов она потребляет.

Причём полная передача руля не значит, что вы будете лежать на диване. В высокоценных задачах люди сами делают больше запросов и регулярно включают расширенный ризонинг у модели.

@ai_machinelearning_big_data

#AI #ML #Research #EconomicIndex #Anthropic

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣13❤9👍4🔥2

5.94K views18:22

About

Blog

Apps

Platform