This media is not supported in your browser
VIEW IN TELEGRAM
Митап RecSys в Питере — must-have для всех, кто создаёт интеллектуальные рекомендательные системы 🧑💻
1 декабря встречаемся в инновационном пространстве — Технохабе Сбера (ул. Уральская, д. 1, Литера Ч) — и на стыке науки и бизнеса обсуждаем, как уже сейчас AI меняет подход к персонализации.
Вместе с Дмитрием Бугайченко — CDS B2C Сбера — и топовыми экспертами индустрии мы погрузимся в актуальные тренды и технологии RecSys, познакомимся с новыми рекомендациями Самоката и универсальными рекомендациями Okko, а также узнаем о построении рекомендателя в платёжных сервисах ЮMoney.
Регистрируйтесь, пока места ещё есть — и готовьтесь к погружению в мир рекомендательных систем!
1 декабря встречаемся в инновационном пространстве — Технохабе Сбера (ул. Уральская, д. 1, Литера Ч) — и на стыке науки и бизнеса обсуждаем, как уже сейчас AI меняет подход к персонализации.
Вместе с Дмитрием Бугайченко — CDS B2C Сбера — и топовыми экспертами индустрии мы погрузимся в актуальные тренды и технологии RecSys, познакомимся с новыми рекомендациями Самоката и универсальными рекомендациями Okko, а также узнаем о построении рекомендателя в платёжных сервисах ЮMoney.
Регистрируйтесь, пока места ещё есть — и готовьтесь к погружению в мир рекомендательных систем!
❤3
Forwarded from Machinelearning
Логан Килпатрик из команды DeepMind беседует с Кораем Кавукчуоглу, CTO DeepMind и по совместительству новым главным архитектором Google по искусственному интеллекту.
Корай Кавукчуоглу рассказал о своих взглядах на текущее состояние ИИ, архитектуру Gemini и стратегию Google по достижению AGI. Он считает, что это «новая эра», где технологии стремительно меняются, и что ближайшие 6 месяцев обещают быть такими же захватывающими, как и предыдущие.
Основные темы интервью:
Недавний запуск Gemini 3 получился суперпозитивным. Но прогресс не замедляется, и Gemini 3, подобно 2.5, снова «отодвинула рубеж по ряду измерений». Центральная философия Google в том, что AGI будет «совместно создаваться с нашими клиентами». Это не чисто исследовательская работа, проводимая в изоляции, а совместное усилие с миром, требующее инженерного мышления.
Несмотря на то, что модели Google достигают лидирующих позиций на бенчмарках, истинное мерило прогресса в реальном применении. Старые бенчмарки перестают определять текущий рубеж, и новая мера успеха — это предоставление большей ценности в реальном мире, где модели используют ученые, студенты, юристы и инженеры.
Приоритеты для улучшения в будущих версиях Gemini Pro:
Интеграция- важная тема для сбора фидбэка от пользователей, который необходим для понимания того, как нужно улучшать модели. Риск для Gemini заключается не в отсутствии масштабирования, а в исчерпании инноваций. Поэтому Google DeepMind и Google Research должны постоянно заниматься исследованиями, чтобы находить новые идеи, которые будут питать «двигатель ИИ» Google.
Генеративные медиа-модели сходятся с текстовыми моделями. Яркий пример - Nano Banana Pro, которая показала, как слияние понимания мира из текста с пониманием из изображений позволяет модели создавать более детализированные и концептуально связные изображения, например, инфографику на основе сложных документов.
Фоном идет история о личном пути Корая Кавукчуоглу : от исследователя Deep Learning в DeepMind в 2012 году до текущей руководящей роли.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥1
В свежей работе из Стэнфорда показывают неожиданный, но очень важный вывод: многие популярные LLM-бенчмарки дают искажённую картину.
Причина проста, большинство тестов используют один фиксированный промпт. Но разные модели сильно зависят от формулировки задачи.
Поэтому итоговая оценка часто показывает не «насколько модель сильная», а «насколько удачно ей подошла конкретная формулировка».
Авторы предлагают посмотреть на это иначе: что будет, если дать каждой модели шанс использовать лучший промпт?
Для экспериментов они связали HELM (suite для оценки моделей) и DSPy (инструмент для построения структурированных промптов).
Пробовали несколько стилей:
- простой короткий ответ
- ответ с пошаговыми рассуждениями
- примеры + поиск лучшего промпта
Пошаговые рассуждения дали основной прирост. Модель сначала пишет ход мысли, а потом ответ - и это заметно повышает точность.
Результаты на четырех моделях и семи бенчмарках (общих и медицинских):
- структурированные промпты повышают точность примерно на 4%
- в некоторых случаях меняют порядок моделей в рейтинге
- поиск оптимальных промптов даёт небольшой прирост, но тратит много токенов
- основной эффект идёт именно от chain-of-thought
Главный вывод:
справедливая оценка моделей должна тестировать их не на одном фиксированном промпте, а на их лучшей версии задачи, особенно с цепочкой рассуждений.
Paper: "Structured Prompting Enables More Robust, Holistic Evaluation of Language Models"
arxiv.org/abs/2511.20836
Причина проста, большинство тестов используют один фиксированный промпт. Но разные модели сильно зависят от формулировки задачи.
Поэтому итоговая оценка часто показывает не «насколько модель сильная», а «насколько удачно ей подошла конкретная формулировка».
Авторы предлагают посмотреть на это иначе: что будет, если дать каждой модели шанс использовать лучший промпт?
Для экспериментов они связали HELM (suite для оценки моделей) и DSPy (инструмент для построения структурированных промптов).
Пробовали несколько стилей:
- простой короткий ответ
- ответ с пошаговыми рассуждениями
- примеры + поиск лучшего промпта
Пошаговые рассуждения дали основной прирост. Модель сначала пишет ход мысли, а потом ответ - и это заметно повышает точность.
Результаты на четырех моделях и семи бенчмарках (общих и медицинских):
- структурированные промпты повышают точность примерно на 4%
- в некоторых случаях меняют порядок моделей в рейтинге
- поиск оптимальных промптов даёт небольшой прирост, но тратит много токенов
- основной эффект идёт именно от chain-of-thought
Главный вывод:
справедливая оценка моделей должна тестировать их не на одном фиксированном промпте, а на их лучшей версии задачи, особенно с цепочкой рассуждений.
Paper: "Structured Prompting Enables More Robust, Holistic Evaluation of Language Models"
arxiv.org/abs/2511.20836
❤7🔥3👍2
⚡️ Классический алгоритм на CPU обошёл нейросети на GPU в решении задач по геометрии уровня IMO
Исследователи из Microsoft, ETH Zurich и Калифорнийского университета представили HAGeo, это новый решатель задач по евклидовой геометрии, который удивил даже авторов. Без нейросетей, без GPU, только набор продуманных эвристик - и результат уровня золотой медали.
Главное, что показал HAGeo:
- Решает 28 из 30 стандартных задач IMO по геометрии - это уровень золота.
- Работает примерно в 20 раз быстрее, чем нейросетевая система AlphaGeometry, которой нужны мощные GPU.
- Исследование показало неожиданный факт: если просто случайно добавлять вспомогательные точки (те самые «хитрые точки», которые школьники придумывают на олимпиадах), CPU-система уже выходит на уровень серебра.
На основе этого наблюдения авторы создали небольшой набор умных правил:
- выбирать точки пересечения, середины, отражения;
- использовать перпендикуляры и точки, которые «попадают» сразу на несколько объектов;
- после каждой попытки запускать быстрый движок геометрической дедукции и алгебры.
Каждая задача превращается в короткое текстовое описание точек, линий и окружностей, дальше алгоритм перебирает разумные вспомогательные конструкции и проверяет, приводит ли новая конфигурация к решению.
Дополнительно представлен набор HAGeo 409 — 409 более сложных олимпиадных задач, где HAGeo снова обгоняет и AlphaGeometry, и случайный поиск.
Вывод простой: хорошо продуманная эвристика и алгоритмика всё ещё способны превосходить крупные нейросети в отдельных задачах, особенно там, где структура предметной области очень строгая.
🔗 Статья: arxiv.org/abs/2512.00097
Исследователи из Microsoft, ETH Zurich и Калифорнийского университета представили HAGeo, это новый решатель задач по евклидовой геометрии, который удивил даже авторов. Без нейросетей, без GPU, только набор продуманных эвристик - и результат уровня золотой медали.
Главное, что показал HAGeo:
- Решает 28 из 30 стандартных задач IMO по геометрии - это уровень золота.
- Работает примерно в 20 раз быстрее, чем нейросетевая система AlphaGeometry, которой нужны мощные GPU.
- Исследование показало неожиданный факт: если просто случайно добавлять вспомогательные точки (те самые «хитрые точки», которые школьники придумывают на олимпиадах), CPU-система уже выходит на уровень серебра.
На основе этого наблюдения авторы создали небольшой набор умных правил:
- выбирать точки пересечения, середины, отражения;
- использовать перпендикуляры и точки, которые «попадают» сразу на несколько объектов;
- после каждой попытки запускать быстрый движок геометрической дедукции и алгебры.
Каждая задача превращается в короткое текстовое описание точек, линий и окружностей, дальше алгоритм перебирает разумные вспомогательные конструкции и проверяет, приводит ли новая конфигурация к решению.
Дополнительно представлен набор HAGeo 409 — 409 более сложных олимпиадных задач, где HAGeo снова обгоняет и AlphaGeometry, и случайный поиск.
Вывод простой: хорошо продуманная эвристика и алгоритмика всё ещё способны превосходить крупные нейросети в отдельных задачах, особенно там, где структура предметной области очень строгая.
🔗 Статья: arxiv.org/abs/2512.00097
❤7🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Салют, Гига! — пространство для AI-инженеров
10 декабря разработчики GigaChat и Kandinsky расскажут и покажут, что сделали за этот год.
В программе — доклады, постеры, живые демонстрации и воркшопы от команд, которые каждый день обучают модели, собирают датасеты, запускают инференс и поддерживают продакшен-сервисы.
Это хорошая возможность пообщаться с командами, которые создавали открытые модели GigaChat 3 Ultra Preview & Lightning и Kandinsky 5.0. Вы сможете посмотреть на их пайплайны обучения и понять, как применять модели в своих задачах — от pet-проектов до промышленной разработки.
Участие бесплатное, но нужна регистрация.
Ждем всех на «Салют, Гига», кому интересен AI в open source!
10 декабря разработчики GigaChat и Kandinsky расскажут и покажут, что сделали за этот год.
В программе — доклады, постеры, живые демонстрации и воркшопы от команд, которые каждый день обучают модели, собирают датасеты, запускают инференс и поддерживают продакшен-сервисы.
Это хорошая возможность пообщаться с командами, которые создавали открытые модели GigaChat 3 Ultra Preview & Lightning и Kandinsky 5.0. Вы сможете посмотреть на их пайплайны обучения и понять, как применять модели в своих задачах — от pet-проектов до промышленной разработки.
Участие бесплатное, но нужна регистрация.
Ждем всех на «Салют, Гига», кому интересен AI в open source!
❤3
Forwarded from Machinelearning
Исследовательская группа DeepReinforce разработала систему полностью автоматического написания GPU-кода для матричного умножения под названием CUDA-L2.
Этот код работает на 10–30% быстрее, чем cuBLAS и cuBLASLt, а это, на минуточку, уже оптимизированные библиотеки от самой NVIDIA.
Обычно такие библиотеки создаются вручную людьми, которые используют готовые шаблоны ядер. А автотюнеры лишь подкручивают параметры, например, размер тайлов.
Но DeepReinforce считают, что даже критически важные и глубоко оптимизированные задачи, как HGEMM, могут быть улучшены с помощью LLM, работающей в связке с RL.
В системе CUDA-L2 языковая модель буквально пишет исходный код CUDA с нуля для каждого размера матрицы. Она не просто меняет параметры, она может менять структуру кода, циклы, стратегию тайлинга, паддинг и даже свизл-паттерны. А еще, она сама выбирает стиль программирования - будь то сырой CUDA, CuTe, CUTLASS или inline PTX.
Процесс выглядит так: цикл RL запускает сгенерированные ядра на реальном железе, измеряет скорость и корректность, а затем обновляет LLM. Со временем модель выводит свои собственные правила производительности, вместо того чтобы полагаться на знания, заложенные людьми.
В качестве генератора использовалась модель DeepSeek 671B. Ее дополнительно доучили на смеси массива CUDA-ядер и качественном коде из библиотек PyTorch, ATen, CUTLASS и примеров от NVIDIA.
Для претрейна и файнтюна LLM большая часть времени GPU тратится именно на операции матричного умножения HGEMM. Если ускорить эти ядра на те самые 10–30%, которые обещает CUDA-L2, то весь процесс обучения становится заметно дешевле и быстрее.
Поскольку CUDA-L2 обрабатывает около 1000 реальных размеров матриц, а не пару вручную настроенных, ускорение работает для самых разных архитектур. Это значит, что в тот же бюджет на GPU можно вместить больше токенов обучения, больше прогонов SFT или RLHF и т.д.
HGEMM-ядра, созданные CUDA-L2, стабильно быстрее стандартных библиотек.
В так называемом "оффлайн-сценарии" CUDA-L2 работает примерно на 17–22% быстрее, чем
torch.matmul, cuBLAS и cuBLASLt. Она даже на 11% обгоняет cuBLASLt AutoTuning, который сам по себе уже использует поиск ядра.А в "серверном", сценарии, который имитирует реальный инференс с паузами между вызовами - разница еще больше: буст в 24–29% по сравнению с
torch.matmul и cuBLAS.Простым рисёрчем проект не ограничен, в репозитории на Github авторы выложили оптимизированные ядра HGEMM A100 для 1000 конфигураций.
В планах: расширение на архитектуры Ada Lovelace, Hopper, Blackwell, поддержка более плотных конфигураций и 32-битный HGEMM.
@ai_machinelearning_big_data
#AI #ML #CUDA #DeepReinforce
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👎1🔥1🥰1
🔥 На stepik вышел курс, который учит Создавать настоящие AI-сервисы, а не просто запускать скрипты?
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
Этот практический курс по Python и FastAPI покажет, как собрать полноценное приложение с ИИ, базой данных, автогенерацией контента и Telegram-ботом.
Ты пройдёшь путь от первого HTTP-запроса до рабочего сервиса, который сам генерирует текст через ИИ, сохраняет данные, отправляет результаты по расписанию и отвечает пользователям.
Никакой теории ради теории - только практические шаги, из которых рождается реальный продукт.
🎁 48 часов действует скидка в 40% процентов
👉 Начать учиться на Stepik
❤4🔥1
🧠 Новая работа IBM и Колумбийского университета показывает, как AI-агент может находить связи между предсказательными рынками и превращать их в сигналы для трейдинга.
В тестах найденные агентом связи дали простую стратегию с ~20% средней доходностью на недельных сделках.
Предсказательные рынки — это площадки, где люди торгуют “да/нет” ставками на будущие события, а цены отражают коллективные ожидания.
Проблема в том, что там часто есть куча почти одинаковых вопросов → деньги и внимание дробятся, а естественные связи между событиями скрываются.
Авторы построили AI-pipeline, который:
• читает текст рынков,
• группирует похожие вопросы в кластеры,
• ищет пары взаимосвязанных рынков.
Далее агент прогнозирует: должны ли два связанных рынка обычно решаться одинаково или наоборот — противоположно.
Проверка на исторических данных Polymarket показала, что 60–70% связей высокой уверенности оказались правильными.
Правило “торгуй вторым рынком после того, как первый закрылся” приносило прибыль большинство месяцев — то есть смысловые связи действительно несут экономическую информацию.
arxiv.org/abs/2512.02436
В тестах найденные агентом связи дали простую стратегию с ~20% средней доходностью на недельных сделках.
Предсказательные рынки — это площадки, где люди торгуют “да/нет” ставками на будущие события, а цены отражают коллективные ожидания.
Проблема в том, что там часто есть куча почти одинаковых вопросов → деньги и внимание дробятся, а естественные связи между событиями скрываются.
Авторы построили AI-pipeline, который:
• читает текст рынков,
• группирует похожие вопросы в кластеры,
• ищет пары взаимосвязанных рынков.
Далее агент прогнозирует: должны ли два связанных рынка обычно решаться одинаково или наоборот — противоположно.
Проверка на исторических данных Polymarket показала, что 60–70% связей высокой уверенности оказались правильными.
Правило “торгуй вторым рынком после того, как первый закрылся” приносило прибыль большинство месяцев — то есть смысловые связи действительно несут экономическую информацию.
arxiv.org/abs/2512.02436
❤5🔥1🥰1
Forwarded from Анализ данных (Data analysis)
🚀 Вышел Qwen-Image-i2L от DiffSynth-Studio - первый open-source инструмент, который умеет делать LoRA-модель из одной картинки. 🖼️➡️🧠
Что можно извлекать из изображения:
🎨 Style — только стиль и эстетика
🧩 Coarse — стиль + содержание сцены
✨ Fine — улучшение детализации 1024×1024 (используется вместе с Coarse)
⚖️ Bias — подстройка под фирменный визуальный почерк Qwen-Image
Модель построена на SigLIP2 + DINOv3 + Qwen-VL.
Итог — можно взять одну картинку и быстро натренировать под неё собственную LoRA, без больших датасетов.
🔗 ModelScope: modelscope.cn/models/DiffSynth-Studio/Qwen-Image-i2L/summary
💻 Код: github.com/modelscope/DiffSynth-Studio/blob/main/examples/qwen_image/model_inference_low_vram/Qwen-Image-i2L.py
Что можно извлекать из изображения:
🎨 Style — только стиль и эстетика
🧩 Coarse — стиль + содержание сцены
✨ Fine — улучшение детализации 1024×1024 (используется вместе с Coarse)
⚖️ Bias — подстройка под фирменный визуальный почерк Qwen-Image
Модель построена на SigLIP2 + DINOv3 + Qwen-VL.
Итог — можно взять одну картинку и быстро натренировать под неё собственную LoRA, без больших датасетов.
🔗 ModelScope: modelscope.cn/models/DiffSynth-Studio/Qwen-Image-i2L/summary
💻 Код: github.com/modelscope/DiffSynth-Studio/blob/main/examples/qwen_image/model_inference_low_vram/Qwen-Image-i2L.py
❤6
🧠 Новая работа Anthropic: как «локализовать» опасные знания внутри небольшого участка модели, а не размазывать их по всем весам.
Проблема:
LLM легко впитывают рискованные навыки из грязных датасетов - вредный контент может проскочить фильтры, попасть в обучение, а затем его почти невозможно полностью удалить. Обычно такие знания распределяются по всей сети.
Идея работы:
Исследователи заранее выделяют крошечную часть модели — небольшой набор нейронов и attention-голов - и обозначают его как «рискованную зону». Именно там должна храниться целевая опасная информация.
Как это работает:
- Во время обучения рискованные примеры обновляют только эту зону, сигналы градиента к остальным весам обнуляются.
- Нормальные примеры наоборот - обучаются с отключённой risky-зоной.
- После обучения исследователи обнуляют веса risky-зоны, удаляя опасные знания, но почти не трогая общие способности модели.
Почему это эффективно:
Ранние размеченные опасные данные «прокладывают путь» - вся дальнейшая утечка вредных знаний из неразмеченного или ошибочно размеченного датасета также направляется в ту же область. В результате вредные навыки не расползаются по всей модели.
Результаты:
- На задачах с билингвальными историями, а также с биологическими и военными темами из Википедии этот метод значительно лучше удаляет целевые знания, чем простая фильтрация данных.
- Модель становится гораздо устойчивее к adversarial fine-tuning, который обычно восстанавливает запрещённые навыки.
- Минус - требуется больше вычислительных ресурсов.
Это первые шаги к практическому и управляемому «удалению способностей» из LLM через локализацию знаний, а не через попытки чистить датасеты или послеобучение.
Paper: arxiv.org/abs/2512.05648
Проблема:
LLM легко впитывают рискованные навыки из грязных датасетов - вредный контент может проскочить фильтры, попасть в обучение, а затем его почти невозможно полностью удалить. Обычно такие знания распределяются по всей сети.
Идея работы:
Исследователи заранее выделяют крошечную часть модели — небольшой набор нейронов и attention-голов - и обозначают его как «рискованную зону». Именно там должна храниться целевая опасная информация.
Как это работает:
- Во время обучения рискованные примеры обновляют только эту зону, сигналы градиента к остальным весам обнуляются.
- Нормальные примеры наоборот - обучаются с отключённой risky-зоной.
- После обучения исследователи обнуляют веса risky-зоны, удаляя опасные знания, но почти не трогая общие способности модели.
Почему это эффективно:
Ранние размеченные опасные данные «прокладывают путь» - вся дальнейшая утечка вредных знаний из неразмеченного или ошибочно размеченного датасета также направляется в ту же область. В результате вредные навыки не расползаются по всей модели.
Результаты:
- На задачах с билингвальными историями, а также с биологическими и военными темами из Википедии этот метод значительно лучше удаляет целевые знания, чем простая фильтрация данных.
- Модель становится гораздо устойчивее к adversarial fine-tuning, который обычно восстанавливает запрещённые навыки.
- Минус - требуется больше вычислительных ресурсов.
Это первые шаги к практическому и управляемому «удалению способностей» из LLM через локализацию знаний, а не через попытки чистить датасеты или послеобучение.
Paper: arxiv.org/abs/2512.05648
👎5❤3👍3
🚨 Stanford показал, что AI уже превосходит профессиональных хакеров в реальном мире. И масштаб этого события многие пока не осознают.
Исследователи Stanford опубликовали работу, в которой сравнили людей и AI не в лабораторных условиях, а в настоящей корпоративной инфраструктуре.
Эксперимент был максимально приближен к реальности:
- 10 профессиональных pentester-ов
- живая университетская сеть
- около 8 000 реальных машин
- 12 подсетей
- продакшн-системы и реальные пользователи
В ту же среду они запустили автономного AI-агента под названием ARTEMIS.
Результат оказался ошеломляющим.
ARTEMIS превзошел 9 из 10 человеческих экспертов.
И это важно подчеркнуть:
- не CTF
- не статический анализ CVE
- не синтетический бенчмарк
Это была реальная enterprise-сеть с реальными последствиями.
Что показал ARTEMIS:
- 9 подтвержденных уязвимостей
- 82% валидных находок
- 2-е место в общем лидерборде
- без человеческого надзора
- без кастомных эксплойтов
- стоимость работы около 18 долларов в час
Для сравнения: средняя стоимость работы человека-pentester-а - около 60 долларов в час.
Почему AI оказался эффективнее:
- Люди вручную выбирали цели для атаки
- ARTEMIS создавал саб-агентов и атаковал несколько хостов параллельно
- Люди теряли зацепки или застревали в тупиковых направлениях
- ARTEMIS вел идеальную память, списки задач и автоматический триаж
- Люди не могли работать с устаревшими веб-интерфейсами
- ARTEMIS игнорировал браузер и напрямую эксплуатировал их через
Более того, ARTEMIS обнаружил уязвимости, которые не нашел ни один человек.
Что пока ограничивает его эффективность:
- Эксплойты, завязанные на GUI
- Более высокий уровень ложных срабатываний
Во всем остальном агент вел себя как полностью укомплектованная red team:
без усталости, без эмоций, без эго и с бесконечным терпением.
Главный вывод здесь простой и жесткий:
AI больше не просто помогает специалистам по безопасности.
AI начинает конкурировать с ними.
И в реальных условиях - уже выигрывает.
Это момент, когда offensive security начинает меняться необратимо.
📄 Статья: https://arxiv.org/abs/2512.09882
Исследователи Stanford опубликовали работу, в которой сравнили людей и AI не в лабораторных условиях, а в настоящей корпоративной инфраструктуре.
Эксперимент был максимально приближен к реальности:
- 10 профессиональных pentester-ов
- живая университетская сеть
- около 8 000 реальных машин
- 12 подсетей
- продакшн-системы и реальные пользователи
В ту же среду они запустили автономного AI-агента под названием ARTEMIS.
Результат оказался ошеломляющим.
ARTEMIS превзошел 9 из 10 человеческих экспертов.
И это важно подчеркнуть:
- не CTF
- не статический анализ CVE
- не синтетический бенчмарк
Это была реальная enterprise-сеть с реальными последствиями.
Что показал ARTEMIS:
- 9 подтвержденных уязвимостей
- 82% валидных находок
- 2-е место в общем лидерборде
- без человеческого надзора
- без кастомных эксплойтов
- стоимость работы около 18 долларов в час
Для сравнения: средняя стоимость работы человека-pentester-а - около 60 долларов в час.
Почему AI оказался эффективнее:
- Люди вручную выбирали цели для атаки
- ARTEMIS создавал саб-агентов и атаковал несколько хостов параллельно
- Люди теряли зацепки или застревали в тупиковых направлениях
- ARTEMIS вел идеальную память, списки задач и автоматический триаж
- Люди не могли работать с устаревшими веб-интерфейсами
- ARTEMIS игнорировал браузер и напрямую эксплуатировал их через
curl -k Более того, ARTEMIS обнаружил уязвимости, которые не нашел ни один человек.
Что пока ограничивает его эффективность:
- Эксплойты, завязанные на GUI
- Более высокий уровень ложных срабатываний
Во всем остальном агент вел себя как полностью укомплектованная red team:
без усталости, без эмоций, без эго и с бесконечным терпением.
Главный вывод здесь простой и жесткий:
AI больше не просто помогает специалистам по безопасности.
AI начинает конкурировать с ними.
И в реальных условиях - уже выигрывает.
Это момент, когда offensive security начинает меняться необратимо.
📄 Статья: https://arxiv.org/abs/2512.09882
👍6❤3👎2
Команда раскрыла RLAX - масштабируемый фреймворк обучения с подкреплением для LLM на TPU.
Что внутри RLAX:
- Архитектура parameter server
- Центральный тренер обновляет веса
- Огромные inference-флоты подтягивают веса и генерируют rollouts
- Оптимизировано под preemption и массовый параллелизм
- Специальные техники курирования данных и alignment
Результаты впечатляют:
- +12,8% к pass@8 на QwQ-32B
- Всего за 12 часов 48 минут
- Использовано 1024 TPU v5p
Что интерсеного:
- Apple явно экспериментирует с RL на очень больших масштабах
- TPU-ориентированная архитектура говорит о фокусе на эффективность, а не только на модель
- Прирост достигается не «магией модели», а инженерией системы обучения
- Это еще один сигнал, что RL для LLM переходит в фазу индустриальных пайплайнов
Название статьи:
RLAX: Large-Scale, Distributed Reinforcement Learning for
https://arxiv.org/pdf/2512.06392v1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍6🔥3
Иногда поиск понимает запрос буквально — и именно в этом начинается проблема.
Когда мы проектируем системы, мы рассчитываем на то, что поиск поможет пользователю найти то, что он имел в виду, а не просто совпадающие слова. Но классический полнотекстовый поиск часто упирается в ограничения: он видит текст, но не смысл, из-за чего на выходе получаем нерелевантные результаты.
На вебинаре karpovꓸcourses разберут, как компании переходят от полнотекстового поиска к векторному и почему это становится базовым инструментом для продуктов с большим каталогом. Поговорим о том, как обучить свою модель, внедрить ее без сложной инфраструктуры и получить быстрый эффект для бизнеса.
Спикер — Игорь Самарин, ML-инженер в области поиска и рекомендаций в Купере.
Увидьте реальные примеры применения векторного поиска в продуктах и получите структурное понимание технологии на бесплатном онлайн-вебинаре — https://clc.to/erid_2W5zFHxMcC8
Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFHxMcC8
Когда мы проектируем системы, мы рассчитываем на то, что поиск поможет пользователю найти то, что он имел в виду, а не просто совпадающие слова. Но классический полнотекстовый поиск часто упирается в ограничения: он видит текст, но не смысл, из-за чего на выходе получаем нерелевантные результаты.
На вебинаре karpovꓸcourses разберут, как компании переходят от полнотекстового поиска к векторному и почему это становится базовым инструментом для продуктов с большим каталогом. Поговорим о том, как обучить свою модель, внедрить ее без сложной инфраструктуры и получить быстрый эффект для бизнеса.
Спикер — Игорь Самарин, ML-инженер в области поиска и рекомендаций в Купере.
Увидьте реальные примеры применения векторного поиска в продуктах и получите структурное понимание технологии на бесплатном онлайн-вебинаре — https://clc.to/erid_2W5zFHxMcC8
Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627. erid: 2W5zFHxMcC8
❤3
🧠 Google представила BATS - Budget Aware Test-time Scaling
Идея простая и очень показательная: давать агенту больше tool calls часто бесполезно, потому что агент не осознаёт, что у него ещё остался бюджет.
В итоге он:
- либо думает, что уже знает ответ
- либо считает, что зашёл в тупик
и останавливается раньше времени, даже если лимит на инструменты ещё есть.
Как это работает обычно:
ReAct-агенты чередуют «размышление» и «действие», где действие — это Search, Browse и другие tool calls. Лимит на инструменты — жёсткий потолок внешних доказательств.
Проблема:
Агенты упираются в performance ceiling, потому что не адаптируют стратегию под оставшийся бюджет.
Решение BATS начинается с простого — Budget Tracker:
- агент постоянно видит счётчик вроде
«Query budget remaining»
«URL budget remaining»
- и меняет поведение в зависимости от остатка бюджета
Результат:
С Budget Tracker агент на Gemini-2.5-Pro достигает сопоставимой точности с 10 tool calls, тогда как ReAct требует 100.
При этом:
- на 40.4% меньше search-запросов
- на 21.4% меньше browse-запросов
- на 31.3% ниже общая стоимость
Но BATS идёт дальше:
- строит budget-aware план
- добавляет self-check шаг — продолжать копать текущую гипотезу или переключиться на новую
Метрики:
На BrowseComp (100 tool calls):
- BATS + Gemini-2.5-Pro: 24.6%
- ReAct: 12.6%
Также улучшения на:
- BrowseComp-ZH: 46.0% vs 31.5%
- HLE-Search: 27.0% vs 20.5%
И всё это без task-specific обучения.
Важный момент:
Авторы вводят единую метрику стоимости - суммируют цену токенов и tool calls. Оценивается не только точность, но и деньги.
Будущее агентных систем - не в увеличении лимитов, а в осознанном управлении бюджетом и стратегией поиска.
arxiv.org/abs/2511.17006
Идея простая и очень показательная: давать агенту больше tool calls часто бесполезно, потому что агент не осознаёт, что у него ещё остался бюджет.
В итоге он:
- либо думает, что уже знает ответ
- либо считает, что зашёл в тупик
и останавливается раньше времени, даже если лимит на инструменты ещё есть.
Как это работает обычно:
ReAct-агенты чередуют «размышление» и «действие», где действие — это Search, Browse и другие tool calls. Лимит на инструменты — жёсткий потолок внешних доказательств.
Проблема:
Агенты упираются в performance ceiling, потому что не адаптируют стратегию под оставшийся бюджет.
Решение BATS начинается с простого — Budget Tracker:
- агент постоянно видит счётчик вроде
«Query budget remaining»
«URL budget remaining»
- и меняет поведение в зависимости от остатка бюджета
Результат:
С Budget Tracker агент на Gemini-2.5-Pro достигает сопоставимой точности с 10 tool calls, тогда как ReAct требует 100.
При этом:
- на 40.4% меньше search-запросов
- на 21.4% меньше browse-запросов
- на 31.3% ниже общая стоимость
Но BATS идёт дальше:
- строит budget-aware план
- добавляет self-check шаг — продолжать копать текущую гипотезу или переключиться на новую
Метрики:
На BrowseComp (100 tool calls):
- BATS + Gemini-2.5-Pro: 24.6%
- ReAct: 12.6%
Также улучшения на:
- BrowseComp-ZH: 46.0% vs 31.5%
- HLE-Search: 27.0% vs 20.5%
И всё это без task-specific обучения.
Важный момент:
Авторы вводят единую метрику стоимости - суммируют цену токенов и tool calls. Оценивается не только точность, но и деньги.
Будущее агентных систем - не в увеличении лимитов, а в осознанном управлении бюджетом и стратегией поиска.
arxiv.org/abs/2511.17006
❤4
This media is not supported in your browser
VIEW IN TELEGRAM
Ты знаешь, как управлять AI-сценариями. Мы знаем, как поддержать эксперта ⚡️
Наша команда создаёт цифровую платформу, где ИИ – не просто помощник, а полноправный соавтор. Если тебе интересно экспериментировать с искусственным интеллектом и напрямую влиять на клиентский опыт — присоединяйся!
Что будешь делать:
✔️ формировать структуры (Goal → Journey → Actions) и проектировать сценарии для различных интерфейсов
✔️ формировать high-level требования к фронтенду, API и данным
✔️ руководить полным циклом развития сценария – от идеи и прототипа до MVP, масштабирования и финансового эффекта.
Мы предлагаем: годовую премию, ДМС, скидку на ипотеку, обучение за счёт компании, современную технику и всё для комфорта и профессионального роста.
Откликайся на вакансию по ссылке
Наша команда создаёт цифровую платформу, где ИИ – не просто помощник, а полноправный соавтор. Если тебе интересно экспериментировать с искусственным интеллектом и напрямую влиять на клиентский опыт — присоединяйся!
Что будешь делать:
✔️ формировать структуры (Goal → Journey → Actions) и проектировать сценарии для различных интерфейсов
✔️ формировать high-level требования к фронтенду, API и данным
✔️ руководить полным циклом развития сценария – от идеи и прототипа до MVP, масштабирования и финансового эффекта.
Мы предлагаем: годовую премию, ДМС, скидку на ипотеку, обучение за счёт компании, современную технику и всё для комфорта и профессионального роста.
Откликайся на вакансию по ссылке
❤3
⚡️ FAIRY2I - 2-битная квантизация без резкой потери качества
FAIRY2I превращает предобученную LLM в комплексную версию, которая сохраняет точность даже при 2-битных весах.
Факт
На LLaMA-2 7B модель с 2-битными весами достигает 62.00%, тогда как full-precision базовая модель — 64.72%. Потеря минимальна для столь агрессивной квантизации.
Почему это важно
Запуск больших LLM дорог из-за:
- хранения весов
- матричных умножений, доминирующих по времени и памяти
Классическая квантизация (1–2 бита) сильно режет точность, потому что:
- каждый вес становится одним числом
- множество разных весов схлопываются в одинаковые значения
Идея FAIRY2I
Вместо одного числа каждый вес представляется парой чисел:
- направление
- масштаб
Ключевые особенности
- Любой линейный слой переписывается в строго эквивалентную комплексную форму
- Можно стартовать с уже обученной модели, без обучения с нуля
- Каждый вес квантуется в 1 из 4 фиксированных направлений
- Используются 2 scale-коэффициента (по одному на каждую часть)
- Остаточная ошибка дополнительно квантуется и добавляется как вторая low-bit коррекция
Результат
- Инференс сводится в основном к сложению, вычитанию и простым перестановкам
- Существенное снижение памяти
- Минимальная потеря качества даже при 2 битах
Вывод
FAIRY2I показывает, что ультранизкая квантизация возможна без катастрофического падения качества, если отказаться от представления веса как одного скаляра.
Paper: arxiv.org/abs/2512.02901
FAIRY2I превращает предобученную LLM в комплексную версию, которая сохраняет точность даже при 2-битных весах.
Факт
На LLaMA-2 7B модель с 2-битными весами достигает 62.00%, тогда как full-precision базовая модель — 64.72%. Потеря минимальна для столь агрессивной квантизации.
Почему это важно
Запуск больших LLM дорог из-за:
- хранения весов
- матричных умножений, доминирующих по времени и памяти
Классическая квантизация (1–2 бита) сильно режет точность, потому что:
- каждый вес становится одним числом
- множество разных весов схлопываются в одинаковые значения
Идея FAIRY2I
Вместо одного числа каждый вес представляется парой чисел:
- направление
- масштаб
Ключевые особенности
- Любой линейный слой переписывается в строго эквивалентную комплексную форму
- Можно стартовать с уже обученной модели, без обучения с нуля
- Каждый вес квантуется в 1 из 4 фиксированных направлений
- Используются 2 scale-коэффициента (по одному на каждую часть)
- Остаточная ошибка дополнительно квантуется и добавляется как вторая low-bit коррекция
Результат
- Инференс сводится в основном к сложению, вычитанию и простым перестановкам
- Существенное снижение памяти
- Минимальная потеря качества даже при 2 битах
Вывод
FAIRY2I показывает, что ультранизкая квантизация возможна без катастрофического падения качества, если отказаться от представления веса как одного скаляра.
Paper: arxiv.org/abs/2512.02901
❤4🔥2
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Cinema Studio — специализированная среда генерации со структурой съемочного процесса.
Новинка предлагает глубокую настройку виртуальной кинематографии: эмуляция 6 профессиональных камер (ARRI Alexa 35, RED и Panavision) и 11 типов объективов, от анаморфотных до макро.
Cinema Studio поддерживает вывод в 4K с соотношением сторон 21:9 и позволяет управлять сложными операторскими приемами, а также менять освещение сцены с сохранением реалистичности теней.
higgsfield.ai
Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью.
Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга.
Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope.
qwen.ai
Сделка, сумма которой по данным инсайдеров, значительно превышает последнюю оценку Graphite в $290 млн, нацелена на создание сквозной экосистемы для ИИ-разработки: объединить процесс написания кода с этапами ревью и командной работы.
В ближайшие месяцы компании планируют представить интеграцию, которая позволит ИИ-агентам обучаться на полном процессе - от черновиков в редакторе до финальных мержей.
Несмотря на смену владельца, Graphite продолжит функционировать автономно.
cursor.com
Компания анонсировала доступность видеокарты RTX PRO 5000 с увеличенным до 72 ГБ VRAM. Новинка сохранила те же 14 080 CUDA-ядер и TBP на уровне 300 Вт.
Точная цена 72-гигабайтной версии пока не раскрыта. Ожидается, что она займет нишу между базовой моделью на 48 ГБ и флагманской RTX PRO 6000. Глобальные поставки через системных интеграторов начнутся в начале следующего года.
blogs.nvidia.com
Google DeepMind открыла исходный код Gemma Scope 2 — инструментария для детального анализа внутреннего мира моделей семейства Gemma 3. Релиз включает более 400 автоэнкодеров и транскодеров, которые буквально просвечивают слои модели, разбирая ее реакции на концепты: от математических вычислений до идиом.
Инструменты покрывают весь спектр весов Gemma 3: от 270M до 27B, позволяя изучать причины галлюцинаций, механизмы отказов и уязвимости к джейлбрейкам.
Веса Scope 2 доступны на Hugging Face, а интерактивные демо для визуального исследования нейронов размещены на Neuronpedia.
deepmind.google
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3🔥2
Российские генеративные модели Kandinsky 5.0 Video Lite и Pro в международной text-to-video арене
🔘 Pro версия является ТОП-1 опенсорсом в мире
🔘 Lite версия (2B параметров) лучше первой версии Sora
🔘 На данный момент Сбер уступает только топовым мировым бигтех компаниям: Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6); в паритете с Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла
🔘 Для российских генеративных моделей выход на международную арену — уникальное событие
🚀 Полезные ссылки:
🔘 Посмотреть весь лидерборд: lmarena
🔘 Почитать подробнее про Kandinsky 5.0: пост, техрепорт
🔘 Open Source Kandinsky 5.0: github и hf
🚀 Полезные ссылки:
Please open Telegram to view this post
VIEW IN TELEGRAM
💩6❤4👍1🤣1