✅https://huggingface.co/papers/2505.07591
↗️ Оценка LLM на соответствие ограничениям
• Существующие тесты часто используют шаблонные подсказки, что ограничивает оценку производительности.
• Предлагается многомерная структура ограничений с тремя шаблонами, четырьмя категориями и четырьмя уровнями сложности.
↗️ Конвейер автоматической генерации инструкций
• Разрабатывается конвейер, включающий расширение ограничений, обнаружение конфликтов и перезапись инструкций.
• Создаются 1200 тестовых образцов с возможностью проверки кода.
↗️ Оценка производительности LLM
• Оцениваются 19 LLM в семи семействах моделей.
• Выявляются существенные различия в производительности в зависимости от форм ограничений.
• Средняя производительность снижается с 77,67% на уровне I до 32,96% на уровне IV.
↗️ Применение подхода для обучения с подкреплением
• Подход используется для сбора данных для обучения с подкреплением.
• Достигается существенное улучшение выполнения инструкций без снижения общей успеваемости.
↗️ Анализ преимуществ подхода
• Преимущества связаны с изменениями параметров модулей внимания модели.
• Улучшается распознавание ограничений и их соблюдение.
↗️ Доступность кода и данных
• Код и данные доступны в https://github.com/Junjie-Ye/MulDimIF.
• Существующие тесты часто используют шаблонные подсказки, что ограничивает оценку производительности.
• Предлагается многомерная структура ограничений с тремя шаблонами, четырьмя категориями и четырьмя уровнями сложности.
• Разрабатывается конвейер, включающий расширение ограничений, обнаружение конфликтов и перезапись инструкций.
• Создаются 1200 тестовых образцов с возможностью проверки кода.
• Оцениваются 19 LLM в семи семействах моделей.
• Выявляются существенные различия в производительности в зависимости от форм ограничений.
• Средняя производительность снижается с 77,67% на уровне I до 32,96% на уровне IV.
• Подход используется для сбора данных для обучения с подкреплением.
• Достигается существенное улучшение выполнения инструкций без снижения общей успеваемости.
• Преимущества связаны с изменениями параметров модулей внимания модели.
• Улучшается распознавание ограничений и их соблюдение.
• Код и данные доступны в https://github.com/Junjie-Ye/MulDimIF.
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Paper page - A Multi-Dimensional Constraint Framework for Evaluating and Improving
Instruction Following in Large Language Models
Instruction Following in Large Language Models
Join the discussion on this paper page
👍3
Что-то на футуристичном: перед вами водородный автомобиль Hyperion XP-1 со звуком космического корабля и паром вместо выхлопа
В двигателе аж 2038 лошадиных сил, а разгон до 100км/ч составляет 2,2сек. Один бак водорода помогает преодолеть в районе 1600 км.
Готовят 300 экземпляров, каждый из которых будет стоить $2 млн!
В двигателе аж 2038 лошадиных сил, а разгон до 100км/ч составляет 2,2сек. Один бак водорода помогает преодолеть в районе 1600 км.
Готовят 300 экземпляров, каждый из которых будет стоить $2 млн!
https://habr.com/ru/companies/surfstudio/articles/908928/ - Очень интересная статья, прям хорошо написана и в тему
Хабр
Массовые увольнения в российском IT: что на самом деле происходит в компаниях — взгляд CEO
Минцифры кричит о нехватке миллиона IT-специалистов, министр труда и социальной защиты заявляет о «всего» ста тысячах. Параллельно рынок труда захлестнула волна сокращений. А тут ещё и слухи об AGI —...
❤2
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception
↗️ Ограничения плотного визуального прогнозирования
• Зависимость от предопределенных категорий ограничивает применимость в реальных сценариях.
• Визуальные концепции не ограничены в реальных задачах.
↗️ Проблемы с моделями визуального языка (VLM)
• Модели VLM, такие как CLIP, показывают многообещающие результаты в задачах с открытым словарем.
• Прямое применение VLM для плотного прогнозирования приводит к неоптимальной производительности из-за ограничений в представлении локальных объектов.
↗️ Наблюдение о графических маркерах CLIP
• Графические маркеры CLIP не могут эффективно агрегировать информацию из пространственно или семантически связанных областей.
• Это приводит к признакам с недостаточной локальной различимостью и пространственной согласованностью.
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception
↗️ Предложение DeCLIP
• DeCLIP расширяет возможности CLIP за счет отделения модуля self-attention.
• Функции `содержание" согласуются с представлениями кадрирования изображений для улучшения локальной распознаваемости.
• Функции `контекст" учатся сохранять пространственные корреляции под руководством моделей vision foundation, таких как DINO.
↗️ Эксперименты и результаты
• Обширные эксперименты показывают, что DeCLIP значительно превосходит существующие методы в решении задач прогнозирования с высокой плотностью словарного запаса.
• Примеры задач: обнаружение объектов и семантическая сегментация.
✅Доступность кода
• Код доступен по адресу: https://github.com/xiaomoguhz/DeCLIP
• Зависимость от предопределенных категорий ограничивает применимость в реальных сценариях.
• Визуальные концепции не ограничены в реальных задачах.
• Модели VLM, такие как CLIP, показывают многообещающие результаты в задачах с открытым словарем.
• Прямое применение VLM для плотного прогнозирования приводит к неоптимальной производительности из-за ограничений в представлении локальных объектов.
• Графические маркеры CLIP не могут эффективно агрегировать информацию из пространственно или семантически связанных областей.
• Это приводит к признакам с недостаточной локальной различимостью и пространственной согласованностью.
DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception
• DeCLIP расширяет возможности CLIP за счет отделения модуля self-attention.
• Функции `содержание" согласуются с представлениями кадрирования изображений для улучшения локальной распознаваемости.
• Функции `контекст" учатся сохранять пространственные корреляции под руководством моделей vision foundation, таких как DINO.
• Обширные эксперименты показывают, что DeCLIP значительно превосходит существующие методы в решении задач прогнозирования с высокой плотностью словарного запаса.
• Примеры задач: обнаружение объектов и семантическая сегментация.
✅Доступность кода
• Код доступен по адресу: https://github.com/xiaomoguhz/DeCLIP
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - xiaomoguhz/DeCLIP: [CVPR 2025] DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception
[CVPR 2025] DeCLIP: Decoupled Learning for Open-Vocabulary Dense Perception - xiaomoguhz/DeCLIP
This media is not supported in your browser
VIEW IN TELEGRAM
Автоматизированный процесс доставки еды в китайских отелях
Достаточно указать точный адрес с самим номером. Доставщик положит еду на первом этаже отеля внутрь робота. И к вам отправится это чудо.
Достаточно указать точный адрес с самим номером. Доставщик положит еду на первом этаже отеля внутрь робота. И к вам отправится это чудо.
VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large Video Language Models
↗️ Проблемы в понимании видеоязыка
• Возможности больших моделей видеоязыка (LVLM) для причинно-следственных связей на основе видео недостаточно изучены.
• Отсутствие специализированных критериев для оценки причинно-следственных связей в визуально обоснованных условиях.
↗️ Новый тест VCRBench
• Представлен новый тест Video-based long-form Causal Reasoning (VCRBench).
• Используются процедурные видеоролики о повседневных действиях с перемешанными шагами.
• В каждом клипе фиксируется ключевое причинно-следственное событие.
Цель и задачи VCRBench
• Проверка способности LVLM идентифицировать, обосновать и правильно расположить события для достижения конкретной цели.
• Избегание использования лингвистических сокращений и проблем с открытым контролем качества.
↗️ Оценка современных LVLM
• Современные LVLM не справляются с построением подробных причинно-следственных связей.
• Сложность моделирования долгосрочных причинно-следственных зависимостей на основе визуальных наблюдений.
↗️ Декомпозиция распознавания и рассуждения (RRD)
• Предложен модульный подход, разбивающий каузальные рассуждения на две подзадачи: распознавание видео и каузальные рассуждения.
• Эксперименты показали, что RRD значительно повышает точность в VCRBench до 25,2%.
↗️ Выводы и анализ
• LVLM в первую очередь полагаются на знание языка для выполнения сложных задач по построению причинно-следственных связей на основе видео.
✅Доступность статьи:
• Статья доступна по адресу: https://huggingface.co/papers/2505.08455?utm_source=digest-papers&utm_medium=email&utm_campaign=2025-05-15
• Возможности больших моделей видеоязыка (LVLM) для причинно-следственных связей на основе видео недостаточно изучены.
• Отсутствие специализированных критериев для оценки причинно-следственных связей в визуально обоснованных условиях.
• Представлен новый тест Video-based long-form Causal Reasoning (VCRBench).
• Используются процедурные видеоролики о повседневных действиях с перемешанными шагами.
• В каждом клипе фиксируется ключевое причинно-следственное событие.
Цель и задачи VCRBench
• Проверка способности LVLM идентифицировать, обосновать и правильно расположить события для достижения конкретной цели.
• Избегание использования лингвистических сокращений и проблем с открытым контролем качества.
• Современные LVLM не справляются с построением подробных причинно-следственных связей.
• Сложность моделирования долгосрочных причинно-следственных зависимостей на основе визуальных наблюдений.
• Предложен модульный подход, разбивающий каузальные рассуждения на две подзадачи: распознавание видео и каузальные рассуждения.
• Эксперименты показали, что RRD значительно повышает точность в VCRBench до 25,2%.
• LVLM в первую очередь полагаются на знание языка для выполнения сложных задач по построению причинно-следственных связей на основе видео.
✅Доступность статьи:
• Статья доступна по адресу: https://huggingface.co/papers/2505.08455?utm_source=digest-papers&utm_medium=email&utm_campaign=2025-05-15
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Paper page - VCRBench: Exploring Long-form Causal Reasoning Capabilities of Large
Video Language Models
Video Language Models
Join the discussion on this paper page
THE FUTURE IS HERE: Fortnite получит Дарт Вейдера в качестве ИИ-помощника, который сможет общаться и помогать игрокам
Как сообщает инсайдер и датамайнер Hypex, Google Gemini хотят применить в Fortnite и в качестве эксперимента применят на Дарте Вейдере. Он сможет слушать игроков и отвечать им, но неизвестно в голосовом или текстовом. Дети без разрешения взрослых не смогут пользоваться функцией.
Среди других странных фактов есть следующее:
Как сообщает инсайдер и датамайнер Hypex, Google Gemini хотят применить в Fortnite и в качестве эксперимента применят на Дарте Вейдере. Он сможет слушать игроков и отвечать им, но неизвестно в голосовом или текстовом. Дети без разрешения взрослых не смогут пользоваться функцией.
Среди других странных фактов есть следующее:
• Вейдеру запрещено говорить о V-bucks, сексе, причинении вреда детям и юнлингам, больше двух диалоговых линий о другом медиа вне Диснея, а также материться, куда входят слова «shit», «shitty» «fuck», «bullshit», «cunt», «bitch», «asshole», «pussy», и «dick».
• В принципе Вейдеру запрещено говорить о негативных темах, но он может пообщаться с человеком, если у него есть какие-то проблемы с ментальным здоровьем.
• Вейдер считает себя не человеком, а Дартом Вейдером.
• Вейдер может петь песни Диснея и Звёздных Войн.
• Вейдеру вообще запрещено говорить, что он сделал с юнлингами.
• Вейдеру даже запрещено вступать в романтические отношения с игроком.
• Во время геймплея Вейдер может вступить в отряд или выйти из него, предупреждать игрока об опасности, суммировать произошедшие события, и отвечать на любые вопросы игрока, которые ему не запретили.
Уроборос-многоножка — символ ближайших лет в обучении языковых моделей. Раньше информационный поток был линейно-иерархичным: от первоисточника через фильтры глухих телефонов и пропаганды достигал реципиента. Теперь круг замыкается — источником становится сам продукт переработки.
Количество генерированного или обработанного нейросетями контента лавинообразно растёт, имитация натурального даётся всё лучше — скоро будет совсем не отличить. Нейронки будут опираться в своих выдачах на контент, которые сгенерировали другие нейронки, опирающиеся на контент от третьих и так далее. Этакий информационный инцест — вырождение — информация смешивается со своими собственными производными.
На первом этапе обучения языковых моделей мы ещё имели более-менее нормальный (хотя уже порядком засранный) пул накопленной информации. Не библиотека, конечно: килотонны SEO-оптимизированной розовой слизи, перевранные вики-статьи и новости, форумные срачи, полный спектр улётного контента от повесточников и шизопатриотов до биохакеров и экстрасенсов. Ну хотя бы можно было как-то вручную отранжировать уровень доверия от Блумберга до Панорамы.
А вот что дальше, когда нейроэкскрементов станет на порядки больше, чем исходного материала? На чём будут дообучаться нейронки последующих лет? И речь ведь не только про статьи или новости. Сегодня нейро-улучшайзеры встроены в интерфейсы современных смартфонов, юзеры радостно "улучшают" свои тексты, чтоб не напрягаться формулировками, авто-улучшают свои фоточки, чтоб не заниматься фотошопингом, программисты вайб-кодят в полный рост. И вот это всё нейроулучшенное попадёт в один общий котёл вместе с крупицами оригинального.
Но и производители достоверного и натурального тоже станут перед выбором. Какой смысл продолжать делать качественный контент, если юзеры даже не заходят к тебе на сайт, ограничиваясь выдачей нейро-ассистентов? Должна же быть какая-то выгода. Кто-то наверное будет продавать владельцам нейронок свой контент за деньги (честно-честно не генерили), а кто-то будет монетизироваться через намеренное искажение данных в нужную спонсорам сторону.
Очень будет интересно посмотреть, как человечество справится с этим. Меня не покидает ощущение, что так или иначе ему всё равно придётся закатать рукава и как следует вручную прибраться в своём инфополе. Garbage in — garbage out.
Очень интересное мнение... по факту мы движемся к синтетической катастрофе. Круг замкнулся, за новым контеном будут гоняться как умалишенные ))) Сеньоры и лиды которых сейчас увольняют повсеместно будут ценны как вкрапления в янтаре, а людей надо будет еще больше, крен сместится на более прокаченных. Как в цедом и ожидалось, выигрышь на шорте, проигрышь на лонге. В топе будут те компании которые сохранят кадры, остальных поглотят.
Количество генерированного или обработанного нейросетями контента лавинообразно растёт, имитация натурального даётся всё лучше — скоро будет совсем не отличить. Нейронки будут опираться в своих выдачах на контент, которые сгенерировали другие нейронки, опирающиеся на контент от третьих и так далее. Этакий информационный инцест — вырождение — информация смешивается со своими собственными производными.
На первом этапе обучения языковых моделей мы ещё имели более-менее нормальный (хотя уже порядком засранный) пул накопленной информации. Не библиотека, конечно: килотонны SEO-оптимизированной розовой слизи, перевранные вики-статьи и новости, форумные срачи, полный спектр улётного контента от повесточников и шизопатриотов до биохакеров и экстрасенсов. Ну хотя бы можно было как-то вручную отранжировать уровень доверия от Блумберга до Панорамы.
А вот что дальше, когда нейроэкскрементов станет на порядки больше, чем исходного материала? На чём будут дообучаться нейронки последующих лет? И речь ведь не только про статьи или новости. Сегодня нейро-улучшайзеры встроены в интерфейсы современных смартфонов, юзеры радостно "улучшают" свои тексты, чтоб не напрягаться формулировками, авто-улучшают свои фоточки, чтоб не заниматься фотошопингом, программисты вайб-кодят в полный рост. И вот это всё нейроулучшенное попадёт в один общий котёл вместе с крупицами оригинального.
Но и производители достоверного и натурального тоже станут перед выбором. Какой смысл продолжать делать качественный контент, если юзеры даже не заходят к тебе на сайт, ограничиваясь выдачей нейро-ассистентов? Должна же быть какая-то выгода. Кто-то наверное будет продавать владельцам нейронок свой контент за деньги (честно-честно не генерили), а кто-то будет монетизироваться через намеренное искажение данных в нужную спонсорам сторону.
Очень будет интересно посмотреть, как человечество справится с этим. Меня не покидает ощущение, что так или иначе ему всё равно придётся закатать рукава и как следует вручную прибраться в своём инфополе. Garbage in — garbage out.
Очень интересное мнение... по факту мы движемся к синтетической катастрофе. Круг замкнулся, за новым контеном будут гоняться как умалишенные ))) Сеньоры и лиды которых сейчас увольняют повсеместно будут ценны как вкрапления в янтаре, а людей надо будет еще больше, крен сместится на более прокаченных. Как в цедом и ожидалось, выигрышь на шорте, проигрышь на лонге. В топе будут те компании которые сохранят кадры, остальных поглотят.
YouTube
McDonald's drops "pink slime" beef
McDonald's has announced a change in the type of beef it uses for burgers, perhaps thanks in part to celebrity chef Jamie Oliver. Bill Whitaker reports.
❤2
https://habr.com/ru/companies/sberbank/articles/909934/ - вышла моя новая статья про генерацию синтетических данных
Хабр
Генерация синтетических данных для LLM. Часть 2: графовый анализ
Добрый день, уважаемый Хабр. Совсем немного времени прошло с первой публикации , но я уже спешу поделиться с вами своими наработками по тестированию «синтетических» данных и анализу их...
👍3🔥3
• Qwen3 — последняя версия семейства моделей Qwen
• Включает серию больших языковых моделей (LLM)
• Разработаны для повышения производительности, результативности и многоязычных возможностей
• Модели с плотной и смешанной экспертной архитектурой (MoE)
• Масштаб параметров от 0,6 до 235 миллиардов
• Режим мышления для сложных рассуждений
• Режим отсутствия мышления для быстрого реагирования
• Устранение необходимости переключения между моделями
• Динамическое переключение режимов на основе запросов пользователей или шаблонов чата
• Адаптивное распределение вычислительных ресурсов
• Балансировка задержки и производительности в зависимости от сложности задачи
• Использование знаний из флагманских моделей
• Высокая конкурентоспособность малогабаритных моделей
• Достижение современных результатов в различных тестах
• Конкуренция с более крупными моделями MoE и проприетарными моделями
• Расширение с 29 до 119 языков и диалектов
• Улучшенное понимание и возможности генерации на разных языках
• Пересказана только часть. Для продолжения перейдите к чтению оригинала.
✅Доступность статьи:
https://huggingface.co/papers/2505.09388?utm_source=digest-papers&utm_medium=email&utm_campaign=2025-05-19
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Paper page - Qwen3 Technical Report
Join the discussion on this paper page
Не спится мне ночью, я тут вот чего нашел... дичь какая-то... что-то я подобное уже слышал. Вот краткое содержание сие...
"Новая техноутопия предлагает нам порнографию вместо секса, инфлюэнсеров вместо религии, видеоигры вместо спорта, короткие видео вместо чтения, мемы вместо аналитики, чатботы вместо друзей и любимых, искусственный интеллект вместо размышлений
Она предлагает дешевую имитацию жизни, но её притягательность в том, что она не требует никаких усилий от потребителя, подстраивается под его ожидания и кажется безопасным. Мягкий окутывающий плед, теплая уютная могила
Думаю так и надо. Очередной этап эволюции. Это фильтр для лишних людей. По-своему гуманный, потому что у каждого есть возможность остаться в реальном мире и не выбирать цифровое забвение. История будет продолжаться, но только с теми, кто выбрал красную таблетку. С теми, кто воспринимает технологии как часть жизни, а не цель существования..."
"Новая техноутопия предлагает нам порнографию вместо секса, инфлюэнсеров вместо религии, видеоигры вместо спорта, короткие видео вместо чтения, мемы вместо аналитики, чатботы вместо друзей и любимых, искусственный интеллект вместо размышлений
Она предлагает дешевую имитацию жизни, но её притягательность в том, что она не требует никаких усилий от потребителя, подстраивается под его ожидания и кажется безопасным. Мягкий окутывающий плед, теплая уютная могила
Думаю так и надо. Очередной этап эволюции. Это фильтр для лишних людей. По-своему гуманный, потому что у каждого есть возможность остаться в реальном мире и не выбирать цифровое забвение. История будет продолжаться, но только с теми, кто выбрал красную таблетку. С теми, кто воспринимает технологии как часть жизни, а не цель существования..."
NY Times
Opinion | An Age of Extinction Is Coming. Here’s How to Survive.
Everything is under threat. What you care about can make it to the other side.
🤔3😁2
ИИ может пересказывать видео с платформы. Справится даже с часовым роликом всего за несколько секунд.
🎥 Загрузить можно абсолютно любое видео.
📝 Суммарный план, схемы и ключевые цитаты будут готовы моментально. Нейросеть способна создавать их самостоятельно.
🌐 Если у вас есть собственный ролик, программа подскажет, как сделать его вирусным.
Однако, есть и минус: ограничение на три видео в сутки.
https://mylens.ai/apps/youtube
Please open Telegram to view this post
VIEW IN TELEGRAM
mylens.ai
AI YouTube Video Summarizer: Learn Deeper & Faster | MyLens
MyLens AI explains Youtube videos deeper than you think. Get quick summaries, key points, weaknesses, clarify terms, and even SEO and improvement tips.