Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
давно пора!
Pixelle: сделали AI-агента ComfyUI-Copilot, который помогает решить ошибки в Comfy, которые возникают при работе с воркфлоу.
Можно:
* Давать агенту задание исправить возникающие ошибки
* Просить изменить воркфлоу нужным образом
* Получать рекомендации и объяснения по моделям/нодам
* Получать советы касательно локальных настроек Comfy
* Задавать начальные и конечные параметры инференса, и получать пачку генераций в пределе заданных настроек
ComfyUI-Copilot ставится с гитхаба или через менеджер в комфи. Чат с агентом открывается в сайдбаре на иконке СС. Там же через интерфейс можно запросить API ключ, который придёт на почту, либо использовать API OpenAI или Genimi. Ну такое, хотелось бы локальную ллм подрубить.
На всякий противопожарный делайте бэкапы и тестируйте дебаг на свежих портативных сборках.
До этого Pixelle сделали MCP сервер работы с Comfy через чат, без необходимости касаться нодового интерфейса.
Гитхаб
Твит
Pixelle: сделали AI-агента ComfyUI-Copilot, который помогает решить ошибки в Comfy, которые возникают при работе с воркфлоу.
Можно:
* Давать агенту задание исправить возникающие ошибки
* Просить изменить воркфлоу нужным образом
* Получать рекомендации и объяснения по моделям/нодам
* Получать советы касательно локальных настроек Comfy
* Задавать начальные и конечные параметры инференса, и получать пачку генераций в пределе заданных настроек
ComfyUI-Copilot ставится с гитхаба или через менеджер в комфи. Чат с агентом открывается в сайдбаре на иконке СС. Там же через интерфейс можно запросить API ключ, который придёт на почту, либо использовать API OpenAI или Genimi. Ну такое, хотелось бы локальную ллм подрубить.
На всякий противопожарный делайте бэкапы и тестируйте дебаг на свежих портативных сборках.
До этого Pixelle сделали MCP сервер работы с Comfy через чат, без необходимости касаться нодового интерфейса.
Гитхаб
Твит
❤5👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Еще немного шикарных результатов с использованием Kling 2.1 Start & End Frame
P.S. видео не мое
Еще немного шикарных результатов с использованием Kling 2.1 Start & End Frame
P.S. видео не мое
⚡6👍3❤2👎1
Forwarded from Machinelearning
Ландшафт архитектур LLM превратился в настоящий зоопарк. Почти каждую неделю появляются новые методы, обещающие меньший расход памяти и более быстрый инференс. Разобраться в этом становится все сложнее.
Большая группа исследователей выпустила подробный обзор Speed Always Wins, чтобы систематизировать все ключевые инновации в области эффективных архитектур для LLM.
Это не просто очередная статья, а попытка упорядочить и структурировать актуальные подходы, которые решают главную проблему классического трансформера - его квадратичную вычислительную сложность.
Обзор описывает 7 основных направлений.
Здесь авторы разбирают все подходы, которые так или иначе сводят сложность самовнимания к линейной. В эту категорию попадают 3 большие ветви: линейное внимание; линейные RNN, вроде и, конечно, модели на основе пространства состояний (SSM).
Разреженное моделирование последовательностей основано на простом принципе: не каждый токен должен общаться с каждым. Здесь выделяются статические подходы (как в Longformer), где паттерны внимания заданы заранее, и динамические, где они определяются на лету в зависимости от контента.
Методика, которая уже стала мейнстримом. В МоЕ разреженность применяется не в механизме внимания, а в FFN-слоях, где для каждого токена активируется лишь небольшая часть экспертов, что позволяет наращивать число параметров без пропорционального роста вычислений.
В нем речь идет не об изменении асимптотической сложности, а об ее аппаратной оптимизации. Флагман - FlashAttention.
Есть детальный разбор, как за счет оптимизации обращений к памяти GPU удается кардинально ускорить вычисления, не прибегая к аппроксимациям. Сюда же относятся и групповые механизмы внимания: GQA и MQA.
Это, пожалуй, самый горячий тренд. Его идея в том, чтобы стратегически комбинировать быстрые слои с линейной сложностью и медленные, но мощные слои с полным вниманием.
В обзоре выделяют два типа гибридизации: межслойную, как в Jamba, где разные типы слоев чередуются, и внутрислойную, где в одном слое разные головы могут использовать разные механизмы внимания.
Это неавторегрессионные модели, которые генерируют текст, постепенно восстанавливая его из шума. Их главная фишка в параллельном декодировании, что дает ощутимое ускорение инференса.
В конце обзора есть анализ применения всех этих архитектур в разных модальностях - CV и аудио.
Так что, если хотите быстро разобраться в базовых методах, которые будут двигать дизайн LLM в ближайшее время,
@ai_machinelearning_big_data
#AI #ML #LLM #Architectures
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5⚡1👍1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Очень интересная новость: Метачка "лицензирует" все технологии Midjourney.
Похоже у Марка столько денег, что скупки мозгов недостаточно, и он просеивает рынок технологий.
Понятно, что в первую очередь им нужен генеративный контент для ленты, для аватаров, для цифровых мать-их инфлюенсеров.
Удивительно, что их картиночный и видео генераторы показывали неплохие результаты, но сделка с Midjourney показывает, что метачке хочется большего.
И хотя в статье поспешно написано в конце, что "Midjourney remains “an independent, community-backed research lab” with “no investors" по заверениям Хольца, я думаю мы скоро услышим больше подробностей.
Одно можно сказать, у Midjourney будет больше денег. Хотя бы на то, чтобы начать думать про нормальное редактирование картинок.
https://www.theverge.com/news/764715/meta-ai-midjourney-license-partnership
@cgevent
Похоже у Марка столько денег, что скупки мозгов недостаточно, и он просеивает рынок технологий.
Понятно, что в первую очередь им нужен генеративный контент для ленты, для аватаров, для цифровых мать-их инфлюенсеров.
Удивительно, что их картиночный и видео генераторы показывали неплохие результаты, но сделка с Midjourney показывает, что метачке хочется большего.
И хотя в статье поспешно написано в конце, что "Midjourney remains “an independent, community-backed research lab” with “no investors" по заверениям Хольца, я думаю мы скоро услышим больше подробностей.
Одно можно сказать, у Midjourney будет больше денег. Хотя бы на то, чтобы начать думать про нормальное редактирование картинок.
https://www.theverge.com/news/764715/meta-ai-midjourney-license-partnership
@cgevent
🤔3🤨3
#unrealneural #вкопилкуэрудита
"Эффект МакКордак"("Эффект AI")
Как только ИИ осваивает новую задачу, её часто начинают считать простой вычислительной операцией, а не примером интеллектуального процесса. Это приводит к постоянному пересмотру границ того, что считается ИИ, а что — интеллектуальной деятельностью.
Эффект назван в честь Памелы МакКордак, писательницы и исследовательницы ИИ, которая описала этот феномен в своей книге «Machines Who Think» (1979).
Яркий пример - когда шахматный компьютер Deep Blue обыграл чемпиона мира, многие были разочарованы: это была не та форма суперинтеллекта, о которой мечтали. Задача просто перестала быть показателем интеллекта, как только решилась машиной.
"Эффект МакКордак"("Эффект AI")
Как только ИИ осваивает новую задачу, её часто начинают считать простой вычислительной операцией, а не примером интеллектуального процесса. Это приводит к постоянному пересмотру границ того, что считается ИИ, а что — интеллектуальной деятельностью.
Эффект назван в честь Памелы МакКордак, писательницы и исследовательницы ИИ, которая описала этот феномен в своей книге «Machines Who Think» (1979).
Яркий пример - когда шахматный компьютер Deep Blue обыграл чемпиона мира, многие были разочарованы: это была не та форма суперинтеллекта, о которой мечтали. Задача просто перестала быть показателем интеллекта, как только решилась машиной.
👍9❤2
#unrealneural #вкопилкуэрудита
Semantic Structure in LLM Embeddings
Семантические пространства эмбеддингов LLM незаметно сжимают множество значений в небольшое общее пространство, отражающее человеческие суждения.
Трехмерное подпространство охватывает около 50% семантической дисперсии.
Психология показывает, что люди оценивают слова по нескольким осям, например, насколько они позитивны, насколько они сильны и насколько активны.
Авторы воссоздают это, формируя 28 направлений из пар антонимов и проецируя на них 301 слово.
Эти прогнозы хорошо соответствуют рейтингам опроса, показывая, что геометрия встраивания отражает человеческие ассоциации.
Анализ главных компонентов — инструмент, который находит основные направления вариации, сворачивает проекции в три компонента, такие как оценка, эффективность и активность.
https://arxiv.org/abs/2508.10003
Semantic Structure in LLM Embeddings
Семантические пространства эмбеддингов LLM незаметно сжимают множество значений в небольшое общее пространство, отражающее человеческие суждения.
Трехмерное подпространство охватывает около 50% семантической дисперсии.
Психология показывает, что люди оценивают слова по нескольким осям, например, насколько они позитивны, насколько они сильны и насколько активны.
Авторы воссоздают это, формируя 28 направлений из пар антонимов и проецируя на них 301 слово.
Эти прогнозы хорошо соответствуют рейтингам опроса, показывая, что геометрия встраивания отражает человеческие ассоциации.
Анализ главных компонентов — инструмент, который находит основные направления вариации, сворачивает проекции в три компонента, такие как оценка, эффективность и активность.
https://arxiv.org/abs/2508.10003
⚡3👍1
#unrealneural
Jet-Nemotron: эффективная языковая модель с постнейронной архитектурой поиска
Jet-Nemotron, новое семейство языковых моделей с гибридной архитектурой, точность которых сопоставима или превосходит точность ведущих моделей полного внимания, при этом значительно повышая производительность генерации. Jet-Nemotron разработан с использованием PostNeural Architecture Search (PostNAS), нового конвейера исследований нейронной архитектуры, обеспечивающего эффективное проектирование моделей.
https://arxiv.org/abs/2508.15884
Jet-Nemotron: эффективная языковая модель с постнейронной архитектурой поиска
Jet-Nemotron, новое семейство языковых моделей с гибридной архитектурой, точность которых сопоставима или превосходит точность ведущих моделей полного внимания, при этом значительно повышая производительность генерации. Jet-Nemotron разработан с использованием PostNeural Architecture Search (PostNAS), нового конвейера исследований нейронной архитектуры, обеспечивающего эффективное проектирование моделей.
https://arxiv.org/abs/2508.15884
👍2⚡1
Forwarded from Сиолошная
Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning
Не полноценный разбор статьи + модели, просто почитал интересную для себя часть — про Seed-Thinking-Verifier. Эта модель является частью процесса обучения рассуждениям. Как делает обычно, например, в DeepSeek R1:
1. Собирают задачи по математике и программированию, где правильный ответ легко проверяется. Для математики проверка — это сверка ответов, для программирования — прогон десятков тестов.
2. Начинают обучение, модель генерирует варианты, ответы извлекаются и верифицируются (запускаются тесты итд).
Seed-Thinking-Verifier — это модель, которая дополняет этот процесс, на уровне со сверкой ответов и запуском тестов. Она вдохновлена процессом тщательного человеческого размышления и глубокого анализа. Тренируется также, как рассуждающая модель, только правильный/неправильный ответ для сравнения — это корректность оценки. То есть модель сама выучивает, как нужно рассуждать, чтобы прийти к выводу о качестве предоставленного ответа. В её промпт всегда подаётся правильный ответ и _какой-то_ ответ. Например, это может быть пара 524288 и 2^19 (оба числа равны, но простая проверка в лоб не выявит этого).
Кроме этого, Seed-Thinking-Verifier может помочь с решением проблем, которые часто возникают с «обычным» верификатором, например, пограничные/крайние случаи, которые не тестируются/не описаны в и исходном ответе.
А теперь рубрика «я нипонел»😐 — вот авторы говорят это всё, но... при этом применяют Seed-Thinking-Verifier только для STEM задач (большая часть из них — математика). При этом прям отдельно написано, что у них есть неверифируемые задачи (то есть там где нет однозначно правильного/неправильного ответа, скажем, креативное письмо или перевод). Для них используется обычный Reward modelling, хотя казалось бы именно тут Thinking-Verifier может расцвести! Может быть, в 2.0 версии исправят
Картинка: сравнение верификатора без рассуждений (модель предсказывает YES/NO по промпту + истинному ответу + ответу модели) и Seed-Thinking-Verifier. Оба обучены на одном и том же наборе данных и там получают 99%+ правильных оценок. А на семпле в 456 отобранных новых запросов заметна разница — рассуждающий верификатор гораздо более точен и почти не ошибается.
Не полноценный разбор статьи + модели, просто почитал интересную для себя часть — про Seed-Thinking-Verifier. Эта модель является частью процесса обучения рассуждениям. Как делает обычно, например, в DeepSeek R1:
1. Собирают задачи по математике и программированию, где правильный ответ легко проверяется. Для математики проверка — это сверка ответов, для программирования — прогон десятков тестов.
2. Начинают обучение, модель генерирует варианты, ответы извлекаются и верифицируются (запускаются тесты итд).
Seed-Thinking-Verifier — это модель, которая дополняет этот процесс, на уровне со сверкой ответов и запуском тестов. Она вдохновлена процессом тщательного человеческого размышления и глубокого анализа. Тренируется также, как рассуждающая модель, только правильный/неправильный ответ для сравнения — это корректность оценки. То есть модель сама выучивает, как нужно рассуждать, чтобы прийти к выводу о качестве предоставленного ответа. В её промпт всегда подаётся правильный ответ и _какой-то_ ответ. Например, это может быть пара 524288 и 2^19 (оба числа равны, но простая проверка в лоб не выявит этого).
Кроме этого, Seed-Thinking-Verifier может помочь с решением проблем, которые часто возникают с «обычным» верификатором, например, пограничные/крайние случаи, которые не тестируются/не описаны в и исходном ответе.
А теперь рубрика «я нипонел»
Картинка: сравнение верификатора без рассуждений (модель предсказывает YES/NO по промпту + истинному ответу + ответу модели) и Seed-Thinking-Verifier. Оба обучены на одном и том же наборе данных и там получают 99%+ правильных оценок. А на семпле в 456 отобранных новых запросов заметна разница — рассуждающий верификатор гораздо более точен и почти не ошибается.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1🔥1
Forwarded from РСпектр: связь, ИТ, кибербезопасность
Топ-менеджер DeepSeek оценил уровень ИИ в России
Развитие технологии искусственного интеллекта идет равномерно, независимо Китай это или Россия, нельзя сказать, что в каких-то странах сейчас наблюдается опережение или отставание. Об этом RSpectr заявил директор по инновациям китайской компании DeepSeek Ким Ён (Jīn Yán).
По его словам, гонка за объемами данных в сфере ИИ уже закончилась, сейчас началась новая – за память и качество. «Вопрос уже не в том, сколько данных собрали, а из чего их собрали и как ими безопасно пользоваться. Качество в 2026 году – это ответы на четыре безжалостных вопроса [к данным]: что это? Откуда? Чьим согласием покрыто? Как это удалить по запросу? Если хотя бы один ответ на эти вопросы будет расплывчатым, то перед нами уже не актив, а риски», – рассказал Ким Ён на мероприятии «ИИчница в МГУ», организованном компанией WMT AI.
Изображение: RSpectr
Развитие технологии искусственного интеллекта идет равномерно, независимо Китай это или Россия, нельзя сказать, что в каких-то странах сейчас наблюдается опережение или отставание. Об этом RSpectr заявил директор по инновациям китайской компании DeepSeek Ким Ён (Jīn Yán).
По его словам, гонка за объемами данных в сфере ИИ уже закончилась, сейчас началась новая – за память и качество. «Вопрос уже не в том, сколько данных собрали, а из чего их собрали и как ими безопасно пользоваться. Качество в 2026 году – это ответы на четыре безжалостных вопроса [к данным]: что это? Откуда? Чьим согласием покрыто? Как это удалить по запросу? Если хотя бы один ответ на эти вопросы будет расплывчатым, то перед нами уже не актив, а риски», – рассказал Ким Ён на мероприятии «ИИчница в МГУ», организованном компанией WMT AI.
Изображение: RSpectr
👏3🤣1