AI LAB | Лаборатория ИИ
1.67K subscribers
580 photos
423 videos
23 files
860 links
Лаборатория ИИ
Эксперименты и интересные материалы на тему ИИ в архитектурном проектировании и не только.

По всем вопросам 24/7
@arthiteca

Вопросы сотрудничества и соучастия
@j_fede
Download Telegram
Media is too big
VIEW IN TELEGRAM
#unrealneural #туториалы #AILAB
Туториал 1. Редактирование изображения в Krea.ai и создание анимации в Midjourney

Тестирую новый формат. Новая модель редактирования изображений Qwen Image Edit вполне хорошо добавляет локальные точечные изменения и не так сильно меняет форму архитектуры. Вот какой результат получился.

В видео использовались сервисы
Krea.ai
midjourney.com

Youtube
https://youtu.be/L-QcsTgq6XQ
🔥13👍1👏1
#unrealneural
VGGT — это новый подход к 3D, и он получил премию CVPR 2025 за лучшую работу.

Но из-за глобального внимания (global attention) его сложность растет квадратично с количеством изображений, поэтому вы не сможете скормить ему много изображений.
https://vgg-t.github.io/
👍5🔥1
#unrealneural #вкопилкуэрудита
Одна из идей глубокого обучения заключается в том, что слои нейронной сети - это ряд геометрических преобразований ⚡️

https://phillipi.github.io/6.7960/materials/notes/02_neural_nets_as_distribution_transformers.pdf
🔥41👍1
#unrealneural
От простых набросков до 3D-интерьеров с помощью Qwen-Image-Edit
Выглядит очень хорошо 👍
https://chat.qwen.ai/?inputFeature=image_edit
🔥8👍4🤮1
Forwarded from Psy Eyes
давно пора!

Pixelle: сделали AI-агента ComfyUI-Copilot, который помогает решить ошибки в Comfy, которые возникают при работе с воркфлоу.

Можно:
* Давать агенту задание исправить возникающие ошибки
* Просить изменить воркфлоу нужным образом
* Получать рекомендации и объяснения по моделям/нодам
* Получать советы касательно локальных настроек Comfy
* Задавать начальные и конечные параметры инференса, и получать пачку генераций в пределе заданных настроек

ComfyUI-Copilot ставится с гитхаба или через менеджер в комфи. Чат с агентом открывается в сайдбаре на иконке СС. Там же через интерфейс можно запросить API ключ, который придёт на почту, либо использовать API OpenAI или Genimi. Ну такое, хотелось бы локальную ллм подрубить.

На всякий противопожарный делайте бэкапы и тестируйте дебаг на свежих портативных сборках.

До этого Pixelle сделали MCP сервер работы с Comfy через чат, без необходимости касаться нодового интерфейса.

Гитхаб
Твит
5👍2🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Kling 2.1 добавил поддержку End Frame

P.S. видео не мое
👍531
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Еще немного шикарных результатов с использованием Kling 2.1 Start & End Frame

P.S. видео не мое
5👍32👎1
Forwarded from Machinelearning
📌Скорость решает все: обзор эффективных архитектур для LLM.

Ландшафт архитектур LLM превратился в настоящий зоопарк. Почти каждую неделю появляются новые методы, обещающие меньший расход памяти и более быстрый инференс. Разобраться в этом становится все сложнее.

Большая группа исследователей выпустила подробный обзор Speed Always Wins, чтобы систематизировать все ключевые инновации в области эффективных архитектур для LLM.

Это не просто очередная статья, а попытка упорядочить и структурировать актуальные подходы, которые решают главную проблему классического трансформера - его квадратичную вычислительную сложность.

Обзор описывает 7 основных направлений.

🟡Линейное моделирование последовательностей.

Здесь авторы разбирают все подходы, которые так или иначе сводят сложность самовнимания к линейной. В эту категорию попадают 3 большие ветви: линейное внимание; линейные RNN, вроде и, конечно, модели на основе пространства состояний (SSM).

🟡Второе и третье направления посвящены идее разреженности.

Разреженное моделирование последовательностей основано на простом принципе: не каждый токен должен общаться с каждым. Здесь выделяются статические подходы (как в Longformer), где паттерны внимания заданы заранее, и динамические, где они определяются на лету в зависимости от контента.

🟡MoE.

Методика, которая уже стала мейнстримом. В МоЕ разреженность применяется не в механизме внимания, а в FFN-слоях, где для каждого токена активируется лишь небольшая часть экспертов, что позволяет наращивать число параметров без пропорционального роста вычислений.

🟡Четвёртый раздел - эффективное полное внимание.

В нем речь идет не об изменении асимптотической сложности, а об ее аппаратной оптимизации. Флагман - FlashAttention.

Есть детальный разбор, как за счет оптимизации обращений к памяти GPU удается кардинально ускорить вычисления, не прибегая к аппроксимациям. Сюда же относятся и групповые механизмы внимания: GQA и MQA.

🟡Гибридные архитектуры.

Это, пожалуй, самый горячий тренд. Его идея в том, чтобы стратегически комбинировать быстрые слои с линейной сложностью и медленные, но мощные слои с полным вниманием.

В обзоре выделяют два типа гибридизации: межслойную, как в Jamba, где разные типы слоев чередуются, и внутрислойную, где в одном слое разные головы могут использовать разные механизмы внимания.

 🟡Диффузионные LLM (DLLM) 
 
 Это неавторегрессионные модели, которые генерируют текст, постепенно восстанавливая его из шума. Их главная фишка в параллельном декодировании, что дает ощутимое ускорение инференса.
 
 В конце обзора есть анализ применения всех этих архитектур в разных модальностях - CV и аудио.


Так что, если хотите быстро разобраться в базовых методах, которые будут двигать дизайн LLM в ближайшее время, а двигаться он будет в сторону микширования алгоритмов, систем и железа, этот обзор - мастрид.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Architectures
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
51👍1
4
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Очень интересная новость: Метачка "лицензирует" все технологии Midjourney.

Похоже у Марка столько денег, что скупки мозгов недостаточно, и он просеивает рынок технологий.

Понятно, что в первую очередь им нужен генеративный контент для ленты, для аватаров, для цифровых мать-их инфлюенсеров.

Удивительно, что их картиночный и видео генераторы показывали неплохие результаты, но сделка с Midjourney показывает, что метачке хочется большего.

И хотя в статье поспешно написано в конце, что "Midjourney remains “an independent, community-backed research lab” with “no investors" по заверениям Хольца, я думаю мы скоро услышим больше подробностей.

Одно можно сказать, у Midjourney будет больше денег. Хотя бы на то, чтобы начать думать про нормальное редактирование картинок.

https://www.theverge.com/news/764715/meta-ai-midjourney-license-partnership

@cgevent
🤔3🤨3
#unrealneural #вкопилкуэрудита
"Эффект МакКордак"("Эффект AI")

Как только ИИ осваивает новую задачу, её часто начинают считать простой вычислительной операцией, а не примером интеллектуального процесса. Это приводит к постоянному пересмотру границ того, что считается ИИ, а что — интеллектуальной деятельностью.
Эффект назван в честь Памелы МакКордак, писательницы и исследовательницы ИИ, которая описала этот феномен в своей книге «Machines Who Think» (1979).

Яркий пример - когда шахматный компьютер Deep Blue обыграл чемпиона мира, многие были разочарованы: это была не та форма суперинтеллекта, о которой мечтали. Задача просто перестала быть показателем интеллекта, как только решилась машиной.
👍92
#unrealneural #вкопилкуэрудита
Semantic Structure in LLM Embeddings

Семантические пространства эмбеддингов LLM незаметно сжимают множество значений в небольшое общее пространство, отражающее человеческие суждения.

Трехмерное подпространство охватывает около 50% семантической дисперсии.

Психология показывает, что люди оценивают слова по нескольким осям, например, насколько они позитивны, насколько они сильны и насколько активны.

Авторы воссоздают это, формируя 28 направлений из пар антонимов и проецируя на них 301 слово.

Эти прогнозы хорошо соответствуют рейтингам опроса, показывая, что геометрия встраивания отражает человеческие ассоциации.

Анализ главных компонентов — инструмент, который находит основные направления вариации, сворачивает проекции в три компонента, такие как оценка, эффективность и активность.

https://arxiv.org/abs/2508.10003
3👍1