280K subscribers
3.95K photos
675 videos
17 files
4.54K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ Встречайте Kolors — диффузионная модель для генерации изображений с упором на фотореализм

Kolors — это большая диффузионная модель, опубликованная вчера командой Kuaishou Kolors.

Kolors была обучена на миллиардах пар "текст-изображение" и показывает отличные результаты в генерации сложных фотореалистичных изображений.

По результатам оценки 50 независимых экспертов, модель Kolors генерирует более реалистчиные и красивые изображения, чем Midjourney-v6, Stable Diffusion 3, DALL-E 3 и другие модели

🟡 Страничка Kolors
🟡 Попробовать
🖥 GitHub

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27👍186
🌟 CLIP-DINOiser — MaskCLIP с семантической сегментацией под управлением DINO

Метод CLIP-DINOiser использует только один прямой проход CLIP и двух легких сверточных слоев при выводе, при этом не требует дополнительного контроля и дополнительной VRAM.

В результате применение методв значительно снижается уровень шума.

Метод демонстрирует высокие результаты в бенчмарках COCO, Pascal Context, Cityscapes и ADE20k.

Код запуска:
python demo.py --file_path [path to the image file] --prompts [list of the text prompts separated by ',']

❗️ Дополнительно нужно установить MMCV and MMSegmentation

🟡 Страничка CLIP-DINOiser
🟡 Arxiv
🖥 GitHub
🟡 Jupyter Notebook

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍17101
⚡️ RouteLLM - фреймворк с открытым исходным кодом для эффективной маршрутизации между несколькими LLM

Метод построения маршрутов (роутеров) использует данные о предпочтениях для обучения управляющего роутера, который может предсказывать, какие запросы могут быть обработаны слабыми моделями, а какие требуют более мощных.

RouteLLM обещает значительное снижение затрат без ущерба для качества ответов. В тестах, таких как MT Bench и MMLU, RouteLLM достиг высокой производительности при меньшем количестве вызовов на мощные модели.

В фреймворке реализована поддержка вызова по API (OpenAI, Anthropic, Google, Amazon Bedrock) и локального бекэнда (Ollama)

Преднастроены 4 роутера, обученных на паре моделей gpt-4-1106-preview и  mixtral-8x7b-instruct-v0.1 :

mf - использует модель матричной факторизации, обученную на данных о предпочтениях
sw_ranking - использует взвешенный расчет ELO для маршрутизации, где каждый голос взвешивается в зависимости от того, насколько он похож на запрос пользователя
bert - использует классификатор BERT
causal_llm - использует классификатор отдельной LLM настроенный на данные о предпочтениях.
random - случайным образом направляет запрос к случайной модели.

🟡Arxiv
🟡Страница проекта
🟡Модели (Augmented for routes) на HF
🖥Github [ Stars: 686 | Forks: 52 | Issues:2]

#LLM #ML #machinelearning #opensource

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍1614🥰1
⚡️ MOTIA — outpaint видео (добавление контента за границами области просмотра) с сохранением межкадровой согласованности.

MOTIA — двухэтапный конвейер на основе генеративной диффузии.
Первая фаза (input-specific adaptation) выполняет outpaint первого кадра видео и определяет паттерн закономерности для дорисовки в последующих кадрах.
Вторая фаза (pattern-aware outpainting) делает непосредственно outpaint всего видео на основе знаний первой фазы, добавляя шум и контролирует пространственную геометрию, сохраняя возможную плавность и бесшовность.

Судя по бенчмаркам разработчика, MOTIA - один из лучших методов на данный момент.

Запустить:
conda env create -f environment.yml
git clone https://huggingface.co/wangfuyun/Be-Your-Outpainter
bash run.sh


🖥 GitHub
🟡 Модели на HF
🟡 Страничка MOTIA
🟡 Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26👍127😁3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ ReproModel — набор no-code инструментов для обучения и тестирования AI-моделей.

ReproModel — GUI, который упрощает эффективность исследований, предоставляя стандартизированные модели, загрузчики данных и процедуры обработки.
Он включает в себя полный спектр уже существующих бенчмарков, экстрактор кода и дескриптор LLM.

Этот набор инструментов помогает исследователям модульно структурировать свою разработку и сравнивать производительность каждого этапа конвейера воспроизводимым способом.
По заявлению разработчика, инструмент помогает сократить время разработки, расчета и обучение модели как минимум на 40%.

*️⃣Лицензирование: MIT License
*️⃣Для локального запуска необходим NodeJS
*️⃣Для локального запуска генератора методологий необходима Ollama

🖥 GitHub [ Stars: 35 | Issues: 0 | Forks: 1 ]
🟡 Демо видео на Youtube

#opensource #train #LLM #SOTA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍298🔥4
🌟 СogVLM2-Video — обновление популярной VLM уровня GPT4V на основе Llama3-8B

CogVLM2-Video обучалась на боле чем 30 тыс пар видео-текст. Метод понимания видеоряда. реализованный в модели основан на автоматизированном процессе обобщения распознанных кадров с временной меткой, которым управляет LLM c навыком ранжирования локализаций и удержанием ключевого контекста.

CogVLM2 способна проанализировать видео, дать ответы на вопросы по контексту видеоряда и предоставить текстовые субтитры значительно быстрее других VLM.

Лицензия на использование:
- для академических исследований бесплатно
- для коммерческих проектов необходима регистрация через специальную форму и выполнение условий по указанию авторства на всех полученных материалах.

🟡 Страничка CogVLM2
🖥 GitHub [ Stars: 1.5к | Issues: 26 | Forks: 79 ]
🟡 Модель на HF

#video #VLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍214🔥2❤‍🔥1
🌟 ControlNet++ — улучшенная версия вспомогательной технологии для генерации изображений

ControlNet++ использует дискриминационные модели вознаграждения для оптимизации согласованности между входными условиями (изрбражение-референс) и результатами генерации за счет оптимизации последовательности циклов.

Согласно опубликованным бенчмаркам, ControlNet++ значительно улучшает управляемость процессом генерации.
Новый метод метод превосходит классический ControlNet:
- на 7.9% по mIoU;
- на 13.4% по SSIM;
- на 7.6% по RMSE.

Адаптации под UI для Stable Diffusion пока нет.
Еще круче то, что контролнеты++ успели упаковать в Controlnet Union и собрали в 1 модель.

Теперь можно разом делать 12 препроцессов с одной модели CN.

👉 Репозиторий https://huggingface.co/xinsir/controlnet-union-sdxl-1.0

Модель safetensors без конфига в папку с Контролнетом Автоматика1111 или ComfyUI.

Это все действия которые необходимо сделать)

А самое главное - больше не нужно качать тонну моделей и следить в UI что нужный препроцессор выбран.

Работает controlnet union на SDXL-моделях. Для SD3 свой контролнет, для SD1.5 -свой, этот работать не будет.

👉 Видео: https://www.youtube.com/watch?v=UBFEw1IUX_I

🖥 GitHub [ Stars: 274 | Issues: 2 | Forks: 11 ]
🟡 Страничка проекта ControlNet++
🟡 Arxiv
🟡 Демо на HF
🟡 Модели на HF

#ControlNet #Diffusers #Image2Image

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍347🔥4🎉41🥰1🤔1👌1
🌟 GeoWizard — новая модель для оценки 3D-параметров изображений

GeoWizard — генеративная модель, использующая алгоритмы построения гарт глубины и нормалей одновременно. Во время логического вывода GeoWizard совместно генерирует высококачественные изображения глубины и нормальности, учитывая композицию изображения.

Модель использует алгоритм BiNI для восстановления 3D-сетки на основе предполагаемой карты нормалей, что значительно облегчит применение модели на методах 3D-реконструкции.

git clone git@github.com:fuxiao0719/GeoWizard.git
cd
GeoWizard
conda create -n geowizard python
=
3.9

conda activate geowizard
pip install -r requirements.txt
cd
geowizard



🟡 Страничка GeoWizard
🖥 GitHub [ Stars: 573 | Issues: 1 |Forks: 23 ]
🟡 Hugging Face
🟡 Arxiv

@ai_machinelearning_big_data

#Normal #3D #Depthmap #Generative #Ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍144👏1
⚛️ Исследователи из MIT разработали новый инструмент на основе генеративного ИИ, предназначенный для анализа сложных табличных данных в базах данных

Этот инструмент, называемый GenSQL, основан на языке программирования SQL и позволяет пользователям выполнять сложные статистические анализы без глубокого понимания внутренних механизмов. GenSQL может использоваться для прогнозирования, обнаружения аномалий, заполнения пропущенных значений, исправления ошибок и создания синтетических данных. Система интегрирует табличный набор данных и генеративную вероятностную модель ИИ, которая может учитывать неопределенность и корректировать процесс принятия решений на основе новых данных.

Одно из основных преимуществ GenSQL заключается в его способности обрабатывать сложные запросы, комбинируя анализ данных и модели. Например, система может определить вероятность того, что разработчик из Сиэтла знает язык программирования Rust, учитывая не только корреляцию между столбцами в базе данных, но и более сложные зависимости. Кроме того, вероятностные модели, используемые GenSQL, являются прозрачными и аудируемыми, что позволяет пользователям видеть, какие данные используются для принятия решений и получать оценку уровня неопределенности.

В ходе исследования GenSQL был сравнен с другими популярными методами, основанными на нейронных сетях, и показал значительно более высокую скорость и точность. Исследователи планируют продолжить разработку инструмента, сделав его более доступным и мощным, а также расширить его возможности для обработки больших объемов данных и обработки естественного языка, чтобы в конечном итоге создать эксперта по ИИ, подобного ChatGPT, для анализа баз данных.

📌 Источник

#базыданных #mit

@ai_machinelearning_big_data
🔥41👍184❤‍🔥1
⚡️ Test-Time Training RNN (ТТТ) - принципиально новый метод машинного обучения.

TTT - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.
Основное преимущество TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.

Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.
По сравнительным бенчмаркам с другими популярными методами машинного обучения, такими как трансформеры и рекуррентные нейронные сети, было обнаружено, что в некоторых задачах TTT работает лучше.

Этот революционный метод позволит приблизиться к созданию более гибких и эффективных моделей искусственного интеллекта, способных лучше адаптироваться к новым данным в реальном времени.

На Github опубликованы адаптации метода:

- адаптация под Pytorch
- адаптация под JAX

🟡Arxiv
🖥 GitHub for Pytorch [ Stars: 277 | Issues: 3 | Forks: 12 ]
🖥 GitHub for Jax [ Stars: 129 | Issues: 1 | Forks: 6 ]

@ai_machinelearning_big_data

#Pytorch #Jax #TTT #LLM #Training
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
43🔥26👍10🎉21
🌟 Paints-Undo - генерация пошагового видео процесса рисования по исходному изображению.

Paints-Undo — это проект lllyasviel ( разработчик ForgeUI, FooocusUI, Controlnet, IC-Light ), целью которого является предоставление базовых моделей человеческого поведения при рисовании с надеждой, что будущие модели искусственного интеллекта смогут лучше соответствовать реальным потребностям людей-художников.

Проект представляет собой семейство моделей, которые принимают изображение в качестве входных данных, а затем выводят последовательность рисования этого изображения.
Модель отображает все виды человеческого поведения: рисование эскизов, рисование, раскрашивание, затенение, преобразование форм, переворот влево-вправо, настройку цветовой кривой, изменение видимости слоев, изменение общей идеи в процессе рисования.

Вычислительные потребности: 24 ГБ VRAM на Nvidia 4090 и 3090TI, минимальные потребности - 12-16 ГБ VRAM.
На обработку одного изображения уйдет в среднем 5-10 минут для видео длительностью 25 секунд с FPS=4 в разрешении 512х320 и ниже.

Проект состоит из 2 моделей :
Paints_undo_single_frame - модель берет 1 изображение и каждый указанный шаг за отдельную итерацию в обратном от результата порядке (пояснение на примере с живым рисованием, где одно движение кисти = одному шагу для модели. Диапазон шагов: от 0 до 999, где 0 - законченное изображение, а 999 - первое движение кисти.)

Paints_undo_multi_frame - модель берет 2 изображения и выводит 16 промежуточных кадров между двумя входными изображениями. Результат гораздо более последовательный, чем у однокадровой модели, но также намного медленнее, менее «творческий» и ограничен 16 кадрами.

Архитектура моделей представляет собой модифицированную SD 1.5, помимо этого включает компоненты 3D-UNet, VAE, CLIP, CLIP-Vision, Image Projection.


Локальный запуск:
git clone https://github.com/lllyasviel/Paints-UNDO.git
cd Paints-UNDO
conda create -n paints_undo python=3.10
conda activate paints_undo
pip install xformers
pip install -r requirements.txt
python gradio_app.py


🟡 Страница c демо
🖥 Github [ Stars: 499 | Issues: 7 | Forks: 29 ]

@ai_machinelearning_big_data

#Image2Video #Image2Sketch #Diffusers #Research
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3112🔥7😢5🥰2😁1🤔1