Машинное обучение RU

CrossViewDiff может генерировать высококачественные изображения уличных фотографий из спутниковых снимков, используя модель диффузии!

https://opendatalab.github.io/CrossViewDiff/

@machinelearning_ru

👍4❤2🔥2

1.98K views07:37

Машинное обучение RU

Forwarded from Machinelearning

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 PuLID+FLUX: перенос внешности на генерации в FLUX .

PuLID (Pure and Lightning ID Customization) - метод генерации на основе внешности для диффузных моделей с управлением текстовым промптом. Ключевое преимущество PuLID состоит в его способности генерировать изображения с высокой степенью соответствия заданной личности, следуя заданным стилю и композиции.

PuLID для SD существует относительно давно и неплохо работал с моделями SDXL. Теперь этот метод стал доступен для FLUX-dev:

🟢ID-кодер перенесен из структуры MLP в структуру Transformer;

🟢добавлены дополнительные блоки перекрестного внимания чередованием с DIT-блоками для взаимодействия между ID и DIT;

🟢SDXL-Lightning, который в оригинальном методе PuLID отвечал за первоначальную генерацию шума в латентном пространстве, в PuLID для FLUX опционален;

🟢добавлена поддержка fp8-версий FLUX для запуска на потребительских GPU;

🟢запуск bf16 на RTX 3090-4090 возможен с параметром --aggressive_offload, но генерация будет выполняться очень, очень, очень медленно.

В PuLID for FLUX есть два критически важных гиперпараметра:

timestep to start inserting ID. Этот параметр управляет там, в какой момент ID (лицо с входного изображения) будет вставлен в DIT (значение 0 - ID будет вставляться с первого шага). Градация: чем меньше значение - тем более похожим на исходный портрет будет результат. Рекомендованное значение для фотореализма - 4.

true CFG scale. Параметр, модулирующий CFG-значение. Исходный процесс CFG метода PuLID, который требовал удвоенного количества этапов вывода, преобразован в шкалу управления чтобы имитировать истинный процесс CFG с половиной шагов инференса.

Для возможности гибкой настройки результатов, разработчик оставил оба гиперпараметра : CFG FLUX и true CFG scale. Фотореализм получается лучше с применением true CFG scale, но если финальное сходство внешности с оригиналом не устраивает - вы можете перейти на обычный CFG.

Запуск возможен несколькими способами: GradioUI, Google Collab (free tier), Google Collab (pro tier) или с одним из имплементаций для среды ComfyUI:

🟠

собственная реализация сообщества ComfyUI;

🟠

diffusers-based implementation.

⚠️ Важно!

🟢проект находится в бета-версии, точность ID может быть невысокой для некоторых мужcких лиц, возможно, модель нуждается в дополнительном обучении;

🟢для FLUX-FP8 версия Pytorch >= 2.0, для остальных >=2.4.1

▶️Установка и запуск GradioUI:

# clone PuLID repo
git clone https://github.com/ToTheBeginning/PuLID.git
cd PuLID

# create conda env
conda create --name pulid python=3.10

# activate env
conda activate pulid

# Install dependent packages
# 1. For SDXL or Flux-bf16, install the following
pip install -r requirements.txt

# 2. For Flux-fp8, install this
pip install -r requirements_fp8.txt

# Run Gradio UI
python app.py

📌Лицензирование : Apache 2.0 License.

🟡

Arxiv

🟡

Demo

🟡

Google Collab

🖥

Github

@ai_machinelearning_big_data

#AI #ML #FLUX #GenAI #PuLID

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2🥰2

1.9K views15:07

Машинное обучение RU

1:10

This media is not supported in your browser

VIEW IN TELEGRAM

GeoCalib 📸

Калибровка одного изображения с помощью геометрической оптимизации (ECCV 2024)

https://github.com/cvg/GeoCalib

@machinelearning_ru

❤5👍3🔥2

2.3K views15:05

Машинное обучение RU

Forwarded from Machinelearning

⚡️ XVERSE-MoE-A36B: большая языковая модель на архитектуре MoE.

XVERSE-MoE-A36 - мультиязычная LLM, разработанная с нуля Shenzhen Yuanxiang Technology. Модель основана на архитектуре Mixture-of-Experts, имеет 255 млрд. параметров, из которых 36 млрд. активируются в процессе работы.

XVERSE-MoE-A36B предназначена для решения задач: генерация текста, машинный перевод, анализ тональности, реферирование текста, вопрос-ответ, применение в интеллектуальных системах обслуживания клиентов, образовательных помощниках и анализе данных.

Модель использует структуру decoder-only Transformer, где слой Feedforward Network разделен на специализированные экспертные слои.

Отличительной особенностью модели является использование набора общих и не общих экспертов, каждый из которых составляет 1/4 от размера стандартного FFN. Общие эксперты всегда активны во время вычислений, а не общие - активируются выборочно маршрутизатором.

Для обучения модели использовался массив данных на 40 языках, включая китайский, английский, русский и испанский. В процессе обучения использовалась стратегия динамического изменения набора данных с изменением скорости обучения (LR).

Тестирование модели проводилось на наборах данных MMLU, C-Eval, CMMLU, RACE-M, PIQA, GSM8K, MATH, MBPP и HumanEval.

Результаты показывают, что XVERSE-MoE-A36B превосходит другие модели MoE с открытым исходным кодом по производительности и эффективности.

▶️

Технические параметры модели:

🟢total parameters: 255.4B;
🟢active parameters: 36.5B;
🟢total layers: 50;
🟢dimensionality: 6144;
🟢attention heads: 48;
🟢feed-forward dimensionality: 4096;
🟢non-shared experts: 64;
🟢shared experts: 2;
🟢top-k sampling: 6.

⚠️ Важно! Несмотря на название, модель - 255B, ее физический размер ~ 512 Gb

▶️Установка и запуск:

# Clone repository:
git clone https://github.com/xverse-ai/XVERSE-MoE-A36B
cd XVERSE-MoE-A36B

# Install the dependencies:
pip install -r requirements.txt

# Inference with Transformers:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("xverse/XVERSE-MoE-A36B")
model = AutoModelForCausalLM.from_pretrained("xverse/XVERSE-MoE-A36B", trust_remote_code=True, torch_dtype=torch.bfloat16, device_map='auto')
model = model.eval()
inputs = tokenizer('Attraction of Omsk: The Forbidden City', return_tensors='pt').input_ids
inputs = inputs.cuda()
generated_ids = model.generate(inputs, max_new_tokens=70, eos_token_id=tokenizer.eos_token_id, repetition_penalty=1.1)
print(tokenizer.batch_decode(generated_ids, skip_special_tokens=True))

# Inference with WebUI:
python chat_demo.py --port='port' --model_path='/path/to/model/' --tokenizer_path='/path/to/tokenizer/'

📌Лицензирование : Apache 2.0 License.

🟡

Страница проекта

🟡

Модель

🟡

Demo (Chinese)

🖥

Github

@ai_machinelearning_big_data

#AI #ML #MoE #LLM #XVERSE

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1👍1🔥1

2.17K views11:18

Машинное обучение RU

Яндекс признан лидером среди российских разработчиков Open Source

Эксперты ИТМО составили рейтинг российских компаний, развивающих open-source проекты в Data/ML.

Что обеспечило компании лидерство в рейтинге::
— Много активных open-source проектов по разным направлениям Data/ML, включая открытые модели и данные.
— Проекты компании пользуются высоким интересом среди российских пользователей. Это подтверждается звёздами, форками и скачиваниями на платформах вроде GitHub. Особенно выделяется CatBoost, который активно используется по всему миру.
— Высокое качество репозиториев и активные контрибьюторы.
— Поддержка сообщества через мероприятия и гранты для независимых разработчиков.

В число лидеров также вошли Сбер, Т-Банк, VK, а среди вузов — ИТМО, Сколтех, ВШЭ и AIRI.

opensource.itmo.ru

ITMO Open Source

👎7👍4❤3🔥2

2.52K views17:43

Машинное обучение RU

📊

Plotlars — крутая Rust-библиотека для отрисовки графиков

▪Работает как обёртка вокруг библиотеки Plotly, чтобы упростить процесс создания визуализаций из Polars DataFrame.
▪ Поддерживает различные типы графиков и предлагает интуитивно понятный интерфейс для настройки визуализаций.
▪ Интегрируется с Jupyter Notebooks.

👉Ссылка на репозиторий проекта

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3

2.49K views10:07

Машинное обучение RU

🖥

reCAPTCHAv2

Инструмент Python, который Решает 100% копти и превосходит показатели успешности предыдущих инструментов, которые составляли от 68% до 71%.

репо: https://github.com/aplesner/Breaking-reCAPTCHAv2
abs: https://arxiv.org/abs/2409.08831

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥3❤1

2.4K views16:04

Машинное обучение RU

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

🦙 LlamaCoder — веб-приложение с открытым исходным кодом, которое может генерировать целое приложение из промпта.

Репозиторий уже был клонирован сотнями разработчиков на GitHub и отмечен более 2 тысяч раз.

➡️ https://llamacoder.together.ai

Подробнее об этом проекте ➡️ https://go.fb.me/p5o0x0

@machinelearning_ru

👍11🔥4❤3

2.82K viewsedited 11:22

Машинное обучение RU

Разница между GPT-4o и o1. 😁

@machinelearning_ru

😁22🔥6❤1🥰1

2.41K views09:08

Машинное обучение RU

⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Хакинг: t.me/linuxkalii
Devops: t.me/devOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy

👍3❤1

2.3K views12:52

Машинное обучение RU

📍

Awesome-LiDAR-Visual-SLAM

LiDAR-Visual SLAM сочетает в себе преимущества лидарных датчиков для обеспечения высокоточной и надежной локализации местности и картографирования.

▪ Github

@machinelearning_ru

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🔥1

2.27K views15:01

📹 NVIDIA’s Tech: Impossible Water Simulation! →

https://www.youtube.com/watch?v=TixUHjIVovE

@machinelearning_ru

👍9🔥4❤2

2.17K viewsedited 21:20