Machinelearning

2:00

Arxiv

@ai_machinelearning_big_data

🌟

Video-Infinity — быстрая генерация длинных видеороликов

conda create -n video_infinity_vc2 python=3.10
conda activate video_infinity_vc2
pip install -r requirements.txt

python inference.py --config examples/config.json

Video-Infinity позволяет быстро генерировать длинные видеоролики с использованием нескольких GPU.
Скорость на уровне 2300 кадров за 5 минут, что в 100 раз быстрее, предыдущих методов.

🟡

Страничка Video-Infinity

🖥

GitHub

🟡

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22👍11❤6🤣4🙈1

12.7K views17:04

GitHub

@ai_machinelearning_big_data

🌟

MG-LLaVA — мультимодальная LLM с продвинутыми возможностями работы с визуальной информацией

Буквально только что ребята из Шанхайского университета выкатили MG-LLaVA — MLLM, которая расширяет возможности обработки визуальной информации за счет использования дополнительных компонентов: специальных компонентов, которые отвечают за работу с низким и высоким разрешением.

В MG-LLaVA интегрирован дополнительный визуальный энкодер высокого разрешения для захвата мелких деталей, которые затем объединяются с базовыми визуальными признаками с помощью сети Conv-Gate.

Обученная исключительно на общедоступных мультимодальных данных, MG-LLaVA демонстрирует отличные результаты.

🟡

Страничка MG-LLaVA

🖥

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍35❤7🔥7

13.6K views09:27

🌟 Быстрый способ переводить экраны любых приложений на русский язык

Пользователь Хабра опубликовал рабочий способ переводить на русский экраны приложений на айфоне по одному двойному тапу. Лайфхак сильно упрощает жизнь, когда нужно разобраться в приложениях на других языках.

▪️Статья: https://habr.com/ru/companies/yandex/posts/824706

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27❤7😐4🔥3😁1

12.4K views14:12

0:14

🌟

Тонкая настройка VLM модели Florence-2

Andres Marafioti с коллегами немного прокачали Florence-2 на датасете DocVQA, и теперь Florence может давать визуальные ответы на вопросы (VQA)
Блокнот Colab с пошаговой настройкой Florence-2 ниже

🟡

Fine-tuning Florence-2

🟡

Google Colab
🤗 Hugging Face

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥15👍10❤4🥰1

11.9K views16:28

0:02

0:03

Arxiv

@ai_machinelearning_big_data

🌟

Text-Animator — метод генерации видео с текстом в кадрах

С текстом у генеративных моделей до недавнего времени были большие проблемы, как и с пальцами. Сейчас уже ситуация улучшилась, но только для моделей, создающих изображения.
С генерацией текста в видео всё было ещё печальнее, но буквально вчера Tencent и Huawei выкатили Text-Animator — метод, который позволяет создавать видео с текстом в кадрах.

🟡

Страничка Text-Animator

🟡

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👏14👍11🔥5❤3😁2

11.6K views09:27

💥 Масштабное обновление получила платформа для работы с исходным кодом GitVerse

Глава СберТеха Максим Тятюшев отметил, что разработчики смогут зеркалировать репозитории с GitVerse на другие площадки для резервного копирования и в один клик смогут находить нужный репозиторий и открывать проект в локальной среде разработки.

На полях GigaConf 2024 Сбер продемонстрировал как передовые цифровые технологии и решения изменят различные секторы экономики, повышая их эффективность и конкурентоспособность.

@ai_machinelearning_big_data

👍17🤣9😁3❤2🔥2

10.1K views10:25

0:24