👁🗨 LongVA: Long Context Transfer from Language to Vision
Vision модель с длинныи конетекстом , которая:
- Может обрабатывать 2000 кадров или 200к токенов
- Достигает Sota на VideoMME среди моделей 7B
▪Github: https://github.com/EvolvingLMMs-Lab/LongVA
▪Paper: https://arxiv.org/abs/2406.16852
▪Project: https://lmms-lab.github.io/posts/longva/
▪Demo: https://longva-demo.lmms-lab.com/
@ai_machinelearning_big_data
Vision модель с длинныи конетекстом , которая:
- Может обрабатывать 2000 кадров или 200к токенов
- Достигает Sota на VideoMME среди моделей 7B
▪Github: https://github.com/EvolvingLMMs-Lab/LongVA
▪Paper: https://arxiv.org/abs/2406.16852
▪Project: https://lmms-lab.github.io/posts/longva/
▪Demo: https://longva-demo.lmms-lab.com/
@ai_machinelearning_big_data
👍26❤6🔥4❤🔥1
Media is too big
VIEW IN TELEGRAM
🧬 ESM3 - это новая, мощнейшая мультимодальная генеративная языковая модель для биологии.
ESM3 может cмоделировать 500 миллионов лет эволюции для генерации новых белков и молекул.
Модель обучена с использованием более 1x1024 FLOPS и 98B параметров!
Используя модель авторы смоделировали эволюционный процесс и создали новый тип белка GFP (зеленый флуоресцентный белок), отличающийся от всего, что встречается в природе. Это буквально модель для программирования биологии.
▪Почитать подробнее: https://www.evolutionaryscale.ai/blog/esm3-release
▪Статья: https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
@ai_machinelearning_big_data
ESM3 может cмоделировать 500 миллионов лет эволюции для генерации новых белков и молекул.
Модель обучена с использованием более 1x1024 FLOPS и 98B параметров!
Используя модель авторы смоделировали эволюционный процесс и создали новый тип белка GFP (зеленый флуоресцентный белок), отличающийся от всего, что встречается в природе. Это буквально модель для программирования биологии.
▪Почитать подробнее: https://www.evolutionaryscale.ai/blog/esm3-release
▪Статья: https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
@ai_machinelearning_big_data
🔥62👍16❤5🤩4🤔2
conda create -n video_infinity_vc2 python=3.10
conda activate video_infinity_vc2
pip install -r requirements.txt
python inference.py --config examples/config.json
Video-Infinity позволяет быстро генерировать длинные видеоролики с использованием нескольких GPU.
Скорость на уровне 2300 кадров за 5 минут, что в 100 раз быстрее, предыдущих методов.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍11❤6🤣4🙈1
Буквально только что ребята из Шанхайского университета выкатили MG-LLaVA — MLLM, которая расширяет возможности обработки визуальной информации за счет использования дополнительных компонентов: специальных компонентов, которые отвечают за работу с низким и высоким разрешением.
В MG-LLaVA интегрирован дополнительный визуальный энкодер высокого разрешения для захвата мелких деталей, которые затем объединяются с базовыми визуальными признаками с помощью сети Conv-Gate.
Обученная исключительно на общедоступных мультимодальных данных, MG-LLaVA демонстрирует отличные результаты.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35❤7🔥7
Пользователь Хабра опубликовал рабочий способ переводить на русский экраны приложений на айфоне по одному двойному тапу. Лайфхак сильно упрощает жизнь, когда нужно разобраться в приложениях на других языках.
▪️Статья: https://habr.com/ru/companies/yandex/posts/824706
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤7😐4🔥3😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Andres Marafioti с коллегами немного прокачали Florence-2 на датасете DocVQA, и теперь Florence может давать визуальные ответы на вопросы (VQA)
Блокнот Colab с пошаговой настройкой Florence-2 ниже
🤗 Hugging Face
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍10❤4🥰1
С текстом у генеративных моделей до недавнего времени были большие проблемы, как и с пальцами. Сейчас уже ситуация улучшилась, но только для моделей, создающих изображения.
С генерацией текста в видео всё было ещё печальнее, но буквально вчера Tencent и Huawei выкатили Text-Animator — метод, который позволяет создавать видео с текстом в кадрах.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👏14👍11🔥5❤3😁2
💥 Масштабное обновление получила платформа для работы с исходным кодом GitVerse
Глава СберТеха Максим Тятюшев отметил, что разработчики смогут зеркалировать репозитории с GitVerse на другие площадки для резервного копирования и в один клик смогут находить нужный репозиторий и открывать проект в локальной среде разработки.
На полях GigaConf 2024 Сбер продемонстрировал как передовые цифровые технологии и решения изменят различные секторы экономики, повышая их эффективность и конкурентоспособность.
@ai_machinelearning_big_data
Глава СберТеха Максим Тятюшев отметил, что разработчики смогут зеркалировать репозитории с GitVerse на другие площадки для резервного копирования и в один клик смогут находить нужный репозиторий и открывать проект в локальной среде разработки.
На полях GigaConf 2024 Сбер продемонстрировал как передовые цифровые технологии и решения изменят различные секторы экономики, повышая их эффективность и конкурентоспособность.
@ai_machinelearning_big_data
👍17🤣9😁3❤2🔥2
PAB — это первый подход к созданию видео на основе диффузионных трансформеров в реальном времени, обеспечивающий качество без потерь и не требующий обучения.
PAB оптимизирует работу с механизмом внимания, что позволяет достичь 21.6 FPS с 10.6-кратным ускорением для популярных моделей генерации видео на основе DiT, включая Open-Sora, Open-Sora-Plan и Latte.
Поскольку метод PAB не требует дополнительного обучения, он может обеспечить любые будущие модели генерации видео на основе DiT возможностями генерации в режиме реального времени
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥7❤5🆒3😁2