279K subscribers
3.94K photos
675 videos
17 files
4.53K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🗣 MARS 5 TTS: новая модель от компании Camb AI для генерации голоса и преобразования текста в речь с открытым исходным кодом 🔥

> Поддержка более чем 140 языков
> Модели достаточно 5 секундного фрагмента для клонирования голоса и генерации речи
> Архитектура модели с авторегрессией (750M) + без авторегрессии (450M)
> В MARS 5 используется токенизатор BPE для управления знаками препинания, паузами, остановками и т.д.

Github: https://github.com/Camb-ai/MARS5-TTS
Demo: https://www.camb.ai/
HF: https://huggingface.co/CAMB-AI/MARS5-TTS
Colab: https://colab.research.google.com/github/Camb-ai/mars5-tts/blob/master/mars5_demo.ipynb

@ai_machinelearning_big_data
🔥57👍117🤔2
🌟 SEE-2-SOUND — метод генерации сложного пространственного звука на основе изображений и видео

pip install see2sound

SEE-2-SOUND — новая разработка университета Торонто, передовой метод генерации пространственного звука из изображений, анимации и видео.

Модель состоит из трех основных компонентов: оценка источника звука, генерация звука и пространственная генерация объемного звука.

🟡 Страничка SEE-2-SOUND
🖥 GitHub
🟡 Hugging Face
🟡 Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27👍164🥰1
👁‍🗨 LongVA: Long Context Transfer from Language to Vision

Vision модель с длинныи конетекстом , которая:

- Может обрабатывать 2000 кадров или 200к токенов
- Достигает Sota на VideoMME среди моделей 7B

Github: https://github.com/EvolvingLMMs-Lab/LongVA
Paper: https://arxiv.org/abs/2406.16852
Project: https://lmms-lab.github.io/posts/longva/
Demo: https://longva-demo.lmms-lab.com/

@ai_machinelearning_big_data
👍266🔥4❤‍🔥1
Media is too big
VIEW IN TELEGRAM
🧬 ESM3 - это новая, мощнейшая мультимодальная генеративная языковая модель для биологии.

ESM3 может cмоделировать 500 миллионов лет эволюции для генерации новых белков и молекул.

Модель обучена с использованием более 1x1024 FLOPS и 98B параметров!

Используя модель авторы смоделировали эволюционный процесс и создали новый тип белка GFP (зеленый флуоресцентный белок), отличающийся от всего, что встречается в природе. Это буквально модель для программирования биологии.

Почитать подробнее: https://www.evolutionaryscale.ai/blog/esm3-release
Статья: https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

@ai_machinelearning_big_data
🔥62👍165🤩4🤔2
🌟 Video-Infinity — быстрая генерация длинных видеороликов

conda create -n video_infinity_vc2 python=3.10
conda activate video_infinity_vc2
pip install -r requirements.txt

python inference.py --config examples/config.json


Video-Infinity позволяет быстро генерировать длинные видеоролики с использованием нескольких GPU.
Скорость на уровне 2300 кадров за 5 минут, что в 100 раз быстрее, предыдущих методов.

🟡 Страничка Video-Infinity
🖥 GitHub
🟡 Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍116🤣4🙈1
🌟 MG-LLaVA — мультимодальная LLM с продвинутыми возможностями работы с визуальной информацией

Буквально только что ребята из Шанхайского университета выкатили MG-LLaVA — MLLM, которая расширяет возможности обработки визуальной информации за счет использования дополнительных компонентов: специальных компонентов, которые отвечают за работу с низким и высоким разрешением.

В MG-LLaVA интегрирован дополнительный визуальный энкодер высокого разрешения для захвата мелких деталей, которые затем объединяются с базовыми визуальными признаками с помощью сети Conv-Gate.

Обученная исключительно на общедоступных мультимодальных данных, MG-LLaVA демонстрирует отличные результаты.

🟡 Страничка MG-LLaVA
🖥 GitHub

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍357🔥7
🌟 Быстрый способ переводить экраны любых приложений на русский язык

Пользователь Хабра опубликовал рабочий способ переводить на русский экраны приложений на айфоне по одному двойному тапу. Лайфхак сильно упрощает жизнь, когда нужно разобраться в приложениях на других языках.

▪️Статья: https://habr.com/ru/companies/yandex/posts/824706

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍277😐4🔥3😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Тонкая настройка VLM модели Florence-2

Andres Marafioti с коллегами немного прокачали Florence-2 на датасете DocVQA, и теперь Florence может давать визуальные ответы на вопросы (VQA)
Блокнот Colab с пошаговой настройкой Florence-2 ниже

🟡 Fine-tuning Florence-2
🟡 Google Colab
🤗 Hugging Face

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍104🥰1