Deep Dive 2 Deep Learning
379 subscribers
23 photos
5 videos
366 links
Канал про глубокое машинное обучение: кейсы, новости, открытия и факапы из мира нейросетей и не только
Download Telegram
🤖Управление компьютером при помощи запросов на естественном языке

Open Interpreter - это интерфейс естественного языка для управления компьютером.
Можно общаться с Open Interpreter через ChatGPT-подобный интерфейс прямо в терминале.

При помощи Open Interpreter можно на естественном языке выполнять такие действия как:
— создание и редактирование фотографий, видео, PDF-файлов и т. д.
— управление браузером
— анализ данных, построение графиков и т.д.

Для работы в Python необходимо установить через pip:
pip install open-interpreter interpreter

🖥 GitHub
🟡 Документация
🤖💡Небольшая подборка моделей для различных задач обработки видео

VideoLLaMA 2 — логическое развитие прошлых моделей, включает в себя специализированный компонент пространственно-временной свертки (STC), который эффективно улавливает сложную динамику на видео.

EvTexture - новый метод апскейлинга видео. Он использует отдельный итеративный модуль улучшения текстуры, который позволяет получать информацию о событиях с высоким временным разрешением.
Этот модуль позволяет постепенно в несколько итераций уточнять текстуру заданных областей и повышать их разрешение.

MorpheuS - это метод, который может воссоздать 360° поверхности из случайно снятого RGB-D видео. Ненаблюдаемые области пространства достраиваются с помощью диффузионной модели.

ExVideo — техника тюнинга, позволяющая улучшить возможности моделей генерации видео. Она позволяет модели генерировать в 5 раз больше кадров, при этом требуется всего 1.5 тыс. часов обучения на GPU на датасете из 40 тыс. видео.
💡🤖Мультимодальная LLM с продвинутыми возможностями работы с визуальной информацией

Буквально недавно ребята из Шанхайского университета выкатили MG-LLaVA — MLLM, которая расширяет возможности обработки визуальной информации за счет использования дополнительных компонентов: специальных компонентов, которые отвечают за работу с низким и высоким разрешением.

В MG-LLaVA интегрирован дополнительный визуальный энкодер высокого разрешения для захвата мелких деталей, которые затем объединяются с базовыми визуальными признаками с помощью сети Conv-Gate.

По словам разработчиков, эта модель обучалась исключительно на общедоступных мультимодальных данных.
🤖🔉Подборка библиотек и моделей для работы со звуком

AudioCraft — это библиотека PyTorch для исследований в области глубокого обучения генерации звука. AudioCraft содержит код вывода и обучения для двух современных генеративных моделей искусственного интеллекта, создающих высококачественный звук: AudioGen и MusicGen.

Qwen-Audio — это мультимодальная версия большой серии моделей Qwen, предложенной Alibaba Cloud. Qwen-Audio принимает разнообразный звук (человеческую речь, естественный звук, музыку и песни) и текст в качестве входных данных и выводит текст.

SEE-2-SOUND — новая разработка университета Торонто, передовой метод генерации пространственного звука из изображений, анимации и видео. Модель состоит из трех основных компонентов: оценка источника звука, генерация звука и пространственная генерация объемного звука.

Hallo - подход в анимации портретных изображений на основе аудио. Он объединяет генеративные диффузионные модели, денойзер на основе UNet, методы временного согласования отдельных движений и опорную нейросеть, а также даёт возможность контролировать выражение и движения лица.

Audio Seal - это SOTA для добавления метаданных на аудио и распознавания их, предназначенная для локального распознавания речи, сгенерированной искусственным интеллектом.

SALMONN — это новая мультимодальная модель машинного обучения с открытым исходным кодом, предназначенная для обработки аудиоданных любого типа: речи, музыки и различных звуков.
😎🤖Высокоточный Instruct pix2pix по текстовому запросу

Navve Wasserman с коллегами представили усовершенствованную версию Instruct pix2pix под названием "Paint by Inpaint". Процесс усовершенствования включал следующие этапы:

Создание конвейера обработки изображений с помощью модели inpaint, которая добавляла объекты на изображения. Сравнивая исходное изображение с модифицированным, вычислялась разница, что позволило создать датасет PIPE.

Датасет PIPE был аннотирован крупной моделью VLM и обработан для устранения артефактов маскирования объектов, что привело к созданию набора высокодетализированных объектов для вычитания.

Эти два противоположных процесса — удаление и добавление объектов — были объединены с применением более точного контроля (по аналогии с GAN), что в итоге позволило создать модель, очень точно добавляющую объекты на изображения по текстовому запросу.

🖥Страница проекта Paint by Inpaint
🤖🔬ИИ-помощник в научных исследованиях

SciSpace Copilot - это искусственный интеллект, помощник в научных исследованиях, разработанный для помощи пользователям в понимании научной литературы, предоставляя объяснения для текстов, математических уравнений и таблиц, найденных в научных статьях, технических блогах и отчетах. Пользователи могут упростить технический язык, задавать уточняющие вопросы, понимать математику и таблицы, а также переключаться между несколькими языками для более полного чтения.

Ключевые особенности сервиса:

Упрощенные объяснения: простые объяснения для технической жаргонной лексики, аббревиатур и сложных параграфов научных работ.
Интерактивное обучение: можно общаться с Copilot, задавая предустановленные или настраиваемые вопросы, чтобы улучшить понимание во время чтения.
Понимание математики и таблиц: анализ математических уравнений или таблиц, чтобы получить понимание их значения.
Гибкость языка: взаимодействие с Copilot на 13 языках и получайте объяснения на предпочитаемом языке.
⚡️MInference 1.0 by Microsoft

Microsoft опубликовала результаты исследования проекта MInference. Этот метод ускоряет обработку длинных последовательностей благодаря разреженным вычислениям и использованию уникальных шаблонов в матрицах. Методика MInference не требует изменений в настройках предварительного обучения.

Проведенные исследователями Microsoft синтетические тесты метода на моделях LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K и Qwen2-128K показывают сокращение задержек и ошибок при предварительном заполнении до 10 раз на A100 с сохранением точности.
🤖💡Свежая модель на базе Qwen2-7B

Недавно Arcee AI выпустила свою последнюю инновацию – Arcee Agent, современную модель языка с 7 миллиардами параметров. Эта модель предназначена для вызова функций и использования инструментов, предоставляя разработчикам, исследователям и бизнесу эффективное и мощное решение искусственного интеллекта. Несмотря на свой более небольшой размер по сравнению с более крупными моделями языка, Arcee Agent превосходит их в производительности, что делает его идеальным выбором для сложных приложений, использующих AI, без значительных вычислительных затрат.

Arcee Agent построен на архитектуре Qwen2-7B, известной своей эффективностью и скоростью. Эта модель обучена с использованием спектрального фреймворка, с вычислительными ресурсами, предоставленными CrusoeAI. Основное преимущество Arcee Agent заключается в его продвинутых возможностях вызова функций. Он без проблем интерпретирует, выполняет и объединяет вызовы функций, что позволяет ему эффективно взаимодействовать с различными внешними инструментами, API и сервисами.

Arcee Agent обладает совместимостью с различными форматами использования инструментов. Он оптимально работает с форматом VLLM OpenAI FC, но также умело обрабатывает решения, основанные на запросах, и другие специфические потребности инфраструктуры. Кроме того, он предлагает функциональность двойного режима: в качестве маршрутизатора инструментов, который эффективно направляет запросы к соответствующим инструментам или более крупным моделям, и в качестве автономного чат-агента, способного вести беседы, похожие на человеческие, и самостоятельно выполнять разнообразные задачи.

Возможности модели распространяются на различные бизнес-приложения. В сфере обслуживания клиентов он может автоматизировать сложные запросы и рутинные задачи, такие как сброс пароля и отслеживание заказов, взаимодействуя с системами управления взаимоотношениями с клиентами для персонализированных взаимодействий. В сфере продаж и маркетинга Arcee Agent может автоматизировать квалификацию потенциальных клиентов, генерировать динамический контент и анализировать отзывы клиентов для формирования стратегий. Операционная эффективность повышается благодаря автоматизации административных задач, интеллектуальному поиску данных и оптимизации управления проектами.

Однако, несмотря на свои специализированные возможности, Arcee Agent имеет некоторые ограничения. Его общие знания и возможности вне области вызова функций и использования инструментов ограничены. Он может не так хорошо справляться с задачами, не связанными с его основными функциональностями, и пользователи должны проверять его результаты, особенно в критических приложениях. Дата обрезки знаний модели также может повлиять на ее осведомленность о последних событиях.
😎🤖Принципиально новый метод машинного обучения

Test-Time Training RNN (ТТТ) - это метод, который позволяет моделям искусственного интеллекта адаптироваться и учиться непосредственно во время использования, а не только во время предварительного обучения.

Основная особенность TTT заключается в том, что он может эффективно обрабатывать длинные контексты (большие объемы входных данных) без значительного увеличения вычислительных затрат.

Исследователи провели эксперименты на различных наборах данных, включая книги, и обнаружили, что TTT часто превосходит традиционные методы.
💡🤖Генератор CAD-моделей из текста

Text-to-CAD - это сервис с открытым исходным кодом для создания CAD-файлов с помощью текстовых подсказок. Создавайте модели, которые можно импортировать в выбранную вами CAD-программу. Инфраструктура, лежащая в основе Text-to-CAD, использует наши API проектирования и API машинного обучения для программного анализа обучающих данных и генерации файлов САПР.

Шестеренки, детали, запчасти и различные конструкции — на этом сайте можно получить результат за секунду. Готовые файлы в клик импортируются в любой софт.
🤖⚡️Генератор обобщающей политической сети с диффузией

Make-An-Agent - генератор обобщающей политической сети с диффузией, обусловленной поведением.

Обученная на контрольных точках сети политики и их соответствующих траекториях, модель генерации демонстрирует замечательную универсальность и масштабируемость на нескольких задачах и имеет сильную способность к обобщению на невидимых задачах для вывода хорошо выполняемых политик с использованием всего лишь нескольких демонстраций в качестве входных данных.

По словам разработчиков, модель демонстрирует эффективность и результативность в различных областях и задачах, включая поведение различных манипуляторов роботов.
💡🤖ИИ для генерации различных звуков в беззвучных видео

FoleyCrafter - методика, разработанная для автоматического создания звуковых эффектов, синхронизированных с целевым видеорядом
Архитектура метода построена на основе предварительно обученной модели преобразования текста в аудио (Text2Audio).

Система состоит из двух ключевых компонентов:
Семантический адаптер - использует параллельные слои cross-attention для обусловливания генерации аудио на основе видеопризнаков. Выполняет семантическое соответствие генерируемых звуков визуальному контенту.
Временной контроллер - детектор временных меток анализирует и предсказывает интервалы звука и тишины в видео. Временной адаптер синхронизирует аудио с видео на основе выставленных детектором временных меток.

Оба компонента являются обучаемыми модулями, которые принимают видео в качестве входных данных для синтеза аудио. При этом модель Text2Audio остается фиксированной для сохранения ее способности к синтезу аудио постоянного качества.

Разработчики FoleyCrafter провели количественные и качественные эксперименты на наборах данных VGGSound и AVSync15 по метрикам семантического соответствия MKL, CLIP Score, FID и временной синхронизации Onset ACC, Onset AP.
По сравнению с существующими методами Text2Audio (SpecVQGAN, Diff-Foley и V2A-Mapper) FoleyCrafter показал лучшие результаты.
🔎💡Небольшой дайджест новостей в сфере технологий ИИ

Gam.hp - инструмент для оценки относительной важности предикторов в обобщенных аддитивных моделях. Исследователи из Nanjing Forestry University и Guangzhou Climate and Agro-meteorology Center в Китае создали пакет программного обеспечения - gam.hp, который рассчитывает индивидуальные значения R² для предикторов на основе концепции "средней общей дисперсии" - метода, ранее применявшегося для множественной регрессии и канонических анализов.

LOTUS предоставляет декларативную модель программирования и оптимизированный механизм запросов для обслуживания мощных конвейеров запросов на основе рассуждений к структурированным и неструктурированным данным.
В основе реализован простой и интуитивно понятный Pandas-подобный API, который реализует семантические операторы для расширения реляционной модели набором модульных операторов на основе языка.
Пользователи могут легко комбинировать такие операторы с традиционными операциями с данными для создания современных систем искусственного интеллекта, способных рассуждать об огромных массивах знаний.

В Netflix создали Maestro - горизонтально масштабируемый оркестратор рабочих процессов общего назначения, предназначенный для управления крупными рабочими процессами, такими как конвейеры обработки данных и конвейеры обучения моделей машинного обучения.
Пользователи могут упаковывать свою бизнес-логику в различные форматы, такие как образы Docker, блокноты, сценарии bash, SQL, Python и т.д.

Модель NeuralGCM, разработанная в сотрудничестве Google и Европейского центра прогнозов погоды на средние расстояния (ECMWF), - это новая атмосферная модель, объединяющая традиционное физическое моделирование с машинным обучением (ML).
Модель предназначена для повышения точности и эффективности прогнозирования погоды и климата.
NeuralGCM превосходит существующие модели в прогнозировании циклонов и их трасс. Примечательной особенностью NeuralGCM является его исключительная вычислительная эффективность, способная генерировать 22,8-дневное моделирование атмосферы в течение 30 секунд, при этом вычислительные затраты в 100 000 раз ниже, чем у традиционных моделей.
🤖💡Генерация 3D изображений на основе реальных фото

😀 Хочется увидеть себя в виде игровой 3D-модели? Теперь это легко! Вот как можно сделать это с помощью двух удивительных сервисов:

DzineAI — этот сервис сгенерирует изображение с любым лицом. Приятный интерфейс, не стоит забывать включить Face Match;

Tripo3d — на основе изображения Tripo3d создаст 3D-модель. Немного цензуры присутствует, но результат впечатляет. Модель можно сохранить во всех популярных форматах.

Стоит отметить, что оба ервиса предоставляют много токенов после регистрации, так что можно пользоваться бесплатно!
💡🤖⚡️Вышла облегченная версия оптимизатора Adam

Основная идея Adam-mini заключается в том, что матрица Гессиана нейронных сетей, особенно трансформеров, имеет почти блочно-диагональную структуру. Такая структура подразумевает, что для оптимальной работы различных блоков может потребоваться разная скорость обучения. Adam-mini решает эту проблему, разбивая параметры модели на блоки по наименьшим плотным подблокам в матрице Гессиана. Каждому блоку присваивается одна скорость обучения. Скорость обучения для каждого блока в Adam-mini определяется путем усреднения значений вектора импульса второго порядка Adam (v) в пределах этого блока.

Данная методика сокращает количество необходимых LR, что приводит к значительной экономии памяти. Например, на LLM Adam-mini может сократить до 90% LR, по сравнению с Adam, что в итоге экономит использования памяти на 45-50 %.

Эффективность Adam-mini была проверена сравнением с показателями AdamW в различных сценариях:

Pre-training: на Llama2-7B Adam-mini сокращает использование памяти на 48,04 %, сохраняя при этом сопоставимые с AdamW потери при проверке.

SFТ и RLHF: превосходит AdamW в задачах на основе LoRA и RLHF, удерживая низкое значение perplexity.

Non-LLM Tasks: в задачах, не связанных с LLM - модели СV, ResNet, диффузионные модели, GCN и GAT демонстрирует сравнимую или лучшую производительность, чем AdamW, при этом используя меньше памяти.

Пропускная способность: при предварительном обучении Llama2-7B на 2×A800-80GB Adam-mini показывает производительность на 49,6 % выше, чем AdamW, экономя при этом 33,1 % времени.

На данный момент реализация Adam-mini поддерживает популярные фреймворки:

🟢DDP distributed framework;
🟢FSDP distributed framework;
🟢DeepSpeed;
🟢Hugginface Trainer;
🟢Torchtitan.

Локальный запуск:

# # import from source
git clone https://github.com/zyushun/Adam-mini
cd Adam-mini
pip install -e .

# Then use Adam-mini optimizer as follows
from adam_mini import Adam_mini

optimizer = Adam_mini(
named_parameters = model.named_parameters(),
lr = lr,
betas = (beta1,beta2),
eps = eps,
weight_decay = weight_decay,
model_sharding = True,
dim = model_config.dim,
n_heads = model_config.n_heads,
n_kv_heads = model_config.n_kv_heads,
)
# all the hyperparameters, including learning rate (lr), weight_decay, beta1, beta2, eps, its recommend using the same values as for AdamW
🤖⚡️Найден новый метод реконструкции пары "человек-объект"

StackFLOW - монокулярная реконструкция пары "человек-объект" с использованием многоуровневого нормализующего потока со смещениями.

Техническая реализация метода реконструкции состоит из двух фаз: моделирование пространственных отношений и реконструкция человека-объекта в моделируемом пространстве.

Кодирование пространственных отношений пары человек-объект выполняется методом "Human-Object Offset". Для каждой пары вычисляются смещения между всеми якорными точками человека и объекта.
Эти смещения позволяют захватить высоко детализированную корреляцию между частями человека и объекта, обеспечивая качественное кодирование 3D пространственных отношений между ними. Затем выполняется монокулярная реконструкция человека и объекта методом "Stacked Normalizing Flow (StackFLOW)".
Для вывода апостериорного распределения пространственных отношений между человеком и объектом из изображения, вносятся векторные корректировки в позу человека и положение объекта, максимизируя правдоподобие выборок и минимизируя потери репроекции 2D-3D соответствия.

В процессе разработки метода, StackFLOW сравнивали с существующими методиками реконструкции PHOSA, CHORE и BSTRO на наборах данных BEHAVE и InterCap.
Разработчики отмечают, что по результатам StackFLOW показал конкурентоспособные результаты.
🤖😎Инструмент для обсуждения программного кода с ИИ

LSP-AI - инструмент с открытым исходным кодом, позволяющий обсуждать ваш код с ИИ, над которым работаете, без переключения контекста.

Общаться с LLM можно прямо в текстовом редакторе. Сервис работает с любым LSP-совместимым редактором (VS Code, Neovim, Helix, Emacs и т.д.).

Также имеется поддержка различных локальных Lms, используя llama.cpp, Ollama, любой сервер, совместимый с OpenAPI, и многое другое.
This media is not supported in your browser
VIEW IN TELEGRAM
😎🤖Роботы-рабочие заполнили Amazon

На данный момент на Amazon работает около 750 тысяч роботов.

Еще в 2013 году в компании было лишь 1000 машин-трудяг, а текущие темпы внедрения ИИ и робототехники продолжают расти. Как отмечает руководство складов Amazon, каждый робот-упаковщик на складе может заменить 24 рабочих. Упаковщики стоят 1 миллион долларов каждый, и для того, чтобы окупить затраты, потребуется всего два года.

С другой стороны, этот процесс позволяет людям перейти на более творческие и интересные должности, оставив машинам всю рутину.
Что из предложенного по вашему менению лучше всего подходит для аннотирования текста?
Anonymous Poll
67%
Tranformer
8%
LSTM
25%
Зависит от объема текста
😎Подборка интересных статей по DL за последние дни

Ликбез по компьютерному зрению в банках - автор рассказывает о том, как в банках и других финансовых организациях используют компьютерное зрение и чем оно полезно для конечных пользователей

Реконсиляция в иерархическом прогнозировании временных рядов - здесь авторы разбирают значение реконсиляции и подробно рассматривают его математическую формализацию, а также несколько популярных методов реконсиляции.

Софтмакс Гумбеля - в этой статье можно узнать о том, как применить метод софтмакса Гумбеля для решения проблемы градиентного спуска в контексте дискретных выборов, что особенно важно в задачах, таких как обучение рекомендательных систем.