Машинное обучение digest
57 subscribers
1.69K photos
223 videos
921 links
Download Telegram
🌟 Open-Sora-Plan v1.3.0: воссоздание сервиса генерации text-to-video Sora средствами opensource.

Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.

▶️ Ключевые особенности версии 1.3.0:

🟢Улучшенный вариационный автоэнкодер WF-VAE
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.

🟢Skiparse (Skip-Sparse) Attention
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.

🟢Новая стратегия очистки данных
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.

🟢Динамическое разрешение и длительность.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.

⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.

▶️ Подробные инструкции по установке, обучению и инференсу в режимах
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.


📌Лицензирование: MIT License.


🟡Модель
🟡Сообщество в Discord
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #OpenSora #Text2Video #Image2Video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Планы Microsoft в области ИИ: доклад Сатьи Наделлы на саммите по ИИ в Лондоне.

Стратегия Microsoft в области ИИ включает Copilot, пользовательский интерфейс, который поддерживает новые рабочие процессы и совместную работу, и Copilot Studio, который позволяет создавать ИИ-агентов с помощью инструментов low-code/no-code.

Конфиденциальность данных и безопасность ИИ занимают центральное место в видении Microsoft, направленном на создание надежного ИИ, при этом компания разрабатывает возможности для обеспечения доверия к ИИ и развития безопасной экосистемы.
geeky-gadgets.com

✔️ Gemini: голосовой помощник от Google сможет звонить и отправлять сообщения с заблокированного телефона.

Новая функция расширит возможности Gemini Live, который уже сейчас может отвечать на вопросы с заблокированного телефона.

Для активации функции пользователю нужно будет включить соответствующую настройку в меню Gemini на Android.

Просмотр ответов с личной информацией будет доступен только после разблокировки устройства..
techradar.com

✔️ Китайский стартап в области ИИ утверждает, что превзошел GPT-4o.

01AI, основанный специалистом по информатике Кай-Фу Ли, запустил новую модель Yi-Lightning, которая, как утверждается, превосходит GPT-4o-2024-05-13 от OpenAI и Claude 3.5 Sonnet от Anthropic в рейтинге LMSYS.

Несмотря на успех Yi-Lightning, 01AI переориентируется на корпоративные решения для китайских компаний из-за трудностей с монетизацией потребительских продуктов. 01AI по-прежнему будет поддерживать свои глобальные приложения - PopAI, Monoland и приложение для поиска на основе ИИ BeaGo.

Китайские технологические компании получают поддержку от правительства в продолжающейся битве за лидерство в области ИИ с США. Китайское правительство сделало ИИ национальным приоритетом, стремясь стать мировым лидером в этой области к 2030 году.
analyticsindiamag.com

✔️ Asana анонсирует AI Studio: no-code конструктор для разработки и развертывания ИИ-агентов рабочих процессов.

В отличие от других инструментов ИИ, которые просто синтезируют информацию и генерируют контент, ИИ-агенты Asana работают как участник команды. Они берут на себя рутинную работу, координируют проекты и организуют работу по критическим рабочим процессам - от приема до планирования, выполнения и отчетности.

Рабочие процессs на основе ИИ основаны на Asana Work Graph, который фиксирует критический контекст и исторические связи между всей работой внутри организации - кто, какую работу выполняет, к какому сроку, как и почему.

Ранний доступ был запущен 22 октября для уровней Enterprise и Enterprise+, а вскоре появятся годовые подписки для Advanced.
aithority.com

✔️ Keras Hub: универсальная библиотека для предобученных моделей.

Keras Hub – это новая унифицированная библиотека для предобученных моделей, которая объединяет архитектуры NLP и CV, предоставляя разработчикам доступ к набору моделей в рамках единой платформы Keras.

Keras Hub упрощает поиск, использование и публикацию моделей, а также поддерживает функции LoRA, квантования и многоузловое обучение для работы с большими наборами данных.

Для начала работы с Keras Hub достаточно установить библиотеку с помощью команды pip install --upgrade keras-hub. Keras Hub предоставляет доступ к моделям: Gemma, PaliGemma и Stable Diffusion 3.

Также доступны новые функции для разработчиков KerasCV: встроенная предварительная обработка и функции потерь, доступные через keras.losses.<loss_function>.
developers.googleblog.com


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ FatLlama-1.7T

Зачем кому-то создавать FatLlama-1.7T? Серьезно, в чем смысл?

Однажды вы просыпаетесь и думаете: "Знаете, что нам нужно? Такая огромная модель, чтобы даже облака занервничали". Это все равно что решить построить ракету только для того, чтобы сгонять в супермаркет.

Конечно, это впечатляет, но кто будет ее запускать? Скорее всего, не вы, если только ваш ПК не является нелегальным ядерным реактором.

И что же она умеет? Может быть, предсказывать ваши электронные письма еще до того, как вы подумаете их написать, или просто станет очень хорошо находить в сети видео с котами, кто ж знает...

Вопрос в том, создаем ли мы эти гигантские модели, потому что можем или потому что нам есть что показать Вселенной?

FatLlama-1.7T - это не столько ИИ, сколько "подержите мое пиво, я собираюсь запустить эту штуку".

И вот она, FatLlama-1.7T, которая займет ВСЕ место на вашем жестком диске. Забудьте о сохранении семейных фотографий или драгоценном архиве книг, которые вы никогда не прочитаете. Вам же не так уж и нужны были эти жалкие 3 ТБ свободного места, правда? Зато теперь у вас есть цифровой гигант.

Квантованные версии? Да не вопрос, удачи с запуском, держитесь там.

Даже если каким-то чудом вам удастся запустить FatLlama-1.7T, не спешите расслабляться, ведь вы знаете, что будет дальше, верно? FatLlama 3T.

К тому времени, когда вы выработаете максимум энергии и превратите свой дом в центр обработки данных, чтобы запустить свежую FatLlama 3T, я перейду к FatLlama 5.8T, для которой, вероятно, потребуется маленькая галактика в качестве источника энергии.

Вызов принят? 😁

🟡Модель
🟡Набор GGUF

@ai_machinelearning_big_data

#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 SHORTCUT MODELS: метод обучение диффузионных моделей генерации в 1 шаг.

Shortcut models - метод обучения диффузионных моделей, который позволяет генерировать изображения высокого качества за один или несколько шагов.

В основе shortcut models - идея обучать сеть с учетом не только текущего уровня шума, но и желаемого размера шага. Это позволяет модели "перепрыгивать" через этапы генерации.

Ключевым преимуществом данного подхода является его простота: shortcut models обучаются за один этап, используя одну сеть, в отличие от других методов ускорения выборки, которые полагаются на сложные схемы обучения с несколькими фазами, сетями или точной настройкой шедулера.

В процессе обучения shortcut models используются два типа целей loss function:

🟢flow-matching при малом размере шага (d ≈ 0), аналогично стандартным диффузионным моделям.

🟢self-consistency при больших размерах шага (d > 0), где цель формируется путем конкатенации последовательности из двух шагов размером d/2.

Совместная оптимизация этих целей дает возможность модели научиться создавать изображения, сохраняя согласованность при любом размере шага, включая генерацию за один шаг.

Метод применим к flow-matching и transformer-based типам моделей и RNN/LSTM-сетям.

Эксперименты, проведенные с DiT на наборах данных CelebA-HQ и ImageNet-256, подтверждают эффективность метода.

Shortcut models превосходят методы "end-to-end" обучения одношаговых генеративных моделей и конкурируют с двухэтапными методами дистилляции.

Практическая реализация shortcut models написана на JAX. Для локального запуска следует установить зависимости conda из файлов environment.yml и requirements.txt репозитория.

⚠️ Код поддерживает --model.sharding fsdp для полностью сегментированного параллелизма данных, если обучение проводится на multi-GPU или TPU.

⚠️ Чекпоинты и FID для тестовых датасетов CelebA и Imagenet доступны на Google-диске.

▶️ Пример запуска обучения на DiT-B с датасетом CelebA :

python train.py --model.hidden_size 768 --model.patch_size 2 --model.depth 12 --model.num_heads 12 --model.mlp_ratio 4 
--dataset_name celebahq256 --fid_stats data/celeba256_fidstats_ours.npz --model.cfg_scale 0 --model.class_dropout_prob 1 --model.num_classes 1 --batch_size 64 --max_steps 410_000 --model.train_type shortcut



🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ShortcutModels #Training
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 Aya Expanse: семейство мультиязычных моделей на 32 и 8 млрд. параметров от CohereForAI.

Семейство Aya Expanse - это исследовательский релиз моделей с развитыми мультиязычными возможностями.

Aya Expanse - результат объединения семейства моделей Command с итогами годичных исследований Cohere For AI в области арбитража данных, обучения многоязычным предпочтениям, безопасности и техник мерджа моделей.

Модели обучены для инференса на 23 языках: арабский, китайский (упрощенный и традиционный), чешский, голландский, английский, французский, немецкий, греческий, иврит, хинди, индонезийский, итальянский, японский, корейский, персидский, польский, португальский, румынский, русский, испанский, турецкий, украинский и вьетнамский.

Aya Expanse - авторегрессионые языковые модели на оптимизированной архитектуре трансформеров и контекстом в 128 тыс. токенов у 32b и 8 тыс. токенов у 8В:

🟢Aya Expanse 32B
🟢Aya Expanse 8B

Квантованные версии в размерностях от 2-bit до 16-bit в формате GGUF:

🟠Aya Expanse 32B-GGUF
🟠Aya Expanse 8B-GGUF


Блокноты на Google Collab от сообщества Cohere For AI:

🟢Инференс ассистента по составлению текстов на разных языках;

🟢Инференс для создания кулинарных рецептов с голосовыми возможностями;

🟢Инференс мультиязычной системы QA для неполных представленных спортивных правил по роллер-дерби ;

🟠Код для SFT-файнтюна Aya Expanse 8B для обучения бенгальскому языку.

▶️Пример инференса Aya Expanse 8B на Transformers :

from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "CohereForAI/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# Format the message with the chat template
messages = [{"role": "user", "content": " %prompt% "}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>%prompt%<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>

gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)

gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)


📌Лицензирование: CC-BY-NC License.


🟡Коллекция моделей на HF
🟡Набор GGUF 32B
🟡Набор GGUF 8B
🟡Demo


@ai_machinelearning_big_data

#AI #ML #LLM #CohereForAI #AyaExpanse
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Aya Expanse: семейство мультиязычных моделей на 32 и 8 млрд. параметров от CohereForAI.

Семейство Aya Expanse - это исследовательский релиз моделей с развитыми мультиязычными возможностями.

Aya Expanse - результат объединения семейства моделей Command с итогами годичных исследований Cohere For AI в области арбитража данных, обучения многоязычным предпочтениям, безопасности и техник мерджа моделей.

Модели обучены для инференса на 23 языках: арабский, китайский (упрощенный и традиционный), чешский, голландский, английский, французский, немецкий, греческий, иврит, хинди, индонезийский, итальянский, японский, корейский, персидский, польский, португальский, румынский, русский, испанский, турецкий, украинский и вьетнамский.

Aya Expanse - авторегрессионые языковые модели на оптимизированной архитектуре трансформеров и контекстом в 128 тыс. токенов у 32b и 8 тыс. токенов у 8В:

🟢Aya Expanse 32B
🟢Aya Expanse 8B

Квантованные версии в размерностях от 2-bit до 16-bit в формате GGUF:

🟠Aya Expanse 32B-GGUF
🟠Aya Expanse 8B-GGUF


Блокноты на Google Collab от сообщества Cohere For AI:

🟢Инференс ассистента по составлению текстов на разных языках;

🟢Инференс для создания кулинарных рецептов с голосовыми возможностями;

🟢Инференс мультиязычной системы QA для неполных представленных спортивных правил по роллер-дерби ;

🟠Код для SFT-файнтюна Aya Expanse 8B для обучения бенгальскому языку.

▶️Пример инференса Aya Expanse 8B на Transformers :

from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "CohereForAI/aya-expanse-8b"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

# Format the message with the chat template
messages = [{"role": "user", "content": " %prompt% "}]
input_ids = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
## <BOS_TOKEN><|START_OF_TURN_TOKEN|><|USER_TOKEN|>%prompt%<|END_OF_TURN_TOKEN|><|START_OF_TURN_TOKEN|><|CHATBOT_TOKEN|>

gen_tokens = model.generate(
input_ids,
max_new_tokens=100,
do_sample=True,
temperature=0.3,
)

gen_text = tokenizer.decode(gen_tokens[0])
print(gen_text)


📌Лицензирование: CC-BY-NC License.


🟡Коллекция моделей на HF
🟡Набор GGUF 32B
🟡Набор GGUF 8B
🟡Demo


@ai_machinelearning_big_data

#AI #ML #LLM #CohereForAI #AyaExpanse
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 PocketPal AI: локальный запуск LLM на IOS и Android.

PocketPal AI - проект Ai-ассистента на базе SLM, которые запускаются локально на iOS и Android без необходимости подключения к Интернету:

🟢PocketPal AI для iOS в App Store

🟢PocketPal AI для Android в Google Play

Приложения на обеих платформах позволяет выбирать модели, настраивать параметры инференса (системный промпт, температура, шаблоны чата и BOS), следить за показателями производительности в реальном времени и имеют функцию автоматической выгрузки моделей из памяти устройства, когда приложение в фоновом режиме.

Список моделей в приложении (загружаются вручную из меню):

🟠H2O Danube 2 and 3;
🟠Microsoft Phi;
🟠Google Gemma 2;
🟠Qwen.

Помимо этих моделей, можно загрузить любую модель в формате GGUF через опцию "Add Local Model" в меню моделей приложения на устройстве.

В планах проекта расширение списка поддерживаемых моделей, улучшение функций пользовательского интерфейса и поддержка большего количества версий Android/

⚠️ Требования для локальная разработки проекта PocketPal:

🟢Xcode для iOS или Android Studio;
🟢Node.js версии 18 или выше;
🟢Yarn;
🟢React Native CLI.

▶️ Локальная установка и запуск для самостоятельной разработки :

# Clone repository
git clone https://github.com/a-ghorbani/pocketpal-ai
cd pocketpal-ai

# Install dependencies
yarn install

# Install dependencies iOS only
cd ios
pod install
cd ..

# Run App via iOS Simulator
yarn ios

# Run App via Android Simulator
yarn android


📌Лицензирование: MIT License.


🖥GitHub

@ai_machinelearning_big_data

#AI #ML #SLM #iOS #Android
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM