Машинное обучение digest
57 subscribers
1.68K photos
221 videos
916 links
Download Telegram
🌟 Zamba2-Instruct: две гибридные SLM на 2.7 и 1.2 млрд. параметров.

Zamba2-Instruct - семейство инструктивных моделей на архитектуре Mamba2+Transformers для NLP-задач.

В семействе 2 модели:

🟢Zamba2-1.2B-instruct;
🟠Zamba2-2.7B-instruct.

Высокая производительность семейства по сравнению с релевантными Transformers-only моделями достигается за счет конкатенации эмбедингов модели с входными данными для блока внимания и использование LoRA projection matrices к общему MLP-слою.

Модели файнтюнились (SFT+DPO) на instruct-ориентированных наборах данных (ultrachat_200k, Infinity-Instruct, ultrafeedback_binarized, orca_dpo_pairs и OpenHermesPreferences).

Тесты Zamba2-Instruct продемонстрировали внушительную скорость генерации текста и эффективное использование памяти, обходя MT-bench более крупные по количеству параметров модели/ (Zamba2-Instruct-2.7B превзошла Mistral-7B-Instruct-v0.1, а Zamba2-Instruct-1.2B - Gemma2-2B-Instruct)

⚠️ Для запуска на СPU укажите use_mamba_kernels=False при загрузке модели с помощью AutoModelForCausalLM.from_pretrained.


▶️Локальная установка и инференс Zamba2-2.7B-Instruct:

# Clone repo
git clone https://github.com/Zyphra/transformers_zamba2.git
cd transformers_zamba2

# Install the repository & accelerate:
pip install -e .
pip install accelerate

# Inference:
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B-instruct")
model = AutoModelForCausalLM.from_pretrained("Zyphra/Zamba2-2.7B-instruct", device_map="cuda", torch_dtype=torch.bfloat16)

user_turn_1 = "user_prompt1."
assistant_turn_1 = "assistant_prompt."
user_turn_2 = "user_prompt2."
sample = [{'role': 'user', 'content': user_turn_1}, {'role': 'assistant', 'content': assistant_turn_1}, {'role': 'user', 'content': user_turn_2}]
chat_sample = tokenizer.apply_chat_template(sample, tokenize=False)

input_ids = tokenizer(chat_sample, return_tensors='pt', add_special_tokens=False).to("cuda")
outputs = model.generate(**input_ids, max_new_tokens=150, return_dict_in_generate=False, output_scores=False, use_cache=True, num_beams=1, do_sample=False)
print((tokenizer.decode(outputs[0])))



📌Лицензирование : Apache 2.0 License.


🟡Набор моделей на HF
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #SLM #Zamba2 #Instruct
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
📎 ML: Медицинский дайджест за 14 - 20 октября 2024 г.


▶️Модели машинного обучения и бенчмарки

🔘OLAPH: Повышение достоверности ответов на медицинские вопросы.
Метод, который фокусируется на повышении достоверности ответов в формате лонгрида, используя итеративный процесс обучения с SFT и DPO.

🔘LLMD: LLM для интерпретации медицинских карт пациентов.
Модель, разработанная для анализа истории болезни пациента на основе его медицинских карт.

🔘LifeGPT: агностическая генеративная модель клеточных автоматов.
Первая модель, способная предсказывать переходы состояний в двумерной системе Cellular Automata.

🔘MedCare: Раздельное согласование в обучении медицинских LLM.
Модель для решения проблемы снижения производительности LLM при адаптации к специализированным медицинским задачам.

🔘Y-Mol: LLM для разработки лекарственных средств.
Инструктивная модель, основанная на LLaMA2 для решения задач разработки лекарственных средств.

🔘WorldMedQA-V: многоязычный мультимодальный корпус данных для оценки медицинских моделей.
Мультимодальный датасет на разных языках для оценки моделей разной модальности в задачах здравоохранения.


▶️Фреймворки и методологии

🔘MedINST: набор медицинских инструкций для обучения LLM.
Многозадачный мета-набор данных медицинских инструкций из 133 задач.

🔘MCQG-SRefine: автоматическая генерация медицинских вопросов.
Система для автоматической генерации высококачественных вопросов множественного выбора в стиле экзамена USMLE.

🔘AgentClinic: повышение диагностической точности LLM в симулированной медицинской среде.
Система, которая дает возможность агенту-врачу, основанному на LLM, итеративно совершенствовать свои рассуждения и действия после постановки неверного диагноза.

🔘MeNTi: использование инструментов в LLM для решения медицинских задач.
Архитектура агента для LLM, разработанная специально для решения задач, связанных с медицинскими расчетами.


▶️Медицинские LLM-приложения

🔘AGENTiGraph: Интерактивная чатбот-платформа под управлением LLM.
Платформа, которая объединяет LLM с графами знаний для решения задач в специфических медицинских областях.

🔘MMed-RAG: Мультимодальная медицинская RAG-система.
Система повышения фактической точности, разработанная для борьбы с галлюцинациями, возникающими в медицинских VLM.

🔘Medical Graph RAG: Безопасная медицинская LLM c поиском по графу знаний.
Метод использования LLM в медицине, основанный на RAG, дополненной поиском по графу знаний.

🔘MedAide: Многоагентная система для комплексных медицинских задач.
Платформа для решения сложных медицинских задач, основанная на LLM и мульти-агентной архитектуре, где каждый агент специализируется на определенном аспекте здравоохранения.

🔘Генерация синтетических клинических испытаний на LLMs.
Методика использования LLM для создания синтетических клинических испытаний.


▶️Исследования и обзоры

*️⃣UniStruct: новая архитектура для представления структурированных медицинских данных.
Метод адаптации техник субсловной токенизации для представления групп медицинских кодов как единые токены.

*️⃣Адаптация медицинских LLM для 50 языков: подход с использованием MoE по языковым семьям.
Исследовании проблемы адаптации медицинских LLM к локальным языкам, чтобы улучшить доступ к медицинским услугам.

*️⃣ Можно ли добиться успеха в обучении медицинской VLM на чисто синтетических данных?
В статье изучается возможность использования исключительно синтетических данных для обучения моделей MedVLM. Спойлер - да, можно


🔜 Читать полный дайджест


@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 LayerSkip: метод ускорения инференса в LLM.

LayerSkip - это способ ускорить LLM, уменьшая количество вычислений, необходимых для обработки каждого слова (токена) текста.

Основная идея LayerSkip - научить модель "угадывать" результат раньше, не проходя все слои. Для этого во время обучения модели некоторые слои "исключаются" (layer dropout) случайным образом. Помимо исключения слоев, LayerSkip использует специальную функцию потерь, которая помогает модели "понимать" результаты вычислений на более ранних слоях.

В отличие от других методов, LayerSkip использует одну и ту же LM head для всех слоев модели. Это упрощает обучение и уменьшает потребление памяти при инференсе.

Во время инференса LayerSkip обрабатывает текст только первыми "E" слоями, а затем сразу переходит к LM head, чтобы получить результат. Это называется "ранний выход" (early exit).

Чтобы повысить точность при раннем выходе, LayerSkip использует метод "самоспекулятивного декодирования". Модель сначала "угадывает" несколько следующих токенов, используя ранний выход. Затем она проверяет эти токены, используя оставшиеся слои, и исправляет ошибки.

LayerSkip был протестирован на различных наборах данных: Llama, CodeLlama и TOPv2. Результаты показали, что LayerSkip может ускорить работу LLM до 2 раз без значительного снижения точности.

Чтобы попробовать LayerSkip локально, разработчики предлагают использовать любую из 6 предобученных моделей:

🟢Llama2 - 7B и 13B;
🟢Codellama-7B или 34В;
🟢Llama3-8B:
🟢Llama3.2-1B.

⚠️ Для локального запуска будет нужен Huggingface API KEY.

▶️Локальный запуск:

# Clone repo
git clone git@github.com:facebookresearch/LayerSkip.git
cd LayerSkip

# Create env
conda create --name layer_skip python=3.10
conda activate layer_skip

# Install requirements
$ pip install -r requirements.txt

#Inference with self speculative
$ torchrun generate.py --model facebook/layerskip-llama2-7B \
--sample True \
--max_steps 512 \
--generation_strategy self_speculative \
--exit_layer 8 \
--num_speculations 6


▶️Ключи запуска:

--model: имя модели на HuggingFace;
--sample: включение/выключение семплирования (по умолчанию: True);
--max_steps: максимальное количество генерируемых токенов;
--generation_strategy: стратегия генерации (по умолчанию: 'greedy', для LayerSkip: 'self_speculative');
--exit_layer: номер слоя для раннего выхода;
--num_speculations: количество спекулятивных токенов;


🟡Коллекция моделей на HF
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #MetaAI #LayerSkip
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Stable Diffusion 3.5 Large.

Stability AI опубликовала Stable Diffusion 3.5 Large - модель text-to-image с 8 млрд. параметров.

В основе SD 3.5 Large - архитектура Multimodal Diffusion Transformer (MMDiT). Модель использует три предобученных текстовых энкодера:

🟢OpenCLIP-ViT/G;
🟢CLIP-ViT/L;
🟢T5-xxl.

OpenCLIP-ViT/G и CLIP-ViT/L имеют контекстную длину 77 токенов, а T5-xxl - 77/256 токенов.

Модель доступна по API в сервисах - Stability AI, Replicate и Deepinfra.

Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или Diffusers.

⚠️ Инференс квантованной NF4-версии на ограниченных VRAM

⚠️ Подробные инструкции по файнтюну и тренировке LoRA для Stable Diffusion 3.5 Large.

▶️Локальный запуск инференса на Diffusers:

# install Diffusers
pip install -U diffusers


# Inference
import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-large", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")

image = pipe(
"A happy woman laying on a grass",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("woman.png")


📌 Лицензирование:

🟢Модель доступна под лицензией Stability Community License, которая разрешает бесплатное использование для исследовательских, некоммерческих и коммерческих целей организациями или частными лицами с годовым доходом менее 1 млн. долл. США.

🟠Для получения коммерческой лицензии для организаций с годовым доходом более 1 млн. долл. США необходимо связаться со Stability AI.


🟡Страница проекта
🟡Arxiv
🟡Модель


@ai_machinelearning_big_data

#AI #ML #Diffusion #SDL #StabilityAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 MMSearch: бенчмарк мультимодальных моделей по способности поиска.

MMSearch — это тест мультимодального поиска, созданный для оценки возможностей LMMs как систем для поиска информации. Этот тест включает тщательно отобранный датасет из 300 запросов из 14 различных областей.

Чтобы обеспечить сложность бенчмарка, запросы классифицируются по двум основным категориям: новости и знания.

Область новостей состоит из недавних событий на момент сбора данных (август 2024 года), это гарантирует, что ответы на запросы не будут содержаться в обучающих данных для LMM.

В области знаний собраны запросы, требующие редких знаний - те, на которые не могут ответить современные LMM, такие как GPT-4o и Claude-3.5.

Оценка выполняется по 4 задачам, итог выполнения сравнивается с результатом аннотаторов, в роли которых выступали люди :

🟢запрос (requery): интерпретация запроса о содержимом или об объекте на изображении;

🟢ранжирование (rerank): выбор наиболее релевантного ответа запросу;

🟢обобщение (summarization): анализ результатов задач requery и rerank и формирование ответа на запрос;

🟢сквозной запрос (End-to-End): тест полного цикла, который включает в себя все три задачи сразу (requery+rerank+summarization).

▶️ Локальное выполнение бенчмарка возможно 3 способами:

🟠в VLMEvalKit. Пакет поддерживает более 150 VLM и MMLM моделей;

🟠путем запуска скриптов оценки MMSearch;

🟠в lmms-eval. Пока поддерживается только одна модель для теста MMSearch - LLaVA-OneVision, расширение возможностей - в процессе, настройка среды - тут.

⚠️ Среднее время выполнения самого сложного теста (End-to-End) на одном GPU A100 - 3-5 часов.

Лидерборд MMSearch 16 моделей, включая результат выполнения тестов человеком можно посмотреть на странице проекта.


🟡Страница проекта
🟡Arxiv
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Open-Sora-Plan v1.3.0: воссоздание сервиса генерации text-to-video Sora средствами opensource.

Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.

▶️ Ключевые особенности версии 1.3.0:

🟢Улучшенный вариационный автоэнкодер WF-VAE
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.

🟢Skiparse (Skip-Sparse) Attention
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.

🟢Новая стратегия очистки данных
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.

🟢Динамическое разрешение и длительность.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.

⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.

▶️ Подробные инструкции по установке, обучению и инференсу в режимах
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.


📌Лицензирование: MIT License.


🟡Модель
🟡Сообщество в Discord
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #OpenSora #Text2Video #Image2Video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Планы Microsoft в области ИИ: доклад Сатьи Наделлы на саммите по ИИ в Лондоне.

Стратегия Microsoft в области ИИ включает Copilot, пользовательский интерфейс, который поддерживает новые рабочие процессы и совместную работу, и Copilot Studio, который позволяет создавать ИИ-агентов с помощью инструментов low-code/no-code.

Конфиденциальность данных и безопасность ИИ занимают центральное место в видении Microsoft, направленном на создание надежного ИИ, при этом компания разрабатывает возможности для обеспечения доверия к ИИ и развития безопасной экосистемы.
geeky-gadgets.com

✔️ Gemini: голосовой помощник от Google сможет звонить и отправлять сообщения с заблокированного телефона.

Новая функция расширит возможности Gemini Live, который уже сейчас может отвечать на вопросы с заблокированного телефона.

Для активации функции пользователю нужно будет включить соответствующую настройку в меню Gemini на Android.

Просмотр ответов с личной информацией будет доступен только после разблокировки устройства..
techradar.com

✔️ Китайский стартап в области ИИ утверждает, что превзошел GPT-4o.

01AI, основанный специалистом по информатике Кай-Фу Ли, запустил новую модель Yi-Lightning, которая, как утверждается, превосходит GPT-4o-2024-05-13 от OpenAI и Claude 3.5 Sonnet от Anthropic в рейтинге LMSYS.

Несмотря на успех Yi-Lightning, 01AI переориентируется на корпоративные решения для китайских компаний из-за трудностей с монетизацией потребительских продуктов. 01AI по-прежнему будет поддерживать свои глобальные приложения - PopAI, Monoland и приложение для поиска на основе ИИ BeaGo.

Китайские технологические компании получают поддержку от правительства в продолжающейся битве за лидерство в области ИИ с США. Китайское правительство сделало ИИ национальным приоритетом, стремясь стать мировым лидером в этой области к 2030 году.
analyticsindiamag.com

✔️ Asana анонсирует AI Studio: no-code конструктор для разработки и развертывания ИИ-агентов рабочих процессов.

В отличие от других инструментов ИИ, которые просто синтезируют информацию и генерируют контент, ИИ-агенты Asana работают как участник команды. Они берут на себя рутинную работу, координируют проекты и организуют работу по критическим рабочим процессам - от приема до планирования, выполнения и отчетности.

Рабочие процессs на основе ИИ основаны на Asana Work Graph, который фиксирует критический контекст и исторические связи между всей работой внутри организации - кто, какую работу выполняет, к какому сроку, как и почему.

Ранний доступ был запущен 22 октября для уровней Enterprise и Enterprise+, а вскоре появятся годовые подписки для Advanced.
aithority.com

✔️ Keras Hub: универсальная библиотека для предобученных моделей.

Keras Hub – это новая унифицированная библиотека для предобученных моделей, которая объединяет архитектуры NLP и CV, предоставляя разработчикам доступ к набору моделей в рамках единой платформы Keras.

Keras Hub упрощает поиск, использование и публикацию моделей, а также поддерживает функции LoRA, квантования и многоузловое обучение для работы с большими наборами данных.

Для начала работы с Keras Hub достаточно установить библиотеку с помощью команды pip install --upgrade keras-hub. Keras Hub предоставляет доступ к моделям: Gemma, PaliGemma и Stable Diffusion 3.

Также доступны новые функции для разработчиков KerasCV: встроенная предварительная обработка и функции потерь, доступные через keras.losses.<loss_function>.
developers.googleblog.com


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ FatLlama-1.7T

Зачем кому-то создавать FatLlama-1.7T? Серьезно, в чем смысл?

Однажды вы просыпаетесь и думаете: "Знаете, что нам нужно? Такая огромная модель, чтобы даже облака занервничали". Это все равно что решить построить ракету только для того, чтобы сгонять в супермаркет.

Конечно, это впечатляет, но кто будет ее запускать? Скорее всего, не вы, если только ваш ПК не является нелегальным ядерным реактором.

И что же она умеет? Может быть, предсказывать ваши электронные письма еще до того, как вы подумаете их написать, или просто станет очень хорошо находить в сети видео с котами, кто ж знает...

Вопрос в том, создаем ли мы эти гигантские модели, потому что можем или потому что нам есть что показать Вселенной?

FatLlama-1.7T - это не столько ИИ, сколько "подержите мое пиво, я собираюсь запустить эту штуку".

И вот она, FatLlama-1.7T, которая займет ВСЕ место на вашем жестком диске. Забудьте о сохранении семейных фотографий или драгоценном архиве книг, которые вы никогда не прочитаете. Вам же не так уж и нужны были эти жалкие 3 ТБ свободного места, правда? Зато теперь у вас есть цифровой гигант.

Квантованные версии? Да не вопрос, удачи с запуском, держитесь там.

Даже если каким-то чудом вам удастся запустить FatLlama-1.7T, не спешите расслабляться, ведь вы знаете, что будет дальше, верно? FatLlama 3T.

К тому времени, когда вы выработаете максимум энергии и превратите свой дом в центр обработки данных, чтобы запустить свежую FatLlama 3T, я перейду к FatLlama 5.8T, для которой, вероятно, потребуется маленькая галактика в качестве источника энергии.

Вызов принят? 😁

🟡Модель
🟡Набор GGUF

@ai_machinelearning_big_data

#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM