Машинное обучение digest
57 subscribers
1.68K photos
221 videos
916 links
Download Telegram
✔️ Perplexity запускает функцию покупки товаров.

Perplexity представляет новую функцию "Buy with Pro", позволяющую пользователям с подпиской Pro покупать товары, не покидая сервис. Функция доступна для жителей США и предлагает бесплатную доставку на все покупки.

Для товаров, не поддерживающих "Buy with Pro", пользователи будут перенаправлены на сайт продавца. Perplexity не получает комиссионные от продаж, совершенных через кнопку "Buy with Pro". В компании заявляют, что функция не преследует коммерческих целей. Помимо "Buy with Pro", Perplexity внедряет новые карточки товаров с описанием, ценой и обзорами, а также функцию "Snap to Shop", позволяющую искать товары по фотографии.
theverge.com

✔️ Бигтех угрожает энергетической безопасности Ирландии.

Рост энергоемких технологий ИИ ставит под угрозу энергетическую инфраструктуру Ирландии, что может негативно сказаться на ее позиции как европейского центра технологий. Дублин - третий по величине центр гипермасштабируемых ЦОДов в мире и крупнейший в Европе. По прогнозам, потребности ИИ в электроэнергии удвоятся к 2026 году и создадут дефицит в энергетических сетях страны.

Национальный оператор электросетей EirGrid ввел фактический мораторий на новые ЦОДы в районе Дублина. Он предупредил о возможном «массовом оттоке» центров обработки данных из страны, если ситуация не улучшится. В 2023 году ЦОДы потребили 21% всей измеренной электроэнергии, впервые превысив потребление городских домов.
politico.eu

✔️ Mistral представил новые модели и обновленные функции чат-бота.

Mistral выпустила ряд обновлений своих продуктов: платформа чат-ботов Mistral, Le Chat, теперь может осуществлять поиск в Интернете с цитированием источников, подобно ChatGPT и Perplexity. Она также получила инструмент «canvas», аналогичный ChatGPT Canvas, позволяющий пользователям изменять, преобразовывать или редактировать макеты веб-страниц и визуализации данных, используя модели ИИ Mistral.

Le Chat теперь может обрабатывать большие PDF-документы и изображения для анализа и обобщения, включая файлы, содержащие графики и уравнения.

Некоторые из новых возможностей Le Chat стали возможны благодаря новым моделям Mistral: Pixtral Large, которая может обрабатывать текст и изображения и Mistral Large 3, новой флагманской модели генерации текста. Все новые функции Le Chat останутся бесплатными в бета-версии.
mistral.ai

✔️ Новые AI-чипы Nvidia перегреваются в серверах.

Blackwell от Nvidia, предназначенные для задач ИИ, столкнулись с проблемами перегрева в серверных стойках, что вызывает опасения у клиентов относительно своевременного запуска новых ЦОДов.

Как сообщает The Information, перегрев возникает при подключении чипов Blackwell в серверные стойки, рассчитанные на установку до 72 чипов. По данным источников издания, Nvidia неоднократно просила поставщиков изменить конструкцию стоек для решения проблемы перегрева.
Новые чипы вдвое больше по площади, чем предыдущее поколение, и обеспечивают 30-кратное увеличение скорости обработки задач, связанных с задачами ИИ.
seekingalpha.com

✔️ AMD обгоняет Nvidia по вычислительной мощности в рейтинге Top500.

Суперкомпьютер El Capitan, созданный HPE с использованием гибридных процессоров AMD Instinct MI300A, занял 1 место в рейтинге Top500, значительно опередив конкурентов. Тестирование El Capitan в Ливерморской национальной лаборатории показало пиковую теоретическую производительность 2746,4 петафлопс и устойчивую производительность на тесте HPL 1742 петафлопс с эффективностью 63,4%.

El Capitan оснащен 43 808 устройствами AMD Instinct MI300A, содержащими 1,05 млн ядер Genoa и почти 10 млн потоковых мультипроцессоров на графических чиплетах.

В рейтинге Top500 за ноябрь 2024 года AMD лидирует по приросту вычислительной мощности, обеспечив 72,1% новых петафлопс. С учетом всех 500 систем AMD обгоняет Nvidia по совокупной пиковой производительности на ускорителях, занимая 44,9% против 40,3% у Nvidia.
nextplatform.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📌Туториал по файнтюну Qwen2-VL-7B с использованием экосистемы Hugging Face.

Статья на HF из цикла Open-Source AI Cookbook c подробным пошаговым описанием и примерами кода процесса тонкой настройки VLM Qwen2-VL-7B в области ответов на вопросы по изображениям с использованием библиотеки Transformer Reinforcement Learning (TRL). В качестве целевого датасета используется ChartQA, который содержит диаграммы разных типов в паре с вопросами и ответами.

Для обучения модели демонстрируется методы Supervised Fine-Tuning (SFT) с использованием библиотеки TRL, QLoRA, которая квантует веса LoRA, обеспечивая более низкие требования к памяти и повышенную эффективность обучения.

Отдельным разделом выделен процесс подготовки данных к обучению с помощью функции collate_fn, которая выполняет корректное извлечение и пакетную обработку данных и их форматирование для модели. Обучение модели осуществляется с помощью класса SFTTrainer.

В результате модель научилась отвечать на вопросы в соответствии с используемым датасетом. Оценить готовый файнтюн можно в демо на HF Space.

Дополнительно, в качестве альтернативы тонкой настройке, рассматривается использование промтинга с добавлением системного сообщения для контекстуализации ввода для модели, чтобы улучшить точность ее ответов.

▶️ Блокнот на Google Collab для практических экспериментов. Для его запуска понадобится платный тариф с GPU А100.


▶️Структура туториала по разделам:

🟢Установка среды

🟢Загрузка датасета

🟢Загрузка модели и проверка производительности

🟢Файнтюн модели с помощью TRL

🟠Загрузка квантованной модели для обучения
🟠Настройка QLoRA и SFTConfig
🟠Обучение модели

🟢Тестирование готовой модели

🟢Сравнение обученной модели с базовой + промптинг

🟢Дополнительные ресурсы для более глубокого изучения VLM


🔜 Статья на HuggingFace


@ai_machinelearning_big_data

#AI #ML #VLM #HuggingFace #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Генеративные агенты: моделирование поведения 1000 человек.

Stanford University, Northwestern University и University of Washington, совместно с Google Deepmind, при участии социологов, разработали архитектуру, которая позволяет симулировать поведение более 1000 реальных людей с помощью LLM, обученных на транскрипции двухчасовых интервью с добровольцами-участниками.

Архитектура использует метод "экспертных размышлений", где LLM генерирует выводы о каждом участнике, принимая на себя роли различных специалистов социальных наук (психолога, экономиста, политолога, демографа).

Процесс создания агентов начинался со стратифицированного отбора 1052 участников, репрезентирующих население США по возрасту, полу, расе, региону, образованию и политическим взглядам. Масштабирование сбора данных проводилось агентом-интервьюером на основе GPT-4o, который динамически генерировал уточняющие вопросы, адаптируясь к ответам участников.

Оценка точности агентов проводилась с помощью сравнения их ответов с ответами реальных участников на вопросы из Общего социального опроса (GSS), опросника "Большая пятерка" (BFI-44), 5 экономических игр и 5 социальных экспериментов. Для учета непостоянства человеческого поведения точность агентов нормализовали с помощью сравнения с тем, насколько последовательно сами участники воспроизводили свои ответы через две недели.

Результаты оценки показали высокую точность прогнозирования агентов, обученных на интервью. Они смогли предсказать ответы на вопросы GSS с нормализованной точностью 0.85, а черты личности по BFI-44 - с нормализованной корреляцией 0.80. Использование интервью значительно повысило точность по сравнению с агентами, использующими только демографические данные или краткие описания личности.

В экспериментах агенты успешно воспроизвели 4 из 5 личностных особенностей, наблюдавшихся у реальных участников, а оценки размеров этих особенностей показали высокую корреляцию (r = 0.98).

Доступ к банку агентов двухуровневый:

🟢открытый доступ к агрегированным ответам на фиксированные задачи и репозиторий с кодом для воспроизведения

🟠ограниченный доступ к индивидуальным ответам на открытые задачи по запросу.


📌 Лицензирование: MIT License.


🟡Arxiv
🟡Dataset
🖥Github


@ai_machinelearning_big_data

#AI #ML #LLM #Agents #Social
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ SANA: Генерация изображений изображений высокого разрешения от Nvidia Labs.

Sana - семейство моделей для генерации изображений с разрешением до 4096x4096 пикселей. Главное преимущество Sana - высокая скорость инференса и низкие требования к ресурсам, модели можно запустить даже на ноутбуке.

Секрет эффективности Sana в ее архитектуре, которая состоит из нескольких инновационных компонентов:

🟢Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, в результате чего значительно сокращается число латентных токенов, что, в свою очередь, повышает эффективность обучения и позволяет генерировать изображения с разрешением 4K.

🟢Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию с разрешением 4K в 1.7 раза.

В Linear DiT вместо модуля MLP-FFN используется Mix-FFN, который объединяет в себе свертку 3x3 и Gated Linear Unit (GLU). Mix-FFN позволяет отказаться от позиционного кодирования без потери качества.

🟢Decoder-only Small LLM as Text Encoder
Энкодер, основанный на LLM Gemma, который лучше понимает текстовые запросы пользователя и точнее передает их смысл на генерации.

Для точного соответствия "текст - изображение" при обучении энкодера применялись "сложные человеческие инструкции" (CHI), которые научили Gemma учитывать контекст запроса.

Sana создавалась с помощью уникальной стратегии обучения и выборки. В процессе обучения используются несколько VLM (VILA, InternVL2) для создания различных аннотаций к каждому изображению. Затем, на основе CLIP-оценки, были отобраны наиболее подходящие пары "текст-изображение".

Обучение происходило постепенно, начиная с разрешения 512x512 и заканчивая 4096x4096, а алгоритм Flow-DPM-Solver ускорил процесс выборки, сократив количество шагов по сравнению с Flow-Euler-Solver.

Результаты тестирования Sana впечатляют:

🟠Sana-0.6B, работающая с изображениями 512x512, в 5 раз быстрее, чем PixArt-Σ, при этом показывает лучшие результаты по метрикам FID, Clip Score, GenEval и DPG-Bench.

🟠При разрешении 1024x1024 Sana-0.6B в 40 раз быстрее PixArt-Σ.

🟠Sana-0.6B превосходит по скорости Flux-12B в 39 раз при разрешении 1024x1024) и может быть запущена на ноутбуке с 16 GB VRAM, генерируя изображения 1024x1024 менее чем за секунду.


⚠️ Для локального инференса модели 0.6B требуется 9GB VRAM, а для модели 1.6B - 12GB VRAM.


▶️ Установка и инференс c GradioUI:

# official online demo
DEMO_PORT=15432 \
python app/app_sana.py \
--config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
--model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth





🟡Страница проекта
🟡Коллекция моделей на HF
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #SANA #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Apple готовит масштабное обновление Siri на основе ИИ.

Компания работает над созданием новой версии голосового помощника Siri, которая будет основана на топовых LLM, чтобы сделать взаимодействие с Siri более естественным и интуитивно понятным.
Внутреннее название проекта - "Siri LLM". Цель обновления - научить Siri быстрее обрабатывать сложные запросы. Новая версия Siri будет интегрирована с функциями Apple Intelligence: создание и обобщение текста. Предварительная презентация планируется в следующем году в рамках iOS 19 и MacOS 16, но полноценный запуск может состояться только через год.
bloomberg.com

✔️ В MIT разработали эффективный способ обучения надежных агентов ИИ.

Ресерчеры из MIT представили новый алгоритм для повышения надежности моделей обучения с подкреплением, которые лежат в основе систем принятия решений искусственного интеллекта.

Алгоритм, получивший название Model-Based Transfer Learning (MBTL), стратегически выбирает задачи для обучения агента ИИ, чтобы он мог эффективно выполнять все задачи в наборе связанных задач. MBTL моделирует, насколько хорошо каждый алгоритм будет работать, если его обучать независимо для одной задачи, а также оценивает, насколько снизится производительность каждого алгоритма, если его перенести на другую задачу.

В результате новый метод позволяет максимизировать производительность при низких затратах на обучение. Тесты показали, что MBTL в 5–50 раз эффективнее стандартных подходов.
news.mit.edu

✔️ Samsung представила модель Gauss2 с возможностью работы на устройствах.

Samsung представила Gauss2, усовершенствованную версию своей модели генеративного искусственного интеллекта. Gauss2 включает три модели: Compact, Balanced и Supreme. Compact оптимизирована для работы на устройстве, Balanced обеспечивает баланс между производительностью, скоростью генерации и эффективностью, а Supreme использует MoE с несколькими моделями, каждая из которых ориентирована на разные типы задач. Модели Gauss2 поддерживают от 9 до 14 языков и несколько языков программирования. Balanced и Supreme соответствуют или превосходят другие модели ИИ в задачах на английском и корейском языках, а их скорость обработки в 1,5–3 раза выше.
gsmarena.com

✔️ США лидирует в ИИ согласно новому инструменту оценки от Стэнфордского университета.

Новый инструмент оценки Global Vibrancy Tool 2024 проанализировал данные из 36 стран и показал, что США является мировым лидером в области ИИ, за ними следуют Китай и Великобритания. Инструмент объединяет 42 специфических для ИИ показателя, чтобы предоставить комплексное количественное представление о том, какие страны лидируют в области ИИ

Инструмент измеряет экосистему ИИ страны по ключевым показателям: исследовательские работы, частные инвестиции, патенты и др. США лидируют в нескольких основных областях, включая выпуск большего числа публично известных моделей машинного обучения, инвестирование большего объема частного капитала в ИИ и публикацию большего числа исследований в области ответственного ИИ, чем любая другая страна.
hai.stanford.edu

✔️ OpenScholar: система ИИ с открытым исходным кодом превосходит GPT-4o в научных исследованиях.

OpenScholar, разработанная Институтом искусственного интеллекта Аллена (Ai2) и Вашингтонским университетом использует языковую модель, дополненную поисковой системой, которая работает с базой данных из более чем 45 миллионов научных работ с открытым доступом.

В отличие от GPT-4o, который генерирует ответы на основе предварительно обученных знаний, OpenScholar извлекает соответствующие документы, синтезирует их результаты и генерирует ответ, основанный на этих источниках. В тестах, использующих ScholarQABench, OpenScholar продемонстрировал превосходную производительность с точки зрения фактической точности и точности цитирования, превзойдя GPT-4o.
venturebeat.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🍏 MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training

Apple выпустила невероятно быстрые модели Core ML и приложение для iOS, позволяющее запускать их на iPhone!

Эти модели можно подключить к демо приложению, представленному в официальном репозитории MobileCLIP.

> S0 соответствует ViT-B/ 16 от OpenAI, но в 4,8 раза быстрее и в 2,8 раза меньше размером.

> S2 превосходит ViT-B/16 от SigLIP в 2,3 раза, при этом в 2,1 раза меньше по размеру, при этом используется для обучения в 3 раза меньше данных.

> MobileCLIP-B(LT) достигает 77,2%-ную точность обработки изображений, превосходя DFN, SigLIP и даже ViT-L/14@336 от OpenAI

conda create -n clipenv python=3.10
conda activate clipenv
pip install -e .


Пример использования:

Python
import torch
from PIL import Image
import mobileclip

model, _, preprocess = mobileclip.create_model_and_transforms('mobileclip_s0', pretrained='/path/to/mobileclip_s0.pt')
tokenizer = mobileclip.get_tokenizer('mobileclip_s0')

image = preprocess(Image.open("docs/fig_accuracy_latency.png").convert('RGB')).unsqueeze(0)
text = tokenizer(["a diagram", "a dog", "a cat"])

with torch.no_grad(), torch.cuda.amp.autocast():
image_features = model.encode_image(image)
text_features = model.encode_text(text)
image_features /= image_features.norm(dim=-1, keepdim=True)
text_features /= text_features.norm(dim=-1, keepdim=True)

text_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)

print("Label probs:", text_probs)



HF
Github
Результаты модели

@ai_machinelearning_big_data

#apple #coreml #mobile
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 RLtools: самая быстрая библиотека глубокого обучения с подкреплением для задач непрерывного управления.

RLtools - библиотека глубокого обучения с подкреплением (Deep Reinforcement Learning, DRL) с высокой скоростью работы для разработки и исследования алгоритмов DL.

RLtools написана на C++ и позволяет проводить обучение и вывод моделей DRL на РС, мобильных устройствах и embedded-системах. В экспериментальном тестировании, библиотека обучила алгоритм RL непосредственно на микроконтроллере.

Библиотека поддерживает алгоритмы DRL: TD3, PPO, Multi-Agent PPO и SAC и предлагает набор примеров, демонстрирующих использование этих алгоритмов для решения задач управления на примерах управления маятником, гоночным автомобилем и роботом-муравьем MuJoCo.

Код реализации алгоритмов:

🟢TD3 - Pendulum, Racing Car, MuJoCo Ant-v4, Acrobot;
🟢PPO - Pendulum, Racing Car, MuJoCo Ant-v4 (CPU), MuJoCo Ant-v4 (CUDA);
🟢Multi-Agent PPO - Bottleneck;
🟢SAC - Pendulum (CPU), Pendulum (CUDA), Acrobot.

Благодаря оптимизации и использования аппаратного ускорения RLtools в 76 раз быстрее других библиотек. Например, на MacBook Pro с M1 RLtools может обучить модель SAC (управление маятником) за 4 секунды.

Библиотеку можно использовать на Linux, macOS, Windows, iOS, Teensy, Crazyflie, ESP32 и PX4.

RLtools предоставляет Python API, с которым можно использовать библиотеку из Python-кода. API RLtools совместим с библиотекой симуляции сред Gym.

Проекты, использующие RLtools:

🟠Научиться летать за секунды (Youtube, IEEE Spectrum);

🟠Идентификация системы на основе данных для квадрокоптеров с задержкой двигателя (Youtube, Project Page).

▶️Запуск на примере обучения политике с помощью PPO:

# Clone and checkout
git clone https://github.com/rl-tools/example
cd example
git submodule update --init external/rl_tools

# Build and run
mkdir build
cd build
cmake .. -DCMAKE_BUILD_TYPE=Release
cmake --build .
./my_pendulum


📌Лицензирование: MIT License.


🟡Документация
🟡Arxiv
🟡RLTools Design Studio
🟡Demo
🟡Zoo Experiment Tracking
🟡Google Collab (Python Interface)
🟡Сообщество в Discord
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DL #RTools #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM