Stanford University, Northwestern University и University of Washington, совместно с Google Deepmind, при участии социологов, разработали архитектуру, которая позволяет симулировать поведение более 1000 реальных людей с помощью LLM, обученных на транскрипции двухчасовых интервью с добровольцами-участниками.
Архитектура использует метод "экспертных размышлений", где LLM генерирует выводы о каждом участнике, принимая на себя роли различных специалистов социальных наук (психолога, экономиста, политолога, демографа).
Процесс создания агентов начинался со стратифицированного отбора 1052 участников, репрезентирующих население США по возрасту, полу, расе, региону, образованию и политическим взглядам. Масштабирование сбора данных проводилось агентом-интервьюером на основе GPT-4o, который динамически генерировал уточняющие вопросы, адаптируясь к ответам участников.
Оценка точности агентов проводилась с помощью сравнения их ответов с ответами реальных участников на вопросы из Общего социального опроса (GSS), опросника "Большая пятерка" (BFI-44), 5 экономических игр и 5 социальных экспериментов. Для учета непостоянства человеческого поведения точность агентов нормализовали с помощью сравнения с тем, насколько последовательно сами участники воспроизводили свои ответы через две недели.
Результаты оценки показали высокую точность прогнозирования агентов, обученных на интервью. Они смогли предсказать ответы на вопросы GSS с нормализованной точностью 0.85, а черты личности по BFI-44 - с нормализованной корреляцией 0.80. Использование интервью значительно повысило точность по сравнению с агентами, использующими только демографические данные или краткие описания личности.
В экспериментах агенты успешно воспроизвели 4 из 5 личностных особенностей, наблюдавшихся у реальных участников, а оценки размеров этих особенностей показали высокую корреляцию (r = 0.98).
Доступ к банку агентов двухуровневый:
@ai_machinelearning_big_data
#AI #ML #LLM #Agents #Social
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Sana - семейство моделей для генерации изображений с разрешением до 4096x4096 пикселей. Главное преимущество Sana - высокая скорость инференса и низкие требования к ресурсам, модели можно запустить даже на ноутбуке.
Секрет эффективности Sana в ее архитектуре, которая состоит из нескольких инновационных компонентов:
Сжимает изображение в 32 раза, в результате чего значительно сокращается число латентных токенов, что, в свою очередь, повышает эффективность обучения и позволяет генерировать изображения с разрешением 4K.
Использует линейное внимание вместо традиционного, ускоряя генерацию с разрешением 4K в 1.7 раза.
В Linear DiT вместо модуля MLP-FFN используется Mix-FFN, который объединяет в себе свертку 3x3 и Gated Linear Unit (GLU). Mix-FFN позволяет отказаться от позиционного кодирования без потери качества.
Энкодер, основанный на LLM Gemma, который лучше понимает текстовые запросы пользователя и точнее передает их смысл на генерации.
Для точного соответствия "текст - изображение" при обучении энкодера применялись "сложные человеческие инструкции" (CHI), которые научили Gemma учитывать контекст запроса.
Sana создавалась с помощью уникальной стратегии обучения и выборки. В процессе обучения используются несколько VLM (VILA, InternVL2) для создания различных аннотаций к каждому изображению. Затем, на основе CLIP-оценки, были отобраны наиболее подходящие пары "текст-изображение".
Обучение происходило постепенно, начиная с разрешения 512x512 и заканчивая 4096x4096, а алгоритм Flow-DPM-Solver ускорил процесс выборки, сократив количество шагов по сравнению с Flow-Euler-Solver.
Результаты тестирования Sana впечатляют:
⚠️ Для локального инференса модели 0.6B требуется 9GB VRAM, а для модели 1.6B - 12GB VRAM.
# official online demo
DEMO_PORT=15432 \
python app/app_sana.py \
--config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
--model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth
@ai_machinelearning_big_data
#AI #ML #Diffusion #SANA #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Компания работает над созданием новой версии голосового помощника Siri, которая будет основана на топовых LLM, чтобы сделать взаимодействие с Siri более естественным и интуитивно понятным.
Внутреннее название проекта - "Siri LLM". Цель обновления - научить Siri быстрее обрабатывать сложные запросы. Новая версия Siri будет интегрирована с функциями Apple Intelligence: создание и обобщение текста. Предварительная презентация планируется в следующем году в рамках iOS 19 и MacOS 16, но полноценный запуск может состояться только через год.
bloomberg.com
Ресерчеры из MIT представили новый алгоритм для повышения надежности моделей обучения с подкреплением, которые лежат в основе систем принятия решений искусственного интеллекта.
Алгоритм, получивший название Model-Based Transfer Learning (MBTL), стратегически выбирает задачи для обучения агента ИИ, чтобы он мог эффективно выполнять все задачи в наборе связанных задач. MBTL моделирует, насколько хорошо каждый алгоритм будет работать, если его обучать независимо для одной задачи, а также оценивает, насколько снизится производительность каждого алгоритма, если его перенести на другую задачу.
В результате новый метод позволяет максимизировать производительность при низких затратах на обучение. Тесты показали, что MBTL в 5–50 раз эффективнее стандартных подходов.
news.mit.edu
Samsung представила Gauss2, усовершенствованную версию своей модели генеративного искусственного интеллекта. Gauss2 включает три модели: Compact, Balanced и Supreme. Compact оптимизирована для работы на устройстве, Balanced обеспечивает баланс между производительностью, скоростью генерации и эффективностью, а Supreme использует MoE с несколькими моделями, каждая из которых ориентирована на разные типы задач. Модели Gauss2 поддерживают от 9 до 14 языков и несколько языков программирования. Balanced и Supreme соответствуют или превосходят другие модели ИИ в задачах на английском и корейском языках, а их скорость обработки в 1,5–3 раза выше.
gsmarena.com
Новый инструмент оценки Global Vibrancy Tool 2024 проанализировал данные из 36 стран и показал, что США является мировым лидером в области ИИ, за ними следуют Китай и Великобритания. Инструмент объединяет 42 специфических для ИИ показателя, чтобы предоставить комплексное количественное представление о том, какие страны лидируют в области ИИ
Инструмент измеряет экосистему ИИ страны по ключевым показателям: исследовательские работы, частные инвестиции, патенты и др. США лидируют в нескольких основных областях, включая выпуск большего числа публично известных моделей машинного обучения, инвестирование большего объема частного капитала в ИИ и публикацию большего числа исследований в области ответственного ИИ, чем любая другая страна.
hai.stanford.edu
OpenScholar, разработанная Институтом искусственного интеллекта Аллена (Ai2) и Вашингтонским университетом использует языковую модель, дополненную поисковой системой, которая работает с базой данных из более чем 45 миллионов научных работ с открытым доступом.
В отличие от GPT-4o, который генерирует ответы на основе предварительно обученных знаний, OpenScholar извлекает соответствующие документы, синтезирует их результаты и генерирует ответ, основанный на этих источниках. В тестах, использующих ScholarQABench, OpenScholar продемонстрировал превосходную производительность с точки зрения фактической точности и точности цитирования, превзойдя GPT-4o.
venturebeat.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Apple выпустила невероятно быстрые модели Core ML и приложение для iOS, позволяющее запускать их на iPhone! ⚡
Эти модели можно подключить к демо приложению, представленному в официальном репозитории MobileCLIP.
> S0 соответствует ViT-B/ 16 от OpenAI, но в 4,8 раза быстрее и в 2,8 раза меньше размером.
> S2 превосходит ViT-B/16 от SigLIP в 2,3 раза, при этом в 2,1 раза меньше по размеру, при этом используется для обучения в 3 раза меньше данных.
> MobileCLIP-B(LT) достигает 77,2%-ную точность обработки изображений, превосходя DFN, SigLIP и даже ViT-L/14@336 от OpenAI
conda create -n clipenv python=3.10
conda activate clipenv
pip install -e .Пример использования:
Python
import torch
from PIL import Image
import mobileclip
model, _, preprocess = mobileclip.create_model_and_transforms('mobileclip_s0', pretrained='/path/to/mobileclip_s0.pt')
tokenizer = mobileclip.get_tokenizer('mobileclip_s0')
image = preprocess(Image.open("docs/fig_accuracy_latency.png").convert('RGB')).unsqueeze(0)
text = tokenizer(["a diagram", "a dog", "a cat"])
with torch.no_grad(), torch.cuda.amp.autocast():
image_features = model.encode_image(image)
text_features = model.encode_text(text)
image_features /= image_features.norm(dim=-1, keepdim=True)
text_features /= text_features.norm(dim=-1, keepdim=True)
text_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)
print("Label probs:", text_probs)
▪HF
▪Github
▪Результаты модели
@ai_machinelearning_big_data
#apple #coreml #mobile
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
RLtools - библиотека глубокого обучения с подкреплением (Deep Reinforcement Learning, DRL) с высокой скоростью работы для разработки и исследования алгоритмов DL.
RLtools написана на C++ и позволяет проводить обучение и вывод моделей DRL на РС, мобильных устройствах и embedded-системах. В экспериментальном тестировании, библиотека обучила алгоритм RL непосредственно на микроконтроллере.
Библиотека поддерживает алгоритмы DRL: TD3, PPO, Multi-Agent PPO и SAC и предлагает набор примеров, демонстрирующих использование этих алгоритмов для решения задач управления на примерах управления маятником, гоночным автомобилем и роботом-муравьем MuJoCo.
Код реализации алгоритмов:
Благодаря оптимизации и использования аппаратного ускорения RLtools в 76 раз быстрее других библиотек. Например, на MacBook Pro с M1 RLtools может обучить модель SAC (управление маятником) за 4 секунды.
Библиотеку можно использовать на Linux, macOS, Windows, iOS, Teensy, Crazyflie, ESP32 и PX4.
RLtools предоставляет Python API, с которым можно использовать библиотеку из Python-кода. API RLtools совместим с библиотекой симуляции сред Gym.
Проекты, использующие RLtools:
# Clone and checkout
git clone https://github.com/rl-tools/example
cd example
git submodule update --init external/rl_tools
# Build and run
mkdir build
cd build
cmake .. -DCMAKE_BUILD_TYPE=Release
cmake --build .
./my_pendulum
@ai_machinelearning_big_data
#AI #ML #DL #RTools #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Anthropic разработала новый открытый стандарт Model Context Protocol (MCP) для подключения ИИ-ассистентов к системам хранения данных. MCP позволяет моделям ИИ, независимо от разработчика, получать данные из различных источников, включая бизнес-инструменты, репозитории контента и среды разработки приложений. Это позволит моделям генерировать более качественные и релевантные ответы на запросы пользователей.
Anthropic утверждает, что MCP решает проблему разрозненности данных, предоставляя разработчикам протокол для создания двусторонних соединений между источниками данных и ИИ-приложениями. MCP уже интегрирован компаниями Block и Apollo и платформами Replit, Codeium и Sourcegraph.
techcrunch.com
Согласно исследованию Google Workspace и The Harris Poll, 82% представителей Gen Z уже используют инструменты ИИ в своей работе. Практически все опрошенные (98%) ожидают, что ИИ окажет влияние на их отрасль или рабочее место в течение следующих 5 лет. Более 50% пользователей ИИ регулярно делятся своим опытом и знаниями с коллегами, а 75% рекомендуют инструменты генеративного ИИ своим коллегам.
Z-поколение использует ИИ для написания электронных писем, преодоления языковых барьеров и повышения эффективности в коммуникациях. 88% респондентов считают, что ИИ может помочь им начать работу над сложной задачей, а 87% полагают, что ИИ сделает их более уверенными в онлайн-встречах.
googlecloudpresscorner.com
Fugatto — это новая генеративная модель, которая позволяет создавать, изменять и комбинировать любые звуки, музыку и голоса с помощью текстовых промптов и аудиофайлов.
Модель мультиязычна, основана на Transformers и использует 2,5 млрд. параметров. Fugatto обладает уникальной способностью сочетать различные инструкции и интерполировать между ними, предоставляя тонкий контроль над генерируемым звуком. Модель может изменять акценты и эмоции в голосе, создавать новые звуки, которых никогда не было, и даже заставлять музыкальные инструменты издавать нехарактерные для них звуки. Демо видео, техотчет.
blogs.nvidia.com
iRacing объединилась с Microsoft Research для разработки продвинутых моделей ИИ - Large Action Models (LAM). Цель сотрудничества - улучшить ИИ-пилотов, создать системы коучинга на базе ИИ и внедрить другие функции с использованием ИИ.
LAM будут обучаться на основе данных iRacing, чтобы предоставлять гонщикам обратную связь в режиме реального времени, улучшать качество игры и помогать им совершенствовать свои навыки. iRacing и Microsoft Research планируют опубликовать результаты своих исследований, чтобы разработчики могли внедрять технологии в свои продукты. В проекте также участвует бывший гонщик INDYCAR Ориоль Сервиа в качестве эксперта.
iracing.com
DynaSaur - это платформа агентов LLM, разработанная совместно Университетом Мэриленда и Adobe, которая позволяет агентам динамически создавать и компоновать действия в режиме реального времени.
В отличие от традиционных LLM-агентов, которые руководствуются предопределенными наборами действий, DynaSaur генерирует, выполнет и совершенствует новые функции Python, когда существующие функции оказываются недостаточными. Агент ведет растущую библиотеку повторно используемых функций, наращивая способность реагировать на различные сценарии.
В тестах на платформе GAIA DynaSaur превзошел базовые показатели, достигнув средней точности 38,21% с использованием GPT-4. Кода пока нет.
arxiv.org
Please open Telegram to view this post
VIEW IN TELEGRAM
Хороших книг по обучению с подкреплением (Reinforcement Learning, RL) уже выпущено достаточно, однако есть пробел между продвинутыми учебниками, в которых основное внимание уделяется одному или нескольким аспектам, и более общими книгами, в которых предпочтение отдается удобочитаемости, а не сложности.
Авторы книги, люди с опытом работы в CS и инжиниринга, подают тему RL в строгом и академическом стиле. Книга основана на конспектах лекций для углубленного курса бакалавриата, который преподается авторами в Тель-Авивском университете.
К этой книге дополнительно идет брошюра с упражнениями и экзаменационными вопросами, которые помогут освоить материал книги на практике. Эти упражнения разрабатывались на протяжении нескольких лет.
Математическая модель книги - Марковский процесс принятия решений (Markov Decision Process, MDP). Основное внимание уделяется: последовательному принятию решений, выбору действий, долгосрочному эффекту от этих действий и разница между немедленным вознаграждением и долгосрочной выгодой.
Тематически книга состоит из двух частей – "Планирование" и "Обучение".
@ai_machinelearning_big_data
#AI #ML #RL #MDP #Book
Please open Telegram to view this post
VIEW IN TELEGRAM
SmolTalk - это синтетический датасет, разработанный HuggingFace для обучения SmolTalk: новый синтетический набор данных для обучения больших языковых моделей LLM с учителем. Он состоит из 2 млн. строк и был использован для создания семейства моделей SmolLM2-Instruct. SmolTalk включает в себя как новые, так и существующие наборы данных.
Новые наборы данных:
Существующие общедоступные наборы данных:
SmolTalk сравнили недавно выпущенным набором данных Orca AgentInstruct 1M, обучив SmolLM2 на обоих наборах данных с использованием одинаковой конфигурации обучения.
Результаты показали, что SmolTalk показал значительные улучшения в производительности модели, особенно в задачах математики, программирования и следованию системным промптам. Наблюдались также значительные улучшения в масштабе 7B при обучении Mistral-7B на SmolTalk, особенно по показателям IFEval, BBH, GS8Mk и MATH.
from datasets import load_dataset
ds = load_dataset("HuggingFaceTB/smoltalk", "all", split="train")
# to load the train split of a specific subset such as smol-magpie-ultra, you can do
ds = load_dataset("HuggingFaceTB/smoltalk", "smol-magpie-ultra", split="train")
@ai_machinelearning_big_data
#AI #ML #LLM #HuggingFace #Dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM