Forwarded from Machinelearning
Stanford University, Northwestern University и University of Washington, совместно с Google Deepmind, при участии социологов, разработали архитектуру, которая позволяет симулировать поведение более 1000 реальных людей с помощью LLM, обученных на транскрипции двухчасовых интервью с добровольцами-участниками.
Архитектура использует метод "экспертных размышлений", где LLM генерирует выводы о каждом участнике, принимая на себя роли различных специалистов социальных наук (психолога, экономиста, политолога, демографа).
Процесс создания агентов начинался со стратифицированного отбора 1052 участников, репрезентирующих население США по возрасту, полу, расе, региону, образованию и политическим взглядам. Масштабирование сбора данных проводилось агентом-интервьюером на основе GPT-4o, который динамически генерировал уточняющие вопросы, адаптируясь к ответам участников.
Оценка точности агентов проводилась с помощью сравнения их ответов с ответами реальных участников на вопросы из Общего социального опроса (GSS), опросника "Большая пятерка" (BFI-44), 5 экономических игр и 5 социальных экспериментов. Для учета непостоянства человеческого поведения точность агентов нормализовали с помощью сравнения с тем, насколько последовательно сами участники воспроизводили свои ответы через две недели.
Результаты оценки показали высокую точность прогнозирования агентов, обученных на интервью. Они смогли предсказать ответы на вопросы GSS с нормализованной точностью 0.85, а черты личности по BFI-44 - с нормализованной корреляцией 0.80. Использование интервью значительно повысило точность по сравнению с агентами, использующими только демографические данные или краткие описания личности.
В экспериментах агенты успешно воспроизвели 4 из 5 личностных особенностей, наблюдавшихся у реальных участников, а оценки размеров этих особенностей показали высокую корреляцию (r = 0.98).
Доступ к банку агентов двухуровневый:
@ai_machinelearning_big_data
#AI #ML #LLM #Agents #Social
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔉 Новая модель на базе Whisper конкурирует с Nvidia в открытой таблице лидеров ASR! 🔥
Crisper Whisperer может расшифровать каждое произнесенное слово в точности так, как оно есть, включая вводные слова, паузы, заикания.
Слитно доработан по сравнению с версией Whisper Large V3.
🔗 Чекпоинты: https://huggingface.co/nyrahealth/CrisperWhisper
🔗 Лидерборд: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
Crisper Whisperer может расшифровать каждое произнесенное слово в точности так, как оно есть, включая вводные слова, паузы, заикания.
Слитно доработан по сравнению с версией Whisper Large V3.
🔗 Чекпоинты: https://huggingface.co/nyrahealth/CrisperWhisper
🔗 Лидерборд: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard
Forwarded from Machinelearning
Sana - семейство моделей для генерации изображений с разрешением до 4096x4096 пикселей. Главное преимущество Sana - высокая скорость инференса и низкие требования к ресурсам, модели можно запустить даже на ноутбуке.
Секрет эффективности Sana в ее архитектуре, которая состоит из нескольких инновационных компонентов:
Сжимает изображение в 32 раза, в результате чего значительно сокращается число латентных токенов, что, в свою очередь, повышает эффективность обучения и позволяет генерировать изображения с разрешением 4K.
Использует линейное внимание вместо традиционного, ускоряя генерацию с разрешением 4K в 1.7 раза.
В Linear DiT вместо модуля MLP-FFN используется Mix-FFN, который объединяет в себе свертку 3x3 и Gated Linear Unit (GLU). Mix-FFN позволяет отказаться от позиционного кодирования без потери качества.
Энкодер, основанный на LLM Gemma, который лучше понимает текстовые запросы пользователя и точнее передает их смысл на генерации.
Для точного соответствия "текст - изображение" при обучении энкодера применялись "сложные человеческие инструкции" (CHI), которые научили Gemma учитывать контекст запроса.
Sana создавалась с помощью уникальной стратегии обучения и выборки. В процессе обучения используются несколько VLM (VILA, InternVL2) для создания различных аннотаций к каждому изображению. Затем, на основе CLIP-оценки, были отобраны наиболее подходящие пары "текст-изображение".
Обучение происходило постепенно, начиная с разрешения 512x512 и заканчивая 4096x4096, а алгоритм Flow-DPM-Solver ускорил процесс выборки, сократив количество шагов по сравнению с Flow-Euler-Solver.
Результаты тестирования Sana впечатляют:
⚠️ Для локального инференса модели 0.6B требуется 9GB VRAM, а для модели 1.6B - 12GB VRAM.
# official online demo
DEMO_PORT=15432 \
python app/app_sana.py \
--config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
--model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth
@ai_machinelearning_big_data
#AI #ML #Diffusion #SANA #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Alibaba только что выпустила Marco-o1
Marco-o1 основан на тонкой настройке цепочки (CoT), поиске по дереву Монте-Карло (MCTS), механизмах рефлексии и инновационных стратегиях рассуждения, оптимизированных для решения сложных задач в реальном мире.
Благодаря файнтюнингу Qwen2-7B-Instruct с использованием комбинации отфильтрованного набора данных Open-O1 CoT, набора данных Marco-o1 CoT и набора данных инструкций Marco-o1, Marco-o1 улучшил обработку сложных задач.
MCTS позволяет исследовать множество путей рассуждений ИИ, используя показатели достоверности, полученные на основе логарифмических вероятностей, применяемых softmax для топ-k альтернативных токенов, что приводит модель к оптимальным решениям.
Более того, такая стратегия обоснованных действий предполагает изменение степени детализации действий в рамках шагов и мини-шагов для оптимизации эффективности и точности поиска.
▪HF: https://huggingface.co/AIDC-AI/Marco-o1
▪Github: https://github.com/AIDC-AI/Marco-o1
▪Paper: https://arxiv.org/abs/2411.14405
▪Data: https://github.com/AIDC-AI/Marco-o1/tree/main/data
@data_analysis_ml
Marco-o1 основан на тонкой настройке цепочки (CoT), поиске по дереву Монте-Карло (MCTS), механизмах рефлексии и инновационных стратегиях рассуждения, оптимизированных для решения сложных задач в реальном мире.
Благодаря файнтюнингу Qwen2-7B-Instruct с использованием комбинации отфильтрованного набора данных Open-O1 CoT, набора данных Marco-o1 CoT и набора данных инструкций Marco-o1, Marco-o1 улучшил обработку сложных задач.
MCTS позволяет исследовать множество путей рассуждений ИИ, используя показатели достоверности, полученные на основе логарифмических вероятностей, применяемых softmax для топ-k альтернативных токенов, что приводит модель к оптимальным решениям.
Более того, такая стратегия обоснованных действий предполагает изменение степени детализации действий в рамках шагов и мини-шагов для оптимизации эффективности и точности поиска.
▪HF: https://huggingface.co/AIDC-AI/Marco-o1
▪Github: https://github.com/AIDC-AI/Marco-o1
▪Paper: https://arxiv.org/abs/2411.14405
▪Data: https://github.com/AIDC-AI/Marco-o1/tree/main/data
@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 LTX-видео
новая модель преобразования текста в видео позволяет создавать потясающие видеоролики высокого качества.
5 секунд видео со скоростью 24 кадра в секунду при разрешении 768x512 пикселей всего за 4 секунды на Nvidia H100.
Открытый код и веса
https://huggingface.co/spaces/Lightricks/LTX-Video-Playground
@data_analysis_ml
новая модель преобразования текста в видео позволяет создавать потясающие видеоролики высокого качества.
5 секунд видео со скоростью 24 кадра в секунду при разрешении 768x512 пикселей всего за 4 секунды на Nvidia H100.
Открытый код и веса
https://huggingface.co/spaces/Lightricks/LTX-Video-Playground
@data_analysis_ml
💥 Nvidia представили нового лидера в области создания 3D-моделей — Edify 3D AI.
Они обещают модели в разрешении 4K при 120 FPS, сетки с высокой детализацией геометрии, качественные текстуры и точные цвета альбедо (забавно, как они обозначили белый цвет).
Собственных моделей от Nvidia я пока не обнаружил, однако у них также есть нейросеть от Shutterstock, работающая по той же технологии.
📌 Смотреть
@data_analysis_ml
Они обещают модели в разрешении 4K при 120 FPS, сетки с высокой детализацией геометрии, качественные текстуры и точные цвета альбедо (забавно, как они обозначили белый цвет).
Собственных моделей от Nvidia я пока не обнаружил, однако у них также есть нейросеть от Shutterstock, работающая по той же технологии.
📌 Смотреть
@data_analysis_ml
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM