Анализ данных (Data analysis)
45.2K subscribers
2.12K photos
232 videos
1 file
1.91K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
Forwarded from Machinelearning
⚡️ SANA: Генерация изображений изображений высокого разрешения от Nvidia Labs.

Sana - семейство моделей для генерации изображений с разрешением до 4096x4096 пикселей. Главное преимущество Sana - высокая скорость инференса и низкие требования к ресурсам, модели можно запустить даже на ноутбуке.

Секрет эффективности Sana в ее архитектуре, которая состоит из нескольких инновационных компонентов:

🟢Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, в результате чего значительно сокращается число латентных токенов, что, в свою очередь, повышает эффективность обучения и позволяет генерировать изображения с разрешением 4K.

🟢Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию с разрешением 4K в 1.7 раза.

В Linear DiT вместо модуля MLP-FFN используется Mix-FFN, который объединяет в себе свертку 3x3 и Gated Linear Unit (GLU). Mix-FFN позволяет отказаться от позиционного кодирования без потери качества.

🟢Decoder-only Small LLM as Text Encoder
Энкодер, основанный на LLM Gemma, который лучше понимает текстовые запросы пользователя и точнее передает их смысл на генерации.

Для точного соответствия "текст - изображение" при обучении энкодера применялись "сложные человеческие инструкции" (CHI), которые научили Gemma учитывать контекст запроса.

Sana создавалась с помощью уникальной стратегии обучения и выборки. В процессе обучения используются несколько VLM (VILA, InternVL2) для создания различных аннотаций к каждому изображению. Затем, на основе CLIP-оценки, были отобраны наиболее подходящие пары "текст-изображение".

Обучение происходило постепенно, начиная с разрешения 512x512 и заканчивая 4096x4096, а алгоритм Flow-DPM-Solver ускорил процесс выборки, сократив количество шагов по сравнению с Flow-Euler-Solver.

Результаты тестирования Sana впечатляют:

🟠Sana-0.6B, работающая с изображениями 512x512, в 5 раз быстрее, чем PixArt-Σ, при этом показывает лучшие результаты по метрикам FID, Clip Score, GenEval и DPG-Bench.

🟠При разрешении 1024x1024 Sana-0.6B в 40 раз быстрее PixArt-Σ.

🟠Sana-0.6B превосходит по скорости Flux-12B в 39 раз при разрешении 1024x1024) и может быть запущена на ноутбуке с 16 GB VRAM, генерируя изображения 1024x1024 менее чем за секунду.


⚠️ Для локального инференса модели 0.6B требуется 9GB VRAM, а для модели 1.6B - 12GB VRAM.


▶️ Установка и инференс c GradioUI:

# official online demo
DEMO_PORT=15432 \
python app/app_sana.py \
--config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
--model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth





🟡Страница проекта
🟡Коллекция моделей на HF
🟡Arxiv
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #SANA #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Garak — инструмент от NVIDIA для автоматизированного тестирования безопасности и надежности крупных языковых моделей!

🌟 Он позволяет выявлять уязвимости, проблемы с устойчивостью и некорректные ответы моделей, применяя различные методики тестирования. Это помогает разработчикам и исследователям совершенствовать модели и повышать их качество.

🌟 Инструмент также поддерживает расширение функциональности: пользователи могут добавлять свои собственные тесты, создавая кастомные модули.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👩‍💻 mongoengine — Python-библиотека для работы с базами данных MongoDB, предоставляющая объектно-документный маппинг (ODM)!

🌟 Она позволяет разработчикам описывать документы в виде Python-классов с типизированными полями, делая работу с MongoDB удобной и похожей на использование ORM в реляционных базах.

🌟 Библиотека поддерживает валидацию данных, вложенные документы, связи между документами и удобные запросы через Python-методы. MongoEngine часто используется в проектах, где требуется сочетание гибкости MongoDB и строгой структуры данных.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Alibaba только что выпустила Marco-o1

Marco-o1 основан на тонкой настройке цепочки (CoT), поиске по дереву Монте-Карло (MCTS), механизмах рефлексии и инновационных стратегиях рассуждения, оптимизированных для решения сложных задач в реальном мире.

Благодаря файнтюнингу Qwen2-7B-Instruct с использованием комбинации отфильтрованного набора данных Open-O1 CoT, набора данных Marco-o1 CoT и набора данных инструкций Marco-o1, Marco-o1 улучшил обработку сложных задач.

MCTS позволяет исследовать множество путей рассуждений ИИ, используя показатели достоверности, полученные на основе логарифмических вероятностей, применяемых softmax для топ-k альтернативных токенов, что приводит модель к оптимальным решениям.

Более того, такая стратегия обоснованных действий предполагает изменение степени детализации действий в рамках шагов и мини-шагов для оптимизации эффективности и точности поиска.

HF: https://huggingface.co/AIDC-AI/Marco-o1
Github: https://github.com/AIDC-AI/Marco-o1
Paper: https://arxiv.org/abs/2411.14405
Data: https://github.com/AIDC-AI/Marco-o1/tree/main/data

@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 LTX-видео

новая модель преобразования текста в видео позволяет создавать потясающие видеоролики высокого качества.

5 секунд видео со скоростью 24 кадра в секунду при разрешении 768x512 пикселей всего за 4 секунды на Nvidia H100.

Открытый код и веса

https://huggingface.co/spaces/Lightricks/LTX-Video-Playground

@data_analysis_ml
💥 Nvidia представили нового лидера в области создания 3D-моделей — Edify 3D AI.

Они обещают модели в разрешении 4K при 120 FPS, сетки с высокой детализацией геометрии, качественные текстуры и точные цвета альбедо (забавно, как они обозначили белый цвет).

Собственных моделей от Nvidia я пока не обнаружил, однако у них также есть нейросеть от Shutterstock, работающая по той же технологии.

📌 Смотреть

@data_analysis_ml
🔍 Instructor — библиотека для работы с структурированными выходными данными из больших языковых моделей (LLM)!

🌟 Она написана на Python и предоставляет упрощённый интерфейс для управления потоками данных LLM. Она включает функции для валидации данных, обработки ошибок и управления ответами моделей.

🔐 Лицензия: MIT

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
👍 EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation 🔥

Мощный и простой инструмент для генерации анимации человека по фото.

🌐page: https://antgroup.github.io/ai/echomimic_v2/
🧬code: https://github.com/antgroup/echomimic_v2
📄paper: https://arxiv.org/abs/2411.10061

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📖 Большие языковые модели продемонстрировали существенные достижения в возможностях рассуждений, особенно за счет масштабирования времени вывода, как показано на таких моделях, как o1 от OpenAI.

🌟 Однако текущие модели Vision-Language (VLM) часто испытывают трудности с выполнением систематических и структурированных рассуждений, особенно при обработке сложных визуальных задач с ответами на вопросы. В этой работе авторы представляют LLaVA-o1, новую VLM, предназначенную для проведения автономных многоступенчатых рассуждений! В отличие от подсказок цепочки мыслей, LLaVA-o1 независимо участвует в последовательных этапах резюмирования, визуальной интерпретации, логических рассуждений и генерации выводов.

🌟 Этот структурированный подход позволяет LLaVA-o1 достигать заметных улучшений в точности при выполнении задач с интенсивным рассуждением!

🔗 Ссылка на статью: *клик*

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 PR-Agent — инструмент с открытым исходным кодом, разработанный для упрощения процесса обзора pull-реквестов!

💡 Используя возможности искусственного интеллекта (например, GPT-4), он автоматически анализирует PR и предоставляет такие функции, как:

🌟 Генерация описания PR, включая заголовок, тип, основные изменения и метки.

🌟 Автоматический обзор с рекомендациями по тестированию, безопасности и улучшениям.

🌟 Ответы на вопросы о PR, улучшения кода и автоматическое обновление CHANGELOG.

🌟 Добавление документации для недокументированных функций или классов.

💡 PR-Agent поддерживает интеграцию с GitHub, GitLab, Bitbucket и другими платформами. Его можно использовать как через командную строку, так и через вебхуки или бота. Этот инструмент помогает ускорить и улучшить качество процесса код-ревью.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ SmolVLM: новая МДЬ модель созданая для использования на устройствах, легко настраиваемый на GPU и чрезвычайно эффективный с точки зрения памяти

Лицензия Apache 2.0: https://huggingface.co/collections/HuggingFaceTB/smolvlm-6740bd584b2dcbf51ecb1f39
Блог: https://huggingface.co/blog/smolvlm
Демо: https://huggingface.co/spaces/HuggingFaceTB/SmolVLM
Файнтюнинг: https://github.com/huggingface/smollm/blob/main/finetuning/Smol_VLM_FT.ipynb
🔥 Multi-Agent Orchestrator — фреймворк, разработанный для управления несколькими AI-агентами!

💡 Он позволяет маршрутизировать запросы пользователей, обеспечивать управление контекстом взаимодействий и поддерживать масштабируемую архитектуру приложений.

🔍 Основные возможности:

🌟 Классификация запросов: Использует LLM для выбора наиболее подходящего агента на основе контекста, истории взаимодействий и описания агентов.

🌟 Гибкость агентов: Поддерживает интеграцию различных агентов, таких как Amazon Bedrock, OpenAI, AWS Lambda и прочих пользовательских решений.

🌟 Управление контекстом: Обеспечивает сохранение и использование истории взаимодействий для последовательных ответов.

🌟 Расширяемая архитектура: Легкая интеграция новых агентов и настройка существующих для решения задач в различных доменах.

🌟 Универсальное развертывание: Подходит для локальных и облачных окружений, включая AWS Lambda.

🔐 Лицензия: Apache-2.0

🖥 Github

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM