Анализ данных (Data analysis)

🔉 Новая модель на базе Whisper конкурирует с Nvidia в открытой таблице лидеров ASR! 🔥

Crisper Whisperer может расшифровать каждое произнесенное слово в точности так, как оно есть, включая вводные слова, паузы, заикания.

Слитно доработан по сравнению с версией Whisper Large V3.

🔗 Чекпоинты: https://huggingface.co/nyrahealth/CrisperWhisper
🔗 Лидерборд: https://huggingface.co/spaces/hf-audio/open_asr_leaderboard

👍11❤4🔥4

6.06K views10:04

Анализ данных (Data analysis)

Forwarded from Machinelearning

⚡️

SANA: Генерация изображений изображений высокого разрешения от Nvidia Labs.

Sana - семейство моделей для генерации изображений с разрешением до 4096x4096 пикселей. Главное преимущество Sana - высокая скорость инференса и низкие требования к ресурсам, модели можно запустить даже на ноутбуке.

Секрет эффективности Sana в ее архитектуре, которая состоит из нескольких инновационных компонентов:

🟢

Deep Compression Autoencoder (DC-AE)
Сжимает изображение в 32 раза, в результате чего значительно сокращается число латентных токенов, что, в свою очередь, повышает эффективность обучения и позволяет генерировать изображения с разрешением 4K.

🟢Linear Diffusion Transformer (Linear DiT)
Использует линейное внимание вместо традиционного, ускоряя генерацию с разрешением 4K в 1.7 раза.

В Linear DiT вместо модуля MLP-FFN используется Mix-FFN, который объединяет в себе свертку 3x3 и Gated Linear Unit (GLU). Mix-FFN позволяет отказаться от позиционного кодирования без потери качества.

🟢Decoder-only Small LLM as Text Encoder
Энкодер, основанный на LLM Gemma, который лучше понимает текстовые запросы пользователя и точнее передает их смысл на генерации.

Для точного соответствия "текст - изображение" при обучении энкодера применялись "сложные человеческие инструкции" (CHI), которые научили Gemma учитывать контекст запроса.

Sana создавалась с помощью уникальной стратегии обучения и выборки. В процессе обучения используются несколько VLM (VILA, InternVL2) для создания различных аннотаций к каждому изображению. Затем, на основе CLIP-оценки, были отобраны наиболее подходящие пары "текст-изображение".

Обучение происходило постепенно, начиная с разрешения 512x512 и заканчивая 4096x4096, а алгоритм Flow-DPM-Solver ускорил процесс выборки, сократив количество шагов по сравнению с Flow-Euler-Solver.

Результаты тестирования Sana впечатляют:

🟠Sana-0.6B, работающая с изображениями 512x512, в 5 раз быстрее, чем PixArt-Σ, при этом показывает лучшие результаты по метрикам FID, Clip Score, GenEval и DPG-Bench.

🟠При разрешении 1024x1024 Sana-0.6B в 40 раз быстрее PixArt-Σ.

🟠Sana-0.6B превосходит по скорости Flux-12B в 39 раз при разрешении 1024x1024) и может быть запущена на ноутбуке с 16 GB VRAM, генерируя изображения 1024x1024 менее чем за секунду.

⚠️ Для локального инференса модели 0.6B требуется 9GB VRAM, а для модели 1.6B - 12GB VRAM.

▶️ Установка и инференс c GradioUI:

# official online demo
DEMO_PORT=15432 \
python app/app_sana.py \
      --config=configs/sana_config/1024ms/Sana_1600M_img1024.yaml \
      --model_path=hf://Efficient-Large-Model/Sana_1600M_1024px/checkpoints/Sana_1600M_1024px.pth

🟡

Страница проекта

🟡

Коллекция моделей на HF

🟡

Arxiv

🟡

Demo

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #Diffusion #SANA #NVIDIA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤5🔥4⚡1

4.95K views14:52

Анализ данных (Data analysis)

🔥

Garak — инструмент от NVIDIA для автоматизированного тестирования безопасности и надежности крупных языковых моделей!

🌟 Он позволяет выявлять уязвимости, проблемы с устойчивостью и некорректные ответы моделей, применяя различные методики тестирования. Это помогает разработчикам и исследователям совершенствовать модели и повышать их качество.

🌟 Инструмент также поддерживает расширение функциональности: пользователи могут добавлять свои собственные тесты, создавая кастомные модули.

🔐 Лицензия: Apache-2.0

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤5🔥2

5.95K viewsedited 17:36

Анализ данных (Data analysis)

👩‍💻

mongoengine — Python-библиотека для работы с базами данных MongoDB, предоставляющая объектно-документный маппинг (ODM)!

🌟 Она позволяет разработчикам описывать документы в виде Python-классов с типизированными полями, делая работу с MongoDB удобной и похожей на использование ORM в реляционных базах.

🌟 Библиотека поддерживает валидацию данных, вложенные документы, связи между документами и удобные запросы через Python-методы. MongoEngine часто используется в проектах, где требуется сочетание гибкости MongoDB и строгой структуры данных.

🔐 Лицензия: MIT

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤6🔥3

5.94K views10:01

Анализ данных (Data analysis)

Alibaba только что выпустила Marco-o1

Marco-o1 основан на тонкой настройке цепочки (CoT), поиске по дереву Монте-Карло (MCTS), механизмах рефлексии и инновационных стратегиях рассуждения, оптимизированных для решения сложных задач в реальном мире.

Благодаря файнтюнингу Qwen2-7B-Instruct с использованием комбинации отфильтрованного набора данных Open-O1 CoT, набора данных Marco-o1 CoT и набора данных инструкций Marco-o1, Marco-o1 улучшил обработку сложных задач.

MCTS позволяет исследовать множество путей рассуждений ИИ, используя показатели достоверности, полученные на основе логарифмических вероятностей, применяемых softmax для топ-k альтернативных токенов, что приводит модель к оптимальным решениям.

Более того, такая стратегия обоснованных действий предполагает изменение степени детализации действий в рамках шагов и мини-шагов для оптимизации эффективности и точности поиска.

▪HF: https://huggingface.co/AIDC-AI/Marco-o1
▪Github: https://github.com/AIDC-AI/Marco-o1
▪Paper: https://arxiv.org/abs/2411.14405
▪Data: https://github.com/AIDC-AI/Marco-o1/tree/main/data

@data_analysis_ml

👍11❤6🔥2🥴2⚡1

6.19K views14:23

Анализ данных (Data analysis)

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 LTX-видео

новая модель преобразования текста в видео позволяет создавать потясающие видеоролики высокого качества.

5 секунд видео со скоростью 24 кадра в секунду при разрешении 768x512 пикселей всего за 4 секунды на Nvidia H100.

Открытый код и веса

https://huggingface.co/spaces/Lightricks/LTX-Video-Playground

@data_analysis_ml

🔥11❤4👍4🥱3🤣1

5.85K viewsedited 16:10

Анализ данных (Data analysis)

💥 Nvidia представили нового лидера в области создания 3D-моделей — Edify 3D AI.

Они обещают модели в разрешении 4K при 120 FPS, сетки с высокой детализацией геометрии, качественные текстуры и точные цвета альбедо (забавно, как они обозначили белый цвет).

Собственных моделей от Nvidia я пока не обнаружил, однако у них также есть нейросеть от Shutterstock, работающая по той же технологии.

📌 Смотреть

@data_analysis_ml

🔥7❤2👍1🤣1

5.97K views09:22

Анализ данных (Data analysis)

🔍

Instructor — библиотека для работы с структурированными выходными данными из больших языковых моделей (LLM)!

🌟 Она написана на Python и предоставляет упрощённый интерфейс для управления потоками данных LLM. Она включает функции для валидации данных, обработки ошибок и управления ответами моделей.

🔐 Лицензия: MIT

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍5🔥2🙏1

6.13K views12:00

Анализ данных (Data analysis)

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

👍

EchoMimicV2: Towards Striking, Simplified, and Semi-Body Human Animation 🔥

Мощный и простой инструмент для генерации анимации человека по фото.

🌐page: https://antgroup.github.io/ai/echomimic_v2/
🧬code: https://github.com/antgroup/echomimic_v2
📄paper: https://arxiv.org/abs/2411.10061

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤4🔥3🥱1🥴1🤣1

5.8K views10:01

Анализ данных (Data analysis)

📖 Большие языковые модели продемонстрировали существенные достижения в возможностях рассуждений, особенно за счет масштабирования времени вывода, как показано на таких моделях, как o1 от OpenAI.

🌟 Однако текущие модели Vision-Language (VLM) часто испытывают трудности с выполнением систематических и структурированных рассуждений, особенно при обработке сложных визуальных задач с ответами на вопросы. В этой работе авторы представляют LLaVA-o1, новую VLM, предназначенную для проведения автономных многоступенчатых рассуждений! В отличие от подсказок цепочки мыслей, LLaVA-o1 независимо участвует в последовательных этапах резюмирования, визуальной интерпретации, логических рассуждений и генерации выводов.

🌟 Этот структурированный подход позволяет LLaVA-o1 достигать заметных улучшений в точности при выполнении задач с интенсивным рассуждением!

🔗 Ссылка на статью: *клик*

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍5🔥4👌1

5.63K views11:00

Анализ данных (Data analysis)

🔥

PR-Agent — инструмент с открытым исходным кодом, разработанный для упрощения процесса обзора pull-реквестов!

💡 Используя возможности искусственного интеллекта (например, GPT-4), он автоматически анализирует PR и предоставляет такие функции, как:

🌟 Генерация описания PR, включая заголовок, тип, основные изменения и метки.

🌟 Автоматический обзор с рекомендациями по тестированию, безопасности и улучшениям.

🌟 Ответы на вопросы о PR, улучшения кода и автоматическое обновление CHANGELOG.

🌟 Добавление документации для недокументированных функций или классов.

💡 PR-Agent поддерживает интеграцию с GitHub, GitLab, Bitbucket и другими платформами. Его можно использовать как через командную строку, так и через вебхуки или бота. Этот инструмент помогает ускорить и улучшить качество процесса код-ревью.

🔐 Лицензия: Apache-2.0

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍5🔥4👏1

5.74K views10:01

Анализ данных (Data analysis)

Новая версия модели: Kling v1.5! 🥳

Можно потестировать онлайн

https://fal.ai/models/fal-ai/kling-video/v1.5/pro/image-to-video/playground

@data_analysis_ml

fal.ai

Kling 1.5 | Image to Video | fal.ai

Generate video clips from your images using Kling 1.5 (pro)

❤7👍4🔥3

5.31K views12:22

Анализ данных (Data analysis)

⚡️ SmolVLM: новая МДЬ модель созданая для использования на устройствах, легко настраиваемый на GPU и чрезвычайно эффективный с точки зрения памяти

▪Лицензия Apache 2.0: https://huggingface.co/collections/HuggingFaceTB/smolvlm-6740bd584b2dcbf51ecb1f39
▪Блог: https://huggingface.co/blog/smolvlm
▪Демо: https://huggingface.co/spaces/HuggingFaceTB/SmolVLM
▪Файнтюнинг: https://github.com/huggingface/smollm/blob/main/finetuning/Smol_VLM_FT.ipynb

❤9👍2🔥2

5.36K views20:59

About

Blog

Apps

Platform