Машинное обучение digest
59 subscribers
1.69K photos
225 videos
929 links
Download Telegram
🌟 Clapper: Альфа-версия комбайна для визуализации генеративных сценариев.

Clapper - это инструмент визуализации историй, разрабатываемый как пет-проект сотрудником Huggingface Julian Bilcke

Созданный год назад, Clapper не предназначен для замены традиционных видеоредакторов или AI-редакторов, использующих 3D-сцены в качестве исходного материала.
Философия Clapper заключается в том, чтобы каждый мог создавать видео с помощью GenAI-инструментов посредством интерактивного, итеративного и интуитивного процесса, без необходимости использования разных интерфейсов, навыков режиссуры или AI-инженерии.

В Clapper вы не редактируете последовательность видео- и аудиофайлов напрямую, а итерируете (с помощью вашего помощника ИИ) свою историю, используя высокоуровневые абстракции, такие как персонажи, места, погода, временной период, стиль и т. д.

Конечной целью проекта заявлен полностью режиссерский режим, с которым вы можете просто перевести видео в полноэкранный режим, удобно расположиться в режиссерском кресле (или на диване) и, произнося голосом команды своему AI-ассистенту для создания вашего фильма, насладитесь созданным лично Вами шедевром.

⚠️ Это альфа-версия инструмента, который разрабатывают 3 человека. Не стоит ожидать от этого открытого проекта революционных результатов.

Clapper поддерживает интеграцию по API с локальными системами (ComfyUI) и он-лайн сервисами:
HuggingFace, Replicate, ComfuICU, FalAI, ModelsLab, OpenAI, Groq, Google, Anthropic, Cohere, MistralAI, StabilityAI, ElevenLabs, KitsAI.

Проект написан на TypeScript. Необходимые условия перед установкой:

🟠Git LFS;
🟠Bun;
🟠NVM;
🟢Версия Node - 20.15.1.

▶️Установка и запуск:
# Install the dependencies:
# --include=optional to make
# sure deps are installed
bun i

# build the app:
npm run build

# Running the web app:
bun run dev
# first time you go to localhost:3000
# Wait around 1 minute, the app will compile


▶️Второй вариант запуска, с Electron (еще в процессе разработки):
cd packages/app
bun run electron:start

# You can also build Clapper:
cd packages/app
bun run electron:make




📌Лицензирование : GPL v3 licenсe.


🟡Сообщество в Discord
🟡Demo
🖥Github [ Stars: 1.5K | Issues: 15 | Forks: 129]


@ai_machinelearning_big_data

#AI #Storytelling #Clapper #Visialtool
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Awesome FLUX Resources: Все ресурсы по Flux в одном месте.

Экосистема Fluх развивается очень быстро, каждый день появляются новые способы, решения, возможности и инструменты для работы с моделями Fluх онлайн и оффлайн.

Теперь у сообщества FLUX появился обновляемый и упорядоченный Awesome FLUX!


https://awesomeflux.com/


🖥Github [ Stars: 16 | Issues: 0 | Forks: 1]


@ai_machinelearning_big_data

#AI #FLUX #ML #Awesome
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ xGen-MM (BLIP-3): Мультимодальный набор моделей от Saleforce.

Salesforce AI Research представила XGen-MM (BLIP-3) - коллекцию из 4 моделей на основе phi3-mini-instruct с улучшенным обучением и повышенной, согласно бенчмаркам претрейна, производительностью.

XGen-MM (BLIP-3) может использоваться в различных областях - от обработки естественного языка до компьютерного зрения. Он способен понимать сложные, мультимодальные входные данные, что делает его мощным инструментом для различных приложений, от виртуальных помощников до создания контента.

Набор моделей:

🟢xGen-MM-base: базовая модель, обученная на 100 миллиардах пар "изображение-текст" ;
🟢xGen-MM-instruct-singleimg: инструктивная модель, обученная на 1 млн. изображений датасета Cauldron, предназначенная для работы с одиночными изображениями;
🟢xGen-MM-instruct-interleave: инструктивная модель, обученная на Cauldron для работы с несколькими (чередующимися) изображениями;
🟠xGen-MM-instruct-dpo: безопасная инструктивная версия, которая обучалась оптимизации предпочтений на датасете VLFeedback.


📌Лицензирование кода : BSD-3-Clause license.

📌Лицензирование моделей: Apache 2.0 license.


🟡Набор моделей
🟡Arxiv
🟡Google Collab (инференс)
🖥Github [ Stars: 9.4K | Issues: 422 | Forks: 932]


@ai_machinelearning_big_data

#AI #xGEN #LMM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Новостной дайджест

✔️EX.CO представила систему рекомендаций видеоконтента на основе LLM для цифровых издателей.

Презентованная система позволяет издателям предоставлять аудитории наиболее релевантные видеоролики из банка видеоконтента в режиме реального времени, без ручного сопоставления текстовых данных с мультимедиа.
Система показала высокие результаты, достигнув 80% совпадения релевантности и 4-кратного увеличения вовлеченности аудитории по сравнению с отраслевыми стандартами. Среднее количество негативных взаимодействий с видеоплеером уменьшилось на 30-40%.
prnewswire.co.uk

✔️Модель HeAR от Google DeepMind выявляет заболевания с помощью анализа звука.

Google разработал биоакустическую модель под названием Health Acoustic Representations (HeAR), предназначенную для обнаружения заболеваний через анализ звуков. Модель была обучена на 300 миллионах аудиофайлов, включая 100 миллионов звуков кашля.
Индийская компания Salcit Technologies использует HeAR в своем приложении Swaasa для анализа кашля с целью раннего выявления туберкулеза.
HeAR демонстрирует высокую эффективность при меньшем объеме обучающих данных. Модель также может обнаруживать другие заболевания, такие как хроническая обструктивная болезнь легких и, потенциально деменцию.
blockonomi.com

✔️Henrik.ai: мультиконтекстный сервис с ИИ для разработчиков.

Neuralogics представила платформу искусственного интеллекта Henrik которая упрощает процесс разработки программного обеспечения. Пользователи могут создавать функциональные приложения всего лишь с помощью простого запроса.
Henrik.ai основан на концепции "мультиконтекстного интеллекта" которая использует сеть специально обученных AI-моделей для создания комплексных программных систем. Набор моделей позволяет сервису адаптироваться к различным контекстам и сценариям обеспечивая функциональность масштабируемость и безопасность.
Платформа также включает адаптивное обучение которое помогает сервису улучшаться на основе новых данных и взаимодействий с пользователями. Neuralogics акцентирует внимание на этичности и прозрачности решений.
devops.com

✔️Новая система Парето от Recogni оптимизирует вычисления ИИ с минимальными потерями точности.

Компания Recogni Inc представила новую логарифмическую систему чисел под названием Pareto которая оптимизирует вычисления ИИ при минимизации потери точности. Эта система решает проблемы, связанные с высокими вычислительными требованиями генеративных моделей которые требуют petaFLOPS операций.
Система преобразует умножения в сложения, снижает потребление энергии, задержку и размер чипа, сохраняет высокий уровень точности и достигает высокой производительности при значительно меньшем потреблении энергии.
Эта разработка позиционирует Recogni как лидера в области проектирования чипов, особенно для генеративных приложений, предоставляя решение которое балансирует производительность и эффективность без ущерба для качества модели.
siliconangle.com

✔️DeepBrain AI в сотрудничестве с Национальным полицейским агентством Кореи представила решение для обнаружения дипфейков.

Сотрудничество государственного органа и частой компании направлены на борьбу с растущей угрозой преступлений, связанных с подменой личности, которые становятся все более сложными и представляют значительные риски для общества.
Система включает два основных компонента: комплексное и голосовое обнаружение. Она анализирует поведенческие паттерны, такие как углы наклона головы и движения губ, для определения подлинности изображаемого лица. Процесс обнаружения занимает от 5 до 10 минут, после чего контент классифицируется как "настоящий" или "фальшивый".
Система основана на данных, собранных DeepBrain AI, включая один миллион корейских и 130 тысяч азиатских данных.
Продукт доступен как SaaS, а также в виде локальной версии для организаций.
globenewswire.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Microsoft Phi 3.5: Новые instruct модели.

Представлены модели:

Phi-3.5-mini-instruct: 3.82B параметров, 128K контекст, улучшено понимание кода, математические операции, на 5 пунктов подросло знание русского языка (по бенчмарку Multilangual MMLU):

🟢Демо
🟠GGUF-версии от 2-bit (1.32 Gb) до 32-bit (15/3GB)
🟠MLX-верcии для Mac

Phi-3.5-vision-instruct: 4.15B параметров, 128К контекст, улучшено описание графиков и таблиц, суммаризация по нескольким изображениям и видео, классификация художественных стилей по изображению:

🟢Демо
🟠MLX-верcии для Mac

Phi-3.5-MoE-instruct: 16x3.8B параметров, 6.6B активных параметров при использовании 2 агентов, 128К контекст, актуальность датасета обучения - октябрь 2023:

🟢Демо
🟠MLX-верcии для Mac


📌Лицензирование : MIT License

@data_analysis_ml

#AI #Phi #LLM #ML #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Mistral-NeMo-Minitron-8B-Base: Базовая Minitron 8B от Nvidia

NVIDIA и Mistral AI представили модель Mistral-NeMo-Minitron 8B, одну из наиболее точных открытых моделей в своем классе для генерации текста.

Mistral-NeMo-Minitron-8B-Base получена в результате обрезки (pruning) и дистилляции Mistral-NeMo 12B. В процессе создания была урезана размерность эмбеддинга и промежуточная размерность MLP (с 14336 до 11520).
Комбинация применяемых методов позволила оставить количество attention heads и слоев неизменным.

После обрезки было продолжено обучение с дистилляцией, используя корпус данных от Nemotron-4 15B размером 380 миллиардов токенов для получения окончательной модели, что примерно в 40 раз меньше, чем необходимо для тренировки модели такой же плотности с нуля.

Корпус обучения (набор данных) по структуре точно такой же, как в недавно представленной другой модели, собранной по такой же методике обрезки и дистилляции.
Дата актуальности корпуса обучения - июнь 2023 года.

При создании Mistral-NeMo-Minitron 8B использованы техники Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE).
Архитектурные характеристики:

🟢total params - 8B;
🟢active non-embedding params - 7.3B;
🟢embedding size - 4096;
🟢attention heads - 32;
🟢MLP intermediate dimension - 11520;
🟢number of layers - 40;
🟢input context - 8000.

Поддержка Mistral-NeMo-Minitron-8B-Base в Hugging Face Transformers будет реализована в ближайшем обновлении.
Для инференса модели выполните рекомендованные разработчиками инструкции или запустите модель в NeMo v.24.05

Есть неофициальные квантованные (imatrix) GGUF - версии модели в 8 разрядностях, от 1-bit (2. 12 Gb) до 16-bit (16.08 Gb).


📌Лицензирование : NVIDIA Open Model License.


🟡Страница проекта
🟡Модель
🟡Набор GGUF
🟡Arxiv
🟡Demo


@ai_machinelearning_big_data

#AI #NVIDIA #LLM #ML #Minitron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 iMESA:  распределенный алгоритм совместной одновременной локализации и картографирования (C-SLAM) для групп рoботов.


iMESA расширяет алгоритм MESA, используя согласованный метод множителей с переменным направлением (C-ADMM) для пакетных задач C-SLAM.
Он дает возможность роботам обновлять свои локальные решения по мере поступления новых измерений и взаимодействовать друг с другом для поддержания согласованности, предоставляя точные оценки состояния в режиме реального времени при незначительном количестве спораидальных взаимодействий между собой.

iMESA использует возможности оптимизации iSAM2, обеспечивая согласованность оценок состояния с помощью смещенных априорных значений.
Алгоритм масштабируем, хорошо справляется с различными размерами групп и сложностью задач. Он подходит для разработки мультироботных систем в условиях, связанных с развертыванием групп роботов в реальном мире при ограниченных коммуникационных и вычислительные ресурсах.

Программная реализация iMESA выполнена в виде библиотеки C++ с классом IMESAAgent для использования на борту каждого робота. iMESA имеет зависимость от GTSAM версии 4.2.0. Специфические функции разработки, необходимые для iMESA, доступны в ветке 4.2.0-imesa. Тестовые проекты для запуска можно найти в репозитории imesa-experiments.

Поскольку этот пакет представляет собой только библиотеку, чаще всего он будет использоваться в качестве сторонней зависимости в вашем проекте. Используйте FetchContext для доступа к библиотеке iMESA, включите iMESA как зависимость в свой проект, добавив в файл CMakeLists.txt:


include(FetchContent)
FetchContent_Declare(
imesa
GIT_REPOSITORY https://github.com/rpl-cmu/imesa.git
GIT_TAG main
)
FetchContent_MakeAvailable(imesa)



📌Лицензирование : MIT license


🟡Arxiv
🖥Github [ Stars: 69 | Issues: 1 | Forks: 4]


@ai_machinelearning_big_data

#AI #MESA #Robots #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Новостной МЛ дайджест 22 августа 2024.

✔️ Epic Systems создает более 100 новых функций ИИ для врачей и пациентов.

Epic Systems, ведущий поставщик программного обеспечения в сфере здравоохранения, интегрирует более 100 новых функций ИИ в свои платформы MyChart и Cosmos.

✔️ Новый веб-бот Werth,thuf незаметно собирает в интернете данные для обучения ИИ.

Новый веб-сканер под названием External Agent для сбора данных из интернета с целью обучения своих моделей. Бот начал свою работу в прошлом месяце, он сканирует открытые данные на сайтах, тексты новостных статей и обсуждения в онлайн-группах. External Agent пока блокируется лишь на 2% популярных сайтов, в то время как аналогичный по назначению бот OpenAI, GPTBot — на 25%.

✔️ Sapiens: новая SOTA ViTs для задач CV, связанных с обнаружением людей

✔️ Запущен Ideogram 2.0.

Новая txt-2-img модель превосходит предыдущие по качеству, точнее следуют промпту и корректней генерирует тест на изображениях.

✔️ Опубликован регулярный рейтинг "Top 100 Gen AI Consumer Apps" венчурного фонда Andreessen Horowitz.
четом за март 2024 г.

В первую десятку рейтинга веб-продуктов вошли : ChatGPT, character.ai, perplexity, Claude, SUNO, JanitorAI, QuillBot, Poe, liner и Civitai.

Десятка лучших мобильных приложений с ИИ: ChatGPT, Microsoft Edge, photomath, NOVA, Bing, Remini, Chat&Ask AI, BRAINLY, meitu и character.ai.

✔️ Neuroplatform: "Живые компьютеры", созданные из человеческих нейронов.

Органоиды, размером 0,5 миллиметра, соединены с электродами, которые стимулируют нейроны и имитируют естественные процессы, например, выделение дофамина.

FinalSpark предоставляет доступ к своим "биокомпьютерам" для исследователей из 34 университетов.


✔️ Skyfire запускает систему, позволяющую автономным агентам ИИ тратить деньги от вашего имени.

Компания, получившая 8,5 миллиона долларов в рамках начального раунда финансирования, стремится стать "Visa для ИИ", предоставляя ИИ-агентам возможность управлять балансами счетов, отправляя и принимая платежи.

Платформа уже доступна для разработчиков агентного ИИ и интеграции с различными сервисами.

✔️ Виртуальная fashion-модель Mango, созданная с помощью ИИ, стала вирусной в социальных сетях.

Модель "Mango AI", демонстрирующая коллекцию осень-зима 2024 года испанского бренда Mango привлекла внимание пользователей благодаря своей реалистичности и стилю.

✔️ D-ID запустила перевод видео с помощью ИИ, включающий Voice Clone и Lipsync.

Новый инструмент, доступный для подписчиков D-ID, представлен в D-ID Studio и по API, он поддерживает 30 языков, включая русский, мандаринский, японский, хинди, испанский и французский. Технология основана на собственных разработках D-ID.

✔️ Игровой ИИ-стартап анонсировал инструменты для gamedev на базе GenAI.

ИИ-стартап Exists анонсировал платформу "text-to-game", которая позволяет создавать компьютерные 3D-игры на основе текстовых подсказок, не требуя навыков в написании кода.

Анонсированный сервис использует запатентованные модели генеративного GenAI Exists для создания игрового окружения, персонажей и механики. Интегрируя архитектуру нейронных сетей с возможностями игрового движка, компания стремится упростить процесс создания игр.

✔️ Napkin AI: дешевая и простая альтернатива Adobe и Canva.

Napkin AI - это инструмент для заметок и генерации визуальных материалов из текста, который можно использовать для презентаций, статей, отчетов. Сервис быстро создает уникальные графические элементы за 10-30 секунд и поддерживает несколько языков - английский, немецкий, французский, японский и китайский.

📌 Подробнее

@ai_machinelearning_big_data

#news #ai #ml #tech
🌟 Только что вышла модель Jamba 1.5.

Архитектура SSM-Transformer сочетает в себе качество Transformer и эффективность Mamba, меньший объем занимаемой памяти, более легкую тонкую настройку в длинных контекстах.

🚀 Jamba 1.5: новое открытое семейство LLM от AI21
- Варианты Mini и Large
- Новая архитектура SSM-трансформатора e
- Гибридная модель SSM-трансформера на основе смеси экспертов (MoE)

📏 Контекстное окно:
- 256K лексем (самое длинное среди открытых моделей)
- Поддерживает качество на протяжении всего контекста

Скорость:
- До 2,5 раз быстрее на длинных контекстах
- Jamba 1.5 Mini: Самый быстрый на 10K контекстах (тест искусственного анализа)

🏆 Производительность:
- Jamba 1.5 Mini: 46,1 в бенчмарке Arena Hard
- Jamba 1.5 Large: 65.4 в бенчмарке Arena Hard (превосходит Llama 3.1 70B и 405B)

💾 Новая техника квантования: ExpertsInt8
- Предназначена для моделей MoE
- Квантует веса MoE/MLP в INT8
- Самая низкая задержка среди техник квантования vLLM
- Mini позволяет разместить до 140K контекстов в одном A100

🌐 Особенности:
- Многоязыковая поддержка
- Вывод JSON, вызов функций, объекты документов, цитаты

🔧 Примеры использования:
- Анализ документов, рабочие процессы RAG, поддержка клиентов

🖥️ Доступность:
- Несколько платформ: AI21 Studio, Google Cloud, Azure, Hugging Face, NVIDIA NIM.

Поддерживается в трансформаторах и VLLM

Официальное объявление - https://ai21.com/blog/announcing-jamba-model-family

ВЧ-модель - https://huggingface.co/collections/ai21labs/jamba-15-66c44befa474a917fcf55251

@machinelearning_ru