279K subscribers
3.94K photos
674 videos
17 files
4.53K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 FaceFusion — замена лица / улучшение фотографии в 1 команду

FaceFusion — это open-source инструмент для замены лица на фотографии и для улучшения изображения

Для необходимого действия с фото нужно просто запустить файл run.py с нужными опциями (на последнем изображении):
python run.py ...

Ну или можно использовать удобный UI вместо прописывания команд

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29👍103🤣3🥰1👌1🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Только что выпущена версия Jina CLIP v1: новая современная мультимодальная модель, которая превосходит OpenAI CLIP в задачах извлечения изображений по текстовому описанию😍

Модель совместима с 🤗 Transformers.js версией 3 и работает с ускорением WebGPU! ⚡️

📌 Попробуйте демо-версию:
https://huggingface.co/spaces/Xenova/webgpu-jina-clip?v2=
📌 Статья: https://arxiv.org/abs/2405.20204

@ai_machinelearning_big_data
🔥29👍163
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ ElevenLabs запустил ИИ-генератор звуковых эффектов

Компания ElevenLabs представила инструмент на базе генеративного ИИ под названием AI Sound Effects, который способен генерировать по текстовому запросу любые звуковые эффекты.
ElevenLabs заявила, что использовала аудиотеку Shutterstock, содержащую лицензионные треки, в качестве инструмента для обучения своей модели.

Сервис генерирует звуки продолжительностью до 22 секунд на основе подсказок пользователя, их можно комбинировать с голосовой и музыкальной платформой компании. Он предоставляет как минимум четыре варианта загружаемых аудиоклипов.

Есть бесплатная и платная версии. При бесплатном доступе будет установлен лимит в 10 тысяч символов, пользователь обязан ссылаться при публикации клипа на ElevenLabs, добавив в заголовок elevenlabs.io. При создании звуковых эффектов будет взиматься 40 символов за секунду аудио. По умолчанию каждый запрос будет стоить 200 символов. При платном доступе пользователи получают коммерческую лицензию на свободное использование сгенерированных клипов.

▶️ Попробовать Sound Effects ElevenLabs

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥114
🌟 Stability AI опубликовала открытую модель Stable Audio для генерации музыки

Stability AI опубликовала в открытом доступе модель Stable Audio, предназначенную для генерации музыки, звуковых эффектов и окружения.

Stable Audio Open — открытая модель в формате Text-to-Audio, которая генерирует 47-секундные музыкальные семплы и звуковые эффекты. К примеру, можно попросить нейросеть создать партию на фортепиано, барабанный бит, гитарный риф, пение соловья или шум дождя. Для генерации надо отправить текстовый запрос. Примечательно, что пользователи могут генерировать музыку на своих данных. К примеру, барабанщик может загрузить записи своих битов и на их основе создавать новые.

В блоге компании рассказали, что открытая модель отличается от одноимённой коммерческой. Закрытая версия Stable Audio может генерировать трёхминутные треки с проработанной структурой. Также поддерживается режим Audio-to-Audio, в котором в качестве запроса можно передать уже готовый трек.

Открытую модель Stable Audio Open обучили на данных сервисов FreeSound и Free Music Archive, что позволило соблюсти все требования к авторским правам. При этом для доступа к нейросети всё равно необходимо ознакомиться с лицензией использования.

🤗 Модель и веса опубликованы на Hugging Face.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27👍122😁1
⚡️ Qwen2 - самый крутой релиз откртых LLM со времен Llama 3!

Alibaba только что выпустили свое новое семейство мультиязычных моделей, которых превосходят по производительности Llama 3 по многим параметрам.

🤯 Qwen2 выпущен в 5 размерах и понимает 27 языков. В таких задачах, как написания кода и решения математических задач, Llama3 остает на всех тестах.


5️⃣ Размеры: 0.5B, 1.5B, 7B, 57B-14B (MoE), 72B.
Контекст: 32k для 0.5B & 1.5B, 64k для 57B MoE, 128k для 7B и 72B
Поддерживает 29 языков.
📜 Выпущены под лицензией Apache 2.0, за исключением версии 72B.

📖 BLOG: https://qwenlm.github.io/blog/qwen2/
🤗 HF collection: https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
🤖 https://modelscope.cn/organization/qwen
💻 GitHub: https://github.com/QwenLM/Qwen2

@ai_machinelearning_big_data
🔥65👍153🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Мультиплеер Stable Audio, который можно запустить на Hugging Face

Генерируйте аудио из текстового описания, делитесь и учитесь у других, как наилучшим образом использовать эту новую модель.

🤗 Попробовать на Hugging Face

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥113😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 NeRF-Insert — редактирование 3D-сцены с помощью текстового промпта или с помощью изображения

NeRF-Insert позволяет добавить объект в 3D-сцену с помощью мультимодальных входных сигналов: текстового промпта или опорного изображения.
Можно определить область 3D-сцены, которая будет меняться, нарисовав всего 2-3 маски.
При желании можно отображать полигональную сетку, чтобы иметь больше контроля над положением или формой вставляемого объекта.

▶️ Страничка NeRF-Insert
🟡 Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥112😍2
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 aider — AI-напарник для программирования с консольным интерфейсом

pip install aider-chat

# для работы с GPT-4o
export OPENAI_API_KEY=your-key-goes-here
aider

# для использование Claude 3 Opus:
export ANTHROPIC_API_KEY=your-key-goes-here
aider --opus


Aider получил высший балл на SWE Bench — сложном бенчмарке, в котором Aider решал реальные проблемы на GitHub из популярных проектов с открытым исходным кодом, таких как django, scikitlearn, matplotlib и др.

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍375🔥4🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
🎙 Real-time in-browser speech recognition

Распознавание речи в браузере в режиме реального времени с помощью OpenAI Whisper! ⚡️

Модель полностью работает на девайсах, на основе Transformers.js и ANNEX Runtime Web и поддерживает 100 различных языков! 🔥

Демо-версиия (+ исходный код)! 👇

Сode: https://github.com/xenova/transformers.js/tree/v3/examples/webgpu-whisper
Hf: https://huggingface.co/spaces/Xenova/realtime-whisper-webgpu

@ai_machinelearning_big_data
👍35🔥186🦄1
Flash Diffusion — ускорение любой диффузионной модели генерации изображений в несколько шагов

Так называется работа, которую на днях опубликовали Clément Chadebec, Onur Tasar и их коллеги.
Это метод дистилляции для создания быстрых диффузионных моделей.
При обучении модели таким методом на наборах данных COCO2014 и COCO2017 показатели FID и CLIP-Score достигают хороших значений; при этом требуется всего несколько часов обучения на GPU и меньшее количество параметров модели, чем требуют существующие методы.

🟡 Страничка Flash Diffusion
🖥 GitHub

🤗 Flash SD
🤗 Flash SDXL

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27👍182
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Micro Agent будет писать код до тех пор, пока тот не будет соответствовать тестам

npm install -g @builder.io/micro-agent

Micro Agent — это маленький AI-агент, который заточен под одно применение: агент пишет тест, а потом пишет под этот тест код.
По задумке, такой подход должен гарантировать как минимум валидность кода, а как максимум — код будет решать все поставленные задачи

🖥 GitHub

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71🔥154🤔4🥰2🤣2
🌟 xLSTM — Расширенная долговременная краткосрочная память

pip install xlstm

Не так давно был пост со статьёй Arxiv об архитектуре xLSTM, и вот команда исследователей xLSTM опубликовала код на GitHub.
xLSTM — это новая архитектура рекуррентной нейронной сети, основанная на идеях привычной нам LSTM. Благодаря экспоненциальному гейтингу с соответствующими методами нормализации и стабилизации и новой матричной памяти она преодолевает ограничения оригинальной LSTM и демонстрирует производительность при обработке естественного языка по сравнению с трансформерами или другими архитектурами.

🖥 GitHub
🟡 Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
26👍26🔥7