280K subscribers
3.95K photos
675 videos
17 files
4.54K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 Omost — использование мощи LLM, пишущих код, для генерации изображений

Проект Omost предоставляет LLM, которые будут писать коды для компоновки фрагментов изображений с помощью виртуального агента Canvas. Таким образом можно сгенерировать даже сложные изображения с хорошим качеством.

В настоящее время Omost предоставляет 3 предобученные LLM, основанные на вариациях Llama3 и Phi3.

Все модели обучены на смешанных данных, состоящих из
(1) точных описаний изображений из нескольких датасетов, включая Open-Images,
(2) данных, полученных путем автоматического аннотирования изображений,
(3) данных от DPO,
(4) небольшого количества данных от мультимодальной GPT4o

На последних 2 изображениях приведён код, который необходим для генерации изображения таким образом

🖥 GitHub
🤗 Попробовать на Hugging Face

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍161
🌟 FaceFusion — замена лица / улучшение фотографии в 1 команду

FaceFusion — это open-source инструмент для замены лица на фотографии и для улучшения изображения

Для необходимого действия с фото нужно просто запустить файл run.py с нужными опциями (на последнем изображении):
python run.py ...

Ну или можно использовать удобный UI вместо прописывания команд

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29👍103🤣3🥰1👌1🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Только что выпущена версия Jina CLIP v1: новая современная мультимодальная модель, которая превосходит OpenAI CLIP в задачах извлечения изображений по текстовому описанию😍

Модель совместима с 🤗 Transformers.js версией 3 и работает с ускорением WebGPU! ⚡️

📌 Попробуйте демо-версию:
https://huggingface.co/spaces/Xenova/webgpu-jina-clip?v2=
📌 Статья: https://arxiv.org/abs/2405.20204

@ai_machinelearning_big_data
🔥29👍163
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ ElevenLabs запустил ИИ-генератор звуковых эффектов

Компания ElevenLabs представила инструмент на базе генеративного ИИ под названием AI Sound Effects, который способен генерировать по текстовому запросу любые звуковые эффекты.
ElevenLabs заявила, что использовала аудиотеку Shutterstock, содержащую лицензионные треки, в качестве инструмента для обучения своей модели.

Сервис генерирует звуки продолжительностью до 22 секунд на основе подсказок пользователя, их можно комбинировать с голосовой и музыкальной платформой компании. Он предоставляет как минимум четыре варианта загружаемых аудиоклипов.

Есть бесплатная и платная версии. При бесплатном доступе будет установлен лимит в 10 тысяч символов, пользователь обязан ссылаться при публикации клипа на ElevenLabs, добавив в заголовок elevenlabs.io. При создании звуковых эффектов будет взиматься 40 символов за секунду аудио. По умолчанию каждый запрос будет стоить 200 символов. При платном доступе пользователи получают коммерческую лицензию на свободное использование сгенерированных клипов.

▶️ Попробовать Sound Effects ElevenLabs

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥114
🌟 Stability AI опубликовала открытую модель Stable Audio для генерации музыки

Stability AI опубликовала в открытом доступе модель Stable Audio, предназначенную для генерации музыки, звуковых эффектов и окружения.

Stable Audio Open — открытая модель в формате Text-to-Audio, которая генерирует 47-секундные музыкальные семплы и звуковые эффекты. К примеру, можно попросить нейросеть создать партию на фортепиано, барабанный бит, гитарный риф, пение соловья или шум дождя. Для генерации надо отправить текстовый запрос. Примечательно, что пользователи могут генерировать музыку на своих данных. К примеру, барабанщик может загрузить записи своих битов и на их основе создавать новые.

В блоге компании рассказали, что открытая модель отличается от одноимённой коммерческой. Закрытая версия Stable Audio может генерировать трёхминутные треки с проработанной структурой. Также поддерживается режим Audio-to-Audio, в котором в качестве запроса можно передать уже готовый трек.

Открытую модель Stable Audio Open обучили на данных сервисов FreeSound и Free Music Archive, что позволило соблюсти все требования к авторским правам. При этом для доступа к нейросети всё равно необходимо ознакомиться с лицензией использования.

🤗 Модель и веса опубликованы на Hugging Face.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27👍122😁1
⚡️ Qwen2 - самый крутой релиз откртых LLM со времен Llama 3!

Alibaba только что выпустили свое новое семейство мультиязычных моделей, которых превосходят по производительности Llama 3 по многим параметрам.

🤯 Qwen2 выпущен в 5 размерах и понимает 27 языков. В таких задачах, как написания кода и решения математических задач, Llama3 остает на всех тестах.


5️⃣ Размеры: 0.5B, 1.5B, 7B, 57B-14B (MoE), 72B.
Контекст: 32k для 0.5B & 1.5B, 64k для 57B MoE, 128k для 7B и 72B
Поддерживает 29 языков.
📜 Выпущены под лицензией Apache 2.0, за исключением версии 72B.

📖 BLOG: https://qwenlm.github.io/blog/qwen2/
🤗 HF collection: https://huggingface.co/collections/Qwen/qwen2-6659360b33528ced941e557f
🤖 https://modelscope.cn/organization/qwen
💻 GitHub: https://github.com/QwenLM/Qwen2

@ai_machinelearning_big_data
🔥65👍153🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Мультиплеер Stable Audio, который можно запустить на Hugging Face

Генерируйте аудио из текстового описания, делитесь и учитесь у других, как наилучшим образом использовать эту новую модель.

🤗 Попробовать на Hugging Face

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥113😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 NeRF-Insert — редактирование 3D-сцены с помощью текстового промпта или с помощью изображения

NeRF-Insert позволяет добавить объект в 3D-сцену с помощью мультимодальных входных сигналов: текстового промпта или опорного изображения.
Можно определить область 3D-сцены, которая будет меняться, нарисовав всего 2-3 маски.
При желании можно отображать полигональную сетку, чтобы иметь больше контроля над положением или формой вставляемого объекта.

▶️ Страничка NeRF-Insert
🟡 Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥112😍2
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 aider — AI-напарник для программирования с консольным интерфейсом

pip install aider-chat

# для работы с GPT-4o
export OPENAI_API_KEY=your-key-goes-here
aider

# для использование Claude 3 Opus:
export ANTHROPIC_API_KEY=your-key-goes-here
aider --opus


Aider получил высший балл на SWE Bench — сложном бенчмарке, в котором Aider решал реальные проблемы на GitHub из популярных проектов с открытым исходным кодом, таких как django, scikitlearn, matplotlib и др.

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍375🔥4🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
🎙 Real-time in-browser speech recognition

Распознавание речи в браузере в режиме реального времени с помощью OpenAI Whisper! ⚡️

Модель полностью работает на девайсах, на основе Transformers.js и ANNEX Runtime Web и поддерживает 100 различных языков! 🔥

Демо-версиия (+ исходный код)! 👇

Сode: https://github.com/xenova/transformers.js/tree/v3/examples/webgpu-whisper
Hf: https://huggingface.co/spaces/Xenova/realtime-whisper-webgpu

@ai_machinelearning_big_data
👍35🔥186🦄1