155K subscribers
3.4K photos
439 videos
17 files
4.16K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️L-MAGIC: Language Model Assisted Generation of Images with Coherence

Новая модель Intel- L-MAGIC
может создавать качественные панорамные сцены на основе одного входного изображения и текстового промпта!

Многочисленные тесты показывают, что модель генерирует панорамные сцены с лучшим расположением сцен и качеством рендеринга по сравнению с аналогичными моделями.

Github: https://github.com/IntelLabs/MMPano
Paper: https://arxiv.org/abs/2406.01843
Project: https://zhipengcai.github.io/MMPano/
Video: https://youtu.be/XDMNEzH4-Ec

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
📖 В Букмейте появился виртуальный рассказчик, умеющий читать книги в реальном времени

Разработан рассказчик на базе комплекса речевых технологий Яндекса с привлечением профессиональных дикторов. При этом воспроизведение текста максимально приближено к естественной речи, поэтому читатели могут с комфортом слушать произведения на протяжении долгого времени.

На Хабре разработчик функции описал процесс адаптации речевых технологий для книг. Сложность состояла в том, что в литературных произведениях есть необычные сокращения и редкие термины — нужно было обучить модель правильному произношению.

▪️ Habr: https://habr.com/ru/companies/yandex/news/820525/

@ai_machinelearning_big_data
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 SF-V — новый метод генерации видео от Snapchat.

SF-V — это метод генерации видео, который позволяет генерировать динамические и согласованные видео за 1 проход.
В исследовании команда из Snapchat берёт обычную многошаговую диффузионную модель, и обучает её улавливать как временные, так и пространственные зависимости в видеоданных для получения цельных видео.

🟡 Страничка SF-V
🖥 GitHub

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🗣 VALLEY 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers

В этой статье Microsoft представили VALL-E 2, новейшее достижение в области языковых моделей , которое знаменует собой важную веху в области синтеза текста в речь (TTS), впервые достигая человеческого уровня.

Эксперименты с датасетами LibriSpeech и VCTK показали, что VALL-E 2 превосходит все предыдущие модели по качеству сгенерированной речи и ее естественности.

Подробности: https://arxiv.org/abs/2406.05370
Демо VALL-E 2 будети доступна здесь: https://www.bing.com/?ref=aka&shorturl=valle2

@ai_machinelearning_big_data
🌟 DeepXDE — библиотека Python для ML и PINN

pip install deepxde

В DeepXDE реализовано множество алгоритмов и поддерживается множество функций:

— DeepXDE позволяет писать код очень лаконично, практически как математическую формулировку

— очень простая работа с геометрическими объектами; примитивами являются — треугольник, прямоугольник, многоугольник, эллипс, звезда, куб, сфера, гиперкуб и гиперсфера; поддерживается работа с облаком точек

— можно учитывать 5 типов граничных условий: Дирихле, Неймана, Робина, периодические и общие, которые могут быть заданы на произвольной области или на множестве точек

В целом, отличная библиотека для PINN и подобных приложений

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Собственную разработку Яндекса YaFSDP выложили в опенсорс

С её помощью можно ускорить обучение больших языковых моделей с открытым исходным кодом до 25%, в зависимости от архитектуры и параметров нейросети.

YaFSDP лучше оптимизирует ресурсы графических процессоров на всех этапах обучения: pre-training (предварительное обучение), supervised fine-tuning (обучение с учителем), alignment (выравнивание модели). Благодаря этому библиотека стала использовать ровно столько памяти GPU, сколько нужно для обучения, а коммуникацию между графическими процессорами теперь ничто не замедляет.

▪️GitHub: https://github.com/yandex/YaFSDP
▪️Habr: https://habr.com/ru/companies/yandex/articles/817509/

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔈 Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language

Исследователи Массачусетского технологического университета CSAIL и Google разработали алгоритм DenseAV, который предсказывает то, что он видит, исходя из того, что он слышит.

Он совершенно не контролируется и не использует текст во время обучения.

Алгоритм может соотносить объекты с видео со звуками, которые они издают.

Возможности DenseAV в области локализации основаны на новом методе dense contrastive loss, который наделяет его мощной способность запоминать и локализовывать слова и звуки по сравнению с широко распространенными методами.

DenseAV значительно превосходит известные методы семантической сегментации по речи и звуку.

Paper: https://arxiv.org/abs/2406.05629
Website: https://mhamilton.net/denseav
Code: https://github.com/mhamilton723/DenseAV
Video: https://youtu.be/wrsxsKG-4eE

@ai_machinelearning_big_data
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Follow-Your-Emoji — метод, позволяющий тонко контролировать движения головы и лица

Причём этот метод позволяет управлять движениями произвольных лиц, в том числе нарисованных в разных стилях, а также скульптур и т.д.
Даже движения морды животных можно так анимировать

Метод основан на недавнем исследовании Yue Ma, Hongyu Liu, Hongfa Wang и их команды из Гонконгского университета, код опубликуют в ближайшем будущем

🟡 Страничка Follow-Your-Emoji с примерами
🖥 GitHub (скоро тут будет код)

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Встречайте Stable Diffusion 3!

Самая лучшая бесплатная модель text-to-image.

Модель с 2 миллиардами параметров работает даже на ноутбуках,

Качество генерации —высочайшее, понимание промтов - на высочайшем уровне, генерирует даже картинки с текстом и все без ошибок!

Анонс
Hugging Face.
ComfyUI

@ai_machinelearning_big_data
🌟 Mozilla выпустила сервис для ИИ-генерации веб-сайтов Solo 1.0

11 июня 2024 года компания Mozilla представила первый мажорный выпуск бесплатного сервиса для ИИ-генерации веб-сайтов под названием Solo.

Платформа для создания сайтов Solo 1.0 использует механизмы машинного обучения для автоматической генерации типовых элементов интерфейса. Проект позиционируется как инструмент, позволяющий пользователю быстро создать стильный и современный персональный или корпоративный сайт, не имея навыков веб-разработки.

Процесс создания сайта на базе решения Solo сводится к определению его тематики, выбору стиля шрифтов и цветовой гаммы, указанию типовых секций, таких как сведения о компании, расписание, отзывы клиентов, примеры работ и контактная информация.

После определения пользователем пожеланий ИИ-система Solo генерирует вариант веб-сайта, а затем предлагает в визуальном режиме адаптировать компоновку на свой вкус и добавить содержимое в шаблоны секций.

Стиль и базовое заполнение генерируется при помощи AI, а подходящие выбранной тематике изображения автоматически подбираются в каталоге Unsplash. Поддерживаются такие дополнительные возможности как вывод баннера согласия с использованием Cookie и SEO-оптимизация.

Публикация созданных сайтов в рамках сервиса бесплатна, а монетизация обеспечивается за счёт платной привязки к собственному домену (никто не мешает пользователю вручную перенести созданный сайт на свой хостинг). В будущем Mozilla планирует расширить спектр доступных стилей и режимов редактирования, а также добавить поддержку генерации изображений Favicon.

🟡 Solo

#иигенератор

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Новый генератор видео Dream Machine от Luma AI.

В отличие от Sora или KLING, он доступен для тестов.


Попробовать можно здесь: https://lumalabs.ai/dream-machine

#нейросеть #генераторвидео

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 PowerInfer-2 — быстрый вывод LLM на смартфоне

Встречайте PowerInfer-2 — высокооптимизированный фреймворк для вывода от LLM, разработанный специально для смартфонов. PowerInfer-2 поддерживает модели до 47B Mixtral MoE, достигая скорости 11,68 токенов в секунду, что в 22 раза быстрее, чем у других современных фреймворков.
При использовании 7B моделей PowerInfer-2 тоже сохраняет высокую скорость

🤗 Hugging Face
🖥 GitHub

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 dstack — open-source cистема оркестрации контейнеров для запуска AI-систем в любом облаке или ЦОДе

pip install "dstack[all]" -U

dstack поддерживает AWS, GCP, Azure, OCI, Lambda, TensorDock, Vast.ai, RunPod и CUDO.
Также можно без проблем использовать dstack для запуска AI-систем на локальных серверах.

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ WebLLM — высокопроизводительный браузерный движок для инференса LLM

npm install @mlc-ai/web-llm

WebLLM позволяет осуществлять вывод LLM непосредственно в браузере с ускорением WebGPU.

WebLLM имеет полную совместимость с API OpenAI: поддерживаются потоковая передача, JSON-режим и многое другое.

Также WebLLM поддерживает целый ряд моделей, включая Llama 3, Phi 3, Gemma, Mistral, Qwen и многие другие

🖥 GitHub
🟡 Доки
🟡 Чат с WebLLM

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM