265K subscribers
3.94K photos
674 videos
17 files
4.53K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
📖 В Букмейте появился виртуальный рассказчик, умеющий читать книги в реальном времени

Разработан рассказчик на базе комплекса речевых технологий Яндекса с привлечением профессиональных дикторов. При этом воспроизведение текста максимально приближено к естественной речи, поэтому читатели могут с комфортом слушать произведения на протяжении долгого времени.

На Хабре разработчик функции описал процесс адаптации речевых технологий для книг. Сложность состояла в том, что в литературных произведениях есть необычные сокращения и редкие термины — нужно было обучить модель правильному произношению.

▪️ Habr: https://habr.com/ru/companies/yandex/news/820525/

@ai_machinelearning_big_data
🔥45👍17🤔2🎅211
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 SF-V — новый метод генерации видео от Snapchat.

SF-V — это метод генерации видео, который позволяет генерировать динамические и согласованные видео за 1 проход.
В исследовании команда из Snapchat берёт обычную многошаговую диффузионную модель, и обучает её улавливать как временные, так и пространственные зависимости в видеоданных для получения цельных видео.

🟡 Страничка SF-V
🖥 GitHub

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍112
🗣 VALLEY 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers

В этой статье Microsoft представили VALL-E 2, новейшее достижение в области языковых моделей , которое знаменует собой важную веху в области синтеза текста в речь (TTS), впервые достигая человеческого уровня.

Эксперименты с датасетами LibriSpeech и VCTK показали, что VALL-E 2 превосходит все предыдущие модели по качеству сгенерированной речи и ее естественности.

Подробности: https://arxiv.org/abs/2406.05370
Демо VALL-E 2 будети доступна здесь: https://www.bing.com/?ref=aka&shorturl=valle2

@ai_machinelearning_big_data
🔥23👍122
🌟 DeepXDE — библиотека Python для ML и PINN

pip install deepxde

В DeepXDE реализовано множество алгоритмов и поддерживается множество функций:

— DeepXDE позволяет писать код очень лаконично, практически как математическую формулировку

— очень простая работа с геометрическими объектами; примитивами являются — треугольник, прямоугольник, многоугольник, эллипс, звезда, куб, сфера, гиперкуб и гиперсфера; поддерживается работа с облаком точек

— можно учитывать 5 типов граничных условий: Дирихле, Неймана, Робина, периодические и общие, которые могут быть заданы на произвольной области или на множестве точек

В целом, отличная библиотека для PINN и подобных приложений

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35🔥32
⚡️ Собственную разработку Яндекса YaFSDP выложили в опенсорс

С её помощью можно ускорить обучение больших языковых моделей с открытым исходным кодом до 25%, в зависимости от архитектуры и параметров нейросети.

YaFSDP лучше оптимизирует ресурсы графических процессоров на всех этапах обучения: pre-training (предварительное обучение), supervised fine-tuning (обучение с учителем), alignment (выравнивание модели). Благодаря этому библиотека стала использовать ровно столько памяти GPU, сколько нужно для обучения, а коммуникацию между графическими процессорами теперь ничто не замедляет.

▪️GitHub: https://github.com/yandex/YaFSDP
▪️Habr: https://habr.com/ru/companies/yandex/articles/817509/

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥156💅2
This media is not supported in your browser
VIEW IN TELEGRAM
🔈 Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language

Исследователи Массачусетского технологического университета CSAIL и Google разработали алгоритм DenseAV, который предсказывает то, что он видит, исходя из того, что он слышит.

Он совершенно не контролируется и не использует текст во время обучения.

Алгоритм может соотносить объекты с видео со звуками, которые они издают.

Возможности DenseAV в области локализации основаны на новом методе dense contrastive loss, который наделяет его мощной способность запоминать и локализовывать слова и звуки по сравнению с широко распространенными методами.

DenseAV значительно превосходит известные методы семантической сегментации по речи и звуку.

Paper: https://arxiv.org/abs/2406.05629
Website: https://mhamilton.net/denseav
Code: https://github.com/mhamilton723/DenseAV
Video: https://youtu.be/wrsxsKG-4eE

@ai_machinelearning_big_data
22👍18🔥9🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Follow-Your-Emoji — метод, позволяющий тонко контролировать движения головы и лица

Причём этот метод позволяет управлять движениями произвольных лиц, в том числе нарисованных в разных стилях, а также скульптур и т.д.
Даже движения морды животных можно так анимировать

Метод основан на недавнем исследовании Yue Ma, Hongyu Liu, Hongfa Wang и их команды из Гонконгского университета, код опубликуют в ближайшем будущем

🟡 Страничка Follow-Your-Emoji с примерами
🖥 GitHub (скоро тут будет код)

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍44🔥145😁1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Встречайте Stable Diffusion 3!

Самая лучшая бесплатная модель text-to-image.

Модель с 2 миллиардами параметров работает даже на ноутбуках,

Качество генерации —высочайшее, понимание промтов - на высочайшем уровне, генерирует даже картинки с текстом и все без ошибок!

Анонс
Hugging Face.
ComfyUI

@ai_machinelearning_big_data
39👍28🔥12❤‍🔥1🤬1🌚1
🌟 Mozilla выпустила сервис для ИИ-генерации веб-сайтов Solo 1.0

11 июня 2024 года компания Mozilla представила первый мажорный выпуск бесплатного сервиса для ИИ-генерации веб-сайтов под названием Solo.

Платформа для создания сайтов Solo 1.0 использует механизмы машинного обучения для автоматической генерации типовых элементов интерфейса. Проект позиционируется как инструмент, позволяющий пользователю быстро создать стильный и современный персональный или корпоративный сайт, не имея навыков веб-разработки.

Процесс создания сайта на базе решения Solo сводится к определению его тематики, выбору стиля шрифтов и цветовой гаммы, указанию типовых секций, таких как сведения о компании, расписание, отзывы клиентов, примеры работ и контактная информация.

После определения пользователем пожеланий ИИ-система Solo генерирует вариант веб-сайта, а затем предлагает в визуальном режиме адаптировать компоновку на свой вкус и добавить содержимое в шаблоны секций.

Стиль и базовое заполнение генерируется при помощи AI, а подходящие выбранной тематике изображения автоматически подбираются в каталоге Unsplash. Поддерживаются такие дополнительные возможности как вывод баннера согласия с использованием Cookie и SEO-оптимизация.

Публикация созданных сайтов в рамках сервиса бесплатна, а монетизация обеспечивается за счёт платной привязки к собственному домену (никто не мешает пользователю вручную перенести созданный сайт на свой хостинг). В будущем Mozilla планирует расширить спектр доступных стилей и режимов редактирования, а также добавить поддержку генерации изображений Favicon.

🟡 Solo

#иигенератор

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49🔥152🥰2🎃1
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Новый генератор видео Dream Machine от Luma AI.

В отличие от Sora или KLING, он доступен для тестов.


Попробовать можно здесь: https://lumalabs.ai/dream-machine

#нейросеть #генераторвидео

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61👍207
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 PowerInfer-2 — быстрый вывод LLM на смартфоне

Встречайте PowerInfer-2 — высокооптимизированный фреймворк для вывода от LLM, разработанный специально для смартфонов. PowerInfer-2 поддерживает модели до 47B Mixtral MoE, достигая скорости 11,68 токенов в секунду, что в 22 раза быстрее, чем у других современных фреймворков.
При использовании 7B моделей PowerInfer-2 тоже сохраняет высокую скорость

🤗 Hugging Face
🖥 GitHub

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56🔥1062🌭2
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 dstack — open-source cистема оркестрации контейнеров для запуска AI-систем в любом облаке или ЦОДе

pip install "dstack[all]" -U

dstack поддерживает AWS, GCP, Azure, OCI, Lambda, TensorDock, Vast.ai, RunPod и CUDO.
Также можно без проблем использовать dstack для запуска AI-систем на локальных серверах.

🖥 GitHub
🟡 Доки

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍9🔥2🐳2
⚡️ WebLLM — высокопроизводительный браузерный движок для инференса LLM

npm install @mlc-ai/web-llm

WebLLM позволяет осуществлять вывод LLM непосредственно в браузере с ускорением WebGPU.

WebLLM имеет полную совместимость с API OpenAI: поддерживаются потоковая передача, JSON-режим и многое другое.

Также WebLLM поддерживает целый ряд моделей, включая Llama 3, Phi 3, Gemma, Mistral, Qwen и многие другие

🖥 GitHub
🟡 Доки
🟡 Чат с WebLLM

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍175🎃1