Machinelearning – Telegram

Machinelearning

@ai_machinelearning_big_data

279K subscribers

3.95K photos

675 videos

17 files

4.54K links

Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri

Download Telegram

About

Blog

Apps

Platform

Machinelearning

279K subscribers

Machinelearning

🖥

Unstructured — библиотека Python для предобработки сырых данных

— pip install "unstructured[all-docs]"

Unstructured предоставляет компоненты для предобработки изображений, текстовых документов; поддерживает многие форматы: PDF, HTML, Word docs и др.

Запустить библиотеку в контейнере:

docker run -dt --name unstructured downloads.unstructured.io/unstructured-io/unstructured:latest
docker exec -it unstructured bash

🖥

🟡

Доки

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤18👍13🔥8

15.4K views20:02

Machinelearning

⚡️ Gemma 2 9B GGUF — набор квантизованных версий Gemma 2

Встречайте набор моделей, полученных квантизацией Gemma 2 с разной степенью сжатия.
Для квантизации использовался этот датасет

Особенности:
- GGuf версии очень слабы, более-менее адекватная - 9B (Q4 и Q5)
- Фокус "специализации": текст (стилистика, словарный запас, обсуждения), применимо только к English-language content, программирование - обучение синтаксису и паттернам написания кода ( прокачка скиллов модели по ЯП не уточняются), математика - решение задач, логика постоения ответов.
- Модель не поддерживает системные промты

🤗 Hugging Face

🟡

Неквантизованная Gemma 2

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14👍7❤4🤨1

16.7K views09:38

Machinelearning

🌟

CriticGPT — модель на основе GPT-4, которая помогает увидеть ошибки в ответах ChatGPT

Вчера OpenAI выкатили CriticGPT, которая пишет критические замечания к ответам ChatGPT для нахождения ошибок в ответе, что особенно полезно для RLHF (обучения с подкреплением на основе человеческой обратной связи).

А вот статья от OpenAi - "LLM Critics Help Catch LLM Bugs - для технарей, о том, как создавался CriticGPT.

Из нее следует, что:
- аннотаторам-людям в 63 % случаев больше нравились критические заметки CriticGCO, сделанные CriticGPT, чем заметки, сделанные людьми, особенно когда речь шла о поиске ошибок, связанных с LLM ( это к пункту поста про 60%), как видите - формулировка отличается, смысл совершенно другой.

- новая техника под названием "Force Sampling Beam Search" используется в CriticGPT, чтобы помочь критикам писать более качественные и подробные рецензии.Этот метод также снижает вероятность "галлюцинаций", которые возникают, когда ИИ делает или предлагает ошибки, которых нет или которые не имеют значения. В CriticGPT одним из важнейших преимуществ является то, что пользователи могут изменять степень тщательности поиска ошибок.

То есть процесс не автоматический, вовлеченность человека важна на ранних этапах

- CriticGPT не справляется с длинными и сложными заданиями по кодированию, поскольку обучался на коротких ответах ChatGPT

- CriticGPT не всегда находит ошибки, которые распространяются на несколько участков кода

Плюсы:
- Безусловно, это большой шаг вперед в области рецензирования кода с помощью ИИ.

- Он улучшит прикладной подход рецензирования кода, позволит сочетать возможности GPT-4 с продвинутым обучением и новыми методами контроля качества ответов.

🟡

Б лог-пост OpenAI

🟡

Статья

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍41🔥13❤6🥰2

18.8K views13:40

Machinelearning

⚡️ Microsoft обновила собственный бесплатный курс по генеративному ИИ

В курсе видео, практика (код) и дополнительные материалы.
Пргорамма курса состоит из изучения структуры и работы LLM, тонкостям промптинга, созданию собственного приложения для генерации изображений, функционалу RAG для LLM и принципам файнтюна.

📌 А здесь мы вылудили полный список бесплатных курсов.

Для прохождения курса нужны:
- учетная запись на Azure
- доступ к api OpenAI

Разумеется, все методики и манипуляции предлагается выполнять обучающимся в экосистеме Microsoft, на их мощностях и с использованием их сервисов.

Бэкенд учебного приложения для генерации картинок - DALLE и Midjourney.

Большие надежды строить относительно курса не стоит - экосисистема Microsoft требует отдельных компетенций, но в качестве базового структурированного курса для новичков - вполне подойдет.

🖥

Курс полностью выложен на Github: https://github.com/microsoft/generative-ai-for-beginners

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

👍47❤15🔥3

18.7K viewsedited 09:26

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

🔥 Depth Anything v2: Новый уровень построение карты глубины

Версия 2 значительно улучшена за счет комбинации уточненных синтетических данных и hi-res набора реальных изображений в датасете обучения. Диапазон параметров моделей - от 25М до 1.3B. 💙

👉 Линейка моделей:
- Depth-Anything-V2-Small (24.8М) Apache-2.0
- Depth-Anything-V2-Base (97.5М) CC-BY-NC-4.0
- Depth-Anything-V2-Large (335М) CC-BY-NC-4.0
- Depth-Anything-V2-Giant (1.3В) CC-BY-NC-4.0 Coming soon

👉 Реализовано использование V2:
- TensorRT
- ONNX
- ComfyUI
- Transformers.js (real-time depth in web)
- Android

▪Paper
▪Project
▪Repo
▪Demo

@ai_machinelearning_big_data

🔥29👍16❤6🤔1

14.4K views10:01

Machinelearning

🌟 ManiWAV:— обучение роботизированные системы аудио-визуальному самоконтролю.

Исследователи из Stanford и Сolambia University при поддержке Toyota Research Institute разработали метод аудиовизуального обучения роботизированных манипуляторов, который превосходит некоторые альтернативные подходы по контактным операциям и может быть применим к любой релевантной промышленной среде.
https://github.com/real-stanford/maniwav/blob/main/assets/audio_teaser.jpg?raw=true
Для самостоятельного тестирования и применения нужны:
- совместимость с Universal Manipulation Interface (UMI)
- установить микрофоны на целевой манипулятор (рекомендации + модель грипера с держателем)
- загрузить датасет и модель

Доступны режимы тренировки и тестирования ( под ссылками строки кода для выполнения команд)
Тренировка выполняется при помощи CUDA, рекомендованный GPU: NVIDIA GeForce RTX 3090 24 GB, но есть поддержка multi-GPU

🟡 Страница проекта ManiWAV
🟡 Paper
🟡Summary Video
🖥 GitHub

@ai_machinelearning_big_data

👍27🔥10❤3

13.4K views13:04

Machinelearning

🌟 Paint by Inpaint — высокоточный Instruct pix2pix по текстовому запросу.

Navve Wasserman с коллегами представили улучшенный вариант Instruct pix2pix - "Paint by Inpaint". Методика улучшения:

— был создан конвейер обработки изображений, который с помощью модели inpaint добавлял объекты на изображения. Затем, сравнивая исходное изображение с полученным, вычиталась разница — так получился датасет PIPE

— датасет PIPE был аннотирован большой моделью VLM и обработан для устранения артефактов маскированя объектов — так получился набор высокодетализированных объектов для вычитания

— эти два противоположных процесса: удаление и добавление объектов совместили, примменя контроль большей точностью (аналогично GAN), в результате чего была получена модель, очень точно добавляющая объекты на изображения по текстовому запросу.

Предобученные модели Paint-By-Inpaint:

- addition-base-model - базовое добавление объектов
- addition-finetuned-model - файнтюн на датасете MagicBrush
- general-base-model - удаление и добавление объектов
- general-finetuned-model - файнтюн на датасете MagicBrush

Датасет PIPE для обучения и тестирования на HuggingFace

Пример загрузки тестового набора:


from datasets import load_dataset
from torch.utils.data import DataLoader
from dataset.dataset import PIPE_Dataset

data_files = {"train": "data/train-*", "test": "data/test-*"}
pipe_dataset  = load_dataset('paint-by-inpaint/PIPE',data_files=data_files)

train_dataset = PIPE_Dataset(pipe_dataset, split='train')
train_dataloader = DataLoader(train_dataset, batch_size=32, shuffle=True)

test_dataset = PIPE_Dataset(pipe_dataset, split='test')
test_dataloader = DataLoader(test_dataset, batch_size=1, shuffle=True)

▪ Страница проекта Paint by Inpaint
▪ Paper
▪ Demo
▪ GitHub

@ai_machinelearning_big_data

👍30🔥5❤4❤‍🔥2

12.8K views09:12

Machinelearning

🔥

Microsoft незаметно обновила Phi-3 Mini

— значительно улучшено понимание кода на Python, C++, Rust и Typescript
— улучшен вывод, теперь он более структурированный
— улучшено понимание сложных предложений
— добавлена поддержка тега <|system|>.
— улучшена способность к рассуждению и понимание длинного контекста

Это обновление коснулось контрольных точек 4K и 128K

🤗 Hugging Face

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

❤30🔥9👍8❤‍🔥2😁2🥱2

14K views13:32

Machinelearning

🔥ESPNet XEUS - новая SoTA распознавания речи.

Мультиязычная модель распознавания речи и перевода от Университета Карнеги-Меллона, которая обучена более чем 4000 языкам! 🔥

> Лицензия MIT
> 577 миллионов параметров.
> Превосходит MMS 1B и w2v-BERT v2 2.0
> Архитектура E-Branchformer
> Датасет 8900 часов аудиозаписей на более чем 4023 языках

git lfs install
git clone https://huggingface.co/espnet/XEUS

▪ HF: https://huggingface.co/espnet/xeus
▪ Dataset: https://huggingface.co/datasets/espnet/mms_ulab_v2

@ai_machinelearning_big_data

👍35🔥8❤4❤‍🔥1

15.1K views22:08

Machinelearning

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

DragAnything — метод анимирования чего угодно на изображении

По сравнению с аналогичными методами, DragAnything обладает рядом преимуществ. Во-первых, DragAnything, позволяет явно указать траекторию движения объекта.

Во-вторых, DragAnything позволяет управлять движением любых объектов, включая фон.

Ну и наконец, DragAnything позволяет одновременно управлять движением нескольких объектов.

🟡

Страничка DragAnything

🖥

🟡

Arxiv

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍34🔥8❤4❤‍🔥1

12.3K views13:37

Machinelearning

🌟

MoMA — open-source модель от ByteDance для генерации изображений по референсу.

MoMA не требует обучения и позволяет быстро генерировать изображения изображения с высокой точностью детализации и сохранением идентичности.
Скорость MoMA обеспечивается оптимизацией механизма внимания, который передает признаки исходного изображения в диффузионную модель.
Модель является универсальным адаптером и может быть применена к различным моделям без изменений.
На сегодняшний день MoMA превосходит в синтетических тестах аналогичные существующие методы и позволяет создавать изображения с высоким уровнем соответствия промпту максимально сохраняя стиль референсного изображения.

✍️ Рекомендованые параметры оптимизации потребления VRAM :

22 GB or more GPU memory:

args.load_8bit, args.load_4bit = False, False

18 GB or more GPU memory:

args.load_8bit, args.load_4bit = True, False

14 GB or more GPU memory:

args.load_8bit, args.load_4bit = False, True

🟡

Страничка MoMA

🖥

GitHub
🤗 Hugging Face

🟡

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥18👍12❤8❤‍🔥3🗿1

13K views16:04

Machinelearning

⚡️ Long-CLIP — набор моделей на основе CLIP для работы с длинными текстовыми описаниями.

Long-CLIP — это модифицированная вариация классического CLIP, поддерживающая обработку до 248 текстовых токенов и позволяющая генерировать точные изображения на основе длинного промпта.

Тестирование Long-CLIP на 1 миллионе пар "текст - изображение" показало превосходство над CLIP на 20% при работе с длинным текстовым описанием и на 6% при работе с обычным.

🟡

🖥

🟡

Arxiv

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20❤10🔥3😁2

11.4K views09:44